在排序文件中使用二分搜索实现超快速自动完成（300000 行）

发布于 2024-09-19 04:35:17 字数 379 浏览 7 评论 0原文

在我的 Android 应用程序中，我想要一个具有自动完成功能的输入字段。项目数量约为 300000。最好的解决方案似乎是将项目放入一个文件中（在 SD 卡上），每行一个项目，每行将具有相同数量的字符，以便我可以查找特定的行号。如果用户在文本字段中输入内容，我将二进制搜索（通过 RandomAccessFile）文件并显示建议。

我希望自动完成速度超级快（理想情况下低于 100 毫秒，但我想这是不可能的），我可以做哪些优化？

更新1： 我将把用户输入转换为带有空格的小写英文字符（az）。因此“A/b”将被转换为“a b”，然后进行搜索。

Uodate 2： 我现在意识到我需要额外的东西 - 搜索以单词开头的子字符串。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

娇女薄笑 2024-09-26 04:35:18

您正在寻找的称为 TRIE

http://forums.sun.com/thread.jspa ?threadID=5295936

在计算机科学中，特里树或前缀树是一种有序树数据结构，用于存储关联数组，其中键通常是字符串。与二叉搜索树不同，树中没有节点存储与该节点关联的键；相反，它在树中的位置显示了它与哪个键关联。节点的所有后代都有与该节点关联的字符串的公共前缀，并且根与空字符串关联。值通常不与每个节点相关联，仅与叶节点和一些与感兴趣的键相对应的内部节点相关联。

回复收藏 0 原文

段念尘 2024-09-26 04:35:18

为什么不只使用 SQLite DB 而不是文本文件？
我认为在您的情况下，您无法比便携式数据库做得更快。

回复收藏 0 原文

苏佲洛 2024-09-26 04:35:18

Trie 是显而易见的答案，并且已经提到过，但另外 tr13 库可能就是您正在查看的内容。它是垃圾收集器友好的（单个原始字节数组或字节缓冲区），紧凑，并且对于您的情况来说绝对足够快。键通常是 UTF-8 字符串，但也可以是任何字节序列。值同样如此，尽管还有可变长度整数（vints）的替代方案，用于获得非常紧凑的字符串到整数的查找（特别是对于较小的整数集）。

回复收藏 0 原文

懷念過去 2024-09-26 04:35:18

一种策略是使用 RandomAccessFile 和二分搜索来缩小结果范围。然后，一旦可能的条目足够小，就将该部分加载到内存中，并进行内存中搜索。

这将提高性能，因为当人们键入时，您可以快速搜索已加载到内存中的文件的同一部分。

回复收藏 0 原文

骑趴 2024-09-26 04:35:18

查看 http://en.wikipedia.org/wiki/Binary_search_algorithm

在排序文件中你有一个二分搜索最坏的情况 O(log(n))
下一个最好的事情是某种哈希映射，它的时间复杂度为 O(1)，尽管这对于部分单词来说很复杂，并且会产生一个巨大的映射表。

回复收藏 0 原文

国粹 2024-09-26 04:35:18

提前将可能性预处理到搜索树中，而不是在运行时进行。

回复收藏 0 原文

我做我的改变 2024-09-26 04:35:18

每行一个字存储的一个主要问题是，在恒定时间内无法随机访问行（访问 X 行包括从文件开头开始计算 X 个换行符），因此您的二分查找会受到影响。

在这种特定（自动完成）情况下，您需要的是前缀树或以下内容的变体它（将多个节点组合成一个，或者将小于特定大小的子树变成普通的旧排序单词列表）。

回复收藏 0 原文

左秋 2024-09-26 04:35:18

100ms 的时间足够了。我认为最大的担忧是显示更新。

如果您想避免使用实际的数据库，除了主文件之外，使用简单的索引文件就可以很容易地做到这一点。

您可以每 32 条记录左右将字符串的前 N 个字节（可能是 4 个？）和文件偏移量存储到主文件中的索引中，并对其进行二分搜索。在二分搜索非常接近之后，您可以线性搜索最多 32 条记录。

您可以根据平均字符串长度和介质上单次读取的大小，将索引频率从 32 条记录调整为有意义的值。如果您有 512 字节的文件系统读取和 8 字节的平均字符串，那么您将每 64 条记录创建一个索引，等等。每个最小磁盘读取大小拥有多个索引记录并没有多大意义。

索引文件可以轻松生成，然后您可以使用简单的文本编辑器管理主文件。

回复收藏 0 原文

友谊不毕业 2024-09-26 04:35:18

我建议看看您是否可以使用标准库来实现此目的。也许apache lucene可以在android手机上使用。如果是这样，您可以构建一个索引（单词前缀 -> android sql lite 中单词的 id）。这是关于 lucene 使用的一种算法的讨论。

回复收藏 0 原文

后知后觉 2024-09-26 04:35:18

旧线程，但这就是您需要的：
Stringsearch 库

我将它用于我的 Android 应用程序“Wordlist Pro”，速度非常快。

回复收藏 0 原文

梦途 2024-09-26 04:35:18

我也可以做这样的事情（下面是一个预处理文件）：

aa - line 1
ab - line 17
.
.
zz - line 299819

如果用户输入以 aa 开头的内容，我会读取第 1 - 17 行并顺序搜索它们

I could also do something like this (below is a preprocessed file):

aa - line 1
ab - line 17
.
.
zz - line 299819

If user inputs something starting with aa, I would read lines 1 - 17 and sequentially search in them

回复收藏 0 原文

~没有更多了~

关于作者

不…忘初心

暂无简介

0 文章

0 评论

24 人气

关注发私信

友情链接

文江博客

在排序文件中使用二分搜索实现超快速自动完成（300000 行）

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（11）

关于作者

相关话题

热门标签

推荐作者

亚希

cyp

北漠

11223456

坠似风落

游魂

友情链接

在排序文件中使用二分搜索实现超快速自动完成（300000 行）

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（11）

关于作者

相关话题

热门标签

推荐作者

亚希

cyp

北漠

11223456

坠似风落

游魂

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。