以低内存占用存储大型字典的方法+快速查找（在 Android 上）

发布于 2024-08-21 14:15:21 字数 454 浏览 4 评论 0原文

我正在开发一个 Android 文字游戏应用程序，需要大量可用的（约 250,000 个单词词典）。我需要：

相当快的查找，例如恒定时间更好，有时需要每秒进行 200 次查找来解决单词难题，并且可能需要在 0.2 秒内进行 20 次查找，以检查用户刚刚拼写的单词。

编辑：查找通常会询问“在字典中吗？”。我也想在单词中支持最多两个通配符，但这很简单，只需生成通配符可能存在的所有可能的字母并检查生成的单词（即对具有两个通配符的单词进行 26 * 26 查找）。

由于它是一个移动应用程序，因此使用尽可能少的内存并且只需要少量的初始下载词典数据是首要任务。

我的第一次天真的尝试使用了 Java 的 HashMap 类，这导致了内存不足异常。我研究过使用 Android 上可用的 SQL lite 数据库，但这似乎有点矫枉过正。

有什么好方法可以满足我的需要？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

另类 2024-08-28 14:15:21

你也可以用更低级的方法来实现你的目标……如果这是一个文字游戏，那么我怀疑你正在处理 27 个字母的字母表。假设一个字母表不超过 32 个字母，即每个字母 5 位。您可以使用 5 位/字母的简单编码将 12 个字母（12 x 5 = 60 位）塞入单个 Java long 中。

这意味着实际上如果您的单词不超过 12 个字母/单词，您可以将您的字典表示为一组 Java long。如果您有 250,000 个单词，将此集合简单地表示为单个已排序的长整型数组应占用 250,000 个单词 x 8 字节/单词 = 2,000,000 ~ 2MB 内存。然后通过二分查找进行查找，考虑到数据集的规模较小，这种查找速度应该非常快（比较次数少于 20 次，因为 2^20 的比较次数超过一百万次）。

如果您的单词长于 12 个字母，那么 I 会将大于 12 个字母的单词存储在另一个数组中，其中 1 个单词将以明显的方式由 2 个串联的 Java long 表示。

注意：它之所以有效，并且可能比 trie 更节省空间，并且至少实现起来非常简单，是因为字典是不变的......如果您需要修改数据集，那么搜索树是很好的选择，但如果数据set 是常量，您通常可以使用简单的二分搜索来运行一种方法。

回复收藏 0 原文