当前位置：文江博客话题详情

磁盘上子字符串索引

发布于 2024-07-06 03:09:08 字数 543 浏览 27 评论 0原文

我有一个想要索引的文件（具体来说是 fasta 文件），这样我就可以快速找到文件中的任何子字符串，然后找到原始 fasta 文件中的位置。

在许多情况下，使用 Trie 或子字符串数组很容易做到这一点，不幸的是，我需要索引的字符串是 800+ MB，这意味着在内存中执行它们是不可接受的，所以我正在寻找一种合理的方法来创建这个磁盘上的索引，占用内存最少。

（编辑以澄清）

我只对蛋白质的标题感兴趣，因此对于我感兴趣的最大数据库，这大约是 800 MB 的文本。

我希望能够根据输入字符串在 O(N) 时间内找到精确的子字符串。这必须可以在 32 位机器上使用，因为它将被发送给随机的人，而这些人预计不会拥有 64 位机器。

我希望能够针对行内的任何断字进行索引，直至行尾（尽管行可能有几 MB 长）。

希望这能够澄清需要什么以及为什么当前给出的解决方案没有启发性。

我还应该补充一点，这需要在java内部完成，并且必须在各种操作系统上的客户端计算机上完成，所以我不能使用任何特定于操作系统的解决方案，并且它必须是一个编程解决方案。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

对风讲故事 2024-07-13 03:09:08

在某些语言中，程序员可以访问“直接字节数组”或“内存映射"，由操作系统提供。在java中，我们有 java.nio .MappedByteBuffer。这允许人们像处理内存中的字节数组一样处理数据，而实际上它位于磁盘上。可以使用的文件大小仅受操作系统虚拟内存功能的限制，对于 32 位计算机来说通常约为 <4GB。 64 位？理论上是 16 艾字节（172 亿 GB），但我认为现代 CPU 仅限于 40 位（1 TB）或 48 位（128 TB）地址空间。

这将使您可以轻松地处理一个大文件。

回复收藏 0 原文