当前位置：文江博客话题详情

在非常大的文本文件中执行二分搜索的 C# 代码

发布于 2024-08-28 16:45:08 字数 86 浏览 7 评论 0原文

是否有一个库可以用来在非常大的文本文件（可以是 10GB）中执行二分搜索。

该文件是一种日志文件 - 每行都以日期和时间开头。因此行是有序的。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

因为看清所以看轻 2024-09-04 16:45:08

由于行长度不能保证相同，因此您将需要某种形式的可识别行分隔符，例如回车符或换行符。

二分搜索模式几乎可以成为您的传统算法。查找文件的“中间”（按长度），向后查找（逐字节）到您碰巧进入的行的开头（由行分隔符序列标识），读取该记录并进行比较。根据比较情况，向上或向下查找（以字节为单位）并重复。

当您确定记录的起始索引时，请检查它是否与上次查找的索引相同。您可能会发现，当您拨入目标记录时，中途移动不会让您到达不同的记录。例如，您有分别为 100 字节和 50 字节的相邻记录，因此跳入 75 字节总是会带您回到第一个记录的开头。如果发生这种情况，请在进行比较之前阅读下一条记录。

您应该发现您很快就会达到目标。

回复收藏 0 原文

人事已非 2024-09-04 16:45:08

我开始编写关于如何执行此操作的伪代码，但我放弃了，因为它可能看起来居高临下。您可能知道如何编写二分搜索，它实际上并不复杂。

您不会在库中找到它，原因有两个：

它不是真正的“二分搜索” - 行大小不同，因此您需要调整算法（例如，查找文件的中间部分，然后查找下一个） “换行符”并将其视为“中间”）。
您的日期时间日志格式很可能是非标准的（好吧，它可能看起来“标准”，但想一下......您可能使用“[]”或其他东西将日期与日志消息分开，例如[10 /02/2001 10:35:02] 我的消息）。

总而言之 - 我认为您的需求太具体且太简单，无法在自定义代码中实现，以至于有人费心编写库:)

回复收藏 0 原文

笑，眼淚并存 2024-09-04 16:45:08

在您为文件中的每个换行符在内存中保存 Int64 的约束下，这应该不会太糟糕。这实际上取决于文本行的平均长度，假设每行 1000 字节，您要查看的内容大约为 (10,000,000,000 / 1000 * 4) = 40mb。很大，但是有可能。

因此，请尝试以下操作：

扫描文件并将每个换行的序号偏移量存储在列表中，
使用扫描到文件偏移量并读取数据的自定义比较器对列表进行二进制搜索。

回复收藏 0 原文

会发光的星星闪亮亮i 2024-09-04 16:45:08

如果您的文件是静态的（或很少更改）并且您必须对其运行“足够的”查询，我相信最好的方法是创建“索引”文件：

扫描初始文件并获取文件的日期时间部分加上它们在原始文件中的位置（这就是为什么必须非常静态）如何对它们进行编码（例如：unix时间（完整的10位数字）+纳秒（零填充的4位数字）和行位置（零填充10位数字）。这样，您将拥有具有一致“行”的文件
对该文件进行二进制搜索（您可以）。需要有点创意才能实现范围搜索）并获取原始文件中的相关位置
从给定位置开始直接从原始文件读取/读取给定范围

您已经获得了 O(log(n)) 运行时的范围搜索:)（并且您已经创建了原始数据库功能）

不用说，如果文件数据文件更新“太”频繁，或者您没有对索引文件运行“足够”的查询，那么您最终会花费更多时间来创建索引文件比您从查询文件中保存的要多。

顺便说一句，使用此索引文件不需要对数据文件进行排序。由于日志文件往往只是追加和排序，因此您可以通过简单地创建索引文件来加快整个过程，该索引文件仅保存数据文件中 EOL 标记（零填充的 10 位数字）的位置 - 这样您就可以执行直接在数据文件上进行二分搜索（使用索引文件来确定原始文件中的查找位置），如果将行附加到日志文件中，您可以简单地将其 EOL 位置添加（附加）到索引文件中。

回复收藏 0 原文