当前位置：文江博客话题详情

匹配大文本文件中的字符串？

发布于 2024-08-29 01:24:33 字数 94 浏览 5 评论 0原文

我有一个字符串列表，其中包含大约 700 万个项目，大小为 152MB 的文本文件。我想知道实现 a 函数的最佳方法是什么，该函数接受单个字符串并返回它是否在该字符串列表中。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

美男兮 2024-09-05 01:24:33

您是否需要多次匹配此文本文件？如果是这样，我将创建一个 HashSet。否则，只需逐行读取它（我假设每行有一个字符串）并查看它是否匹配。

152MB 的 ASCII 在内存中最终会变成超过 300MB 的 Unicode 数据 - 但现代机器有足够的内存，因此将整个数据保存在 HashSet 中确实会使重复查找变得非常快。

绝对最简单的方法可能是使用File.ReadAllLines，尽管这会创建一个数组，然后该数组将被丢弃 - 对于内存使用来说不太好，但可能不会太糟糕了：

HashSet<string> strings = new HashSet<string>(File.ReadAllLines("data.txt"));
...

if (strings.Contains(stringToCheck))
{
    ...
}

Are you going to have to match against this text file several times? If so, I'd create a HashSet<string>. Otherwise, just read it line by line (I'm assuming there's one string per line) and see whether it matches.

152MB of ASCII will end up as over 300MB of Unicode data in memory - but in modern machines have plenty of memory, so keeping the whole lot in a HashSet<string> will make repeated lookups very fast indeed.

The absolute simplest way to do this is probably to use File.ReadAllLines, although that will create an array which will then be discarded - not great for memory usage, but probably not too bad:

HashSet<string> strings = new HashSet<string>(File.ReadAllLines("data.txt"));
...

if (strings.Contains(stringToCheck))
{
    ...
}

回复收藏 0 原文

﹉夏雨初晴づ 2024-09-05 01:24:33

取决于你想做什么。当您想一次又一次重复搜索匹配项时，我会将整个文件加载到内存中（加载到 HashSet）。在那里搜索匹配项非常容易。

回复收藏 0 原文

~没有更多了~

关于作者

塔塔猫

暂无简介

0 文章

0 评论

21 人气

关注发私信

友情链接

文江博客

匹配大文本文件中的字符串？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

lioqio

Single

禾厶谷欠

alipaysp_2zg8elfGgC

qq_N6d4X7

放低过去

友情链接

匹配大文本文件中的字符串？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

lioqio

Single

禾厶谷欠

alipaysp_2zg8elfGgC

qq_N6d4X7

放低过去

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。