当前位置：文江博客话题详情

优化字数统计

发布于 2024-08-10 08:50:45 字数 282 浏览 11 评论 0原文

（到目前为止，这本质上是假设的，所以我没有太多细节可提供。）

我有一个随机（英语）单词的平面文件，每行一个。我需要编写一个有效的程序来计算每个单词出现的次数。该文件很大（大约 1GB），但我有足够的 RAM 来处理所有事情。它们存储在永久介质上，因此读取速度很慢，因此我只需线性读取一次即可。

我的两个突发奇想是使用带有单词 => 的哈希值。不。出现次数，或带有编号的特里树。结束节点出现的次数。我有足够的 RAM 用于哈希数组，但我认为 trie 将具有同样快或更快的查找速度。

什么方法最好？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

梦太阳 2024-08-17 08:50:46

我认为将计数作为叶子的特里树可能会更快。

任何合适的哈希表实现都需要完整读取单词，使用哈希函数对其进行处理，最后在表中进行查找。

可以实现特里树，以便在您阅读单词时进行搜索。这样，一旦建立了唯一的单词前缀，您通常会发现自己跳过了字符，而不是对单词进行完整的查找。

例如，如果您读过字符：“torto”，则 trie 会知道以这种方式开头的唯一可能的单词是 tortoise。

如果您对单词执行内联搜索的速度比散列算法散列的速度快，那么您应该能够更快。

但是，这完全是矫枉过正。既然你说这纯粹是假设性的，我就胡言乱语了，我想你会想要一个假设性的答案。采用最易于维护的解决方案，在合理的时间内执行任务。微观优化通常浪费的工时时间比节省的 CPU 时数还要多。

回复收藏 0 原文

把昨日还给我 2024-08-17 08:50:46

我会使用一个 Dictionary 对象，其中键是将单词转换为小写，值是计数。如果字典不包含该单词，则添加值 1。如果字典包含该单词，则增加该值。

回复收藏 0 原文

旧城烟雨 2024-08-17 08:50:46

考虑到阅读速度较慢，它可能不会产生任何明显的差异。无论如何，总时间将完全由读取数据的时间决定，因此这就是您应该努力优化的地方。对于内存中的算法（实际上主要是数据结构），只需使用您认为最舒服的语言中最方便的任何东西即可。

回复收藏 0 原文

瞄了个咪的 2024-08-17 08:50:46

哈希表（如果做得正确，并且您说您有大量 RAM）用于计算特定单词的复杂度为 O(1)，而 trie 将是 O(n)，其中 n 是单词的长度。

如果散列空间足够大，则散列表的性能将比 trie 的性能好得多。

回复收藏 0 原文

满意归宿 2024-08-17 08:50:46

我认为 trie 对于你的用例来说是多余的。单词的哈希 => # 的出现次数正是我要使用的。即使使用像 Perl 这样的慢速解释语言，您也可以在几分钟内以这种方式处理 1GB 文件。（我以前做过这个。）

回复收藏 0 原文

烟柳画桥 2024-08-17 08:50:46

我有足够的 RAM 用于哈希数组，但我认为 trie 的查找速度也同样快或更快。

这段代码会运行多少次？如果你只做一次，我会说优化你的时间而不是你的CPU时间，并且只做最快实现的事情（在合理的范围内）。如果您有一个实现键值接口的标准库函数，只需使用它即可。

如果您多次执行此操作，请获取数据文件的一个子集（或多个子集），并对您的选项进行基准测试。如果不了解更多关于您的数据集的信息，推荐一个数据集而不是另一个数据集是值得怀疑的。

回复收藏 0 原文

迷离° 2024-08-17 08:50:46

使用Python！

逐行将这些元素添加到集合数据类型中，然后询问它是否在哈希表中。当您知道它在集合中后，请添加字典值 2，因为您之前已经将其添加到集合中一次。

这将占用一些内存和计算量，从而避免每次询问字典，而是更好地处理唯一值的单词，在调用结束时，只需使用 a 将不在字典中的所有单词转储到集合中值为 1。（两个集合相对于集合相交）

回复收藏 0 原文

断桥再见 2024-08-17 08:50:46

在很大程度上，这取决于您在捕获数据后希望如何处理数据。请参阅为什么使用哈希表而不是 Trie（前缀树））？

回复收藏 0 原文

滥情哥ㄟ 2024-08-17 08:50:46

一个简单的Python脚本：

import collections
f = file('words.txt')
counts = collections.defaultdict(int)
for line in f:
    counts[line.strip()] +=1

print "\n".join("%s: %d" % (word, count) for (word, count) in counts.iteritems())

a simple python script:

import collections
f = file('words.txt')
counts = collections.defaultdict(int)
for line in f:
    counts[line.strip()] +=1

print "\n".join("%s: %d" % (word, count) for (word, count) in counts.iteritems())

回复收藏 0 原文

~没有更多了~