Python - 查找每个可能的单词对在文本文件的同一行中出现的频率的最有效方法？

发布于 2024-09-25 14:42:01 字数 420 浏览 6 评论 0原文

这个特殊问题很容易解决，但我不太确定我得到的解决方案在计算上是否高效。所以想请教专家！

浏览大文件、收集同一行中两个单词出现频率的统计信息（整个文件）的最佳方法是什么？

例如，如果文本仅包含以下两行：

“这是白色棒球。” “这些家伙有白色的棒球棒。”

您最终将收集以下统计数据：（这个，是：1），（这个，这个：1），（这个，白色：1），（这个，棒球：1），（这个，这个：1），（这个，白色：1），（这是、棒球：1) ...等等。

对于条目（棒球，白色：2），该值将为 2，因为这对单词在同一行中总共出现 2 次。

理想情况下，统计数据应该放在字典中，其中键在元组级别按字母顺序排列（即，您不希望“this，is”和“is，this”有单独的条目。我们不关心顺序这里：我们只想找出每个可能的单词对在整个文本的同一行中出现的频率。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

卸妝后依然美 2024-10-02 14:42:01

from collections import defaultdict
import itertools as it
import re

pairs = defaultdict(int)

for line in lines:
    for pair in it.combinations(re.findall('\w+', line), 2):
        pairs[tuple(pair)] += 1

resultList = [pair + (occurences, ) for pair, occurences in pairs.iterkeys()]

from collections import defaultdict
import itertools as it
import re

pairs = defaultdict(int)

for line in lines:
    for pair in it.combinations(re.findall('\w+', line), 2):
        pairs[tuple(pair)] += 1

resultList = [pair + (occurences, ) for pair, occurences in pairs.iterkeys()]

回复收藏 0 原文

~没有更多了~