如何在大量文本中找到常用短语

发布于 2024-08-15 13:14:23 字数 907 浏览 18 评论 0原文

我目前正在开展一个项目，需要在大量文本中挑选出最常见的短语。例如，假设我们有如下三个句子：

The狗跳过over the Woman。
狗跳上了车。
狗跳上了楼梯。

从上面的示例中，我想提取“the狗跳了”，因为它是文本中最常见的短语。起初我想，“哦，让我们使用有向图[带有重复节点]”：

有向图 http://img.skitch .com/20091218-81ii2femnfgfipd9jtdg32m74f.png

编辑：抱歉，我在制作此图“over”、“into”和“up”时犯了一个错误，应该全部链接回“the” 。

我打算维护一个单词在每个节点对象中出现的次数（“the”为 6；“dog”和“jumped”为 3；等等），但尽管有许多其他问题，但主要的问题出现在我们添加了更多示例（请忽略错误的语法:-)）：

狗跳上跳下。
狗跳得像以前从未有过的狗一样。
狗高兴地跳了起来。

我们现在遇到了一个问题，因为“dog”将启动一个新的根节点（与“the”处于同一级别），并且我们不会像现在一样识别“dog Jump”是最常见的短语。所以现在我想也许我可以使用无向图来映射所有单词之间的关系，并最终选出常见的短语，但我也不确定这将如何工作，因为你失去了之间的重要顺序关系的话。

那么，有人对如何识别大量文本中的常见短语以及我将使用什么数据结构有任何一般想法吗？

谢谢，本

原文