当前位置：文江博客话题详情

如何识别文本中的一组关键词

发布于 2024-11-08 06:28:41 字数 72 浏览 1 评论 0原文

我有一大堆关键词。给定一个文本，我希望能够仅识别出现在关键单词列表中的那些单词，并忽略所有其他单词。解决这个问题的最佳方法是什么？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

半步萧音过轻尘 2024-11-15 06:28:41

Aho-Corasick 算法是一种用于识别一组模式的快速算法较大源字符串中的字符串。它被多个搜索实用程序以及许多防病毒程序所采用，因为它的运行时间为 O(m + n + z)，其中 n 是您尝试匹配的所有模式字符串的总大小，m 是要搜索的字符串，z 是匹配的总数。此外，如果您事先知道要搜索的字符串，则可以离线执行 O(n) 工作，并将搜索时间减少到 O(m + z)。

回复收藏 0 原文

月棠 2024-11-15 06:28:41

将您的单词存储在 trie 中。

走你的文字。每次开始一个单词时，就开始遍历特里树。如果您在单词查找树中的某个单词的末尾处结束该单词，则该单词就是您感兴趣的单词。否则就不是。

关于单词的定义，您可能会遇到一些小问题。特别是非单词字符通常会结束单词，但也有例外，例如 don't。

请注意，某些正则表达式引擎（Perl 的任何最新版本的 Perl 中的一个）都足够智能，可以自动构造一个 trie 并尝试匹配它。因此，您很有可能只需使用管道将单词连接在一起，然后将其扔到正则表达式引擎中即可获得良好的性能。

如果这不起作用，您可以构造一个对 trie 进行编码的正则表达式。例如，给定列表 foo、bar、baz、blat 正则表达式 /\b( foo|b(?:a(?:r|z)|lat))\b/ 应该匹配这些单词并且仅匹配这些单词。它可能不会像手工 C 那样高效（例如，在 Perl 引擎上，您将遇到对执行缓慢的复杂正则表达式的检查，并且它可能会执行一些不需要执行的愚蠢回溯）但整合起来会减少很多工作。