当前位置：文江博客话题详情

如何从文本中找到关键词（有用的词）？

发布于 2024-09-27 14:59:45 字数 200 浏览 6 评论 0原文

我正在做一个实验项目。

我想要实现的是，我想找到该文本中的关键字是什么。

我试图做到这一点的方法是，我列出一个单词在文本中出现的次数，并按顶部最常用的单词排序。

但问题是一些常见的词，比如 is、was、were 总是排在最前面。显然这些都不值得。

你们能否建议我一些好的逻辑来做到这一点，以便它始终找到良好的相关关键字？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

や莫失莫忘 2024-10-04 14:59:45

使用诸如 Brill Parser 之类的工具来识别不同的词性，例如名词。然后仅提取名词，并按频率对它们进行排序。

回复收藏 0 原文

∞觅青森が 2024-10-04 14:59:45

好吧，您可以使用 preg_split 来获取单词列表以及它们出现的频率，我假设这就是您到目前为止所做的工作。

关于剥离不重要的单词，我唯一能想到的就是拥有一本你想要忽略的单词的字典，包含“a”，“I”，“the”，“and”等。使用这个字典来过滤掉那些不想要的词。

为什么要这样做，是为了搜索页面内容吗？如果是，那么大多数后端数据库都提供某种文本搜索功能，例如，MySQL 和 Postgres 都有全文搜索引擎，它会自动丢弃不重要的单词。我建议使用您正在使用的后端数据库的全文功能，因为他们很可能已经实现了满足您要求的功能。

回复收藏 0 原文

梦里寻她 2024-10-04 14:59:45

我对此类事情的第一个方法是数学建模，而不是纯粹的编程。

有两种“简单”的方法可以解决这样的问题；
a) 排除列表（惩罚您认为无用的单词集合）
b）使用权重函数，例如。建立在单词长度的基础上，因此诸如介词（in，at...）和代词（I，you，me，his...）之类的小单词将受到惩罚，并希望落在表格中间

我不确定这是否是你正在寻找什么，但我希望它有帮助。
顺便说一句，我知道上下文文本处理是一个活跃的研究主题，您可能会发现许多有趣的项目。

回复收藏 0 原文

~没有更多了~

关于作者

爱人如己

暂无简介

0 文章

0 评论

24 人气

关注发私信

友情链接

文江博客

如何从文本中找到关键词（有用的词）？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（3）

关于作者

相关话题

热门标签

推荐作者

尘世孤行

烟─花易冷

你是年少的欢喜

倒带

忱杏

送君千里

友情链接

如何从文本中找到关键词（有用的词）？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（3）

关于作者

相关话题

热门标签

推荐作者

尘世孤行

烟─花易冷

你是年少的欢喜

倒带

忱杏

送君千里

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。