当前位置：文江博客话题详情

去除常见英语单词策略

发布于 12-06 08:15 字数 218 浏览 2 评论 0原文

我想从 html 页面中提取相关关键字。

我已经放弃了所有 html 内容，将文本拆分为单词，使用词干分析器并从 lucene 中删除了停用词列表中出现的所有单词。

但现在我仍然有很多基本动词和代词作为最常用的单词。

lucene或snowball或其他任何地方是否有某种方法或一组单词来过滤掉所有这些东西，例如“我，是，去，去，是，它，是，我们，你，我们，......”

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

小忆控2024-12-13 08:15:34

您正在寻找术语“停用词”。对于 Lucene，这是内置的，您可以将它们添加到 StopWordAnalyzer.java 中（请参阅

回复收藏 0 原文

花期渐远2024-12-13 08:15:34

这似乎是逆文档频率的一个非常简单的应用。如果您有一个很小的语料库，例如 10,000 个网页，您就可以计算每个单词出现在文档中的概率。然后选择一个您认为单词开始变得有趣或内容丰富的阈值，并排除该阈值之前的单词。

另外，这个列表看起来不错。 http://www.lextek.com/manuals/onix/stopwords1.html

回复收藏 0 原文

初懵2024-12-13 08:15:34

tm 包 R 通过 R 为许多常见的 NLP 任务提供接口，并具有与 Weka 的接口。也许值得一看。该文档位于此处

更仔细地查看您的问题后，您可能正在寻找< tm 包中的 code>removeStopWords() 函数。

回复收藏 0 原文

~没有更多了~

关于作者

梦里南柯

暂无简介

0 文章

0 评论

22 人气

关注发私信

浪漫人生路

文章 0 评论 0

关注

620vip

文章 0 评论 0

关注

羞稚

文章 0 评论 0

关注

走过海棠暮

文章 0 评论 0

关注

你好刘可爱

文章 0 评论 0

关注

陌若浮生

文章 0 评论 0

友情链接

文江博客

去除常见英语单词策略

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（3）

关于作者

相关话题

热门标签