去除常见英语单词策略

发布于 12-06 08:15 字数 218 浏览 2 评论 0原文

我想从 html 页面中提取相关关键字。

我已经放弃了所有 html 内容,将文本拆分为单词,使用词干分析器并从 lucene 中删除了停用词列表中出现的所有单词。

但现在我仍然有很多基本动词和代词作为最常用的单词。

lucene或snowball或其他任何地方是否有某种方法或一组单词来过滤掉所有这些东西,例如“我,是,去,去,是,它,是,我们,你,我们,......”

I want to extract relevant keywords from a html page.

I already stipped all html stuff, split the text into words, used a stemmer and removed all words appearing in a stop word list from lucene.

But now I still have alot of basic verbs and pronouns as most common words.

Is there some method or set of words in lucene or snowball or anywhere else to filter out all these things like "I, is , go, went, am, it, were, we, you, us,...."

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(3

小忆控2024-12-13 08:15:34

您正在寻找术语“停用词”。对于 Lucene,这是内置的,您可以将它们添加到 StopWordAnalyzer.java 中(请参阅

You are looking for the term 'stopwords'. For Lucene, this is built in and you can add them in the StopWordAnalyzer.java (see http://ankitjain.info/ankit/2009/05/27/lucene-search-ignore-word-list/)

花期渐远2024-12-13 08:15:34

这似乎是逆文档频率的一个非常简单的应用。如果您有一个很小的语料库,例如 10,000 个网页,您就可以计算每个单词出现在文档中的概率。然后选择一个您认为单词开始变得有趣或内容丰富的阈值,并排除该阈值之前的单词。

另外,这个列表看起来不错。 http://www.lextek.com/manuals/onix/stopwords1.html

It seems like a pretty simple application of inverse document frequency. If you had even a small corpus of say, 10,000 web pages, you could compute the probability of each word appearing in a document. Then pick a threshold where you think the words start to get interesting or contentful and exclude the words before that threshold.

Alternatively, this list looks good. http://www.lextek.com/manuals/onix/stopwords1.html

初懵2024-12-13 08:15:34

tmR 通过 R 为许多常见的 NLP 任务提供接口,并具有与 Weka 的接口。也许值得一看。该文档位于此处

更仔细地查看您的问题后,您可能正在寻找< tm 包中的 code>removeStopWords() 函数。

The tm package for R provides an interface through R for many common NLP tasks, and has an interface to Weka. It might be worth checking out. The documentation is here

Upon looking at your question more colsely, you are probably looking for the removeStopWords() function in the tm package.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文