去除常见英语单词策略
我想从 html 页面中提取相关关键字。
我已经放弃了所有 html 内容,将文本拆分为单词,使用词干分析器并从 lucene 中删除了停用词列表中出现的所有单词。
但现在我仍然有很多基本动词和代词作为最常用的单词。
lucene或snowball或其他任何地方是否有某种方法或一组单词来过滤掉所有这些东西,例如“我,是,去,去,是,它,是,我们,你,我们,......”
I want to extract relevant keywords from a html page.
I already stipped all html stuff, split the text into words, used a stemmer and removed all words appearing in a stop word list from lucene.
But now I still have alot of basic verbs and pronouns as most common words.
Is there some method or set of words in lucene or snowball or anywhere else to filter out all these things like "I, is , go, went, am, it, were, we, you, us,...."
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
发布评论
评论(3)
这似乎是逆文档频率的一个非常简单的应用。如果您有一个很小的语料库,例如 10,000 个网页,您就可以计算每个单词出现在文档中的概率。然后选择一个您认为单词开始变得有趣或内容丰富的阈值,并排除该阈值之前的单词。
另外,这个列表看起来不错。 http://www.lextek.com/manuals/onix/stopwords1.html
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
您正在寻找术语“停用词”。对于 Lucene,这是内置的,您可以将它们添加到 StopWordAnalyzer.java 中(请参阅
You are looking for the term 'stopwords'. For Lucene, this is built in and you can add them in the StopWordAnalyzer.java (see http://ankitjain.info/ankit/2009/05/27/lucene-search-ignore-word-list/)