为什么我的波特词干分析算法的结果与应有的词根不符?

发布于 2024-10-09 01:32:25 字数 226 浏览 20 评论 0原文

我需要使用波特词干算法在我的应用程序中获取词干,但是当我测试从 http://www.tartarus.org/~martin/PorterStemmer,词干分析的结果没有给我正确的词干词,例如: 快乐-->快乐 病毒-->病毒 ETC 你能帮我解决吗?

i need to use porter stemmer algorithm to get stem word in my application,but when i test the algorithm which i get from http://www.tartarus.org/~martin/PorterStemmer, the result of stemming isn't give me correct stem word, eg :
happy --> happi
virus --> viru
etc
can you help me to solve it?

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

会发光的星星闪亮亮i 2024-10-16 01:32:25

引用您的链接

2。为什么词干分析器不能产生正确的单词?

词干算法在删除词干后没有留下真正的单词,这通常被认为是一个粗暴的错误。但词干提取的目的是将单词的变体形式组合在一起,而不是将单词映射到其“范式”形式。

与此相关,

3。为什么会出现错误?

问题通常以这样的形式出现:为什么单词 X 应该被词干化为 x1,而人们本希望它被词干化为 x2?重要的是要记住,词干提取算法无法达到完美。总的来说,它会(或可能)提高 IR 性能,但在个别情况下,它有时可能会犯一些实际或看似错误的错误。当然,这与建议可能包含在词干分析器中以提高其性能的附加规则是不同的。

Quoting from your link:

2. Why is the stemmer not producing proper words?

It is often taken to be a crude error that a stemming algorithm does not leave a real word after removing the stem. But the purpose of stemming is to bring variant forms of a word together, not to map a word onto its ‘paradigm’ form.

And connected with this,

3. Why are there errors?

The question normally comes in the form, why should word X be stemmed to x1, when one would have expected it to be stemmed to x2? It is important to remember that the stemming algorithm cannot achieve perfection. On balance it will (or may) improve IR performance, but in individual cases it may sometimes make what are, or what seem to be, errors. Of course, this is a different matter from suggesting an additional rule that might be included in the stemmer to improve its performance.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文