为什么我的波特词干分析算法的结果与应有的词根不符？

发布于 2024-10-09 01:32:25 字数 226 浏览 20 评论 0原文

我需要使用波特词干算法在我的应用程序中获取词干，但是当我测试从 http://www.tartarus.org/~martin/PorterStemmer，词干分析的结果没有给我正确的词干词，例如：快乐-->快乐病毒-->病毒 ETC 你能帮我解决吗？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

会发光的星星闪亮亮i 2024-10-16 01:32:25

引用您的链接：

2。为什么词干分析器不能产生正确的单词？
词干算法在删除词干后没有留下真正的单词，这通常被认为是一个粗暴的错误。但词干提取的目的是将单词的变体形式组合在一起，而不是将单词映射到其“范式”形式。
与此相关，
3。为什么会出现错误？
问题通常以这样的形式出现：为什么单词 X 应该被词干化为 x1，而人们本希望它被词干化为 x2？重要的是要记住，词干提取算法无法达到完美。总的来说，它会（或可能）提高 IR 性能，但在个别情况下，它有时可能会犯一些实际或看似错误的错误。当然，这与建议可能包含在词干分析器中以提高其性能的附加规则是不同的。