Porter Stemmer算法问题

发布于 2024-10-01 07:17:05 字数 240 浏览 5 评论 0原文

我正在实现一个搜索应用程序。 语料库是大型文本文档。 在文件处理过程中,我对所有单词进行标记并调用 Porter Stemmer 算法 步骤1(http://tartarus.org/~martin/PorterStemmer/csharp2.txt)。

第 1 步去掉了复数和 -ed 或 -ing...

我注意到像“this”这样的词将被词干为“thi”。

这是算法的正常运行吗? 因为我想标记“this”这个词。

I am implementing a search application.
Corpus is large text documents.
During file process i'm tokenizing all the words and calling Porter Stemmer algorithm
Step1 (http://tartarus.org/~martin/PorterStemmer/csharp2.txt).

Step1 gets rid of plurals and -ed or -ing...

I noticed that a word like 'this' will be stemmed into 'thi'.

Is that normal operation of the algorithm ?
Since I wanted to tokenize the word 'this'.

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

花想c 2024-10-08 07:17:05

根据您的描述,我的预感是 this 在 Porter Stemmer 算法中被视为复数形式并简化为 thi

我在 Porter 的论文中没有找到对以 s 结尾的非复数单词的明确引用。

http://tartarus.org/~martin/PorterStemmer/def.txt

From what you describe, my hunch is that this is considered as plural form in Porter Stemmer algorithm and reduced to thi.

I do not find an explicit reference to non-plural words ending with s in Porter's paper.

http://tartarus.org/~martin/PorterStemmer/def.txt

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文