当前位置：文江博客话题详情

nlp c++ porter-stemmer

关于波特词干算法的困惑

发布于 2024-10-09 14:37:16 字数 352 浏览 6 评论 0原文

我正在尝试实现波特词干算法，但我在这一点上绊倒了

其中方括号表示其内容的任意存在。用(VC){m}表示VC重复m 有时，这又可以写成
<前><代码>[C](VC){m}[V]。
m 将被称为任何的\measure\ 表示时的单词或单词部分这种形式。 m = 0 的情况涵盖空词。以下是一些示例：
m=0 TR、EE、TREE、Y、BY。
m=1 麻烦、燕麦、树木、常春藤。
m=2 麻烦，私人，OATEN，ORRERY。

我不明白这个“措施”是什么以及它代表什么？

I am trying to implement porter stemming algorithm, but I stumbled at this point

where the square brackets denote
arbitrary presence of their contents.
Using (VC){m} to denote VC repeated m
times, this may again be written as
[C](VC){m}[V].
m will be called the \measure\ of any
word or word part when represented in
this form. The case m = 0 covers the
null word. Here are some examples:
m=0    TR,  EE,  TREE,  Y,  BY.
m=1    TROUBLE,  OATS,  TREES,  IVY.
m=2    TROUBLES,  PRIVATE,  OATEN,  ORRERY.

I don't understand what is this "measure" and what does it stand for?

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（1）

‖放下 2024-10-16 14:37:16

看起来这个度量是元音后面紧跟着辅音的次数。例如，

“TROUBLES”有：

可选的初始辅音 [C] = “TR”。

第一个元音-辅音组(VC) =“OUBL”。

第二元音-辅音组(VC) =“ES”。

可选的结尾元音 [V] 为空。

所以度量是二，即“匹配”的次数（VC）。

回复收藏 0 原文

~没有更多了~

关于作者

暂无简介

0 文章

0 评论

23 人气

关注发私信

相关话题

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

胡图图

文章 0 评论 0

zt006

文章 0 评论 0

z祗昰~

文章 0 评论 0

冰葑

文章 0 评论 0

野の

文章 0 评论 0

天空

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文