关于波特词干算法的困惑

发布于 2024-10-09 14:37:16 字数 352 浏览 6 评论 0原文

我正在尝试实现波特词干算法,但我在这一点上绊倒了

其中方括号表示 其内容的任意存在。 用(VC){m}表示VC重复m 有时,这又可以写成

<前><代码>[C](VC){m}[V]。

m 将被称为任何的\measure\ 表示时的单词或单词部分 这种形式。 m = 0 的情况涵盖 空词。以下是一些示例:

m=0 TR、EE、TREE、Y、BY。
m=1 麻烦、燕麦、树木、常春藤。
m=2 麻烦,私人,OATEN,ORRERY。

我不明白这个“措施”是什么以及它代表什么?

I am trying to implement porter stemming algorithm, but I stumbled at this point

where the square brackets denote
arbitrary presence of their contents.
Using (VC){m} to denote VC repeated m
times, this may again be written as

[C](VC){m}[V].

m will be called the \measure\ of any
word or word part when represented in
this form. The case m = 0 covers the
null word. Here are some examples:

m=0    TR,  EE,  TREE,  Y,  BY.
m=1    TROUBLE,  OATS,  TREES,  IVY.
m=2    TROUBLES,  PRIVATE,  OATEN,  ORRERY.

I don't understand what is this "measure" and what does it stand for?

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

‖放下 2024-10-16 14:37:16

看起来这个度量是元音后面紧跟着辅音的次数。例如,

“TROUBLES”有:

可选的初始辅音 [C] = “TR”。

第一个元音-辅音组(VC) =“OUBL”。

第二元音-辅音组(VC) =“ES”。

可选的结尾元音 [V] 为空。

所以度量是二,即“匹配”的次数(VC)。

Looks like the measure is the number of times a vowel is immediately followed by a consonant. For example,

"TROUBLES" has:

Optional initial consonants [C] = "TR".

First vowels-consonants group (VC) = "OUBL".

Second vowels-consonants group (VC) = "ES".

Optional ending vowels [V] is empty.

So the measure is two, the number of times (VC) was "matched".

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文