关于波特词干算法的困惑
我正在尝试实现波特词干算法,但我在这一点上绊倒了
其中方括号表示 其内容的任意存在。 用(VC){m}表示VC重复m 有时,这又可以写成
<前><代码>[C](VC){m}[V]。m 将被称为任何的\measure\ 表示时的单词或单词部分 这种形式。 m = 0 的情况涵盖 空词。以下是一些示例:
m=0 TR、EE、TREE、Y、BY。 m=1 麻烦、燕麦、树木、常春藤。 m=2 麻烦,私人,OATEN,ORRERY。
我不明白这个“措施”是什么以及它代表什么?
I am trying to implement porter stemming algorithm, but I stumbled at this point
where the square brackets denote
arbitrary presence of their contents.
Using (VC){m} to denote VC repeated m
times, this may again be written as[C](VC){m}[V].
m will be called the \measure\ of any
word or word part when represented in
this form. The case m = 0 covers the
null word. Here are some examples:m=0 TR, EE, TREE, Y, BY. m=1 TROUBLE, OATS, TREES, IVY. m=2 TROUBLES, PRIVATE, OATEN, ORRERY.
I don't understand what is this "measure" and what does it stand for?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
看起来这个度量是元音后面紧跟着辅音的次数。例如,
“TROUBLES”有:
可选的初始辅音
[C]
= “TR”。第一个元音-辅音组
(VC)
=“OUBL”。第二元音-辅音组
(VC)
=“ES”。可选的结尾元音
[V]
为空。所以度量是二,即“匹配”的次数(VC)。
Looks like the measure is the number of times a vowel is immediately followed by a consonant. For example,
"TROUBLES" has:
Optional initial consonants
[C]
= "TR".First vowels-consonants group
(VC)
= "OUBL".Second vowels-consonants group
(VC)
= "ES".Optional ending vowels
[V]
is empty.So the measure is two, the number of times
(VC)
was "matched".