是否有克罗地亚语词干算法的实现?

发布于 2024-11-17 11:35:53 字数 103 浏览 5 评论 0原文

我正在寻找克罗地亚语词干算法的实现。理想情况下使用 Java,但我也接受任何其他语言。

是否有一个讲英语的开发人员社区正在开发克罗地亚语的搜索应用程序?

谢谢,

i'm searching for an implementation of a croatian word stemming algorithm. Ideally in Java but i would also accept any other language.

Is there somewhere a community of english speaking developers, who are developing search applications for the croatian language?

Thanks,

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(2

冰雪之触 2024-11-24 11:35:53

斯拉夫语言具有高度的屈折性。最准确和快速的方法是规则和大型映射/字典的组合。

工作已经完成,但被搁置了。 克罗地亚语形态词典会有所帮助,但它的 API 速度很慢。波斯尼亚语、塞尔维亚语和克罗地亚语之间可以找到更多的工作,而不仅仅是克罗地亚语。

大型映射并不总是方便(并且可以从映射/字典/语料库有效地构建更好的规则转换器)。

使用 Hunspell 和 affix 文件实现可能是获得社区和 java 支持的好方法。例如。 Google 搜索:hr_hr.aff

未测试:应该能够反转所有单词,构建结束字符的字典树,使用一些规则(例如LCS)进行遍历并使用语料库文本构建准确的统计转换器。

我能做的最好的就是一些Python:

import hunspell
hs = hunspell.HunSpell(
         '/usr/share/myspell/hr_HR.dic', 
         '/usr/share/myspell/hr_HR.aff')

# The following should return ['hrvatska']:
print hs.stem('hrvatski') 

Slavic languages are highly inflective. The most accurate and fast approach would be a combination of rules and large mappings/dictionaries.

Work has been done, but it has been held back. The Croatian morphological lexicon will help, but it's behind a slow API. More work can be found between Bosnian, Serbian and Croatian, than just Croatian alone.

Large mappings aren't always convenient (and one could effectively build a better rule transformer from the mapping/dictionaries/corpus).

Implementing using Hunspell and affix files could be a great way to get the community and java support. Eg. Google search: hr_hr.aff

Not tested: One should be able to reverse all the words, build a trie of the ending characters, traverse using some rules (eg LCS) and build an accurate statistical transformer using corpus text.

Best I can do is some python:

import hunspell
hs = hunspell.HunSpell(
         '/usr/share/myspell/hr_HR.dic', 
         '/usr/share/myspell/hr_HR.aff')

# The following should return ['hrvatska']:
print hs.stem('hrvatski') 
冷月断魂刀 2024-11-24 11:35:53

在这里你可以找到最近在 python 中完成的 ffzg 实现 - 克罗地亚语词干分析器。

我们以词形还原的报纸语料库为黄金标准,对词干分析器进行了基本评估,形容词和名词的精度为 0.986,召回率为 0.961 (F1 0.973)。在所有词性上,我们获得了 0.98 的精确度和 0.92 的召回率 (F1 0.947)。

它是在 GNU 许可证下发布的,但请随时联系作者以获得进一步的帮助(我只知道原作者 Nikola,但不知道他的学生)。

here you can find a recent implementation done on ffzg in python - stemmer for croatian.

We performed basic evaluation of the stemmer on a lemmatized newspaper corpus as gold standard with a precision of 0.986 and recall of 0.961 (F1 0.973) for adjectives and nouns. On all parts of speech we obtained precision of 0.98 and recall of 0.92 (F1 0.947).

It is released under GNU licence but feel free to contact the author on further help (I only know the original author Nikola, but not his student).

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文