波兰人寻找狮身人面像?

发布于 2024-10-15 22:18:00 字数 228 浏览 5 评论 0原文

我想为用 Django 编写的网站实现一个搜索解决方案。从可用的选项(我研究过 Solr、Sphinx、Xapian、PostgreSQL/Tsearch3、MySQL)来看,Sphinx 看起来是最好的。但是,它不支持波兰语的词干提取,而这是我想要搜索的数据的语言。

处理 Sphinx 中不支持的语言的最佳方法是什么?我有一个直觉,我可以从 Ispell 词典创建一个词干语料库。我怎样才能让它与 Sphinx 一起工作?

I want to implement a search solution for a website written in Django. From the available options (I have researched Solr, Sphinx, Xapian, PostgreSQL/Tsearch3, MySQL) Sphinx looks like the nicest. However, it does not support stemming for Polish, and that is the language of the data that I want to make searchable.

What are the best ways of dealing with unsupported languages in Sphinx? I have an intuition that I could create a stemming corpus from the Ispell dictionary. How can I make that work with Sphinx?

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

许久 2024-10-22 22:18:00

http://snowball.tartarus.org/ 邮件列表中搜索,如果有人尝试创建,您可能会找到一些信息波兰语词干提取器。有 2 个免费的词干分析器可用,但它们是用 java 制作的(我认为至少有一个是为 solr/lucene 制作的)。从 Ispell 来看,我不确定词干语料库是否可以帮助您,您可以创建用于词形或例外的文件。

Search in http://snowball.tartarus.org/ mailist , you might find some info if someone tried to create a polish stemmer . There are 2 free stemmers available , but they are made in java ( I think at least one is made for solr/lucene) . From Ispell , I'm not sure if the stemming corpus can help you , you could create files to be used for wordforms or excepts .

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文