Lucene 支持 Unicode 吗?
我正在为我的网站构建一个全文搜索工具,该网站使用 mysql 数据库在 asp.net mvc 中编码。该网站适用于非英语语言。我已经开始使用 Lucense 作为搜索文本的引擎,但我找不到任何关于它是否支持 unicode 的信息?
有人知道 Lucene 是否支持 Unicode 吗?我不想要一个令人讨厌的惊喜。
此外,有关实现 lucene.net 的初学者文章的链接将不胜感激。
I am building a full text search facility for my website coded in asp.net mvc with mysql database. This website is for a non-english language. I have started work on it using Lucense as the engine for searching the text, but I can't find any info on whether it supports unicode?
Does anyone have any information on whether Lucene supports Unicode? I don't want a nasty surprise..
Also links to beginner articles on implementing lucene.net will be appreciated.
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(3)
是的。它完全支持unicode。
但为了分析,您应该明确分配适当的词干分析器和正确的停用词。
至于样品。这是我们上一个项目的副本
我正在从 NHibernate 查询组织对象并将它们放入 Lucene.NET
这是简单的搜索
Yes. It fully support unicode.
But for analyzing you should explicitly assign appropriate stemmers and correct stopwords.
As for sample. Here is copy from our last project
I'm querying Organization objects from NHibernate and put them into Lucene.NET
Here is simple search
是的,Lucene 支持 unicode,因为它以 UTF-8 格式存储字符串。
http://lucene.apache.org/java/3_0_3/fileformats.html
Yes, Lucene supports unicode because it stores strings in UTF-8 format.
http://lucene.apache.org/java/3_0_3/fileformats.html
Lucene 确实支持 unicode,但也有限制。例如,某些文档阅读器不支持 unicode。此外,lucene 还可以对单词进行复数或非复数化等操作。当你使用外语时,其中一些就会消失。
Lucene does support unicode, but there are limitations. For example some document readers don't support unicode. Also, lucene does things like pluralize or un-pluralize words. When you are using a foreign language some of that goes away.