使用 Sqlite FTS 搜索日文字符(utf-8 编码)
根据我的实验,Sqlite FTS 似乎不支持搜索日语字符,讨论这里< /a>.
#select * from tblEvent_shortdes where short_des MATCH 'BSジャパンの見どころ'
#return nothing
select * from tblEvent_shortdes where short_des MATCH 'パンの見'
在 FTS 中自定义分词器似乎是实现此目的的方法,但我没有找到任何有前途的日语开源分词器。 ICU 分词器可以吗?
It seems that Sqlite FTS don't support searching Japanese characters according to my experiments , and discussion here.
#select * from tblEvent_shortdes where short_des MATCH 'BSジャパンの見どころ'
#return nothing
select * from tblEvent_shortdes where short_des MATCH 'パンの見'
Customize tokenizer in FTS seems to be the way to accomplish this but I did not found any promising open sourced tokenizer for Japanese. Will ICU tokenizer do?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
您可以查看 ChaSen 和 MeCab.我使用其中任何一个已经有好几年了——而且看起来最近都没有更新过——但事实证明,两者在日语标记化方面都足够。
You might take a look at ChaSen and MeCab. It has been several years since I used either - and it looks as though neither has been updated recently - but both proved adequate at Japanese tokenization.