使用 Sqlite FTS 搜索日文字符(utf-8 编码)

发布于 2024-11-19 01:46:10 字数 377 浏览 0 评论 0原文

根据我的实验,Sqlite FTS 似乎不支持搜索日语字符,讨论这里< /a>.

#select * from tblEvent_shortdes where short_des MATCH   'BSジャパンの見どころ' 
#return nothing
select * from tblEvent_shortdes where short_des MATCH  'パンの見' 

在 FTS 中自定义分词器似乎是实现此目的的方法,但我没有找到任何有前途的日语开源分词器。 ICU 分词器可以吗?

It seems that Sqlite FTS don't support searching Japanese characters according to my experiments , and discussion here.

#select * from tblEvent_shortdes where short_des MATCH   'BSジャパンの見どころ' 
#return nothing
select * from tblEvent_shortdes where short_des MATCH  'パンの見' 

Customize tokenizer in FTS seems to be the way to accomplish this but I did not found any promising open sourced tokenizer for Japanese. Will ICU tokenizer do?

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

半透明的墙 2024-11-26 01:46:10

您可以查看 ChaSenMeCab.我使用其中任何一个已经有好几年了——而且看起来最近都没有更新过——但事实证明,两者在日语标记化方面都足够。

You might take a look at ChaSen and MeCab. It has been several years since I used either - and it looks as though neither has been updated recently - but both proved adequate at Japanese tokenization.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文