搜索技术-使用coreseek做中文分词时如何将特殊符号(#+/.等)纳入索引?
在做中文全文检索时我们采用的是coreseek,虽然它是基于sphinx开发的,但是有些sphinx的原生设置不能使用。
比如现在就遇到一个问题,我们需要能搜索到c#、c++等带有特殊字符的词,在sphinx中只需要在配置文件中的charset_table选项里增加这些特殊字符的unicode编码即可。
但在Coreseek中,启用中文分词后,系统会使用MMSeg内置的码表(被硬编码在MMSeg的程序中),因此,charset_table在启用分词后将失效。
请问除了修改其源代码之外,有什么比较好的方式实现这个需求?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
coreseek是在sphinx基础上针对中文搜索的二次开发,部分在英文搜索中的设置方法不能直接拿来用。
这里对于特殊字符可以做一个映射关系表,将常用的特殊字符替换为搜索引擎允许查找的字符。
例如: