请问分词器的字典在搜索引擎中起什么作用
我用jcseg切分大段中文放入elasticsearch,发现即使字典没有的词一样可以搜索出来。使用match_phrase能完全匹配。
如词“南阳县旅游”这个词,切分的字典里有这个词和没这个词,有什么区别? 是查询效率有区别吗?
网上搜了一圈都是泛泛而论,谢谢回复。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(2)
ok,非常感谢。这是我的理解你的意思:我们为什么要在elasticsearch中用jcseg分词,就是搜索的之前会有分词,如"
南阳县旅游"会按字典切分出更有价值的词汇去进行搜索,这样保证搜索的对用户是有价值的,如jcseg中有近义词和拼音,那么也会用拼音和近义词进行搜索,那就能检索出来“最相关”的资料
字典的作用是在分词过程中需要(绝大部分分词器都是基于词典的),和搜索没关系.那么你的问题就转换为了分词和搜索有什么关系?
搜索不一定要分词的,n篇文档中找到你想要的x篇就是搜索.
引入中文分词和检索系统,是为了更快的搜索,更关键的是更好,灵活的搜索排名.
不少情况下,分词与否看起来对检索结果没区别,但是内部的运作流程是有巨大区别的.
现在的搜索不是在于能否被检索到,而是检索出来的文档是最相关的.