请问分词器的字典在搜索引擎中起什么作用

发布于 2021-11-25 22:57:42 字数 184 浏览 883 评论 2

我用jcseg切分大段中文放入elasticsearch,发现即使字典没有的词一样可以搜索出来。使用match_phrase能完全匹配。 

如词“南阳县旅游”这个词,切分的字典里有这个词和没这个词,有什么区别? 是查询效率有区别吗?


网上搜了一圈都是泛泛而论,谢谢回复。

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(2

终遇你 2021-11-26 20:15:22

ok,非常感谢。这是我的理解你的意思:我们为什么要在elasticsearch中用jcseg分词,就是搜索的之前会有分词,如"
南阳县旅游"会按字典切分出更有价值的词汇去进行搜索,这样保证搜索的对用户是有价值的,如jcseg中有近义词和拼音,那么也会用拼音和近义词进行搜索,那就能检索出来“最相关”的资料

为你鎻心 2021-11-26 11:37:43

字典的作用是在分词过程中需要(绝大部分分词器都是基于词典的),和搜索没关系.那么你的问题就转换为了分词和搜索有什么关系?

搜索不一定要分词的,n篇文档中找到你想要的x篇就是搜索.

引入中文分词和检索系统,是为了更快的搜索,更关键的是更好,灵活的搜索排名.

不少情况下,分词与否看起来对检索结果没区别,但是内部的运作流程是有巨大区别的.

现在的搜索不是在于能否被检索到,而是检索出来的文档是最相关的.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文