如何设计一种只需要针对文章的标题进行分词搜索,而不需要对文章内容全文搜索?

发布于 2022-08-24 01:04:31 字数 182 浏览 28 评论 0

例如:文章标题是: 中国劣货盛行的原因
假设用户输入:“中国房价上涨的原因” 采用某种分词技术 分词后为:中国 房价 上涨 的 原因
如何在后台进行搜索匹配并将全部匹配的信息排在第一条,之后将近似的信息靠后排序?
后台的文章标题是否要在建立文章的同时也进行分词并存储?
期待你的解答。Thanks.

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(2

只为一人 2022-08-31 01:04:31

首先,在搜索引擎里的内容一定是分次以后的一个索引,也就是倒排索引(http://zh.wikipedia.org/wiki/%E5%80%9...)。
排序问题比较复杂,你这里说的是完全按照相关性来排,一般的搜索引擎都提供相关性排序算法,只是不同的引擎算法和实现不同。
但是在实际运用中,不同的业务需求,对相关性的要求也不一样,往往要加上许多其他的因子,所以排序算法一般自己去实现。
如果想了解相关性排序的算法,建议可以去看看 Lucene 的相关实现。

夏至、离别 2022-08-31 01:04:31

可以使用solr(JAVA)或者sphinx(C)等全文检索系统来实现。

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文