当前位置：文江博客话题详情

搜索排名/相关性算法

发布于 2024-07-07 08:27:05 字数 120 浏览 6 评论 0原文

例如，在开发知识库中的文章数据库时 - 排序和显示与用户问题最相关的答案的最佳方法是什么？

您是否会使用其他数据，例如根据以前的用户是否找到帮助文章的关键字权重，或者您是否认为简单的关键字匹配算法就足够了？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

时光与爱终年不遇 2024-07-14 08:27:05

也许最简单、最天真的方法会立即产生有用的结果，那就是实现 *tf-idf ：

搜索引擎经常使用 tf-idf 加权方案的变体作为根据用户查询对文档的相关性进行评分和排名的中心工具。 tf–idf 可成功用于各种主题领域的停用词过滤，包括文本摘要和分类。

在我最近的一个相关问题中，我了解到一本关于这个主题的优秀免费书籍，您可以下载或在线阅读：

信息检索简介

回复收藏 0 原文

送君千里 2024-07-14 08:27:05

这是一个很难回答的问题，像谷歌这样的公司正在付出很多努力来解决这个问题。请查看 Google Enterprise Search Appliance 或 Exalead 企业搜索。

然后，作为个人观点，与天真的关键字搜索和按文档查看次数排序相比，我认为任何“天真的”方法都不会改善结果。

如果您有可能将您的知识库公开到网络上，那么，就这样做，让您最喜欢的搜索引擎为您处理搜索。

回复收藏 0 原文

转瞬即逝 2024-07-14 08:27:05

我认为这里的角度不是检索本身......而是对检索到的信息的相关性进行评分（一种更加被动和被动的方法），稍后可以使用它来改进搜索引擎。

我想你可以尝试 -

knn 在 tfidf 上检索信息
手动标记这些检索到的信息相关性分数
然后回归该分数来预测未知搜索结果的分数并对其进行排序。

只是一个想法......

第三点实际上是基于Rocchio算法。您可以在此处查看

回复收藏 0 原文

箜明 2024-07-14 08:27:05

您的确切问题更具体一点会更好。您可以使用许多不同的技术。其中许多是由其他数据驱动的。您当然可以使用 Lucene 并构建自己的索引。许多语言都有与 lucene 的绑定。向上还有 Solr 项目，它是 Lucene，具有许多工具和额外的功能。这可能更符合您正在寻找的内容。

意图是很棘手的，大多数现代搜索引擎都依赖统计意图来帮助对结果进行排序。您始终可以使用“本文是否有用”按钮并存储指向有用文档的查询文本。然后，您可以向索引添加一层信息来增强特定的单词或短语并帮助它们指向某些文档。

需要考虑的一些事情...有多少文档？平均长度是多少？它们更新频繁吗？用户如何处理文档？独特单词在文档中的传播是什么样的？（更简单地说，很容易根据共同的独特功能将查询与特定文档进行匹配。）

如果是在网络上，您始终可以创建一个仅搜索您的网站的谷歌自定义搜索引擎，尽管您可能会发现这由于各种原因而未达到最佳状态。

您始终可以从简单的索引开始，然后通过与用户交谈和捕获数据逐渐使其变得更加复杂。

回复收藏 0 原文

幽蝶幻影 2024-07-14 08:27:05

处理问题时，关键词匹配是不够的，你需要了解意图，正如 joannes 所说的一个搜索中非常热门的话题

回复收藏 0 原文

~没有更多了~

关于作者

摇划花蜜的午后

暂无简介

0 文章

0 评论

23 人气

关注发私信

友情链接

文江博客

搜索排名/相关性算法

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（5）

关于作者

相关话题

热门标签

推荐作者

留蓝

18790681156

zach7772

Wini

ayeshaaroy

初雪

友情链接

搜索排名/相关性算法

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（5）

关于作者

相关话题

热门标签

推荐作者

留蓝

18790681156

zach7772

Wini

ayeshaaroy

初雪

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。