编写帖子搜索算法

发布于 2024-09-02 19:00:40 字数 389 浏览 10 评论 0原文

我正在尝试编写一个免费文本搜索算法，用于查找墙上的特定帖子（与 Facebook 使用的类似墙）。用户应该能够在搜索字段中写下一些单词，并在包含这些单词的帖子上获得点击；最佳匹配位于顶部，然后其他帖子根据匹配分数按降序排列。

我使用编辑距离（Levenshtein）“e(x, y) = e”来计算每个帖子与查询词“x”和帖子词“y”相比的得分，根据：得分（x，y） ) = 2^(2 - e)(1 - min(e, |x|) / |x|)，其中“|x|”是查询词中的字母数。

帖子中的每个单词都会影响该特定帖子的总分。当帖子大小大致相同时，这种方法似乎效果很好，但有时某些大型帖子仅凭借其中包含大量单词而获得分数，而实际上与查询无关。

我是否以错误的方式处理这个问题，或者是否有某种方法可以标准化我没有想到的分数？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

山人契 2024-09-09 19:00:40

是的。您可以使用多种标准化方法。这是一个经过充分研究的领域！

看一下向量空间模型。 TDF/IDF 可能与您正在做的事情相关。它与您使用的方法并不严格相关，但可以为您提供一些标准化线索。

另请注意，比较每个帖子的时间复杂度为 O(N)，并且可能会变得非常慢。使用词干分析可能会获得更好的结果，而不是字符串距离。然后您可以将其放入 VSM 倒排索引中。

许多数据库（包括 MySQL 和 Postgres）都具有全文搜索功能。这可能比自己做更实用。

回复收藏 0 原文

~没有更多了~

关于作者

但可醉心

暂无简介

文章

26 人气

关注发私信

友情链接

文江博客

编写帖子搜索算法

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

十二

飞烟轻若梦

OPleyuhuo

wxb0109

旧城空念

-小熊_

友情链接

编写帖子搜索算法

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

十二

飞烟轻若梦

OPleyuhuo

wxb0109

旧城空念

-小熊_

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。