搜索技术建议

发布于 2024-09-29 21:48:02 字数 744 浏览 8 评论 0原文

这更多的是一个理论问题而不是实践问题。我正在开发一个非常简单的链接目录项目。整个模型类似于 Dmoz 或 Yahoo 目录，只是每个条目都有某些附加属性。

我对具有多对多关系的所有条目进行层次分类法，所有条目现在都被分类到这些类别中，并且一切似乎都工作正常。现在，如果没有搜索选项，目录有什么用呢？

以下是关于我的模型的更多详细信息：每个条目都有标题、描述、URL 和几个社交配置文件：YouTube、Twitter、Flickr 等。每个条目都可以附加一个徽标，以及一个隐藏的标签字段。此外，标题和描述以三种不同的语言存储。所以基本上我希望搜索结果是：

相关的（包括分类法）
可能有徽标
可能有 100% 填写的配置文件

我已经尝试过 Sphinx 并且目前正在使用 Lucene，但似乎我没有得到理论上搜索正确。我希望填充的条目应该比其他条目显示得更高确实有意义，但我无法真正计算出分数。如果整个描述中只有一个单词匹配，我不希望不相关的条目出现在顶部，因为标题更相关。

所以我的问题是 - 是否有任何书籍、技术甚至其他搜索引擎（如果 Sphinx 和 Lucene 不够好）您会针对此事推荐？我不仅希望完全控制搜索结果及其排名，而且还向访问者提供正确且相关的信息。

很酷的文章链接也很受欢迎！

不，我并不想重建 Google :)

谢谢 :)

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

西瓜 2024-10-06 21:48:02

优秀的书：Lucene in Action（第 2 版）

当我们开始使用 Lucene 时，我们有第一版，它确实引导您一步步完成所需的一切。强烈推荐。第二版已更新为最新、最好的版本 (3.xx)。

Tf-Idf 算法在（较大的）文本上效果很好，但是如果您有类似记录的结构，则可能会适得其反：具有几个术语的文档被认为比具有许多术语的文档更“相关”。使用 Lucene，您可以让它工作，但您必须亲自动手。

您基本上需要做的是提升您的标题字段，因此它变得更加相关。您还可以更改评分机制为包含更多信息的文档分配更高的分数。

玩得开心。如果您无法弄清楚，Lucene 邮件列表上有很好的支持。

回复收藏 0 原文

人心善变 2024-10-06 21:48:02

我很确定 Lucene 就足够了。我们已经解决了类似的任务并且做得很好。这里有一些提示，我可以建议您回顾一下我在 Lucene.Net 上的项目。

分类法：

类别在数据库中表示为整数键，因此每个文档都有多个 Number 类型的字段“CATEGORY”实例。例如 document:[1,2,5,10, 'Wheel'] - 表示 Wheel 属于每个类别。

不可搜索的字段（徽标、社交资料）：

当然，您可以在 lucene 的非索引字段中存储不可搜索的值。但是我们已经将所有产品相关信息存储在DB中以避免重建Lucene的索引。因此 Lucene 仅拥有产品 ID 以及已索引但已存储的关键字段值。

三种语言和多个领域：

我们只有两种语言。因此，不同的产品标题可以存储在同一个 Lucene 文档中，并与产品的单个 ID 相关（正如我之前所写的，ID 指的是 DB）。即使用户请求使用混合语言，您也可以搜索产品。
显然，标题、标签和描述对于搜索结果具有不同的权重。 Lucene 通过分配字段权重来处理它。

回复收藏 0 原文

随波逐流 2024-10-06 21:48:02

我将尝试补充 Matthijs、Dewfy 和 Karussell 的精彩答案。
基本上，您正在尝试提高搜索相关性。
我建议您阅读 Grant Ingersoll 的调试搜索应用程序相关性问题和他的优化 Lucene 和 Solr 中的可查找性，以及他的实用相关性幻灯片。

对于不同的语言和分面，我建议您使用 Solr。它是一个使用Lucene构建的搜索引擎，易于使用。它可以通过对每种语言使用不同的 Solr Core 来支持多种语言。

回复收藏 0 原文

千紇 2024-10-06 21:48:02

Lucene 或 Solr 可以完成这项工作。 Solr 构建在 lucene 之上，请参阅此处了解更多信息

会和solr一起去。下载+设置既简单又快捷。开始使用本教程和我的链接集合。 solr 的相关性应该很好并且很容易调整。

查看 Dewfy 和 Matthijs Bierman 的回答，了解一些好的观点。

然后选择 dismax 查询处理程序，您可以选择具有某些属性的文档。

例如，对于完整配置文件的百分比，您定义一个单独的字段“profile_completness”，然后您可以将 profile_completeness 添加到 dismax 处理程序的 bf（boostfunction）：配置文件越完整，这些文档的提升就越多。

我之前提到过，您可以轻松调整相关性：例如，您可以将 bf 设置为 sth。例如：bf=title^10 Tags^5 profile_completeness^1

“可能带有徽标”可以通过 boost 查询来解决：bq=logo:[* TO *]^1。其中 logo:[* TO *] 表示“仅包含字段徽标的文档”

要显示深度嵌套的类别树，您需要在内存中创建该树并通过特殊导入向 solr 提供数据。我们有一个可用的应用程序。您可以使用我们的方法

如果您需要进一步帮助，请不要犹豫发表评论。

回复收藏 0 原文

~没有更多了~

关于作者

思慕

暂无简介

0 文章

0 评论

24 人气

关注发私信

友情链接

文江博客

搜索技术建议

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（4）

关于作者

相关话题

热门标签

推荐作者

胡图图

zt006

z祗昰~

冰葑

野の

天空

友情链接

搜索技术建议

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（4）

关于作者

相关话题

热门标签

推荐作者

胡图图

zt006

z祗昰~

冰葑

野の

天空

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。