当前位置：文江博客话题详情

搜索查询标记器

发布于 2024-11-16 23:58:14 字数 183 浏览 0 评论 0原文

我们正在尝试向列出餐馆的网站添加简单的搜索功能。我们尝试从搜索字符串中检测地名、位置和地点特征，例如“开罗附近的便宜餐馆”或“弗吉尼亚州的中国和高端食品”。

我们现在正在做的是将查询标记化，并首先在性能成本最低的表中进行搜索（价格表（廉价-预算-昂贵-高端）小于地点列表的表）。这是正确的做法吗？

-- 问候。叶希亚

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

倚栏听风 2024-11-23 23:58:14

我想说你应该构建同义词集（例如廉价、低预算等进入 synset:1）并将每个标记从搜索字符串映射到其中一个组。

顺便说一句，这里很容易处理拼写错误，因为这通常是一个相当小的搜索空间。编辑距离、常见的 k-grams……任何事情都应该没问题。

在下一步中，您应该为每个同步组构建倒排索引列表，将映射映射到可以与该属性关联的餐厅的排序列表。对于查询中的每个同步组，获取所有这些列表并简单地将它们相交。

无法映射到这些同义词集之一的单词可能必须被忽略，除非您有某种可以索引的餐馆的全文。在该功能中，您还可以为“普通”单词构建此类餐厅列表并将它们相交。但这已经非常接近经典搜索引擎，并且使用像 apache lucence 这样的技术可能是个好主意。如果没有全文，我认为您不需要这样的东西，因为 snygroups 的倒排索引非常容易您自己处理。

回复收藏 0 原文