如何构建概念搜索引擎？

发布于 2024-09-28 10:27:03 字数 309 浏览 11 评论 0原文

我想构建一个能够将查询映射到概念的内部搜索引擎（我有数千个 XML 文件的非常大的集合）。例如，如果我搜索“大型猫科动物”，我希望排名较高的结果也返回包含“大型猫科动物”的文档。但我可能也有兴趣让它返回“巨大的动物”，尽管相关性得分要低得多。

我目前正在阅读《Python 中的自然语言处理》一书，似乎 WordNet 有一些可能有用的单词映射，尽管我不确定如何将其集成到搜索引擎中。我可以使用 Lucene 来做到这一点吗？如何？

从进一步的研究来看，“潜在语义分析”似乎与我正在寻找的内容相关，但我不确定如何实现它。

关于如何完成这项工作有什么建议吗？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

窗影残 2024-10-05 10:27:03

我不知道如何将其集成到搜索引擎中。我可以使用 Lucene 来做到这一点吗？怎么办？

步骤 1. 停止。

第 2 步：让某事发挥作用。

步骤 3. 届时，您将更多地了解 Python 和 Lucene 以及其他工具以及可能集成它们的方法。

不要从尝试解决集成问题开始。软件始终可以集成。这就是操作系统的作用。它集成了软件。有时您想要“更紧密”的集成，但这永远不是要解决的第一个问题。

要解决的第一个问题是让您的搜索或概念事物或其他任何东西作为愚蠢的旧命令行应用程序工作。或者通过传递文件将一对应用程序结合在一起，或者通过操作系统管道或其他东西结合在一起。

稍后，您可以尝试找出如何实现无缝的用户体验。

但不要从集成开始，也不要因为集成问题而停滞不前。把集成放在一边，让一些东西发挥作用。

回复收藏 0 原文

放我走吧 2024-10-05 10:27:03

这是一个极其困难的问题，并且无法以总是产生足够结果的方式解决。我建议坚持一些非常简单的原则，这样结果至少是可以预测的。我认为你需要两件事：一些基本的形态引擎加上同义词词典。

每当搜索查询到达时，对于每个单词，您

查找字面匹配
都会使用词法引擎
“规范化/规范化”该单词，即使其成为单数、第一种形式等，并查找匹配项查找该单词的同义词

然后对所有单词重复输入单词的组合，即“big cats”、“big cat”、“huge cats”、“huge cat”等。

事实上，您也需要以规范形式（单数、第一种形式等）存储索引数据至于概念

，比如猫也是动物——这就是它从来没有真正起作用的地方，因为否则谷歌就会返回概念匹配，但它没有这样做。

回复收藏 0 原文

自由如风 2024-10-05 10:27:03

首先，我同意这里的大部分建议，即缓慢开始，首先构建这个宏伟计划的各个部分，设计一个最小的第一个产品，然后从那里继续。
其次，如果您想在 Lucene 中使用一些 Wordnet 功能，可以使用 contrib 包，用于将 Lucene 查询与 Wordnet 连接。我不知道它是否被移植到 pylucene 上。祝你好运，出门要小心。

回复收藏 0 原文