使用 Whoosh Python 搜索库进行文档比较/相似度
如何使用 Whoosh 获取文档的相似性度量?
我想创建一个“相关”功能,对与文档高度相似的其他先前索引的文档进行排名。
我是否将文档作为长查询字符串输入?我是否将文档添加到索引并以某种方式从那里提取相似性查询结果?
谢谢
How do I get a similarity measure of a document using Whoosh?
I want to create a "Related" feature that ranks other previously indexed documents that have a high similarity to a document.
Do I input the document as a long query string? Do I add the document to the index and extract a similarity query result somehow from there?
Thanks
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
Whoosh 搜索器类有一个名为 的方法'more_like()'。
它允许您将文档与其他索引文档进行比较和索引,并返回与给定文档相似的文档列表。
以及 类 whoosh.searching.Hit 可以给出排名和分数。
更新的链接:
more_like()
:https://whoosh.readthedocs.io/en/latest/api/searching.html#whoosh.searching.Searcher.more_likewhoosh.searching.Hit
:https://whoosh.readthedocs.io/en/latest/api/searching.html#whoosh.searching.HitThe Whoosh searcher class has a method called 'more_like()'.
It allows you to compare and indexed document to other indexed documents and returns a list of documents similar to the given document.
And the class whoosh.searching.Hit can give a rank and a score.
Updated links:
more_like()
: https://whoosh.readthedocs.io/en/latest/api/searching.html#whoosh.searching.Searcher.more_likewhoosh.searching.Hit
: https://whoosh.readthedocs.io/en/latest/api/searching.html#whoosh.searching.Hit