Lucene:通过添加IR信息来输出详细数据

发布于 2024-10-18 21:06:42 字数 245 浏览 5 评论 0原文

我需要处理数据库,以便将 td-idf 权重等元信息添加到文档术语中。

接下来,我需要创建具有相似性度量的文档对,例如 td-idf 余弦相似度等......

我计划使用 Apache Lucene 来完成此任务。实际上,我对检索或运行查询不感兴趣,而是对数据进行索引并对其进行详细说明,以便生成具有上述文档对和相似度分数的输出文件。下一步是将这些结果传递给 Weka 分类器。

我可以用 Lucene 轻松做到这一点吗? 谢谢

I need to process a database in order to add meta-information such as td-idf weights to the documents terms.

Successively I need to create document pairs with similarity measures such as td-idf cosine similarity, etc...

I'm planning to use Apache Lucene for this task. I'm actually not interested in the retrieval, or running a query, but in indexing the data and elaborate them in order to generate an output file with the above mentioned document pairs and similarity scores. The next step would be to pass these results to a Weka classifier.

Can I easily do it with Lucene ?
thanks

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

却一份温柔 2024-10-25 21:06:42

尝试 将 Apache Mahout 与 Apache Lucene 和 Solr 集成。将“Mahout”替换为“Weka”。祝你好运。

Try Integrating Apache Mahout with Apache Lucene and Solr. Replace the places that say "Mahout" with "Weka". Good Luck.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文