当前位置：文江博客话题详情

Java API：下载并计算给定网页的 tf-idf

发布于 2024-10-17 10:28:13 字数 214 浏览 15 评论 0原文

我是红外技术的新手。

我正在寻找一个基于 Java 的 API 或工具来执行以下操作。

下载给定的一组 URL
提取标记
删除停用词
执行词干分析
创建倒排索引
计算 TF-IDF

请让我知道 Lucene 对我有何帮助。

问候尤维

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

薄凉少年不暖心 2024-10-24 10:28:13

您可以尝试词向量工具 - 距离最新版本已经有一段时间了，但它在这里工作得很好。它应该能够执行您提到的所有步骤。然而，我自己从未使用过爬虫部分。

回复收藏 0 原文

淡淡離愁欲言轉身 2024-10-24 10:28:13

实际上， TF-IDF 是给文档中某个术语的分数，而不是整个文档。
如果您只想要文档中每个术语的 TF-IDF，可以使用此方法，无需接触 Lucene。
如果你想创建一个搜索引擎，你需要做更多的事情（例如从给定的 URL 中提取文本，其相应的文档可能不包含原始文本）。如果是这种情况，请考虑使用 Solr。