Java API:下载并计算给定网页的 tf-idf

发布于 2024-10-17 10:28:13 字数 214 浏览 10 评论 0原文

我是红外技术的新手。

我正在寻找一个基于 Java 的 API 或工具来执行以下操作。

  1. 下载给定的一组 URL
  2. 提取标记
  3. 删除停用词
  4. 执行词干分析
  5. 创建倒排索引
  6. 计算 TF-IDF

请让我知道 Lucene 对我有何帮助。

问候 尤维

I am new to IR techniques.

I looking for a Java based API or tool that does the following.

  1. Download the given set of URLs
  2. Extract the tokens
  3. Remove the stop words
  4. Perform Stemming
  5. Create Inverted Index
  6. Calculate the TF-IDF

Kindly let me know how can Lucene be helpful to me.

Regards
Yuvi

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(2

薄凉少年不暖心 2024-10-24 10:28:13

您可以尝试词向量工具 - 距离最新版本已经有一段时间了,但它在这里工作得很好。它应该能够执行您提到的所有步骤。然而,我自己从未使用过爬虫部分。

You could try the Word Vector Tool - it's been a while since the latest release, but it works fine here. It should be able to perform all of the steps you mention. I've never used the crawler part myself, however.

淡淡離愁欲言轉身 2024-10-24 10:28:13

实际上, TF-IDF 是给文档中某个术语的分数,而不是整个文档。
如果您只想要文档中每个术语的 TF-IDF,可以使用 此方法,无需接触 Lucene。
如果你想创建一个搜索引擎,你需要做更多的事情(例如从给定的 URL 中提取文本,其相应的文档可能不包含原始文本)。如果是这种情况,请考虑使用 Solr

Actually, TF-IDF is a score given to a term in a document, rather than the whole document.
If you just want the TF-IDFs per term in document, maybe use this method, without ever touching Lucene.
If you want to create a search engine, you need to do a bit more (such as extracting text from the given URLs, whose corresponding documents would probably not contain raw text). If this is the case, consider using Solr.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文