Java API:下载并计算给定网页的 tf-idf
我是红外技术的新手。
我正在寻找一个基于 Java 的 API 或工具来执行以下操作。
- 下载给定的一组 URL
- 提取标记
- 删除停用词
- 执行词干分析
- 创建倒排索引
- 计算 TF-IDF
请让我知道 Lucene 对我有何帮助。
问候 尤维
I am new to IR techniques.
I looking for a Java based API or tool that does the following.
- Download the given set of URLs
- Extract the tokens
- Remove the stop words
- Perform Stemming
- Create Inverted Index
- Calculate the TF-IDF
Kindly let me know how can Lucene be helpful to me.
Regards
Yuvi
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(2)
您可以尝试词向量工具 - 距离最新版本已经有一段时间了,但它在这里工作得很好。它应该能够执行您提到的所有步骤。然而,我自己从未使用过爬虫部分。
You could try the Word Vector Tool - it's been a while since the latest release, but it works fine here. It should be able to perform all of the steps you mention. I've never used the crawler part myself, however.
实际上, TF-IDF 是给文档中某个术语的分数,而不是整个文档。
如果您只想要文档中每个术语的 TF-IDF,可以使用 此方法,无需接触 Lucene。
如果你想创建一个搜索引擎,你需要做更多的事情(例如从给定的 URL 中提取文本,其相应的文档可能不包含原始文本)。如果是这种情况,请考虑使用 Solr。
Actually, TF-IDF is a score given to a term in a document, rather than the whole document.
If you just want the TF-IDFs per term in document, maybe use this method, without ever touching Lucene.
If you want to create a search engine, you need to do a bit more (such as extracting text from the given URLs, whose corresponding documents would probably not contain raw text). If this is the case, consider using Solr.