使用 Java 的网络索引器

发布于 2024-09-12 12:00:17 字数 49 浏览 1 评论 0原文

用Java开发网站爬虫和网络索引器时,并行系统还是分布式系统更好?有哪些可用的框架?

Is parallel system or distributed system better for web site crawlers and web indexers when developed in Java? What are the available frameworks?

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(2

仲春光 2024-09-19 12:00:18

Nutch 是您能找到的最好的 Java 爬虫/索引器组合之一,它是一个 Apache 项目现在(参见 Wiki)并开源。

功能:

  1. 并行和/或分布式获取、解析和索引
  2. 插件:纯文本、HTML、XML、ZIP、OpenDocument (OpenOffice.org)、Microsoft Office(Word、Excel、Powerpoint)、PDF、 JavaScript、RSS、RTF、MP3(ID3 标签)
  3. 本体
  4. 集群
  5. MapReduce
  6. 分布式文件系统(通过 Hadoop)
  7. 链接图数据库
  8. NTLM 身份验证(Windows/Exchange/etc)

One of the best crawler/indexer combos you'll ever find for Java is Nutch, which is an Apache project now (see Wiki) and thus open source.

Features:

  1. Fetching, parsing and indexation in parallel and/ou distributed
  2. Plugins: plain text, HTML, XML, ZIP, OpenDocument (OpenOffice.org), Microsoft Office (Word, Excel, Powerpoint), PDF, JavaScript, RSS, RTF, MP3 (ID3 tags)
  3. Ontology
  4. Clustering
  5. MapReduce
  6. Distributed filesystem (via Hadoop)
  7. Link-graph database
  8. NTLM authentication (Windows/Exchange/etc)
贩梦商人 2024-09-19 12:00:18

纳奇是无与伦比的。我在项目中成功使用的另一个更简单的库是 https://crawler.dev.java.net/。您可以在 https://crawler.dev.java.net/samples.html

Nutch is unbeatable. Another more simple lib which I used successfully in projects is https://crawler.dev.java.net/. You find examples on https://crawler.dev.java.net/samples.html.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文