使用 Java 的网络索引器
用Java开发网站爬虫和网络索引器时,并行系统还是分布式系统更好?有哪些可用的框架?
Is parallel system or distributed system better for web site crawlers and web indexers when developed in Java? What are the available frameworks?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(2)
Nutch 是您能找到的最好的 Java 爬虫/索引器组合之一,它是一个 Apache 项目现在(参见 Wiki)并开源。
功能:
One of the best crawler/indexer combos you'll ever find for Java is Nutch, which is an Apache project now (see Wiki) and thus open source.
Features:
纳奇是无与伦比的。我在项目中成功使用的另一个更简单的库是 https://crawler.dev.java.net/。您可以在 https://crawler.dev.java.net/samples.html。
Nutch is unbeatable. Another more simple lib which I used successfully in projects is https://crawler.dev.java.net/. You find examples on https://crawler.dev.java.net/samples.html.