当前位置：文江博客话题详情

Nutch 的替代网络爬虫

发布于 2024-10-04 05:04:18 字数 1539 浏览 0 评论 0原文

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

一腔孤↑勇 2024-10-11 05:04:18

Scrapy 是一个用于抓取网站的 Python 库。它相当小（与 Nutch 相比），专为有限的站点爬行而设计。它有 Django 类型的 MVC 风格，我发现很容易定制。

回复收藏 0 原文

过期以后 2024-10-11 05:04:18

对于抓取部分，我非常喜欢 anemone 和 crawler4j。它们都允许您添加用于链接选择和页面处理的自定义逻辑。对于您决定保留的每个页面，您可以轻松添加对 Solr 的调用。

回复收藏 0 原文

诗酒趁年少 2024-10-11 05:04:18

这取决于您认为可以抓取的网站和 URL 的数量。 Apache Nutch 在 Apache HBase（依赖于 Apache Hadoop）上存储页面文档，它很可靠，但很难设置和管理。

由于爬虫只是一个页面获取（如 CURL）并检索链接列表以提供您的 URL 数据库，我相信您可以自己编写一个爬虫（特别是如果您有几个网站），请使用一个简单的MySQL 数据库（可能是像 RabbitMQ 这样的队列软件来安排爬网作业）。

另一方面，爬虫可能更复杂，您可能希望从 HTML 文档中删除 HEAD 部分，并仅保留页面的真实“内容”等...

此外，Nutch 可以使用 PageRank 对您的页面进行排名algo.，您可以使用 Apache Spark 来做同样的事情（更有效，因为 Spark 可以在内存中缓存数据）。

回复收藏 0 原文

︶葆Ⅱㄣ 2024-10-11 05:04:18

在，C#中，但是简单很多并且可以直接与作者交流。（我）

我曾经使用过 Nutch，你是对的；它是一只值得共事的熊。

http://arachnode.net

回复收藏 0 原文

暮凉 2024-10-11 05:04:18

我确实相信 nutch 是您应用程序的最佳选择，但如果您愿意，有一个简单的工具： Heritrix。
除此之外，我推荐前端语言使用js，因为solr返回的json很容易被js处理。

回复收藏 0 原文

~没有更多了~

关于作者

咿呀咿呀哟

暂无简介

0 文章

0 评论

22 人气

关注发私信

lioqio

文章 0 评论 0

关注

Single

文章 0 评论 0

关注

禾厶谷欠

文章 0 评论 0

关注

alipaysp_2zg8elfGgC

文章 0 评论 0

关注

qq_N6d4X7

文章 0 评论 0

关注

放低过去

文章 0 评论 0

友情链接

文江博客

Nutch 的替代网络爬虫

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（5）

关于作者

相关话题

热门标签