要爬网页,选哪个爬虫好?Nutch? Heritrix?

发布于 2021-11-26 22:12:46 字数 155 浏览 759 评论 9

爬取网页的指定信息,不需要保存完整页面。比方说阿里巴巴的需求信息,爬取后转换为本地数据结构数据库存储。当然,如果它的需求信息更新了,我还得跟新我的本地数据,所以还的判断网页是否更新。索引及查询用Lucene就行了,现在是抓取部分,不知道哪个软件定制化程度高一些,而且要容易使用,因为我是菜鸟...

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(9

顾挽 2021-12-01 14:53:47

推荐使用WebCollector:

http://www.oschina.net/p/webcollector

一套爬虫内核,使用非常简单,而且很适合做抽取。

只为守护你 2021-12-01 14:17:54

我也想知道!!

巡山小妖精 2021-12-01 14:15:32

weblech最简单~~~

月亮是我掰弯的 2021-12-01 13:51:17

照你这个需求,用heritrix比nutch要好一些。

nutch适合做搜索引擎,只是附加有crawl的功能。而heritrix是专门crawl的。

刘备忘录 2021-12-01 12:51:34

ikanalysis .用OSCHINA 就没错了。最起码 互联网 不会只拆出“互联” 、“联网”。

夜无邪 2021-12-01 11:46:31

ME THREE  。要是解决了的话。楼主分享一下,,谢谢!!

反目相谮 2021-12-01 10:43:08

现在你找到最好的方法了吗?我也在研究这个了....菜鸟一个too.

刘备忘录 2021-12-01 04:30:26

索引与查询这么难搞的东西, 你都搞定了.

那这爬虫就太简单了吧. 哪怕用PHP都可以写得出来.

同时推荐 curl 是个不错的东东.

一人独醉 2021-11-29 01:12:56

虽然此问题已经过去很长时间,但是目前看来,垂直类的网页抓取需求还是用
Spiderman吧。这里有个文章可以参考下:
http://my.oschina.net/laiweiwei/blog/100866

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文