要爬网页，选哪个爬虫好？Nutch? Heritrix?

发布于 2021-11-26 22:12:46 字数 155 浏览 772 评论 9

爬取网页的指定信息，不需要保存完整页面。比方说阿里巴巴的需求信息，爬取后转换为本地数据结构数据库存储。当然，如果它的需求信息更新了，我还得跟新我的本地数据，所以还的判断网页是否更新。索引及查询用Lucene就行了，现在是抓取部分，不知道哪个软件定制化程度高一些，而且要容易使用，因为我是菜鸟...

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

顾挽 2021-12-01 14:53:47

推荐使用WebCollector:

http://www.oschina.net/p/webcollector

一套爬虫内核，使用非常简单，而且很适合做抽取。

回复收藏 0

只为守护你 2021-12-01 14:17:54

我也想知道！！

回复收藏 0

巡山小妖精 2021-12-01 14:15:32

weblech最简单~~~

回复收藏 0

月亮是我掰弯的 2021-12-01 13:51:17

照你这个需求，用heritrix比nutch要好一些。

nutch适合做搜索引擎，只是附加有crawl的功能。而heritrix是专门crawl的。

回复收藏 0

刘备忘录 2021-12-01 12:51:34

ikanalysis .用OSCHINA 就没错了。最起码互联网不会只拆出“互联” 、“联网”。

回复收藏 0

夜无邪 2021-12-01 11:46:31

ME THREE 。要是解决了的话。楼主分享一下，，谢谢！！

回复收藏 0

反目相谮 2021-12-01 10:43:08

现在你找到最好的方法了吗?我也在研究这个了....菜鸟一个too.

回复收藏 0

刘备忘录 2021-12-01 04:30:26

索引与查询这么难搞的东西, 你都搞定了.

那这爬虫就太简单了吧. 哪怕用PHP都可以写得出来.

同时推荐 curl 是个不错的东东.

回复收藏 0

一人独醉 2021-11-29 01:12:56

虽然此问题已经过去很长时间，但是目前看来，垂直类的网页抓取需求还是用
Spiderman吧。这里有个文章可以参考下：
http://my.oschina.net/laiweiwei/blog/100866

回复收藏 0

~没有更多了~

关于作者

奢望

暂无简介

文章

835 人气

关注发私信

牛↙奶布丁

文章 0 评论 0

关注

COSO

文章 0 评论 0

关注

落叶

文章 0 评论 0

关注

暗地喜欢

文章 0 评论 0

关注

qq_i8qOEG

文章 0 评论 0

关注

qq_Wl4Sbi

文章 0 评论 0

友情链接

文江博客

要爬网页，选哪个爬虫好？Nutch? Heritrix?

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（9）

关于作者

相关话题

热门标签