要爬网页,选哪个爬虫好?Nutch? Heritrix?
爬取网页的指定信息,不需要保存完整页面。比方说阿里巴巴的需求信息,爬取后转换为本地数据结构数据库存储。当然,如果它的需求信息更新了,我还得跟新我的本地数据,所以还的判断网页是否更新。索引及查询用Lucene就行了,现在是抓取部分,不知道哪个软件定制化程度高一些,而且要容易使用,因为我是菜鸟...
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(9)
推荐使用WebCollector:
http://www.oschina.net/p/webcollector
一套爬虫内核,使用非常简单,而且很适合做抽取。
我也想知道!!
weblech最简单~~~
照你这个需求,用heritrix比nutch要好一些。
nutch适合做搜索引擎,只是附加有crawl的功能。而heritrix是专门crawl的。
ikanalysis .用OSCHINA 就没错了。最起码 互联网 不会只拆出“互联” 、“联网”。
ME THREE 。要是解决了的话。楼主分享一下,,谢谢!!
现在你找到最好的方法了吗?我也在研究这个了....菜鸟一个too.
索引与查询这么难搞的东西, 你都搞定了.
那这爬虫就太简单了吧. 哪怕用PHP都可以写得出来.
同时推荐 curl 是个不错的东东.
虽然此问题已经过去很长时间,但是目前看来,垂直类的网页抓取需求还是用
Spiderman吧。这里有个文章可以参考下:
http://my.oschina.net/laiweiwei/blog/100866