爬虫的难点应该是什么?
爬虫的难点应该是什么? 这个是前几天我面试的时候遇到面试官问的一个问题,对于做了两年爬虫开发的我来说,我觉得还是链接调度比较麻烦点..也不算是麻烦吧.就是感觉是比较重要的一块,代理ip池,节点心跳,节点通信等基本上都可以实现的东西.链接调度需要考虑cookie,网站更新频率,响应等来判断,数据的实时性等.个人理解..求大牛指点一下..
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(6)
推荐一款动态代理IP给做数据抓取、需要大量IP的朋友,IP可用率非常高,用IP138测试超过95%可用,强烈推荐 http://www.goubanjia.com/buy/dynamic.html
写爬虫的童鞋可以试试神箭手云爬虫,自带JS渲染、代理ip、验证码识别等功能,还可以发布和导出爬取的数据,生成图表等,都在云端进行,不需要安装开发环境。
去噪 去重 分类聚类
容错~,各种的容错
难点是怎么消重,爬了很多东西,最后发现内容都是重复的 还有象百毒这种搜出来的还是以讹传讹的内容,当然百毒说这怪中国国情,因为中国网民象@eechen这种无脑复制粘贴的居多,愿意生产原创内容的少,内容是错的也一样到处复制粘贴
您应聘的是搜索引擎方面的工作吗?个人觉得,分布式设计应该是一个难点