爬虫的难点应该是什么?

发布于 2021-12-07 18:11:22 字数 182 浏览 853 评论 6

    爬虫的难点应该是什么? 这个是前几天我面试的时候遇到面试官问的一个问题,对于做了两年爬虫开发的我来说,我觉得还是链接调度比较麻烦点..也不算是麻烦吧.就是感觉是比较重要的一块,代理ip池,节点心跳,节点通信等基本上都可以实现的东西.链接调度需要考虑cookie,网站更新频率,响应等来判断,数据的实时性等.个人理解..求大牛指点一下..

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(6

归途 2021-12-09 15:49:20

推荐一款动态代理IP给做数据抓取、需要大量IP的朋友,IP可用率非常高,用IP138测试超过95%可用,强烈推荐 http://www.goubanjia.com/buy/dynamic.html

无声静候 2021-12-09 14:46:43

写爬虫的童鞋可以试试神箭手云爬虫,自带JS渲染、代理ip、验证码识别等功能,还可以发布和导出爬取的数据,生成图表等,都在云端进行,不需要安装开发环境。

悟红尘 2021-12-09 13:07:36

去噪 去重 分类聚类

霞映澄塘 2021-12-09 11:18:29

容错~,各种的容错

海之角 2021-12-09 09:38:01

难点是怎么消重,爬了很多东西,最后发现内容都是重复的 还有象百毒这种搜出来的还是以讹传讹的内容,当然百毒说这怪中国国情,因为中国网民象@eechen这种无脑复制粘贴的居多,愿意生产原创内容的少,内容是错的也一样到处复制粘贴

情痴 2021-12-09 02:03:53

您应聘的是搜索引擎方面的工作吗?个人觉得,分布式设计应该是一个难点

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文