网站搜索爬虫怎么迅速提高工作效率??
多机器分布式、单机多进程。
如果你是抓一个网站的话其实效率瓶颈可能不在你这啊,人家网站如果负载能力有限,你抓太快就崩溃了啊。
多线程,抓取和解析分开
效率绝对不是爬虫的问题。就算单线程一个个爬去,或者调用浏览器模拟点击爬去网站也会很快。
如果你真要快的话,买代理IP,多机器爬取。控制好调度,将下载和解析分卡
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
暂无简介
文章 0 评论 0
接受
发布评论
评论(3)
多机器分布式、单机多进程。
如果你是抓一个网站的话其实效率瓶颈可能不在你这啊,人家网站如果负载能力有限,你抓太快就崩溃了啊。
多线程,抓取和解析分开
效率绝对不是爬虫的问题。就算单线程一个个爬去,或者调用浏览器模拟点击爬去网站也会很快。
如果你真要快的话,买代理IP,多机器爬取。控制好调度,将下载和解析分卡