抓取图片时如何判断图片已经下载完毕了
初学 Python,通过尝试抓取网页内容来当突破口。
目前的方法是:
从列表页获取页内所有的详情页地址;
从详情页地址中获取所有的图片地址,并以详情页 url 的最后一段作为文件夹的名称;
每个图片地址起一个线程,拿到图片内容并存下来,用 url 的最后一段作为文件名;
环境是 win10 + python3,用到的库主要是 PyQuery、requests,抓的是 lofter 的网页。
目前遇到的问题是:下载下来的图片很可能只有一半,上半截是图片,下半截是红蓝绿交替
尝试过每抓一张图片就 sleep2 秒钟,并没有效果。
想请问有啥办法判断图片是否下载完成么?我现在想到的一个办法是根据图片大小来判断,但是召回和准确难以兼顾。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
http response头域里头有Content-Length 根据这个判断是否和下载下来的大小一样 ,这个可以解决上面正常下面交替或者白板的问题,但是解决不了左右错误问题。左右错位问题有人用图像识别去做