博客园博客中的图片怎么用python爬取下来?

发布于 2022-09-04 23:05:05 字数 1000 浏览 57 评论 0

写了一小段代码,爬取博客园博客中的图片,这段代码对部分链接有效,还有一部分链接一爬就报错,这是什么原因呢?

#coding=utf-8

import urllib
import re
from lxml import etree

#解析地址
def getHtml(url):
    page = urllib.urlopen(url)
    html = page.read()
    return html

#获取地址并建树
url = "http://www.cnblogs.com/fnng/archive/2013/05/20/3089816.html"
html = getHtml(url)
html = html.decode("utf-8")
tree = etree.HTML(html)

#保存图片至本地
reg = r'src="(.*?)" alt'
imgre = re.compile(reg)
imglist = re.findall(imgre, html)
x = 0
for imgurl in imglist:
    urllib.urlretrieve(imgurl, '%s.jpg' % x)
    x += 1

如图,可以正确爬取图片
clipboard.png

若把url换为

url = "http://www.cnblogs.com/baronzhang/p/6861258.html"

则立马报错

clipboard.png

求解决,谢谢!

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(2

暮色兮凉城 2022-09-11 23:05:05

错误提示已经很明显了,你去看下网页源代码,匹配到的第一张图片是一个GIF格式的,并且还是相对路径,所以你是下载不到的,故提示IOerror,就算你下载到了,因为你指定了格式为JPG,你也打不开。 因此你需要做的就是判断和筛选

for imgurl in imglist:
    if "gif" not in imgurl:
        urllib.urlretrieve(imgurl, '%s.jpg' % x)
        x += 1

看下我增加的地方,当然这只是最简单的判断,但可以保证你第二个程序不会报错,也是给你一个思路!

你的他你的她 2022-09-11 23:05:05

上面回答的很正确,但是我有个疑问
import urllib
import re
from lxml import etree #这里是想用xpath
def getHtml(url):

page = urllib.urlopen(url)
html = page.read()
return html

url = "http://www.cnblogs.com/fnng/archive/2013/05/20/3089816.html"
html = getHtml(url)
html = html.decode("utf-8")
tree = etree.HTML(html) #但是这里并没有用xpath解析啊,你用的是正则匹配
reg = r'src="(.*?)" alt'
imgre = re.compile(reg)
imglist = re.findall(imgre, html)
x = 0
for imgurl in imglist:

urllib.urlretrieve(imgurl, '%s.jpg' % x)
x += 1
~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文