如何使用 urllib2 下载 gzip 文件而不损坏它们？

发布于 2024-12-22 06:40:51 字数 693 浏览 6 评论 0原文

我正在编写一个脚本来下载 gzipped XML 站点地图；文件下载，但它们已损坏。脚本输出的 gzip 压缩文件比应有的文件稍大，而解压后的文件则比应有的文件小，因为数据丢失。知道我做错了什么吗？

saveAddress = "test.xml.gz"

import urllib2
import httplib
from urllib2 import Request, urlopen, URLError
try:
    request = urllib2.Request("http://example.com/sitemap-general.xml.gz")
    request.add_header('Accept-encoding', 'gzip')
    request.add_header('User-agent', 'Custom UA String')
    opener = urllib2.build_opener()
    try:
        pageText = opener.open(request).read()
        open(saveAddress, "w").write(pageText)
        print "Crawled successfully."
    except URLError, e:
        pass    
except URLError, e:
    pass

感谢您的帮助，非常感谢。

原文

I'm writing a script to download gzipped XML sitemaps; the files download, but they are corrupt. The gzipped files outputted by the script are a little larger than they should be, and the decompressed files are smaller than they should be, because data is missing. Any idea what I'm doing wrong?

saveAddress = "test.xml.gz"

import urllib2
import httplib
from urllib2 import Request, urlopen, URLError
try:
    request = urllib2.Request("http://example.com/sitemap-general.xml.gz")
    request.add_header('Accept-encoding', 'gzip')
    request.add_header('User-agent', 'Custom UA String')
    opener = urllib2.build_opener()
    try:
        pageText = opener.open(request).read()
        open(saveAddress, "w").write(pageText)
        print "Crawled successfully."
    except URLError, e:
        pass    
except URLError, e:
    pass

Thanks for any help, it's much appreciated.

分享到QQ

分享到微博