requests get不到完整页面源码

发布于 2022-09-02 20:48:11 字数 947 浏览 11 评论 0

使用requests进行get只获取到了一部分html源码，下面是我的代码

def get_url(self,url=None,proxies=None):
    header = {
        'User-Agent' : 'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:46.0) Gecko/20100101 Firefox/46.0',
        'Content-Type': 'application/x-www-form-urlencoded',
        'Connection' : 'Keep-Alive',
        'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8'
        }
    for prox in proxies:
        try:
            r=requests.get(url,proxies=prox,headers=header)
            if r.status_code!=200:
                continue
            else:
                print "使用{0}连接成功>>".format(prox)
                return r.content
        except Exception, e:
            return None

proxies参数是一个代理列表，这段代码会尝试使用proxies进行访问，访问成功就会返回
但是我获取到的页面源码不完整图片描述

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

柠檬 2022-09-09 20:48:11

存在几个原因
1.也许有些内容是通过ajax加载的。
所以通过requests.get是得不到全剖内容的,
建议通过使用firebug等工具去确定是不是这样的原因。

是不是登录后才能有的内容。

回复收藏 0

醉梦枕江山 2022-09-09 20:48:11

我的代码可以获取到页面的全部内容，但没有用requests的proxies参数。
试试看不用代理能否获得完整内容呢？

我的代码：

import requests

headers = {
        'User-Agent' : 'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:46.0) Gecko/20100101 Firefox/46.0',
        'Content-Type': 'application/x-www-form-urlencoded',
        'Connection' : 'Keep-Alive',
        'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8'
}
html = requests.get('http://www.xicidaili.com/nn/', headers=headers).text
print html

回复收藏 0