当前位置：文江博客话题详情

请教一下python爬虫的编码问题解决“思路”

发布于 2022-09-11 23:43:48 字数 63 浏览 36 评论 0

如果爬虫的response.text遇到乱码问题，应该用什么思路去找到正确的编码来解决问题呢？
请大佬指教

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

物价感观 2022-09-18 23:43:48

有个奇葩的思路我发现，做爬虫的时候大家都喜欢把request.headers照搬下来，我发现我照搬下来就会乱码，我我只留个user-agent和cookie反而不乱码了

回复收藏 0

坠似风落 2022-09-18 23:43:48

我一般写爬虫的时候不会去特意指定编码，因为它网页的编码声明跟它实际网页的编码是不一致的。这就很头疼了。
为了应对这个问题，response对象有个属性可以根据网页中大部分编码分析出网站的编码方式，就可以获得网页的编码了。

import requests

def get_html(url):
    try:
        r = requests.get(url)
        r.encoding = r.apparent_encoding
        return t.text
    except Exception as e:
        print(e)
        return None

回复收藏 0

惯饮孤独 2022-09-18 23:43:48

试试这个

pip install chardet

回复收藏 0

南烟 2022-09-18 23:43:48

r = requests.get(url)
r.encoding = 'utf-8'
print r.text

回复收藏 0

悍妇囚夫 2022-09-18 23:43:48

找html的head，大部分网站的head都有编码

回复收藏 0

鸠书 2022-09-18 23:43:48

解码的时候使用response.text大概率会出问题，试一下用response.content。

response.encoding = response.apparent_encoding

也是个不错的选择

回复收藏 0

~没有更多了~

关于作者

倾听心声的旋律

暂无简介

文章

27 人气

关注发私信

alipaysp_snBf0MSZIv

文章 0 评论 0

关注

梦断已成空

文章 0 评论 0

关注

瞎闹

文章 0 评论 0

关注

凯凯我们等你回来

文章 0 评论 0

关注

寄意

文章 0 评论 0

关注

似梦非梦

文章 0 评论 0

友情链接

文江博客

请教一下python爬虫的编码问题解决“思路”

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（6）

试试这个

关于作者

相关话题

热门标签

推荐作者

alipaysp_snBf0MSZIv

梦断已成空

瞎闹

凯凯我们等你回来

寄意

似梦非梦

友情链接

请教一下python爬虫的编码问题解决“思路”

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（6）

试试这个

关于作者

相关话题

热门标签

推荐作者

alipaysp_snBf0MSZIv

梦断已成空

瞎闹

凯凯我们等你回来

寄意

似梦非梦

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。