python使用split(‘中文字符’)出错

发布于 2022-09-03 07:21:28 字数 424 浏览 16 评论 0

根据网页所给的字符编码将其字节数据decode('gb2312')
用的是scrapy,从给出的url获取body

def parse(self, response):
    body = response.body.decode('gb2312')
    print(body)    
    学分:1.5 # body就是这样之类的,中间的冒号是中文的冒号
    # 想弄成的效果就是['学分','1.5']
    body = body.split(':') # 就这样使用中文的冒号符来分割,但是出错
SyntaxError: (unicode error) 'utf-8' codec can't decode byte 0xa3 in position 0: invalid start byte

请问怎么解决?

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(4

回眸一笑 2022-09-10 07:21:28
# 我尝试了这样做
print(body.encode('gb2312'))
print(body.encode('utf-8'))
输出如下:
b'\xb3\xd0\xb5\xa3\xb5\xa5\xce\xbb\xa3\xba\xd5\xfe\xb7\xa8\xd1\xa7\xd4\xba'
b'\xe6\x89\xbf\xe6\x8b\x85\xe5\x8d\x95\xe4\xbd\x8d\xef\xbc\x9a\xe6\x94\xbf\xe6\xb3\x95\xe5\xad\xa6\xe9\x99\xa2'
#再令两个结果分别为gb2312和utf8
>>> gb2312.decode('utf-8')
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xb3 in position 0: invalid start byte

再看看上面的错误,是byte 0xa3
于是我在终端上试了几次,结果发现冒号的gb2312 encode

>>> b'\xa3\xba'.decode('gb2312')
':'

所以应该就是python拿默认的utf-8来decode gb2312的body, 所以我能想到的一个办法就是修改默认编码值,也就是第一行的声明:# -*- coding: gb2312 -*-
然后运行果然成功,请问还有没有别的方法?

温暖的光 2022-09-10 07:21:28

Python3图片描述

天煞孤星 2022-09-10 07:21:28

decode后,body应该是unicode编码,使用下面的方式即可:

body = body.split(u':')
稚然 2022-09-10 07:21:28

又是一个编码的问题,可以参考:人机交互之字符编码五分钟战胜 Python 字符编码

#! /usr/bin/env python
# -*- coding: utf-8 -*-

# 模仿你从网页获得的数据
data = "学分:1.5".decode("utf-8").encode('gb2312')
# data = u"学分:1.5".encode('gb2312')
print type(data)

body = data.decode('gb2312')
print type(body)    # unicode 类型

# 两种解决方案
print body.split(u':')  # unicode 对应 unicode
print body.encode("utf-8").split(":")  # utf-8 对应 utf-8
~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文