pyquery爬虫中文乱码

发布于 2022-08-29 20:45:12 字数 445 浏览 20 评论 0

用pyqurery爬到的东西中文乱码,如图
5238DE68-572C-4EC3-91FD-6EBE90B2E4B7.png

我在程序的头部加入了

author = 'liyuhang'

coding:utf-8

import urllib,urllib2,sys
from lxml import etree
from pyquery import PyQuery as pq
reload(sys)
sys.setdefaultencoding('utf8')

但是结果就出现如图的样子了...
这是怎么回事呢..

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(3

零度° 2022-09-05 20:45:12

doc = pq('http://www.baidu.com',encoding="utf-8")
print doc('#u1 a').text()

墨落画卷 2022-09-05 20:45:12

已经解决了,

原因应该是原本的页面没有设定好charset,PyQuery将它当作是unicode了,所以没有转换encode,直接作为unicode存储了
不是了解PyQuery,所以我的方法不是很好

page = urllib2.urlopen("http://example")
text = unicode(page.read(), "utf-8")
query = PyQuery(text)

等你爱我 2022-09-05 20:45:12

解决了问题,赞

···
page = urllib2.urlopen("http://example")
text = unicode(page.read(), "utf-8")
query = PyQuery(text)
···
~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文