pyquery爬虫中文乱码

发布于 2022-08-29 20:45:12 字数 445 浏览 20 评论 0

用pyqurery爬到的东西中文乱码，如图

我在程序的头部加入了

author = 'liyuhang'

coding:utf-8

import urllib,urllib2,sys
from lxml import etree
from pyquery import PyQuery as pq
reload(sys)
sys.setdefaultencoding('utf8')

但是结果就出现如图的样子了...
这是怎么回事呢..

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

零度° 2022-09-05 20:45:12

doc = pq('http://www.baidu.com',encoding="utf-8")
print doc('#u1 a').text()

回复收藏 0

墨落画卷 2022-09-05 20:45:12

已经解决了，

原因应该是原本的页面没有设定好charset，PyQuery将它当作是unicode了，所以没有转换encode，直接作为unicode存储了
不是了解PyQuery，所以我的方法不是很好

page = urllib2.urlopen("http://example")
text = unicode(page.read(), "utf-8")
query = PyQuery(text)

回复收藏 0

等你爱我 2022-09-05 20:45:12

解决了问题，赞

···
page = urllib2.urlopen("http://example")
text = unicode(page.read(), "utf-8")
query = PyQuery(text)
···

回复收藏 0

~没有更多了~

关于作者

夏尔

暂无简介

文章

26 人气

关注发私信

夢野间

文章 0 评论 0

关注

百度③文鱼

文章 0 评论 0

关注

小草泠泠

文章 0 评论 0

关注

zhuwenyan

文章 0 评论 0

关注

weirdo

文章 0 评论 0

关注

坚持沉默

文章 0 评论 0

友情链接

文江博客

pyquery爬虫中文乱码

coding:utf-8

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（3）

关于作者

相关话题

热门标签

推荐作者