pyquery爬虫中文乱码
用pyqurery爬到的东西中文乱码,如图
我在程序的头部加入了
author = 'liyuhang'
coding:utf-8
import urllib,urllib2,sys
from lxml import etree
from pyquery import PyQuery as pq
reload(sys)
sys.setdefaultencoding('utf8')
但是结果就出现如图的样子了...
这是怎么回事呢..
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(3)
doc = pq('http://www.baidu.com',encoding="utf-8")
print doc('#u1 a').text()
已经解决了,
原因应该是原本的页面没有设定好charset,PyQuery将它当作是unicode了,所以没有转换encode,直接作为unicode存储了
不是了解PyQuery,所以我的方法不是很好
page = urllib2.urlopen("http://example")
text = unicode(page.read(), "utf-8")
query = PyQuery(text)
解决了问题,赞