如何在 beautifulsoup 中打开带有 windows-1252 编码的 HTML 页面
我尝试用 beautifulsoup 解析 HTML 文档,但遇到了麻烦。打开使用 windows-1252 编码的 HTML 文档的最佳方法是什么?
我尝试使用 iconv 转换为 utf-8 但这也不起作用。
doc = open("e.html").read()
soup = BeautifulSoup(doc)
soup.findAll('p')
UnicodeEncodeError: 'ascii' 编解码器无法对位置 103 中的字符 u'\xfc' 进行编码:序数不在范围内(128)
当我在没有 iconv 的情况下打开它时,我收到相同的错误。
完整回溯:
>>> soup.findAll('p')
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
UnicodeEncodeError: 'ascii' codec can't encode character u'\xfc' in position 103: ordinal not in range(128)
I try to parse a HTML document with beautifulsoup but I run in troubles. What is the best way to open a HTML document with windows-1252 encoding?
I tried with iconv to convert to utf-8 but this also doesn't work.
doc = open("e.html").read()
soup = BeautifulSoup(doc)
soup.findAll('p')
UnicodeEncodeError: 'ascii' codec can't encode character u'\xfc' in position 103: ordinal not in range(128)
When I open it without iconv I get the same error.
full traceback:
>>> soup.findAll('p')
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
UnicodeEncodeError: 'ascii' codec can't encode character u'\xfc' in position 103: ordinal not in range(128)
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(2)
我遇到了类似的错误:
对我有用的是指定输入编码,如下所示:
I was getting a similar error:
What worked for me was to specify the input encoding like so:
尝试这样的事情:
Try something like this: