Python urllib2解析html问题
我正在使用 mechanize 来解析网站的 html,但是通过这个网站我得到了奇怪的结果。
from mechanize import Browser
br = Browser()
r = br.open("http://www.heavenplaza.com")
result = r.read()
结果是我无法理解的事情。你可以在这里看到: http://paste2.org/p/1556077
任何人都可以有一些方法来获取那个网站的HTML?使用 mechanize 或 urllib。
谢谢
I am using mechanize to parse html of website, but with this website i got strange result.
from mechanize import Browser
br = Browser()
r = br.open("http://www.heavenplaza.com")
result = r.read()
result is something which i can not understand. you can see here: http://paste2.org/p/1556077
Anyone can have some method to get that website HTML? with mechanize or urllib.
Thanks
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(2)
我快速检查了控制台中的脚本,该网站返回了垃圾。您可能需要欺骗您的 HTTP 用户代理,使其成为网站认为您使用的不是机器人的其他东西。
http://www.google.com 有效
I quickly checked the script in the console and the site was returning crap. You probably need to spoof your HTTP user agent to be something else that the site doesn't think you are using a robot.
http://www.google.com works