pyspider遇到不能识别的url时报错

发布于 2022-09-02 15:08:42 字数 776 浏览 10 评论 0

大家好,我遇到一个很棘手的问题想请教大家是怎么解决的。

问题描述:

pyspider遇到不规则的html页面时,只要其实包含不能正常解析的url时就会报错,如页面http://www.jb51.net/os/windows/win2008/18272.html,其中就有<p>作者:<a href="http://www.locoy.com 字体:[<a href="javascript:turnbig()">增加</a> <a href="javascript:turnsmall()">减小</a>] 来源:互联网 时间:07-02 01:51:10<a href="#comments"> 我要评论</a></p>,这里页面的链接不能正常解析就会报Invalid IPv6 URL错误
如下图:
图片描述

图片描述

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

给不了的爱 2022-09-09 15:08:42

如果你要深究,这是 lxml, pyquery, urlparse 标准库的 bug。

只能 catch 掉,然后手动建树。

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文