当前位置：文江博客话题详情

需要帮助在 python3 中解析 html，对于 xml.etree.ElementTree 来说格式不够好

发布于 2024-10-17 02:28:43 字数 115 浏览 5 评论 0原文

我到处都收到不匹配的标签错误。我不知道到底为什么，我觉得 craigslist 主页上的文字看起来不错，但我还没有足够彻底地浏览它。是否有一些我可以使用的更宽容的东西，或者这是我使用标准库解析 html 的最佳选择？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

Hello爱情风 2024-10-24 02:28:43

标签不匹配错误可能是由标签不匹配引起的。浏览器以接受草率的 html 而闻名，并且使网页编码人员很容易编写格式错误的 html，因此有很多这样的 html。没有理由相信 creagslist 应该免受不良网页设计者的影响。

您需要使用允许这些不匹配的语法。如果您使用的解析器不允许您适当地重新定义语法，那么您就会陷入困境。（可能有更好的Python库，但我不知道）。

一种替代方法是通过 Tidy 之类的工具运行网页，以清除此类不匹配，然后运行解析器。

回复收藏 0 原文

我乃一代侩神 2024-10-24 02:28:43

解析不可预测的 HTML 的最佳库是 BeautifulSoup。以下是项目页面的引用：

你没有写那个糟糕的页面。
你只是想获取一些数据
出来了。现在，你真的不
关心 HTML 应该是什么样子
喜欢。
这个解析器也没有。

然而，Python 3 并没有很好地支持它，链接末尾有更多相关信息。

回复收藏 0 原文

白况 2024-10-24 02:28:43

解析 HTML 并不是一个简单的问题，使用库绝对是解决方案。用于解析格式不正确的 HTML 的两个常见库是 BeautifulSup 和 lxml。

lxml 支持 Python 3，并且它的 HTML 解析器可以很好地处理不可预测的 HTML。它很棒而且速度很快，而且它在底层使用了 c 库。我强烈推荐它。

BeautifulSoup 3.1支持Python 3，但也被认为是一个失败的实验”，并且被告知不要使用它，所以实际上BeautifulSoup还不支持Python 3，lxml是唯一的选择。

回复收藏 0 原文

~没有更多了~

关于作者

卖梦商人

暂无简介

0 文章

0 评论

23 人气

关注发私信

友情链接

文江博客

需要帮助在 python3 中解析 html，对于 xml.etree.ElementTree 来说格式不够好

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（3）

关于作者

相关话题

热门标签

推荐作者

爱人如己

萧瑟寒风

云雾

倒带

浮世清欢

撩起发的微风

友情链接

需要帮助在 python3 中解析 html，对于 xml.etree.ElementTree 来说格式不够好

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（3）

关于作者

相关话题

热门标签

推荐作者

爱人如己

萧瑟寒风

云雾

倒带

浮世清欢

撩起发的微风

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。