当前位置：文江博客话题详情

Python 中最宽容的 HTML 解析器是什么？

发布于 2024-11-26 17:01:49 字数 289 浏览 7 评论 0 原文

我有一些随机的 HTML，我使用 BeautifulSoup 来解析它，但在大多数情况下（> 70％）它会令人窒息。我尝试使用Beautiful soup 3.0.8和3.2.0（3.1.0以上有一些问题），但结果几乎相同。

我可以从我的脑海中回忆起Python中可用的几个HTML解析器选项：

BeautifulSoup
lxml
pyquery

我打算测试所有这些，但我想知道你的测试中哪一个是最宽容的，甚至可以尝试解析糟糕的HTML 。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

格子衫的從容 2024-12-03 17:01:49

他们都是。我还没有遇到过任何 lxml.html 无法解析的 html 页面。如果您尝试解析的页面上存在 lxml barfs，您始终可以使用一些正则表达式对它们进行预处理，以使 lxml 满意。

lxml 本身相当严格，但 lxml.html 是一个不同的解析器，可以处理非常损坏的 html。对于极其糟糕的 html，lxml 还附带了与 BeautifulSoup 库交互的 lxml.html.soupparser。

这里描述了使用 lxml.html 解析损坏的 html 的一些方法： http://lxml.de/elementsoup.html

回复收藏 0 原文

浪推晚风 2024-12-03 17:01:49

对于无法与其他任何内容一起使用的页面（包含嵌套

元素的页面），我在 MinimalSoup 和 ICantBelieveItsBeautifulSoup。每种方法都可以处理某些类型的错误，而另一种方法则无法处理，因此您经常需要同时尝试两种方法。

回复收藏 0 原文

小红帽 2024-12-03 17:01:49

我最终使用 BeautifulSoup 4.0 和 html5lib 进行解析，并且更加宽容，对我的代码进行了一些修改，现在它工作得相当好，感谢大家的建议。

回复收藏 0 原文

二手情话 2024-12-03 17:01:49

如果 beautifulsoup 不能解决您的 html 问题，那么下一个最佳解决方案是正则表达式。 lxml、elementtree、minidom 在解析方面非常严格，实际上它们做得正确。

其他提示：

我通过命令提示符将html提供给lynx浏览器，并取出页面/内容的文本版本并使用正则表达式进行解析。
转换为 html 为文本或 html 为 markdown 会去除所有 html 标签，您将保留文本。这很容易解析。

回复收藏 0 原文

~没有更多了~

关于作者

陪我终i

暂无简介

文章

28 人气

关注发私信

夢野间

文章 0 评论 0

关注

百度③文鱼

文章 0 评论 0

关注

小草泠泠

文章 0 评论 0

关注

zhuwenyan

文章 0 评论 0

关注

weirdo

文章 0 评论 0

关注

坚持沉默

文章 0 评论 0

友情链接

文江博客

Python 中最宽容的 HTML 解析器是什么？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（4）

关于作者

相关话题

热门标签

推荐作者