GAE 的 HTML 解析器

发布于 2024-08-19 22:47:50 字数 407 浏览 3 评论 0原文

通常，我使用 lxml 来满足 HTML 解析需求，但这在 Google App Engine 上不可用。明显的替代方案是 BeautifulSoup，但我发现它在格式错误的 HTML 上太容易被阻塞。目前我正在测试 libxml2dom 并得到了更好的结果。

您发现哪种纯 Python HTML 解析器性能最好？我的首要任务是处理不良 HTML 的能力而不是速度。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

何以心动 2024-08-26 22:47:50

来自 BeautifulSoup 文档：

Beautiful Soup 3.1.0 版在实际 HTML 上的表现明显比 3.0.8 版差

，它可能会帮助您使用这个早期版本。这正是作者本人所推荐的。

您可以假装 Beautiful Soup 版本 3.1.0 从未发布。版本 3.0.8 在 Python 2.3 到 2.6 上仍然可以正常工作。

回复收藏 0 原文

蓝眼泪 2024-08-26 22:47:50

不再是问题 - 支持 lxml：
https://developers.google.com/appengine/docs/python/tools/图书馆27

回复收藏 0 原文

~没有更多了~

关于作者

人事已非

暂无简介

0 文章

0 评论

21 人气

关注发私信

qq_FjTq5B

文章 0 评论 0

关注

18273202778

文章 0 评论 0

关注

WordPress小学生

文章 0 评论 0

关注

〃温暖了心ぐ

文章 0 评论 0

关注

迷乱花海

文章 0 评论 0

关注

niuniu

文章 0 评论 0

友情链接

文江博客

GAE 的 HTML 解析器

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签