当前位置：文江博客话题详情

如何使用 lxml 处理嵌套表单标签

发布于 2024-11-19 01:40:24 字数 195 浏览 0 评论 0原文

我想抓取一些带有 lxml 嵌套表单元素的 html 页面。即使 BeautifulSoup 在这些页面上也会卡住，到目前为止我发现唯一可以处理它们的解析器是 MinimalSoup，它不知道哪些标签可以嵌套或不可以嵌套。

lxml 是否有任何不关心嵌套表单标签的解析器？还有其他建议吗？

如果有必要，我会继续使用 MinimalSoup。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

堇色安年 2024-11-26 01:40:24

lxml.etree.HTMLParser 怎么样？这应该工作得比较好，对吧？

import urllib2
import lxml.etree as etree
page = urllib2.urlopen(url)
parser = etree.HTMLParser()
tree = etree.parse(page,parser)

你有你的树了！

How about lxml.etree.HTMLParser? That should work relatively well, right?

import urllib2
import lxml.etree as etree
page = urllib2.urlopen(url)
parser = etree.HTMLParser()
tree = etree.parse(page,parser)

And you have your tree!

回复收藏 0 原文

~没有更多了~

关于作者

当爱已成负担

暂无简介

0 文章

0 评论

25 人气

关注发私信

胡图图

文章 0 评论 0

关注

zt006

文章 0 评论 0

关注

z祗昰~

文章 0 评论 0

关注

冰葑

文章 0 评论 0

关注

野の

文章 0 评论 0

关注

天空

文章 0 评论 0

友情链接

文江博客

如何使用 lxml 处理嵌套表单标签

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

胡图图

zt006

z祗昰~

冰葑

野の

天空

友情链接

如何使用 lxml 处理嵌套表单标签

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

胡图图

zt006

z祗昰~

冰葑

野の

天空

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。