Beautiful Soup - 如何修复损坏的标签
我想知道如何在使用 Beautiful Soup 解析之前修复损坏的 html 标签。
在以下脚本中,td>
需要替换为 。
我怎样才能进行替换以便 Beautiful Soup 可以看到它?
from BeautifulSoup import BeautifulSoup
s = """
<tr>
td>LABEL1</td><td>INPUT1</td>
</tr>
<tr>
<td>LABEL2</td><td>INPUT2</td>
</tr>"""
a = BeautifulSoup(s)
left = []
right = []
for tr in a.findAll('tr'):
l, r = tr.findAll('td')
left.extend(l.findAll(text=True))
right.extend(r.findAll(text=True))
print left + right
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(2)
编辑(工作):
我从 w3 中获取了所有 html 标签的完整(至少应该是完整的)列表来进行匹配。尝试一下:
产生:
这个也应该匹配损坏的结束标签(
):
Edit (working):
I grabbed a complete (at least it should be complete) list of all html tags from w3 to match against. Try it out:
Produces:
This one should match broken ending tags as well (
</endtag>
):如果这是您唯一关心的事情 td> -> ,尝试:
在将 myString 发送到 BeautifulSoup 之前。如果还有其他损坏的标签,请给我们一些示例,我们将对其进行处理:)
If that's the only thing you're concerned about td> -> , try:
Before sending myString to BeautifulSoup. If there are other broken tags give us some examples and we'll work on it : )