删除
来自已解析的 Beautiful Soup 列表的标签?
我目前正在进入一个 for 循环,其中包含我想要的所有行:
page = urllib2.urlopen(pageurl)
soup = BeautifulSoup(page)
tables = soup.find("td", "bodyTd")
for row in tables.findAll('tr'):
此时,我已经有了我的信息,但
<br />
标签正在破坏我的输出。
去除这些最干净的方法是什么?
I'm currently getting into a for loop with all the rows I want:
page = urllib2.urlopen(pageurl)
soup = BeautifulSoup(page)
tables = soup.find("td", "bodyTd")
for row in tables.findAll('tr'):
At this point, I have my information, but the
<br />
tags are ruining my output.
What's the cleanest way to remove these?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(4)
如果您想将
转换为换行符,请执行以下操作:If you want to translate the
<br />
's to newlines, do something like this:将开头的标签替换为空格
Beautiful soup 还接受 urlopen 对象上的 .read() 所以这应该可以工作 - - -
re.sub 用空格替换 br 标签
replace tags at the start with a space
Beautiful soup also accepts the .read() on the urlopen object so this should work - - -
the re.sub replaces the br tag with a whitespace
也许
some_string.replace('
用换行符替换换行符。','\n')
您可能需要查看 html5lib 和 lxml,它们在解析 html 方面都非常出色。 lxml 确实很快,而 html5lib 的设计非常健壮。
Maybe
some_string.replace('<br />','\n')
to replace the breaks with newlines.You might want to check out html5lib and lxml, which are both pretty great at parsing html. lxml is really fast and html5lib is designed to be extremely robust.