使用 Beautiful Soup 剥离 HTML 时保留空间
from BeautifulSoup import BeautifulSoup
html = "<html><p>Para 1. Words</p><p>Merge. Para 2<blockquote>Quote 1<blockquote>Quote 2</p></html>"
print html
soup = BeautifulSoup(html)
print u''.join(soup.findAll(text=True))
该代码的输出是“Para 1 WordsMerge.Para 2Quote 1Quote 2”。
我不希望第一段的最后一个词与第二段的第一个词合并。 例如。 “第 1 段文字合并。第 2 段引用 1 引用 2”。 使用 BeautifulSoup 库可以实现这一点吗?
from BeautifulSoup import BeautifulSoup
html = "<html><p>Para 1. Words</p><p>Merge. Para 2<blockquote>Quote 1<blockquote>Quote 2</p></html>"
print html
soup = BeautifulSoup(html)
print u''.join(soup.findAll(text=True))
The out put of this code is "Para 1 WordsMerge. Para 2Quote 1Quote 2".
I don't want the last word of paragraph one merging with the first word of paragraph two.
eg. "Para 1 Words Merge. Para 2 Quote 1 Quote 2".
Can this be achieved using the BeautifulSoup library?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(2)
如果您在版本 4 中使用 get_text()。 x:
And if you are using get_text() in version 4.x:
只需用空格将各个部分连接起来即可:
Just join the pieces with a space: