Python：将 HTML 片段分隔为段落

发布于 2024-08-21 23:56:12 字数 435 浏览 6 评论 0原文

我有一段包含段落的 HTML 片段。（我的意思是 p 标签。）我想将字符串分成不同的段落。例如：

'''
<p class="my_class">Hello!</p>
<p>What's up?</p>
<p style="whatever: whatever;">Goodbye!</p>
'''

应该变成：

['<p class="my_class">Hello!</p>',
 '<p>What's up?</p>'
 '<p style="whatever: whatever;">Goodbye!</p>']

解决这个问题的好方法是什么？

原文

I have a snippet of HTML that contains paragraphs. (I mean p tags.) I want to split the string into the different paragraphs. For instance:

'''
<p class="my_class">Hello!</p>
<p>What's up?</p>
<p style="whatever: whatever;">Goodbye!</p>
'''

Should become:

['<p class="my_class">Hello!</p>',
 '<p>What's up?</p>'
 '<p style="whatever: whatever;">Goodbye!</p>']

What would be a good way to approach this?

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

缘字诀 2024-08-28 23:56:12

如果您的字符串仅包含段落，您也许可以使用精心设计的正则表达式和re.split()。但是，如果您的字符串是更复杂的 HTML，或者并不总是有效的 HTML，您可能需要查看 BeautifulSoup 包。

用法如下：

from BeautifulSoup import BeautifulSoup 

soup = BeautifulSoup(some_html)

paragraphs = list(unicode(x) for x in soup.findAll('p'))

If your string only contains paragraphs, you may be able to get away with a nicely crafted regex and re.split(). However, if your string is more complex HTML, or not always valid HTML, you might want to look at the BeautifulSoup package.

Usage goes like:

from BeautifulSoup import BeautifulSoup 

soup = BeautifulSoup(some_html)

paragraphs = list(unicode(x) for x in soup.findAll('p'))

回复收藏 0 原文

厌味 2024-08-28 23:56:12

使用lxml.html将HTML解析为您想要的形式。这基本上与推荐 BeautifulSoup 的人的建议相同，只是 lxml 仍在积极开发中，而 BeatifulSoup 的开发速度已经放缓。

回复收藏 0 原文

故事还在继续 2024-08-28 23:56:12

使用 BeautifulSoup 解析 HTML 并迭代段落。

回复收藏 0 原文

琉璃繁缕 2024-08-28 23:56:12

xml.etree（标准库）或 lxml.etree（增强版）使这很容易做到，但我不会得到答案，因为我不记得确切的语法。我一直把它与类似的包混在一起，每次都必须重新查找。

回复收藏 0 原文

~没有更多了~

关于作者

抚你发端

暂无简介

0 文章

0 评论

20 人气

关注发私信

友情链接

文江博客

Python：将 HTML 片段分隔为段落

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（4）

关于作者

相关话题

热门标签

推荐作者

qq_FjTq5B

18273202778

WordPress小学生

〃温暖了心ぐ

迷乱花海

niuniu

友情链接

Python：将 HTML 片段分隔为段落

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（4）

关于作者

相关话题

热门标签

推荐作者

qq_FjTq5B

18273202778

WordPress小学生

〃温暖了心ぐ

迷乱花海

niuniu

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。