Python在cssselect和text_content()之后在lxml.html中保留换行符

发布于 2024-10-03 07:58:48 字数 364 浏览 3 评论 0原文

在python中，使用lxml.html时如何保留段落（即保留换行符）？

例如，以下内容将剥离

标签并加入行，这不是我想要的：

body = doc.cssselect("div.body")[0]
content = body.text_content()

这是我尝试过但不起作用的方法：

lxml.html.clean.clean_html：
- 不会保留换行符。
内容.replace(" "*3,"\n\n"):
- 无法始终如一地工作，因为组合文本不具有相同的空格数。

原文

In python, How do I preserve paragraphs (i.e. keep newlines) when using lxml.html?

For example, the following will strip <p></p> tags and join the lines, which is not what I want:

body = doc.cssselect("div.body")[0]
content = body.text_content()

Here's what I've tried that doesn't work:

lxml.html.clean.clean_html:
- Won't preserve the newlines.
content.replace(" "*3,"\n\n"):
- Doesn't work consistently, because
  combined text does not have the same
  number of spaces.

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

守望孤独 2024-10-10 07:58:48

lxml text_content 正在做根据文档应该做的事情，它正在剥离 html 标签并留下文本。

您可以通过在输出内容之前添加自己的换行符来解决此问题。

body = doc.cssselect("div.body")[0]
for para in body.xpath("*//p"):
    para.text = "\n%s\n" % para.text
content = body.text_content()
print content

The lxml text_content is doing what is supposed to according to the docs, it is stripping the html tags and leaving the text behind.

You can fix this up by adding your own newlines before outputting the content.

body = doc.cssselect("div.body")[0]
for para in body.xpath("*//p"):
    para.text = "\n%s\n" % para.text
content = body.text_content()
print content

回复收藏 0 原文

~没有更多了~

关于作者

孤千羽

暂无简介

0 文章

0 评论

24 人气

关注发私信

吝吻

文章 0 评论 0

关注

Jasmine

文章 0 评论 0

关注

∞梦里开花

文章 0 评论 0

关注

阳光①夏

文章 0 评论 0

关注

暮念

文章 0 评论 0

关注

梦里泪两行

文章 0 评论 0

友情链接

文江博客

Python在cssselect和text_content()之后在lxml.html中保留换行符

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

吝吻

Jasmine

∞梦里开花

阳光①夏

暮念

梦里泪两行

友情链接

Python在cssselect和text_content()之后在lxml.html中保留换行符

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

吝吻

Jasmine

∞梦里开花

阳光①夏

暮念

梦里泪两行

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。