返回介绍

Beautiful Soup 输出

发布于 2024-05-19 17:37:17 字数 1003 浏览 0 评论 0 收藏 0

1. 格式化输出

BeautifulSoup.prettify()Tag.prettify() 会将文档树格式化后以字符串输出,每一个 XML/HTML 标签都独占一行。

2. 压缩输出

如果你只需要得到结果字符串而不重视格式,那么可以对 BeautifulSoup 或者 Tag 对象调用 .str() 方法,它默认采用 UTF-8 编码。当然你可以指定编码。

你也可以调用 .encode() 方法获取字节码或者调用 .decode() 方法获取字符串。

3. 获取文本

如果你只需要获取标签中的文本内容,则可以 BeautifulSoup 或者 Tag 对象调用 .get_text() 方法。该方法将获取到标签中包含的所有文字内容(包括子节点和孙节点及后代结点的文本内容),然后将结果作为字符串返回。

  • 可以通过参数指定节点文本内容的分隔符,如 soup.get_text('|')
  • 可以去除文本内容前后空白,如 soup.get_text(strip=True)
  • 可以使用 .stripped_string 生成器,获取文本列表之后手动处理列表, 如 [text for text in soup.stripped_strings]

获取文本

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据
    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文