Beautiful Soup 输出

发布于 2024-05-19 17:37:17 字数 1003 浏览 0 评论 0 收藏 0

BeautifulSoup.prettify() 、 Tag.prettify() 会将文档树格式化后以字符串输出，每一个 XML/HTML 标签都独占一行。

如果你只需要得到结果字符串而不重视格式，那么可以对 BeautifulSoup 或者 Tag 对象调用 .str() 方法，它默认采用 UTF-8 编码。当然你可以指定编码。

你也可以调用 .encode() 方法获取字节码或者调用 .decode() 方法获取字符串。

如果你只需要获取标签中的文本内容，则可以 BeautifulSoup 或者 Tag 对象调用 .get_text() 方法。该方法将获取到标签中包含的所有文字内容（包括子节点和孙节点及后代结点的文本内容），然后将结果作为字符串返回。

可以通过参数指定节点文本内容的分隔符，如 soup.get_text('|')
可以去除文本内容前后空白，如 soup.get_text(strip=True)
可以使用 .stripped_string 生成器，获取文本列表之后手动处理列表，如 [text for text in soup.stripped_strings]

获取文本