当前位置：文江博客话题详情

我如何/应该使用 Python 将 html 文档分成几个部分？（技术上和逻辑上）

发布于 2024-10-10 07:55:34 字数 508 浏览 0 评论 0原文

我有一个 HTML 文档，我试图将其分成单独的、较小的块。说，取每个< h3> header 并变成自己的单独文件，仅使用该块中编码的 HTML（以及 html、head、body、标签）。

我正在使用Python的Beautiful Soup，我对它很陌生，但似乎很容易用于完成这样的简单任务（有更好的建议，如lxml或Mini-dom吗？）。所以：

1）我该如何去“解析所有<” h3 >s 并将每个变成一个单独的文档'？从指向正确方向的指针到代码片段再到在线文档（Soup 发现的很少）的任何内容都将受到赞赏。

2）从逻辑上讲，找到标签是不够的 - 我需要物理上“剪切它”并将其放入一个单独的文件中（并将其从原始文件中删除）。也许解析文本行而不是节点会更容易（尽管超级难看，从形成的结构中解析原始文本......？）

3）类似相关 - 假设我想从其中删除某个属性一种类型的所有标签（例如，删除所有图像的对齐属性）。这看起来很容易，但我失败了 - 任何帮助将不胜感激！感谢您的帮助！

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

丧 2024-10-17 07:55:34

是的，您使用 BeautifulSoup 或 lxml。两者都有方法来查找要提取的节点。然后，您还可以从节点对象重新创建 HTML，从而将该 HTML 保存到新文件中。

回复收藏 0 原文

~没有更多了~

关于作者

嘿看小鸭子会跑

暂无简介

0 文章

0 评论

20 人气

关注发私信

lioqio

文章 0 评论 0

关注

Single

文章 0 评论 0

关注

禾厶谷欠

文章 0 评论 0

关注

alipaysp_2zg8elfGgC

文章 0 评论 0

关注

qq_N6d4X7

文章 0 评论 0

关注

放低过去

文章 0 评论 0

友情链接

文江博客

我如何/应该使用 Python 将 html 文档分成几个部分？（技术上和逻辑上）

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签