使用 Parser 替换所有 IMG 元素的 SRC
我正在寻找一种方法来替换所有不使用正则表达式的 IMG 标签中的 SRC 属性。 (想要使用默认 Python 安装中包含的任何开箱即用的 HTML 解析器)我需要减少源代码:
<img src="cid:imagename">
我正在尝试替换所有 src 标签以指向附件的 cid对于 HTML 电子邮件,因此我还需要更改源内容,因此它只是不带路径或扩展名的文件名。
I am looking for a way to replace the SRC attribute in all IMG tags not using Regular expressions. (Would like to use any out-of-the box HTML parser included with default Python install) I need to reduce the source from what ever it may be to:
<img src="cid:imagename">
I am trying to replace all src tags to point to the cid of an attachment for an HTML email so I will also need to change whatever the source is so it's simply the file name without the path or extension.
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(2)
Python 标准库中有一个 HTML 解析器,但它不是很有用,并且自 Python 2.6 以来已被弃用。使用 BeautifulSoup 做这种事情非常简单:
There is a HTML parser in the Python standard library, but it’s not very useful and it’s deprecated since Python 2.6. Doing this kind of things with BeautifulSoup is really easy:
这是解决您的问题的 pyparsing 方法。您需要编写自己的代码来转换 http src 属性。
标签转换为:
Here is a pyparsing approach to your problem. You'll need to do your own code to transform the http src attribute.
The tags convert to: