用于删除行内 XML 标记符号的正则表达式模式

发布于 2025-01-10 22:27:11 字数 493 浏览 0 评论 0原文

我在 python 中使用 beautifulsoup 来处理 XML 输出。 但是,一旦我遇到一行中包含“”的行,我的代码就会失败。 我尝试使用正则表达式删除“<>”并仅保留“TEXT”。 例如:

<col><Test> <This is a test, please remove></col>

使用正则表达式,我想将其保留如下:

<col>Test This is a test, please remove</col>

如上所述,我的正则表达式匹配得不好,我无法删除标签符号。 我最接近的正则表达式如下,但匹配得不好。

(?!^<col>|<\/col>$)(?!^)<|>(?!$)

任何帮助将非常受欢迎。 谢谢!

I am using beatifulsoup in python to work with an XML output.
However my code fails once I face a line that have "" within a line.
I attempted to use a regex to remove the "<>" and leave only "TEXT".
For example:

<col><Test> <This is a test, please remove></col>

Using regex I want to leave it as follow:

<col>Test This is a test, please remove</col>

As mentioned my regex didnt match well and I am not able to remove the tags symbols.
My closest regex was the following but is not matching well.

(?!^<col>|<\/col>$)(?!^)<|>(?!$)

Any help will be more than welcome.
Thx!

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文