用于删除行内 XML 标记符号的正则表达式模式
我在 python 中使用 beautifulsoup 来处理 XML 输出。 但是,一旦我遇到一行中包含“”的行,我的代码就会失败。 我尝试使用正则表达式删除“<>”并仅保留“TEXT”。 例如:
<col><Test> <This is a test, please remove></col>
使用正则表达式,我想将其保留如下:
<col>Test This is a test, please remove</col>
如上所述,我的正则表达式匹配得不好,我无法删除标签符号。 我最接近的正则表达式如下,但匹配得不好。
(?!^<col>|<\/col>$)(?!^)<|>(?!$)
任何帮助将非常受欢迎。 谢谢!
I am using beatifulsoup in python to work with an XML output.
However my code fails once I face a line that have "" within a line.
I attempted to use a regex to remove the "<>" and leave only "TEXT".
For example:
<col><Test> <This is a test, please remove></col>
Using regex I want to leave it as follow:
<col>Test This is a test, please remove</col>
As mentioned my regex didnt match well and I am not able to remove the tags symbols.
My closest regex was the following but is not matching well.
(?!^<col>|<\/col>$)(?!^)<|>(?!$)
Any help will be more than welcome.
Thx!
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论