Python 查找与查找替换美汤
我正在使用 Beautiful Soup 用 HTML 文件中的 href 链接替换出现的模式
我遇到了如下所述的问题
modified_contents = re.sub("([^http://*/s]APP[a-z]{2}[0-9]{2})", "<a href=\"http://stack.com=\\1\">\\1</a>", str(soup))
示例输入 1:
Input File contains APPdd34
Output File contains <a href="http://stack.com=APPdd34"> APPdd34</a>
示例输入 2:
Input File contains <a href="http://stack.com=APPdd34"> APPdd34</a>
Output File contains <a href="http://stack.com=<a href="http://stack.com=APPdd34"> APPdd34</a>"> <a href="http://stack.com=APPdd34"> APPdd34</a></a>
所需的输出文件 2 与示例输入文件 2 相同。
如何才能我纠正这个问题吗?
I am using Beautiful Soup to replace the occurrences of a pattern with a href link inside a HTML file
I am facing a problem as described below
modified_contents = re.sub("([^http://*/s]APP[a-z]{2}[0-9]{2})", "<a href=\"http://stack.com=\\1\">\\1</a>", str(soup))
Sample input 1:
Input File contains APPdd34
Output File contains <a href="http://stack.com=APPdd34"> APPdd34</a>
Sample input 2:
Input File contains <a href="http://stack.com=APPdd34"> APPdd34</a>
Output File contains <a href="http://stack.com=<a href="http://stack.com=APPdd34"> APPdd34</a>"> <a href="http://stack.com=APPdd34"> APPdd34</a></a>
Desired Output File 2 is same as Sample Input File 2.
How can I rectify this problem?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
这可能无法完全回答您的问题,因为我不知道整个输入文件可能是什么样子,但我希望这是您可以采取的方向。
所以基本上,只需使用 BeautifulSoup 提取文本,然后您就可以从那里构建标签。
This may not entirely answer your problem because I don't know an entire input file could look like, but I hope this is a direction you can take.
So basically, just use BeautifulSoup to extract the text and then you can build Tags from there.