的正则表达式标签更换
我是正则表达式的新手,但我正在努力学习它。我想删除html文本的标签,只保留内部文本。类似这样的事情:
Original: Lorem ipsum <a href="http://www.google.es">Google</a> Lorem ipsum <a href="http://www.bing.com">Bing</a>
Result: Lorem ipsum Google Lorem ipsum Bing
我正在使用这段代码:
$patterns = array( "/(<a href=\"[a-z0-9.:_\-\/]{1,}\">)/i", "/<\/a>/i");
$replacements = array("", "");
$text = 'Lorem ipsum <a href="http://www.google.es">Google</a> Lorem ipsum <a href="http://www.bing.com">Bing</a>';
$text = preg_replace($patterns,$replacements,$text);
它有效,但我不知道这段代码是否更有效或更具可读性。
我可以以某种方式改进代码吗?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(5)
不要使用正则表达式 ,请改用 DOM 解析器。
Don't use regular expressions, use a DOM parser instead.
如果您的内容仅包含锚标记,那么 strip_tags 可能更容易使用。
如果 a 和 href 之间存在虚假空格,或者标记中存在任何其他属性,则 preg_replace 将不会替换。
If your content only contains anchor tags, then strip_tags is probably easier to use.
Your preg_replace won't replace if there are spurious spaces between a and href, or if there are any other attributes in the tag.
在这种情况下,使用正则表达式并不是一个好主意。话虽如此:
这是一个非常简单的正则表达式,它不是防弹的。
In this case, using regex is not a good idea. Having said that:
This is a very trivial regex, its not bullet proof.
您无法解析 [X]HTML正则表达式。
You can't parse [X]HTML with regex.
在您的情况下,PHP的
strip_tags()
应该完全满足您的需要,而无需正则表达式。如果您只想删除特定标签(默认情况下strip_tags()
无法做到这一点),用户贡献的注释。一般来说,正则表达式不适合解析 HTML。最好使用 DOM 解析器,例如 Simple HTML DOM 或 PHP 的内置解析器。
In your case, PHP's
strip_tags()
should do exactly what you need without regular expressions. If you want to strip only a specific tag (somethingstrip_tags()
can't do by default), there is a function in the User Contributed Notes.In general, regexes are not suitable for parsing HTML. It's better to use a DOM parser like Simple HTML DOM or one of PHP's built-in parsers.