正则表达式检索锚点
我有一堆 html,我需要使用正则表达式获取所有锚点和锚点值。
这是我需要处理的示例 html:
<P align=center><SPAN style="FONT-FAMILY: Arial; FONT-SIZE: 10px"><SPAN style="COLOR: #666666">View the </SPAN><A href="http://www.google.com"><SPAN style="COLOR: #666666">online version</SPAN></A><SPAN style="COLOR: #666666"> if you are having trouble <A name=hi>displaying </A>this <a name="msg">message</A></SPAN></SPAN></P>
因此,我需要能够处理所有 。
非常感谢任何帮助。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(3)
正如 stackoverflow 上数百个其他答案所表明的那样 - 使用正则表达式来处理 html 是一个坏主意。使用一些 html 解析器。
但例如,如果您仍然需要正则表达式来查找 href url,则可以使用以下正则表达式来匹配 href 并提取其值:
如果您想获取
中的内容并且
,那么使用正则表达式确实是一个糟糕的方法,因为正则表达式中的前向/后向不支持正则表达式生成可变长度匹配。
As hundreds of other answers on stackoverflow suggest - its a bad idea to use regex for processing html. use some html parser.
But for example, if still you need a regex to find the href urls, below is an regex you can use to match hrefs and extract its value:
If you want to get contents inside
<A>
and</A>
, then using regex is really a bad approach as lookahead/behind in the regex do not support regex producing variable length matches.模式是href|name)="(?.*?)".*?>
所以你的 c# 代码将是
the pattern is
<a.*?(?<attribute>href|name)="(?<value>.*?)".*?>
so your c# code will be
不要忘记添加对
Microsoft.mshtml.dll
的引用Don't forget to add a reference to
Microsoft.mshtml.dll