提取链接正则表达式c#
过去两个小时我一直在尝试解决这些问题,但似乎找不到任何解决方案。
我需要从 HTML
文件中提取链接。有 100 多个链接,但其中只有 25 个有效。
有效链接放置在
首先,我遇到(并且仍然)逐字字符串内双引号的问题。因此,我已逐字替换为“正常”字符串,这样我就可以使用 \" 代替 " 但问题是我编写的这个 Regex
不起作用,
Match LinksTemp = Regex.Match(
htmlCode,
"<td><a href=\"(.*)\">",
RegexOptions.IgnoreCase);
因为我得到 "
作为输出而不是 http://www.google.com
任何人都知道我该如何解决这个问题问题以及如何在逐字字符串中使用双引号(示例@" <>"das"sa")
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(3)
为什么不使用 HTML 解析 来解析它呢?这是又好又快的 HTML 解析。
示例:
您需要导入
using HtmlAgilityPack;
Why not parse this with an HTML-parsing is good and fast HTML-Parsing.
example:
you need import
using HtmlAgilityPack;
转义双引号示例:
@"some""test"
正则表达式示例:
""
另外,您可能想使用
Regex.Matches(...)
Regex.Match(...)
Escaped double quotes sample:
@"some""test"
Regex sample:
"<a href=\"(.*?)\">"
Also you may want to use
Regex.Matches(...)
instead ofRegex.Match(...)
如果你想获取每个元素,请使用如下代码:
If you want to take every elements use code simply like this: