使用 VB.net HTML AgilityPack 解析链接和表格
我正在尝试进行一些屏幕抓取,并发现了 HTML AgilityPack,但在弄清楚如何将它与 VB.net 一起使用时遇到了一些麻烦。
我想做的第一件事是找到 HREF 标记的 URL 字符串(如果我知道 HREF 中包含的文本)。
第二件事是我想做的是解析 HTML 表,遍历每一行,并提取数据,以便我可以将其保存到数据库(经过一些基本分析后)。
I'm trying to do some screen scraping, and discovered the HTML AgilityPack, but am having some trouble figuring out how to use it with VB.net.
The first thing I want to do is find the URL string for an HREF tag if I know the text that is enclosed in the HREF.
The second thing is that I want to do is parse an HTML table, going through each row, and pulling out the data so I can save it to a database (after some basic analysis).
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
这里有一个很好的起始链接:如何使用 HTML Agility pack
另请参阅:用于更改的 HtmlAgilityPack 示例链接不起作用。我该如何实现这一点?
这是:查找 HTML 文档中的所有 A HREF URL(即使是格式错误的 HTML)
要查找特定的 HREF,xpath 语法为“//a[@href='your url']”,意思是:“获取任何 HREF 属性等于 'your url' 的 A 标记。
编辑:
要查找 HREF,如果您只知道文本,例如,如果您有 html 文本 '
Cars
' 并查找 homepage.html,那么这就是您的方式会做的。Here is a good starting link here on SO: How to use HTML Agility pack
See also this: HtmlAgilityPack example for changing links doesn't work. How do I accomplish this?
And this: Finding all the A HREF Urls in an HTML document (even in malformed HTML)
To find a specific HREF, the xpath syntax would be "//a[@href='your url']", meaning: "get any A tag that has an HREF attribute equal to 'your url'.
EDIT:
To find an HREF if you only know the text, for example if you have the html text '
<a href="homepage.html">Cars</a>
' and look for homepage.html, then this is how you would do it.