使用 VB.net HTML AgilityPack 解析链接和表格

发布于 2024-11-02 03:37:32 字数 197 浏览 0 评论 0原文

我正在尝试进行一些屏幕抓取,并发现了 HTML AgilityPack,但在弄清楚如何将它与 VB.net 一起使用时遇到了一些麻烦。

我想做的第一件事是找到 HREF 标记的 URL 字符串(如果我知道 HREF 中包含的文本)。

第二件事是我想做的是解析 HTML 表,遍历每一行,并提取数据,以便我可以将其保存到数据库(经过一些基本分析后)。

I'm trying to do some screen scraping, and discovered the HTML AgilityPack, but am having some trouble figuring out how to use it with VB.net.

The first thing I want to do is find the URL string for an HREF tag if I know the text that is enclosed in the HREF.

The second thing is that I want to do is parse an HTML table, going through each row, and pulling out the data so I can save it to a database (after some basic analysis).

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

半城柳色半声笛 2024-11-09 03:37:32

这里有一个很好的起始链接:如何使用 HTML Agility pack

另请参阅:用于更改的 HtmlAgilityPack 示例链接不起作用。我该如何实现这一点?

这是:查找 HTML 文档中的所有 A HREF URL(即使是格式错误的 HTML)

要查找特定的 HREF,xpath 语法为“//a[@href='your url']”,意思是:“获取任何 HREF 属性等于 'your url' 的 A 标记。

编辑:

要查找 HREF,如果您只知道文本,例如,如果您有 html 文本 'Cars' 并查找 homepage.html,那么这就是您的方式会做的。

        string s = @"<a href=""homepage.html"">Cars</a>";

        HtmlDocument doc = new HtmlDocument();
        doc.LoadHtml(s);

        HtmlNode node = doc.DocumentNode.SelectSingleNode("//a[text()='Cars']");
        Console.WriteLine("href=" + node.GetAttributeValue("href", null));

Here is a good starting link here on SO: How to use HTML Agility pack

See also this: HtmlAgilityPack example for changing links doesn't work. How do I accomplish this?

And this: Finding all the A HREF Urls in an HTML document (even in malformed HTML)

To find a specific HREF, the xpath syntax would be "//a[@href='your url']", meaning: "get any A tag that has an HREF attribute equal to 'your url'.

EDIT:

To find an HREF if you only know the text, for example if you have the html text '<a href="homepage.html">Cars</a>' and look for homepage.html, then this is how you would do it.

        string s = @"<a href=""homepage.html"">Cars</a>";

        HtmlDocument doc = new HtmlDocument();
        doc.LoadHtml(s);

        HtmlNode node = doc.DocumentNode.SelectSingleNode("//a[text()='Cars']");
        Console.WriteLine("href=" + node.GetAttributeValue("href", null));
~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文