无法抓取包含格式错误内容的网页

发布于 2024-08-14 18:29:36 字数 578 浏览 9 评论 0原文

我编写了 C# 代码,它利用 HtmlAgilityPack 库来抓取位于以下位置的页面: 世界上最大的城市区域 (第 2 页)。不幸的是,该页面包含格式错误的内容。

我对如何抓取此页面陷入了僵局。我当前的代码(如下所示)在解析 HTML 时冻结:

 HtmlNodeCollection cityRecords = _htmlDocument.DocumentNode.SelectNodes("//table[@class='boldtable']//tr[position() != 1]");
 CityNodes = (from node in cityRecords.Descendants()
              where node.Name == "td"
              select node).ToList();

目标是使用每个数据点解析页面上列出的每个城市;而已。寻找有关如何修改上述代码或使用另一个免费提供的库的建议。

谢谢!

I have written c# code which utilizes the HtmlAgilityPack library in order to scrape a page located at: World's Largest Urban Areas (Page 2). Unfortunately the page consists of malformed content.

I'm at an impasse on how to scrape this page. The current code I have (appearing below) freezes on parsing the HTML:

 HtmlNodeCollection cityRecords = _htmlDocument.DocumentNode.SelectNodes("//table[@class='boldtable']//tr[position() != 1]");
 CityNodes = (from node in cityRecords.Descendants()
              where node.Name == "td"
              select node).ToList();

The goal is to parse each and every city listed on the page with each of the data points; nothing more. Looking for recommendations on how to modify the above code or use another freely available library.

Thanks!

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

秋心╮凉 2024-08-21 18:29:36

在解析内容之前通过 HTML Tidy 运行内容。

http://tidy.sourceforge.net/

Run the content through HTML Tidy before parsing it.

http://tidy.sourceforge.net/

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文