无法抓取包含格式错误内容的网页
我编写了 C# 代码,它利用 HtmlAgilityPack 库来抓取位于以下位置的页面: 世界上最大的城市区域 (第 2 页)。不幸的是,该页面包含格式错误的内容。
我对如何抓取此页面陷入了僵局。我当前的代码(如下所示)在解析 HTML 时冻结:
HtmlNodeCollection cityRecords = _htmlDocument.DocumentNode.SelectNodes("//table[@class='boldtable']//tr[position() != 1]");
CityNodes = (from node in cityRecords.Descendants()
where node.Name == "td"
select node).ToList();
目标是使用每个数据点解析页面上列出的每个城市;而已。寻找有关如何修改上述代码或使用另一个免费提供的库的建议。
谢谢!
I have written c# code which utilizes the HtmlAgilityPack library in order to scrape a page located at: World's Largest Urban Areas (Page 2). Unfortunately the page consists of malformed content.
I'm at an impasse on how to scrape this page. The current code I have (appearing below) freezes on parsing the HTML:
HtmlNodeCollection cityRecords = _htmlDocument.DocumentNode.SelectNodes("//table[@class='boldtable']//tr[position() != 1]");
CityNodes = (from node in cityRecords.Descendants()
where node.Name == "td"
select node).ToList();
The goal is to parse each and every city listed on the page with each of the data points; nothing more. Looking for recommendations on how to modify the above code or use another freely available library.
Thanks!
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
在解析内容之前通过 HTML Tidy 运行内容。
http://tidy.sourceforge.net/
Run the content through HTML Tidy before parsing it.
http://tidy.sourceforge.net/