通过C#、XmlDocument.LoadXml解析网页
我正在尝试下载一个网页并解析它。我需要到达html文档的每个节点。所以我使用WebClient来下载,效果很完美。然后我使用以下代码段来解析文档:
WebClient client = new WebClient();
Stream data = client.OpenRead("http://web.cs.hacettepe.edu.tr/~bil339/");
StreamReader reader = new StreamReader(data);
string xml = reader.ReadToEnd();
data.Close();
reader.Close();
XmlDocument xmlDoc = new XmlDocument();
xmlDoc.loadXml(xml);
在最后一行中,程序等待一段时间,然后崩溃。它说 HTML 代码中有错误,这不是预期的,不应该出现在这里,等等。 有什么建议来解决这个问题吗?欢迎使用其他解析 HTML 代码的技术(当然是在 C# 中。)
I'm trying to download a web page and parse it. I need to reach every node of html document. So I used WebClient to download, which works perfectly. Then I use following code segment to parse the document:
WebClient client = new WebClient();
Stream data = client.OpenRead("http://web.cs.hacettepe.edu.tr/~bil339/");
StreamReader reader = new StreamReader(data);
string xml = reader.ReadToEnd();
data.Close();
reader.Close();
XmlDocument xmlDoc = new XmlDocument();
xmlDoc.loadXml(xml);
In last line, program waits for some time, then crashes. It says there are errors in HTML code, this wasn't expected, that shouldn't be here, etc.
Any suggestions to fix this? Other techniques to parse HTML code are welcome (In C#, of course.)
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
使用 HTMLAgilityPack 解析 HTML。格式正确的 HTML 不是 XML,也不能按 XML 进行解析。例如,它缺少所有 XML 文件都需要的
前导码。 HTML Agility Pack 更加宽容。
Use the HTMLAgilityPack to parse HTML. Well-formed HTML is not XML and can't be parsed as such. For instance, it lacks the
<?xml version="1.0" encoding="UTF-8"?>
preamble that all XML files require. The HTML Agility Pack is more forgiving.