如何使用C#下载正确编码的HTML页面?
我需要一个方法来获取页面的链接并返回该页面的标题。
我使用了 WebClient -
var webClient = new WebClient();
var htmlString = webClient.DownloadString(_link);
它运行良好,但在外语编码时失败。我收到问号和奇怪的字符,而不是我需要的文本。
是否有通用的方法来识别页面的编码并使用它?我需要它支持大多数编码(如果不是全部)。
I needed a method that gets a link to a page and returns the title of this page.
I used WebClient -
var webClient = new WebClient();
var htmlString = webClient.DownloadString(_link);
It works well, but it fails with encoding of foreign languages. I'm getting question marks and weird characters instead of the text I need.
Is there a generic way to identify the encoding of the page and use it? I need it to support most of the encodings if not all.
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(2)
使用 HtmlAgilityPack 你可以做这样的事情
Using the HtmlAgilityPack you can do something like this