HttpWebResponse编码检测
我最近一直在使用 HttpWebRequest/HttpWebResponse,但遇到了编码问题。 HttpWebResponse.CharacterSet 并不总是代表真实的页面编码,所以我想我可以使用 Content-Type 元标记。
- 如果我什至无法解码响应(如果字符集 http 标头错误),如何读取 Content-Type 元标记?
- 是否有一个开源解决方案可以自动处理页面编码并能够像浏览器一样下载 url 的源代码?
请注意,我不需要字符集检测算法等花哨的方法,只需要基本的东西,例如基于 http 标头或元标记元素的检测。
提前致谢。
I've been using HttpWebRequest/HttpWebResponse lately and I'm getting encoding problems.
HttpWebResponse.CharacterSet doesn't always represent the real page encoding so I thought I could use the Content-Type meta tag.
- How can I read the Content-Type meta tag if I can't even decode the response (in case of wrong CharacterSet http header)?
- Is there an open source solution that will automatically deal with page encoding and is able to download the source of a url like a browser can?
Note that I do not require fancy methods like character set detection algorithms, just basic stuff like detection based on http header or meta tag elements.
Thanks in advance.
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
我使用了这个解决方案。有用。
I used this solution. It works.