HttpWebResponse编码检测

发布于 2024-08-25 06:01:42 字数 328 浏览 2 评论 0原文

我最近一直在使用 HttpWebRequest/HttpWebResponse,但遇到了编码问题。 HttpWebResponse.CharacterSet 并不总是代表真实的页面编码,所以我想我可以使用 Content-Type 元标记。

  1. 如果我什至无法解码响应(如果字符集 http 标头错误),如何读取 Content-Type 元标记?
  2. 是否有一个开源解决方案可以自动处理页面编码并能够像浏览器一样下载 url 的源代码?

请注意,我不需要字符集检测算法等花哨的方法,只需要基本的东西,例如基于 http 标头或元标记元素的检测。

提前致谢。

I've been using HttpWebRequest/HttpWebResponse lately and I'm getting encoding problems.
HttpWebResponse.CharacterSet doesn't always represent the real page encoding so I thought I could use the Content-Type meta tag.

  1. How can I read the Content-Type meta tag if I can't even decode the response (in case of wrong CharacterSet http header)?
  2. Is there an open source solution that will automatically deal with page encoding and is able to download the source of a url like a browser can?

Note that I do not require fancy methods like character set detection algorithms, just basic stuff like detection based on http header or meta tag elements.

Thanks in advance.

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

诺曦 2024-09-01 06:01:42

我使用了这个解决方案。有用。

I used this solution. It works.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文