当前位置：文江博客话题详情

在下载页面之前如何获取页面的编码？

发布于 2024-11-05 19:38:47 字数 271 浏览 0 评论 0原文

在下载网页之前，我需要获取网页的编码（UTF-8、ISO-8859-1 等），因为我将使用编码将其从下载的 InputStream 转换为 String。

我使用 HttpUrlConnection 并且有一个名为 getContentEncoding 的方法，但仅当服务器发送它时它才会返回。

在某些情况下，编码是在属性字符集（HTML4？）中，在其他情况下是在属性编码（XHTML）中，还有一些我不知道，但我认为还有其他形式。

有一些课程可以做到这一点或者有什么方法可以做到？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

掩饰不了的爱 2024-11-12 19:38:47

HTTP 1.1 规范表明 Content-Type “应该”用于指示内容，并且不包含此标头的响应应被视为“application/octet-stream”——换句话说，是字节序列而不是字符。使用“应该”表示这是推荐的做法，但某些服务器可能不遵循它。

因此，您的第一步是查找此标头。如果它不存在，则不要对内容应用任何字符集解码。对于 XML，假设您将流传递给解析器，这将正常工作：流将采用 UTF-8 编码，或者序言将指定编码。并且您应该始终将流直接传递到 XML 解析器，而不是先尝试将它们转换为字符串。

如果存在 Content-Type 标头，并且它指定了字符集，那么您可以根据该字符集自由进行解码。该规范还讨论了如何处理缺少字符集：对于任何 text 内容类型，您应该假设它是使用 ISO-8859-1 编码的。

这就是下一步：如果有字符集，或者是 text 媒体类型，则应用解码。

否则，请保留该流。

回复收藏 0 原文

烟沫凡尘 2024-11-12 19:38:47

也许您可以尝试发出 HEAD 请求来获取 HTTP 标头，然后再尝试完全处理页面？ HTTPUrlConnection 有 setRequestMethod，您可以在其中指定 HEAD。

对于 HEAD 请求，服务器应该返回所有标头，但不返回消息正文。您可以尝试解析 Content-Type 标头值。从服务器返回的标头示例如下：

HTTP/1.1 200 OK
Date: Mon, 23 May 2005 22:38:34 GMT
Server: Apache/1.3.3.7 (Unix)  (Red-Hat/Linux)
Last-Modified: Wed, 08 Jan 2003 23:11:55 GMT
Etag: "3f80f-1b6-3e1cb03b"
Accept-Ranges: bytes
Content-Length: 438
Connection: close
Content-Type: text/html; charset=UTF-8

以下代码片段应该让您了解如何迭代和读取 HEAD 请求中返回的标头。

int i=1;// this will print all header parameter
String hKey;
while ((hKey=conn.getHeaderFieldKey(i))!=null){
    String hVal = conn.getHeaderField(i);
    System.out.println(hKey+"="+hVal);
    i++;
}

Perhaps you could try issuing a HEAD request to fetch the HTTP headers before attempting to fully process the page? HTTPUrlConnection has setRequestMethod, where you could specify HEAD.

With a HEAD request, the server is supposed to return all headers but without the message body. You can try parsing the Content-Type header value. Example headers returned from server would be:

HTTP/1.1 200 OK
Date: Mon, 23 May 2005 22:38:34 GMT
Server: Apache/1.3.3.7 (Unix)  (Red-Hat/Linux)
Last-Modified: Wed, 08 Jan 2003 23:11:55 GMT
Etag: "3f80f-1b6-3e1cb03b"
Accept-Ranges: bytes
Content-Length: 438
Connection: close
Content-Type: text/html; charset=UTF-8

The following snippet should give you an idea of how to iterate and read the headers returned in a HEAD request.

int i=1;// this will print all header parameter
String hKey;
while ((hKey=conn.getHeaderFieldKey(i))!=null){
    String hVal = conn.getHeaderField(i);
    System.out.println(hKey+"="+hVal);
    i++;
}

回复收藏 0 原文