HTTP协议使用哪种编码？

发布于 2024-07-20 01:06:45 字数 251 浏览 7 评论 0原文

当浏览器向 Web 服务器发送 HTTP 请求时，使用什么编码来对线路上的 HTTP 协议进行编码？是ASCII吗？ UTF8？还是UTF16？或者它是否指定以预定义格式使用哪种编码（在进行任何解码之前？）

PS 我不是在询问请求/响应的实际有效负载（例如 HTML）。我询问请求行（即 GET /index.html HTTP/1.1）和标头（即 Host: google.com）

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

听，心雨的声音 2024-07-27 01:06:46

RFC 2616 包括以下内容：

OCTET          = <any 8-bit sequence of data>
CHAR           = <any US-ASCII character (octets 0 - 127)>
UPALPHA        = <any US-ASCII uppercase letter "A".."Z">
LOALPHA        = <any US-ASCII lowercase letter "a".."z">
ALPHA          = UPALPHA | LOALPHA
DIGIT          = <any US-ASCII digit "0".."9">
CTL            = <any US-ASCII control character
                  (octets 0 - 31) and DEL (127)>
CR             = <US-ASCII CR, carriage return (13)>
LF             = <US-ASCII LF, linefeed (10)>
SP             = <US-ASCII SP, space (32)>
HT             = <US-ASCII HT, horizontal-tab (9)>
<">            = <US-ASCII double-quote mark (34)>

然后文档中的几乎所有其他内容都是根据以下内容定义的这些实体（OCTET、CHAR 等）。因此，您可以查看 RFC 以找出 HTTP 请求/响应的哪些部分可以包含 OCTET；所有其他部分都必须是 ASCII。（我会自己做，但这需要很长时间）

具体来说，对于请求行，方法名称和 HTTP 版本将仅为 ASCII 字符，但 URL 本身可能包含非 ASCII 字符。但是如果你查看RFC 2396，它就是这么说的。

URI 是来自非常有限的集合的字符序列，即基本拉丁字母表中的字母、数字和一些特殊字符。

我猜这意味着它也将由 ASCII 字符组成。

RFC 2616 includes this:

OCTET          = <any 8-bit sequence of data>
CHAR           = <any US-ASCII character (octets 0 - 127)>
UPALPHA        = <any US-ASCII uppercase letter "A".."Z">
LOALPHA        = <any US-ASCII lowercase letter "a".."z">
ALPHA          = UPALPHA | LOALPHA
DIGIT          = <any US-ASCII digit "0".."9">
CTL            = <any US-ASCII control character
                  (octets 0 - 31) and DEL (127)>
CR             = <US-ASCII CR, carriage return (13)>
LF             = <US-ASCII LF, linefeed (10)>
SP             = <US-ASCII SP, space (32)>
HT             = <US-ASCII HT, horizontal-tab (9)>
<">            = <US-ASCII double-quote mark (34)>

And then pretty much everything else in the document is defined in terms of those entities (OCTET, CHAR, etc.). So you could look through the RFC to find out which parts of an HTTP request/response can include OCTETs; all other parts must be ASCII. (I'd do it myself, but it'd take a long time)

For the request line specifically, the method name and HTTP version are going to be ASCII characters only, but it's possible that the URL itself could include non-ASCII characters. But if you look at RFC 2396, it says that.