前端必须要懂的浏览器缓存机制

发布于 2024-12-05 12:47:08 字数 9070 浏览 26 评论 0

1. 什么是浏览器缓存？

浏览器通常会将常用资源缓存在你的个人电脑的磁盘和内存中。如 Chrome 浏览器的缓存存放位置就在： \Users\Your_Account\AppData\Local\Google\Chrome\User Data\Default 中的 Cache 文件夹和 Media Cache 文件夹中。

2. 什么是静态资源服务器？

在一般的网站中，静态资源使用频率高，流量占用大。对于访问量稍大的网站，都会把静态资源放置到 CDN 服务器，不占用业务服务器的网络带宽，而达到更好的用户体验。

3. 浏览器请求静态资源的流程

对于前端开发者来说，我们主要跟浏览器中的缓存打交道，上图流程是简化版的;事实上在实际应用中通常采用静态资源服务器（CDN）。

4. 浏览器端缓存的分类

下面这张图展示了某一网站，对不同资源的请求结果，其中可以看到有的资源直接从缓存中读取，有的资源跟服务器进行了再验证，有的资源重新从服务器端获取。

200 from cache
304 not modified

注意，我们讨论的所有关于缓存资源的问题，都仅仅针对 GET 请求。而对于 POST , DELETE , PUT 这类行为性操作通常不做任何缓存。

5. Cache-Control 和 Expires

Cache-Control 是 HTTP1.1 中新增的响应头
Expires 是 HTTP1.0 中的响应头
Cache-Control 使用的是相对时间
Expires 指定的是具体的过期日期而不是秒数。因为很多服务器跟客户端存在时钟不一致的情况，所以最好还是使用 Cache-Control.
Cache-Control 和 Expires 同时使用的话，Cache-Control 会覆盖 Expires

6. Cache-Control 都可以设置哪些属性

max-age（单位为 s）

指定设置缓存最大的有效时间，定义的是时间长短。当浏览器向服务器发送请求后，在 max-age 这段时间里浏览器就不会再向服务器发送请求了。

public

指定响应可以在代理缓存中被缓存，于是可以被多用户共享。如果没有明确指定 private，则默认为 public。

private

响应只能在私有缓存中被缓存，不能放在代理缓存上。对一些用户信息敏感的资源，通常需要设置为 private。

no-cache

表示必须先与服务器确认资源是否被更改过（依靠 If-None-Match 和 Etag），然后再决定是否使用本地缓存。

no-store

绝对禁止缓存任何资源，也就是说每次用户请求资源时，都会向服务器发送一个请求，每次都会下载完整的资源。通常用于机密性资源。

关于 Cache-Control 的使用，见下面这张图

7.新鲜度限值

HTTP 通过缓存将服务器资源的副本保留一段时间，这段时间称为新鲜度限值。这在一段时间内请求相同资源不会再通过服务器。HTTP 协议中 Cache-Control 和 Expires 可以用来设置新鲜度的限值，前者是 HTTP1.1 中新增的响应头，后者是 HTTP1.0 中的响应头。二者所做的事时都是相同的，但由于 Cache-Control 使用的是相对时间，而 Expires 可能存在客户端与服务器端时间不一样的问题，所以我们更倾向于选择 Cache-Control。

html 代码

<html>
  <head>
    <meta http-equiv="Content-Type" content="text/html; charset=utf-8">
    <meta name="viewport" content="width=device-width, initial-scale=1.0, maximum-scale=1.0, user-scalable=no" />
    <meta http-equiv="X-UA-Compatible" content="IE=EDGE" />
    <title>Web Cache</title>
    <link rel="shortcut icon" href="./shortcut.png">
    <script>
    </script>
  </head>
  <body class="claro">
  <img src="./cache.png">
  </body>
</html>

node 服务端代码

var http = require('http');
var fs = require('fs');
http.createServer(function(req, res) {
    if (req.url === '/' || req.url === '' || req.url === '/index.html') {
        fs.readFile('./index.html', function(err, file) {
            console.log(req.url)
            //对主文档设置缓存，无效果
            res.setHeader('Cache-Control', "no-cache, max-age=" + 5);
            res.setHeader('Content-Type', 'text/html');
            res.writeHead('200', "OK");
            res.end(file);
        });
    }
    if (req.url === '/cache.png') {
        fs.readFile('./cache.png', function(err, file) {
            res.setHeader('Cache-Control', "max-age=" + 5);//缓存五秒
            res.setHeader('Content-Type', 'images/png');
            res.writeHead('200', "Not Modified");
            res.end(file);
        });
    }
    
}).listen(8888);

当在 5 秒内第二次访问页面时，浏览器会直接从缓存中取得资源

8.服务器再验证

浏览器或代理缓存中缓存的资源过期了，并不意味着它和原始服务器上的资源有实际的差异，仅仅意味着到了要进行核对的时间了。这种情况被称为服务器再验证。

如果资源发生变化，则需要取得新的资源，并在缓存中替换旧资源。
如果资源没有发生变化，缓存只需要获取新的响应头，和一个新的过期时间，对缓存中的资源过期时间进行更新即可。

HTTP1.1 推荐使用的验证方式是 If-None-Match/Etag，在 HTTP1.0 中则使用 If-Modified-Since/Last-Modified。

9.Etag 与 If-None-Match

Etag 是指根据实体内容生成一段 hash 字符串，标识资源的状态，由服务端产生。浏览器会将这串字符串传回服务器，验证资源是否已经修改，如果没有修改，过程如下：

代码示例

var http = require('http');
var fs = require('fs');
http.createServer(function(req, res) {
    if (req.url === '/' || req.url === '' || req.url === '/index.html') {
        fs.readFile('./index.html', function(err, file) {
            console.log(req.url)
            //对主文档设置缓存，无效果
            res.setHeader('Cache-Control', "no-cache, max-age=" + 5);
            res.setHeader('Content-Type', 'text/html');
            res.writeHead('200', "OK");
            res.end(file);
        });
    }
    if (req.url === '/shortcut.png') {
        fs.readFile('./shortcut.png', function(err, file) {
            console.log(req.url)
            res.setHeader('Content-Type', 'images/png');
            res.writeHead('200', "OK");
            res.end(file);
        })
    }
    if (req.url === '/cache.png') {
        fs.readFile('./cache.png', function(err, file) {
            console.log(req.headers);
            console.log(req.url)
            if (!req.headers['if-none-match']) {
                res.setHeader('Cache-Control', "max-age=" + 5);
                res.setHeader('Content-Type', 'images/png');
                res.setHeader('Etag', "ffff");
                res.writeHead('200', "Not Modified");
                res.end(file);
            } else {
                if (req.headers['if-none-match'] === 'ffff') {
                    res.writeHead('304', "Not Modified");
                    res.end();
                } else {
                    res.setHeader('Cache-Control', "max-age=" + 5);
                    res.setHeader('Content-Type', 'images/png');
                    res.setHeader('Etag', "ffff");
                    res.writeHead('200', "Not Modified");
                    res.end(file);
                }
            }
            
        });
    }
    
}).listen(8888)

10.如何计算 Etag 值

ETag 值通常由服务器端计算，并在响应客户端请求时将它返回给客户端
可以通过时间戳就可以最简单的得到 ETag 头信息；但不建议这么做，这么做和 Last-Modified 头信息就没什么两样了
ETag 值可以是唯一标识资源的任何东西，如持久化存储中的某个资源关联的版本、一个或者多个文件属性，实体头信息和校验值、(CheckSum)，也可以计算实体信息的散列值。
有时候，为了计算一个 ETag 值可能有比较大的代价，此时可以采用生成唯一值等方式（如常见的 GUID)。
Apache 默认通过 FileEtag 中 FileEtag INode Mtime Size 的配置自动生成 ETag(当然也可以通过用户自定义的方式)。
由于 Etag 由服务器构造，所以在集群环境中一定要保证 Etag 的唯一性

11. If-Modified-Since 与 Last-Modified

这两个是 HTTP1.0 中用来验证资源是否过期的请求/响应头，这两个头部都是日期，验证过程与 Etag 类似，这里不详细介绍。使用这两个头部来验证资源是否更新时，存在以下问题：

有些文档资源周期性的被重写，但实际内容没有改变。此时文件元数据中会显示文件最近的修改日期与 If-Modified-Since 不相同，导致不必要的响应。
有些文档资源被修改了，但修改内容并不重要，不需要所有的缓存都更新（比如代码注释）

12. 总结

浏览器端缓存分为 200 from cache 和 304 not modified
HTTP 协议中 Cache-Control 和 Expires 可以用来设置新鲜度的限值，前者是 HTTP1.1 中新增的响应头，后者是 HTTP1.0 中的响应头。
max-age（单位为 s）而 Expires 指定的是具体的过期日期而不是秒数
Cache-Control 和 Expires 同时使用的话，Cache-Control 会覆盖 Expires
客户端不用关心 ETag 值如何产生，只要服务在资源状态发生变更的情况下将 ETag 值发送给它就行
Apache 默认通过 FileEtag 中 FileEtag INode Mtime Size 的配置自动生成 ETag(当然也可以通过用户自定义的方式)。
ETag 常与 If-None-Match 或者 If-Match 一起，由客户端通过 HTTP 头信息（包括 ETag 值) 发送给服务端处理。
Last-Modified 常与 If-Modified-Since 一起由客户端将 Last-Modified 值包括在 HTTP 头信息中发给服务端进行处理。
有些文档资源周期性的被重写，但实际内容没有改变。此时文件元数据中会显示文件最近的修改日期与 If-Modified-Since 不相同，导致不必要的响应。