快速上手 HTTP Cache

2025-01-13

开始系统研究 HTTP Cache，是因为我在开发裁员追踪器 | Layoffs Tracker🔗 时遇到一个问题：

API 返回的数据是静态的，长时间不更新。如果每次请求都需要访问服务器，不仅效率低下，还会对服务器造成不必要的压力。

所以考虑加一层 Cache。

最简单的实现方式，就是 HTTP Cache。

本以为加几个 HTTP Header 就可以搞定。研究一番后发现，这一块的内容远比想象中丰富。

所以写一篇文章，体系化梳理 HTTP Cache。

重点将放在：产生背景，解决手段，最佳实践。

1. 背景

Cache（缓存）在整个计算机系统里应用广泛。

从最底层的 CPU Cache，到 DNS 解析，CDN，再到耳熟能详的 Redis，本质都是通过缓存提高效率，以空间换时间。

HTTP Cache 同样如此。

它能帮助提高网页的加载速度，优化用户体验，而且可以有效地减轻服务器负载。

举个例子。

一个静态文件，长期不被修改，那么每次刷新都再次请求是不必要的。速度慢，网络开销大，如果文件尺寸较大，还会给服务器带来更多压力。

HTTP Cache 很好地解决了这个问题。将第一次访问的内容缓存在本地，后续获取资源时便可避开网络请求，直接从本地获取。

HTTP Cache 主要有两种：

强制缓存的关键头部有两个：

我在裁员追踪器 | Layoffs Tracker🔗 用到的配置如下：缓存时间为 60 秒，而且可以被共享。

Cache-Control 是一个通用字段，服务端和客户端都可以使用。

服务端用它实现在客户端上的缓存策略，反过来，客户端可以重新设置，决定如何使用当前缓存。

例如，浏览器“刷新”按钮，会在请求里会设置 Cache-Control: max-age=0，绕过本地缓存，从服务器获取最新内容。

相比强制缓存这种单边决策，协商缓存更加复杂：需要客户端和服务端的双向配合。

关键头部有两部分，请求头和响应头。

请求头：
- If-Modified-Since: 上次修改时间，用于配合 Last-Modified
- If-None-Match: 本地的缓存版本标识（ETag）
响应头：
- Last-Modified，最后一次修改时间，用于比较资源是否发生修改，精度不如 ETag
- ETag，资源的唯一标识，如果原始资源变更，ETag 必须重新生成。比较 ETag 可以更加高效、准确地判断变化的发生

具体工作流程如下：

客户端在第一次请求时，会收到 Last-Modified 或 ETag 字段
客户端再次请求时，附带 If-Modified-Since 或 If-None-Match 字段
服务端根据请求字段，判断缓存是否有效：
- 有效，返回 304 Not Modified，客户端直接使用缓存
- 无效，返回新的资源和状态码 200 OK，当然 Last-Modified 或 ETag 同样会返回