24 年了，终于有人发现 curl 的这个 Bug 了

会员服务 ·

24 年了，终于有人发现 curl 的这个 Bug 了

2022 年 9 月 24 日 InfoQ

作者 | 平川，凌敏

这是一个关于 cookie、互联网代码和 CVE（通用漏洞披露）的故事。

本文最初发布于 Daniel Stenberg 的个人博客。

curl 作者 Daniel Stenberg 近日在个人博客分享了一个存在 23.9 年的 curl 漏洞。curl 是常用的命令行工具，用来请求 Web 服务器，于 1997 年首次发行。

据 Stenberg 透露，这个漏洞是在 curl 发布后的第 201 天引入的，但是直到第 8930 天，漏洞才修复好。一个持续了 23.9 年的漏洞背后有着怎样的故事？

一切还得从 1998 年说起。

curl 4.9 与 cookie

1998 年 10 月，Stenberg 带领团队推出了 curl 4.9 版本。当时，听过或用过 curl 的人还少得可怜。几个月之后，curl 官网才宣布新版本的下载量达到了 300。那时，无论从何种意义上讲， curl 都还很小众。

curl 4.9 作为第一个带有 “cookie 引擎” 的版本，可以接收 HTTP cookie、解析、识别，并在后续的请求中把 cookie 正确地返回。在 curl 中，处理 cookie 的大部分代码都是 Stenberg 编写的。

那会，cookie 还没有明确的规范，仅有的一份描述 cookie 工作原理的规范，是一份由 Netscape 管理的文档 cookie_spec（感兴趣的同学可以戳链接查看文档副本：https://curl.se/rfc/cookie_spec.html）。这份文档并不完善，有不少信息需要通过查看其它客户端才能了解到。

Stenberg 在实现处理 cookie 的代码时，就是参考了这份文档以及当时浏览器的大致处理方式。

此后十年，IETF（互联网工程任务组）一直在努力创建 cookie 规范，但均以失败而告终。这些早期 cookie 规范的创建者可能觉得，他们创建了标准，世界就会情不自禁地遵守它们，但事实并非如此。cookie 的特殊之处在于，有很多不同的作者、代码库和网站实现了它。因此，很难从根本上改变它们的工作方式。

直到 2011 年，cookie RFC 正式发布了，它记录并解释了 cookie 实际的使用方式，这可以说是真正意义上的 cookie 规范。Stenberg 本人也参与了规范的制定过程，并在其中阐述了自己的观点和意见。对于这份规范的内容，虽然 Stenberg 并不完全赞同，但与此前的各种 cookie 规范相比，cookie RFC 的确是一个巨大的进步。

cookie 双重语法带来的挑战

一开始，新的 cookie 规范并没有给 Stenberg 造成困扰，但很快，规范的特殊编写方式让 Stenberg 倍感头疼：它针对服务器如何发送 cookie 提供了一种字段语法，而针对客户端应该接受什么样的 cookie 提供了另一种语法。也就是说，同样的 cookie，需要两种语法。

这有两个很直接的缺点：

规范很难阅读。你很容易就停留在其中一种语法上，以为那就是适合自己用例的，但却没有意识到角色描述是错误的。
定义如何发送 cookie 的语法其实并不重要，因为如何接收和处理 cookie 都是由客户端决定的。现有的大型 cookie 解析器（浏览器）有一定程度的自由决定自己接受什么，所以没人注意，也没人关心服务器是否严格遵守了规范中的语法。与此同时，cookie 规范也在持续更新。从几年前开始，IETF 就一直在修订和更新 2011 年的 cookie 规范，计划将世界上一些已实际投入使用的 cookie 扩展添加到规范中。这项 cookie 规范更新工作被称为 6265bis。

curl 也同步进行更新，以确保符合 RFC 6265bis 草案版本的规定。

但是，双重语法仍然是 cookie 规范文档中悬而未决的问题。

随着时间的推移，cookie 的发展变得缓慢。在过去的几十年里，HTTP 规范也就更新了有限的几次，但值得一提的是，HTTP 服务器实现已经实施了更严格的解析策略：

如果传入的 HTTP 请求看上去“非法”或格式不正确，那么 HTTP 服务器就会提前拒绝，把它们挡在门外。对于请求中的控制代码尤其如此。如果你试图将一个包含控制代码（这里的控制代码指的是介于 1 到 31 之间的字节值，不包括 9，9 是 TAB）的请求发送到一个相当新的 HTTP 服务器，那么服务器很可能会拒绝，并返回 400 响应代码。从 2016 年 12 月发布的 2.4.25 版本开始，HTTP 服务器 Apache httpd 就默认启用了此行为。最新版本的 Nginx 似乎也是这样做的。

如果是现在设计 cookie，那么肯定会有所不同。

设置 cookie 的网站把 cookie 发送到客户端，对于其发送的每个 cookie，它都会设置多个属性。尤其是当需要客户端发回 cookie 时，它会设置匹配参数。

在 cookie 的这些参数中，其中有一个是 domain，客户端发送 cookie 时要匹配它。服务器www.example.com可以设置 cookie 的有效范围为整个example.com域，这时，客户端在访问second.example.com 时也会发送 cookie。也就是说，服务器可以将 cookie 设置为适用于“兄弟站点”。

值得一提的是，1998 年添加到 curl 中的 Cookie 代码在接受内容方面相当自由，当然，多年来也经过了不少调整和完善，不过它始终与现实世界的网站保持了兼容。对于那部分代码，Stenberg 修改的主要动力始终是为了使 curl 的 Cookie 处理方式与其他已有的使用 cookie 的代理保持基本一致，并可以互操作。

curl 的 Bug 详情与修复方案

2022 年 6 月底，Stenberg 收到了一份报告，报告怀疑 curl 中存在安全问题。正是这份报告促使 curl 发布了 CVE-2022-35252。

事实证明，源于 1998 年的旧 cookie 代码，会接受包含控制代码的 cookie。控制代码可以是名称或内容的一部分，如果用户启用了“cookie 引擎”，那么 curl 就会存储那些 cookie，并在后续的请求中将它们发送回来。

例如，curl 会接受下面这样的 cookie：

Set-cookie: name^a=content^b; domain=.example.com

^a 和 ^b 表示控制代码。由于域可以将 cookie 标记为适用于其他主机，、所以发送到域中所有主机的请求都会包含这个 cookie。

当 curl 将类似那样的一个 cookie 发送到 HTTP 服务器时，它的外发请求中会包含下面这样一个 header 字段：

cookie: name^a=content^b

对此，Apache httpd 及其他服务器的默认配置都会返回 400。一个脚本或应用程序在收到这样的 cookie 后，如果后续的请求中还继续发送 cookie，就会遭到拒绝。

Stenberg 复盘后发现，cookie 规范 RFC 6265 5.2 节确实说了，客户端应该丢弃包含控制代码的 cookie，但这部分对用户来说理解起来比较难，需要对文档有深入的研究才能发现。此外，规范并没有提及“控制代码”或是字节值范围。

Stenberg 认为，要弄清楚主流浏览器是怎么做的还是比较容易的，因为它们的源代码很容易获得。事实证明，Chrome 和 Firefox 都已经忽略了包含以下任何字节的传入 cookie：

%01-%08 / %0b-%0c / %0e-%1f / %7f

其中不包含 %09（TAB）和 %0a / %0d（行结束符）。

Bug 修复方面，Stenberg 表示，curl 的修复补丁处理方式非常简单：拒绝包含一个或多个禁用字节值的 cookie 字段。Stenberg 认为，这种修改基本是没有风险的。

写在最后

推算起来，有漏洞的代码从 curl 4.9 版本开始就一直存在，curl 7.85.0 版本才完成修复。整个历程有 8729 天（23.9 年）。也就是说，这个 Bug 是在项目发布的第 201 天引入的，到第 8930 天才修复。

Stenberg 认为，代码在发布时是没什么问题的，并且在用户的使用过程中，也基本没有产生什么问题。它的问题出在，HTTP 服务开始拒绝可能的恶意 HTTP 请求时。如此一来，这段代码就变成了一种拒绝服务，这或多或少会带来一些副作用。

或许，这个 Bug 诞生于 RFC 6265 发布之时。或许，它诞生于 HTTP 服务器开始拒绝这些请求时。不管怎样，这个 Bug 创造了一个新的项目记录：它是第四个被发现之前存在了 8000 多天的 Bug。

点击底部阅读原文访问 InfoQ 官网，获取更多精彩内容！

今日好文推荐

接手了一座年收入 2000 万美元的代码“屎山”，我到底是该重写还是该跳槽？

从一线研发到公司创始人，基础软件创业者迷雾中与市场赛跑

Azure CTO 呼吁不要使用 C/C++ 启动新项目，C++ 之父回应：你们这些高管就爱喜新厌旧

NGINX 局限太多，Cloudflare 最终放弃它并用 Rust 自研了全新替代品

登录查看更多

相关内容

关注 2

Cookie（复数形态 Cookies）指某些网站为了辨别用户身份而储存在用户本地终端（Client Side）上的数据（通常经过加密）。定义于 RFC2109。

【经典书】现代C语言教程，408页pdf手写教你写C代码

专知会员服务

66+阅读 · 2022年8月5日

【2022新书】Python DevOps，245页pdf

专知会员服务

91+阅读 · 2022年7月11日

【干货书】Python3编程高级指南，494页pdf

专知会员服务

92+阅读 · 2022年5月18日

算法通关手册（LeetCode）

专知会员服务

162+阅读 · 2022年1月13日

找工作实用书《LeetCode 题解》，262页pdf

专知会员服务

131+阅读 · 2021年12月2日

【2020新书】Ruby 3 编程: 从小白到专家，598页pdf

专知会员服务

32+阅读 · 2020年12月17日

避免掉坑里！佐治亚理工21页优雅读博指南

专知会员服务

21+阅读 · 2020年10月2日

【干货书-微软出品】开始Python编程，656页pdf

专知会员服务

52+阅读 · 2020年9月2日

【2020新书】高级Python编程，620页pdf

专知会员服务

240+阅读 · 2020年7月31日

【Yoshua Bengio-先验意识论文最新版本】The Consciousness Prior，Yoshua Bengio

专知会员服务

20+阅读 · 2019年12月12日

一个人、一家公司、年入一个亿！网友：“程序员的梦想！”

CSDN

0+阅读 · 2022年11月7日

软件架构可能不是你想象的那个样子

InfoQ

0+阅读 · 2022年5月2日

「Hello World」中的「bug」

机器之心

0+阅读 · 2022年3月22日

发现竞争对手代码中的低级Bug后，我被公司解雇并送上了法庭

InfoQ

0+阅读 · 2022年3月18日

时隔六年，FreeDOS终于更新，是否还能与Windows一战？

CSDN

0+阅读 · 2022年2月28日

curl为什么这么流行？

AI前线

0+阅读 · 2022年2月21日

已删除

36氪

1+阅读 · 2022年2月19日

Android 13来了，它真的平庸又鸡肋吗？

InfoQ

0+阅读 · 2022年2月14日

新项目别一上来就用微服务

InfoQ

0+阅读 · 2021年12月24日

一文详解Redis中BigKey、HotKey的发现与处理

阿里技术

0+阅读 · 2021年8月25日

面向Bug报告的软件故障重现方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

关联规则集上的知识发现

国家自然科学基金

9+阅读 · 2015年12月31日

金属和半导体协同贡献的表面增强拉曼散射研究

国家自然科学基金

0+阅读 · 2014年12月31日

抑制Notch信号通路对成年脊髓神经干/祖细胞的调控及其在脊髓损伤修复中的作用

国家自然科学基金

0+阅读 · 2013年12月31日

氧化铈表面活性氧物种的分子尺度调控

国家自然科学基金

0+阅读 · 2013年12月31日

ADAMTS8在结直肠癌中的抑癌作用及其负调控MAPK/ERK通路的机制研究

国家自然科学基金

0+阅读 · 2012年12月31日

富勒烯及其衍生物与含氧亲核试剂的加成反应研究

国家自然科学基金

0+阅读 · 2012年12月31日

剪切应力通过转录因子的乙酰化与去乙酰化影响成骨细胞增殖与分化功能的研究

国家自然科学基金

0+阅读 · 2012年12月31日

BAP31在小鼠中的功能解析

国家自然科学基金

0+阅读 · 2012年12月31日

鉴定与p21相互作用的一个新分子

国家自然科学基金

0+阅读 · 2011年12月31日

Value-based CTDE Methods in Symmetric Two-team Markov Game: from Cooperation to Team Competition

Arxiv

0+阅读 · 2022年11月30日

Quasi Non-Negative Quaternion Matrix Factorization with Application to Color Face Recognition

Arxiv

0+阅读 · 2022年11月30日

On Word Error Rate Definitions and their Efficient Computation for Multi-Speaker Speech Recognition Systems

Arxiv

0+阅读 · 2022年11月29日

Detect-Localize-Repair: A Unified Framework for Learning to Debug with CodeT5

Arxiv

0+阅读 · 2022年11月27日

Federated Learning Hyper-Parameter Tuning from a System Perspective

Arxiv

0+阅读 · 2022年11月24日

The GA-cal software for the automatic calibration of soil constitutive laws: a tutorial and a user manual

Arxiv

0+阅读 · 2022年11月24日

Few-shot Learning with Noisy Labels

Arxiv

13+阅读 · 2022年4月12日

Masked Autoencoders Are Scalable Vision Learners

Arxiv

27+阅读 · 2021年11月11日

已删除

Arxiv

33+阅读 · 2020年3月23日

The Book of Why: Review

Arxiv

15+阅读 · 2019年9月30日

VIP会员