吸烟致癌的迷思是如何破除的？

2019 年 8 月 20 日 算法与数学之美

20世纪50年代末60年代初，统计学家和医生就整个20世纪最引人注目的一个医学问题产生了意见冲突：吸烟会导致肺癌吗？在这场辩论过去了半个世纪之后的现在，我们认为答案是理所当然的。但在当时，这个问题完全处于迷雾之中。

驳斥吸烟致癌假说的一个最重要的科学主张是可能存在某些不可测量的因素，同时导致了人对尼古丁的渴求和人患肺癌。这已经不是医生第一次面对令人费解的因果问题了，医学史上的很多里程碑式的发展成果都与特定病原体的识别有关。 18 世纪中叶，詹姆斯·林德发现柑橘类水果可以预防坏血病。 19 世纪中叶，约翰·斯诺发现被粪便污染的水导致了霍乱。（后来的研究发现了二者更具体的病因：缺乏维生素C 会导致坏血病，霍乱杆菌会引起霍乱。）这些杰出的发现都蕴含着一个幸运的巧合——其原因与结果恰巧是一对一的关系。霍乱杆菌是霍乱的唯一原因；或者，用我们今天的话来说，霍乱杆菌是霍乱的充分必要因。如果你没接触过霍乱杆菌，你就不会得病。同样，缺乏维生素C 也是坏血病的必要因，而如果你缺乏维生素C 的时间足够长，那么它也将是充分因。

吸烟与癌症之关系的辩论挑战了这种单一的因果关系概念。许多人吸了一辈子的烟，却从未患肺癌。相反，有些人从不吸烟却依然患上了肺癌。他们中的一些人可能是因为家族遗传而得了肺癌，另一些则是因为接触到了致癌物，还有一些人两个方面的原因都有。

统计学家当时已经掌握了一种在更普遍的意义上确立因果关系的绝妙方法：随机对照试验。但是在吸烟的案例中，这个研究方法既不可行，也不合乎职业道德。你怎么可能让随机挑选出来的一些人吸上数十年烟，冒着很可能损害他们身体健康的风险，只为了看看他们是否会在30 年后患上肺癌呢？

如果我们用图示表示出肺癌和烟草消费的比例关系（见图1），二者的关联就是不言而喻的。但时间序列数据对于因果关系的证明是一种非常糟糕的证据。 1900年到1950年，许多其他的事情也发生了变化，它们同样有可能是罪魁祸首，比如道路铺设、含铅汽油尾气排放以及普遍的空气污染。英国流行病学家理查德·多尔在1991年说： “汽车的普及就是一个新因素，如果我必须在当时所有那些因素中挑出一个真正的致癌物的话，我肯定会把赌注下在汽车尾气或者用于铺设公路的柏油上。 ”

图1（美国人均香烟消费量（黑色曲线）和肺癌及支气管癌死亡率（灰色曲线）的变化趋势显示出了惊人的相似： 癌症死亡率曲线比香烟消费量曲线延迟了大约30年，其形状几乎是后者的复制。 然而，这种证据是间接的，不能证明因果关系。 ）

1948年，多尔和希尔进行了研究合作，共同探索癌症流行的原因。希尔作为首席统计学家，在当年的早些时候发表了一项非常成功的随机对照试验。

希尔当然知道，在对吸烟是否致癌这一问题的研究上，随机对照试验是不适用的，但是他已经认识到了对比处理组和对照组这一方法的优势所在。因此，他建议将已经被诊断为癌症的病人与由健康志愿者组成的对照组进行比较，采访每一组的成员，了解他们过去的行为和病史。为避免偏倚，他没有告知采访者其采访对象是处理组的癌症患者还是对照组的健康志愿者。

研究结果令人震惊。在649 名接受采访的肺癌患者中，除两人外其余均为吸烟者。这一结果在统计学上与随机水平相去甚远，是一件极不可能发生之事。多尔和希尔情不自禁地计算出了该结果的精确度：1 500 000∶1。此外，平均而言，肺癌患者的吸烟量也比对照组成员的吸烟量更大，但采访也显示，肺癌患者吸入烟雾的比例相对较小（注意，在之后的辩论中，费舍尔就抓住这一结果中的矛盾进行了激烈的攻击）。

多尔和希尔将“病例”（患有疾病的人）与对照组进行了比较，因此这种研究类型现在也被称为“病例—对照研究”（case-control study）。相对于时间序列数据而言，借助这种方法搜集数据显然是一种进步，因为研究人员可以控制包括年龄、性别和所接触的环境污染物等混杂因子。然而，病例—对照设计也存在一些明显的弊端。首先，它是回顾性的，这意味着我们已知研究对象患有癌症，在此前提下我们要回顾过去找出原因。其次，它的概率逻辑也是反向的，这些数据告诉我们的是癌症患者是吸烟者的概率，而不是吸烟者患癌症的概率。对于那些想知道是否应该吸烟的人，吸烟者患癌症的概率才是他们真正关心的概率。

此外，病例—对照研究承认存在几种可能的偏倚来源。其中之一被称为“回忆偏倚”：虽然多尔和希尔确保了采访者不知道其采访对象是否患有癌症，但被采访者本人肯定知道他们自己是否患有癌症，而这一事实很可能会影响他们的回忆。另一个来源是选择偏倚：已入院就医的癌症患者绝不是整个人口总体的代表性样本，甚至不能作为吸烟者总体的代表性样本。

接下来的几年里，在不同国家进行的19个病例—对照研究基本上都得出了类似的结论。但正如费舍尔毫不在意地指出的那样，一项有偏倚的研究重复19次也不能证明任何事情，它仍有偏倚。费舍尔在1957年写道，这些研究“仅仅是同类证据的重复，因此，我们有必要尝试检验一下这种研究方法是否足以得出任何科学结论”。

多尔和希尔意识到，如果病例—对照研究中的确存在隐藏的偏倚，那么仅仅靠重复研究肯定是无法消除偏倚的。因此，他们于1951年开始了一项前瞻性研究，向6万名英国医生发放调查问卷，采集关于其吸烟习惯的信息，并对他们进行追踪调查。（美国癌症协会也在同一时间发起了一项类似的、规模更大的研究。）在短短的5年里，一些戏剧性的差异就出现了。

在接受了追踪调查的医生中，重度吸烟者患肺癌死亡的概率是不吸烟者的24倍。在美国癌症协会发表的研究结果中，情况甚至更加严峻：一方面，吸烟者死于肺癌的概率是不吸烟者的29倍，而重度吸烟者死于肺癌的概率更是不吸烟者的90倍。另一方面，曾经吸烟，然后戒烟的那些人，其患病风险降低了一半。所有这些结果都表明了一个一致的结论：吸烟越多，患肺癌的风险就越高，而戒烟能降低这种风险。这是一个强有力的因果证据。医生们称此类结论为“剂量—响应效应”（dose-response effect）：如果物质 A会导致生物反应B，则通常而言（但不是百分之百），更大剂量的A会导致更强的反应 B。

前瞻性研究仍未能将吸烟者与其他各方面都相同的不吸烟者进行比较。事实上，这种比较是否可行值得怀疑。毕竟，吸烟是吸烟者的一种自我选择。在许多方面，他们都可能与不吸烟者有着基因或“体质”上的不同，比如有更多的冒险行为，更易饮酒过量等。其中一些行为同样可能会对健康造成不良影响，而这些不良影响可能被错误地归咎于吸烟。对于怀疑论者来说，这是一个特别便利的论据，因为体质假说几乎不可检验。直到2000 年人类基因组测序工程开启之后，寻找与肺癌相关的基因才成为可能。

对于体质假说，杰尔姆·康菲尔德与亚伯·利连菲尔德于1959 年共同发表了一篇论文，逐一驳斥了费舍尔的论据。康菲尔德把目标直接对准了费舍尔的体质假说，并在费舍尔的领域——数学中阐述了他的驳斥。他认为，假设存在一个混杂因子，比如吸烟基因，它完全地解释了吸烟者患肺癌的风险。如果吸烟者患肺癌的风险为常人的9 倍，那么在吸烟者中，这种混杂因子存在的概率也需要至少比常人高出9 倍，如此才能解释这种患病风险的差异。让我们思考一下这意味着什么：如果有11% 的不吸烟者携带“吸烟基因”，那么就至少有99% 的吸烟者一定携带吸烟基因。而如果有12% 的不吸烟者碰巧携带这种基因，那么从数学的角度看，“吸烟基因”就不可能完全解释吸烟和癌症之间的相关。对生物学家来说，这个被称为“康菲尔德不等式”（Cornfield’s inequality）的论证瓦解了费舍尔的体质假说。因为在现实中，我们很难想象基因方面的某个差异可以如此紧密地与某人选择吸烟这种复杂的、不可预知的行为和意愿联系在一起。

康菲尔德不等式实际上是因果论证的雏形：它提供了一种标准，让我们可以在因果图2（此种情况下，体质假说无法完全解释吸烟与肺癌之间的关联）和因果图3（此种情况下，吸烟基因的存在能充分解释我们观察到的关联）中做出裁定。

图2 （反体质假说因果图）

图3 （体质假说因果图）

尽管流行病学家早已对此问题达成了共识，但在此后很长一段时间里，吸烟与癌症之关系在公众眼中仍然存在争议。即使是本该更积极地响应科学号召的医生们也心存疑虑：美国癌症协会在1960年进行的一项民意调查显示，美国只有1/3的医生认同吸烟是“肺癌的主要原因”，而43%的医生自己就是吸烟者。

虽然我们现在可以公正地批评费舍尔的顽固和烟草公司的蓄意欺骗，但也必须承认，当时的科学家一直是在一种僵化的思想框架下开展工作的。费舍尔提倡随机对照试验，并将其视为评估因果效应的一种高效的方法，这完全没错。然而，他和他的追随者没有意识到的是，我们从观察性研究中也可以学到很多东西。这就是因果模型的好处：它能够调用研究者业已掌握的科学知识来分析新问题。费舍尔的方法实际上是在假设研究者对所要测试的假设没有预先的知识或看法。他们把无知强加给科学家，而这正是吸烟致癌论怀疑者在这场争论中乐于利用的优势。

由于科学家不具备对“导致”这个词的明确定义，也无法在随机对照试验不适用的情况下确定因果效应，因此，对于吸烟是否会导致癌症的争论，他们的准备是不充分的。他们被迫摸索着寻找一个定义，这一寻找过程贯穿了整个20 世纪50 年代。

（本文整合自《为什么：关于因果关系的新科学》）