频率学派与贝叶斯学派是数理统计学中的两大学派。从20世纪初数理统计学发展开始,一直到20世纪中叶,频率学派一直占主导地位。20世纪中叶以后,贝叶斯学派迅速发展壮大,逐渐可以与频率学派分庭抗礼。传统的药物开发主要使用频率统计方法 (frequentist statistical methods) 来进行新药评估和监管。然而,在目前药物开发过程积累了大量数据的情况下,贝叶斯方法非常适合将这些数据进行整合,纳入临床试验设计、分析和决策制定。使用贝叶斯方法可以缩减新药的开发时间和成本,并减少新药在临床使用中的无效治疗或危险治疗。但是,目前贝叶斯方法在临床新疗法的开发和审批中仍未得到充分利用。在2023年2月15日,发表在Nature Reviews Drug Discovery的一篇综述中,研究人员重点论述了贝叶斯方法在新药开发中的价值,并讨论了目前实际应用中存在的问题及解决方法。
前言
1962 年,美国食品药品监督管理局 (FDA) 批准了安全性和有效性的实质性证据的监管要求,并将其编入美国法律。实质性证据要求根据频率统计方法,在相同或高度相关的医疗条件或患者人群中开展两次独立重复试验并进行独立分析,然而其检验方法 (如零假设显著性检验和p值) 都是源于惯例而不是法律或其他法规和指南。随着公共卫生需求和药物开发方向的改变,人们越来越关注罕见病和常见疾病的分层,同时积累了大量临床实验数据。频率论方法并不能很好地将这些数据利用起来,而贝叶斯方法提供了一种直观但可靠严谨的定量方法,用于将来自不同来源的数据纳入新的临床试验设计中,同时恰当地反映和检查原有假设。贝叶斯方法可以在减少临床试验参与者的同时有效证明临床新疗法的有效性和安全性。16 年前,Berry概述了贝叶斯方法在临床试验中的应用,并呼吁扩大其使用范围,同时预测其将加速药物开发和批准。尽管FDA在应用贝叶斯方法审查和批准医疗器械方面取得了很多进展,但在新药和生物制品的主流开发中,贝叶斯方法仍然缺乏有效应用,其主要原因包括对这些方法缺乏熟悉以及对使用它们产生的证据的接受度相关的不确定性。
本文首先概述了贝叶斯推理和决策制定的原则及其与频率论方法的对比,并讨论了在临床研究中使用贝叶斯方法的各种示例。进一步,本文探讨了贝叶斯方法应用目前存在的问题,并提出了一个框架判断在不同场景中如何选择使用贝叶斯方法或频率论方法。最后,本文为贝叶斯方法纳入临床药物开发和监管决策提供了建议。 贝叶斯推理与决策原理频率论方法和贝叶斯方法之间有两个基本区别。第一个(如图1所示) ,频率论方法在单个实验中进行假设描述,而贝叶斯方法综合本实验或其他来源的信息以对假设是否为真做出概率描述。其次,更重要的是,贝叶斯统计与频率统计的区别在于其提供直接的证据来回答被研究的问题。通常,频率论方法会根据数据 (D) 假设某些特定假设 ( H) 为真,标注为P(H| D)。这个概率称为p值。频率假设检验只能提供间接的回答,因为人们假设零假设为真,直到在充分的科学实验或临床试验中观察到反驳该假设的数据才否定假设。相比之下,贝叶斯统计可用于直接回答所研究的问题,方法是在给定关于假设的先验证据 (D0) 与当前实验的累积数据 (DN ) 的情况下,确定指定假设为真的可能性有多大,注释为P(H | D0,DN )。这种方法为回答研究问题提供了直接证据。
图 1:贝叶斯和频率论方法的比较。频率论方法评估来自单个新实验的证据,通常使用p值作为判断假设真假的衡量标准。贝叶斯方法以先验概率 (P0) 的形式量化关于假设 ( H ) 的先验知识( D0 ),然后将其与新实验 (DN) 的证据相结合以计算后验概率概率 ( P1) 关于该假设的真实性概率。后验概率可以作为输入进行循环,以形成后续实验的先验概率,从而创造一个关于假设的综合科学认知循环。
先验分布
贝叶斯分析的第一步是定义参数的先验概率分布,人们会根据之前观察到的数据对其进行推断——因此称为“先验”。决定在贝叶斯分析中使用哪些先验数据来对治疗效果进行有效评估的因素有很多,比如:数据的来源和质量、与新实验的同步程度、收集数据的临床环境,以及与患者群体相关的许多其他特征参与和正在考虑的治疗管理。或者可以定义一组先验分布,它们代表合理的治疗效果可能性范围,如下面讨论的示例和图 2a 所示。
图 2:贝叶斯临床试验中的先验分布。a, 当使用风险比 (RR) 或任何其他比率(例如风险比或相对风险)时,值为 1 表示治疗结果没有差异。b,用于贝叶斯分析的先验概率分布示例。每条曲线代表先验分布的一个不同示例。“无效果”点表示治疗和对照之间的结果没有差异。这可以是治疗反应(均值或比例)的差异为零,也可以是比率(相对风险、风险比)为 1。
先验分布可以是对称的或偏斜的、丘状的、双峰的或平坦的,具体取决于可用数据或有关参数的其他信息,并且有许多方法可以定义它们。 定义了先验分布以后,下一步就是赋予该先验分布相应的权重。如果用于创建先验分布的数据很少、不一致或仅与当前研究有间接联系,则相对于观察到的数据,先验分布的权重较小。相比之下,如果用于创建先验分布的数据与当前临床试验密切相关,则赋予该先验更大的权重。
后验分布
后验概率分布描述了作为当前实验结果的一系列可能的治疗效果估计值,并通过结合先验概率分布和新收集的数据的信息进行数学推导。从概念上讲,它是当前实验之前已知信息和当前实验观察到信息的加权平均值,其中权重取决于先验分布(它的信息量)以及当前实验中的样本大小和可变性(小样本量和更大的可变性带来更小的权重)。后验分布的峰值位于先验分布的峰值和观测数据的估计分布之间(图3a )。但是,错误或有偏差的先验可能会使观察到的数据与真正的治疗效果相去甚远。
图 3:贝叶斯临床试验中的后验分布。a , 治疗效果参数的后验分布是对治疗效果不确定性的描述。它是从治疗效果的先验分布和观察数据的估计概率分布中统计得出的。b, 治疗效果参数的后验分布(此描述中的风险比)对治疗效果不确定性进行描述。95% 可信区间具有上限和下限,因此真实风险率有 95% 的概率位于这些界限之间。后验分布可用于根据后验分布曲线下的面积(如不同垂直线所示)计算关于风险比的直接概率描述。在这种情况下,<1 的风险比表示治疗有效(深灰色线),各种其他风险比值可用于辨别具有临床意义的治疗效果(蓝线)或治疗效果的可能性优于竞争对手(红线)。有多种贝叶斯方法可用于组合先验数据和观测数据,有些方法会根据先验分布与当前实验的一致性来调整使用先验分布。借用哪些先前的数据或信息以及对计划临床试验之外的借用数据赋予多少权重是需要与监管机构一起进行认真讨论确定的。这部分将在随后更详细地讨论。 定义了后验分布后,就可以使用后验分布曲线下面积直接与治疗效果(或其他感兴趣的参数)相关的概率进行描述(图 3b)。
应用实例
低温治疗
多项临床试验已经证明,在出生后 6 小时内对缺血缺氧性脑病新生患儿进行低温治疗是有益的,但这种快速干预在实际操作中存在困难。因此,准确评估出生 24 小时内低温治疗的时间点对于指导临床治疗具有重要意义。由于这是一种罕见病,无法使用传统的频率论方法进行随机对照试验 (RCT) 。而贝叶斯方法可以有效解决这一问题,根据历史病例信息设置的三个先验分布,计算结果表明在出生后 6-24 小时进行低温干预治疗相比于非低温治疗在18–22 月龄时具有更好的临床表现。此外,贝叶斯分析所产生的后验分布评估了治疗效果,可以更加有效的指导临床治疗。这项研究的贝叶斯分析表明,在死亡率或中度至重度残疾降低2%的临床意义下,低温治疗达到这个治疗目标的概率为64%。 COVID-19 疫苗
2020 年初的新冠大流行凸显了疫苗的重要性,然而如何评价一款疫苗的有效性和安全性一直存在争议。FDA发布的统计标准从公共卫生的角度来看对于遏制病毒的传播没有起得相应的作用。因此,针对新冠的流行迫切需要合适的统计标准来量化评价疫苗的真实效果。辉瑞和 BioNTech赞助的一项用于预防新冠的BNT162b2 mRNA 疫苗试验使用贝叶斯统计计算后有效率为> 99.99%,远大于98.6% 的成功标准。这种极具说服力的数据即使使用频率论方法也能得出同样的结论。贝叶斯方法的优势之一就在于它提供了一种简便易懂的方式在某种确定水平来量化疫苗的公共卫生价值。 有效使用贝叶斯方法的示例
本节主要讨论贝叶斯方法在药物开发方面的优势。 1、提供实质性证据
在新药的开发过程中,监管机构要求通过可重复性研究来证明药物的有效性和安全性。 贝叶斯方法在按顺序研发新药时可以保证在一定科学可信度的情况下减少研发时间和成本并产生大量可用的实质性证据。以III期临床实验为例,贝叶斯方法可以在规模更小但成本更高的试验中确认新疗法的有效性,同时可以更高效地使用整个临床开发计划来搜集关于新疗法安全性的证据。 其次,在新药开发中,贝叶斯方法提供了一种包含更多信息量的量化方法来描述新药的潜在风险,这种量化方法通常不适用于频率论方法中的零假设检验方法。 进一步地,贝叶斯方法还可以更恰当地使用临床试验中产生的数据。尤其是对频率论方法中没有达到显著性统计结果而被认为“失败”的试验数据。贝叶斯方法可以根据这些数据调整制定“成功”的标准。最后,对于有条件或加速批准上市的新疗法,后续实验在获批后很难完成,而贝叶斯方法可以提供一种更低风险的监管方法从而避免大规模和高成本的后续实验。 2、使用另外的对照组补充数据
贝叶斯增强对照设计使研究人员能够通过合并或借用历史研究中的对照组信息来补充数据。例如在罕见病中,通过借用历史数据中的对照组来实现在保证检测效果的基础上减少试验所需的参与者数量,需要注意的是,根据研究类型的不同研究人员需要对外部来源的数据进行严格筛选以减少偏差。 3、贝叶斯分层模型
贝叶斯分层模型和频率分层模型都可以评估数据中不同的变化来源,并在多个分析水平上考虑变量。此外,在某些假设下,这些方法还允许借用外部数据。这在研究跨组别之间的治疗效果时特别有用。目前贝叶斯分层模型已用于各种药物开发和安全性评价。此外,还可以使用外推法进行推断,当有来自先前试验的数据并且被确定为相关时,可以应用贝叶斯方法进行外推以允许将先前知识包含在未来的研究中。 4、影响临床试验决策****
贝叶斯方法可以多种方式用于加速正在进行的临床试验进程,包括中期临床试验监测和决策、效用分析和样本量重估。使用贝叶斯方法监测试验进程有助于评估积累的数据并进行适当的修改。此外,贝叶斯方法还可以用于主方案的设计和分析,包括篮式试验,伞式试验和平台试验,这类应用通常涉及适应性特征和贝叶斯决策规则。贝叶斯方法在临床试验应用中的灵活性对于监管机构和其他试验相关方收集临床证据非常重要。
贝叶斯方法应用的障碍
贝叶斯方法在整合外部数据时需要得到试验相关各利益方的同意,包括发起人、监管机构、统计学家和临床医生。其中存在许多的技术性障碍和社会性障碍。本节重点介绍了贝叶斯方法现在的应用障碍及其解决方案。 贝叶斯方法在药物开发中没有得到充分利用的一大原因是计算机的算力不足,无法承担大量的计算。而随着计算机技术和统计理论的发展,这一问题已经得到很大程度地缓解。此外,监管机构和研发人员缺乏对于贝叶斯方法的接受度和熟悉度,并且缺少相关的有经验的指导,尤其是在三期临床试验中。目前这种现象已经形成一个恶性循环,监管机构无法接受这种不成熟的试验新方法,而研发人员由于监管的不确定性而不愿尝试这种新方法。针对这一现象,可以通过临床试验史上的成功案例来为当前案例提供信息参考。此外,在临床实验中采用自适应性设计可以有效提高试验设计的可信度。 本文的目的之一就是通过与频率论方法进行对比提高相关研究人员对于贝叶斯方法的认识。尽管 FDA 分别在 2010 年和 2016 年发布了在医疗器械临床试验中关于贝叶斯统计的使用指南,但是仍然缺乏对于药物和生物制品的监管指南。 最后,需要考虑使用贝叶斯方法的经济成本,使得临床试验中的付款方提高对于贝叶斯方法的认识度。总的来说,尽管每组利益相关者都有不同的动机和关注点,但对贝叶斯方法缺乏熟悉是一个共同的基本主题,在更频繁地使用这些方法之前,必须为大量利益相关者解决这一问题。 如何选择使用贝叶斯方法
在进行临床试验时,究竟是使用频率论还是贝叶斯方法没有固定的答案,实际上这两种方法是并存的(如图1)。无论是频率论方法还是贝叶斯方法,他们都需要假设和模型,然而我们永远无法知道他们的准确性,因为我们所有的分析都存在一定的主观性和偏差。但是,当外部数据和当前实验数据相结合时,贝叶斯方法结合先验知识可以对决策产生有用的帮助。因此,本文提出了一个标准流程来帮助研究人员在临床试验时决定选择使用贝叶斯方法或是频率论方法(图4)。在这之前研究人员应当确定所研究的问题及其所需的全部数据;其次,研究者应确定是否存在与研究问题相关的外部信息。例如III 期验证性研究时的相关信息可以是来自 II 期研究的数据,但是要认真考虑两次研究之间被研究人群的相似性或差异性,还有研究的不同地理位置、不同阶段之间可能发生的配方或剂量变化、主要治疗效果的变化、III 期试验通常持续时间更长等等。此外,还需要考虑II期临床数据和III期临床数据之间的误差。最后,来自电子病历、医疗索赔数据库或其他此类真实环境的观察数据虽然有参考价值但由于其不受控制的性质和可能存在相当大的偏差,因此必须谨慎使用。 图 4:用于确定频率论或贝叶斯方法是否最适用于实验假设检验的设计、分析和解释的推荐分步过程。信息可能包括定量数据、定性知识(例如关于生物机制的理论)或其他主观输入(例如专家意见)。 紧接着,研究人员应明确评估外部数据是否可以纳入,从而进行全面总结并对治疗效果进行无偏差的合理估计(图 4)。如果外部数据合适,研究人员应确定哪种方法(贝叶斯方法或频率论方法)最适合这种情况,包括使用额外的敏感性分析来测试假设对结论的影响。如果没有足够的先验知识,那么应当选择频率论方法或弱信息先验。尽管基于频率论方法和具有弱信息先验的贝叶斯方法结果可能会得出相似的结论,但我们建议使用贝叶斯方法,因为它的后验概率可以直接证明前述的假设。此外,贝叶斯方法通常更适合自适应和其他复杂的创新设计、处理缺失数据、复杂建模等。 行动建议
贝叶斯方法是一种重要但没有被充分利用的工具,它可以充分利用先验知识来证明药物的安全性和有效性。在可靠的科学依据支撑下,贝叶斯方法可以加速药物研发并在减少参与临床试验的受试者数量的同时,为危重患者提供早期临床治疗的机会,而这些特点并不会影响药物研发的严谨性。为了进一步推动贝叶斯方法的广泛应用,我们提出如下建议。 1 加强沟通和知识交流
行业团体和监管机构应积极使用贝叶斯方法公布最新的发现,并定期将其传达给参与药物开发的相关人员,提高大家对贝叶斯方法的熟悉度和使用经验。 2 增加透明度
提高贝叶斯方法设计和分析的透明度有助于提高相关人员对于使用贝叶斯方法的信心。而公开共享算法可以增加使用人员对于贝叶斯方法的理解。监管机构和药物研发机构应该对这些活动给与增加提供支持。 3 建立信任体系
为了进一步减少相关人员对于贝叶斯方法的误解,监管机构和研发机构应该面对公众展开对于贝叶斯方法的使用讨论。可以创建一个 FDA 咨询委员会,该委员会就如何确定相关的先验分布和在药物开发试验中使用贝叶斯方法提供建议并制定具体指南。在药物开发中使用该指南将为行业和 FDA 工作人员提供有效的帮助。最后,已有的贝叶斯设计和分析方法的原则和标准可以作为进一步构建贝叶斯方法使用信任体系的基础。 4 构建培训体系
对监管者和临床工作人员进行贝叶斯方法的使用培训可以增加相关人员对于贝叶斯方法的熟悉度,增加贝叶斯方法的应用范围。 5 保持开放的态度
监管机构要以开放的态度来对待贝叶斯方法在药物开发中的使用,从而使得贝叶斯方法的应用更加规范化。而研发机构在使用贝叶斯方法时应当仔细考察全部的数据来检查假设,避免重大偏差的产生。
结论本文的一个核心观点是,在公共卫生需求和药物开发不断发展的今天,频率论方法并不一定适合所有的临床试验评估。在相关知识、科学理解和数据的大量积累下,频率论方法可能加重患者、研发机构和监管机构的负担。研究人员在提出和设计任何新研究时,无论是实验室阶段还是临床试验阶段,都可以使用贝叶斯方法来提高研发和监管效率。如上所述,贝叶斯方法已经在药物研发阶段被用于关键数据的分析和解释,如确定 COVID-19 疫苗的功效。与频率论方法相比,贝叶斯方法仍然受到常规思维的限制而使用频率较低。但是贝叶斯方法在认识和解释问题上具有一定的优势,贝叶斯方法直接提供了对于研究假设的真实性的概率而不是通过p值提供间接的证明。总而言之,本文希望促进关于“什么是安全性和有效性的实质性证据”的讨论来推动贝叶斯方法的推广和使用,而贝叶斯方法的使用可以加速新药研发进程,减少临床试验参与者数量,并为危重患者接受早期治疗提供有力的工具。参考资料: Stephen J Ruberg et al.Application of Bayesian approaches in drug development: starting a virtuous cycle.Nat Rev Drug Discov. 2023 Mar;22(3):235-250. doi: 10.1038/s41573-023-00638-0. Epub 2023 Feb 15. --------- End ---------