编译 | 俞正秋
本次报道的论文来自DECIDE- AI指南制定指导小组发表在nature medicine上的文章“DECIDE-AI: new reporting guidelines to bridge the development-to-implementation gap in clinical artificial intelligence”。这篇研究主要叙述了随着越来越多由人工智能驱动的临床决策支持系统从开发进展到实施,需要制定相关指南以提供更好的指导。
近年来,医学文献发表的人工智能(AI)算法数量呈指数级增长,但是AI用于临床对患者预后结局的影响仍有待证实。对此一种解释认为,由于现有AI临床决策系统过分强调算法的技术层面,而缺乏对人类用户互动因素的关注所导致。临床医生主导并可能继续主导患者治疗的核心角色,所以,应该把重点放在基于人工智能临床算法的开发和评估增强上而不是放在取代人类角色上。基于人工智能的临床决策支持系统对传统的医疗决策过程提出了独特的挑战,例如它们经常缺乏可解释性(所谓的“黑箱”问题),或者它们有时会产生意想不到的结果。因此,在以人为中心设计和评估算法的同时,将算法开发与临床应用相结合是一项复杂的任务,当前也缺乏相应的指南。
在算法开发/验证(即将发布的TRIPOD-AI声明和STARD-AI声明)和评估人工智能干预的大规模临床试验(CONSORT-AI声明)中间阶段,即临床试验早期阶段和小规模临床评估阶段,我们为该阶段AI的应用提供了充分的依据。以下四个关键论点阐述了制定该指南的充分性和必要性。
人类的决策过程是复杂的,并且受到许多干扰因素影响。即使在模型的指令下,也无法期望人类用户会完全遵循算法提出的建议行动,尤其是用户们仍然需要对他们的决策负责的情况下。为了能准确评估算法的性能,并且避免在与人类用户交互不充分的条件下便开始进行大规模的昂贵的试验所造成的浪费,在试验早期评估算法对用户决策的实际影响是至关重要的。此外,应考虑普通人群和目标患者人群之间的差异,需要在目标人群临床环境中评估算法辅助人类决策的效果和可行性,并且对结果进行报告。
因为用户不会完全依照算法提出的建议做出决定,所以对其安全性的测试也非常重要,新算法不仅要在计算机上测试,还要测试在人类决策时所产生的影响。跳过这一步直接进入大规模试验会让相当多的患者面临未知的伤害风险,这在伦理上是不可接受的。例如在药物试验研究的粗浅阶段,由于不严格的安全标准导致了灾难性的后果,同样的错误不应该在临床人工智能领域重复。
人的因素(人机工程学)应该尽可能在早期反复评估。技术需求通常随着决策系统开始被使用而逐渐发展,并且用户对决策系统的期望也是随时间发生变化。从经济角度来看,越早对人的因素进行评估,成本效益就可能越高。最后在大规模试验期间,对试验设计进行反复修改是困难的和不合适的。由于测试的干预措施已经在试验中发生了改变,这样做会导致最终研究结论无效的严重后果。
大规模临床试验是一项复杂且昂贵的工作,需要精心准备。一个经过深思熟虑的试验设计对于生成有效且有意义的结论是必不可少的,并且需要关于被评估的干预措施的背景信息。然而,并非所有的背景信息都可以从计算中推断,一些背景数据必须在小规模的前瞻性研究中收集。例如,试验的最佳效果和预期效果、对象的最佳纳入和排除标准、用户对算法的信任度变化以及采用决策支持的最佳时机是研究者在起草试验方案时应当明确的关键信息,这些信息可以从早期可行性评估中获得。其他需要考虑的重要因素,比如如何最佳输出算法结果并将该结果传达给患者,也可以在此阶段进行研究。
我们相信,对这些方面进行清晰而透明的规定不仅可以避免不必要的伦理伤害和研究浪费,还在AI从一项潜力技术变成现代循证医学一部分的转变过程中扮演关键角色。这也是我们启动Delphi方法制定DECIDE-AI的原因。人工智能决策指南的创建将是一个公开透明的过程,我们欢迎任何对此有兴趣并希望做出贡献的专家加入。
参考资料 Vasey B , Clifton D A , Collins G S , et al. DECIDE-AI: new reporting guidelines to bridge the development-to-implementation gap in clinical artificial intelligence[J]. Nature Medicine, 2021:1-2.