摘要

全球医疗系统面临效率、可及性和个性化方面的持续挑战。现代人工智能(AI)在通过精确的预测建模解决这些问题方面展现了潜力,但其影响仍受到临床工作流集成有限的制约。得益于现代AI技术,如多模态大语言模型和世界模型,具身人工智能(EmAI)代表了一种变革性的前沿,提供了增强的自主性和与物理世界互动的能力,以应对这些挑战。作为一个跨学科且快速发展的研究领域,“医疗领域中的具身人工智能”涵盖了算法、机器人技术和生物医学等多个领域。这一复杂性凸显了及时综述和分析的重要性,帮助追踪进展、解决挑战并促进跨学科合作。 本文提供了关于医疗领域中具身人工智能“核心”的全面概述,其中我们介绍了感知、执行、规划和记忆等基础AI算法,并重点介绍了涵盖临床干预、日常护理与陪伴、基础设施支持以及生物医学研究等方面的医疗应用。这些重要进展有望推动个性化护理、提高诊断准确性并优化治疗效果。尽管具身人工智能在医疗领域展现了巨大的潜力,但其发展仍面临诸如安全性问题、仿真平台与实际应用之间的差距、缺乏标准化基准以及跨学科领域进展不均等关键挑战。我们讨论了技术障碍并探索了伦理考虑,提供了对未来医疗领域中具身人工智能的前瞻性视角。本文还提出了一个用于具身人工智能系统的智能层次框架,以指导进一步发展。通过提供系统化的见解,本研究旨在激发创新和实际应用,为智能化、以患者为中心的医疗新时代铺平道路。

关键词 — 具身人工智能;多模态;医疗保健;大语言模型;世界模型

I. 引言

医疗服务在促进人类福祉方面发挥着基础性作用,但仍面临着持续的挑战,包括获取不平等 [1]、护理交付的低效率 [2],以及日益增长的个性化解决方案需求以应对复杂的医疗问题 [3], [4]。这些问题主要源于医疗资源的有限性和不均衡分布 [5],以及治疗方法的不够先进 [6],常常导致治疗延误、治疗不充分,或甚至过度治疗,从而加剧患者的病情 [7]。在当前的临床工作流中——主要依赖有限的临床基础设施、医护人员和护理人员——这些挑战仍然难以彻底克服。为了解决这些问题,已经实施了多种举措,例如远程医疗服务 [8], [9]、自动分诊系统 [10], [11]、AI辅助的健康监测 [12]、以及医学影像分析 [13], [14],这些举措提高了医疗获取的精确性和效率,同时推动了医疗领域的持续变革。然而,它们仍未能在现有的临床工作流中提供直接支持。 人工智能(AI)技术,特别是深度学习方法,正在为医疗实践引入新的“劳动力”,推动着医疗领域的持续变革 [15]–[21]。这些方法从多个中心、设备、场景、患者和时间点收集的广泛医疗数据中学习医学和诊断知识,利用电子健康记录(EHRs)、基因组序列、健康监测信号和医学影像等数据执行高级临床预测建模 [22], [23]。这使得早期诊断成为可能 [24],促进个性化治疗建议的形成 [25],发现人类难以察觉的细微病症 [26],并推动生物医学研究的进展 [27],共同提高了医疗服务的效率和质量。 然而,现代AI技术向实际临床利益的转化仍面临至少四个根本性挑战:(I)多模态处理不足。当前的AI系统主要依赖于视觉、语言和音频等常见模态,但通常缺乏处理触觉感知和嗅觉信号的能力,这两者在医疗中既复杂又至关重要。缺乏对这些较少探索模态的整合,限制了AI在应对临床任务和患者护理多方面问题中的有效性。(II)开发与部署的分离。当前的深度学习框架通常在开发和推理阶段之间有明显的分离,这阻碍了它们在实际临床环境中的持续演变。这种僵化的分离延迟了适应动态临床需求和不断变化环境的进程,最终限制了系统的持续自我改进能力。(III)人机交互功能不足。与患者和医护人员的有效互动对于提升患者体验甚至改善治疗结果至关重要。虽然先进的对话AI系统,如ChatGPT和GPT-4,展示了出色的互动能力,但它们通常未能与治疗目标对接,也没有扩展到行为互动层面。此类互动需要高级推理、强大的记忆保持能力和基于经验的适应能力。尽管近期研究已强调语言在治疗中的变革潜力 [28],但AI系统的语言和互动行为如何在临床结果上产生积极影响——特别是在心理健康治疗领域——仍未得到充分探索 [29], [30]。(IV)从决策到行动执行的路径缺失。没有具身于机器人或辅助设备中的AI系统,无法直接减轻医护人员和护理人员的工作负担。虽然当前的深度学习模型能够提供准确的诊断和决策支持,但很少将这些洞察转化为可执行的诊断或治疗干预措施。此外,在执行这些干预时确保安全,并保持与既定临床工作流的无缝整合,依然是需要紧急解决的关键挑战。 具身人工智能(EmAI)作为一种应对这些医疗挑战的有前景的方法正在崭露头角 [31]–[36]。通过将AI算法,尤其是多模态大语言模型(MLLMs)和世界模型,与机器人技术、机电一体化、人机交互和传感技术的创新结合,EmAI为AI算法提供了一个物理“身体”或有形介质,使其能够与世界直接互动 [37]。AI算法负责执行感知、行动控制、决策制定和记忆处理,确保EmAI系统的无缝运行。近年来,AI算法的若干突破显著推动了EmAI的发展。例如,无监督学习使得AI能够从海量数据中提取基础知识,而无需人工监督 [38]–[42];互动感知学习 [43] 使得EmAI系统能够理解物体的因果关系,并评估与不同物体互动的可能性和可行性 [44];跨模态融合技术已经广泛发展,能够整合并利用来自不同源的信息 [45], [46];深度强化学习使得AI系统能够通过环境反馈学习最优行为 [47]–[52];大语言模型(LLMs) [53]–[57]、多模态大语言模型(MLLMs) [58]–[63]、视觉-语言-行动(VLA)模型 [64]–[67],甚至世界模型 [68]–[70] 的进展,使得AI系统在沟通能力、推理能力和行动规划能力上得到了显著提升,尤其是在导航和操控等任务中 [71], [72]。得益于这些成就,“EmAI大脑”的发展和可用性得到了显著提升,使得在动态医疗环境中发挥作用的EmAI系统变得更加复杂、适应性强和具备上下文感知能力。 EmAI的进展正在推动各个领域的变革性应用,其中医疗保健作为领先领域,占据了该领域约35%的研究工作量 [27], [74],如图1(a)所示。显著的例子包括外科机器人 [75] 和陪伴机器人 [76],这些技术正在变得越来越普及。图1(b)展示了EmAI在医疗关键领域的显著增长,包括生物医学研究、基础设施支持、日常护理与陪伴以及临床干预。值得注意的是,2024年的总发表数量是2019年的近七倍,临床干预研究在这些领域中显示出了最快的增长,同时保持了较大的份额。这些成就得益于来自多个学科的知识融合。如图1(c)所示,关键词共现网络展示了各领域之间密集的相互联系,强调了跨学科合作在革命化医疗保健中的关键作用。来自基础模型、大语言模型、计算机视觉、认知科学、社会学和机器人技术的突破性贡献共同塑造了EmAI在医疗领域应用的未来。基于这些研究成果,EmAI正在通过提升患者护理和操作效率,深刻地改变医疗保健。它使得机器人诊断 [77]、精确外科干预 [78] 和个性化康复治疗 [79] 成为可能,不仅简化了医疗工作流程,还提高了健康结果和减少了恢复时间 [80]。除了临床应用,EmAI还为脆弱群体如儿童、老年人以及慢性病患者提供了有意义的陪伴 [81] 和情感支持 [82],从而减轻了医疗提供者的负担。此外,EmAI通过自动化实验过程和分析大规模数据集,重新定义了生物医学研究,使研究人员能够以前所未有的速度生成洞察和进行实验。这些进展加速了医学机制 [83]–[85]、治疗靶点 [86], [87] 和疾病预防策略 [88], [89] 的发现,推动了生物医学领域的创新。 尽管EmAI在医疗领域取得了显著进展 [35], [90]–[96],但其发展仍处于初期阶段,并面临多个挑战。目前的研究通常集中在EmAI的孤立组件上 [80], [97], [98],如开发先进的算法 [99], [100]、改进工作流程 [101], [102] 或整理数据集 [103], [104],却未能将其整合为完整的系统。要实现EmAI的全部潜力,跨学科的合作至关重要,能够弥合这些碎片化的贡献,构建起一个完整的端到端解决方案。此外,研究大多集中在外科机器人等高调应用上 [77], [78], [105]–[110],而其他有前景的领域,如心理健康干预 [91], [92],仍然未得到充分探索。这种关注的不平衡限制了EmAI在满足不同医疗需求方面的广泛影响。此外,尽管陪伴机器人显示出潜力,但大多数仍为反应型而非主动型 [81],限制了它们自主预测并满足患者需求的能力 [111], [112]。同样,生物医学研究机器人在保持精度和可靠性方面面临困难,特别是在医学研究的复杂动态环境中。 此外,EmAI在医疗领域的开发仍面临显著的技术挑战。首先,EmAI的开发通常在仿真平台上进行,但这些平台往往未能准确复制现实世界的环境。这一差异使得弥合仿真与现实应用之间的差距成为重大挑战。此外,由于EmAI系统可能直接与现实世界互动,确保安全变得尤为重要,尤其是在医疗任务中 [113]–[115]。其次,尽管EmAI系统依赖于大规模数据集,但获取大量、符合伦理、特定领域的现实世界医疗数据受隐私法规和复杂临床工作流的限制,成为了开发医疗特定EmAI的重大障碍。其他挑战,如伦理问题 [116]–[119] 和经济社会影响 [120], [121],也亟待解决。 鉴于EmAI对患者和医疗专业人员的巨大潜力和诸多好处,以及存在的挑战,及时总结这些方面对于推动该领域发展和促进跨学科合作至关重要。在本综述中,我们总结并讨论了EmAI在医疗保健中的最新应用,突出可能显著影响患者结果和医疗实践的关键因素。第二部分简要概述了支撑“EmAI大脑”的技术,涵盖四项基本能力:感知、执行、规划和记忆。尽管我们并不深入探讨EmAI的技术基础(有关技术综述,请参见 [65], [122], [123])或其在机器人学中的一般应用(参见 [37], [124], [125]),我们首次提供了以医疗应用为中心的EmAI综述,特别是临床干预、日常护理与陪伴、基础设施支持和生物医学研究(在第三部分讨论)。我们还总结了这些应用的进展和局限,并通过来自各医疗领域的实例,将EmAI划分为五个智能水平(见第四部分)。该框架旨在帮助研究人员和从业人员理解EmAI在医疗中的演变和发展阶段。第五部分总结了不同医疗场景的数据集和基准,挑战和机遇则在第六部分进一步讨论,旨在引导研究人员探索未来相关领域、应用和数据基础。

成为VIP会员查看完整内容
4

相关内容

《医学中的生成式人工智能》
专知会员服务
36+阅读 · 2024年12月16日
《大语言模型的数据合成与增强综述》
专知会员服务
40+阅读 · 2024年10月19日
《面向军事应用的神经符号人工智能》
专知会员服务
28+阅读 · 2024年8月22日
《解码人工智能的结构性风险动态》
专知会员服务
34+阅读 · 2024年7月13日
《生成式人工智能模型:机遇与风险》
专知会员服务
73+阅读 · 2024年4月22日
《应对人工智能系统测试和评估新挑战的最佳实践》
专知会员服务
80+阅读 · 2023年8月7日
《量子技术中的人工智能和机器学习》
专知会员服务
39+阅读 · 2023年3月14日
【综述】医疗可解释人工智能综述论文
专知
33+阅读 · 2019年7月18日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Arxiv
162+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
423+阅读 · 2023年3月31日
Arxiv
69+阅读 · 2023年3月26日
Arxiv
152+阅读 · 2023年3月24日
Arxiv
21+阅读 · 2023年3月17日
VIP会员
相关VIP内容
《医学中的生成式人工智能》
专知会员服务
36+阅读 · 2024年12月16日
《大语言模型的数据合成与增强综述》
专知会员服务
40+阅读 · 2024年10月19日
《面向军事应用的神经符号人工智能》
专知会员服务
28+阅读 · 2024年8月22日
《解码人工智能的结构性风险动态》
专知会员服务
34+阅读 · 2024年7月13日
《生成式人工智能模型:机遇与风险》
专知会员服务
73+阅读 · 2024年4月22日
《应对人工智能系统测试和评估新挑战的最佳实践》
专知会员服务
80+阅读 · 2023年8月7日
《量子技术中的人工智能和机器学习》
专知会员服务
39+阅读 · 2023年3月14日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员