清华袁洋：AI+医疗的可解释性其实被古代中医研究了很多年

2022 年 4 月 29 日 THU数据派

  
  
    
   
   
     
    
    
      
     
     
       
      
      
        
       
       
          
          来源：智源社区 
         
      
      
        
     
     
       
    
    
      
   
   
     
  
  
    
  
  
    
   
   
     
    
    
      
     
     
       
      
      
        
       
       
          
            本文为约3558字，建议阅读7分钟 
           
           本文介绍了 
           清华大学交叉信息学院助理教授袁洋对AI+医疗的可解释性问题的探讨。

可解释性，是深度学习科研人员一直以来面临的问题。

未曾想，在漫长的历史岁月中，中医们也在面临着类似的问题。中医没有基于现代统计学的临床数据做支撑，在诊断过程中，医生们不得不以黑盒的方式做诊断，用望闻问切的数据作为输入，把最后的诊疗方案作为输出，中间则是根据实际临床数据做拟合。

从这个意义上讲，其黑盒的性质似乎和神经网络异曲同工。

袁洋，清华大学交叉信息学院助理教授。2012年毕业于北京大学计算机系，2018年获得美国康奈尔大学计算机博士学位，师从在线学习与强化学习理论专家Robert Kleinberg教授。2018-2019年前往麻省理工学院大数据科学学院（MIFODS）做博士后，师从Locality-sensitive Hashing算法的提出者Piotr Indyk教授和机器学习鲁棒性专家Aleksander Madry教授。袁洋博士主要研究方向是智能医疗、AI可解释性、AI大系统。

01. 辅助诊断中的可解释性问题

目前，人工智能技术在手术机器人、医疗影像分析、医疗决策、个人就诊助手等场景下得以广泛应用。实现更加智能化的计算机辅助诊断（CAD）、为医生提供更准确的决策依据，是广大「AI+医疗」从业者梦寐以求的目标。然而，医疗健康应用关乎于用户生命安全，对于模型可解释性的要求颇高，人们期待人工智能应用在做出决策的同时也能给出相应的依据和解释，这对当前的深度神经网络模型提出了巨大的挑战。

相较于医疗影像分析（分割、配准、分类等），辅助诊断与决策而言对于可解释性的要求更高。智能化医疗影像分析的目的往往是为了提高医生的效率。例如，帮助医生快速地处理数十层、数百层的 CT 影像，更多的是对图像的一种诠释，解释难度较小。

但是在辅助诊断与决策场景下，「采用何种治疗方案」，「开什么药」、「开药的剂量」等诸多环节都涉及到可解释性的问题。遗憾的是， 为这种类型多模态数据提供可解释性仍然是学术界、工业界的一大难题 。

近年来，归因分析技术在深度学习可解释性研究领域较为流行，此类技术研究的是输入数据维度的可解释性。例如，由于看到了「猫耳朵」和「猫尾巴」就能够识别出输入图片中的猫，这些由像素组成的图块更具有解释性。

但是，对于患者的诊断决策结果来说， 不仅需要数据输入维度上的可解释性，还需要理解不同维度之间的相互作用 。输入级别能够提供的可解释性较为有限，我们往往还要考虑更抽象的相关性。例如，在用药之后血糖升高的同时某个其他指标下降了。

因此，AI 系统的可解释性成为了制约辅助诊断的重要因素，涉及到数据收集困难、算法设计瓶颈等方面。研究者们试图通过各种手段赋予 AI 系统可解释性，比如解释神经网络的高层语义、构造可解释的概念，上海交大张拳石副教授等人也尝试探索各维度之间的相互作用。然而，真正能够落地应用的技术却不多。

我们基于临床数据的一些实验表明，在医疗决策场景下，大约 30% 的部分可以由归因方法解释，而 70% 的部分依赖于更高维度的因素，需要考虑高阶的相关性解释。

02. 从中医起步，从伤寒杂病论谈起

中西医的诊断思维有一定的差别。我们之所以选择从中医起步，是因为中医和西医相比，缺乏显微镜在细胞、分子层面进行药物药理分析，没有基于现代统计学的临床数据做支撑，临床诊断也缺乏可解释性。这些问题听起来都很糟糕，也一直被大家诟病，那为什么我们觉得它带来的数据是个好的起点呢？

因为现代统计学技术获得的数据大多是基于线性函数的，虽然有非常直观的可解释性、可验证性，但是这样的数据不是深度学习算法最擅长处理的复杂数据。我们说，假如问题本身就是对线性数据的回归，那没有任何一个强大的学习算法能够比线性回归做得更好。正因为中医历史上没有显微镜这样的工具，所以在诊断的过程中，医生们不得不以黑盒的方式做诊断，用望闻问切的数据作为输入，把最后的诊疗方案作为输出，中间则是根据实际临床数据做拟合。这个思维过程和机器学习的框架是非常相似的。

当然我们不能说，因为中医看病都是黑盒的，神经网络也是个黑盒，只有魔法才能打败魔法，所以中医非常合适。我们觉得中医比较有趣的地方在于，因为其黑盒性质，历史上的中医们也一直面临着很多深度学习科研人员面临的问题，比如可解释性的问题。

一个老中医可能水平很高，但是诊疗方法都在他的脑子里，这些东西究竟应该如何传给徒弟呢？因为其 高度非线性的特性，所以中医不能够像西医那样做成基于现代统计学的统计结论 ；因为是要把知识从人脑传到另一个人脑，所以中医也不能像神经网络那样，把参数复制一份到另一个电脑就可以运行。

那该怎么办呢？中医其实没有完美的解决方案，但是他们尝试提出了很多抽象概念，也就是被大家诟病的阴阳五行的概念，还有肾虚、水湿、痰淤等等。这些抽象概念其实是非线性黑盒经验传承的必需品。如果使用神经网络的语言，那么这些抽象概念就相当于网络内部的中间层节点。所以说，中医师们打开了自己的神经网络，不仅向徒弟传授了最终答案，而且还传授了“解题思路”。这样的中间层节点的标签对于神经网络的学习是非常有意义的，可以减少数据量的需求，提高训练效果。

目前，我们正着手构建一个中医知识引擎。中医领域有一本名为「伤寒杂病论」的经典著作，书中用非常严谨的方式定义了许多中医概念，这些概念非常适合直接作为学习模型的输入。实际上，张仲景早在 1000 年前就尝试在推进这项工作。此书行文简洁，医生只需要按照此书对症下药就可以得到很好的效果。中医方剂学教材里面60%的方剂都来自这本书。

「医圣」张仲景

03. 专家系统：言必有据、博采众方

目前，「千方医疗」团队试图构建一个智能诊所。相对于医院，诊所的体量要小很多。中医是全科，不需要分几十个科室，这与我们构建的诊所的业务场景相符。我们的诊所的业务主要面向一些西医处理起来比较麻烦的常见病展开，比如月经不调、失眠恶心等。

过去一年，主要完成了诊所系统的前后端开发和框架搭建，已上线了 40 个微服务，构建了 200 个代码库，目前仍在不断打磨。在此基础上，我们会请医生进行体验反馈，帮助我们收集数据。目前，我们已经打通了从患者挂号、与医生沟通，再到医生开处方的基本流程。

现在，我们开发出来了一个专家系统的雏形，具有最简单的基于《伤寒杂病论》等书籍的推荐功能。接下来，我们将重点完善专家系统，开发更高级的推荐系统。究其二者的区别，专家系统是从书本上获取知识，而推荐系统则是利用不同医生的临床诊断数据获取知识。

此外，我们希望形成一个比较规范的随访流程。患者看完病之后，还能给我们提供一些反馈，告知我们患者接受诊疗前后的状态，可以按照自己的想法参与到流程完善的过程中。目前，中西医人工智能服务在随访方面做的都不是特别好。大多数情况下，我们的数据只包含简单的模式，只包含医生针对疾病开的处方，但并不包含患者吃药后的具体效果。因此，随访数据十分重要。

目前，我们的团队由 16 人组成，也招募了一些具有中医背景的实习生。中医学生帮助我们形式化地整理《伤寒杂病论》中的概念，将原书的 300 页古文整理成机器能够理解的标签，用特定领域的语言来描述书中的内容，相当于可以被专家系统所使用的数据。

专家系统的效果其实就是「言必有据、博采众方」。「言必有据」指的是能够找到医生所有建议对应的出处。「博采众方」指的是最终的成果会囊括书中所讲的案例，甚至是专家们的修改意见。

中医的处方往往很复杂的，但可以借鉴和参考前人的基础工作。中医经常解决的是组合优化问题，在意的是药和药之间的关系。在中医看来，单独吃两种药和同时吃两种药的效果往往不同。

组合优化是计算机非常擅长的事情，这本质上是一个 NP 问题 。举例而言，抄作业肯定比自己想出作业的答案简单，即 P vs. NP。类似地，仿照已有的推荐结果也比自己从头生成推荐结果要简单得多。

04. 针对AI+X，如何打造星球级别的大系统

之前 Michael Jordan说过，AI 应用是未来的趋势，但是可能真正重要的是像星球一样的超大型 AI 系统（planet scale system），能够处理星球级规模的数据。

我很认同他的观点。我觉得 要做好AI和交叉学科的结合落地，需要结合具体的业务逻辑做好大规模类型安全的系统搭建 。很多人听到大规模系统，第一个反应是要支持大规模数据量的处理。这当然是非常重要的，但是我觉得另一个更加重要的目的，是要支持收集很容易被AI算法处理使用的、高质量的数据。为了达到这个目的，类型安全就变得非常重要了。

所以今年暑假，我打算在学院开一门课，课程的名称拟定为「类型安全的前后端系统实践」。就拿健康宝举例，如果我们能够搭建一个更好的类型安全大系统来做疫情管理，不仅可以支撑更大的业务场景，而且可以基于类型安全的大数据，针对疫情做一些更全面深入的分析。

‍

—— END ——

登录查看更多

相关内容

可解释性

关注 81

广义上的可解释性指在我们需要了解或解决一件事情的时候，我们可以获得我们所需要的足够的可以理解的信息，也就是说一个人能够持续预测模型结果的程度。按照可解释性方法进行的过程进行划分的话，大概可以划分为三个大类：在建模之前的可解释性方法，建立本身具备可解释性的模型，在建模之后使用可解释性方法对模型作出解释。

精准医疗、人工智能和个性化医疗的未来，美国范德堡大学等撰述

专知会员服务

66+阅读 · 2022年6月25日