撰文:凡雪、四月
编辑:四月
经此一役,中国疾控体系的数字化和智能化改革势在必行,我们也拭目以待。
「流动、汇集,不断的流动、不断的汇集……在幅员辽阔的中国,南北城市远隔千里,病毒的传播或许只在数小时的飞行之后。」
纪录片《非典十年祭》这样形容当时 SARS 病毒的蔓延;17 年后,当年的病毒换了身行头,故伎重演,来势汹汹。
「打赢疫情防控阻击战」,响亮的口号,频频在头版头条里响起,但新冠病毒却以人类未知的火速势头燎原,占得先机。要取得胜利,必须找到更为精准而高效的武器。
当现实世界里关于新冠病毒的多维度数据被深度挖掘出来,源源不断地投喂进自洽自足的机器学习平台,一套仿照现实世界运转机制的「孪生系统」因此而构建成型。
人类在屏幕前通过鼠标键盘,在模拟的数字世界里,紧锣密鼓地狙击病毒:追踪传染路径、筛查易感人群、推演疫情发展……每一步都被人工智能演绎地淋漓尽致。
基于机器自学习搭建的传染病疫情演进预测系统示意图
它是哮天犬「天地无极、万里追踪」的筛查追踪功能,在微观的人口流动中定位潜在传染源和高风险人群(携带新冠病毒而不自知)。
也是《模拟人生》里的现实世界模拟器,充分考虑复杂环境下的各种突发因子(交通管制/复工时间/药物设施等),在模拟器上修改相关变量,进而推演出疫情狙击中人工干预的最优政策。
第四范式联合南京大学 LAMDA 研究所和苏北人民医院组队,针对疫情推出的智能疫情防控系统,正是基于这样一套思路。
一
CEO 接下「神秘」任务
除夕夜,第四范式的微信群里,新年祝福刷屏之后,突然跳出一则动员信息,打乱了节奏。
原来,公司被推荐加入了一个来自上级的「特殊」项目,由 CEO 戴文渊亲自承接。项目与疫情防控有关,刚开始还有点「神秘」。
经公司高层动员,项目是为疫情做贡献,很快便有几十人主动参与进来。
随后,项目总负责人涂威威邀请了以周志华教授为首的南京大学 LAMDA 研究所、苏北人民医院的十数名专家加入项目组,整个系统项目组已接近百人规模。他们的任务是为疫情防抗搭建一套基于机器学习技术的精准防控决策支持系统。
第四范式,全称为 第四范式 (北京) 技术有限公司,是一家于 2014 年成立的人工智能技术与服务提供商,创始团队来自百度凤巢推荐系统、今日头条推荐系统等核心技术团队。
第四范式擅长搭建复杂的机器学习模型平台,并将之业务和产品化。早在 2016 年,第四范式就发布了相关产品「第四范式先知」——一套企业级的人工智能 PaaS 平台,能力覆盖人工智能项目从应用开发、运行到管理的全生命周期。
据 IDC 2019 年发布的《中国机器学习开发平台市场评估》报告显示,第四范式、阿里、百度、AWS、腾讯、微软等位列领导者象限。其中,作为 AI 独角兽的第四范式,占据了中国市场的最大份额。
二
当机器学习遇上传染病学
项目组分设有前端、后端两个部分。前端由王巍负责,王巍今年和家人留京过春节,无离京记录,健康状况良好,成为疫情下的最佳前端人选。
事实上,项目前期前端只有他一人在现场。接到任务后,王巍每天生活就是朝八晚八,两点一线。
早晨 8 点前,王巍需要赶到北京项目组安排的集中办公点。测过体温,身份验证之后,进入井然有序的办公区间,口罩下的人脸只剩下一双双专注的双眼,紧盯电脑屏幕。
春节期间,疫情仍处于上扬势头,政策调控方的需求变化多端,各方数据滚滚而来,王巍主要承担需求和任务的汇总梳理工作,将其有节奏有条理地反馈给后端团队,以保证将有限的资源投入关键领域。
「数据更新频率很快,一般来说,一小时至半天左右更新。所以我们的响应速度也需要比较快」王巍说。
「下班后,他还要和我们对需求,压力是比较大的」,项目总负责人涂威威补充,不断更新汇总的宏观数据,对于后端合理地设计模型,有效调用算法起到关键性作用。
如果说,前端的压力主要聚焦在极短的任务交付期限中,那么后端的压力则贯穿始终。
涂威威同时也是范式后端数十人科学家的领队,主要通过远程办公协同,没有严格的固定工作时间点——往往意味着要随时待命,模型调到凌晨 2-3 点是家常便饭。
协同过程中,涂威威与南京大学 LAMDA 研究所詹德川、俞扬教授和国家 GCP 机构办主任余果的四人工作微信群每天都会从早晨密集讨论到深夜。
「项目背后的指导老师周志华教授也全程在各方面为项目组提供细致的指导,很多时候周老师会与我们沟通工作到凌晨三四点。」涂威威介绍。
最初,这帮科学家的想法很简单——让技术产生价值;然而,好想法在实际运用中却得不到好结果。
由于缺乏传染病学背景知识,科学家团队采用了一组固有的传染系数,套用在不同地区、不同场景上,但却与实际数据相去甚远。
随着团队与一线医学专家深入交流和探讨,问题才逐渐浮出水面。
「传染系数实际受到多种因素影响,」涂威威解释道,「比如飞机里的传染率其实比火车低很多,因为空气是循环的;又如经济发达地区,居民防护意识较强,传染率会较低……」
飞机不同座位传染率(图源:国家地理中文网)
基于此,团队替换掉了此前的固有传染系数,转而构建一套传染模型,综合考虑地区、场景、时间等各种实际因素。根据机器学习结果,团队再进一步找医学专家验证及优化,依此往复。
据涂威威介绍,经过对全国各省建模,自学习模拟器相对改进版传染病模型(SEIR 模型)的误差平均降低 90%,与实际数据出现比较好的拟合状态。
「疫情目前的发展轨迹都在印证了之前推演结果,在一定程度上也消除了我们自身对疫情的焦虑,」他谈道。
此外,系统团队每天会定期与宏观调控部门的技术人员远程连线,在结果层面、方法论上进行探讨,针对系统预测值和实际值的差距进行优化。
「在这个过程中,产品的迭代以小时为单位计算——每隔两三个小时,相关部门就会要求更新结果,3-5 天产品实现较大提升。」说到这,涂威威的语速不自觉地加快。
三
战疫侦察三部曲
追踪、筛查、推演
如果消灭疫情是场「阻击战」,从防控前期的病毒传播分析到易感人群的精准筛查再到后期推演疫情,为决策层制定政策并影响疫情发展做支持,都必须做到「快且准」,小到预测某个地区的传染率,大到提前为某省市颁布整体防控决策做预演辅助。
为此,这只由人工智能专家和医学专家组建的联合团队,从复杂多变的物理世界中挖掘多维度数据,利用机器学习技术构建数据驱动的新冠病毒传播数字孪生系统。
这就像一套现实世界里的病毒传播模拟器,可以模拟出各项与疫情相关的变量、指标(交通管制/复工时间/药物设施等),以实现精准而有效的传染源定位、人群筛查以及疫情推演。
该套系统依托于第四范式的底层人工智能 PaaS 平台,针对疫情场景进行了应用升级,在平台的核心算法、功能组件和底层技术(如自动机器学习技术)等方面已经有了成熟的经验保障。
针对疫情发展的不同阶段和实际场景需求,系统团队提出了三套方案应用,分别对应追踪传播路径、筛查高危人群、疫情态势推演。
1、精准防控第一步:追踪传播路径
在疫情发生后,病毒传染路径分析极为关键,系统将模拟出一套潜在传染的关系网,在关系网中找到可能的传播路径协助精准防控。
此外,第四范式还构建了可学习的事件回放模拟器,及时发现并复盘潜在传染路径以及传染方式,帮助防疫部门快速切断疫情的蔓延,同时反哺到病理学相关研究,提供研究方向上的辅助。
2、精准防控第二步:筛查高危人群
在防控关键阶段,核心是要找到潜在的高风险人群。为此,涂威威团队构建了一套精准筛查模型,利用 AI 技术丰富了现有的防控筛查规则模型,进一步提升人群的覆盖面以及筛查的召回率与准确率。
医学专家建议的「ABCD」人群分类,A 是指有武汉接触史的人,B 是指 A 出门在公共场所中遇到的所有陌生人,C 是指 A 接触到的熟人,D 是指没有外出的安全市民。