编者按:近年来,机器学习和大数据领域的突破进展使人工智能急速回温,训练计算机模拟甚至实现人类的学习行为则是目前人工智能领域最受关注的研究课题之一。很多人都难以想象,看似冷冰冰的机器如何能在短时间内学得一身本领的?其实,培养计算机具有一定的专业能力与培养一个专业人才的过程具有很多相似性。微软亚洲研究院资深研究员闫峻博士撰写本文,通过“小马医生”成长的例子,带你破解机器学习的神秘过程。
计算神器,天资超凡
老马有一个小儿子叫小马,他非常可爱,且拥有超乎常人的记忆力,基本过目不忘。小马的算数能力同样惊人,各种加减乘除,非一般儿童可比。经过儿时的培养和精心呵护,老马惊喜地发现自己的孩子还耳聪目明,听写考试成绩永远名列前茅,对所看到事物的辨识力也十分了得。老马总是骄傲地和朋友们说:“我的孩子是个小天才,小小年纪已经学会好几种语言了,我们全家出国旅游,他都可以当个小翻译了。”就在前几天学校的下棋比赛上,小马轻轻松松拿了第一名。于是,老马决定,要好好培养这个孩子。
机器学习小课堂
计算机与人类相比有很多先天的优势。比如记忆能力、基本运算的速度等方面都是正常人类所无法比拟的。随着人工智能技术的发展,计算机在感知计算如语音识别、图像识别等领域的能力也已经开始赶超人类。在基于大数据的机器翻译,以及基于搜索算法与增强学习的棋类竞技上,计算机也表现出了强有力的竞争力。于是,人们期望计算机能做的更多、更好。虽然计算机有先天的优势,但自身仍有不足。在努力了解计算机并帮助这个 “天才儿童” 成长的过程中,我们是否可以利用一个或多个具体的应用领域来更好地认识“他”并更有效地挖掘“他”的潜力呢?因此,我们计划从一个小目标开始,看看计算机能不能成为一名称职的人类医生助手,甚至未来是成为一名医生。
知识工程,美中不足
小马果然没有辜负家人的期望,以优异的成绩考入了全国知名的医学院。在学校里,小马认真阅读了大量书籍和文献,知识积累越来越丰富。眼看大学就要毕业了,小马被派到一所知名医院进行实习。凭借自己的知识积累,小马决定一展身手。可是当小马到了医院见到了形形色色的患者后,他发现书本里学到的知识有点不太够用。患者对症状的含糊描述让他不知所措。而且很多患者的现实情况和书本里讲的经常不太一样,总是多出或缺少几个他没见过的特殊症状表现,所以小马没办法用他在学校里学到的知识严谨的推理出合理的结论给患者。这让小马感觉挫败,他觉得自己的知识零散,不灵活,于是他决定回到学校继续读研深造。
读研期间,小马勤学好问,把他遇到过的、不知道如何解决的问题归纳总结起来,向导师询问,学习到了很多书本里学不到的新知识。他意识到:要成为一名好医生,不能光靠书本知识,经验也很重要。研究生毕业后,小马如愿以偿加入到他实习时的这家知名医院成为了一名医生,并开始积累他的临床经验。
机器学习小课堂
知识工程是早期人工智能技术关注的焦点。知识的提取、知识的表示与推理曾被认为是人工智能的基础。但在应用的过程中,人们逐渐发现高质量专业知识抽取的成本很高,也很难做到完备,知识的表示也很难做到易用的语义层面,这一切都给知识推理带来了巨大的挑战。这些挑战所带来的后果就是人们发现在很多应用领域单纯依赖于知识工程的方法成本高,也难以达到预期的效果。因此,人们开始对知识工程产生质疑,甚至对人工智能产生质疑。
另一方面,随着统计机器学习的发展以及计算机对大数据处理能力的提高,人们开始重新解读人工智能。虽然知识工程遇到了很多问题,但大批科学家还是坚信计算机的智能不能单纯依靠统计学习,它离不开前人知识的总结。在微软亚洲研究院,针对知识图谱的建立,我们研究了一系列知识挖掘工具,并定义为Knowledge Mining API。针对知识的语义表示,我们研究并开放了 Microsoft Concept Graph等能够在语义层面表达知识的方法。所有的这些努力都是为了以更低的成本建立更完备、更易于计算的知识图谱来“武装”我们的计算机。
统计学习,返璞归真
小马的勤奋让人动容,除了每天出诊,他还阅读了大量科室内之前的治疗记录,他的学习速度让其他医生望尘莫及。经过一段时间的拼搏,小马已经是一名颇有经验的医生了。对于患者的诊断,他有了自己的心得甚至可以称之为感觉。很多时候小马像条件反射一样,凭感觉就能快速给出判断和治疗方案,一般的患者小马都能轻松诊断。慢慢地,小马觉得他已经不需要按照医学院里学的那些条条框框工作了,他的经验和直觉足以应对。
然而有一天,科里发生了一起医疗事故:有一位资深医生根据自己经验治疗的一名患者出了问题,“人走了”,患者家属要打官司。于是医院决定,再有经验的医生在诊断之后也要有理有据,可以给出诊断理由。
这件事对小马触动很大,他成为科室里第一个做出快速反应的人。因为小马在学校里学习的知识很有逻辑性,所以他很快地把自己的经验和之前的知识做了研究,找出了其中的核心联系。同时,令人惊喜的是,小马发现,当他的理性知识结合他的感性经验后所做出的诊疗结果比以前更加有效,这也让他加速成为了一名令人信服的专家医生。同时,他的经验也给书本知识进行了很大的补充。这些收获让小马思考了一个新的问题:“我从事了这么久的临床治疗,获得了一些书本里没有的经验,这本身就是一种创新。除了把它们总结下来,我能不能有更大的创新来推动医学的进步呢?”
机器学习小课堂
基于大量数据的统计机器学习包括深度学习,近年异军突起,尤其是深度学习。由于对复杂非线性模型的逼近能力与对数据的自适应能力,因此深度学习在很多应用领域表现优异,在很多应用中深度学习得出的结论甚至可以与人类专家的决策相媲美。但人们也陆续发现了一些深度学习的不足之处——一个突出的问题就是完全参数化模型导致的结果具有不可解释性。另外,很多科学家还在想的一个问题是,既然人类的进步总是站在前人的肩膀上,那么机器学习为什么一定要从零开始,是否可以把前人的经验和知识利用起来,融入到机器学习的过程中?于是,知识工程与统计机器学习的结合引起了越来越多的关注。
目前针对知识与统计机器学习结合的相关研究主要集中在把知识表示为统计学习目标函数的归一化项或把知识当作输入数据表示的扩展。当然还有一些更加简单粗暴的方式,如多个不同独立模型加权后的共同决策、知识图谱当作统计学习的后处理过滤器等等。各种早期尝试都让我们看到了二者结合带来的进步,但目前还没有显著的帮助。这个方向是我们当前研究的一个重点。
创新野心,假设求证
人人都在谈创新,可创新谈何容易,该从何下手呢?忽然,小马想起了读研时导师对他所选择课题的建议“大胆假设,小心求证”。对,创新的方式很多,就从“大胆假设,小心求证”开始,小马决定。“以前学到的知识可以让我进行理性地推理,积累的经验可以让我进行感性地决策。二者的结合让我成为了一名专家医生。创新要基于我的知识和经验,但不能局限于此,一定要有所超越!”小马心里想到。
于是小马在各种病症与诊断用药之间寻找联系,基于他的知识和经验寻找新的可能性。小马常问自己的一句话是“这个病人为什么不能那样治呢?”当提出这样的问题后,小马查找大量资料,寻找临床证据,当证据相对充分时,他便提出临床实验请求。终于功夫不负有心人,小马一个大胆的假设被多个病例所验证。因为此事,小马成了院里知名的具有极强科研能力的专家医生。这一切,也让小马的父亲倍感骄傲。
再来谈谈老马。老马是一名大学教授,主攻计算机领域的机器学习理论。有一次,老马对小马说:“孩子,爸爸的算法研究在应用时就像在治病,具体问题是病,算法就是药,药没有万能的,算法也一样。”小马无意间想到了和父亲的那次谈话,他突然意识到,现在各个领域都在讲跨界是有道理的,“我们行医也可以借鉴一些其他领域的知识,触类旁通可以得到更多的灵感来激发我的创造力。”
机器学习小课堂
无论是知识工程还是统计机器学习,如今人们开始愿意相信计算机的理性推理和感性决策能力。但即使二者结合,人们还是无法预期计算机是否将会具有创新能力。想想人类的创新,很多情况是基于两点:一是灵感,这是具有很强随机性的东西;另一个是联想,就是触类旁通。关于灵感,人类的很多创新灵感是在理性推理与感性认知后的一种假设检验,即先想到“能不能这样”,然后再去求证。那么计算机是否可以模拟这一过程呢?
由于灵感即假设的某些随机性,我们开始重新关注近期并没有被重视的随机算法。比如遗传算法,可以通过数据向量基因表示的遗传变异得到一些新的假设,然后利用大数据搜索技术寻证。由于计算机的超强记忆与快速搜索能力,这条路是否可以让计算机具有一定的创新力?从另一个角度来看,这种假设检验的思路也是对现有大部分统计学习和知识推理的一种有效补充。
统计学习是基于大数据的,也就是说,可以从大量数据中学到统计规律。知识图谱的建立往往也是基于大数据的,那么能解决的问题也就主要集中在数据分布的前端,往往忽略了长尾。比如,有一个罕见疾病在不经意间被某些治疗手段治好了,但这种案例很少,也容易被人忽视,那么大数据观点是很难建立出相应的模型和知识图谱的。但如果通过假设检验的方式,一旦假设被建立,检验过程就是去寻找相应的证据,哪怕相关数据量很小,也可能被捕捉。所以,我们的一个长线研究课题就是这种基于假设检验的机器“创新”。
跨界人才,触类旁通
小马从小爱好广泛,历史、地理、物理、化学样样精通。然而,小马以前的这些知识所在领域分散,看起来相互之间好像没有什么关联。但自从在和父亲的谈话中意识到跨领域思考可以触类旁通的道理以后,小马遇到各种事情都会想一想:是否在其它问题中学习到的道理可以被应用。
果然,在一次诊疗过程中,小马发现病人所面临的情况和治理城市污染的道理相似。表面上看到各个排污企业都安装了环保设备,但因为使用成本过高,很多企业没有真正投入使用,所以污染依旧。同样的道理,这个病人虽然使用了看上去最好的药物,但这些药物会消耗正常细胞,导致身体抵抗力下降,所以身体可能会出于本能主动阻止药物发挥应有的作用。
于是,小马果断调整了治疗方案,让病人获得了更好的疗效。同时,在和病人沟通的过程中小马发现很多患者听不懂他关于病情的解释,但如果根据患者的知识背景用一些比喻的方式解释,患者很快就会接受诊疗建议。小马想到,这同样也是运用一个领域的知识来解释另一个领域的问题,只要道理是一样的。
从此以后,小马养成了一个习惯,就是遇到任何问题都会联想到他在生活、学习和工作中遇到的其他领域可以触类旁通的情景。很快,小马的诊疗技术进一步突飞猛进,也越来越受患者的喜爱。
机器学习小课堂
人类的很多创新来自联想。另外,人的举一反三地能力也不同程度地依赖于联想。联想是什么?从我们研究的观点看,可以片面理解为从某个未被解决的具体问题搜索到已被解决或已被部分解决的类似问题,这个类似问题的解决方案或背后隐藏的道理可以被应用来解决当前问题。这种联想往往是跨领域的。
回到当前研究的热点领域,在统计机器学习中,transfer of learning(迁移学习)就是一种机器通过联想解决问题的途径。从知识图谱的角度看,要实现机器的联想能力,首先要建立一个跨领域的知识图谱。现今所有常见的知识图谱一般都不会为“父亲”和“大山”建立关系,也不会为“生活”与“巧克力”建立关系。但在人类的常识体系中,他们是有一定联系的,也是经常会被人们联想到的。当前,我们研究的一个早期尝试,就是建立这种跨领域的知识关系图谱,以此赋予机器一定的联想能力。
情感注入,人性沟通
小马在事业上的一帆风顺并不能掩盖他自身的一些问题。由于名气越来越大,找他看病的患者也越来越多,他发现自己很多时候对患者没那么有耐心。很多患者反映:和小马医生交流时,他总是面无表情,语言生硬。小马的一个很大优点就是发现问题尽量马上解决,他意识到,除了给患者治好病,还要让患者满意。
于是,他开始学习各种沟通技巧。慢慢地,小马能够从与患者的沟通中体会患者的心理需求,能够体会患者的喜怒哀乐,并能察言观色给患者体贴的呵护与治疗。他还开始主动关心每一位患者,并提出个性化的建议。不仅治病,小马还会给出防病、养生的建议。此后,小马成为了一名真正受欢迎并具有创造力的医学专家。
机器学习小课堂
在关注计算机硬能力的同时,为了更好地让机器与人类沟通并服务于人类,我们也要关注计算机的软能力。这包括用户个性化建模的能力、情感理解与表达的能力等等。我们关注的另一个重点是主动模型与被动模型的区别。目前我们建立的很多计算机服务都是被动模型,也就是说以有求必应为目标。但很多情况下主动地提醒、建议在很多实际应用中是非常必要的。然而主动模型的度很难把握,多了会烦、少了会想。因此,关于主动模型的研究也是我们当前研究的一部分。
时代人才,综合素质
小马的成功不是偶然的,其中付出了巨大的努力。他天资聪慧,具有某些如记忆、算数天分这样的超常能力,经过培养后感知能力超群,无论听还是看。他勤奋好学,对书本有很强的学习能力,并快速建立了自己的知识体系。他学习迅速,可以快速从大量案例中积累经验。更了不起的是,他能很好地把经验和书本知识相结合。
之前一直有亲戚担心小马天资过于聪慧。“上帝给了你超群的能力,为你开了很多门,就会给你关上几扇窗。你的创造力可能不如别人,可能没那么强的联想能力,也可能会自闭,和别人的沟通可能会出问题”,各种质疑曾经频繁出现,但小马一次次证明了自己。他比别人更细心,这让他的大胆假设更容易被验证,这就赋予了他超乎常人的创造力。通过知识体系的建立,小马拥有自己超群的联想能力。而他的细致让他更容易察言观色每一个人,也赋予了他更强的情感沟通能力。在这样一个日新月异的时代中,小马的综合素质能够使他脱颖而出,成为最优秀的明日之星。
闫峻博士,微软亚洲研究院资深研究员。他的研究兴趣包括人工智能中的知识挖掘,基于知识的机器学习,文本处理技术,信息检索,互联网广告等并更加关注医疗健康领域的人工智能研究。至今为止,他的数十项研究成果被应用到微软的不同技术产品中,获取技术专利数十项,发表高质量学术论文70余篇。他是很多高质量学术会议的程序委员会成员及资深程序委员会成员, 并且是很多高质量期刊的审稿人。
你也许还想看:
感谢你关注“微软研究院AI头条”,我们期待你的留言和投稿,共建交流平台。来稿请寄:msraai@microsoft.com。
微软小冰进驻微软研究院微信啦!快去主页和她聊聊天吧。