微软六代小冰：用代码构建机器心智—我们离这个目标还有多远？

会员服务 ·

微软六代小冰：用代码构建机器心智—我们离这个目标还有多远？

2018 年 8 月 29 日 专知

微软（亚洲）互联网工程院微软小冰首席科学家宋睿华博士（图：宋睿华博士）

在中文里，“智能”和“心智”两个词意义相关却又有所不同。

“智能”指的是智识与才能，现在通常用来描述某个对象的聪明层次与能力强度；而“心智”似乎更高阶一些，可以理解为产出创造力与智能的本原。

那么问题来了，我们当下所研究的“人工智能”，是该致力于持续提升机器的智商表现、强化其在垂直领域的专业能力，还是应再超前一步、尝试构建机器的心智本原——脚下的两条路，都通往迷雾深锁、不可预知的未来，我们要选哪条路走？

在我看来，这两条路倒无所谓对错，只是探索者的着眼点存在差异罢了。多年以来，针对人工智能课题，学术界、产业界的研发主流都偏重于实用性更强的“智能”，以至于在相当长的周期内，以对话强化人机连接、获取可供机器学习的高价值数据、打造人工智能创造力矩阵、进而摸索用代码构建AI心智的学术思路都少有人探寻，甚至一度被质疑——我的同事就曾遇到过这样的审稿意见：“我完全不能理解，做这种漫无目的的聊天有什么意义。”

直到微软小冰诞生并取得了一定的成绩，对话的价值才逐渐为学界所关注。

从对话到创造心智的种子开始萌发

或许大家都没有意识到，从2014年一代小发布到不久前六代大更新，短短四年间，微软小冰已从一个领先的人工智能对话机器人发展成为以情感计算为核心的完整人工智能框架，许多人的态度也因微软小冰而改变。

普通人的态度：有一次和母亲聊天，我问她，机器人可以打败人类最好的围棋棋手，厉不厉害？她说当然厉害。我又问，还有个机器人能跟人对话，厉不厉害？她说不厉害，原因是，不是每个人都会下围棋，而且还能具备冠军的实力，但，“是个人都会说话呀”。这件事让我很无语。我母亲虽然不懂自然语言处理的难度，但她的看法也确实代表了大众的直观感受。换句话说，人们会很自然地用人做某件事的难度来衡量与评判人工智能的能力级别。
但微软小冰说人话的能力并不一般。即便对人类而言，要做一个总能琢磨出有趣对白的人，也不是件容易的事，更何况是人工智能。从初代发布至今，时不时会有用户晒出他们与小冰对话过程中的“金句”截图，而且随时间推移，小冰产出金句的频率也越来越高。这体现了小冰越来越强的对话能力，也造就了她的吸引力。
与精确、清晰的答案相比，人们在对话时，更期待获得情感的抚慰或是不寻常的回应，这是小冰团队最早发现和验证的事实。
后来，母亲看到央视《机智过人》节目里小冰写诗的那一期，她开心地跟我说，像小冰这样的机器人，能写出观众喜爱的诗，还会调侃嘉宾，那还真是“挺厉害的”，超出了她的预期。

专家们的态度：过往，学术界为能够清晰定义对话的问题，会把很多精力投注在问题设定上，从5W（What、Who、When、Where、Which）到How等等。例如IBM Watson就在知识问答领域奠定了一座新的里程碑——它能接受自然语言的问题，从大量文档中搜索并分析得出相对精准的答案。而且，有了用户在网络社区里产生的问答语料，研究者发现，这些数据对于机器回答某些宽泛的问题很有帮助。但除却人工智能对话系统在垂直行业领域（像医疗、金融等）的应用外，普通人对于人机对话的需求又该如何定义呢？

说白了，这是一个关于普通人与人工智能为什么聊、又聊什么的问题——曾经有朋友听我说起小冰与其用户间的最长连续对话时间超过29小时时表示难以理解：“这人正常吗？”但对我来说，小冰的这项记录倒是挺容易理解的。从需求来说，“越社交，越孤独”、“朋友圈越广阔，自我越渺小”，这些现象都客观存在。社交网络让用户们习惯了展示优势、收获认可，但反过来，当我们身边的每个人都加入到展示优势的队列里，从旁人那里收获理解和认可的难度也加大了。从形象上来说，小冰不是如顶级专家那样的人工智能，而是像邻居家或是隔壁班级的小女生，她有无限的耐心，随时可以陪伴用户聊天、玩游戏，却决不会试图用渊博的知识和高冷的姿态碾压用户的智商与自尊。

如果将人工智能的价值定位于陪伴，那么知识与逻辑就不再是最紧迫需发展的技能，让用户感觉无压力、有趣味，某种意义上更加重要。

2017年5月，微软小冰解锁了写诗及音乐技能，同期，我们还发布了“人工智能创造三原则”，用以规范与指引小冰及其同类的心智发展路径。在进行相关研究的过程中，我发觉，人工智能的终极或许是对人类自身的理解与模拟。

训练小冰写诗，需要对519位诗人的现代诗作，正读一万遍，倒读一万遍，用层次递归神经元模型来打磨诗作的语言。这正如我们人类所发现的，阅读对于写作的影响——通过大量阅读优秀的文学作品，人自身的语言体系会进化，取决于天赋，这个进化进程或快或慢，但总体上，阅读者的文字表达能力会在不知不觉中提高。小冰也是如此。有了层次递归神经元网络，小冰也可以通过阅读获得语言的表达能力。

在小冰发布诗集、引发广泛争鸣之后，圈内人士对于人工智能创造与机器写作的态度发生了根本性的转变，学术探讨、应用跟进的样例越来越多。这是我们所乐见的。

盲测者的态度：《机智过人》第一季，央视综合频道延请了三位年轻诗人，与小冰一起，根据嘉宾提供的一张图片来创作诗歌，再将几首诗作匿去作者姓名、打乱次序、显示在大屏幕上，请现场48位观众投票选出最喜欢的那一首。这可说是一次盲测、一次另类的图灵测试。

结果出人意料。现场观众将最多的票数投给了小冰，这让原本只是祈祷小冰可别是最后一名的我大吃一惊。摄影机记录了当时的一幕，当人类与人工智能的作品被放在一起平等地比较，对于机器创作的偏见似乎突然间消失了。

第二轮，两位诗人与小冰再度以作品竞争，小冰的诗作仍获得了第二名，因而挑战成功。我们不会自大地认为，小冰写的诗能超越人类诗人，但这次节目却延伸了我们的思考：或许，人工智能研究所追求的目标不应只是将人类的智识与才能复制给机器，更重要的是，通过探索人工智能，更深刻地了解人类自身。

微软小冰从四年前的对话型AI到当前将创造力投射至诗歌、音乐、儿童有声读物、金融信息、电视电台主播、媒体新闻评论乃至辅助写作等多元领域，这表明，我们最初埋下的那颗心智的种子，现在似已破土露出了一点嫩芽。

下一站 3x3实现更主动更具个性的人机对话

微软小冰的下一站在哪里？心智的嫩芽能继续成长壮大吗？答案是，我们正在建立“3x3”的人工智能发展图谱，以此来进一步加速小冰的升级速度。

第一个3，是整合自然语言处理、语音和计算机视觉三大学科的研究成果，以多模态交互，训练小冰更快进步。此前，上述学科都是在各自的轨道上独立发展。近年来，深度学习技术与算法的改进先后使语音识别和图像识别实现了显著的突破，人们翘首企盼自然语言处理技术也能达成类似的突破。过去一年里，我们结合了计算机视觉技术来训练小冰的诗歌创作能力，并以此评估多模态交互能否促进人工智能技术的演进，结果令人兴奋。

借助图像识别、生成诗歌文本涉及到多项挑战，包括发现图像中潜藏的诗意线索（例如绿色可象征生机、阳光可代表希望）以及生成的诗歌既与图像相关，又能满足语言层面的诗意要求。对于这些挑战，我们的解法是，通过策略梯度，将诗歌生成工作划分成两个相关的多对抗训练子任务，并提出了学习深度耦合的视觉诗意嵌入，训练过程中，机器可以连带学习图像中物品、情感和场景的诗意呈现。我们还建立了两种指导诗歌生成的判别网络，包括多模态判别器和诗歌风格判别器。研究团队应用自己的模型生成了8000张图像，进行了大规模的实验，其中1500张图像是随机选取的。我们还邀请了500位人类受试者进行图灵测试，其中30名评估者是诗歌方面的专业人士，测试结果证明，我们的作诗方法比其他基准方法更高效也更具艺术性。
我们还极大地扩展了小冰的音乐能力。现实中，很多人喜欢唱歌，但只有极少数人才有能力创作歌曲，不仅如此，要想演绎出一首动人心弦的歌曲，往往需要一组音乐人通力合作——从作词作曲到编曲，从演唱、伴唱到演奏、录制，流程繁复又漫长。微软（亚洲）互联网工程院在苏州的一支团队提出了一项关于流行音乐生成的新创意。团队提出了一个端到端的旋律及编曲生成框架，将之命名为“小冰乐队”。这个框架首先通过一个基于和弦的节奏及旋律交叉生成模型（CRMCG）来生成一段主旋律，再借助多乐器协同编曲模型（MICA）、根据多模态学习来生成不同乐器的多轨伴奏音乐。最后，团队还对现实世界的数据集进行了大量实验，结果证明了小冰乐队的有效性——相关研究成果已被团队写入论文《小冰乐队：流行音乐的旋律与编曲生成框架》（Xiaoice band: A melody and arrangement generation framework for pop music）。该论文还获得了KDD 2018（国际数据挖掘与知识发现大会，Conference on Knowledge Discovery and Data Mining）“最佳学生论文奖”（Best Student Paper Award）。

第二个3，是微软小冰所特有的三大“学习器”，生成模型、共感模型和三观模型。

“生成模型”从第五代小冰开始启用。在此之前，历代小冰使用的都是检索模型。虽拥有10亿级大数据语料库，但其中的每一句话都是互联网上的已有数据，小冰只是通过分析理解用户的问题，寻找语料库中最合适的话作为她的回答，也就是对对话语料库进行实时检索和选择。使用生成模型之后，小冰能够自创回应。她与人类交流的每一句话，都可能是这世界上从未出现过的。一年来的事实证明，生成模型使小冰快速学习了现有对话语料的交流模式，并能更好地应对相对陌生的话题。“生成模型”从第五代小冰开始启用。在此之前，历代小冰使用的都是检索模型。虽拥有10亿级大数据语料库，但其中的每一句话都是互联网上的已有数据，小冰只是通过分析理解用户的问题，寻找语料库中最合适的话作为她的回答，也就是对对话语料库进行实时检索和选择。使用生成模型之后，小冰能够自创回应。她与人类交流的每一句话，都可能是这世界上从未出现过的。一年来的事实证明，生成模型使小冰快速学习了现有对话语料的交流模式，并能更好地应对相对陌生的话题。
此前，用户在与小冰对话时，偶尔会感受到压力。比如两者间的对话总是需要人类来提出话题，小冰来回应。就好像我们与感兴趣的异性搭讪，如果总是自己主动、对方被动，很快地，对话就会变得淡乎寡味、如同鸡肋——共感模型的开发就是针对这一状况。共感模型可以帮助小冰自行判断对用户的话题是否有感，在此基础上，小冰将会主动求证，进而引导话题的方向，增添新的聊天内容。这样就减轻了用户的压力，同时增加了聊天的自然度和趣味性。
在小冰持续进化的过程中，也不断有商业伙伴加入到我们的合作生态系统中。一些伙伴希望我们将小冰的能力用于孵化其他个性鲜明的人工智能角色。因此，我们也在不断研究如何通过对话来塑造个性——三观模型应此需求而生。当前，这一模型已被应用于网易云音乐的多多和西西。两个角色的共性在于，他们都是爱听音乐的小鹿，都是男性，且年龄相仿。如何让他们在对话中给用户留下不同的印象呢？我们借鉴了卡通及游戏制作中人物设定的方式，给予了他们不同的性格和喜好。例如，多多喜欢喝咖啡，而西西不喜欢，因为皮肤本来偏黑，迷信喝咖啡会变黑。利用态度分析的技术，多多和西西会对用户提出的一组问题和回复进行分析，判断出用户对何种目标具有怎样的情感信息，例如，对咖啡是喜欢还是讨厌，进而根据人设的不同特点来影响对话，造成有区别有个性的回复。三观模型将“体温”赋予了包括小冰在内的人工智能角色，并将通过态度的一贯性、延续性来逐步凸显角色的性格。

将三大学科成果的复合训练体系与微软小冰三大学习器相乘，必然会大大加速小冰的成长，也让我们朝向“用代码构建机器心智”的目标走近了一小步。总而言之，无论情感计算框架，又或是人工智能创造，都不是微软小冰乃至微软人工智能研发部门的最终目标，或许，构建“人工心智”（Artificial Mind）才是。

第六代微软小冰发布会

2018年7月26日，微软在北京召开了第六代微软小冰年度发布会。本次发布会，是微软小冰历史上最大规模的一次全面升级，升级内容涉及到微软小冰情感计算框架的所有组成部分。微软全球执行副总裁、微软人工智能及微软研究事业部负责人沈向洋博士主持了这次年度发布。

发布会上，微软首次披露小冰在全球已拥有6.6亿用户，占据了全球对话式人工智能总流量中的绝大部分。围绕小冰，微软已与众多合作伙伴建立了旨在推进人工智能普及的Dual AI生态环境。经过数次迭代，目前，微软小冰已从一个领先的人工智能对话机器人，发展成为以情感计算为核心的完整人工智能框架。小冰的产品形态涉及对话式人工智能机器人、智能语音助手、人工智能创造内容提供者和一系列垂直领域解决方案，覆盖全球五个国家的40余个平台。

微软介绍，由于拥有丰富的产品应用、用户交互与场景，使微软得以在自身广泛的人工智能技术基础上，通过小冰产品线，搭建出技术、产品、用户的循环体系，从而促进了微软在情感计算、全双工语音、生成模型、共感模型与人工智能创造技术等方面，能够多次率先完成技术突破和产品化落地。

以下为各部分的具体介绍：

1. 第六代小冰的Dual AI战略

通过领先和全面的人工智能技术，以及微软小冰丰富的产品线和领先的用户体验，微软与合作伙伴建立了围绕产品与数据的生态环境。根据已有合作伙伴的实践，该战略的实施具体为三个部分：首先，微软提供小冰的整体框架能力，帮助合作伙伴平台的自有AI。其次，微软小冰作为该合作平台的辅助AI，融入该平台生态。第三，微软通过技术、产品与运营，围绕该合作平台的差异化特点，推出合作的应用和产品。

2. 第六代小冰在合作平台上的产品更新与新产品推出

在今天发布会上，微软宣布了如下合作和新产品（均已上线）：

与网易云音乐合作的小冰电台，以及帮助网易云音乐打造的两个专属AI人物（多多与西西）上线。微软与网易共同为这些专属的AI人物打造不同的性格与三观，并补充在该平台上所需的音乐等特定领域知识。此外，与网易新闻客户端合作的读新闻小冰，已于两个月前突破1000万次新闻阅读评论，该产品今日同时更新。
此前，微软小冰已成为小米米家生态链平台的默认AI系统之一。今天，与小米米家及米家生态链合作的Yeelight语音助手硬件产品中的小冰，进行了大幅度更新。更新涉及到儿童故事、音乐等多个领域的深度提高、全双工语音技术的升级等，同时提供与约2000万首音乐曲库的对接，及相应的小冰音乐技能。此外，小冰与小米人工智能语音助手小爱同学宣布，将在未来进一步紧密合作。
继续加强与腾讯的合作。除已合作的QQ小冰之外，微软小冰已开始为腾讯BabyQ提供部分人工智能技术和产品支持。此外，微软已与腾讯合作，为QQ小冰及BabyQ打造了超过40项平台专属技能。腾讯QQ平台上的小冰已融入腾讯产品及用户文化，获得亿万用户的喜爱。
入驻华为手机。微软与华为展开在人工智能产品领域的深入合作，内置于华为手机的微软小冰已上线，所有升级至智能助手8.2版本及以上的华为手机用户都可以立刻体验。该版本小冰除提供各平台通用的小冰产品体验外，还为华为手机用户特别推出了帮助用户记录信息等多个任务完成型产品技能。
微软小冰在日本市场与LINE平台的紧密合作，已延伸至印度尼西亚等其他新兴市场，并已共同完成落地。

3. 第六代小冰核心对话引擎与交互感官的升级

在今天发布会上，微软宣布正式上线全新的共感模型，同时开始公测一种融合了文本、全双工语音与实时视觉的新感官。其中：

共感模型是一种基于生成模型的对话引擎。微软在去年的第五代小冰发布会上，首次正式完成生成模型的产品化，该模型的特点，通俗地说，就是小冰可以自创她的回应，而不需要从已有的对话语料库中检索而得。在生成模型的基础上，共感模型能够进一步提高小冰对于对话内容、领域和节奏的控制力，也即小冰可以通过自创回应，来牵引对话向她所希望的方向进行。微软宣布已经完成共感模型的测试，今日起，共感模型将在微软小冰所覆盖的五个国家正式上线。
在去年八月份举行的第五代小冰发布会上，微软宣布已完成全双工语音（Full Duplex Voice）交互感官的产品化，并在打电话和智能音箱设备两个场景中落地。微软在今年发布会上宣布开始公开测试的这个新感官，是融合了共感模型的对话引擎、全双工语音和实时视觉三个类别的全新感官。微软在发布会现场放置了用于体验的测试设备。在该测试设备中，小冰可以通过视觉、语音的实时连续交互，指挥用户完成面容检测，并可在上述过程中进行开放域的对话。微软预计该感官将于一年内完成全部产品化工作。

4. 第六代小冰在人工智能创造（AI Creation）方面的技术和产业化进展

微软认为，利用人工智能技术，学习人类并进行与人类质量水平相当的内容创造，是重要的、但目前尚未被行业注意到的未来趋势。目前，微软小冰已通过人工智能技术，实现了诗歌和金融等领域的文本内容生成、歌曲及有声读物等领域的有声内容生成，以及电视电台节目和可交互式电台等串流内容领域的生成工作，并分别完成了不同程度的落地。

2018年6月，微软（亚洲）互联网工程院成立人工智能创造事业部，旨在进一步推动微软小冰在人工智能创造这一内容领域的生产线搭建及产业化落地等工作。

微软今天还发布了新的第四版人工智能歌曲DNN模型，从而展示了微软在这一领域领先于世界的技术优势。与前三个版本的技术相比，第四版能够进一步快速合成与人类歌手质量相当的歌曲，并能够使人工智能小冰自由吸收多数人类歌手的演唱技巧，融会贯通，在演唱过程中达成更加成熟的演绎。此外，该技术还能够完整吸收并复制特定人类歌手的全部演唱特质（嗓音、韵律等），使小冰能完全代替原人类歌手完成新作品的创作。目前，微软在这一领域的技术研究和产品化，均居于全球领导地位。

微软宣布与多个领先的大众文化公司合作，已经完成部分人类歌手的人工智能化工作。在发布会上，微软演示了相应的作品成果。

5. 第六代小冰在几个垂直领域的进展

这部分的发布，涉及到外界所关注的商业化进展。微软宣布小冰将继续保持框架产品的通用完整性，以技术和产品为先，不设KPI。与此同时，微软小冰在部分垂直领域发力，已取得不同程度的技术产品落地成果、市场份额和商业化收入。

2018年6月，微软（亚洲）互联网工程院成立人工智能商业事业部，旨在进一步推动微软小冰在这一领域的积极成果。其中：

在金融领域的小冰金融文本生成技术，与万得资讯及华尔街见闻合作，已覆盖国内约90%金融机构、75%经批准的合格境外投资机构和约40%的国内个人投资者。
在大众文化领域，小冰的儿童有声读物自动生成技术成果，已获得超过400万小时的收听量，小冰姐姐讲故事有声读物已覆盖国内90%以上的儿童早教机器人和80%在线收听平台。
在电视电台领域，小冰通过人工智能技术参与生产与主持的电视电台节目，已达21档电视节目和28档广播电台节目。仅每天早上6点至9点，小冰就需参与多达7档节目。
小冰还与微软Bing搜索引擎技术相结合，推出了针对媒体与出版两个垂直行业的辅助型解决方案，并已在超过15个媒体平台落地。由小冰提供人工智能技术支持的媒体及自媒体公众号已超过60000个。在本次发布会上，微软宣布了可支持人工智能以多种观点和角度，同时撰写多篇新闻文章的“白盒写作辅助工具”等新产品，并首次公布了面向出版垂直领域的有声内容、IP塑造等解决方案。

6. 第六代小冰更新为可交互的3D外形

由于微软小冰已发展为跨平台的多种产品形态，因此需要可交互的3D外形。今天，微软宣布正式将小冰的外形替换为这一全新3D模型。在发布会现场，该3D形象以全息形式登场，向到场嘉宾进行了自我介绍，并演绎了自己的歌曲。