CCCF专栏 | 宋睿华：用代码可以构建人工心智吗？

2019 年 3 月 17 日 中国计算机学会

直到微软小冰诞生并取得了一定的成绩后，闲聊的价值才逐渐为学界所关注。

在中文里，“智能”和“心智”两个词的意义相关却又有所不同。“智能”指的是智识与才能，现在通常用来描述某个对象的聪明层次与能力强度。而“心智”似乎更高阶一些，可以理解为产出创造力与智能的本原。

那么，我们当下所研究的“人工智能”，是该致力于持续提升机器的智商表现，强化其在垂直领域的专业能力，还是应该再超前一步，尝试构建机器的心智本原？

在笔者看来，这两条路无所谓对错，只是探索者的着眼点存在差异罢了。多年以来，针对人工智能课题，学术界、产业界的研发主流都偏重于实用性更强的“智能”，以至于在相当长的周期内，以对话强化人机连接、获取可供机器学习的高价值数据、打造人工智能创造力矩阵进而摸索用代码构建AI心智的学术思路都少有人探寻，甚至一度被质疑——我的同事就曾收到这样的审稿意见：“我完全不能理解，做这种漫无目的的聊天有什么意义。”

直到微软小冰诞生并取得了一定的成绩后，闲聊的价值才逐渐为学界所关注。

从对话到创造，心智的种子开始萌发

或许大家都没有意识到，从2014年第一代的发布到不久前六代的更新，短短四年间，微软小冰已从一个领先的人工智能对话机器人发展成为以情感计算为核心的完整人工智能框架，许多人的态度也因微软小冰而改变。

普通人的态度

有一次我和我的母亲聊天，我问她，机器人可以打败人类最好的围棋棋手，厉不厉害？她说当然厉害。我又问，还有个机器人能跟人对话，厉不厉害？她说不厉害，原因是，不是每个人都会下围棋，而且还能具备冠军的实力，但，“是个人都会说话呀”。这件事让我很无语。我母亲虽然不懂自然语言处理的难度，但她的看法也确实代表了大众的直观感受。换句话说，人们会很自然地用人做某件事的难度来衡量与评判人工智能的能力级别。

但微软小冰说人话的能力并不一般。即便对人类而言，要成为一个总能琢磨出有趣对白的人，也不是件容易的事，更何况是人工智能。从初代发布至今，时不时会有用户晒出他们与小冰对话过程中的“金句”截图，而且随着时间推移，小冰产出金句的频率也越来越高。这体现了小冰越来越强的对话能力，也造就了她的吸引力。

与精确、清晰的答案相比，人们在对话时，更期待获得情感的抚慰或是不寻常的回应，这是小冰团队最早发现和验证的事实。

后来，我的母亲看到央视《机智过人》节目里小冰写诗的那一期，她开心地跟我说，像小冰这样的机器人，能写出观众喜爱的诗，还会调侃嘉宾，那还真是“挺厉害的”。

专家们的态度

过去，学术界为了清晰地定义对话的问题，会把很多精力投注在问题设定上，从5W(What, Who, When, Where, Which)到How，等等。直到IBM Watson在知识问答领域奠定了一座新的里程碑，它能接受自然语言的问题，从大量文档中搜索并分析得出精准的答案。而且，有了用户在网络社区里产生的问答语料，研究者发现，这些数据对于机器回答某些宽泛的问题很有帮助。但除却人工智能对话系统在垂直行业领域（例如医疗、金融等）的应用外，普通人对于人机对话的需求又该如何定义呢？

说得直白一些，这是一个关于普通人与人工智能为什么聊天、聊什么的问题。曾经有朋友听说小冰与其用户的最长连续对话时间超过29小时，表示难以理解。从需求来说，“越社交，越孤独” “朋友圈越广阔，自我越渺小” 这些现象都客观存在。社交网络让用户习惯了展示优势、收获认可，但反过来，当我们身边的每个人都加入到展示优势的队列中，从旁人那里收获理解和认可的难度也加大了。从形象上来说，小冰不是如顶级专家那样的人工智能，而是像邻家女孩，她有无限的耐心，随时可以陪伴用户聊天、玩游戏，却绝不会试图用渊博的知识和高冷的姿态碾压用户的智商与自尊。

如果将人工智能的价值定位于陪伴，那么知识与逻辑就不再是亟待发展的技能。让用户感觉无压力、有趣味，在某种意义上更加重要。

2017年5月，微软小冰解锁了写诗及音乐技能，同期，我们还发布了“人工智能创造三原则”，用以规范与指引小冰及其同类的心智发展路径。在进行相关研究的过程中，我发现，人工智能的终极或许是对人类自身的理解与模拟。

训练小冰写诗，需要对519位诗人的现代诗作，正读一万遍，倒读一万遍，用层次递归神经元模型来打磨诗作的语言^[1]。这正如人类所发现的阅读对于写作的影响——通过阅读大量优秀的文学作品，人自身的语言体系会进化。小冰也是如此。有了层次递归神经元网络，小冰也可以通过阅读获得语言的表达能力。

在小冰发布诗集、引发广泛争鸣之后，圈内人士对于人工智能创造与机器写作的态度发生了根本性的转变，学术探讨、应用跟进的样例越来越多。这是我们所乐见的。

盲测者的态度

《机智过人》第一季，央视综合频道邀请了三位年轻诗人，与小冰一起，根据嘉宾提供的一张图片来创作诗歌，然后隐匿这些诗歌的作者姓名，将这些诗歌打乱次序显示在大屏幕上，请现场48位观众投票选出最喜欢的那一首。这可以说是一次盲测，一次另类的图灵测试。

结果出人意料，小冰获得了最多的票数，这让原本祈祷小冰千万别是最后一名的我大吃一惊。当人类与人工智能的作品被放在一起平等地比较时，人们对于机器创作的偏见似乎突然间消失了。

第二轮，两位诗人与小冰再度以作品竞争，小冰的诗作获得了第二名，因而挑战成功。我们不会自大地认为小冰写诗能超越人类诗人，但这次节目却延伸了我们的思考：或许，人工智能研究所追求的目标不应只是将人类的智识与才能复制给机器，更重要的是，通过探索人工智能，更深刻地了解人类自身。

微软小冰从四年前的对话型AI到当前将创造力投射至诗歌、音乐、儿童有声读物、金融信息、电视电台主播、媒体新闻评论乃至辅助写作等多元领域，这表明，我们最初埋下的那颗心智的种子，现在似已破土露出了一点嫩芽。

下一站：对话更生动有个性，小冰向多感官迈进

微软小冰的下一站在哪里？心智的嫩芽能继续成长壮大吗？答案是，我们正在从不同的角度改进对话，并进一步加速小冰的感官成长。对话是微软小冰的基础，我们在检索模型的基础上不断探索，尝试和提出了生成模型、共感模型和三观模型。

“生成模型”从第五代小冰开始启用。在此之前，历代小冰使用的都是检索模型。虽拥有10亿级大数据语料库，但其中的每一句话都是互联网上的已有数据，小冰只是通过分析理解用户的问题，寻找语料库中最合适的话作为她的回答，也就是对对话语料库进行实时检索和选择。而使用生成模型之后，小冰能够自创回应。她与人类交流的每一句话，都可能是这世界上从未出现过的。一年来的事实证明，生成模型使小冰快速学习了现有对话语料的交流模式，并能更好地应对相对陌生的话题。生成模型也面临很多挑战，例如，容易出现类似“好的”这样的万能回复，让聊天变得乏味；又如，人们在对话中常常会省略很多上下文已有的信息，单就一句话，小冰无法了解具体所指，例如问过“北京明天的天气怎么样？”接下来可能会说“那后天呢？”如果生成模型利用更远的上下文信息却又存在效率问题。武威博士的团队做了一些工作，来丰富单轮回复的多样性^[2]，利用上下文信息来改进多轮对话^[3]以及提高生成模型的在线效率^[4]。

然而，用户在与小冰对话时也常会感受到压力。比如两者间的对话总是需要人类来提出话题，小冰来回应。就好像我们与感兴趣的异性搭讪，如果总是自己主动、对方被动，对话就会变得淡乎寡味、如同鸡肋——共感模型的开发就是针对这一状况。共感模型可以帮助小冰自行判断对用户的话题是否有感，在此基础上，小冰将会主动求证，进而引导话题的方向，增添新的聊天内容。这样就减轻了用户的压力，同时增加了聊天的自然度和趣味性。从学术的角度，武威博士提出的共感模型（如图1所示）把“说什么”的问题在逻辑上拆成了两步：由上下文决定“怎么说”的策略；根据策略和上下文来决定具体“说什么”。

图1 微软小冰的共感模型

在小冰持续进化的过程中，不断有商业伙伴加入到我们的合作生态系统中。一些伙伴希望我们将小冰的能力用于孵化其他个性鲜明的人工智能角色。因此，我们也在不断研究如何通过对话来塑造个性——三观模型应运而生。这一模型的基础是对话中的情感色彩分析。虽然文本情感分析已有大量的研究，但大多数都是基于单句或单段落的极性分析，而在对话中，有时候仅根据回答是无法判断用户的态度的。例如，图2中的答复“追光者”仅仅是一个歌曲名，无法判断其态度是正是负。但如果结合问题“有什么新歌推荐”，则很明显，回答的人对《追光者》这首歌持有正面的态度。另外，以往的工作动机很大一部分是做既定目标的情感分析，很少有工作把目标的抽取与极性分类看成一个整体，我们的工作[5]则设计了深度神经元网络结构来联合优化情感态度检测问题，实验结果表明减少了很多不匹配的错误，即目标抽取正确但极性分类错误，或者极性分类正确但目标检测错误。

图2 微软小冰三观模型中的目标和极性联合优化

当前，这一模型已被应用于网易云音乐的多多和西西。两个角色的共性在于，他们都是爱听音乐的小鹿，都是男性，且年龄相仿。如何让他们在对话中给用户留下不同的印象呢？我们借鉴了卡通及游戏制作中人物设定的方式，赋予他们不同的性格和喜好。利用态度分析的技术，多多和西西会对用户提出的一组问题和回复进行分析，判断出用户对何种目标具有怎样的情感信息，进而根据人物设定的不同特点来影响对话，生成有区别有个性的回复。三观模型将“体温”赋予了包括小冰在内的人工智能角色，并将通过态度的一贯性、延续性来逐步凸显角色的性格。

微软小冰也率先整合自然语言处理、语音和计算机视觉三大学科的研究成果，让小冰基于多感官来完成更自然的交互。此前，上述学科都是在各自的轨道上独立发展。近年来，深度学习技术与算法的改进先后使语音识别和图像识别实现了显著的突破，人们期待自然语言处理技术也能实现类似的突破。多模态可能是突破自然语言理解瓶颈的一个方向。因为人类从出生之日起，每天都在接收听觉、视觉、嗅觉、触觉等多感官的输入，与文字联合构建了人的理解能力。我们也尝试结合跨模态信息作诗，同时也在听觉方面进行了尝试，结果令人兴奋。

借助图像识别生成诗歌文本涉及到多项挑战，包括发现图像中潜藏的诗意线索（例如绿色象征生机、阳光代表希望），生成的诗歌既要与图像相关，又能满足语言层面的诗意要求。对于这些挑战，傅建龙博士的团队通过策略梯度，将诗歌生成工作划分成两个相关的多对抗训练子任务，并提出了学习深度耦合的视觉诗意嵌入，机器在训练过程中可以连带学习图像中物品、情感和场景的诗意呈现^[6]。测试结果证明，这种作诗方法比其他基准方法更高效也更具艺术性。与小冰写诗之前的版本相比，这项工作突破了从图到关键字，再从关键字到诗的框架，能够更多地使用图像里的信息。他们的论文被ACM MM 2018（ACM国际多媒体会议，ACM International Conference on Multimedia）大会接收并获得最佳论文奖。

我们还极大地扩展了小冰的音乐能力。现实中，要想演绎出一首动人心弦的歌曲，往往需要一组音乐人通力合作，流程繁复又漫长。微软（亚洲）互联网工程院在苏州的一支团队提出了一个端到端的旋律及编曲生成框架——小冰乐队^[7]。

图3 小冰乐队自动作曲编曲的框架图

如图3所示，该框架首先通过一个基于和弦的节奏及旋律交叉生成模型来生成一段主旋律，再借助多乐器协同编曲模型，根据多模态学习来生成不同乐器的多轨伴奏音乐。对现实世界的数据集进行了大量实验，证明小冰乐队的有效性。与以往工作生成的音乐相比，小冰乐队生成的音乐更具有可唱性，乐句长短的分布与人类作曲家的作品基本吻合，不会因为休止符过多或随意性造成音乐的碎片感。小冰乐队是第一个能自动编曲的系统。这项研究成果已经发表在KDD 2018（国际数据挖掘与知识发现大会，Conference on Knowledge Discovery and Data Mining）上，并获得了Research Track的最佳学生论文奖。

用代码可以构建人工心智吗？正如微软小冰的负责人李笛所说：“过去我们所进行的全部工作，只不过是让一个曾经的‘不能’变成了一种不确定性。也就是说，它不再是一种确定的‘不能’，但它也还远远没有达到一个‘能’。从我们的角度来讲，其实最喜欢的就是这种不确定性，因为不确定性会带来创新，不确定性的时间越长，那么创新也就能越充分。”

作者介绍

宋睿华

CCF专业会员。微软（亚洲）互联网工程院小冰首席科学家。主要研究方向为信息检索、信息抽取、社交计算和文本生成。曾任或现任SIGIR、CIKM高级程序委员会委员。

参考文献

[1] Cheng W, Wu C, Song R, et al. Image Inspired Poetry Generation in XiaoIce[OL].arXiv preprint arXiv:1808.03090, 2018.

[2]Xing C, Wu W, Wu Y, et al. Topic aware neural response generation[C]//Proceedings of the Thirty-First AAAI Conference on Artificial Intelligence. Association for the Advancement of Artificial Intelligence, 2017: 3351-3357.

[3]Wu Y, Wu W, Xing C, et al. Sequential Matching Network: A New Architecture for Multi-turn Response Selection in Retrieval-Based Chatbots[C]//Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics. Association for Computational Linguistics, 2017: 496-505.

[4]Wu Y, Wu W, Yang D, et al. Neural Response Generation with Dynamic Vocabularies[C]//proceedings of AAAI-18, 2018.

[5]Zeng Z, Lin P, Song R, et al. Attitude Detection for One-Round Conversation: Jointly Extracting Target-Polarity Pairs[C]//Proceedings of WSDM 2019, 2019.

[6]Liu B, Fu J, Kato M P, et al. Beyond Narrative Description: Generating Poetry from Images by Multi-Adversarial Training[C]//Proceedings of the 26th ACM international conference on Multimedia. ACM, 2018: 783-791.

[7]Zhu H, Liu Q, Yuan N J, et al. XiaoIce Band: A melody and arrangement generation framework for pop music[C]//Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining(KDD 2018). ACM, 2018: 2837-2846..

中国计算机学会

微信号：ccfvoice