【人工智能】图灵奖获得者John Hopcroft：理性看待AI浪潮，下次革命或许还需要另外40年

2017 年 10 月 28 日 产业智能官 雷锋网

雷锋网AI科技评论消息，2017年10月19日微软亚洲研究院联合哈尔滨工业大学共同在哈尔滨市举办了第19届“21世纪的计算” 大型国际学术研讨会（21CCC 2017）。

“二十一世纪的计算”学术研讨会是微软亚洲研究院自创立之初便开始举办的年度学术盛会，每年都吸引着无数计算机科学领域学者们的目光。作为中国及亚太地区规模最大、最具影响力的计算机科学教育与研究盛会之一，该大会已在中国、日本、韩国、新加坡等多个国家和地区成功举办了18届。

本次大会的主题为“人工智能，未来之路”，并邀请了包括图灵奖获得者John Hopcroft在内的多位世界级计算机领域专家分享他们在AI领域的研究和观点。现场有超过1500名高校师生参与。

下面内容为雷锋网记者根据几位嘉宾的现场报告和微软亚洲研究院资深研究员秦涛博士的解读整理而成，附加有雷锋网现场拍摄的PPT，以飨诸位。

Peter Lee：Artisanal AI（人工智能的手工性）

Peter Lee认为，虽然目前人工智能已经到达了一种前所未有的科技高度，但是创造和部署这样的人工智能应用并非易事，需要大量的专业知识和手动设计的解决方案。所以目前AI开发还严重依赖经过训练的AI“手工艺人”或者“工匠”。因此，在这个意义上，可以说我们还正处于“手工AI”的时代。

Peter提到十九世纪欧洲工业设计领域工艺美术运动的创始人William Morris，William认为所有的人都应该可以接触到美好的东西，但是创作过程对手工艺人的依赖又阻碍了艺术的普及化。正如中国古代的丝绸、玉器一样，正是由于熟练工匠的缺乏导致这些东西价值不菲。

Peter以活字印刷为例。在这项发明之前，欧洲的书籍都以手抄的形式传播。随着中国的这项技术传入欧洲，在十五世纪中期，在短短的50年中，整个欧洲的书籍数量就从3万本增长到一千两百万本。这一变化对当时的社会制度是破坏性的。教堂无法继续垄断书籍，新的知识表现形式层出不穷，而人们对教育的期望也从根本上发生了改变。Peter认为，从某种意义上来说，我们面临的AI对人类社会的当前结构也将是破坏性的，AI将和活字印刷机一样改变人类历史。但是我们还需要从“手工AI”的时代往前走，创造出人人皆可用的AI技术。

Peter介绍，微软当前正在着手这样的工作，以让更多的人便捷地使用AI技术。他向大家展示了微软搭建的基于云的AI平台。其中The Bot Framework可以帮助开发者便捷地搭建聊天机器人，Cognitive Services让开发者方便地将AI嵌入到每个APP中，Azure Machine Learning则可以帮助你从零开始进行数据研究以及创建AI应用。这个平台有较为先进的数据服务以及最新的硬件设备，支持所有主流开源的机器学习框架，具有良好的扩展性。

John Hopcroft：The AI Revolution（AI 革命）

在本演讲中，康奈尔大学计算机系教授、1986年图灵奖获得者John Hopcroft带领大家回顾了机器学习的基础知识，并分享了一些深度学习领域中比较有趣的研究问题。

John从最简单的线性分类器（感知器）算法讲起。随后介绍了在数据线性不可分情况下把样本映射到更高维空间的研究，包括核函数等，这种情况下支持向量机的出现极大地促进了这方面的研究。在支持向量机之后，机器学习的下一个大的发展就是深度学习。随着深度神经网络的引入，特别是卷积神经网络（卷积神经网络，由卷积层、池化层、全连接层组成，最后是softmax输出每个类别的概率）的引入，图像分类等方面的错误率逐年下降，在2015年微软亚研院提出的152层深度残差网络（ResNet）在图像分类中超过了人的识别水平。

但是在这方面还有很多问题值得研究，例如每个门学习的是什么、怎样让第二层的门与第一层的门学习不同的信息、怎样让一个门学习的内容随时间演化、用不同的初始权重门学习的是否是相同的内容、用不同的图像集训练两个网络早期的门学习的是否相同等等。

此外，在训练一个深度网络时，可能会有许多局部极小值，有些极小值可能会比其他的好。如何保证我们在训练的过程中能够找到一个好的局部极小值呢？训练深度网络往往会花费很长的时间，我们是否可以加速训练呢？这些也都是非常有意义的研究方向。

随后John考虑了当训练两个网络时会出现什么有趣的研究。对于两个网络，我们可以同时训练，也可以一先一后。

这两种情况，两个网络在激活空间里是否共享相同的区域呢？

一个当前比较火的例子就是生成式对抗网络（GAN），这个网络属于一先一后的情况。

最后John提出了一个问题：人工智能是真的吗？他认为，现在的人工智能只是高维空间中的模式识别，AI还不能提取出一个事物的本质或者理解它的功能。在John看来，要想实现这一点，只是需要另外40年的时间。

他还说到，其实很多现在看来是智能的任务其实都不是AI，有些只需要强大的计算以及大数据就足够了，例如棋类比赛。计算机正在做越来越多的人们以为需要智能的事情，实际上有些并不是AI。所以我们在从事人工智能相关的工作时要想一想，这个问题的核心的是AI吗？还是仅仅需要大计算而已？

Lise Getoor：Big Graph Data Science（大图数据分析）

图数据是 Lise Getoor教授一直以来的研究对象。Lise Getoor教授认为，我们正处于数据爆炸的时代，图数据无处不在。然而，数量并不代表质量，大数据分析的挑战之一就在于如何能够合理利用大型、异构、不完整且带有噪音的集成数据进行合理推论。

在演讲中，Lise Getoor教授首先给我们介绍了一些图数据所需的常见推理模式。

例如为缺失标签的节点做标签预测的协同分类（collective classification），给出数据里隐含的连接节点的边的连接预测（link predictions），以及判断两个节点是否为同一实体并进行合并的实体分辨（entity resolution）。

随后她像我们介绍了用于解决这些重要问题的一种工具——概率软逻辑（probabilistic softlogic ( PSL )，psl.linqs.org）。

最后她向我们展示了PSL应用的一些案例，例如政治辩论立场分类、混合推荐系统、药物研究、垃圾邮件检测等。

Raymond Mooney：The Deep Learning Revolution: Progress, Promise, and Profligate Promotion（深度学习革命）

首先Raymond教授简单回顾了机器学习的历史，从单层神经网络到符号AI和知识工程，到多层神经网络和符号学习，到统计学习和核方法，再到近年来的深度学习。

1957年，弗兰克•罗森布拉特（Frank Rosenblatt）提出感知器算法。感知器就是一个最简单的神经网络，只有输入层和输出层，没有隐藏层。感知器利用爬山法从训练样本中进行学习更新参数。只有当样本线性可分的时候，感知器才能进行学习；很多分类的函数感知器并不能学习，例如XOR。

1969年，马文•明斯基（Marvin Minsky）和西摩尔•帕普特（Seymour Papert）发表了《Perceptrons: An Introduction to Computational Geometry》，书中描述了简单神经网络也就是感知器的局限性。此后七十年代到八十年代初期，神经网络方面的研究陷入了低谷。

上个世纪80年代中期连接主义的兴起导致了神经网络的复兴，这一时期反向传播算法被用来训练3层神经网络（包含输入层输出层以及一个隐藏层）。但是，通用反向传播算法并不能很好的推广到更深的网络，并且其方法也缺乏理论基础，因此1995-2010这15年间神经网络的研究陷入了第二次低谷，这一时期机器学习研究的兴起转移到概率图模型和以支持向量机为代表的核方法。

2010年以后，随着更好的深度神经网络训练方法的提出，神经网络又卷土重来。深度学习“革命”，Raymond用“革命”一词来形容深度学习的影响之大。深度学习在几大方面取得了成功，包括计算机视觉（主要归功于卷积神经网络CNNs）、机器翻译和语音识别（主要归功于循环神经网络RNNs）以及视频和棋牌游戏（得益于深度强化学习）。

近年来深度学习的推动力除了前面提到的更好的训练算法和模型，还有两个方面：大规模有标注的训练数据和强大的计算力（如GPU）。大数据、大模型、大计算是深度学习成功的三大支柱因素，但它们同时也为深度学习的进一步发展和普及带来了一些制约因素。现在深度学习面临一些新的挑战，包括（1）如何从无标注的数据里学习，（2）如何降低、压缩模型大小，（3）全新的硬件设计、算法设计、系统设计来加速深度神经网络的训练和使用，（4）如何与知识图谱、逻辑推理、符号学习相结合像人一样从小样本进行有效学习，（5）如何在复杂的动态系统里进行博弈机器学习。

随后Raymond教授简单介绍了卷积神经网络、循环神经网络以及深度强化学习的基本内容，并分析了为什么在人工智能领域，科学家总是热衷于让AI跟人类下棋，玩游戏？

从简单的跳棋、五子棋，到更加复杂的中国象棋、国际象棋，以及最近非常热门的围棋和德州扑克，每次AI在某个智力游戏上成功地击败人类选手，便会让大家唏嘘不已，慨叹AI会在不久的将来取代人类。而科学家之所以乐于选择棋类游戏，一方面是因为它们自古以来就被认为是人类智力活动的象征，模拟人类活动的AI自然要以此为目标。成功达到人类甚至高于人类水平，可以吸引更多人关注并投身于人工智能的研究和应用中来。另一方面，棋类也很适合作为新的AI算法的标杆（Benchmark）。棋类游戏的规则简洁明了，输赢都在盘面，适合计算机来求解。理论上只要在计算能力和算法上有新的突破，任何新的棋类游戏都有可能得到攻克。一个会下棋的AI也并非科学家的终极目标，其更积极的意义在于，AI算法在研究棋艺的过程中不断精进和提升，会带来更多设计上的创新，从而在根本上提升人工智能算法的能力和适用范围。

Raymond教授认为机器学习、神经网络等有着悠久的历史，深度学习也取得了很多成绩，并且还将取得更多成绩，但现在深度学习的能力被过度夸大了，其有着明显的局限性，还不能真正解决AI问题。Raymond认为我们不能过于满足和夸大当前的成绩，AI的核心问题尚未解决，未来的路还很长。

滕尚华：Scalable Algorithms for Big Data and Network Analysis（大数据和网络分析的可扩展算法）

身处大数据时代，我们对高效算法的需求比先前任何时候都要突出。滕尚华教授指出，大数据将我们带入我们先驱者所设想的渐近世界，但问题规模的爆炸式增长也对经典算法的有效性提出挑战：根据多项式时间表征，以前被认为有效的算法可能不再适用，有效的算法应该是可扩展的。换句话来说就是，问题的复杂性就问题的大小而言，应当是线性的或近似线性的。因此可扩展性应该被提升为用于表征高效运算的中心复杂性概念。而设计具有可扩展性的算法，需要借助一些技巧，例如拉普拉斯范式。这类技巧包括局部网络探索、高阶抽样法、稀疏化以及图分割等。此外还包括谱图理论方法，如用于计算电流和在高斯-马尔可夫随机场中取样等。这些方法体现了网络分析中组合、数值和统计思维的融合。滕尚华教授在演讲中，通过一些基本的网络分析问题解释了这些技巧的应用，特别是在社会和信息网络中确定重要的节点和连贯的社区中的应用。

雷锋网注：由于此时记者正在采访其中一位嘉宾，没能聆听滕尚华教授的报告内容，深表遗憾。

洪小文：探索机器和人类学习的方式

在本演讲中，洪小文博士将介绍微软亚洲研究院在帮助机器学习方面取得的最新成果，例如对偶学习和自生成数据学习。此外，他还强调了机器学习目前面临的一些重要挑战。

洪小文博士表示近年来，机器学习在计算机视觉、语音和自然语言处理等领域取得了长足的进步。随着人工智能对社会的影响越来越大，更多挑战需要人们去研究、去攻克，因此无论是对人类还是机器来说，我们都进入了持续学习的时代：从“无所不知”到“无所不学”。

对偶学习

对于计算机而言，学习需要时间、数据和老师，而深度学习则需要大规模的标记数据。数据标记的成本非常高，并且在很多应用场景中，获取大量标记数据已是难题（例如罕见疾病、少数民族语言等）。为了降低对大规模标注数据的依赖性，微软亚洲研究院的研究员提出了一种新的学习范式——对偶学习。

很多人工智能的应用涉及两个互为对偶的任务。例如，机器翻译中从中文到英文翻译和从英文到中文的翻译互为对偶，语音处理中语音识别和语音合成互为对偶，图像理解中基于图像生成文本和基于文本生成图像互为对偶等等。这些互为对偶的任务可以形成一个闭环，使从没有标注的数据中进行学习成为可能。

对偶学习的最关键一点在于，给定一个原始任务模型，其对偶任务的模型可以给其提供反馈。同样的，给定一个对偶任务的模型，其原始任务的模型也可以给该对偶任务的模型提供反馈，从而这两个互为对偶的任务可以相互提供反馈，相互学习、相互提高。

洪小文博士表示除了机器翻译，对偶学习还可以用于训练图像分类生成、情感分析等多个研究领域。

自增强学习

介绍完对偶学习，洪小文博士开始探讨在多个领域展示出优势的卷积神经网络CNN是否同样适用于3D图形领域。和其他学习任务一样，训练CNN需要大规模的数据，保证大量的图片输入和与之对应的材质属性。而数据采集需要非常多复杂的设备支持、相对更长的采集时间，同时要求大量的手工工作，这其中的成本是相当高昂的。

为了利用这些海量的未标定的照片来进行机器学习，我们设计了自增强训练的方法(Self-augmented training)。自增强训练采用了一种特殊的CNN训练方式，区别于传统利用标注的输入输出对作为训练数据的训练方法，自增强训练利用当前尚未训练好的CNN来对未标定的数据进行测试。

当然，由于现在CNN还没有训练好，测试结果肯定不能作为正确的标定用来训练。但是，我们对材质属性估计这个问题的逆问题，具有完整的知识。因此，可以用这个中间测试结果得到的材质属性，配合现有的材质渲染程序，生成一个当前中间结果的材质属性和其对应的渲染结果（照片）的数据对，这一数据对是完好保持纹理照片和纹理属性这一对应关系的“正确标定数据对”，因此我们就可以放心地利用这一自增强出来的数据来进行训练。

AI 创造

除机器进行自身学习以外，人类同样需要提升自己的技能。

洪小文博士表示机器还可以在多方面帮助人们学习，例如提供学习建议和案例，作为语言学习的辅助手段。AI还可以有艺术创造力：创作诗歌、歌词以及音乐，对图片进行风格转换等。

微软小英

首先，洪小文博士介绍了微软小英。它可以帮助初学者快速建立日常英语沟通能力，帮助英语学习者完善发音，熟练口语。微软小英融合了语音识别、语音合成、自然语言理解、机器翻译、机器学习、大数据分析等人工智能前沿技术。

小英的口语评测系统搭建在一个由机器学习训练成的神经网络的语音识别系统上，基本处理流程是利用语音识别模型，根据跟读文本对用户的录音进行音素层级的切分。每一个小单元再和其相应的标准发音模式进行匹配，发音越标准则匹配越好，得分也越高。系统中各个标准发音的模型是深层神经网络在几百个发音标准的美式英语数据库中训练而成的。

微软小冰

随后，在AI的艺术创造方面，洪小文博士介绍了微软小冰的写诗能力。据介绍，小冰写诗，主要是运用了生成式对抗网络（GAN）。

简单来说就是，有一个诗歌生成模型（generator），它的目标是生成一首接近于人类创作的诗歌；与此同时我们有一个诗歌判别模型（discriminator），它的目标是能够正确判别一首诗是机器生成出来的还是人类写的。诗歌生成模型和判别模型之间进行博弈，直至生成模型与判别模型无法提高自己——即判别模型无法判断一首诗是生成出来的还是真实的而结束。小冰于今年出版了第一本现代诗集《阳光失了玻璃窗》，洪小文博士现场展示了小冰创作的诗。

除了作诗，她还能根据诗词谱音，创作一首歌曲。

风格迁移

此外，洪小文博士还介绍了深度学习运用到图片风格迁移的研究。他们利用卷积神经网络分解内容图片和风格图片的特点，然后加以融合。微软亚研院的研究员在CVPR 2017上发表了一种新的风格迁移算法，该算法对图像的风格提供了一种显式的表达“风格基元”（styleBank），通过对不同风格的图片使用不同的“风格基元”，再用简单的自解码器模型（auto-encoder）便可以实现不同风格的迁移。目前这项风格迁移技术已经被应用到最新的相机应用Microsoft Pix iOS版，允许用户将照片的纹理、图案和色调转化成所选定的风格，使之成为一件独特的创作作品。

洪小文博士补充道，除上述算法以外，微软亚洲研究院的研究员们还提出了一个端到端 ( end-to-end ) 的在线视频风格迁移模型 ( Coherent Online Video Style Transfer )。

这个模型在处理相邻帧的连续性的做法是：对于可追踪的区域，用前一帧对应区域的特征以保证连续性，而对于遮挡区域，则用当前帧的特征，最后得到既连续又没有重影的风格化结果。

而对于更为精确和精致的视觉特征转化，需要建立图像间的语义对应。微软亚研院的研究员们提出了一种新的算法，结合图像对偶技术（Image Analogy）和深度神经网络（DNN），为内容上相关但视觉风格迥异的两张图像之间建立起像素级的对应关系，从而实现精确地视觉特征迁移。

最后洪小文博士总结到：人类和机器都进入了持续学习的时代：从“无所不知”到“无所不学”；学习过程永远需要时间、数据和老师，而在学习过程中，机器和人类将一同共进化；对偶学习等新的方法让缺乏大量标记数据的机器学习成为可能；Encoder-decoder DNN 以及 GAN等神经网络让机器有了艺术创造力；人类可以利用机器更好地学习。

延展阅读：AI重新定义内容体验

来源：人人都是产品经理

由人人都是产品经理与腾讯大讲堂联合主办的2017中国产品经理大会：解码未来产品经理在深圳宝立方国际博览中心如期举行。猎豹移动海外战略合作部总经理、News Republic 副总裁@高千峰从内容传播的演变和发展途径讲述了三种内容形态，并结合自己在实际工作中的体会，给大家分享： AI如何重新定义内容、如何对用户体验产生影响。

分享嘉宾：News Republic 副总裁高千峰

以下内容为嘉宾分享实录，由人人都是产品经理社区媒体组@Ella 依据嘉宾分享内容整理，编辑有修改，嘉宾已确认：

在过去一年半的时间里，我负责猎豹海外的内容业务；从今年开始，我又在AI这个方向重点投入了很多精力。接下来，我将就其中的一些收获和理解，并从几个维度和大家分享一下。

一. 内容发展路径

我把内容大致分成三类：

我们可以顺着这三类内容的发展路径展开来看一下：

第一类：图文

古代，人们通过壁画承载、表达内容，后来是竹简，造纸术的出现后有了纸张，近代随着纸质技术的提高，又出现了大量的纸媒：杂志、报纸、期刊、书籍等等。而互联网的出现，使得内容的呈现及传播产生了一个质的飞跃。

站在内容消费者的角度来说，在互联网出现之前，我们获取内容的效率相对有限：书籍要购买，杂志要订阅（有时候甚至订不到），期刊可能知之甚少；互联网出现以后，以Yahoo为代表的内容门户网站搜索（还有新浪、搜狐等）逐步“渗透”到人们的生活中，互联网搜索的兴起让大家有一个渠道可以获取大量的、多种类的内容和信息。

近两年，AI技术的兴起对很多领域（特别是内容生产、传播领域）产生了巨大的影响。比如大家熟悉的“今日头条”，其核心是一个AI算法驱动的应用。猎豹旗下的News Republic也是这样一款产品，可以理解为海外版的“今日头条”。

第二类：语音

古代，说书、讲段子是语音内容传播的主要方式。

近代技术发展了，出现了收音机、录音机、CD等，把人说的语音内容通过一定程度的数字化展现给有需要的用户。

最近几年，随着智能手机的普及和互联网的发展，像蜻蜓FM、喜马拉雅这样的手机端APP成为更受欢迎的提供更加丰富的语音内容的平台和传播方式。

最近的一个重要变化在去年下半年，AI语音/音箱的出现，让语音内容又发生了一个“质”的变化 —— 内容和人之间可以相互沟通。

第三类：视频

古代的戏班子通过现场演出的方式进行内容的表达，后来出现了电视机；从黑白电视到彩色电视，再到数字电视等在不断演变。

而随着互联网的出现，整个视频内容的生产、传播形态又发生了变化。颇受欢迎的像海外的YouTube，国内的优酷土豆，以及最近兴起的直播类APP正在“颠覆”着对传统内容的界定。

作为现今内容消费的生力军——90后的童鞋，他们开始接触内容的时候正是互联网逐步兴起的时代，像报纸、收音机、甚至电视他们可能都不感冒。那么，如何做出受他们欢迎的内容产品呢？

接下来，我将结合以上三种内容形态，以及自己参与的一些实际工作中的体会，继续给大家分享一下 —— AI如何重新定义内容、如何对用户体验产生影响。

二. AI技术对内容的影响

AI技术出现之后，对内容本身的形态有一个非常大的促进。

1. 图文类内容

门户时代是图文内容的一个里程碑，人们通过门户这个渠道，可以大量获取信息。用户以自我驱动访问为主，主动去寻找内容——知道想要的内容大致在那里，需要花时间自己浏览、搜索分门别类的各种内容，可以总结为“人找内容”。

AI技术兴起后，机器对内容进行学习、有了更多理解，现在变成了“内容找人”——今日头条用多了以后，你会发现看到的都是你喜欢的内容，都是某些品类的文章。而这都是靠机器学习、AI这些技术驱动。内容本身好像具备了思想，它知道人在关心什么、想知道什么；通过技术驱动让内容本身更懂得用户的兴趣爱好。

这里的内容体验是关于个性化的体验，借助于技术实现，分为：内容画像、用户画像，还有一个核心预测算法。

做产品都知道，我们要了解用户的行为。但是在内容领域，你对内容本身的理解、是不是能够理解一篇文章细节，非常重要 —— 你不理解，就很难用相同的语言去跟用户沟通，更谈不上个性化体验。

在理解内容的基础上，我们通过技术手段可以把内容和人之间做一个连接。

举个例子：

这个平台有海量的内容，每一篇文章我们都会有标签，都会设置一些关键词——这篇是美国的，这篇是西班牙的，这个内容是体育类的、足球类的等，平台可以打无数的细分领域的标签。整个积累下来，差不多有几百万标签的量，这是对内容本身进行处理的第一步：结构化和数据化。把任何一篇文章拿出来以后，都能对它进行打标签、分类，进行关键信息的提取。

第二步，用户画像非常重要。除了用户所在的国家、区域、城市、年龄、性别、兴趣爱好这些基本的信息之外，还有其他的信息——使用设备的基本信息，动态的地理位置等等，大数据的积累非常关键。没有数据积累，很难对用户画像进行一个准确的定义。

有了内容画像（第一步的结构化和数据化的内容）和用户画像（第二步）之后，下一步就靠AI技术了：通过机器学习（核心是模型算法，对内容和人进行精准匹配。这可以理解成一个机器人，一开始是一个小孩子，教他不断迭代和成长去理解用户本身的行为），进行个性化推荐。

产品固然重要，但是要让内容形态通过AI技术达到不一样的体验，那么技术本身的驱动就异常重要了。

推送内容的个性化、时间点的选择、频率等，核心完全依赖于AI技术去控制。AI技术还可以完成其它一些任务，例如标题重命名、图片识别等等。

现在整个的生活节奏都很快，我们手机上都装了无数APP，不同的APP都在抢夺用户的时间。对内容来说，如何赢得用户更多的停留时长，是很重要的事。

让机器学会AI技术完全理解内容需要一定的时间，在初期的时候会很困难，但是到达一定数量级后就会有一个非常快速的增长。要在最合适的时间、最合适的地点，把最合适的内容推送给最合适的人，这是我们一直在努力的目标。

2. 语音类内容

早期的时候，收音机里的就是固定为数不多的几个频道，用户几乎没得选；APP出现以后，我们可以选择更多频道的一些内容、也包括很多非广播类的内容。而如今，从原来的被动收听、没有互动，到智能语音技术的出现，让内容可以与人直接对话。

如何实现呢？

一个是语音识别，还有一个是语音合成，这两个缺一不可。

现在的技术足以把语音转换成文字，无非是准确率的问题。转换成文字之后，计算机就可以识别了，就可以进行分析和处理。而语音合成则与之相反，将文字转化成语音。

AI本身只是一个技术，需要一个载体去去承载，否则技术只能是技术。这个载体可以是软件APP，也可以是音箱或其他设备。

3. 视频类内容

在图文、语音之后，我们还有一个更高的要求——视频。

早期的时候，视频网站多偏聚合，大部分还是传统的PGC为主。现在已经在慢慢变化了：逐渐会有一些UGC的内容，各种作者的内容都在上面。

之前我们在网站或APP上看到的内容都偏传统PGC媒体，但是现在有更多新的UGC内容形态产生了。

内容更加丰富多彩，用户有更多的选择。
我们在消费内容的同时，也在参与到内容，参与到内容的生产。比如直播，比如朋友聚会的时候使用APP录制视频播放之类，我们逐渐从使用者变成创作者。

对于技术的使用，有几个常用场景：

人脸识别：这个其实已经用得比较广泛，大家平时可能没怎么注意。比如我们在视频拍摄过程中或者是直播过程中，会使用一些动态贴纸或动态滤镜，产生一些特别的效果；当人物形态变化的时候（比如低头、摇头、左转、右转等），对人脸本身的捕捉是不是足够准确？速度能不能跟得上？道具和人脸的契合程度等等。
手势识别：直播中特别常见，比如一些心形产生或者是某种特别的场景。再例如某直播平台的主播，在和粉丝互动后的一激动来了个飞吻，屏幕上无数个红唇扑面而来——这种动态的效果本身，就是基于手势识别的实现。

以上场景不只是个例，事实上各个领域的很多场景都有在用AI。只是在互联网出现以后，移动端APP出现之后，加速了AI技术的应用场景化——对AI来说是好事，因为有了更好的载体。

三、内容体验：精神食粮

从某种程度来说，内容已经是一个生活的必需品。我们每天早上醒来的时候，都会打开手机看新闻、看推送、刷朋友圈；跑步的时候，听音乐、听书等。

内容本身无处不在，除了是必需品之外，它还是我们的一个精神食粮。

内容体验的变化伴随技术发展，可以总结为以下几个阶段：

第一个阶段：吃到、吃饱

AI还没出现或没有大范围使用之前，就互联网技术本身，门户网站这些的出现已经给人们提供了大量信息及便捷的手段，这个内容的食粮我们可以吃到、吃饱。

第二个阶段：可口、吃好

随着整个社会的变化以及信息量的增加，我们对内容的诉求变了——不光吃饱，我们还要消化一下；只要有利于吸收的，没用的就不要了；而且要的这个内容得可口一些，还要吃好。

比如在学生时代，可能关注的是校园、青春的内容；进入职场后，可能对职业方面的内容有更多的诉求。甚至说在特定时间段，比如某一周，心情好的时候会喜欢一种内容，心情不好的时候又是另一种内容。

这时候我们对内容本身是有要求的：要有酸甜苦辣、要有深度、要有娱乐等等。

我们的要求在变化的时候，内容展现的形态也变了——这是AI的第一阶段：识别智能阶段。

第三个阶段：幸福、快乐

大量的内容信息，通过AI技术，能够对内容本身进行分析和处理。相当于不仅能够理解、分析和处理，还能进行推理，进而衍生出一定新的内容和交互；有了深入交互，才能在满足功能要求的同时，提供情感连接和满足，让用户体验到使用的快乐和幸福感。

而我们正处在识别智能向认知智能的转变过程中，还需要时间积累。

未来其实还有一个遥远的可能：虚拟人类阶段。AI技术是否真的可以像人一样？不光是认知理解，推理反馈，甚至能有人一些思想，还能进行互动和深入交流 —— 这个想象空间很大。

AI本身是一种技术，要创造更多社会价值及对人们生活产生影响，关键还是要和一些垂直领域以及场景去结合，内容只是场景之一。更多基于AI的产品和不一样的用户体验，取决于大家每个人的思考、创新、付出及实现。

我相信，随着AI技术的发展和与场景的结合使用，会对产品的用户体验等各个方面产生不同程度的影响；有了AI技术，未来一定更加美好。

以上就是演讲的内容。

2017 中国产品经理大会·深圳｜系列文章

本文为2017中国产品经理大会：解码未来产品经理嘉宾分享整理总结

人工智能将如何改变公司战略：亚马逊思维试验

来源：大数据文摘

大数据文摘作品

作者：Ajay Agrawal、Joshua Gans、Avi Goldfarb

翻译：Happen

AI将如何改变公司战略？

这是我们三个人在公司高管那儿听到最常见的问题，它回答起来并不简单。AI从根本上来说是一项预测技术。随着AI预测成本越来越低，经济学理论需要更频繁、广泛地用到AI预测，预测补充的价值——例如人类行为判断——将不断提升。这对战略来说又意味着什么？

我们可以用亚马逊的思维实验来说明这个问题。很多人都能够熟练地在亚马逊网站上购物，这和大多数的在线购物平台一样，你选择一些商品然后加入到你的“购物车”并付款，然后亚马逊再将商品寄给你。此时，亚马逊的商业模式就是“购物再送货”模式。

大多数顾客在购物时都会留意到亚马逊的推荐引擎，因为它会根据AI预测到的你想买的东西来提供购物建议。目前亚马逊的AI对数以百万的商品的预测还算是比较出色的，虽然它们远不够完美。在我们的例子中，AI在5%的时间里能够精确地预测到我们想买的商品。换句话来说，在它每20件商品的推荐中，都能压中1件顾客想买的产品，这个结果还算可以。

现在我们来讨论下亚马逊思维实验。

想象一下亚马逊AI收集到的个人信息超越我们的想象：不管是我们在网站上的那些搜索和购买行为，还是其它的一些在线和离线的信息，比如我们在“Whole Foods”超市的购买行为等。它不仅知道我们买了什么，而且还知道我们购物时间、地点、付款方式等等。

你可以想象一下AI使用这些数据来改进预测。我们认为这种改进类似于在音响上转动音量旋钮。但在这里指的不是调整音量，而是提高AI预测的精度。当亚马逊的数据科学家、工程师、机器学习专家们不知疲倦地提高了预测机器的精度，亚马逊的战略又会发生什么改变？

当他们“转动旋钮”（提高精度）时，AI的预测精度在某个时刻将跨越一个阈值（上了一个台阶）。这会使亚马逊有兴趣去改变自己的商业模式。由于它的预测变得足够准确，它将预测出你想购买的物品并主动送货上门，而不是等待你去选购，这对亚马逊的盈利是莫大的好处。每个星期，亚马逊都会给你寄一些它预测你想要的物品，然后你就可以从送货箱子里挑选出你想留下的物品，从而舒服、方便地在家里购物。

这种做法对于亚马逊有两种好处。首先，预测性送货带来的便利性使你不太可能再从竞争零售商那里购物，因为在你去别处购物之前，商品就已经便利地送到你家了。其次，预测性送货会推动你购买一些你正在考虑购买但周围可能没法获取的物品。在这两种情况下，亚马逊都将获得更高的市场份额。所以，提高预测精度将改变亚马逊的商业模式，从“购物再送货”转变成了“送货再购物”。

当然，顾客并不想处理退货的麻烦。因此，亚马逊将投资商品退货所需的基础设施——有可能是一队货车，负责每周接送一次，方便地收集那些顾客不想要的商品。

问题来了，如果这是一种更好的商业模式，为什么亚马逊还没有落实呢？也有可能他们正在做这件事，但是如果现在就开始部署、收集和处理退货的成本可能会超过市场份额的收益增长。假如，今天顾客退回了95%的送货商品，他们不仅会很恼火，从商家角度来说，亚马逊也会为此付出昂贵的代价。所以，对于亚马逊来说，预测还没好到能采取新的商业模式的程度。

你可以想象这样一个场景：因为公司预感总有一天这种模式会盈利，所以在预测精度达到盈利程度前，亚马逊就采用新的战略。通过快速启动，亚马逊AI将更早获得更多数据，并提升更快。亚马逊意识到越早开始，竞争对手就越难赶上。更好的预测将吸引更多的顾客，而更多顾客也会为AI提供更多训练数据，那么更多数据将产生更好的预测等等，从而形成一个良性循环。换句话说，AI的回报将越来越多，因此采取这种战略的时机非常重要。过早采用可能代价昂贵，但是采用太晚可能是致命的。

这里的关键点在于：调整预测机精度对于战略是有重大影响的。

在这个例子中，它使亚马逊的商业模式从“购物再送货”到“送货再购物”，激发运转退货服务（包括一队货车）的垂直整合，加快投资以占据先发优势从而回报更多。这一切都源于预测机精度调整这一单一行为。

很多读者可能对Blockbuster及Borders这样的公司结局很熟悉，但他们低估了在线顾客行为在线上购物环境和数字化商品配送及服务中变化速度能如此之快。又由于在商业互联网的早期（1995-1998），这种技术最初采用较慢，最终使得他们陷入了自满的泥沼。

在AI迅速发展的今天，一些公司正在做早期押注，他们期待预测机调整一旦势头较好，将带来巨大回报。很多人都知道谷歌公司在2014年用5亿美元收购了DeepMind公司一家收入甚微的公司，但它开发了一款AI能够以超人类水准来玩的Atari游戏。

可能少数读者也发现了越来越多传统公司开始在AI回报上押注。在2016年，通用汽车公司用超过10亿美元收购了AI初创公司Cruise Automation；在2017年，福特汽车公司给AI初创公司ARGO AI投资10亿美元；John Deere用30亿美元收购了AI初创公司Blue River——这三家初创公司相比收购价格来说都收入甚微。通用汽车公司、福特汽车公司以及John Deere都在AI指数级增长的表现上押注，并期待这些付出能够给他们的商业战略带来重大影响。

战略家们面临两个问题。首先，他们必须投入更多时间来更好地理解预测机器的调整如何更快更长远地改变他们的领域和应用。其次，他们必须投入时间来写一篇基于调整AI预测结果来选择商业模式和战略的论文，类似于我们为亚马逊做的思维实验。

因此，什么是开启AI战略的首要主题呢？你可以闭上眼睛，想象你的手指正放在预测机器的调整按钮上，然后回想Spinal Tap的不朽名言“调到1”（也就是调到最大）。

上述内容都来自于即将出版的书籍《预测机器：人工智能中的简单经济学》（哈佛商学院出版社，2018年4月）

强AI时代步步逼近，你对智能客服了解多少？

来源：沈春泽 苏宁财富资讯

来源：苏宁财富资讯

作者：沈春泽苏宁金融研究院高级研究员

随着人工智能越来越受到人们的关注，大家对相关产品和服务的期待也越来越高，比如：机器人写作、机器人作曲、自动驾驶汽车等等。其中最有代表性的应用就是开始活跃于各行各业的智能客服。

提起智能客服，大家能想到谁呢？估计是下图这位可爱的卡通人物：

能够与用户无障碍地交流，准确理解用户需求，掌握各领域知识，服务周到，对用户提出的问题立即反馈，给出正确的解决方案。这简直是每个开发者心中的智能客服完美形象啊！

智能客服是什么？

智能客服是聊天机器人中的一种，聊天机器人实际上并不是一个时新的话题，它起源于图灵在1950年提出的设想：“机器能思考吗？”。为了验证这个设想，图灵通过让机器参与一个模仿人类对话互动的游戏来验证“机器”能否“思考”，也就是著名的“图灵测试”。由此，图灵测试被称为人工智能领域王冠上最璀璨的明珠，是人工智能的终极目标。

此后，一系列的聊天机器人被开发出来，典型的例子如：

1966年，麻省理工学院开发出第一个聊天机器人ELIZA，用于在临床治疗中模仿心理医生与病人互动。虽然其中仅使用了一些简单的关键词匹配和回复规则技术，但是机器人的表现还是超出了预期。

1988年，加州伯克利分校开发了UC，用于帮助用户学习使用UNIX操作系统。它已经可以分析输入的语言、理解用户的意图、选择合适的内容，并最终生成对话内容反馈给用户，进一步推动了聊天机器人的智能化程度。

1995年，理查德·华勒斯开发了ALICE系统，随着ALICE一同发布了AIML语言，目前被广泛应用在移动端虚拟助手的开发中。

智能在线客服是聊天机器人一个重要的应用场景，其主要功能是同用户进行基本沟通，并自动回复用户有关产品或服务的问题，以达到降低企业客服运营成本、提升用户体验的目的。

目前，代表性的商用系统有苏宁云商的小苏智能机器人。用户可以通过与小苏聊天来了解商品的具体信息以及反馈购物中存在的问题等。值得注意的是，小苏具备一定的拒识能力，它能够知道自己不能回答用户的哪些问题以便及时调用其他服务方式介入。

聊天机器人系统的组成结构

聊天机器人系统一般包含语音识别、自然语言理解、对话管理、自然语言生成、语音转换等五个主要的功能模块。

具体来说，语音识别模块负责接收用户的语音输入，并将其转换成文字形式交由自然语言理解模块进行处理；自然语言理解模块在理解了用户输入的语义之后将特定的语义表达式输入到对话管理模块中；对话管理模块负责协调各个模块的调用及维护当前对话状态，选择特定的回复方式并交由自然语言生成模块进行处理；自然语言生成模块生成回复文本输入给语音合成模块，将文字转换成语音输出给用户。

值得一提的是，很多的聊天机器人仅以文本输入输出的形式进行交互，因而省略了语音识别和语音合成的部分。

智能客服系统的组成结构

智能客服系统的总体框架结构如下图所示：

从图中可以看出，相对于聊天机器人，最大的区别是增强了语义理解部分。语义理解功能是真正实现智能化的核心技术，现在开发的产品往往还会通过大型高质量的语料库建设，以及各种知识库的辅助，来提升智能效果。

一般而言，智能客服机器人的的技术核心主要包括三个部分：

（1）通过人工客服日常积累的问题集，建立一个高质量、高扩展性的语料库，并在此基础上通过各种渠道获取尽可能多的行业问答知识。语料库是客服机器人寻找答案的来源，语料库覆盖面越广意味着机器人可以回答的问题越多。

（2）用户所提的问题的形式通常都是非标准化的，同一问题的问法多种多样，因此必须将各种形式的问题归一化，以便同知识库中的标准问法匹配。

（3）最后，在大型语料库中快速高效地检索出正确的答案也是一个不小的挑战。

以上提到的三个部分，不仅涉及了比较多的前沿技术（如机器学习、自然语言处理、搜索技术），还需要进行工作量巨大的基础性建设（如语料库建设、语义知识库的建设），此类库的规模和质量往往决定了客服机器人的智能水平。

目前，为了应对每天大批量的用户，诸如淘宝、苏宁、京东等电商以及银行等平台已经上线了各自的智能客服。原因很简单，大多数人应该都有过这样的经历：使用某平台的服务时遇到问题，接入客服电话后却是长时间的等待音；晚上终于有时间想购物，但在线客服的头像却已显示为灰色；费尽力气接通人工客服，却常常收到“人工坐席忙，请稍等”的提示。一方面，对用户而言，传统的人工客服体验不尽人意；另一方面，对企业来说，随着用户量的增加和人力资源成本的升高，人工客服不仅意味着高昂的费用，而且越来越无法满足业务的需要。此时，智能客服就显示出了巨大的优越性。

银行智能语音服务系统

在金融领域，智能机器人开始逐渐以各种形式出现在人们的生活、工作场景中，现在较常见的是一些银行的在线智能语音服务系统。传统的语音自助服务按照业务类别设置层层按键索引，客户需要根据语音提示进行相关业务的选择，往往要花费较长的时间才能寻找到需要的业务。有些情况下，甚至无法很顺利的准确找到相关业务，严重影响了用户体验。

现在逐渐出现的“智能语音系统”，通过机器人将传统的多层自助语音菜单扁平化，用更人性化的方式实现语音导航、语音交互、语音咨询等常用功能。此外，用户还可以通过语音对话直接告知业务需求，实现快速办理相关业务，如：查询信用卡还款情况、申请信用卡额度调整等，或者查找并进入需要的功能。与传统语音客服相比，不仅节省用户时间，提高服务效率，而且通过人性化的方式提升了用户的满意度。

智能金融服务机器人

除了在线智能语音系统，现在我们还可以看到一些实体的智能机器人在金融领域的投入应用。

比如，交通银行试点推出的智能服务机器人可以通过语音识别、触摸交互、肢体语言等方式，为银行客户提供聊天互动、业务引导、业务查询等服务。在交行辽宁省某支行，类人形机器人在大堂内自在走动。当被问到有关银行业务的问题时，它会详细解答并进行引导服务，即扮演部分大堂经理的“角色”。比如，有客户问它：“我要取钱，到哪儿取号？”回答说：“如果您取款金额在2万元以下，可到自助取款机办理。”如此分流了客户，节省了客户办理业务的时间。

此外，机器人还具有唱歌、朗诵、讲笑话等功能，比如对客户的问题：“我们合个影可以吗？”“来吧，我等着，一定要用美图秀秀哦！”，方式新颖有趣，在提高业务办理效率的同时，也给客户提供了良好的体验。

智能客服的前景如何？

据相关机构统计，国内整个客服的市场规模已经超过千亿。目前，在实践中，人工在线客服仍然是企业使用率最高的客服系统，而智能客服的使用率还不高。

值得注意的是，在客服领域也存在二八原理，即消费者的问题中，八成以上都是高度重复的，只要知识库的数据足够全面，智能客服就能够为用户提供满意的解决方案。

目前智能客服的市场还处于起步阶段，但已经成为趋势，发展空间巨大，随着技术积累及进步，必将广泛地应用到各个行业的业务场景中去。编辑：陈霞杨娜

延展阅读：Spotify人工智能系统品味不俗，推荐歌单都成用户最爱！

来源：氪星情报局

编者按：Spotify的Discover Weekly非常神奇，每周都会给用户推荐30首他们可能会喜欢的新歌。大量的用户表示，这些新歌非常符合他们的“胃口”。今年6月份，Spotify宣布全球活跃用户超过1.4亿人，是Apple Music用户的5倍还要多，其中Discover Weekly功不可没。Spotify是如何做到的呢？软件工程师Sophia Ciocca花费了3周，查阅了大量的资料对其工作原理进行了分析。原文发表在Medium，由36氪编译。

每到周一的时候，就会有超过1亿的Spotify用户发现，应用中会有一个新的播放列表等待着他们。这里面包含有Spotify（准确来说是Spotify的人工智能技术）为用户“定制”的、以前从未听过的，但很可能会喜欢的30首歌曲。它的名字叫Discover Weekly，它非常神奇。

我是Spotify的忠实粉丝，尤其喜欢Discover Weekly这一功能。它让我感觉很舒服，比我身边任何一个人都更了解我的音乐品味。在每周都能给我推荐一些我可能永远不会发现，但非常喜欢的音乐。

而且事实证明，我并不是唯一一个痴迷于Discover Weekly的人，用很多Spotify的用户群为之疯狂。这促使Spotify对其非常重视，将更多资源投入到这个基于算法的推荐播放列表中。

自从2015年Discover Weekly首次亮相以来，我一直很想知道它是如何运作的。在疯狂地使用谷歌搜索了三周后，我终于有机会看到了其幕后的秘密。

那么，Spotify是如何做到给每个用户每周都挑选30首符合他们喜好的歌曲的呢？让我们先看看其他音乐服务是如何做音乐推荐的，以及Spotify是如何做得更好的。

在线音乐推荐歌单简史

早在2000年，Songza就开始使用“人工精选”的方式来为用户创建音乐播放列表。“人工精选”意味着，一些“音乐专家”或其他的相关人员，会根据自己的品味来制作歌单。（后来，Beats Music也采用了同样的策略。）人工的调整效果还不错。但它是手动的，显得非常简单。而且它还没有考虑到每个用户的音乐品味的差别。

和Songza一样，Pandora也为用户提供了一些类似于歌单的音乐播放列表。它采用了一种稍微高级的方法，并不是通过手动标记歌曲的属性。而是让一群人听音乐，并为每首歌选了一些描述性的单词，并用这些单词对歌曲进行标记。然后，Pandora的代码可以过滤某些标签，从而制作出听起来类似的歌单。

大约在同一时间，来自麻省理工学院媒体实验室的音乐情报机构Echo Nest诞生了，它采用了一种更为先进的个性化音乐推荐方式。Echo Nest利用算法分析音乐的音频和文本内容，使其能够进行音乐识别、并进行个性化推荐、创建歌单并对其进行分析。

最后，Last.fm采用了一种不同的方式，它使用一种名为“协同过滤（collaborative filtering）”的方法来识别用户可能会喜欢的音乐。稍后再详细介绍。

我们知道了其他音乐服务提供推荐列表的方式，那么Spotify是如何做的呢？它似乎比其他任何音乐服务都更能准确地瞄准用户的品味。

Spotify的3种推荐模式

实际上，Spotify并没有采用一种革命性的歌曲推荐模式，而是将其他服务使用的一些最佳策略组合在一起，打造了一个独特而又强大的音乐发现引擎。

为了创建Discover Weekly，Spotify采用了三种主要的音乐推荐模式：

协同过滤模型（即Last.fm最初使用的模式），它通过分析用户使用行为进行工作。
自然语言处理（NLP）模型，通过分析文本进行工作。
原始音频分析模型，其工作原理是分析原始音频轨道本身。

接下来，让我们来看看这些推荐模型是如何工作的。

推荐模型1:协同过滤

如果你了解Netflix的话，你可能对“协同过滤”这个词不会感到陌生。Netflix是最早使用协同过滤来为用户做推荐的公司之一。即通过用户对电影的评价，来判断影片的属性以及用户的喜爱程度，然后综合用户的反馈将电影推荐给其他“类似”的用户。

Netflix使用协同过滤模型取得了成功，它开始迅速传播开来。就目前而言，基本上每一个想要建立推荐模型的产品，都会选择从协同过滤入手。

与Netflix不同的是，Spotify并没有让用户对音乐或者歌星进行评价。相反，它使用的是一种隐藏在用户使用习惯下的反馈——具体来说，就是用户听了哪些歌曲，是否将歌曲保存到播放列表中，是否在听了歌曲之后去访问了歌星的页面等等数据。

什么是协作过滤，它是如何工作的呢？简单来说，其基本逻辑就像下图中的对话一样：

从上图中看以看出，这两个人都有一些偏好——左边的人喜欢P、Q、R和S;右边的人喜欢Q、R、S和T。

通过协同过滤对这一数据分析之后，可以初步得出这样的结论：

“这两个人同时喜欢Q、R和S——所以他们可能是相同类型的用户。所以，他们都有可能会喜欢对方听过，但自己没有听过的歌曲。”

然后就给右边的那个人推荐P，给左边的那个人推荐T？很显然，并不是这么简单。

那Spotify是如何利用这一概念，并计算数以百万计的用户，然后根据这些用户的偏好去推荐歌曲呢？

如下图所示，是用Python库来完成的。

这是一个非常简化的模型，用户如果听过一首歌曲，那么就会标注为1，否则为0。Spotify使用的模型远比这复杂。

实际上，这个矩阵是非常庞大的。每一行代表了Spotify的1.4亿用户之一（如果你使用Spotify，你自己就是这个矩阵中的一行），而每一列都代表了Spotify数据库中3000万首歌曲中的一个。

然后，Python库会运行下面这个冗长而又复杂的矩阵分解公式。

当它结束时，我们会得到两种类型的向量，这里用X和Y表示。X是一个用户矢量（user vector），代表一个用户的喜好，而Y是一个歌曲矢量（song vector），代表了一首歌的特征。

通过这种方法，我们获得了1.4亿个用户的矢量和3000万首歌曲的矢量。虽然这些矢量只是一堆毫无意义的数字，但使用它们去进行比较则会有很大的用处。

为了找到相似度比较高的用户，协同过滤可以将一个用户的矢量与所有其他用户的矢量进行比较，最后能找到与其最相似的用户。也可以把一首歌的矢量和其他所有的歌曲矢量进行比较，找出哪两首歌曲是最相似的。

协同过滤确实是一项不错的技术，但Spotify做得更好。

推荐模型2:自然语言处理（NLP）

Spotify采用的第二种推荐模型是自然语言处理（NLP）模型。顾名思义，这些模型的源数据是一些常规的词汇，比如音轨的元数据、新闻报道、博客以及互联网上的其他文本。

自然语言处理，作为计算机理解人类语言的能力，本身就是一个巨大的领域。通常是通过情绪分析API来实现。

自然语言处理背后的机制已经超出了本文的讨论范围。但我们可以了解一下其大致的工作原理:Spotify不断地在网络上寻找关于音乐的博客文章和其他书面文本。从中找出人们对特定歌星和歌曲的评论中经常使用的形容词和语言，以及有那些歌星与歌曲被放在了一起去讨论。

虽然我不知道Spotify如何处理他们的抓取数据，但可以通过Echo Nest去进行分析理解。Echo Nest是Spotify在2014年收购的一家音乐分析公司。这部分用到的术语被称为文化向量（cultural vectors）或顶级形容词（top terms）。每个歌星和歌曲都有成千上万的不断变化的顶级形容词。每一个形容词都有一个相关的权重，这反映了它的重要性（简单来说，一个人会用这个词来形容音乐的可能性）。

然后，就像协同过滤中一样，自然语言处理模型使用这些术语和权重来创建歌曲的矢量，用来确定歌曲之间的相似度。很酷，对吧？

推荐模型3:原始音频模型

说到这，你可能会问：

既然已经有了两个使用大量数据的模型。为什么还要分析音频本身呢？

这背后有两个原因，第一，原始音频模型能提高推荐服务的准确性。第二，这个模型和上述的两个模型不同，会将新歌曲纳入到分析范围中。

就比如说，有一个新的歌手在Spotify上发布了一首歌。但只有50个人听过，很难收集到足够的数据对其进行协同过滤处理。而且，在互联网上它也很少被提及，所以自然语言处理模型也不会处理它。但原始音频模型不会区分新歌和流行歌曲，所以在它的最用下，新歌手发布的新歌可以和流行歌曲一起出现在Discover Weekly 中。

那么，Spotify是如何分析原始音频数据的呢？这看起来非常抽象。

简单来说，就是使用卷积神经网络。

卷积神经网络是面部识别系统背后的技术。在Spotify中，被修改了用于音频数据，而不是像素。下面是一个神经网络架构的例子：

如上图所示，这个特殊的神经网络有四个卷积层-左边较宽的矩形，三个致密层-右边较窄矩形。输入以音频帧的时间-频率表示，然后将它们连接起来形成光谱图。

音频帧通过这些卷积层，在最后的卷积层之后，会遇到对整个时间轴进行池化的“全局时域池化”层，并有效地计算出整首歌中学习到的特征并进行统计。

经过这个过程，神经网络就能对歌曲有所了解，包括时长、节奏、风格、音量、音调等特征。下面是 Daft Punk 的《Around the World》30 秒钟片段的分析示例。

最终，通过对这首歌的关键特征的理解，Spotify能够捕捉到歌曲之间的基本相似性，从而就能根据用户的播放记录去推荐歌曲了。

综合上述的三种推荐模型，就形成了Spotify的Discover Weekly的推荐引擎。

当然，这些推荐模型的准确性与Spotify大规模的生态系统有关。它有海量的数据存储，可以使用大量的Hadoop集群来扩大推荐范围，让这些模型能够在巨大的矩阵、海量关于歌曲的文本和大量音频文件的基础上稳定运行。

人工智能赛博物理操作系统

AI-CPS OS

“人工智能赛博物理操作系统”（新一代技术+商业操作系统“AI-CPS OS”：云计算+大数据+物联网+区块链+人工智能）分支用来的今天，企业领导者必须了解如何将“技术”全面渗入整个公司、产品等“商业”场景中，利用AI-CPS OS形成数字化+智能化力量，实现行业的重新布局、企业的重新构建和自我的焕然新生。

AI-CPS OS的真正价值并不来自构成技术或功能，而是要以一种传递独特竞争优势的方式将自动化+信息化、智造+产品+服务和数据+分析一体化，这种整合方式能够释放新的业务和运营模式。如果不能实现跨功能的更大规模融合，没有颠覆现状的意愿，这些将不可能实现。

领导者无法依靠某种单一战略方法来应对多维度的数字化变革。面对新一代技术+商业操作系统AI-CPS OS颠覆性的数字化+智能化力量，领导者必须在行业、企业与个人这三个层面都保持领先地位：

重新行业布局：你的世界观要怎样改变才算足够？你必须对行业典范进行怎样的反思？
重新构建企业：你的企业需要做出什么样的变化？你准备如何重新定义你的公司？
重新打造自己：你需要成为怎样的人？要重塑自己并在数字化+智能化时代保有领先地位，你必须如何去做？

AI-CPS OS是数字化智能化创新平台，设计思路是将大数据、物联网、区块链和人工智能等无缝整合在云端，可以帮助企业将创新成果融入自身业务体系，实现各个前沿技术在云端的优势协同。AI-CPS OS形成的数字化+智能化力量与行业、企业及个人三个层面的交叉，形成了领导力模式，使数字化融入到领导者所在企业与领导方式的核心位置：

精细：这种力量能够使人在更加真实、细致的层面观察与感知现实世界和数字化世界正在发生的一切，进而理解和更加精细地进行产品个性化控制、微观业务场景事件和结果控制。
智能：模型随着时间（数据）的变化而变化，整个系统就具备了智能（自学习）的能力。
高效：企业需要建立实时或者准实时的数据采集传输、模型预测和响应决策能力，这样智能就从批量性、阶段性的行为变成一个可以实时触达的行为。
不确定性：数字化变更颠覆和改变了领导者曾经仰仗的思维方式、结构和实践经验，其结果就是形成了复合不确定性这种颠覆性力量。主要的不确定性蕴含于三个领域：技术、文化、制度。
边界模糊：数字世界与现实世界的不断融合成CPS不仅让人们所知行业的核心产品、经济学定理和可能性都产生了变化，还模糊了不同行业间的界限。这种效应正在向生态系统、企业、客户、产品快速蔓延。

AI-CPS OS形成的数字化+智能化力量通过三个方式激发经济增长：

创造虚拟劳动力，承担需要适应性和敏捷性的复杂任务，即“智能自动化”，以区别于传统的自动化解决方案；
对现有劳动力和实物资产进行有利的补充和提升，提高资本效率；
人工智能的普及，将推动多行业的相关创新，开辟崭新的经济增长空间。

给决策制定者和商业领袖的建议：

超越自动化，开启新创新模式：利用具有自主学习和自我控制能力的动态机器智能，为企业创造新商机；
迎接新一代信息技术，迎接人工智能：无缝整合人类智慧与机器智能，重新
评估未来的知识和技能类型；
制定道德规范：切实为人工智能生态系统制定道德准则，并在智能机器的开
发过程中确定更加明晰的标准和最佳实践；
重视再分配效应：对人工智能可能带来的冲击做好准备，制定战略帮助面临
较高失业风险的人群；
开发数字化+智能化企业所需新能力：员工团队需要积极掌握判断、沟通及想象力和创造力等人类所特有的重要能力。对于中国企业来说，创造兼具包容性和多样性的文化也非常重要。

子曰：“君子和而不同，小人同而不和。” 《论语·子路》云计算、大数据、物联网、区块链和人工智能，像君子一般融合，一起体现科技就是生产力。

如果说上一次哥伦布地理大发现，拓展的是人类的物理空间。那么这一次地理大发现，拓展的就是人们的数字空间。在数学空间，建立新的商业文明，从而发现新的创富模式，为人类社会带来新的财富空间。云计算，大数据、物联网和区块链，是进入这个数字空间的船，而人工智能就是那船上的帆，哥伦布之帆！

新一代技术+商业的人工智能赛博物理操作系统AI-CPS OS作为新一轮产业变革的核心驱动力，将进一步释放历次科技革命和产业变革积蓄的巨大能量，并创造新的强大引擎。重构生产、分配、交换、消费等经济活动各环节，形成从宏观到微观各领域的智能化新需求，催生新技术、新产品、新产业、新业态、新模式。引发经济结构重大变革，深刻改变人类生产生活方式和思维模式，实现社会生产力的整体跃升。