深度解析AIoT背后的发展逻辑

2018 年 12 月 21 日 中国人工智能学会

转自人工智能学家

来源：iotworld

摘要：AI与IoT融合领域近年来一片火热，不论是资本市场，还是大众创业，无不对其表现出极大的热情。

AIoT领域中人机交互的市场机会

自2017年开始，“AIoT”一词便开始频频刷屏，成为物联网的行业热词。“AIoT”即“AI+IoT”，指的是人工智能技术与物联网在实际应用中的落地融合。当前，已经有越来越多的人将AI与IoT结合到一起来看，AIoT作为各大传统行业智能化升级的最佳通道，已经成为物联网发展的必然趋势。

在基于IoT技术的市场里，与人发生联系的场景(如智能家居、自动驾驶、智慧医疗、智慧办公)正在变得越来越多。而只要是与人发生联系的地方，势必都会涉及人机交互的需求。人机交互是指人与计算机之间使用某种对话语言，以一定的交互方式，为完成确定任务的人与计算换机之间的信息交互过程。人机交互的范围很广，小到电灯开关，大到飞机上的仪表板或是发电厂的控制室等等。而随着智能终端设备的爆发，用户对于人与机器间的交互方式也提出了全新要求，使得AIoT人机交互市场被逐渐激发起来。

AIoT发展路径

以智能家居市场为例，数据显示，2018年中国智能家居规模将达到1800亿元，到2020年智能家居市场规模将达到3576亿元。分析师预测，2021年全球智能家居市场规模将达5000多亿元。飞速爆发中的AIoT市场，所蕴藏的人机交互需求及前景无疑是令人期待的。

人类生活的数字化进程已持续约三十年，这些年我们经历了从模拟时代到PC互联时代再移动互联时代的演进，而目前我们正处在向物联网时代的演进过程中。从交互方式上来讲，我们可以看到机器是越来越“迁就”人的：从PC时代的键盘和鼠标到移动时代的触屏、NFC以及各种MEMS传感器，再到物联网时代正在蓬勃发展的语音/图像等交互方式，使用门槛正在变得越来越低，这导致了越来越多的用户的卷入。同时我们需要注意到另一个深刻的变化，即由于交互方式的演进(至少是重要原因之一)，大量的新维度的数据也在不断地被创造出来和数字化，比如PC时代的工作资料和娱乐节目，智能手机时代的用户使用习惯、位置、信用和货币，再到物联网时代的各种可能的新数据。

在物联网时代，交互方式正在往本体交互的方向发展。所谓“本体交互”，指的是从人的本体出发的，人与人之间交互的基本方式，如语音、视觉、动作、触觉，甚至味觉等。例如，通过声音控制家电，或者空调通过红外来决定是否应该降温，通过语音和红外结合来进行温度的控制(侦测到房间里没人的时候，即便电视节目里提到了“降温”，空调也不做反应)。

新的数据是AI的养料，而大量的新维度的数据正在为AIoT创造出无限可能。

从AIoT发展路径来看，当前行业人士普遍认为，其将经历单机智能、互联智能到主动智能的三大阶段。

单机智能指的是智能设备等待用户发起交互需求，而这个过程中设备与设备之间是不发生相互联系的。这种情境下，单机系统需要精确感知、识别、理解用户的各类指令，如语音、手势等，并正确决策、执行和反馈。AIoT行业正处于这一阶段。以家电行业为例，过去的家电就是一个功能机时代，就像以前的手机按键式的，帮你把温度降下来，帮你实现食物的冷藏;现在的家电实现了单机智能，就是语音或手机APP的遥控去实现调温度、打开风扇等。

无法互联互通的智能单品，只是一个个数据和服务的孤岛，远远满足不了人们使用需求。要取得智能化场景体验的不断升级、优化，首先需要打破的是单品智能的孤岛效应。而互联智能场景，本质上指的是一个相互互联互通的产品矩阵，因而，“一个大脑(云或者中控)，多个终端(感知器)”的模式成为必然。例如，当用户在卧室里对空调说关闭客厅的窗帘，而空调和客厅的智能音箱中控是连接的，他们之间可以互相商量和决策，进而做出由音箱关闭客厅窗帘的动作;又或者当用户晚上在卧室对着空调说出“睡眠模式”时，不仅仅空调自动调节到适宜睡眠的温度，同时，客厅的电视、音箱，以及窗帘、灯设备都自动进入关闭状态。这就是一个典型的通过云端大脑，配合多个感知器的互联智能的场景落地。

主动智能指的是智能系统根据用户行为偏好、用户画像、环境等各类信息，随时待命，具有自学习、自适应、自提高能力，可主动提供适用于用户的服务，而无需等待用户提出需求，正如一个私人秘书。试想这样的场景，清晨伴随着光线的变化，窗帘自动缓缓开启，音箱传来舒缓的起床音乐，新风系统和空调开始工作。你开始洗漱，洗漱台前的私人助手自动为你播报今日天气、穿衣建议等。洗漱完毕，早餐和咖啡已经做好。当你走出家门，家里的电器自动断电，等待你回家时再度开启。

AIoT的实现对边缘计算能力提出需求

边缘计算指在靠近物或数据源头的网络边缘侧，融合网络、计算、存储、应用核心能力的开放平台，就近提供边缘智能服务，满足行业数字化在敏捷连接、实时业务、数据优化、应用智能、安全与隐私保护等方面的关键需求。在行业内有个十分形象的比方，边缘计算犹如人类身体的神经末梢，可以对简单的刺激进行自行处理，并将特征信息反馈给云端大脑。伴随AIoT的落地实现，在万物智联的场景中，设备与设备间将互联互通，形成数据交互、共享的崭新生态。在这个过程中，终端不仅需要有更加高效的算力，在大多数场景中，还必须具有本地自主决断及响应能力。拿智能音箱举例，其不仅需要支持本地唤醒的能力，还应该具备远讲降噪的能力，而由于实时性以及数据有效性的考虑，这方面的计算必须发生在设备端而不是云端。

智能家居行业作为AIoT人机交互最重要的落地场景，正吸引越来越多企业进入。在这其中，既有如Apple、Google、Amazon等这样的科技巨头，也有像海尔、三星这类的传统家电厂商，当然也不乏小米、京东这样的互联网新贵。基于互联智能的构想，未来的AIoT时代，每个设备都需要具备一定的感知(如预处理)、推断以及决策功能。因此，每个设备端都需要具备一定不依赖于云端的独立计算能力，即上面提到的边缘计算。

在智能家居的场景下，通过自然语音的方式与终端设备进行交互，在当前已成为行业主流。由于家庭场景的特殊性，家用终端设备需精准区分、提取正确的用户命令(而不是家人在谈话时无意说到的无效关键词)，以及声源、声纹等信息，因此，智能家居领域的语音交互对于边缘计算也提出了更高要求，具体表现在以下几方面：

远讲降噪、唤醒

家居环境下声场复杂，比如电视声音、多人对话、小孩嬉闹、空间混响(厨房做饭、洗衣机等设备工作噪音)，这些容易干扰用户与设备间正常交互的声音，很大概率会在同一时间存在，这就需要对各种干扰进行处理、抑制，使得来自真正用户的声音更加突出。在这个处理的过程中，设备需要更多的信息量来进行辅助判断。家居场景语音交互的一个必备功能是使用麦克风阵列进行多通道的同步声音录入，通过对声学空间场景进行分析，使得声音的空间定位更加准确，大幅提升语音质量。另一个重要功能是通过声纹信息辅助区分真正用户，使他的声音从多人的窜扰中更加清晰地区分出来。这些都需要在设备端实现，且需要较大的算力支持。

本地识别

家居领域人机交互的本地识别离不开边缘计算，具体体现两个方面：

高频词。从实际统计来看，用户在特定场景下的常用关键词指令数量有限。例如车机产品，用户最常使用的可能是“上一首/下一首”，空调产品有可能最常用的命令是“开启/关闭”等，这些用户经常用到的词就叫做高频词。对于高频词的处理，完全可以放在本地处理而不依赖于云端的延时，从而带给用户最佳的体验。

联网率。在智能家居产品尤其是家电产品落地的过程中，联网率是一个问题。如何在不联网的情况下让用户感知到语音AI的强大，进行用户培养，也是边缘计算在当前的一个重要作用。

本地/云端效率的平衡

家居领域的自然语言交互过程中，当所有的计算被放到云端时，声学计算的部分将对云端计算造成较大压力，一方面造成云平台成本的大幅增加;另一方面带来计算延迟，损害用户体验。自然语音交互分成声学和自然语言理解(NLP)两个部分，从另一个维度上来讲，可看成是“业务无关”(语音转文字/声学计算)和“业务有关”(NLP)的部分。业务有关的部分毫无疑问需要在云端解决，例如用户问天气、听音乐等需求，那么设备对用户语句的理解，以及天气信息的获取必须通过联网来完成。但是，对于用户语音到文字的转换，例如下达指令“打开空调、增加温度等”，其中的部分甚至大部分计算是有可能在本地完成的。这种情况下，从本地上传到云端的数据将不再是压缩后的语音本身，而是更为精简的中间结果甚至是文本本身，数据更为精简，云端计算更为简单，则响应也更为迅速。

多模态的需求

所谓多模态交互即多种本体交互手段结合后的交互，例如将多种感官融合，比如文字、语音、视觉、动作、环境等。人是一个典型的多模态交互的例子，在人与人交流的过程中，表情、手势、拥抱、触摸，甚至是气味，无不在信息交换的过程中起着不可替代的作用。显然，智能家居的人机交互势必不止语音一个模态，而是需要多模态交互并行。举个例子，智能音箱如果看到人不在家，那就完全不需要对电视里误放出的唤醒词进行响应，甚至可以把自己调到睡眠状态;一个机器人如果感觉到主人在注视他，那么可能会主动向主人打招呼并询问是否需要提供帮助。多模态处理无疑需要引入对多类传感器数据的共同分析和计算，这些数据既包括一维的语音数据，也会包括摄像头图像以及热感应图像等二维数据。这些数据的处理无不需要本地AI的能力，也就对边缘计算提出了强力的需求。

AIoT带来的AI芯片需求

AI算法对设备端芯片的并行计算能力和存储器带宽提出了更高的要求，尽管基于GPU的传统芯片能够在终端实现推理算法，但其功耗大、性价比低的弊端却不容忽视。在AIoT的大背景下，IoT设备被赋予了AI能力，一方面在保证低功耗、低成本的同时完成AI运算(边缘计算);另一方面，IoT设备与手机不同，形态千变万化，需求碎片化严重，对AI算力的需求也不尽相同，很难给出跨设备形态的通用芯片架构。因此，只有从IoT的场景出发，设计定制化的芯片架构，才能在大幅提升性能的同时，降低功耗和成本，同时满足AI算力以及跨设备形态的需求。

未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能，互联网和脑科学交叉研究机构。

未来智能实验室的主要工作包括：建立AI智能系统智商评测体系，开展世界人工智能智商评测；开展互联网（城市）云脑研究计划，构建互联网（城市）云脑技术和企业图谱，为提升企业，行业与城市的智能水平服务。

如果您对实验室的研究感兴趣，欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”