你真的明白人机交互与智能吗？

会员服务 ·

你真的明白人机交互与智能吗？ | 清华AI Time

2019 年 10 月 19 日 大数据文摘

大数据文摘出品

作者：刘俊寰

在2013年的电影《她》中，男主结束了恋爱长跑之后，爱上了一个电脑操作的系统女声，这个叫“萨曼莎”的姑娘不仅有着略带沙哑的迷人嗓音，并且幽默风趣。

就这样，他们成了无话不谈的朋友，甚至发展出一段“畸形”的恋情。

虽然电影是虚构的，但这也恰恰证明了，未来以用户为中心的交互模式不会仅仅停留在操作方便等基础方面，对于更好地识别用户表达意图与情感等方面，都将取得重大突破。

问题来了，当人和机器之间的边界逐渐模糊，人机交互的边界在哪里？未来人机交互会发展成什么样子？

在AI Time第七期的辩论中，清华大学的史元春、中科院软件所的田丰、中科院计算所的陈益强、小小牛科技创意公司的CEO曹翔就一起论道了人机交互与智能的相关问题。

视觉化处理是关键

1945年，在电子计算机尚未“出世”时，范内瓦·布什就发表了题为“As We May Think”的文章，形象描述了未来个人电脑——一种被称为MEMEX的机器，阐释了直接交互、超链接、网络存储等概念。

1960年，约瑟夫·利克莱德提出“人机共生”的思想，并在布什的领导下通过美国国家科技计划大力支持了人机共生理念下的图形与可视化、虚拟对象操控、互联网络等研究项目，在他的主导下，个人电脑、互联网络的标志性关键技术在六七十年代逐次诞生了。

约瑟夫·立克立德领导的交互式计算不但研发了分式操作系统，而且直接引导了图形技术。

在范内瓦·布什、约瑟夫·利克莱德等先驱的推动下，在语言学、心理学、计算机科学的共同参与下，计算机从没有用户界面，到有了图形用户界面，开创了个人电脑以及互联网络等惠及整个社会的新产业。

现在手机无需利用鼠标，可以利用新的传感技术，包括AI技术，这些都在使得人们能够更多地感受周围世界，这也是人机交互的一部分。

未来，在新的传感和多媒体技术的共同支持下，机器将可以通过感知和数据处理技术来理解我们，来理解周围的环境，实现更自然、更智能的人机交互。

人机互动的研究领域呈多样化

曹翔介绍道，他现在的工作可以说是“现实版神笔马良”，用一张普通的纸和一个普通的画笔作画之后，用手机采集，瞬间就能转化生成三维动画。通过技术把创作的门坎降低，让普通人能够表达自己的创意是研究的初衷。

到目前为止还是普适计算的时代，未来人机交互会是多模态的，可以用键盘、语音，也可以用手势、表情、唇动等。他首先介绍了基于多通道或多模态感知理论的手语识别，原因有二，其一是因为姿势语言太多太泛，没有清晰的目标边界，其二是因为希望技术能服务于残障人士的日常交流。

第二个工作也和多模态相关，人机交互的终极目标是希望人机交互和人人交互一样。目前通过多模态，包括知识性感知，让机器获知人目前的状态，继而再进行下一步行为。未来可以利用可穿戴设备，对人的生理和心理的境况进行推断，然后进行交互。

陈益强也认为，未来的人机交互模式会是多模态的。围绕“多模态”设想，他提到了目前工作。一个是基于多通道或多模态感知理论的手语识别，将面部识别、手势动作识别和手语识别相融合，用以提高手语识别精度。二是通过多模态手段，使机器人获知人类当前状态。

田丰主要关注面向教育和医疗的人机交互的研究，他分享了再输入技术和相关理论方面的研究成果。由于输入不可避免地存在不精确性，希望用智能化的方法进行改善和帮助。

运动目标的选择是人机交互里非常重要的任务，玩游戏的时候就知道，相对静止来说运动目标的选中更难，怎样来提高选中的效率，同时去理解用户选择目标的能力。他们首先做了大量的用户研究，产生了针对不同速度和尺寸的物体在运动过程的落点分布，建立出模型，计算出用户选中物体的概率。这个模型不仅可以分析正常人，对帕金森病人等也可以用做辅助诊断。

值得一提的是，田丰带领团队研发的笔式电子教学系统获得了国家科技进步二等奖，并与协和医院共同取得了国家卫健委颁发的医疗健康人工智能应用落地30最佳案例的荣誉。

史元春介绍道，在使用手机软键盘时，26个字母挤在狭窄的输入界面里，再配上胖乎乎的手指，点错的经历太多了。这是触屏这种自然交互界面上典型的难题：胖手指难题。

基于研究工作，他们提出了基于贝叶斯推理的自然用户意图理解框架，建模用户行为特征，在模糊的输入信号上推测用户的真实意图。你点的不准没关系，算法可以猜得准。利用这项技术，史元春团队已经研究实现了手机、平板、头盔、电视等一系列接口上的输入法，输入准确度大幅度提高，且几乎不需要视觉瞄准，进而还能支持盲人用户准确实现软键盘输入。

未来的接口也会延伸感知人的操控行为，史教授正在研制的手机前置摄像头上就能：“感知到人手在界面上的变化后，我们就能以此做出新的‘输入法’。”

比如手握手机的任意边框或位置，就可以输入信息、访问界面，甚至和桌子的交互，也能变成对手机的操作。”

人机交互离不开人工智能

针对交互界面的构建是否存在计算模型的问题，田丰指出，传统上存在计算模型，而针对自然人交互，现在还没有相应的理论计算模型，但是应该朝着这个方向努力。

史元春教授同意以上观点，并指出定量评估的方法虽有，但很不充分。不过借助相应的传感技术，定量评估的原理和技术都在不断拓展，这从红外反射监测血流、血压参数、情绪变化等一系列应用上就可以看出。

以后的计算终端是多种多样的，适配的场景和任务也是不一样的，所以完全统一的大而全的模型非常难以建立，但是在特定任务上，技术背后的科学原理一定是有计算模型的，研究者们都应该去努力探索。

此外，定量评估的方法理论上是存在的，但现在很难说是好方法，因为界面在扩展，相应的实现技术、原理和评价技术也都在做扩展和变化。

曹翔也指出，因为人机交互的任务多样，很难去界定效率，更多是用主观感受衡量。从大方向上讲，一定是需要定量数据的，人工智能需要数据，而人机交互离不开人工智能。

针对建模的机制和限制，曹翔指出，具有明确任务的工作建模相对容易，因为目标很清晰，但是体验性的、娱乐性的、沟通性的工作比较难用计算的方式建模，因为其中夹杂着大量非简单人机交互的内容，比如人与人之间的互动等。

用大数据的方式对情绪的预测更有效果，本身人类对情绪化的东西也没有细分到小单元。反过来说，大数据分析或人工智能分析，能在没有用明确的细分模型的情况下做出预测，恰恰能解决非标准性任务。但如果是利用大数据解决问题，建立的可能是一个通用的模型，涉及到个人也会一些差别。

陈益强认为，人机交互要做得好，就一定要做到个性化，也就一定会用到智能方法。从交互来说，最初键盘是确定性交互，鼠标是属于感知层次。往智能上走，语音识别、手势识别这部分在感知以外加入了知识性学习。到第三部分，即情感智能，在执行前还需要加上知识，或者说认知。这也与人脑的三个部分，即中枢神经、小脑和大脑相对应。

智能和人机交互一样，也是按人也分层次，人机交互我们从传统到智能也分层次，可以把它理解为消除不确定性。越往上走，不确定性越大，尤其对意图理解，但是我们怎么去消除它，是人机交互上应用的一个探讨。

人机交互和人工智能协同共进

人工智能和人机交互，都有“人”这个字，对于二者的关系，史元春首先指出，这是中文说法，英文没有这样的词，但二者的共性在于都是很早很明确地谈到人机关系。

史元春教授认为，人机交互应该让机器更好的适应人，适应人的本性，适应人的操控能力、感知能力和认知能力。从“人” 的研究内容上来说，人机交互与人工智能有差异，但出发点是一致的，即“人机共生”。

目前看，人工智能的研究更多的体现在人的识别、语言的表达等数据密集型任务上的处理方法，人机交互的研究更偏重于对人的主动交互行为和感知能力的建模、传感和建立适应的接口技术，人机关系必定向着共生的方向发展，这些研究内容和方法会相互影响和适应，交叠的研究内容会越来越多。

“做人工智能最后要接触人机交互，做人机交互最后也要接触人工智能。”

田丰提到中国科学上有一篇观点性的论文，他指出，人机交互和人工智能在未来的趋势会从交替沉浮走向协同共进。国家人工智能发展规划里一个核心研究点是人机协同，人机协同也是人机交互未来的方向。从人工智能角度讲，自动驾驶等也讲人机协同，其实是殊途同归的。

曹翔指出，人工智能和人机交互的研究价值观、出发点会略有不同。人工智能根本上讲，终极目标是让机器能做所有人能做的事情，人机交互则是指人和机器的合作，两者不矛盾，但是要看情境。

针对人机交互研究对AI的贡献，他指出，首先必须承认AI对人机交互研究的贡献。从大趋势上讲，机器学习中大量的人工标注数据就是人机交互的过程。进一步讲，AI的一个挑战在于可解释AI，最终担心的是可不可被信任，解释的原因是希望能够放心地使用。

某种意义上讲也许解决AI可信任的问题，在于创造一种方式，让人和AI的系统在一个互动过程中慢慢通过衡量判断，可能这个恰恰是人机交互帮助解决所谓AI可解释问题的方法。

对于智能人机交互的畅想，史元春指出，未来计算机的形态会变化，甚至可能不存在了，但计算机技术会持续为我们服务，成为人机共生的一部分，交互接口、交互任务会有很大的变化，但会更自然，更智能。

她把智能人机交互集中分为三类，一是手势，然后是语音，还有可穿戴设备，包括手环、头盔。在这三类上看到了很多新技术和新产品，但都还没有成为主流，也就是说，都存在一定的问题。

比如语音交互，不光是识别率没有达到百分之百，同时语音表达的带宽和表达的数据类型还不完整，和空间有关的数据效率低、没有精度。此外，还有打扰、隐私等，都有很大的限定条件，穿戴更是这样。

陈益强举例穿戴设备可以附着于衣服和鞋子，人机交互最终将实现人机共生。并且，在材料、技术的进步下，能够完全理解人类自然行为的意图，甚至帮助解决人口老龄化、阿尔茨海默病等。

曹翔根据自己目前的研究内容，指出，要通过技术把每个人的创造力充分发挥出来，创造力在未来会成为生存和工作所不可或缺的一部分。

未来在输出上或许能获得更多体验，比如把挖掘出更多感官体验，不只是视觉和听觉领域，甚至创造一个幻想的世界，这是十分有趣的。

田丰称，他对于如何通过人机交互的研究推动产业发展更为关心，相关人口老龄化问题已经与协和医院进行了深入合作，通过对老年人的动作进行解读，提供量化的辅助诊断。

针对人机交互人才的培养，史元春指出，工业界是有需求的，但是学术界还很迷茫。有博士生毕业后在工业界无法找到与专业十分匹配的职位，由于工业界的进步会促使学术界对人才培养建立一套科学的方法。

史元春教授提到：“我们培养的人才应该能够发现交互难题，并且能通过科学的方法来解决这个问题。”

曹翔指出，交互设计师、用户研究员等对口培养的专业，不难找工作；难找工作的是把人机交互作为一个研究领域去学习的学生，因为现有的一个萝卜一个坑的职业体系，并不太适合跨学科的人才，但创业特别需要这样的人。

AI Time由一群关注人工智能发展的青年人创办，旨在发扬科学思辨精神，邀请各界人士对人工智能理论、算法、场景、应用的本质问题进行探索，展开辩论，碰撞思想，打造人工智能知识分享的策源地和聚集地。大数据文摘作为合作媒体将长期合作报道。

感兴趣的小伙伴还可以点击下方链接，查看前六期的内容：

实习/全职编辑记者招聘ing

加入我们，亲身体验一家专业科技媒体采写的每个细节，在最有前景的行业，和一群遍布全球最优秀的人一起成长。坐标北京·清华东门，在大数据文摘主页对话页回复“招聘”了解详情。简历请直接发送至zz@bigdatadigest.cn

点「在看」的人都变好看了哦！

登录查看更多

相关内容

人机交互

关注 324

人机交互( Human–computer Interaction )是一门研究系统与用户之间的交互关系的学问。系统可以是各种各样的机器，也可以是计算机化的系统和软件。

人机对抗智能技术

专知会员服务

214+阅读 · 2020年5月3日

中科大-人工智能方向专业课程2020《脑与认知科学导论》

专知会员服务

126+阅读 · 2020年3月4日

从信息社会迈向智能社会—北京大学高文院士、黄铁军教授

专知会员服务

47+阅读 · 2020年2月20日

2019中国硬科技发展白皮书 193页

专知会员服务

86+阅读 · 2019年12月13日

【GAN】生成式对抗网络GAN在语音自然语言处理中的应用，台大李宏毅老师，附247页ppt下载

专知会员服务

115+阅读 · 2019年11月26日

【CCL 2019】ATT-第19期：生成对抗网络（邱锡鹏）

专知会员服务

50+阅读 · 2019年11月12日

问答与对话-技术与系统之人工智能在人机对话系统中的技术现状与挑战【严睿】第十四届中国中文信息学会暑期学校暨中国中文信息学会《前沿科技讲习班》ATT第14期

专知会员服务

33+阅读 · 2019年10月23日

互联网、社会互动和群体行为，中国人民大学冯仕政教授，第八届全国社会媒体处理大会SMP2019

专知会员服务

33+阅读 · 2019年10月23日

面向社会媒体的多模态情感分析与表达，搜狗AI交互技术中心高级总监陈伟，第八届全国社会媒体处理大会SMP2019

专知会员服务

50+阅读 · 2019年10月22日

问答与对话-理论与基础之面向自然语言处理的深度学习基础【邱锡鹏】第十四届中国中文信息学会暑期学校暨中国中文信息学会《前沿科技讲习班》ATT第13期

专知会员服务

48+阅读 · 2019年10月21日

中科院院士谭铁牛: 人工智能的历史、现状和未来

专知

16+阅读 · 2019年2月17日

终于有人把云计算、大数据和人工智能讲明白了

Python开发者

3+阅读 · 2018年6月13日

分享丨终于有人把云计算、大数据和人工智能讲明白了！（好文）

星河互联

5+阅读 · 2018年4月10日

终于有人把云计算、大数据和人工智能讲明白了！

大数据技术

7+阅读 · 2018年4月2日

人机交互与智能的思考

人工智能学家

9+阅读 · 2018年2月18日

【人工智能】谭铁牛院士：人工智能新动态

产业智能官

8+阅读 · 2018年1月5日

热点|清华才女飙泪谈人工智能：这才是我最大的担心

机器人大讲堂

3+阅读 · 2017年12月4日

【无人机】无人机的自主与智能控制

产业智能官

53+阅读 · 2017年11月27日

微软洪小文：AI 还是个小学生，资本请慎重！

EGONetworks

4+阅读 · 2017年9月6日

【前沿】凌空手势识别综述

科技导报

12+阅读 · 2017年8月17日

Speech2Action: Cross-modal Supervision for Action Recognition

Arxiv

7+阅读 · 2020年3月30日

Perception of prosodic variation for speech synthesis using an unsupervised discrete representation of F0

Arxiv

3+阅读 · 2020年3月14日

SpecAugment: A Simple Data Augmentation Method for Automatic Speech Recognition

Arxiv

7+阅读 · 2019年4月18日

Pluralistic Image Completion

Arxiv

8+阅读 · 2019年3月11日

Show, Tell and Discriminate: Image Captioning by Self-retrieval with Partially Labeled Data

Arxiv

4+阅读 · 2018年7月23日

Generative Adversarial Image Synthesis with Decision Tree Latent Controller

Arxiv

5+阅读 · 2018年5月27日

Image Captioning

Arxiv

11+阅读 · 2018年5月13日

Two can play this Game: Visual Dialog with Discriminative Question Generation and Answering

Arxiv

8+阅读 · 2018年3月29日

Generative Adversarial Networks and Probabilistic Graph Models for Hyperspectral Image Classification

Arxiv

11+阅读 · 2018年2月10日

Eigenoption Discovery through the Deep Successor Representation

Arxiv

3+阅读 · 2018年1月30日

VIP会员