在研发聊天机器人或「智能助手」的过程中,我们 一直追求让人类不再担任主角,甚至把工作和生活安排完全交给机器解决,但现实是,即使任务可以被处理掉,人类也不喜欢。
编译|王宇欣
来源| Wired
作者| JOHN H. RICHARDSON
我正处于早晨的日常当中,笔记本发出声音,成堆的电子邮件填满了整个屏幕——我绞尽脑汁想了 40 种支付那些该死账单的方式,花了 30 分钟检查了我在枯燥工作中出现的错误。
「Hi John,Stefanie 通知我这次的会议定在了周二。我会继续发送邀请。」这段话发自 Andrew。
随后,Andrew 又给我发送了 8 封邮件。显然我周二要和几个人见面,他给我发送了一大串的邀请。
然后,他又给我写了一封邮件,这次是要确认我是否会到场。
我回道,「我会按照日程,4 点到达,」
滴,又是一封邮件。
没问题。我会在周三美国东部夏季时间的 12:30 发送邀请。
我回信道,「我想你误会了,我说我会在下午 4 点准时参加。我不想让你重新安排时间。」
我很抱歉,非常感谢。关于这次的会议,你还有什么别的需要更改的吗?
「我就希望你把它改回到下午 4 点。」现在我只希望再发 8 封邮件就能解决这个事。
无休止的邮件往来。
在那一刻,我快要按奈不住内心的卢德主义了,Andrew Ingram——我之后了解才知道那个助理的全名——才不是什么我应该体谅的过劳的私人助理;他是一个人工智能支持的日程安排机器人,仅仅是众多「对话界面」科技公司的一员,他们为了最大化地提高效率会把无穷无尽的问题扔向我们。
我们正在学习告诉 Alexa 播放哪首歌、学习要求 Nerdify 提供研究材料、学习用 Hello Barbie 分散孩子的注意力、学习和汽车的仪表盘交谈来预订披萨。
去年,800 万人与一个名为 Cleverbot 的对话式用户界面进行了交谈,仅仅是因为他们想要和某个人,或是某个东西聊聊天。
一些市场研究人员预测,到 2025 年,将有超过 10 亿人与人工智能助理有过接触。当人类在未来几十年后奋起反抗计算机霸主时——即使那时候我拄着拐杖颤颤巍巍的走着,身边有一个不知疲倦的照护机器人陪伴——我也会一步一步走向路障,大声喊出我的战斗口号:「记住 Andrew Ingram!」
哥们,这家伙真是太烦人了。
好吧,这样说有些暴躁了。
虽然这听上去是件小事,但是创建一个人工智能程序来成功地安排会议是一个非常困难的挑战,而且你要知道,那些试图来完善 Andrew Ingram 的人——X.ai 公司的 53 名全职员工,将会是你所见过的最具奉献精神的人。
他们穿着 T 恤和牛仔裤,在曼哈顿办公室忙碌着,劲头就好像 NASA 的工程师在准备发射探月卫星一样。
如果他们能够完善 Andrew Ingram 的话,他们将会把 X.ai 一举推上职场创新的最前沿。
美国人每天约要安排 2500 万次会议。再乘以会议占用时间的小时工资,你就能知道 X.ai 能够省下多少时间、金钱和精力了。
碰巧,十多年来,在线调度领域内一直存在激烈竞争。首先进入这一领域的就是 MeetOMatic 和 MeetMax,两家公司的用户向在线日程中输入几个可能的时间,其他参与者则可以点击其它方便的空余时间。
但是这些服务都面临着一个相同的问题:
忙碌专业人士的生活可没有多余的时间来应付另一个挑剔细节的计算机程序。人们真正需要的是一台类似于人类助手的机器,他们可以直接与之对话:「安排一下下周和 Dave Jones 的会议。」
直到过去几年,人工智能仍然无法足够准确地处理人类的语言来满足这一需求,所以公司采用了新的混合方法,即机器和人类的混合,算法处理日程和会议地点,人类助手则负责回复客户。
不过,助理的薪水意味着这些服务的月花销可能达到数百美金。
降低价格的最好办法就是完全将人类解放,创建一个全自主的人工智能调度者,针对这一目标,我询问过众多的人工智能专家,他们给我的回答都是在「非常非常难」到「不可能」这一范围。即使是最先进的会话式界面也难以完成「自然语言理解」。(人类的意思是 AI 需要理解所有的流行文化参考和圈内梗!)
这是 Dennis Mortensen 在创建 X.ai 时遇到的挑战。
作为一个精力充沛的企业家,除了长得有点像动作片里的英雄人物,他还有着计算机分析方面的学术背景。在 80 年代的丹麦,Mortensen 那时还年轻,他会随身携带一个笔记本,称之为「厌恶列表」——每当有什么让他恼火的事情时,他就会拿出笔在小本本上草草记录下来。
为什么我们点的披萨要等这么久?为什么我必须要在银行排队?在他准备开第一家公司时,他把这些问题分为了两大类:可解和不可解。
在接下来 20 年的时间里,他的厌恶列表孵化出两个成功的分析初创公司,Visual Revenue 和 Canvas Interactive,这两家公司可以让客户深入了解他们公司的网站流量。
X.ai 的 CEO,Dennis Mortensen 正在他纽约的办公室里。他的任务就是创造出所谓的「调度必杀」。
2013 年,Mortensen 准备好开启另一个将「工作烦恼」进行商业化的阶段。这次他选择的是会议时间安排。
半个多世纪以来,科学家门一直试图开发一款计算机程序,能够与人类真实的互动——最初的聊天机器人,Eiza 就是在 60 世纪由 MIT 编码而成的,Eliza 在识别会话关键词和脚本响应方面做得非常不错。
2016 年,亚马逊举办了 Alexa Prize——每年举办一次的机器人大赛。比赛要求参赛者搭建一个「在 20 分钟内和人类就流行话题保持一致并具有吸引力的」聊天机器人,奖金已经高到 350 万美元。(查看 26.03 期的「Fighting Words」)。
此外,自 1991 年以来,开发者们每年都会参与一项名为 Loebner Prize 的比赛,这是一项图灵测试竞赛,要求机器人门试图说服人类评判者它们是人类。
但直到 2010 年初,Siri 和其他近期发布的会话式界面开始显现出不同程度的潜力时,这项技术才有可能使 Mortensen 的梦想成为现实。
Mortensen 将这一想法告诉了希望跻身人工智能热潮的风投公司,他在一年内雇佣了一个数据科学家和软件工程师组成的团队,开始处理数百个初期的决策:
助理回答问题的语气应该是正式点呢还是友好一些呢?(他们最后决定两者兼顾)。
人工智能助理应该存在性别吗?(是的,用户可以选择 Andrew Ingram 或者他的「妹妹」,Amy。)
Andrew 或 Amy 应该以虚拟的形象出现吗?
为了确保 Amy 和 Andrew 的声音保持一致,Mortensen 甚至雇佣了一名「人工智能交互设计师」来学习 Ingrams 和人类记者之间的唠叨。看起来,机器也需要演讲稿撰写人啊。
改善算法的能力,让其以寻常的人类语言回答问题就花费了一年半的时间。其中,处理诸如时间、地点和取消会面等数据花的时间稍微有些长。
但是教人工智能处理和解释人类语音似乎比 Mortensen 设想中更加困难。他的工程师一直在研究他们所认为的「边缘案例」,或者人们在沟通时出现的意想不到的语句。
举个例子,一个人在要求召开会议时突然说出一些无关紧要的事情,就像「在阿卡普尔科举办婚礼怎么样?」人类会分辨出这只是闲聊,但是机器可能最终就会在阿卡普尔科安排会议。
如果一个说他们真的很忙,没时间见面,但是又说「我们真应该另找个时间喝杯咖啡,」人们就会意识到这只是一个借口罢了。「要不咱们在 John 的办公室见?」,机器对这样的话可能无法理解,这世上有几百万个 John 好嘛!那个蠢蠢的人究竟说的是哪个 John?
正如 Mortensen 说的那样,「你认为人类是很合理的,但是很快你就会发现他们疯了。他们说的话模棱两可,即使是你我也很难找出答案。或者他们会说出他们认为是对的事情,但实际他们错了。」
Mortensen 和他的程序员看到了两种解决自然语言理解问题的方法。
他们可以将不同的句法和语法变量输入到数据库里,但是仍然不起效。或者他们可以依赖于机器学习,高级人工智能的代理和引擎。
当你,一个人类,第一次看见一只无毛的斯芬克斯猫时,你的大脑会浮现出一只由观察和经验创造出的柏拉图猫混合体,并瞬间产生一个回馈:「嗯,那只看起来像一只没毛大老鼠的东西,实际上是只猫。」
为了让人工智能实现这一飞跃,科学家门必须首先将猫和非猫的照片「喂」给人工智能,让算法得以比较所有的示例,并找出图像中的所有相似点和不同点。
最终,如果有足够的猫数据和足够的边缘案例错误的更正,人工智能将会创建出柏拉图猫的混合体,并自行解决不常见的猫问题。
但是像『学习』和『思考』这样的词意味着计算机并不具备真正人类的特质。它仅仅是在做数学运算,对系统内的数据进行概率测试。这就是为什么他们被称为「人工」智能的原因。
Mortensen 踏上了机器学习之路,三年内在所谓的「原始研发」过程中投资了 3000 万美元之后,他觉得是时候让 Ingrams 和实际客户进行合作了。
他在 2016 年 10 月发布了第一版 Ingrams,入门级价格为每月 39 美元,现在则是每月 17 美元。
Mortensen 没有透露任何销售数据或是客户留存率,他们现在仍然处于起步阶段,但是数据足够健康。2017 年 8 月 Mortensen 获得了 额外 1000 万美元的风投资金(X.ai 获得的投资总计 4400 万美元)。
Mortensen 表示,Ingrams 已经处理了 1000 万封电子邮件,并与微软、Uber 和 Slack 等巨头公司的员工签约。最终他设想,Ingrams 将简单地覆盖每个人的日程表,并且可以毫不费力地召开会议。他把它称之为「线上调度工作的变革者。」
而以我目前的经验来看,人工智能的启蒙仍然是一段很长的路。
Mortensen 面临着比自然语言更大的挑战——人类心理学。比如,我们在三封日程安排邮件之后就会感到恼火,而机器却不知疲倦。「我们看到一些人工智能参与上千条消息,」Mortensen 说道。
「说到数千条消息,」我对他说,「仅仅为了安排这次访问,Andrew 就给我发了 9 封邮件。」
「如果能在一次交涉中完成,应该会更好,」他说道。「但是我们还不支持这样。」
同时,他在菲律宾有 105 名人类「训练员」,全天候工作,提供更多数据来丰富算法,提升人工智能的效率和准确性。
这些员工并非(注意是「并非」)是科技记者指责 Mortensen 用来防止出现日程安排出现错误而雇佣的秘密人类助手。他表示,他的作品在没有人类协助的情况下完成了一切。训练员只是在教导它如何做的更好。
在马尼拉郊区一座被高度防护的建筑内——我不得不把自己的手机和笔记本交给安保人员,甚至不能在生产部内使用笔和纸——40 名年轻的菲律宾人正像旅客一样坐在桌旁,在网咖内浏览 Facebook。
他们大多二三十岁,都是大学毕业生或是从离岸呼叫中心离职来此的人。像许多菲律宾人一样,他们说一口流利的英语。但是我的陪同者只允许我与其中之一进行交谈,并且时限为 10 分钟。
X.ai 计算机监控员工「花费在每项任务上的时间,」她说道,我的存在会分散他们的注意力。她还告诉我不要询问任何人的名字,这会让他们感到不舒服。
我坐在一名年轻的女子旁边,看着她在模板上将单词和数字滑动进箱框内。
她告诉我她正在攻读商学位,并且在这里全职工作,目前她正在处理困难时区中的电子邮件。她说道,有时候人们只是会提一下他们所在的城市,这就造成了一个问题,因为有很多城市的名字都是相同的。或者他们会把自己所在地的名字拼错。有时还会将东部标准时间和东部夏令时间混淆。
X.ai 算法必须要学习如何识别、解决这些问题,工程师们必须要将句子拆分为精心设计的数据集和子集。通过突出显示每一个与时区相关的单词,并将其拖入到时区模板相应的箱框内,她的工作就是将数据输送到机器学习算法中。这被称为「命名实体识别」。
时间一到,监督者就把我赶出了房间。
在附近的一个会议室内,我遇到了训练团队的领导人,一个看起来像是中学老师的开朗女性。
我的陪同者在向我介绍时,只是提到她叫 Zolia——显然把她的姓告诉我又可能会侵犯双方交流的舒适区。
不过,他们千里迢迢邀请我从纽约过来观看这一奇迹的运作方式,却向我保密他们的姓名,这似乎有些奇怪,当我和身处纽约的 X.ai 首席数据科学家 Marcos Jimenez Belenguer 进行视频通话时,这一切的感觉更加奇怪了。
Lumi 正在聊天机器人初创公司 X.ai 的办公室中漫步。
在接下来的一个小时内,在他和 Zolia 以及 X.ai 的人工智能训练副总裁 Liying Wang 谈话时(我曾在纽约和她见过面,这才知道她的全名),我得以一窥疯狂的人类都会做出什么问题。
举个例子,这封邮件写道:「我可以在周一的香港时间下午 3 点后进行,但是周二我要离开,所以我只能周三之后参加会议,香港时间下午 3 点之后都可以。」
Zolia 表示,她的训练师被这封邮件难倒了。如果人们说,周三下午 3 点之后的时间总是可以,他们应该把它放在「经常可用」的时间段。但是周二怎么办呢?
Jimenez Belenguer 仔细考虑了一会。她的工程和数据科学团队设计了模板,将正确的数据提供给机器学习模型。针对特定的语言问题或者添加新的功能,他们不断调整这些模型和模板。
所以问题是,这封电子邮件是否能够适合这一模型或是是否他们需要重新设计。
是的,他决定了,事实上,「下午 3 点之后」是经常可用的时间段。问题在于,星期二是经常可用时间段的一个「空洞」,他们没有办法在最新的时间模型中表示「有空洞的经常性时间」。「这很棘手,」Wang 说道。
还有一个例子:「8 月 7 日的大部分时间我都有空。7、8、9 或者 10 之后的时间都可以,最好在下午。」训练人员认为这则消息中的后四个数字是日期,但是日期模板却没有足够的箱框。
Jimenez Belenguer 说道,这是另一个边缘案例,如果工程师或培训师犯了太多的错误,就是那种人类容易犯的错误,机器就会学会犯同样的错误。
当然,他们可以搭建一个更多箱框的模板。但是某些时候,他们不得不停止重写模板,并让算法向客户寻求更清晰的说明。这是他们的默认故障安全选项,但是如果 Amy 或 Andrew 问的太多,又会惹恼客户,他们尽量避免这样做。我明白这种感受。
直到我报道这一点之前,我一直都在接收 Ingrams 的建议,但我却不是用户。现在是该我注册自己的 Amy 或 Andrew 的时候了。
为了给 自己一个比较的基础,我决定尝试使用 X.ai 和其竞争对手之一 Clara Labs 安排会议。
Clara Labs 约 3 年前发布其聊天机器人,和 X.ai 同月发布,它是 Mortensen 试图贱卖并创新超越的人机混合服务之一。
Clara 的方法被称为「人为介入(human in the loop)」——「由人类增加了机器所不能创造的价值」这一想法得来。事实上,它的创始人完全否定了 Mortensen 的「全自主化」梦想,他们将这种差异放在了日程助手的问候语中:我是 Clara,你的人为介入助手。
我首先添加了 X.ai。几分钟后收到回复:
Hi John,
我是 Amy,从今天开始,我就是你的私人日程安排助理了。
你想要安排一场会议时,你要做的就是将邮件抄送给我(amy@x.ai),我会接管繁琐的邮件往来。
首先,她建议我把她和我的日程表相连,并输入我的地址和会议偏好——比如一天中的时间、喜欢的咖啡店等。她以一个愉快的告别结束了这个引导课程:
始终为你服务,Amy Ingram :)。
是时候来安排我的第一次会议了。我向编辑发出了邀请,按照指示抄送给了 Amy,特意用一个模糊的聚会主题来测试她。
「我下周二去联合广场参加下午两点的会议,我觉得我们之前可以做点什么,喝个咖啡或吃个午饭——也许 12 点?」
事情很快就变得复杂了起来,不知什么原因,Amy 最终向编辑提出建议,我们在他家会面。因为我把她的邮件也抄送给了编辑,我马上意识到了错误,开始介入纠正她。
我注册了 Clara,尝试了类似的模糊信息。相反 Clara 并没有使用毫无必要的往来邮件,她直接回复我:
「请让我知道你想见面的确切地址。」
为了解更多 Clara(这个助手的每月基本套餐费用为 99 美元,其中包括 35 次会议,行政套餐每月费用为 399 美元,包括 110 次会议)的信息,我给 Clara 创始人打了电话,Maran Nelson 和 Michael Akilian。
2014 年,Nelson 和她最好的高中朋友 Akilian 坐在旧金山的一家咖啡店里,Nelson 告诉 Akilian 她计划把那些对技术和社交问题有兴趣的人聚集起来成立一个智囊团。
她已经通过上百次电话和电子邮件邀请人们进行面试,Akilian 记得那时,「她的电子邮箱完全被淹没了。她试图为所有人安排日程,她说道,『我希望有这么一个东西,我可以直接说,「嘿,我想要在接下来三周和这 50 个人分别谈一谈,每个人需要安排 30 分钟的时间,」然后就好了,所有的日程都已经被安排好了。』」
像 Mortensen 一样,Nelson 和 Akilian 着手编写响应模板和关键字识别。但是他们并没有尝试筹集 3000 万美元,也没有花费 3 年的时间在自然语言研发上。
「智能界面自成立以来就一直是整个硅谷所笃信的对象,」Nelson 说道。「但是自然语言处理真的离我们还很遥远,所以我们构想出了『人为介入』」。
这也是 Clara 远程助手专注的领域。
当 Clara 人工智能对其提出的响应具有高度自信时,它将在不打扰人类的情况下发送邮件。但是如果是其他情况,Clara 会将相关文本发送给 CRA 比如 Cat Moore(乔治亚洲 28 岁的神经科学学生,在家远程工作)。
「我们所做的第一件事就是阅读整个往返的电子邮件,了解发生了什么,」她解释道。一般在 10 人之上的大型会议请求上会让人混乱。那种电子邮件可能要花费她十分钟的时间才能弄清楚。
有时候她会自定义一些回应模板来增添一些人情味。如果有人给你发邮件说,「我不能参加会议了,我刚刚遇到了一场车祸」,回复「没问题!你想什么时候再安排时间?」,就有些不合适了。有时候邮件会说,「对不起,我做不了了,我的父亲过世了。」
这让 Clara 的工程师们想出来一个「同感情绪」的项目。很快,CRAs 就有了新的模板,更具人性化,比如「对于你的失去,我很抱歉」。
「有些东西比较容易自动化,有些则困难得多,」Clara 机器学习项目的负责人 Jason Laska 如是说道。「有时候你真的需要一个人来做这些东西。」
当我回复 Clara 的信息时,我知道另一端会有人,所以我总是以「Hi,Clara」开头,并在完成时表示感谢。
但是我与完全自动化的 Amy 互通了几封邮件之后,我觉得与机器交换愉快的心情,然后收到冰冷的机械式回复,这一切实在是太蠢了。我不禁好奇:与机器谈话会让你像机器一样行事吗?
Maran Nelson 和 Clara Labs 创始人 Michael Akilian 在旧金山的办公室。Clara 的人工智能聊天机器人依赖于远程人类助理。
我决定进行另一项测试。
我要求 4 个人注册了 Clara 和 X.ai,并向我发送邀请参加会议。当我收到他们的电子邮件时,我回复说道「对不起,我的父亲去世了。」
Clara 在重新安排会议之前表达了「最深切的哀悼」。
Amy 则采取了不同的方法:
「我很抱歉,但我无法回应你最后的信息。这可能与安排会议无关,或者我无法理解此类讯息。如果我需要对这条消息采取措施,请尝试重新执行请求并重新向我发送电子邮件。」
我想我发现了另一个边缘案例。
正如 X.ai 一个高级工程师承认的那样,在一些罕见的没有防护措施的时刻,「在可以自动化任何事物的逻辑系统内,至少存在一种情况——它本应该能够处理但事实上却不能。就像与人类逻辑相关的所有事情一样,这是一个无底洞。」
Siri 背后的工程师之一 Joshua Levy 乐观地认为,在不久之后我们将拥有稳定可靠、完全自主的会话界面:
「我并不是说我们永远也解决不了语言的问题——也许我们可以——但是现在我们确实无能为力」。
这可能是近期 Facebook 关停 2015 年推出的高端虚拟助手测试版 M 的原因:太多聊天机器人的任务需要人为干预。
从 Eliza 至今,聊天机器人已经走过了很长的一段路,但是还不够远。至少现在还不够。
对于 Mortensen 和遍布全球的 X.ai 员工来说,问题是,在 Andrew 和 Amy 通向自然语言理解的路上,他们是否会让许多客户失望。
Mortensen 表示,Ingrams 现在正确执行了 99 % 的任务,但是一条信息不可能比「我 4 点可以赴会,」更简单明了了,而 Andrew 在我第一次使用它时就搞砸了。
考虑到 X.ai 既是家初创公司,又是一家积极的研发企业,Mortensen 不对外界透露消费者留存率以及公司收益是合理的,但是更重要的问题在于公司是否有足够的资金继续迭代、创新、保持客户满意直到技术多年后趋于成熟并步入主流。
在泡沫涌起的人工智能风头市场中,筹集资金的一个好方法就是称自己为一家人工智能公司,然后雇佣人类员工完成大部分工作,直到你不再需要他们为止。
但是 Clara 的创始人相信我们永远需要人为介入。
「我们的最高价值就是可靠性,」Nelson 说道,即使公司的开发人员在努力提升其自然语言人工智能——Clara 约四分之一的任务是完全自动化的——他们不打算阻止那些维持质量控制的人从事副业,他们想出了诸如「同感情绪」之类的项目。
哪种愿景会是最终赢家?它会是「让我们与忠诚的人工智能助手携手一起升至顶点吗」?或者还是现代生活的无情准则那样,「最终消灭大部分人类助手的公司会笑到最后」?
仅仅作为人类,我们需要耐心等候,等待这两位不太可能的冠军——两种日程安排机器人——进入最后角逐,争夺人类未来的架构。
推荐阅读