意外|谷歌通过图灵测试的AI实测：4次成功完成任务，3次靠的是人工

会员服务 ·

意外|谷歌通过图灵测试的AI实测：4次成功完成任务，3次靠的是人工

2019 年 5 月 25 日 机器人大讲堂

谷歌神操作，惊掉人下巴。

作为全球AI第一大厂，“人类希望”的寄托，谷歌，竟然干出用真人伪装AI的勾当。

所以刚一被《纽约时报》曝光，圈里立即炸开锅。

核心所指，就是去年亮相的那个真假难辨的打电话AI：Duplex。

实测成功4次，3次背后是人工

去年I/O大会，打电话AI Duplex一经亮相就技惊四座、震动全球，那一声“嗯哼”更是令人印象深刻。

其后谷歌董事长、图灵奖得主John Hennessy也亲自上阵打Call，说在电话预约领域，这个AI已经通过了图灵测试。

而今年I/O，谷歌CEO皮猜还专门披露，一年内已在全美40多州商用。

那意思就是静水流深，正在广泛深入基层服务人民群众。

然而《纽约时报》记者好奇一试，结果尴尬。

为了更好测试，他们还专门找了两部Pixel智能手机，内置了谷歌助理，而且在预订餐厅服务时，如果需要电话预订，就能启动Duplex.

几天之内，《纽约时报》记者使用10多次。

但成功预订的4次中，有3次源于Duplex背后的人工。

更直白来说，75%的成功电话预订背后，由“伪装”成AI的人类完成。

完全由AI实现预订的，只有一次。

《纽约时报》记者也说，就在这一次中，确实也能展现谷歌AI的实力，不仅交流流畅应对自如，而且还有一些小停顿和语气词，让交流显得更逼真。

在被餐厅经理问及“几个人吃饭”、“什么时候”、“姓名”，“手机号”等信息时，谷歌AI都应对自如，准确回答。

甚至餐厅经理冷不防问出“有孩子吗？”这样的问题，谷歌AI还能随机应变，回答说：“我帮客户预订，所以我不太确定。”

然而遗憾的是，测试中成功预订的4次，有且仅有这一次，是真AI。

即便测试样本还不是足够多，但也能说明很大问题。

而且谷歌利用人类呼叫员“伪装”AI被发现，最初也源自一则餐厅“举报”。

爱尔兰口音的谷歌“AI”

吉米·陈（Jimmy Tran），泰餐厅Lao Thai Kitchen的员工，之前接到一通来自“谷歌助理”（Google Assistant）的电话。

这是一个有明显爱尔兰口音的男声，希望预订周末两个人用餐的位置。

小陈原本挺激动，毕竟他也多少听闻。通过谷歌拨打而来的订座电话，不是普通的打Call，背后是逆天的谷歌AI——Duplex.

但小陈很惊讶——这个“AI”口音为何真得不像AI？不仅是爱尔兰口音，而且说话的语气语调，“像个人”。

于是小陈单刀直入询问：你是爱尔兰人？

对方马上回答：哦，是。我不是机器人。然后还笑出声来。

最后留下一脸懵逼的小陈，他决定向《纽约时报》寻求答案。

然而不问不知道。

谷歌官方：1/4电话由人类拨出

因为谷歌官方大大方方承认，打电话给泰餐小陈的，确实是谷歌呼叫中心的员工。

而且目前通过Duplex拨打的电话中，约有25%由人类完全操作，在其他非人工操作的情况下，有15%的呼叫受到了人为干预。

当然，打电话AI Duplex背后还有人类呼叫中心这件事，谷歌之前从未披露过。

甚至一直以来，谷歌展现的姿态，都是完全AI，完全自动化，完全不需要人类。

只是之前官方博客里，有云淡风轻提到过，机器能够自主完成大部分任务，并识别自己无法处理的情况，然后让人类来处理。

听起来只是一种保障用户体验的冗余行为。

万万没想到，人类不仅直接参与，而且1/4的电话都在“伪装” 成AI。

而如果按照《纽约时报》的随手测试，实际上3/4都是人类员工所为。

所以这就是谷歌如今的做事方式？

业务和产品沦为“方便面”——包装精美诱人，然后在旮旯角落留下一句“效果仅供参考”？

谷歌回应：出于对餐厅尊敬

而且谷歌的解释和回应，也让人困惑。

谷歌说，Duplex之所以有时依赖人工，部分原因在于，是出于对餐厅的尊重。

负责谷歌助理业务的高管尼克·福克斯(Nick Fox)解释，为保证餐厅方面的体验，谷歌没有在Duplex中强力去人工化。

但谷歌也在不断随着时间推进改进产品，改进自动化系统，并逐渐减少人工干预的需要。

Duplex的产品经理也表示，还有些餐厅不知道能不能电话预订，所以这类餐厅会优先选择人类打电话。

也就是说，只有那些明确接受电话订座的餐厅，谷歌系统才会让AI出马。

然而《纽约时报》马上用实例打脸。

因为就在一个之前成功用Duplex订座成功的餐厅，再次试图用谷歌AI预订时，谷歌派出的是人类。

《纽约时报》猜测，可能是Duplex系统的学习速度还没那么快。

因为之前The Verge的相关报道中，还提到了另一个原因：这项技术还很年轻、使用有限。目前谷歌仍在使用人工呼叫来帮助获取数据、训练AI。

但无论如何，谷歌一手塑造的逆天AI，这次算是破功了。

大家习惯了“多少人工就有多少智能”的说法，但谷歌在应用级人工智能产品中，玩起“人工”+“智能”的模式，依然令人震惊。

事情曝光后，也有人评论说：难以置信，当他们在舞台上现场表演时，我很惊讶。他们完全撒谎了，我真的希望有人起诉他们。那天他们在舞台上欺骗了成千上万的人。

不过也有谷歌铁杆支持者认为，谷歌这样谨慎而不激进地引入Duplex，是明智的。

不知道你是否还记得Duplex横空出世的样子。

这里可以帮你回顾一下：

只是Demo再炫酷，现在也被现实给了一记尴尬耳光。

你怎么看？

来源：凹非寺

END

加入社群

机器人大讲堂Rob社群开始招募啦！如果您正在从事或想要从事机器人行业、想要学习这一方向，都欢迎您加入我们共同探讨机器人前沿科技。

另外，腿足机器人、医疗机器人、工业机器人专业讨论群正在招募中，欢迎各位专业领域的小伙伴加入。

在机器人大讲堂公众号对话框回复“交流群”获取入群方式！

招募作者

机器人大讲堂正在招募兼职内容创作者和专栏作家

请将简历和原创作品投至邮箱：LDjqrdjt@163.com

我们对职业、所在地等没有要求，欢迎有兴趣有能力的朋友加入！

看累了吗？戳一下“在看”支持我们吧！

登录查看更多

相关内容

图灵测试

关注 2

图灵测试（英语：Turing test，又译图灵试验）是图灵于1950年提出的一个关于判断机器是否能够思考的著名试验，测试某机器是否能表现出与人等价或无法区分的智能。测试的谈话仅限于使用唯一的文本管道，例如计算机键盘和屏幕，这样的结果是不依赖于计算机把单词转换为音频的能力。 Source: 图灵测试

【IJCAI2020-Facebook】利用弱标记数据对声音进行大规模的视听学习

专知会员服务

19+阅读 · 2020年6月3日

【Google-WWW2020】会话域探索的动态组合， Conversational Domain Exploration

专知会员服务

10+阅读 · 2020年3月22日