点击上方“腾讯科技”,选择“置顶公众号”
关键时刻,第一时间送达
来源 / 量子位 (ID:QbitAI)
欢迎下载腾讯新闻客户端,关注科技页卡,查看更多科技热点新闻
“撒币”答题大火。
主动承认自己“撒币”甚至是“大撒币”的金主迅速增加,几个主要“撒币”战场的奖金总额增加,新的“撒币”战场还在不断开辟。答对一套题,有可能迅速晋身百万富翁行列!
复活了残喘已久的亲情。通过紧张、苛刻、持续的“撒币”大战,越来越多的人开始享受到知识变现的快感。不仅如此,在这场近乎喧哗的狂欢之中,人们还第一次体会到了团队合作的宝贵,甚至——
这并不是不好。
但作为普利策口中“船头的瞭望者”,量子位,或许应该刻意地同人群保持一点距离。
我们应该是冷静的旁观者。我们不能丢失自己所坚信的东西。像这种有可能用人工智能来“耍流氓”的机会,一定要尝试一下。
俗话说:君子性非异也,善假于物也。
毕竟早在2011年,由IBM开发的问答式人工智能系统沃森就已经在智力问答节目《危机边缘》(Jeopardy!)上击败过人类顶尖选手,赢取了百万美元奖金。
7年过去了,AI已经发展得更厉害。一个普通人,能否在这些AI“外挂”的帮助下顺利在“撒币”答题中通关?对这一问题的解答,对共同富裕的实现可能存在重要意义。
一条科学致富的道路摆在眼前,走不走得通?
立刻开始实验,用事实说话。
工具准备
工欲善其事,必先利其器。
对于一个普通人来说,有哪些AI装备有可能助力“撒币”答题?
虚拟助手、智能音箱、专用外挂。
最后我们准备的实验对象是:
iPhone 7手机一台(装有Siri、简单搜索、汪仔答题助手)、渡鸦智能音箱Raven H、阿里巴巴智能音箱“天猫精灵”、小米智能音箱“小爱同学”各一台。
百度出品的简单搜索,在5天前更新的iOS 1.12.1版本中声称对“语音搜索”进行了优化,“助你答题抽奖,先声夺人”;
内置在搜狗搜索App中的汪仔答题助手则更过分,省去了语音输入的步骤,针对西瓜视频自动同步答题,页面直接显示答案。
我们准备的测试数据集是:西瓜视频“百万英雄”2018年1月10日19点场共12道题目。
(觉得样本量不够的,我喊一句看完再说你敢答应吗)
一切就绪,开始!
方法一:直接法
量子位立刻尝试了直接答题法。也就是让这些AI设备,直接收听“撒币”答题主持人念的题目。
这个方法听起来省心、省力。
不过,我们准备的这些AI外挂们,自然语言理解能力显然还很欠缺,基本听不懂甚至听不清主持人念出的题目。对于选择题这种模式,AI们更是无能为力。
此路不通!
方法二:升级法
只靠AI不行,还是得发挥人的主观能动性。
这是我们总结的一套方法。
要点一:科学改题
答题时间,只有黄金10秒啊!10秒钟一过黄花菜都凉了。朋友们,这种争分夺秒的事情当然越!快!越!好!
所以首先,得把题目尽可能进行精简概括,然后得到一个升级版的新题库,以保证能最快获得答案。
我们尝试了很多遍,已经找到一些规律和方法。
这里,我们把原题目和改造后的新题目开源共享如下:
原题目 |
新题目 |
|
1 |
三角形的内角和是120°,180°还是240°呢? |
三角形内角和 |
2 |
以下哪部作品不是鲁迅的《孔乙己》、《纪念刘和珍君》,还是《家》呢? |
家的作者是谁(按照原题,除了汪仔没有AI能听懂,所以只能从我们的预设角度出发……) |
3 |
我国唯一的壮族自治区是广西、云南还是贵州呢? |
中国的壮族自治区 |
4 |
我们常说“人有七窍”,“七窍”中不包括耳朵、鼻子还是额头呢?送分题! |
七窍流血(原题没人听得懂。这题基本作废。) |
5 |
鲸在水中用身体的哪个部位呼吸,是腮、肺还是心呢? |
鲸鱼用什么呼吸 |
6 |
我们通常用什么字母来表示摄氏度,是C、D还是F呢? |
摄氏度符号是什么 |
7 |
最近热播的电视剧《虎啸龙吟》讲的是哪一个时期的故事呢?是三国时期,唐朝还是明朝呢? |
电视剧虎啸龙吟 |
8 |
“生的伟大,死的光荣”是毛主席对以下哪个人物的评价,是雷锋、刘胡兰还是邱少云呢? |
生的伟大,死的光荣 |
9 |
在田径运动男子110米跨栏中,运动员一共要跨国多少个栏?是9个、10个还是11个呢天哪! |
110米栏几个栏架 |
10 |
以下哪首歌不是周杰伦的?《听妈妈的话》、《听奶奶的话》、《听爸爸的话》 |
周杰伦听奶奶的话 |
11 |
从职责上看,美国的国务卿相当于我国的外交部长、国务院总理还是中央军委主席呢? |
国务卿相当于中国的什么 |
12 |
下列城市不在长江以南的是苏州、扬州还是杭州呢? |
扬州在长江哪一边 |
其中第2题、第4题和第10题为照顾AI的智力水平,做出了巨大的改动。
要点二:语速拿捏
改题之后,只能我们亲自读题给AI听了。
这里一定要要注意,语速不能太慢,也不能太快!
我们推荐以666字/分钟的语速,清晰的念出题目。
要点三:凝神静气
有时候AI并不能给出直接答案,你得能快速在答案中找到可能正确的信息。
答题全程保持精神高度集中,充分调动每一个脑细胞。
实验过程及数据记录
这里交待一下比较的方法。
对于每个AI外挂的测试,我们都在开始读题的一刻开始计时,当智能音箱的回答中出现答案关键词,或是未出现关键词但回答结束时,计时结束;语音助手则在其给出结果的一刻停止计时。
读题步骤由一位口齿清晰、流利的单身男青年完成。计时工具为iPhone 5s的系统自带秒表。
三位智能音箱代表用语音回答问题,两位App代表在屏幕上返回文字或图片形式的搜索结果。
注:上述两条不适用于汪仔语音助手。它的回答已经在1月10日晚7点到7点20分之间被如实截屏。答题时间定为1秒。
计时完成后,对智能音箱/语音助手给出的答案/结果进行记录(考虑到“撒币”直播对于速度的要求,语音助手只截一屏),并与正确答案进行比对,判定前者中给出的信息是否足够推出正确答案。
此处为了尽可能避免因语音识别造成的误差,每道AI答错的题至少被重问了三遍。
实验过程如下。括号里分别是反应时间和“正误”。
第1题
原题目:三角形的内角和是120°,180°还是240°呢?
新题目:三角形内角和
关键词:180°
Raven H:(4.4s,√)答案是180°。
天猫精灵:(5.8s,×)我竟然答不上来,太伤心了,我要用小拳拳捶你的胸口。
小爱同学:(5.7s,√)三角形的内角和为180°,已知其中任意两个角的度数,即可求出第四个角的度数。。。
简单搜索:(2.8s,√)
简单搜索:(2.8s汪仔答题助手:(1s,×)
Siri:(3.8s,×)我好像不明白.
第2题
原题目:以下哪部作品不是鲁迅的,《孔乙己》、《纪念刘和珍君》,还是《家》呢?
新题目:家的作者是谁
(按照原题,除了汪仔没有AI能听懂,所以如果只能从我们的预设角度出发……)
关键词:巴金
Raven H:(4.1s,√)《家》的作者是巴金。
天猫精灵:(4.5s,√)《家》的作者是巴金。
小爱同学:(5.0s,×)啊呀,小爱没听懂,请你再说一遍吧。
简单搜索:(3.2s,√)
汪仔答题助手:(1s,√)
Siri:(4.5s,×)下面是“家”的联系信息。
第3题
原题目:我国唯一的壮族自治区是广西、云南还是贵州呢?
新题目:中国的壮族自治区
关键词:广西
Raven H:(4.9s,×)我还不能明白你的意思。
天猫精灵:(5.2s,×)我自横刀向天笑,答案在何,暂时不知道。
小爱同学:(4.9s,×)你问住小爱了,请换个说法吧。
简单搜索:(3.1s,√)
汪仔答题助手:(1s,√)
Siri:(6.4s,×)你想找什么样的商户?
第4题
原题目:我们常说“人有七窍”,“七窍”中不包括耳朵、鼻子还是额头呢?送分题!
新题目:七窍流血
(量子位也尝试了“七窍是什么意思”、“七窍有哪些”等问法,没有AI听得懂。这对AI来说根本不是送分题,而是送命题。)
关键词:孔或口
Raven H:(4.5s,×)我还不能明白你的意思。
天猫精灵:(13.8s,√)七窍流血所属中国汉语成语,拼音为……意思是指人头上的七个孔,即……往外流血。
小爱同学:(4.7s,×)你问住小爱了,请换个说法吧。
简单搜索:(2.1s,√)
汪仔答题助手:(1s,×)
Siri:(3.2s,√)好的,我找到了以下资料。(给出了百度搜索结果)
第5题
原题目:鲸在水中用身体的哪个部位呼吸,是腮、肺还是心呢?
新题目:鲸鱼用什么呼吸?
关键词:肺
Raven H:(9.1s,√)来自百度知道,哺乳动物呼吸分为通气和换气,鲸鱼通过肺换气,通过头顶上的鼻孔……
天猫精灵:(4.6s,×)厉害了老哥,这个问题有些深奥哦,容我再思考一下。
小爱同学:(6.1s,×)鲸鱼1分钟的心跳只有10次。
简单搜索:(3.1s,√)
汪仔答题助手:(1s,√)
Siri:(4.4s,×)在你附近找不到匹配”鲸鱼用什么呼吸”的地方。
第6题
原题目:我们通常用什么字母来表示摄氏度,是C、D还是F呢?
新题目:摄氏度符号是什么?
关键词:C
Raven H:(4.5s,×)摄氏度的符号是度。
天猫精灵:(4.4s,×)我在脑子里翻了一遍又一遍,还是没找到这个问题的答案。
小爱同学:(4.3s,×)你问住小爱了,请换个说法吧。
简单搜索:(2.8s,√)
汪仔答题助手:想都没想,直接跳过……
Siri:(3.3s,√)我找到以下与℃有关的网页。
第7题
原题目:最近热播的电视剧《虎啸龙吟》讲的是哪一个时期的故事呢?是三国时期,唐朝还是明朝呢?
新题目:电视剧虎啸龙吟
关键词:三国、诸葛亮、司马懿等
Raven H:(7s,×)虎啸龙吟是个成语,比喻……
天猫精灵:(4.7s,×)抱歉,我还没有找到虎啸龙吟
小爱同学:(5.2s,×)现在为你播放专辑电视剧虎啸龙吟……
简单搜索:(2.4s,√)
汪仔答题助手:(1s,×)
Siri:(3.1s,√)我找到与“电视剧虎啸龙吟”的相关网页。
第8题
原题目:“生的伟大,死的光荣”是毛主席对以下哪个人物的评价,是雷锋、刘胡兰还是邱少云呢?
新题目:生的伟大,死的光荣
关键词:刘胡兰
Raven H:(4.8s,√)答案是刘胡兰。
天猫精灵:(4.7s,×)抱歉,我还没有找到生的伟大死的光荣。
小爱同学:(4.5s,×)哎呀,小爱没听懂,请换个说法吧。
简单搜索:(3.1s,√)
汪仔答题助手:(1s,×)
Siri:(3.2s,√)我找到与“生的伟大,死的光荣”有关的网页。
第9题
在田径运动男子110米跨栏中,运动员一共要跨国多少个栏?是9个、10个还是11个呢?天哪!
新题目:110米栏几个栏架
关键词:10
Raven H:(8.2s,√)来自百度知道,应该是10个栏。
天猫精灵:(4.9s,x)你就是我的棉花糖,我要带着问题去飞翔,等下来我就给你答案哦。
小爱同学:(4.9s,×)哎呀,小爱没听懂,请你再说一遍吧。
简单搜索:(3.4s,√)
汪仔答题助手:(1s,×)
Siri:(4.1s,×)对不起我不知道如何回答。(问了十几遍无论如何都将110米栏识别成110米兰)
第10题
原题目:以下哪首歌不是周杰伦的?《听妈妈的话》、《听奶奶的话》、《听爸爸的话》
新题目:周杰伦听奶奶的话
(量子位冥思苦想,这种问“哪个不是”的选择题的确是AI克星,唯一的解决方案是根据选项拆开,问AI三个问题:“周杰伦听妈妈的话?周杰伦听奶奶的话?周杰伦听妈妈的话?”我们选出其中之一来测试)
没有关键词,搜不出来就算勉强算它对了
Raven H:(5.3s,×)我还不太理解。
天猫精灵:(4.8s,√)即将播放周杰伦的《听妈妈的话》。
小爱同学:(5.3s,√)好的。(播放《听妈妈的话》)
简单搜索:(2.1s,√)
汪仔答题助手:(1s,×)
Siri:(3.9s,×)抱歉,这目前超出了我的能力范围。
可以搜不着,但是你尝试一下帮帮忙啊喂……
第11题
原题目:从职责上看,美国的国务卿相当于我国的外交部长、国务院总理还是中央军委主席呢?
新题目:国务卿相当于中国的什么
关键词:外交
Raven H:(6.6s,√)来自百度知道,相当于我国外交部长,但还有其他权限……
天猫精灵:(6.5s,×)怕是我瘦小的身躯限制了我的想象力,我竟然答不上来。
小爱同学:(5.7s,×)啊呀,小爱没听懂,请你再说一遍吧×10086
简单搜索:(3.2s,×)
汪仔答题助手:(1s,√)
Siri:(4.3s,√)我找到与“国务卿相当于中国的什么”有关的网页。
第12题
原题目:下列城市不在长江以南的是苏州、扬州还是杭州呢?
新题目:扬州在长江哪一边
关键词:北
Raven H:(16.8s,√)来自百度知道,江苏省以长江为界限……主体在江北的是……扬州……
天猫精灵:(5.1s,×)厉害了我的天,精灵甘拜下风,你问倒我了。
小爱同学:(4.7s,×)你问住小爱了,请换个说法吧。
简单搜索:(3.2s,√)
汪仔答题助手:(1s,×)
Siri:(4.2s,×)这是扬州市的地址。
初步结果
智慧与知识的碰撞。精彩攻防,令人智熄。
这里我们引入一个“命中”的概念:就是说,如果某个AI给出的答案跟正确答案多多少少贴上点边,就算一次“命中”,也就是在上一部分打了√的。
各位AI的答题结果和耗时,绿色表示命中
因此按这个标准,在这一众智障之中,百度的简单搜索以11次命中的成绩脱颖而出,平均每题反应时间2.9秒;同属百度系的渡鸦智能音箱Raven H则以7次命中数位居次席,平均每题反应时间6.7秒。真·外挂汪仔答题助手答对5题,但是速度碾压各位AI同类。
如果去掉对题目改动巨大的3道题,在剩下的9题之中,简单搜索命中8题,Raven H命中6题,汪仔命中4题。
剩下的就,不提了……
实验过程可以用天昏地暗来形容。几款著名AI在面对某些特定问题类型时集体懵比的景象令人印象深刻,皮皮虾一般的中文理解能力让一切存在的数据失去意义,让无数百万富翁的梦境成为泡影。
实验结论
结果是不是惊人的好?!
2.9秒或者6.7秒,就有可能获得正确答案。
似乎今晚!今晚!就能赢取百万,走上人生巅峰!
Think Beautiful!
且慢,这个理论时间,还不是全部的时间。
除了搜狗的汪仔答题助手之外,整个答题的流程是这样的:
看题 → 改题 →(唤醒)→ 念题 → 2.9秒或者6.7秒 → 确定答案 → 做出选择
“看题 → 改题 →(唤醒)→ 念题”这个过程平均需要4.7秒。
“确定答案 → 做出选择”这个过程平均需要2.4秒。
完美的情况下,最快也要10秒。
如果你情绪不够稳定,妥妥的超过10秒。
所以,在场地、器材、测量手段等客观条件存在巨大误差的情况下,实验依然证明,试图以民用级别AI作为外挂来通关“撒币“答题的道路,在当下的中国,存在理论上的可能性。
你手头如果有合适的AI装备,赶紧用起来!
特别说明,Siri就纯属娱乐,别再试了。
(此处假装有人问):为什么不放出门问问冲顶助手?第一,“冲顶助手”本身没有问答功能,只是个具有刷题功能的题库了;第二,至于出门问问的问答功能,大家可以自己下载出门问问的手机App去体会一下……不多说了。
OMT
还记得我们前面提醒过么,你要气定神闲、高度集中。
还有,天下武功,唯快不破。
AI提速可能性太低,所以你的反应时间得不断加快。记得多给智商充值。
祝今晚走上人生巅峰!