AI字幕在儿童频道里吐“脏话”,中招比例高达40%,亚马逊谷歌都很祖安丨AAAI 2022

2022 年 2 月 27 日 量子位
萧箫 发自 凹非寺
量子位 | 公众号 QbitAI

AI自动生成的字幕,能离谱到什么程度?

不仅把“螃蟹”(crab)误听成“废话”(crap),当场爆粗:

甚至还能把“玉米”(corn)给翻译成p*rn……

关键在于,这些是AI给儿童节目自动生成的字幕。

AAAI 2022收录的一篇新研究发现,在7013个儿童视频中,接近40%的节目出现了少儿不宜或脏话等词汇。

甚至在一个113集的儿童机器人学习栏目中,AI就“爆粗”了103次,平均接近一集一次!

对此,油管(YouTube)在接受《连线》采访时回应:

我们为13岁以下的儿童开发了YouTube Kids,这个APP会关闭字幕生成功能。

但如果真有字幕需求的话,如何才能想办法减少这种AI生成错误?

一起来看看。

亚马逊谷歌都很“祖安”

先来看看这篇论文的调查结果。

研究人员一共从油管上选出了24个儿童频道,分别记录了这些频道的播放量和订阅量。

可以看出,这些筛选出来的视频播放量基本都达到了百万级,订阅人数也同样不少。

然后,研究人员分别试了一下谷歌和AWS(亚马逊网页服务)的字幕生成效果。

结果显示,AI字幕的“少儿不宜”率可谓离谱:

在7013个视频中,谷歌AI出现错误字幕的次数达到2768次,接近40%

亚马逊的AI字幕错误率还要更高,达到了3672次,超过52%

具体来说,两个AI分别容易在这些“不太恰当”的字词上出错:

图左亚马逊,图右谷歌

在这些数据集中,有一些词语又尤为“少儿不宜”,例如一些骂人的脏词:

经过作者们人工检查(例如确认原视频是否真的说了脏话),发现AI主要容易在以下几种情况中出错:

  • 背景音乐嘈杂

  • 说话者为婴儿

  • 说话者为儿童

  • 说话者以英语为第二语言

  • 说话者在唱歌

包括但不限于这些情况

那么,有没有什么办法减少这种情况发生呢?

语序连贯的错误更容易修复

研究人员提出了一个新的数据集,利用近音字词来构建禁忌词的“替换”备选。

例如,对于crap这一可能出现的“粗口”,研究人员就给它设置了crab、craft等读音相似的字词,便于AI在搞错时进行替换。

具体来说,他们在BERT、XLM、XLNet等NLP模型上,针对“完形填空”任务进行了重新训练,也就是用[MASK]遮住部分单词,让AI来填写对应的内容。

结果显示,在语序正常、前后文案有逻辑的视频中,AI替换的准确率更高(蓝色为正确替换词)

然而在一些逻辑不强的文案中,成功替换的效果就没有那么好了:

最终,Megatron和Levenshtein等模型展现出了最好的修复效果,分别给亚马逊AI带来了超过25%的正确修复率,给谷歌AI带来了超过28%的修复率。

看来AI在字幕生成能力上还是任重道远啊。

论文地址:
https://github.com/sumeetkr/UnsafeTranscriptionofKidsContent/blob/main/YouTube_Transcription_Final.pdf

参考链接:
https://www.dailymail.co.uk/sciencetech/article-10553233/YouTube-AI-putting-explicit-language-captions-videos-aimed-children.html

「人工智能」、「智能汽车」微信社群邀你加入!

欢迎关注人工智能、智能汽车的小伙伴们加入我们,与AI从业者交流、切磋,不错过最新行业发展&技术进展。

ps.加好友请务必备注您的姓名-公司-职位哦~


点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见~


登录查看更多
0

相关内容

专知会员服务
13+阅读 · 2021年8月28日
【AAAI2021】用于视频描述的语义分组网络
专知会员服务
15+阅读 · 2021年2月3日
【NeurIPS 2020】生成对抗性模仿学习的f-Divergence
专知会员服务
25+阅读 · 2020年10月9日
【ACL2020-Facebook AI】大规模无监督跨语言表示学习
专知会员服务
33+阅读 · 2020年4月5日
专知会员服务
19+阅读 · 2020年3月29日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2022年4月20日
Arxiv
12+阅读 · 2021年11月1日
Arxiv
27+阅读 · 2020年6月19日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员