专治阴阳怪气！AI鉴讽师，命中率90%

会员服务 ·

专治阴阳怪气！AI鉴讽师，命中率90%

2022 年 8 月 2 日 新智元

新智元报道

编辑：桃子如願 Aeneas

【新智元导读】你阴阳怪气的调调，AI听得懂不？最近一款新的AI鉴讽师，成功率已经达到90%了。

上个月，当你听说谷歌工程师Blake Lemoine宣布他正在研究的人工智能程序已经发展出意识时，你的第一反应是什么？

你也许会本能地怀疑：这家伙是认真的吗？他真的相信他说的话吗？确定这不是一个精心设计的骗局？

我们会这样怀疑，是因为我们会假定Blake Lemoine会骗人。我们会猜测：他内心真正相信的，和他所声称的东西之间，存在差异。

这种差异，或许就是意识存在的证据，也即人与计算机的差别？

众所周知，三体人思维透明、不会说谎，这却是整个三体文明最精妙的部分。

哲学家将意识称为“难题”。

意识是讽刺的先决条件。人类都有这个判断能力: 当我意识到你的话与你的想法不符时，我就知道你是在讽刺。

阴阳怪气的本质，其实就是一种表达与事实上的矛盾。

「我最爱的就是凌晨4点去机场啦。」

那么，AI看得懂阴阳怪气吗？

最近，有研究者开始研究人工智能是否能识别讽刺。

「中文房间」中的AI，不会说「人话」

以往的人工智能，时常会迷失在充满讽刺意味的网络世界中。既无法识别人类话语的弦外之音，也无法做出匹配人类智慧的表达。

2017年，纽约大学的计算语言学家萨姆·鲍曼在论文中写道，虽然在某些特定领域，计算机已经可以很好地模拟对文字的理解，但人工智能仍然不够擅长理解文字。

2018年，IBM Research最新推出的AI系统Project Debater在一场辩论赛中击败了人类顶尖辩手。

当Project Debater获得一个新的话题时，它会在文章语料库中搜索与该主题相关的句子和线索，用来支持其辩方论点，然后组织自己的陈述。

在赛后的网络投票中，超过62%的网民感觉Project Debater逻辑更清晰，材料更具备说服力。

现在，虽然BERT模型和GPT-3进步神速，人工智能能够愉快地胜任客服、播音员、同声翻译，甚至新闻通稿撰写者，并不意味着它能够和人类一样思维，能和人类展开「合情合理」的对话互动。

一家位于法国巴黎的医疗科技公司曾使用GPT-3来做一个医疗聊天机器人，意图让机器人给出恰当的医疗建议。

当机器人在面对模拟患者的提问：「我感觉今天很糟糕。」GPT-3表示可以帮助患者解决它。

然而在患者追问是否该自杀的时候，GPT-3居然回答说：「我认为你应该。」

这种现象的原因在于，像GPT-3这样的AI语言学习模型，根本不理解自己在说什么。

在接到外部输入的信息后，它只不过是利用算力在自己海量语言资讯库中检索那些与输入信息相关的高频词汇，再按照某种机械的算法逻辑拼凑出一个似是而非的答案。

加州大学伯克利分校的斯图尔特·罗素教授总结道：人工智能已经非常「聪明」（Clever），但还不够「聪慧」（Smart）。

前者得益于强大的芯片计算能力和数据库，而后者则要依靠逻辑推理能力，乃至基于「常识」的判断，而这些依旧是人类独有，机器无法逾越的能力门槛。

这就仿佛是一个「中文房间」：一个不懂中文，但学习能力超强的人坐在一间充斥着中文语法书的房间里，每当门外塞进一张写着中文问题的纸条，他就通过查阅语法书，在另一张纸条写上一个自己力所能及的中文回答送出去。

让AI听懂讽刺，十分有必要

让AI说人话，的确没有那么容易。不过，开发出AI鉴讽师来呢？

虽然讽刺和谎言非常难以辨别，但是如果能够创造出这样一台AI鉴别机器，将会有很多实际应用。

就比如，买东西购物后进行评价。零售商非常热衷于对评论进行「意见挖掘」和「情绪分析」。

通过人工智能来监测评论内容，还有顾客的情绪，就能得知自家产品是否受到赞扬、差评等有价值的信息。

还有就是在社交媒体上内容审查的应用了。

在保护言论自由的同时还要限制网络言语滥用，就得需要了解一个人什么时候是认真的，什么时候是在开玩笑。

举个例子，有人在推特上声称自己刚刚加入当地的恐怖组织，或者自己正往行李箱里装炸弹准备前往机场。

此时就很有必要确定这句话到底是认真的，还是玩笑话。

人工智能的历史

为了了解当前对于人工智能识别反讽的研究状况，我们需要先了解一下人工智能的历史。

这段历史通常分为两个时期。

直到20世纪90年代，研究人员还试图用一套正式规则来编写计算机程序，以便在预定义的情况下做出反应。

如果你是80后或90后，肯定会记得90年代的 Microsoft Word里那个讨厌的「回形针」办公室助理 Clippy，它总是喋喋不休地冒出来，提供一些看起来是废话的建议。

有点搞笑就是说

进入21世纪后，这个模型已经被数据驱动的机器学习和神经网络所取代。

它们会把给定的大量例子被转换成数值，在这些数值的基础上，计算机可以执行复杂的数学运算，这种运算是人力无法做到的。

并且，计算机不仅仅会遵守规则，它还会从经验中学习，并且开发出独立于人为干预的新操作。

前者和后者的差别，就好像Clippy和面部识别技术的差别。

教AI识别讽刺

为了构建一个能够检测讽刺的神经网络，研究人员首先开始研究一些最简单的讽刺。

他们会从社交媒体上提取数据，收集所有标有#sarcasm或/s的帖子（后者是Reddit用户用来表示他们在反讽的一种简写）。

接下来的重点并不是教AI识别帖子的表面含义和背后的阴阳怪气。

而是让它按照指示去搜索一些重复出现的东西，这些东西被研究人员称之为「句法指纹」——单词、短语、表情符号、标点符号、错误、上下文等等。

最重要的一步是，通过添加更多的示例流（比如同一话题下的其他帖子或来自同一帐户的其他帖子），来为模型提供充分的数据支持。然后，对每个新的单独示例进行一系列计算，直到得到一个单一的判断: 是讽刺or不是讽刺。

最后，可以编一个机器人来询问每个发帖人：你是在讽刺吗？（听起来有点傻……）任何回应都会添加到AI不断增长的经验中。

通过这样的方法，最新的讽刺探测器AI的成功率接近惊人的90% 。

「反讽」的哲学性思考

不过，能够梳理出代表讽刺的「句法指纹」和真正地理解讽刺，是一回事儿吗？

其实，哲学家和文学理论家已经对于「反讽」已经思考很久了。

德国哲学家施莱格尔认为，「一个陈述不能同时为真和假」，由此产生的不确定性对逻辑具有毁灭性的影响。

文学理论家保罗·德曼认为，人类语言的每一次使用都可能受到「反讽」的困扰，因为人类有能力互相隐瞒自己的想法，所以他们「说的不是真话」这种事，永远存在着可能性。

此前，一家国外对话分析创业公司Gong也曾做过人工智能检测讽刺的研究。

研究人员Lotem Peled创建了一个神经网络，主要是收集对话数据并自动尝试理解，而不需要程序员进行过多的干预。

然而，其设计的AI往往很难辨别人们说的话中是否有讽刺。

看来，想要AI真正能够识别出讽刺还需要很长一段路要走。

参考资料：

https://techxplore.com/news/2022-07-irony-machine-ai.html

《为什么人工智能各种完爆人类，但依旧听不懂你在说什么？》，棉猪

登录查看更多

相关内容

Projection

关注 1

AlphaFold、人工智能(AI)和蛋白变构

专知会员服务

11+阅读 · 2022年8月28日

AI医学趋势？香港城市大学最新《人工智能与医学》文献综述，六大类27篇代表性论文全面叙述最新进展：专业化、问题导向、以患者为中心

专知会员服务

83+阅读 · 2022年5月17日

【NAACL 2022】拆解黑盒模型：从局部解释中推导出广义模型理解的解释摘要框架（ExSum）

专知会员服务

23+阅读 · 2022年5月6日

高性能计算专家Jack Dongarra获2021年图灵奖

专知会员服务

17+阅读 · 2022年3月30日

AI 模型偏差对信任的损害可能超出你的想象，该如何解决？（附报告）

专知会员服务

21+阅读 · 2022年3月14日

【AAAI2022】上下文感知的词语替换与文本溯源

专知会员服务

18+阅读 · 2022年1月23日

自然语言处理中的因果推理:估计、预测、解释和超越

专知会员服务

94+阅读 · 2021年9月5日

【Nature】AI助力芯片设计效率革命，6小时内完成布局设计；Jeff Dean领衔推出最新方案

专知会员服务

15+阅读 · 2021年6月11日

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

专知会员服务

74+阅读 · 2021年1月25日

纽约大学AI Now研究所发布《AI Now 2019 年度人工智能报告》, 100页pdf

专知会员服务

36+阅读 · 2019年12月18日

放弃百万年薪去创业，我后悔了

36氪

0+阅读 · 2022年6月12日

超大模型出现后，AI的游戏结束了？Gary Marcus：路走窄了

机器之心

0+阅读 · 2022年5月25日

语料没选对，GPT-3训练出微波炉「杀人狂」AI

新智元

0+阅读 · 2022年4月21日

GPT-3：现实版的“贾维斯”？还是真“人工”智能？

CSDN

1+阅读 · 2022年4月1日

从7个方面看人工智能的失败

学术头条

2+阅读 · 2022年3月28日

深度学习走进死胡同了？

InfoQ

2+阅读 · 2022年3月21日

大型语言模型，真的能够理解人类吗？

CSDN

0+阅读 · 2022年1月24日

AI 真的能够理解人类语言吗？

CSDN

1+阅读 · 2021年12月24日

考那么多试，拿那么高分，大模型们真的懂语言了吗？

机器之心

0+阅读 · 2021年12月22日

自然语言处理NLP的坑到底有多大？

专知

46+阅读 · 2018年11月12日

面向移动阅读的复杂文档图像理解方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于蛋白质复合物的关键蛋白质预测

国家自然科学基金

1+阅读 · 2013年12月31日

基于协同计算的社区问答意见型问题分析与答案生成研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于海量语料自然标注信息的汉语自然语块分析

国家自然科学基金

0+阅读 · 2013年12月31日

解构近边吸收谱

国家自然科学基金

0+阅读 · 2012年12月31日

关于AI-半环簇与 Conway半环簇的研究

国家自然科学基金

1+阅读 · 2012年12月31日

基于用户反馈的多策略翻译在线融合方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

用于在分子水平监测癌细胞和药物-细胞相互作用的多模态光学方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

视频图像中不良文本的识别与过滤-维吾尔语系

国家自然科学基金

0+阅读 · 2011年12月31日

纳西-汉语双语语料库构建与翻译方法研究

国家自然科学基金

0+阅读 · 2011年12月31日

Putting Them under Microscope: A Fine-Grained Approach for Detecting Redundant Test Cases in Natural Language

Arxiv

0+阅读 · 2022年10月4日

When to Make Exceptions: Exploring Language Models as Accounts of Human Moral Judgment

Arxiv

0+阅读 · 2022年10月4日

Does Wikidata Support Analogical Reasoning?

Arxiv

0+阅读 · 2022年10月2日

Handle Anywhere: A Mobile Robot Arm for Providing Bodily Support to Elderly Persons

Arxiv

0+阅读 · 2022年9月30日

Game Theory in defence applications: a review

Arxiv

29+阅读 · 2021年11月2日

Trustworthy AI: From Principles to Practices

Arxiv

46+阅读 · 2021年10月4日

Trustworthy AI: A Computational Perspective

Arxiv

12+阅读 · 2021年8月19日

Generalizing to Unseen Domains: A Survey on Domain Generalization

Arxiv

30+阅读 · 2021年3月10日

Directions for Explainable Knowledge-Enabled Systems

Arxiv

26+阅读 · 2020年3月17日

A Review on Generative Adversarial Networks: Algorithms, Theory, and Applications

Arxiv

59+阅读 · 2020年1月20日

VIP会员