在机器学习这一学科中,自然语言处理(NLP)方面的重大突破彰显了其贡献,旨在设计算法来处理文本并产生洞察力,例如分类和摘要,这些洞察力与人类相当。自然语言带来的挑战反映了人类智能的特殊性,例如理解句子的含义或保持可能彼此距离遥远的词之间的长期关系。大量近期文献提供了证据,表明NLP模型对文本的轻微操纵(如词替换)表现出不一致性。不同于计算机视觉(CV),在那里像素操纵产生一个(可能不自然的)图像,NLP算法依赖于以嵌入向量形式的文本表示,其中语言构成要素(即词、短语、句子)被转换成实数的多维向量,标志着人与机器表示之间的明显分隔。

在这篇论文中,我们通过对抗性鲁棒性的镜头调查NLP模型的保证和形式解释性。我们回顾了在CV中定义的对抗性鲁棒性的适用性,作为神经网络(NN)决策对离散和连续扰动的最大安全区域。我们开发了一个评估框架,为不同模型认证对抗性鲁棒性,并分析了在复杂性增长的设置中这些证书的有效性如何消失。这项调查是对鲁棒性新定义的前奏,这些定义与语言学一致,旨在评估模型的句法和语义能力。

通过语义鲁棒性,我们引入了一个框架来测试模型对语言现象的抵抗力。相比之下,句法鲁棒性旨在证伪NLP模型嵌入高阶语言结构(如句法树)的假设。对各种架构和基准的广泛实验验证了所提出的概念,并揭示了这些架构对轻微的语言变异的脆弱性,而人类对此异常鲁棒。

我们最终调查了鲁棒性作为解释神经网络的属性的角色:我们提出了最优鲁棒解释(ORE)的概念,作为仍然足以暗示模型决策的输入文本的鲁棒和最优部分。我们在各种神经网络和数据集上实现并测试了这种解释的概念,以通过鲁棒性的镜头揭示NLP模型的解释性景观。

这篇论文的所有软件和工具都已根据宽松的开源许可证发布,以满足可重现性要求,并鼓励其他研究人员开发工具来评估和提高NLP模型对边缘案例和语言现象的鲁棒性,这些现象本质上构成了人类语言谱系的一个不可忽视的部分。

成为VIP会员查看完整内容
23

相关内容

牛津大学是一所英国研究型大学,也是罗素大学集团、英国“G5超级精英大学”,欧洲顶尖大学科英布拉集团、欧洲研究型大学联盟的核心成员。牛津大学培养了众多社会名人,包括了27位英国首相、60位诺贝尔奖得主以及数十位世界各国的皇室成员和政治领袖。2016年9月,泰晤士高等教育发布了2016-2017年度世界大学排名,其中牛津大学排名第一。

【牛津大学博士论文】自监督学习视频理解,143页pdf
专知会员服务
39+阅读 · 2022年10月11日
【2022新书】生命科学的数据分析,511页pdf
专知
12+阅读 · 2022年11月15日
【MIT博士论文】数据高效强化学习,176页pdf
最新《图嵌入组合优化》综述论文,40页pdf
【干货书】计算机科学离散数学,627页pdf
专知
54+阅读 · 2020年8月31日
【KDD2020】图神经网络:基础与应用,322页ppt
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
A Survey of Large Language Models
Arxiv
326+阅读 · 2023年3月31日
Arxiv
53+阅读 · 2023年3月26日
Arxiv
15+阅读 · 2023年3月17日
Arxiv
10+阅读 · 2020年11月26日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员