©PaperWeekly 原创 · 作者 | 王馨月
学校 | 四川大学
研究方向 | 自然语言处理
论文标题:
Influence Patterns for Explaining Information Flow in BERT
论文链接:
https://arxiv.org/abs/2011.00740
基于注意力的 transformer 模型(如 BERT)表现良好,但信息如何从输入 token 流向输出预测尚不清楚。作者引入了一种解析 transformer 性能的方法——影响模式。影响模式是通过 transformer 模型的路径集的抽象,量化和本地化信息流到通过一系列模型节点的路径。通过实验,作者发现 BERT 中的大部分信息流都通过 skip 连接而不是注意力头。作者进一步表明,跨实例模式的一致性是一种评价 BERT 性能的指标。最后,作者证明了模式比以前基于注意力和基于层的方法更能解释模型性能。
图中展示的是 SVA 任务实例的 BERT 架构(左)和 transformer 层的细节(右),用于评估模型是否选择了正确的动词形式,以供 [MASK] 与主题一致 。模式的示例用红色节点突出显示。
通过将 BERT 视为一个计算图,作者重申了这个问题:给定一个源节点 s 和一个目标节点 t,我们寻找从 s 到 t 的重要节点模式,该模式显示了来自 s 的影响如何从一个节点到另一个节点遍历,最后到达 t。在较小的网络中,可以采用从 s 流向 t 的影响量对所有路径进行排序的详尽方法。然而,类似的方法缺乏对像 BERT 这样的大型模型的可扩展性。因此,作者提出了一种方法来贪婪地将搜索空间从所有可能的路径缩小到特定模式,将抽象模式提炼为更具体的模式,保持较高的影响力。
通过消融实验,作者发现影响模式在 BERT 中解释信息流的准确度分别比先前的基于注意力和基于层的解释方法高 74% 和 25%。
Is Automated Topic Model Evaluation Broken?
这篇论文作者对没有人工判断的全自动评估的有效性提出了质疑:自动评估产生了模型之间的区别,而相应的人工评估则没有。作者提出神经主题模型评估的实践存在验证差距:尚未使用人体实验验证神经模型的自动一致性。并且使用自动化主题建模基准方面存在巨大的标准化差距。
作者解决了主题模型评估中标准化差距和验证差距。主要完成了以下工作:
提出了神经主题模型评估的元分析,以准确表征当前的事态;
实验所得结论表明,自动主题模型评估已经过时了,需要仔细重新考虑。
人工判断与自动度量之间存在差异的原因之一是度量偏向于更深奥的主题。具体而言,主题的 NPMI / Cv 与报告熟悉程度的受访者比例之间存在显着的负相关。然而,即使在过滤掉不熟悉主题术语的受访者之后,自动化指标仍然夸大了模型差异。
因此,主题模型评估本身似乎可以使用全新的观点。在这一点上,Doogan 和 Buntine 在 2021 年写道“为旧模型设计的一致性度量 [. . . ] 可能与较新的模型不兼容,”并且他们主张以语料库探索和标记为中心的评估范式。作者认为这种重新评估的正确起点是承认任何评估和指标都是一些现实世界问题场景的抽象。
例如,在信息检索中常见的 precision-at-10 用法是对用户只愿意考虑检索到的前十个文档的场景的抽象。在未来的工作中,可以探索能够更好地近似真实世界主题模型用户偏好的自动化指标。
主题模型的一个主要用途是在计算机辅助内容分析中。在这种情况下,与其采取方法驱动的评估方法,不如采取需求驱动的方法。需要重新审视使用像 NYT 这样的领域通用语料库对主题模型进行通用评估的想法,因为没有用于内容分析的“通用”语料库,也没有通用分析师。
论文标题:
Sequence-to-Sequence Learning with Latent Neural Grammars
论文链接:
https://arxiv.org/abs/2109.01135
项目地址:
https://github.com/yoonkim/neural-qcfg
使用神经网络进行序列到序列学习已成为序列预测任务的事实上的标准。这种方法通常使用可以根据任意上下文进行调节的强大神经网络对下一个单词的局部分布进行建模。虽然灵活且高效,但这些模型通常需要大型数据集进行训练,并且在旨在测试组合泛化的基准测试中可能会失败。
作者探索了使用潜在神经语法进行序列到序列学习的另一种分层方法。首先,使用准同步上下文无关语法(quasi-synchronous context-free grammars, QCFG) 对目标序列上的分布进行建模,该语法假设一个分层生成过程,其中目标树中的每个节点都被源树中的节点转换。这种节点级对齐为每个输出部分的生成方式提供了出处和因果机制,从而使生成过程更具可解释性。
作者还发现,与非层次模型相比,源端和目标端层次结构的显式建模改进了组合泛化。其次,与将经常观察到的树结构合并到使用神经网络的序列建模的现有工作线相比,作者将源树和目标树视为完全潜在的,并在训练期间诱导它们。
最后,虽然以前关于同步语法的工作通常在手工/流水线特征上使用对数线性模型,但作者利用神经特征来参数化语法的规则概率,这使得在推导规则的组合空间上有效共享参数,而无需任何手动特征工程。作者还直接将语法用于端到端生成,而不是作为更大流水线系统的一部分。
下图展示了从 SCAN 的添加原语(跳转)拆分的测试集上的神经 QCFG 生成的示例。从学习到的源解析器的诱导树显示在左侧,目标树推导显示在右侧。节点级对齐为每个目标跨度提供了明确的出处,从而使生成过程比标准注意力机制更易于解释。这些比对还可用于诊断和纠正系统错误。
同样作者还用这种方法实现了机器翻译任务,可以进一步在原文中查看示例。虽然可以实现,但结果明显低于训练良好的 transformer 模型。
作者认为,就语法和其他具有符号组件的模型而言,与标准方法相比,这篇文章提出的方法能够更好地表达模型决策,它们可能在开发更可控和可解释的模型方面发挥作用,尤其是在协作人机系统的背景下。
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧