Cross-task generalization is a significant outcome that defines mastery in natural language understanding. Humans show a remarkable aptitude for this, and can solve many different types of tasks, given definitions in the form of textual instructions and a small set of examples. Recent work with pre-trained language models mimics this learning style: users can define and exemplify a task for the model to attempt as a series of natural language prompts or instructions. While prompting approaches have led to higher cross-task generalization compared to traditional supervised learning, analyzing 'bias' in the task instructions given to the model is a difficult problem, and has thus been relatively unexplored. For instance, are we truly modeling a task, or are we modeling a user's instructions? To help investigate this, we develop LINGO, a novel visual analytics interface that supports an effective, task-driven workflow to (1) help identify bias in natural language task instructions, (2) alter (or create) task instructions to reduce bias, and (3) evaluate pre-trained model performance on debiased task instructions. To robustly evaluate LINGO, we conduct a user study with both novice and expert instruction creators, over a dataset of 1,616 linguistic tasks and their natural language instructions, spanning 55 different languages. For both user groups, LINGO promotes the creation of more difficult tasks for pre-trained models, that contain higher linguistic diversity and lower instruction bias. We additionally discuss how the insights learned in developing and evaluating LINGO can aid in the design of future dashboards that aim to minimize the effort involved in prompt creation across multiple domains.


翻译:交叉任务泛化是自然语言理解中定义精通的重要结果。人类在此方面表现出非凡的才能,可以在给定文本指令和一小组示例的情况下解决许多不同类型的任务。最近的预训练语言模型的工作模仿了这种学习方式:用户可以用自然语言提示或指令定义和举例一个任务,以供模型尝试。尽管提示方法相对于传统的监督学习在交叉任务泛化方面表现更好,但分析任务指令中的“偏差”是一个困难的问题,因此相对未被探索。例如,我们是否真正建模了一个任务,还是在建模用户的指令?为此,我们开发了 LINGO,一种新颖的可视分析界面,支持有效的任务驱动工作流程,可以帮助 (1) 识别自然语言任务指令中的偏差,(2) 改变(或创建)任务指令以减少偏差,以及 (3) 评估预训练模型在去偏任务指令上的表现。为了稳健地评估 LINGO,我们在包含 1616 个语言任务及其自然语言指令的跨越 55 种不同语言的数据集上进行了一项用户研究,包括初学者和专家指令创建者。对于两个用户群体,LINGO 促进了创建更难的任务,其中包含更高的语言多样性和更低的指令偏差。我们还讨论了在开发和评估 LINGO 时所学习的见解如何有助于设计旨在在多个领域中最小化提示创建所需的工作量的未来仪表盘。

0
下载
关闭预览

相关内容

【ICML2023】基于自然语言指令的受控文本生成
专知会员服务
28+阅读 · 2023年4月28日
ChatAug: 利用ChatGPT进行文本数据增强
专知会员服务
80+阅读 · 2023年3月4日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
已删除
将门创投
18+阅读 · 2019年2月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2023年5月29日
Conditional Prompt Learning for Vision-Language Models
Arxiv
13+阅读 · 2022年3月10日
VIP会员
相关VIP内容
【ICML2023】基于自然语言指令的受控文本生成
专知会员服务
28+阅读 · 2023年4月28日
ChatAug: 利用ChatGPT进行文本数据增强
专知会员服务
80+阅读 · 2023年3月4日
相关资讯
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
已删除
将门创投
18+阅读 · 2019年2月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员