Plug-and-play functionality allows deep learning models to adapt well to different tasks without requiring any parameters modified. Recently, prefix-tuning was shown to be a plug-and-play method on various text generation tasks by simply inserting corresponding continuous vectors into the inputs. However, sequence labeling tasks invalidate existing plug-and-play methods since different label sets demand changes to the architecture of the model classifier. In this work, we propose the use of label word prediction instead of classification to totally reuse the architecture of pre-trained models for sequence labeling tasks. Specifically, for each task, a label word set is first constructed by selecting a high-frequency word for each class respectively, and then, task-specific vectors are inserted into the inputs and optimized to manipulate the model predictions towards the corresponding label words. As a result, by simply switching the plugin vectors on the input, a frozen pre-trained language model is allowed to perform different tasks. Experimental results on three sequence labeling tasks show that the performance of the proposed method can achieve comparable performance with standard fine-tuning with only 0.1\% task-specific parameters. In addition, our method is up to 70 times faster than non-plug-and-play methods while switching different tasks under the resource-constrained scenario.


翻译:插件和游戏功能让深层次学习模型能够适应不同任务,而不需要修改任何参数。 最近, 前缀调整被显示为各种文本生成任务的一种插件和播放方法, 只需在输入中插入相应的连续矢量即可。 然而, 序列标签任务使现有的插件和播放方法无效, 因为不同的标签对模型分类器的架构设置了需求变化。 在这项工作中, 我们提议使用标签单词预测, 而不是分类, 完全再利用预先培训的序列标签任务结构。 具体地说, 每个任务中, 首先为每个任务选择一个高频单词, 然后将特定任务矢量添加到输入中, 优化到将模型预测操作到相应的标签字数上。 结果, 只需在输入中切换插件矢量, 一个冻结的预先培训语言模型就可以执行不同的任务。 三个序列标签任务中的实验结果显示, 拟议的方法的性能可以达到可比的性能, 只有0. 1 ⁇ 任务特定参数。 此外, 我们的方法在转换资源配置过程中, 将快速地转换为70 。

0
下载
关闭预览

相关内容

迁移学习简明教程,11页ppt
专知会员服务
108+阅读 · 2020年8月4日
【MIT深度学习课程】深度序列建模,Deep Sequence Modeling
专知会员服务
78+阅读 · 2020年2月3日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
154+阅读 · 2019年10月12日
2019年机器学习框架回顾
专知会员服务
36+阅读 · 2019年10月11日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
最简单的BERT模型调用方法
深度学习自然语言处理
4+阅读 · 2019年12月23日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
Facebook PyText 在 Github 上开源了
AINLP
7+阅读 · 2018年12月14日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Arxiv
5+阅读 · 2021年6月3日
Arxiv
5+阅读 · 2021年4月16日
Arxiv
4+阅读 · 2020年5月25日
Sparse Sequence-to-Sequence Models
Arxiv
5+阅读 · 2019年5月14日
Conditional BERT Contextual Augmentation
Arxiv
8+阅读 · 2018年12月17日
VIP会员
相关资讯
最简单的BERT模型调用方法
深度学习自然语言处理
4+阅读 · 2019年12月23日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
Facebook PyText 在 Github 上开源了
AINLP
7+阅读 · 2018年12月14日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Top
微信扫码咨询专知VIP会员