Deep neural language models have set new breakthroughs in many tasks of Natural Language Processing (NLP). Recent work has shown that deep transformer language models (pretrained on large amounts of texts) can achieve high levels of task-specific few-shot performance comparable to state-of-the-art models. However, the ability of these large language models in few-shot transfer learning has not yet been explored in the biomedical domain. We investigated the performance of two powerful transformer language models, i.e. GPT-3 and BioBERT, in few-shot settings on various biomedical NLP tasks. The experimental results showed that, to a great extent, both the models underperform a language model fine-tuned on the full training data. Although GPT-3 had already achieved near state-of-the-art results in few-shot knowledge transfer on open-domain NLP tasks, it could not perform as effectively as BioBERT, which is orders of magnitude smaller than GPT-3. Regarding that BioBERT was already pretrained on large biomedical text corpora, our study suggests that language models may largely benefit from in-domain pretraining in task-specific few-shot learning. However, in-domain pretraining seems not to be sufficient; novel pretraining and few-shot learning strategies are required in the biomedical NLP domain.


翻译:最近的工作表明,深变压器语言模型(在大量文本上预先培训)能够取得与最新模型相比高水平的任务特异性微小成绩。然而,在生物医学领域,尚未探索这些大语言模型在少发转让学习中的能力。我们调查了两种强大的变压器语言模型(即GPT-3和BioBERT)在各种生物医学非生物医学非生物医学非生物实验性任务几发环境中的性能。实验结果显示,这两个模型在很大程度上都对全面培训数据进行微调的语言模型。尽管GPT-3已经近于最新成果,在开放版NLP任务上几发知识转让,但无法像生物生物实验专家那样有效运行,其规模小于GPT-3。关于生物生物实验性语言模型已经预先培训大型生物医学非生物医学非生物实验性文本公司。我们的研究显示,语言模型可能在很大程度上受益于在实际培训前对全面培训的语文模型,但在任务前的实地培训中似乎没有多少项新学习战略。

0
下载
关闭预览

相关内容

最新【深度生成模型】Deep Generative Models,104页ppt
专知会员服务
68+阅读 · 2020年10月24日
零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
95+阅读 · 2020年5月31日
ExBert — 可视化分析Transformer学到的表示
专知会员服务
31+阅读 · 2019年10月16日
【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)
深度学习自然语言处理
7+阅读 · 2020年4月8日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
迁移学习之Domain Adaptation
全球人工智能
18+阅读 · 2018年4月11日
Arxiv
0+阅读 · 2021年10月23日
Arxiv
9+阅读 · 2019年4月19日
Arxiv
5+阅读 · 2018年1月18日
Arxiv
5+阅读 · 2017年10月27日
VIP会员
相关资讯
【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)
深度学习自然语言处理
7+阅读 · 2020年4月8日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
迁移学习之Domain Adaptation
全球人工智能
18+阅读 · 2018年4月11日
Top
微信扫码咨询专知VIP会员