临床和临床大鸟:长临床序列变形器 (Clinical-Longformer and Clinical-BigBird: Transformers for long clinical sequences) - 专知论文

会员服务 ·

0

entity · MoDELS · 变换 · Performer · 可约的 ·

2022 年 1 月 27 日

Clinical-Longformer and Clinical-BigBird: Transformers for long clinical sequences

翻译：临床和临床大鸟:长临床序列变形器

Yikuan Li,Ramsey M. Wehbe,Faraz S. Ahmad,Hanyin Wang,Yuan Luo

Transformers-based models, such as BERT, have dramatically improved the performance for various natural language processing tasks. The clinical knowledge enriched model, namely ClinicalBERT, also achieved state-of-the-art results when performed on clinical named entity recognition and natural language inference tasks. One of the core limitations of these transformers is the substantial memory consumption due to their full self-attention mechanism. To overcome this, long sequence transformer models, e.g. Longformer and BigBird, were proposed with the idea of sparse attention mechanism to reduce the memory usage from quadratic to the sequence length to a linear scale. These models extended the maximum input sequence length from 512 to 4096, which enhanced the ability of modeling long-term dependency and consequently achieved optimal results in a variety of tasks. Inspired by the success of these long sequence transformer models, we introduce two domain enriched language models, namely Clinical-Longformer and Clinical-BigBird, which are pre-trained from large-scale clinical corpora. We evaluate both pre-trained models using 10 baseline tasks including named entity recognition, question answering, and document classification tasks. The results demonstrate that Clinical-Longformer and Clinical-BigBird consistently and significantly outperform ClinicalBERT as well as other short-sequence transformers in all downstream tasks. We have made the pre-trained models available for public download at: [https://huggingface.co/yikuan8/Clinical-Longformer].

翻译：临床知识丰富模型,即临床BERT,在临床名称实体识别和自然语言推断任务中也取得了最新的结果。这些变压器的核心局限性之一是由于完全自留机制而大量消耗记忆力。为了克服这一缺陷,提出了长序变压器模型,如长序变压器和大布尔德等,其想法是缺乏关注机制,将记忆用量从四级减到序列长到线性尺度。这些模型将最大输入序列长度从512年延长到4096年,这提高了长期依赖性模型的建模能力,从而在各种任务中取得了最佳结果。受这些长序变压器模型成功的影响,我们引入了两个领域强化语言模型,即临床-长序变压器和临床-BigBird模型,这些模型从大型临床公司培训前就已经使用过。我们用十项基准任务评估过两种模型,包括命名的实体识别模型、问题解答、以及所有短期变压机前的临床和文件升级机组任务。我们一直将临床结果显示临床作为临床和升级前的短期变压。

0

相关内容

entity

高效可扩展图神经网络的研究进展，Recent Advances in Efficient and Scalable Graph Neural Networks

高效可扩展图神经网络的研究进展，Recent Advances in Efficient and Scalable Graph Neural Networks

专知会员服务

78+阅读 · 2022年3月15日

【ICCV2021】基于Transformer 的神经绘画

专知会员服务

23+阅读 · 2021年9月20日

【CVPR2021】用Transformers无监督预训练进行目标检测

【CVPR2021】用Transformers无监督预训练进行目标检测

专知会员服务

58+阅读 · 2021年3月3日

最新《Transformers模型》教程，64页ppt

最新《Transformers模型》教程，64页ppt

专知会员服务

320+阅读 · 2020年11月26日

【EMNLP2020】自然语言生成，Neural Language Generation

【EMNLP2020】自然语言生成，Neural Language Generation

专知会员服务

39+阅读 · 2020年11月20日

【EMNLP2020-清华】基于常识知识图谱的多跳推理语言生成

【EMNLP2020-清华】基于常识知识图谱的多跳推理语言生成

专知会员服务

74+阅读 · 2020年9月25日

【Amazon】使用预先训练的Transformer模型进行数据增强，Data Augmentation using Pre-trained Transformer Models

【Amazon】使用预先训练的Transformer模型进行数据增强，Data Augmentation using Pre-trained Transformer Models

专知会员服务

51+阅读 · 2020年3月7日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

49+阅读 · 2019年10月17日

Stabilizing Transformers for Reinforcement Learning

Stabilizing Transformers for Reinforcement Learning

专知会员服务

60+阅读 · 2019年10月17日

【人工智能在2019：一年回顾】反人工智能，AI in 2019: A Year in Review

【人工智能在2019：一年回顾】反人工智能，AI in 2019: A Year in Review

专知会员服务

79+阅读 · 2019年10月10日

VCIP 2022 Call for Special Session Proposals

VCIP 2022 Call for Special Session Proposals

CCF多媒体专委会

1+阅读 · 2022年4月1日

ACM MM 2022 Call for Papers

ACM MM 2022 Call for Papers

CCF多媒体专委会

5+阅读 · 2022年3月29日

IEEE TII Call For Papers

IEEE TII Call For Papers

CCF多媒体专委会

3+阅读 · 2022年3月24日

AIART 2022 Call for Papers

AIART 2022 Call for Papers

CCF多媒体专委会

1+阅读 · 2022年2月13日

【ICIG2021】Check out the hot new trailer of ICIG2021 Symposium8

【ICIG2021】Check out the hot new trailer of ICIG2021 Symposium8

中国图象图形学学会CSIG

0+阅读 · 2021年11月16日

BERT/Transformer/迁移学习NLP资源大列表

BERT/Transformer/迁移学习NLP资源大列表

专知

19+阅读 · 2019年6月9日

BERT/注意力机制/Transformer/迁移学习NLP资源大列表：awesome-bert-nlp

BERT/注意力机制/Transformer/迁移学习NLP资源大列表：awesome-bert-nlp

AINLP

40+阅读 · 2019年6月9日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

43+阅读 · 2019年1月3日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

心脏的多形态耦合与层级级联计算可视化方法的研究

国家自然科学基金

1+阅读 · 2015年12月31日

大数据高效能存储与管理方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

面向智能电网基础设施Cyber-Physical安全的自治愈基础理论研究

国家自然科学基金

1+阅读 · 2013年12月31日

基于异构协同的空天网络无线资源管理技术研究

国家自然科学基金

1+阅读 · 2013年12月31日

基于结构模型的miRNA协同作用模式数据挖掘研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于NIC的Exascale级计算机聚合通信卸载关键技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

ERG介导组蛋白修饰调控CRMP4失活启动前列腺癌转移的分子机制

国家自然科学基金

0+阅读 · 2012年12月31日

基于视觉显著性结构的特征提取和图像检索

国家自然科学基金

0+阅读 · 2012年12月31日

基于印刷图像信息挖掘的印刷机故障诊断方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于认知和行动观点的环境技术创新中的时间战略研究

国家自然科学基金

13+阅读 · 2009年12月31日

Learned Queries for Efficient Local Attention

Arxiv

0+阅读 · 2022年4月19日

Self-Calibrated Efficient Transformer for Lightweight Super-Resolution

Arxiv

1+阅读 · 2022年4月19日

Impact of Tokenization on Language Models: An Analysis for Turkish

Arxiv

0+阅读 · 2022年4月19日

Exploring Dimensionality Reduction Techniques in Multilingual Transformers

Arxiv

0+阅读 · 2022年4月18日

Hierarchical Transformers Are More Efficient Language Models

Arxiv

3+阅读 · 2022年4月16日

Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting

Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting

Arxiv

21+阅读 · 2020年12月17日

Pretrained Transformers for Text Ranking: BERT and Beyond

Arxiv

28+阅读 · 2020年10月13日

Multimodal Sentiment Analysis using Hierarchical Fusion with Context Modeling

Arxiv

11+阅读 · 2018年6月16日

Incorporating Dictionaries into Deep Neural Networks for the Chinese Clinical Named Entity Recognition

Arxiv

12+阅读 · 2018年4月13日

Reinforced Self-Attention Network: a Hybrid of Hard and Soft Attention for Sequence Modeling

Arxiv

16+阅读 · 2018年1月31日

VIP会员

文章信息

相关主题

相关VIP内容

高效可扩展图神经网络的研究进展，Recent Advances in Efficient and Scalable Graph Neural Networks

高效可扩展图神经网络的研究进展，Recent Advances in Efficient and Scalable Graph Neural Networks

专知会员服务

78+阅读 · 2022年3月15日

【ICCV2021】基于Transformer 的神经绘画

专知会员服务

23+阅读 · 2021年9月20日

【CVPR2021】用Transformers无监督预训练进行目标检测

【CVPR2021】用Transformers无监督预训练进行目标检测

专知会员服务

58+阅读 · 2021年3月3日

最新《Transformers模型》教程，64页ppt

最新《Transformers模型》教程，64页ppt

专知会员服务

320+阅读 · 2020年11月26日

【EMNLP2020】自然语言生成，Neural Language Generation

【EMNLP2020】自然语言生成，Neural Language Generation

专知会员服务

39+阅读 · 2020年11月20日

【EMNLP2020-清华】基于常识知识图谱的多跳推理语言生成

【EMNLP2020-清华】基于常识知识图谱的多跳推理语言生成

专知会员服务

74+阅读 · 2020年9月25日

【Amazon】使用预先训练的Transformer模型进行数据增强，Data Augmentation using Pre-trained Transformer Models

【Amazon】使用预先训练的Transformer模型进行数据增强，Data Augmentation using Pre-trained Transformer Models

专知会员服务

51+阅读 · 2020年3月7日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

49+阅读 · 2019年10月17日

Stabilizing Transformers for Reinforcement Learning

Stabilizing Transformers for Reinforcement Learning

专知会员服务

60+阅读 · 2019年10月17日

【人工智能在2019：一年回顾】反人工智能，AI in 2019: A Year in Review

【人工智能在2019：一年回顾】反人工智能，AI in 2019: A Year in Review

专知会员服务

79+阅读 · 2019年10月10日

热门VIP内容

开通专知VIP会员享更多权益服务

【博士论文】扩展可扩展会话推荐的边界

别想太多：高效 R1 风格大型推理模型综述

【ACMMM2025】EvoVLMA: 进化式视觉-语言模型自适应

智能体网络：用AI智能体编织下一代网络

相关资讯

VCIP 2022 Call for Special Session Proposals

VCIP 2022 Call for Special Session Proposals

CCF多媒体专委会

1+阅读 · 2022年4月1日

ACM MM 2022 Call for Papers

ACM MM 2022 Call for Papers

CCF多媒体专委会

5+阅读 · 2022年3月29日

IEEE TII Call For Papers

IEEE TII Call For Papers

CCF多媒体专委会

3+阅读 · 2022年3月24日

AIART 2022 Call for Papers

AIART 2022 Call for Papers

CCF多媒体专委会

1+阅读 · 2022年2月13日

【ICIG2021】Check out the hot new trailer of ICIG2021 Symposium8

【ICIG2021】Check out the hot new trailer of ICIG2021 Symposium8

中国图象图形学学会CSIG

0+阅读 · 2021年11月16日

BERT/Transformer/迁移学习NLP资源大列表

BERT/Transformer/迁移学习NLP资源大列表

专知

19+阅读 · 2019年6月9日

BERT/注意力机制/Transformer/迁移学习NLP资源大列表：awesome-bert-nlp

BERT/注意力机制/Transformer/迁移学习NLP资源大列表：awesome-bert-nlp

AINLP

40+阅读 · 2019年6月9日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

43+阅读 · 2019年1月3日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

相关论文

Learned Queries for Efficient Local Attention

Arxiv

0+阅读 · 2022年4月19日

Self-Calibrated Efficient Transformer for Lightweight Super-Resolution

Arxiv

1+阅读 · 2022年4月19日

Impact of Tokenization on Language Models: An Analysis for Turkish

Arxiv

0+阅读 · 2022年4月19日

Exploring Dimensionality Reduction Techniques in Multilingual Transformers

Arxiv

0+阅读 · 2022年4月18日

Hierarchical Transformers Are More Efficient Language Models

Arxiv

3+阅读 · 2022年4月16日

Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting

Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting

Arxiv

21+阅读 · 2020年12月17日

Pretrained Transformers for Text Ranking: BERT and Beyond

Arxiv

28+阅读 · 2020年10月13日

Multimodal Sentiment Analysis using Hierarchical Fusion with Context Modeling

Arxiv

11+阅读 · 2018年6月16日

Incorporating Dictionaries into Deep Neural Networks for the Chinese Clinical Named Entity Recognition

Arxiv

12+阅读 · 2018年4月13日

Reinforced Self-Attention Network: a Hybrid of Hard and Soft Attention for Sequence Modeling

Arxiv

16+阅读 · 2018年1月31日

相关基金

心脏的多形态耦合与层级级联计算可视化方法的研究

国家自然科学基金

1+阅读 · 2015年12月31日

大数据高效能存储与管理方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

面向智能电网基础设施Cyber-Physical安全的自治愈基础理论研究

国家自然科学基金

1+阅读 · 2013年12月31日

基于异构协同的空天网络无线资源管理技术研究

国家自然科学基金

1+阅读 · 2013年12月31日

基于结构模型的miRNA协同作用模式数据挖掘研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于NIC的Exascale级计算机聚合通信卸载关键技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

ERG介导组蛋白修饰调控CRMP4失活启动前列腺癌转移的分子机制

国家自然科学基金

0+阅读 · 2012年12月31日

基于视觉显著性结构的特征提取和图像检索

国家自然科学基金

0+阅读 · 2012年12月31日

基于印刷图像信息挖掘的印刷机故障诊断方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于认知和行动观点的环境技术创新中的时间战略研究

国家自然科学基金

13+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员