https://www.zhuanzhi.ai/paper/53362aeb4b9db03e3a01fa3dec5469a1

在当前的主流方法大部分都基于RNN(Recurrent Neural Network)来对时间依赖性进行建模,并取得了令人印象深刻的效果, 如Temporal recurrent networks (TRN) [1]和Information Discrimination Network (IDN) [2]等。典型的,IDN[2]设计了一种类似RNN的架构,利用当前信息来控制历史信息的传递,进而对长期历史信息进行编码,最后对当前动作进行识别。然而,这种RNN-like的架构存在非并行性和梯度消失的问题。

因此,很难对其框架结构进行优化,因此可能导致性能不理想,同时计算效率也不高。为了进一步提高性能,我们需要设计一个新的高效且易于优化的框架。

为此,我们提出使用Transformers。Transformers具有强大的自注意模块,具有长程时序建模的能力,同时在自然语言处理领域和各种视觉任务中都取得了显著的成绩。并且已有的工作已经证明,Transformers具有比RNN架构更好的收敛性,并且Transformers也具有更高计算效率。

成为VIP会员查看完整内容
9

相关内容

专知会员服务
22+阅读 · 2021年9月20日
专知会员服务
24+阅读 · 2021年8月22日
专知会员服务
29+阅读 · 2021年7月30日
专知会员服务
45+阅读 · 2021年6月20日
【AAAI2021】生成式Transformer的对比三元组提取
专知会员服务
48+阅读 · 2021年2月7日
八篇 ICCV 2019 【图神经网络(GNN)+CV】相关论文
专知会员服务
29+阅读 · 2020年1月10日
3倍加速CPU上的BERT模型部署
ApacheMXNet
11+阅读 · 2020年7月13日
【紫冬分享】基于人体骨架的行为识别
中国科学院自动化研究所
20+阅读 · 2019年1月18日
CMU、谷歌提出Transformer-XL:学习超长上下文关系
机器之心
9+阅读 · 2019年1月18日
基于人体骨架的行为识别【附PPT与视频资料】
人工智能前沿讲习班
31+阅读 · 2019年1月15日
论文 | 基于RNN的在线多目标跟踪
七月在线实验室
30+阅读 · 2017年12月27日
Arxiv
1+阅读 · 2021年11月1日
Arxiv
7+阅读 · 2021年6月21日
Arxiv
17+阅读 · 2021年3月29日
Arxiv
19+阅读 · 2020年12月23日
VIP会员
相关VIP内容
专知会员服务
22+阅读 · 2021年9月20日
专知会员服务
24+阅读 · 2021年8月22日
专知会员服务
29+阅读 · 2021年7月30日
专知会员服务
45+阅读 · 2021年6月20日
【AAAI2021】生成式Transformer的对比三元组提取
专知会员服务
48+阅读 · 2021年2月7日
八篇 ICCV 2019 【图神经网络(GNN)+CV】相关论文
专知会员服务
29+阅读 · 2020年1月10日
相关资讯
3倍加速CPU上的BERT模型部署
ApacheMXNet
11+阅读 · 2020年7月13日
【紫冬分享】基于人体骨架的行为识别
中国科学院自动化研究所
20+阅读 · 2019年1月18日
CMU、谷歌提出Transformer-XL:学习超长上下文关系
机器之心
9+阅读 · 2019年1月18日
基于人体骨架的行为识别【附PPT与视频资料】
人工智能前沿讲习班
31+阅读 · 2019年1月15日
论文 | 基于RNN的在线多目标跟踪
七月在线实验室
30+阅读 · 2017年12月27日
相关论文
Arxiv
1+阅读 · 2021年11月1日
Arxiv
7+阅读 · 2021年6月21日
Arxiv
17+阅读 · 2021年3月29日
Arxiv
19+阅读 · 2020年12月23日
微信扫码咨询专知VIP会员