https://www.zhuanzhi.ai/paper/53362aeb4b9db03e3a01fa3dec5469a1
在当前的主流方法大部分都基于RNN(Recurrent Neural Network)来对时间依赖性进行建模,并取得了令人印象深刻的效果, 如Temporal recurrent networks (TRN) [1]和Information Discrimination Network (IDN) [2]等。典型的,IDN[2]设计了一种类似RNN的架构,利用当前信息来控制历史信息的传递,进而对长期历史信息进行编码,最后对当前动作进行识别。然而,这种RNN-like的架构存在非并行性和梯度消失的问题。
因此,很难对其框架结构进行优化,因此可能导致性能不理想,同时计算效率也不高。为了进一步提高性能,我们需要设计一个新的高效且易于优化的框架。
为此,我们提出使用Transformers。Transformers具有强大的自注意模块,具有长程时序建模的能力,同时在自然语言处理领域和各种视觉任务中都取得了显著的成绩。并且已有的工作已经证明,Transformers具有比RNN架构更好的收敛性,并且Transformers也具有更高计算效率。