AAAI 2020 | 华南理工：面向文本识别的去耦注意力网络 - 专知

会员服务 ·

0

AAAI 2020 | 华南理工：面向文本识别的去耦注意力网络

2020 年 1 月 14 日 AI科技评论

作者 | 王天玮

编辑 | 十、年

本文对华南理工大学和联想研究院共同完成，被AAAI-20录用的论文《Decoupled Attention Network for Text Recognition》进行解读。

论文下载地址：https://arxiv.org/abs/1912.10205

背景介绍

伴随着深度学习的快速发展，近些年文本识别领域出现了许多新方法。注意力机制是当前文本识别最先进的方法之一，其在场景文本识别任务上取得了尤为出色的效果。

然而，当前注意力机制的对齐操作依赖于上一步的解码信息，这就导致了一旦上一步解码出错或具有迷惑性，注意力机制的对齐将产生错误，且此错误会累积传播。这一问题在较长的手写文本上体现得较为明显。

为了解决这种情况，本文提出了一种去耦注意力网络（DAN），该网络将注意力的对齐阶段从解码器中解耦出来，即进行对齐时不再依赖于上一步的解码信息。实验表明，DAN在有效缓解了注意力机制的对齐错误问题，并在手写和场景两种文本识别场景上取得了SOTA或相当的效果。

方法概况

DAN由三个模块组成：特征提取器（FE）、卷积对齐模块（CAM）、去耦解码器（DTD）。FE对输入图片提取多个尺度的特征图；CAM接收特征提取器中的多尺度特征，采用全卷积结构，输出与特征图等尺寸的attention map；最后DTD解码出识别结果。

卷积对齐模块

卷积对齐模块采用一个全卷积结构，由L层卷积组成。模块的输入融合了特征提取过程中各个尺度的特征，在反卷积阶段，每层特征会与卷积阶段相应特征进行加和。模块的输出是经过sigmoid函数激活后的maxT张attention map。之后每张attention map经过归一化。maxT是解码的最长时间步，即文本的最大字符数。在手写长文本识别任务中，maxT的值可以设置为150、200；在单词级别场景文本识别任务中，maxT的值可以设置为25。

通过改变FE和CAM中卷积操作的步长，DAN可以在一维和二维形式之间灵活切换，以应对不同的应用场景。FE输出特征图高度被压为1，即一维识别形式时，DAN适用于规则的手写长文本识别；在进行二维形式时，DAN适用于不规则的场景文本识别。在不同应用场景中，DAN灵活而高效，均取得了SOTA或相当的效果。

去耦解码器

去耦解码器与其他注意力解码器运算过程相似，将高维特征图与attention map进行加权求和后，对每个字符依次进行解码。同时上一步的解码结果会经过embedding，参与当前步解码中，以加强语义学习。DAN的训练仅需要字符类别标注，不需要每个字符的位置信息。

实验

1．脱机手写文本，在脱机手写文本识别任务中，本文选择了IAM和RIMES两个数据集进行实验。

（1）结果对比。从Table2可以看到DAN在两个数据集上都效果出色。

（2）消融实验。本文对CAM模块设计进行了讨论，得到两个结论：1. CAM的层数应该足够深，才能达到较好的效果。2. 只要设置合理，输出通道数maxT的大小对识别结果几乎无影响。

（3）对消除对齐错误的深入分析。本文选择了两种经典的attention结构：Bahdanau’s attention和Luong’s attention，在IAM数据集上进行了进一步对齐效果分析。从Figure 6可以看出，DAN有效缓解了长文本上的对齐问题。

2．场景文本识别，在该任务中，本文采用规则/不规则文本的七个数据集进行实验，在实验时使用了双向解码器。

结果对比如Table 5所示。可以看出，DAN在大部分数据集上取得了SOTA或相当的效果，同时，二维识别在不规则文本数据集上的识别效果明显好于一维识别。

总结

本文提出了一种去耦注意力网络（DAN），用于解决注意力机制中由解码问题造成的对齐错误累积传播。DAN在手写文本识别和场景文本识别两种应用场景中均表现出了优越的效果。与之前的注意力机制识别方法相比，DAN更加灵活鲁棒。

另外，值得一提的是，论文作者所在的研究团队将本模型作为其中一个关键技术模块，与别的识别技术进行集成，参加了今年ICDAR街景中英文招牌场景文字识别（ICDAR 2019-ReCTS）国际比赛，并荣获了ICDAR 2019-ReCTS识别任务冠军。

相关资源：

论文地址：

https://arxiv.org/abs/1912.10205

源码地址：

https://github.com/Wang-Tianwei/Decoupled-attention-network

更多AAAI 2020信息，将在「AAAI 2020 交流群」中进行，加群方式：添加AI研习社顶会小助手（AIyanxishe2），备注「AAAI」，邀请入群。

AAAI 2020 论文集：

AAAI 2020 论文解读会 @ 望京（附PPT下载）

AAAI 2020 论文解读系列：

01. [中科院自动化所] 通过识别和翻译交互打造更优的语音翻译模型

02. [中科院自动化所] 全新视角，探究「目标检测」与「实例分割」的互惠关系

03. [北理工] 新角度看双线性池化，冗余、突发性问题本质源于哪里？

04. [复旦大学] 利用场景图针对图像序列进行故事生成

05. [腾讯 AI Lab] 2100场王者荣耀，1v1胜率99.8%，腾讯绝悟 AI 技术解读

06. [复旦大学] 多任务学习，如何设计一个更好的参数共享机制？

07. [清华大学] 话到嘴边却忘了？这个模型能帮你 | 多通道反向词典模型

08. [北航等] DualVD：一种视觉对话新框架

09. [清华大学] 借助BabelNet构建多语言义原知识库

10. [微软亚研] 沟壑易填：端到端语音翻译中预训练和微调的衔接方法

11. [微软亚研] 时间可以是二维的吗？基于二维时间图的视频内容片段检测

12. [清华大学] 用于少次关系学习的神经网络雪球机制

13. [中科院自动化所] 通过解纠缠模型探测语义和语法的大脑表征机制

14. [中科院自动化所] 多模态基准指导的生成式多模态自动文摘

15. [南京大学] 利用多头注意力机制生成多样性翻译

16. [UCSB 王威廉组] 零样本学习，来扩充知识图谱（视频解读）

17. [上海交大] 基于图像查询的视频检索，代码已开源！

18. [奥卢大学] 基于 NAS 的 GCN 网络设计（视频解读）

19. [中科大] 智能教育系统中的神经认知诊断，从数据中学习交互函数

20. [北京大学] 图卷积中的多阶段自监督学习算法

21. [清华大学] 全新模型，对话生成更流畅、更具个性化（视频解读，附PPT）

点击“阅读原文” 前往 AAAI 2020 专题页

登录查看更多

1

相关内容

文本识别

最新《自然场景中文本检测与识别》综述论文，26页pdf

最新《自然场景中文本检测与识别》综述论文，26页pdf

专知会员服务

70+阅读 · 2020年6月10日

【CVPR2020-中科院计算所】多模态GNN：在视觉信息和场景文字上联合推理

【CVPR2020-中科院计算所】多模态GNN：在视觉信息和场景文字上联合推理

专知会员服务

61+阅读 · 2020年4月7日

【CVPR2020-Oral】用于任务感知的持续学习的条件信道门控网络

专知会员服务

21+阅读 · 2020年4月2日

【CVPR2020-百度】用于视觉识别的门控信道变换

【CVPR2020-百度】用于视觉识别的门控信道变换

专知会员服务

13+阅读 · 2020年3月30日

注意力图神经网络的多标签文本分类

注意力图神经网络的多标签文本分类

专知会员服务

112+阅读 · 2020年3月28日

【清华-百度】面向季节性时空数据的预测式循环网络及其在城市计算中的应用，计算机学报

【清华-百度】面向季节性时空数据的预测式循环网络及其在城市计算中的应用，计算机学报

专知会员服务

42+阅读 · 2020年3月10日

慕尼黑大学LMU博士论文：自然语言文本神经网络信息提取，240页pdf

慕尼黑大学LMU博士论文：自然语言文本神经网络信息提取，240页pdf

专知会员服务

74+阅读 · 2020年1月13日

【元学习 | 论文】NeuralPS19，多模态模型无关元学习，南加州大学

【元学习 | 论文】NeuralPS19，多模态模型无关元学习，南加州大学

专知会员服务

62+阅读 · 2019年11月21日

【元学习 | 论文】元学习与动态记忆为基础的原型网络的小样本突发事件检测，浙江大学，阿里巴巴

【元学习 | 论文】元学习与动态记忆为基础的原型网络的小样本突发事件检测，浙江大学，阿里巴巴

专知会员服务

57+阅读 · 2019年11月21日

【CCF优秀博士学位论文奖-2019初评】基于深度学习的场景分割技术研究，中科院计算所张蕊

【CCF优秀博士学位论文奖-2019初评】基于深度学习的场景分割技术研究，中科院计算所张蕊

专知会员服务

32+阅读 · 2019年11月8日

论文浅尝 | 基于动态记忆的原型网络进行元学习以实现少样本事件探测

论文浅尝 | 基于动态记忆的原型网络进行元学习以实现少样本事件探测

开放知识图谱

37+阅读 · 2019年12月3日

【论文笔记】基于门控图网络实现图到序列学习

【论文笔记】基于门控图网络实现图到序列学习

专知

56+阅读 · 2019年10月5日

Interspeech 2019 | 基于多模态对齐的语音情感识别

Interspeech 2019 | 基于多模态对齐的语音情感识别

AI科技评论

23+阅读 · 2019年9月21日

Interspeech 2019 | 阿里达摩院语音实验室：联合CTC和Transformer的自动中文纠错模型

Interspeech 2019 | 阿里达摩院语音实验室：联合CTC和Transformer的自动中文纠错模型

机器之心

26+阅读 · 2019年9月15日

论文浅尝 | 将文本建模为关系图，用于联合实体和关系提取

论文浅尝 | 将文本建模为关系图，用于联合实体和关系提取

开放知识图谱

77+阅读 · 2019年9月14日

当Non-local遇见SENet，微软亚研提出更高效的全局上下文网络

当Non-local遇见SENet，微软亚研提出更高效的全局上下文网络

机器之心

11+阅读 · 2019年5月6日

双重注意力网络：中科院自动化所提出新的自然场景图像分割框架（附源码）

双重注意力网络：中科院自动化所提出新的自然场景图像分割框架（附源码）

极市平台

7+阅读 · 2018年9月19日

学界 | 哈佛大学提出变分注意力：用VAE重建注意力机制

学界 | 哈佛大学提出变分注意力：用VAE重建注意力机制

机器之心

7+阅读 · 2018年7月26日

学界 | 金字塔注意力网络：一种利用底层像素与高级特征的语义分割网络

学界 | 金字塔注意力网络：一种利用底层像素与高级特征的语义分割网络

机器之心

9+阅读 · 2018年6月15日

学界 | 海康威视联合提出注意力聚焦网络FAN：提升场景文本识别精确度

学界 | 海康威视联合提出注意力聚焦网络FAN：提升场景文本识别精确度

机器之心

4+阅读 · 2017年9月23日

VSGNet: Spatial Attention Network for Detecting Human Object Interactions Using Graph Convolutions

VSGNet: Spatial Attention Network for Detecting Human Object Interactions Using Graph Convolutions

Arxiv

7+阅读 · 2020年3月11日

Language Modeling with Deep Transformers

Arxiv

6+阅读 · 2019年7月11日

MDE: Multi Distance Embeddings for Link Prediction in Knowledge Graphs

Arxiv

4+阅读 · 2019年5月29日

CAN-NER: Convolutional Attention Network for Chinese Named Entity Recognition

CAN-NER: Convolutional Attention Network for Chinese Named Entity Recognition

Arxiv

6+阅读 · 2019年4月30日

CAN-NER: Convolutional Attention Network forChinese Named Entity Recognition

Arxiv

16+阅读 · 2019年4月3日

Multi-Task Deep Neural Networks for Natural Language Understanding

Multi-Task Deep Neural Networks for Natural Language Understanding

Arxiv

3+阅读 · 2019年1月31日

Panoptic Segmentation with a Joint Semantic and Instance Segmentation Network

Panoptic Segmentation with a Joint Semantic and Instance Segmentation Network

Arxiv

5+阅读 · 2018年9月6日

Attention-Aware Compositional Network for Person Re-identification

Arxiv

8+阅读 · 2018年5月16日

End-to-End Multi-Task Learning with Attention

Arxiv

19+阅读 · 2018年3月28日

Distance-based Self-Attention Network for Natural Language Inference

Arxiv

10+阅读 · 2017年12月6日

VIP会员

相关主题

注意力机制

注意力网络

场景文本识别

相关VIP内容

最新《自然场景中文本检测与识别》综述论文，26页pdf

最新《自然场景中文本检测与识别》综述论文，26页pdf

专知会员服务

70+阅读 · 2020年6月10日

【CVPR2020-中科院计算所】多模态GNN：在视觉信息和场景文字上联合推理

【CVPR2020-中科院计算所】多模态GNN：在视觉信息和场景文字上联合推理

专知会员服务

61+阅读 · 2020年4月7日

【CVPR2020-Oral】用于任务感知的持续学习的条件信道门控网络

专知会员服务

21+阅读 · 2020年4月2日

【CVPR2020-百度】用于视觉识别的门控信道变换

【CVPR2020-百度】用于视觉识别的门控信道变换

专知会员服务

13+阅读 · 2020年3月30日

注意力图神经网络的多标签文本分类

注意力图神经网络的多标签文本分类

专知会员服务

112+阅读 · 2020年3月28日

【清华-百度】面向季节性时空数据的预测式循环网络及其在城市计算中的应用，计算机学报

【清华-百度】面向季节性时空数据的预测式循环网络及其在城市计算中的应用，计算机学报

专知会员服务

42+阅读 · 2020年3月10日

慕尼黑大学LMU博士论文：自然语言文本神经网络信息提取，240页pdf

慕尼黑大学LMU博士论文：自然语言文本神经网络信息提取，240页pdf

专知会员服务

74+阅读 · 2020年1月13日

【元学习 | 论文】NeuralPS19，多模态模型无关元学习，南加州大学

【元学习 | 论文】NeuralPS19，多模态模型无关元学习，南加州大学

专知会员服务

62+阅读 · 2019年11月21日

【元学习 | 论文】元学习与动态记忆为基础的原型网络的小样本突发事件检测，浙江大学，阿里巴巴

【元学习 | 论文】元学习与动态记忆为基础的原型网络的小样本突发事件检测，浙江大学，阿里巴巴

专知会员服务

57+阅读 · 2019年11月21日

【CCF优秀博士学位论文奖-2019初评】基于深度学习的场景分割技术研究，中科院计算所张蕊

【CCF优秀博士学位论文奖-2019初评】基于深度学习的场景分割技术研究，中科院计算所张蕊

专知会员服务

32+阅读 · 2019年11月8日

热门VIP内容

开通专知VIP会员享更多权益服务

《俄乌战争背景下俄罗斯的战略性海军分析（2022-2025年）》最新100页报告

【斯坦福博士论文】数据、决策与依赖：构建可信人工智能的挑战

人工智能时代背景下的未来海战

接触战中的无人机优势：美军旅级部队面临的小型无人机系统挑战与调整

相关资讯

论文浅尝 | 基于动态记忆的原型网络进行元学习以实现少样本事件探测

论文浅尝 | 基于动态记忆的原型网络进行元学习以实现少样本事件探测

开放知识图谱

37+阅读 · 2019年12月3日

【论文笔记】基于门控图网络实现图到序列学习

【论文笔记】基于门控图网络实现图到序列学习

专知

56+阅读 · 2019年10月5日

Interspeech 2019 | 基于多模态对齐的语音情感识别

Interspeech 2019 | 基于多模态对齐的语音情感识别

AI科技评论

23+阅读 · 2019年9月21日

Interspeech 2019 | 阿里达摩院语音实验室：联合CTC和Transformer的自动中文纠错模型

Interspeech 2019 | 阿里达摩院语音实验室：联合CTC和Transformer的自动中文纠错模型

机器之心

26+阅读 · 2019年9月15日

论文浅尝 | 将文本建模为关系图，用于联合实体和关系提取

论文浅尝 | 将文本建模为关系图，用于联合实体和关系提取

开放知识图谱

77+阅读 · 2019年9月14日

当Non-local遇见SENet，微软亚研提出更高效的全局上下文网络

当Non-local遇见SENet，微软亚研提出更高效的全局上下文网络

机器之心

11+阅读 · 2019年5月6日

双重注意力网络：中科院自动化所提出新的自然场景图像分割框架（附源码）

双重注意力网络：中科院自动化所提出新的自然场景图像分割框架（附源码）

极市平台

7+阅读 · 2018年9月19日

学界 | 哈佛大学提出变分注意力：用VAE重建注意力机制

学界 | 哈佛大学提出变分注意力：用VAE重建注意力机制

机器之心

7+阅读 · 2018年7月26日

学界 | 金字塔注意力网络：一种利用底层像素与高级特征的语义分割网络

学界 | 金字塔注意力网络：一种利用底层像素与高级特征的语义分割网络

机器之心

9+阅读 · 2018年6月15日

学界 | 海康威视联合提出注意力聚焦网络FAN：提升场景文本识别精确度

学界 | 海康威视联合提出注意力聚焦网络FAN：提升场景文本识别精确度

机器之心

4+阅读 · 2017年9月23日

相关论文

VSGNet: Spatial Attention Network for Detecting Human Object Interactions Using Graph Convolutions

VSGNet: Spatial Attention Network for Detecting Human Object Interactions Using Graph Convolutions

Arxiv

7+阅读 · 2020年3月11日

Language Modeling with Deep Transformers

Arxiv

6+阅读 · 2019年7月11日

MDE: Multi Distance Embeddings for Link Prediction in Knowledge Graphs

Arxiv

4+阅读 · 2019年5月29日

CAN-NER: Convolutional Attention Network for Chinese Named Entity Recognition

CAN-NER: Convolutional Attention Network for Chinese Named Entity Recognition

Arxiv

6+阅读 · 2019年4月30日

CAN-NER: Convolutional Attention Network forChinese Named Entity Recognition

Arxiv

16+阅读 · 2019年4月3日

Multi-Task Deep Neural Networks for Natural Language Understanding

Multi-Task Deep Neural Networks for Natural Language Understanding

Arxiv

3+阅读 · 2019年1月31日

Panoptic Segmentation with a Joint Semantic and Instance Segmentation Network

Panoptic Segmentation with a Joint Semantic and Instance Segmentation Network

Arxiv

5+阅读 · 2018年9月6日

Attention-Aware Compositional Network for Person Re-identification

Arxiv

8+阅读 · 2018年5月16日

End-to-End Multi-Task Learning with Attention

Arxiv

19+阅读 · 2018年3月28日

Distance-based Self-Attention Network for Natural Language Inference

Arxiv

10+阅读 · 2017年12月6日

大家都在搜

大型语言模型

蓝牙安全攻防

朱克爱德华兹家族

滴滴司机调度系统实践

微信扫码咨询专知VIP会员