项目名称: 结合前馈和反馈机制的自然场景文本识别技术

项目编号: No.61473036

项目类型: 面上项目

立项/批准年度: 2015

项目学科: 其他

项目作者: 殷绪成

作者单位: 北京科技大学

项目金额: 83万元

中文摘要: 自然场景文本识别(end-to-end scene text recognition),是人机交互、图像理解、视频检索等应用的重要技术手段。当前技术主要把文本检测、分割和识别等过程分离开来进行研究,而且具有非常有限的整体识别性能。本课题研究创新性结合前馈和反馈机制的端到端场景文本识别技术。首先,提出融合特征集成的深度神经网络架构,研究高效的场景字符分类器及词识别技术;其次,提出基于图像特征和识别输出综合学习的反馈技术,研究有效的场景文本识别信息反馈方法;第三,引入网络基序正反馈环前馈模式,提出全新的端到端场景文本识别信息前馈与反馈整体机制;最后,基于我们世界领先的自然场景文本检测与分割技术,并结合前述创新方法,构建世界领先水平的端到端场景文本识别技术。本课题的研究成果在文字识别、模式识别、机器学习、图像检索等方面具有较大的理论意义和重要的实用价值。

中文关键词: 文本识别;文本检测;前馈;反馈;自然场景

英文摘要: End-to-end scene text recognition has important applications in human-computer interaction, image understanding, video retrieval etc. Currently, most researchers investigate text detection, segmentation, and recognition separately in the end-to-end system with a very limited performance. On the contrast, our project focuses on the end-to-end scene text recognition system by combining feedforward and feedback simultaneously. First, we propose a deep neural network framework with feature fusion, and construct efficient character and word classifiers. Second, we propose a feedback learning algorithm with vision features and classifiers' outputs, and investigate adaptive feedback strategies for scene text recognition. Third, based on the concept of Feed Forward Loop in Network Motif, we propose a new and whole strategy with feedforward and feedback in the end-to-end recognition system. Finally, based on our leading text detection technology and followed with the above novel methods, we construct a world-first-level-class system for end-to-end text recognition in natural scene images. The achievements of this project will include several important novel theories and technologies in character recognition, pattern recognition, machine learning, and image retireval.

英文关键词: text recognition;text detection;feedforward;feedback;natural scene

成为VIP会员查看完整内容
0

相关内容

军事知识图谱构建技术
专知会员服务
125+阅读 · 2022年4月8日
【ICLR2022】Vision Transformer 模型工作机制的最新理论
专知会员服务
42+阅读 · 2022年2月19日
专知会员服务
8+阅读 · 2021年6月20日
专知会员服务
64+阅读 · 2021年4月27日
专知会员服务
45+阅读 · 2021年3月19日
专知会员服务
132+阅读 · 2021年2月17日
【CIKM2020】神经贝叶斯信息处理,220页ppt,国立交通大学
专知会员服务
34+阅读 · 2020年10月26日
【新书】自然语言处理表示学习技术,349页pdf,清华大学
专知会员服务
173+阅读 · 2020年7月11日
一文读懂Attention机制
机器学习与推荐算法
63+阅读 · 2020年6月9日
【北大】知识图谱的关键技术及其智能应用
专知
112+阅读 · 2019年9月19日
【AIDL专栏】鲁继文:面向视觉内容理解的深度度量学习
人工智能前沿讲习班
32+阅读 · 2018年5月22日
基础 | 基于注意力机制的seq2seq网络
黑龙江大学自然语言处理实验室
16+阅读 · 2018年3月7日
OCR技术浅析
机器学习研究会
40+阅读 · 2017年12月8日
完全图解RNN、RNN变体、Seq2Seq、Attention机制
AI研习社
12+阅读 · 2017年9月5日
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
Arxiv
23+阅读 · 2022年2月24日
A Survey on Bayesian Deep Learning
Arxiv
63+阅读 · 2020年7月2日
Financial Time Series Representation Learning
Arxiv
10+阅读 · 2020年3月27日
Arxiv
29+阅读 · 2020年3月16日
Arxiv
101+阅读 · 2020年3月4日
小贴士
相关VIP内容
军事知识图谱构建技术
专知会员服务
125+阅读 · 2022年4月8日
【ICLR2022】Vision Transformer 模型工作机制的最新理论
专知会员服务
42+阅读 · 2022年2月19日
专知会员服务
8+阅读 · 2021年6月20日
专知会员服务
64+阅读 · 2021年4月27日
专知会员服务
45+阅读 · 2021年3月19日
专知会员服务
132+阅读 · 2021年2月17日
【CIKM2020】神经贝叶斯信息处理,220页ppt,国立交通大学
专知会员服务
34+阅读 · 2020年10月26日
【新书】自然语言处理表示学习技术,349页pdf,清华大学
专知会员服务
173+阅读 · 2020年7月11日
相关资讯
一文读懂Attention机制
机器学习与推荐算法
63+阅读 · 2020年6月9日
【北大】知识图谱的关键技术及其智能应用
专知
112+阅读 · 2019年9月19日
【AIDL专栏】鲁继文:面向视觉内容理解的深度度量学习
人工智能前沿讲习班
32+阅读 · 2018年5月22日
基础 | 基于注意力机制的seq2seq网络
黑龙江大学自然语言处理实验室
16+阅读 · 2018年3月7日
OCR技术浅析
机器学习研究会
40+阅读 · 2017年12月8日
完全图解RNN、RNN变体、Seq2Seq、Attention机制
AI研习社
12+阅读 · 2017年9月5日
相关基金
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
相关论文
微信扫码咨询专知VIP会员