结合前馈和反馈机制的自然场景文本识别技术 - 专知基金

会员服务 ·

0

文本识别 · 文本检测 · 前馈 · 自然场景 ·

2014 年 12 月 31 日

结合前馈和反馈机制的自然场景文本识别技术

国家自然科学基金

国家自然科学基金委员会

项目名称： 结合前馈和反馈机制的自然场景文本识别技术

项目编号： No.61473036

项目类型： 面上项目

立项/批准年度： 2015

项目学科： 其他

项目作者： 殷绪成

作者单位： 北京科技大学

项目金额： 83万元

中文摘要： 自然场景文本识别（end-to-end scene text recognition），是人机交互、图像理解、视频检索等应用的重要技术手段。当前技术主要把文本检测、分割和识别等过程分离开来进行研究，而且具有非常有限的整体识别性能。本课题研究创新性结合前馈和反馈机制的端到端场景文本识别技术。首先，提出融合特征集成的深度神经网络架构，研究高效的场景字符分类器及词识别技术；其次，提出基于图像特征和识别输出综合学习的反馈技术，研究有效的场景文本识别信息反馈方法；第三，引入网络基序正反馈环前馈模式，提出全新的端到端场景文本识别信息前馈与反馈整体机制；最后，基于我们世界领先的自然场景文本检测与分割技术，并结合前述创新方法，构建世界领先水平的端到端场景文本识别技术。本课题的研究成果在文字识别、模式识别、机器学习、图像检索等方面具有较大的理论意义和重要的实用价值。

中文关键词： 文本识别；文本检测；前馈；反馈；自然场景

英文摘要： End-to-end scene text recognition has important applications in human-computer interaction, image understanding, video retrieval etc. Currently, most researchers investigate text detection, segmentation, and recognition separately in the end-to-end system with a very limited performance. On the contrast, our project focuses on the end-to-end scene text recognition system by combining feedforward and feedback simultaneously. First, we propose a deep neural network framework with feature fusion, and construct efficient character and word classifiers. Second, we propose a feedback learning algorithm with vision features and classifiers' outputs, and investigate adaptive feedback strategies for scene text recognition. Third, based on the concept of Feed Forward Loop in Network Motif, we propose a new and whole strategy with feedforward and feedback in the end-to-end recognition system. Finally, based on our leading text detection technology and followed with the above novel methods, we construct a world-first-level-class system for end-to-end text recognition in natural scene images. The achievements of this project will include several important novel theories and technologies in character recognition, pattern recognition, machine learning, and image retireval.

英文关键词： text recognition;text detection;feedforward;feedback;natural scene

成为VIP会员查看完整内容

0

相关内容

文本识别

军事知识图谱构建技术

军事知识图谱构建技术

专知会员服务

139+阅读 · 2022年4月8日

【ICLR2022】Vision Transformer 模型工作机制的最新理论

【ICLR2022】Vision Transformer 模型工作机制的最新理论

专知会员服务

43+阅读 · 2022年2月19日

【KDD2021】一种使用真负样本的在线延迟反馈建模

专知会员服务

9+阅读 · 2021年6月20日

基于事理图谱的应用与实践

专知会员服务

69+阅读 · 2021年4月27日

自然场景文本检测与识别中的深度学习方法综述

专知会员服务

47+阅读 · 2021年3月19日

强化学习的自动驾驶控制技术研究进展

专知会员服务

139+阅读 · 2021年2月17日

【CIKM2020】神经贝叶斯信息处理，220页ppt，国立交通大学

【CIKM2020】神经贝叶斯信息处理，220页ppt，国立交通大学

专知会员服务

35+阅读 · 2020年10月26日

【浙大博士论文】面向复杂场景理解的视觉内容识别、检测与推理方法研究

【浙大博士论文】面向复杂场景理解的视觉内容识别、检测与推理方法研究

专知会员服务

147+阅读 · 2020年7月26日

【新书】自然语言处理表示学习技术，349页pdf，清华大学

【新书】自然语言处理表示学习技术，349页pdf，清华大学

专知会员服务

174+阅读 · 2020年7月11日

强化学习的对比无监督表示，CURL: Contrastive Unsupervised Representations for Reinforcement Learning

强化学习的对比无监督表示，CURL: Contrastive Unsupervised Representations for Reinforcement Learning

专知会员服务

41+阅读 · 2020年4月11日

【AI与食品】北工商中科院计算所最新《基于视觉分析的膳食评估》综述性论文

【AI与食品】北工商中科院计算所最新《基于视觉分析的膳食评估》综述性论文

专知

6+阅读 · 2022年4月21日

直播分享丨前沿技术讲习班：知识图谱前沿技术与应用（CIPS ATT27）

直播分享丨前沿技术讲习班：知识图谱前沿技术与应用（CIPS ATT27）

开放知识图谱

1+阅读 · 2021年10月29日

【干货】2020年度图像图形学发展年度报告之八：自然场景文本检测与识别的深度学习方法

【干货】2020年度图像图形学发展年度报告之八：自然场景文本检测与识别的深度学习方法

中国图象图形学学会CSIG

2+阅读 · 2021年10月27日

一文读懂Attention机制

一文读懂Attention机制

机器学习与推荐算法

63+阅读 · 2020年6月9日

【北大】知识图谱的关键技术及其智能应用

【北大】知识图谱的关键技术及其智能应用

专知

112+阅读 · 2019年9月19日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

【AIDL专栏】鲁继文：面向视觉内容理解的深度度量学习

【AIDL专栏】鲁继文：面向视觉内容理解的深度度量学习

人工智能前沿讲习班

32+阅读 · 2018年5月22日

基础 | 基于注意力机制的seq2seq网络

基础 | 基于注意力机制的seq2seq网络

黑龙江大学自然语言处理实验室

16+阅读 · 2018年3月7日

OCR技术浅析

OCR技术浅析

机器学习研究会

40+阅读 · 2017年12月8日

完全图解RNN、RNN变体、Seq2Seq、Attention机制

完全图解RNN、RNN变体、Seq2Seq、Attention机制

AI研习社

12+阅读 · 2017年9月5日

基于共性视觉特征与反馈机制的SAR图像目标检测方法研究

国家自然科学基金

3+阅读 · 2017年12月31日

复杂环境下交通视频分析的若干关键技术研究

国家自然科学基金

2+阅读 · 2013年12月31日

基于选择性注意的交叉感知信息认知计算

国家自然科学基金

2+阅读 · 2013年12月31日

整合自上而下和自下而上处理机制的场景解析

国家自然科学基金

0+阅读 · 2013年12月31日

情感驱动的人机交互中文本语音情感信息耦合关键技术研究

国家自然科学基金

1+阅读 · 2012年12月31日

基于多主体仿真的互联网集体智能的形成机制和应用研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于自顶向下任务驱动与选择性反馈的交通场景感知与实现技术

国家自然科学基金

0+阅读 · 2012年12月31日

基于双稳随机共振系统的反馈自适应微弱信号提取理论及技术

国家自然科学基金

0+阅读 · 2012年12月31日

基于功能磁共振成像的自然场景识别脑机制研究及应用

国家自然科学基金

0+阅读 · 2012年12月31日

协同分集与多包接收相结合的分布式并发无线通信关键技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

Cross-modal Representation Learning for Zero-shot Action Recognition

Arxiv

0+阅读 · 2022年5月3日

Audio-Visual Collaborative Representation Learning for Dynamic Saliency Prediction

Arxiv

0+阅读 · 2022年5月2日

Bayesian Deep Learning for Graphs

Arxiv

23+阅读 · 2022年2月24日

A Survey on Bayesian Deep Learning

A Survey on Bayesian Deep Learning

Arxiv

64+阅读 · 2020年7月2日

Financial Time Series Representation Learning

Financial Time Series Representation Learning

Arxiv

10+阅读 · 2020年3月27日

A Survey on Contextual Embeddings

Arxiv

29+阅读 · 2020年3月16日

Adaptive Graph Convolutional Network with Attention Graph Clustering for Co-saliency Detection

Adaptive Graph Convolutional Network with Attention Graph Clustering for Co-saliency Detection

Arxiv

10+阅读 · 2020年3月13日

Adversarial Multimodal Representation Learning for Click-Through Rate Prediction

Arxiv

23+阅读 · 2020年3月7日

Knowledge Graphs

Arxiv

102+阅读 · 2020年3月4日

Dynamic Graph Representation Learning via Self-Attention Networks

Arxiv

52+阅读 · 2019年6月15日

阅读: 0 点赞: 0

小贴士

登录享主题订阅及个性化推荐

相关主题

热门VIP内容

开通专知VIP会员享更多权益服务

大型语言模型遇上文本属性图：一种融合框架与应用的综述

人工智能赋能自主武器与人类控制第三部分：人类控制与系统操作员 | 35页

【博士论文】用于概率程序与生成模型的变分推断

军事指挥控制系统：2025年5种用途

相关VIP内容

军事知识图谱构建技术

军事知识图谱构建技术

专知会员服务

139+阅读 · 2022年4月8日

【ICLR2022】Vision Transformer 模型工作机制的最新理论

【ICLR2022】Vision Transformer 模型工作机制的最新理论

专知会员服务

43+阅读 · 2022年2月19日

【KDD2021】一种使用真负样本的在线延迟反馈建模

专知会员服务

9+阅读 · 2021年6月20日

基于事理图谱的应用与实践

专知会员服务

69+阅读 · 2021年4月27日

自然场景文本检测与识别中的深度学习方法综述

专知会员服务

47+阅读 · 2021年3月19日

强化学习的自动驾驶控制技术研究进展

专知会员服务

139+阅读 · 2021年2月17日

【CIKM2020】神经贝叶斯信息处理，220页ppt，国立交通大学

【CIKM2020】神经贝叶斯信息处理，220页ppt，国立交通大学

专知会员服务

35+阅读 · 2020年10月26日

【浙大博士论文】面向复杂场景理解的视觉内容识别、检测与推理方法研究

【浙大博士论文】面向复杂场景理解的视觉内容识别、检测与推理方法研究

专知会员服务

147+阅读 · 2020年7月26日

【新书】自然语言处理表示学习技术，349页pdf，清华大学

【新书】自然语言处理表示学习技术，349页pdf，清华大学

专知会员服务

174+阅读 · 2020年7月11日

强化学习的对比无监督表示，CURL: Contrastive Unsupervised Representations for Reinforcement Learning

强化学习的对比无监督表示，CURL: Contrastive Unsupervised Representations for Reinforcement Learning

专知会员服务

41+阅读 · 2020年4月11日

相关资讯

【AI与食品】北工商中科院计算所最新《基于视觉分析的膳食评估》综述性论文

【AI与食品】北工商中科院计算所最新《基于视觉分析的膳食评估》综述性论文

专知

6+阅读 · 2022年4月21日

直播分享丨前沿技术讲习班：知识图谱前沿技术与应用（CIPS ATT27）

直播分享丨前沿技术讲习班：知识图谱前沿技术与应用（CIPS ATT27）

开放知识图谱

1+阅读 · 2021年10月29日

【干货】2020年度图像图形学发展年度报告之八：自然场景文本检测与识别的深度学习方法

【干货】2020年度图像图形学发展年度报告之八：自然场景文本检测与识别的深度学习方法

中国图象图形学学会CSIG

2+阅读 · 2021年10月27日

一文读懂Attention机制

一文读懂Attention机制

机器学习与推荐算法

63+阅读 · 2020年6月9日

【北大】知识图谱的关键技术及其智能应用

【北大】知识图谱的关键技术及其智能应用

专知

112+阅读 · 2019年9月19日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

【AIDL专栏】鲁继文：面向视觉内容理解的深度度量学习

【AIDL专栏】鲁继文：面向视觉内容理解的深度度量学习

人工智能前沿讲习班

32+阅读 · 2018年5月22日

基础 | 基于注意力机制的seq2seq网络

基础 | 基于注意力机制的seq2seq网络

黑龙江大学自然语言处理实验室

16+阅读 · 2018年3月7日

OCR技术浅析

OCR技术浅析

机器学习研究会

40+阅读 · 2017年12月8日

完全图解RNN、RNN变体、Seq2Seq、Attention机制

完全图解RNN、RNN变体、Seq2Seq、Attention机制

AI研习社

12+阅读 · 2017年9月5日

相关基金

基于共性视觉特征与反馈机制的SAR图像目标检测方法研究

国家自然科学基金

3+阅读 · 2017年12月31日

复杂环境下交通视频分析的若干关键技术研究

国家自然科学基金

2+阅读 · 2013年12月31日

基于选择性注意的交叉感知信息认知计算

国家自然科学基金

2+阅读 · 2013年12月31日

整合自上而下和自下而上处理机制的场景解析

国家自然科学基金

0+阅读 · 2013年12月31日

情感驱动的人机交互中文本语音情感信息耦合关键技术研究

国家自然科学基金

1+阅读 · 2012年12月31日

基于多主体仿真的互联网集体智能的形成机制和应用研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于自顶向下任务驱动与选择性反馈的交通场景感知与实现技术

国家自然科学基金

0+阅读 · 2012年12月31日

基于双稳随机共振系统的反馈自适应微弱信号提取理论及技术

国家自然科学基金

0+阅读 · 2012年12月31日

基于功能磁共振成像的自然场景识别脑机制研究及应用

国家自然科学基金

0+阅读 · 2012年12月31日

协同分集与多包接收相结合的分布式并发无线通信关键技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

相关论文

Cross-modal Representation Learning for Zero-shot Action Recognition

Arxiv

0+阅读 · 2022年5月3日

Audio-Visual Collaborative Representation Learning for Dynamic Saliency Prediction

Arxiv

0+阅读 · 2022年5月2日

Bayesian Deep Learning for Graphs

Arxiv

23+阅读 · 2022年2月24日

A Survey on Bayesian Deep Learning

A Survey on Bayesian Deep Learning

Arxiv

64+阅读 · 2020年7月2日

Financial Time Series Representation Learning

Financial Time Series Representation Learning

Arxiv

10+阅读 · 2020年3月27日

A Survey on Contextual Embeddings

Arxiv

29+阅读 · 2020年3月16日

Adaptive Graph Convolutional Network with Attention Graph Clustering for Co-saliency Detection

Adaptive Graph Convolutional Network with Attention Graph Clustering for Co-saliency Detection

Arxiv

10+阅读 · 2020年3月13日

Adversarial Multimodal Representation Learning for Click-Through Rate Prediction

Arxiv

23+阅读 · 2020年3月7日

Knowledge Graphs

Arxiv

102+阅读 · 2020年3月4日

Dynamic Graph Representation Learning via Self-Attention Networks

Arxiv

52+阅读 · 2019年6月15日

微信扫码咨询专知VIP会员