项目名称: 图文混合笔输入文档分析与识别的理论与方法研究

项目编号: No.61273269

项目类型: 面上项目

立项/批准年度: 2013

项目学科: 自动化技术、计算机技术

项目作者: 周祥东

作者单位: 中国科学院软件研究所

项目金额: 81万元

中文摘要: 随着平板电脑和数码笔等笔输入设备的广泛应用,用户能够在更大的界面上输入文本、绘制图形和表格,同时笔迹能够被这些设备捕获并保存成联机文档。但伴随着输入的便利性,无约束的自由书写也给联机文档的自动处理带来了挑战。要对联机手写文档进行分析,首先需要将页面分割成文档结构对象,例如文本行和图形,然后再对不同的对象分别进行识别。本项目基于条件随机场(CRF)模型,系统地对复杂版面联机手写文档分析与识别中多种上下文信息的表示与融合方法展开研究,具体内容包括:(1)基于空间上下文的图文分离方法;(2)复杂版面联机手写文档的文本行提取方法;(3)基于高阶半马尔科夫条件随机场(semi-CRF)的手写字符串识别方法;(4)高阶条件随机场的快速推断算法。该项目在前期扎实的工作基础上开展,针对研究中的难点设计了明确可行的技术路线。本研究内容新颖并具有广泛的应用前景和学术价值,研究成果将促进手写设备的推广与应用。

中文关键词: 手写文档;版面分析;文本行提取;手写文本行识别;关键词定位

英文摘要: With the increasing use of pen-based devices, users can input various heterogeneous structures such as text, drawings and table forms freely on a large writing area, with the trajectories captured and saved as ink documents. Nevertheless, accompanied with the convenience of input, the free and heterogeneous structures of ink documents bring new challenges to automatic processing. For ink document analysis, the ink strokes should be first grouped into structural units such as text lines and drawings, which are then recognized respectively. This project systemically investigates the representation and fusion methods of context information in ink document analysis based on conditional random fields (CRFs). The main contents are as follows: (1) text and non-text separation method based on the spatial context; (2) method of text line grouping from ink documents with complex layout; (3) character string recognition method based on high-order semi-Markov conditional random fields; (4) fast inference methods for high-order conditional random fields. This project will be conducted on the basis of our previous research, and most of the technology difficulties have been comprehensively evaluated. The research results will promote the application of pen-based devices。

英文关键词: handwritten documents;document layout analysis;text line extraction;handwritten text recognition;keyword spotting

成为VIP会员查看完整内容
0

相关内容

基于表格数据的深度学习方法
专知会员服务
37+阅读 · 2021年10月19日
专知会员服务
97+阅读 · 2021年6月23日
神经问题生成前沿综述
专知会员服务
15+阅读 · 2021年6月5日
专知会员服务
71+阅读 · 2021年5月21日
专知会员服务
21+阅读 · 2021年4月20日
专知会员服务
45+阅读 · 2021年3月19日
自动文本摘要研究综述
专知会员服务
67+阅读 · 2021年1月31日
专知会员服务
55+阅读 · 2020年12月20日
深度学习目标检测方法综述
专知会员服务
274+阅读 · 2020年8月1日
MSRA-万字综述 直击多模态文档理解
夕小瑶的卖萌屋
3+阅读 · 2021年12月28日
智能文档新成员:动态文档智能模型MarkupLM
微软研究院AI头条
3+阅读 · 2021年11月25日
【关系抽取】从文本中进行关系抽取的几种不同的方法
深度学习自然语言处理
29+阅读 · 2020年3月30日
基于知识图谱的文本挖掘 - 超越文本挖掘
专知
38+阅读 · 2019年8月18日
图神经网络综述:模型与应用
PaperWeekly
197+阅读 · 2018年12月26日
贝叶斯机器学习前沿进展
机器学习研究会
21+阅读 · 2018年1月21日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
Building Odia Shallow Parser
Arxiv
0+阅读 · 2022年4月19日
Arxiv
66+阅读 · 2022年4月13日
Arxiv
16+阅读 · 2020年5月20日
Deformable Style Transfer
Arxiv
14+阅读 · 2020年3月24日
Arxiv
29+阅读 · 2020年3月16日
Arxiv
151+阅读 · 2017年8月1日
小贴士
相关VIP内容
基于表格数据的深度学习方法
专知会员服务
37+阅读 · 2021年10月19日
专知会员服务
97+阅读 · 2021年6月23日
神经问题生成前沿综述
专知会员服务
15+阅读 · 2021年6月5日
专知会员服务
71+阅读 · 2021年5月21日
专知会员服务
21+阅读 · 2021年4月20日
专知会员服务
45+阅读 · 2021年3月19日
自动文本摘要研究综述
专知会员服务
67+阅读 · 2021年1月31日
专知会员服务
55+阅读 · 2020年12月20日
深度学习目标检测方法综述
专知会员服务
274+阅读 · 2020年8月1日
相关资讯
MSRA-万字综述 直击多模态文档理解
夕小瑶的卖萌屋
3+阅读 · 2021年12月28日
智能文档新成员:动态文档智能模型MarkupLM
微软研究院AI头条
3+阅读 · 2021年11月25日
【关系抽取】从文本中进行关系抽取的几种不同的方法
深度学习自然语言处理
29+阅读 · 2020年3月30日
基于知识图谱的文本挖掘 - 超越文本挖掘
专知
38+阅读 · 2019年8月18日
图神经网络综述:模型与应用
PaperWeekly
197+阅读 · 2018年12月26日
贝叶斯机器学习前沿进展
机器学习研究会
21+阅读 · 2018年1月21日
相关基金
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
相关论文
Building Odia Shallow Parser
Arxiv
0+阅读 · 2022年4月19日
Arxiv
66+阅读 · 2022年4月13日
Arxiv
16+阅读 · 2020年5月20日
Deformable Style Transfer
Arxiv
14+阅读 · 2020年3月24日
Arxiv
29+阅读 · 2020年3月16日
Arxiv
151+阅读 · 2017年8月1日
微信扫码咨询专知VIP会员