项目名称: 基于数据驱动的中文自然语言生成关键技术研究

项目编号: No.61202248

项目类型: 青年科学基金项目

立项/批准年度: 2013

项目学科: 计算机科学学科

项目作者: 袁彩霞

作者单位: 北京邮电大学

项目金额: 25万元

中文摘要: 如何让计算机生成人类可以理解的语言,是一个重要的科学问题,同时也是实现人机自然交互、机器翻译、文本摘要等任务的重要技术手段。本课题以中文自然语言生成为具体任务,探索语言理解过程中的形式化理论及统计学习方法在语言生成中的应用,为提升现有语言生成技术的可重用性及鲁棒性、降低系统开发代价寻求有效途径。研究内容包括:1.基于上下文无关语法的生成空间描述,借鉴语言理解中的句法分析方法,自动构建以语言生成为目的的概念短语层级树;2.基于噪声信道模型的生成决策规划,进行深层结构及表层结构的统一实现,充分利用基于知识驱动的语言模型及基于动态规划的解码算法的概率特性及领域无关特性,提高系统的可重用性及鲁棒性;3.针对中文自然语言生成系统的评测数据及评测技术研究,研制并开放一套用于汉语语言生成技术评测的标准数据及基础工具,为汉语语言生成技术提供科学一致的评测方法。

中文关键词: 自然语言生成;概率上下文无关文法;决策森林;解码算法;

英文摘要: Making computers learn to generate natural language is a critical scientific problem, and also a key technique for solving tasks like man-machine dialogue, machine translation and text summarization. The aim of this project is to develop techniques for generating Chinese natural language. By utilizing the language formalization theory and statistical analysis method in natural language understanding, we provide an effective way reducing deveplopment cost of the current NLG system, meanwhile improving its scalability and robustness. The research content includes: 1. Towards domain independent NLG representation based on context-free grammar (CFG), starting from a straightforward CFG parsing result, automatically build the concept-phrase hierarchical tree for natural language generation engine, via which explicitly describe the generation space. 2. Towards noise-channel model for generation strategy planning, carry out deep and surface realization in a unified way, and enhance its technologies in terms of reusability, scalability and robustness by exploring the statistical advantages of knowledge-driven language model and dynamic decoding algorithm. 3. Towards evaluation techniques and data development for Chinese language generation, develop a suite of shared data and text processing tools, and thereby propose a

英文关键词: Natural language generation;probabilistic context-free grammar;decision forest;decoding algorithmn;

成为VIP会员查看完整内容
7

相关内容

自然语言生成(NLG)是自然语言处理的一部分,从知识库或逻辑形式等等机器表述系统去生成自然语言。这种形式表述当作心理表述的模型时,心理语言学家会选用语言产出这个术语。自然语言生成系统可以说是一种将资料转换成自然语言表述的翻译器。NLG出现已久,但是商业NLG技术直到最近才变得普及。自然语言生成可以视为自然语言理解的反向: 自然语言理解系统须要厘清输入句的意涵,从而产生机器表述语言;自然语言生成系统须要决定如何把概念转化成语言。
多语言语音识别声学模型建模方法最新进展
专知会员服务
33+阅读 · 2022年2月7日
基于预训练语言模型的文本生成
专知会员服务
28+阅读 · 2022年1月28日
专知会员服务
81+阅读 · 2021年10月15日
港中文等最新《多模态元学习》综述论文
专知会员服务
123+阅读 · 2021年10月8日
专知会员服务
41+阅读 · 2021年6月6日
专知会员服务
64+阅读 · 2021年5月29日
知识增强的文本生成研究进展
专知会员服务
98+阅读 · 2021年3月6日
人机对抗智能技术
专知会员服务
201+阅读 · 2020年5月3日
下一代对话系统中的关键技术(下篇)
PaperWeekly
2+阅读 · 2022年4月1日
基于预训练语言模型的文本生成
专知
0+阅读 · 2022年1月28日
最新论文解读 | 基于预训练自然语言生成的文本摘要方法
微软研究院AI头条
57+阅读 · 2019年3月19日
SMP2018中文人机对话技术评测
哈工大SCIR
12+阅读 · 2019年3月6日
基于深度学习的文本生成【附217页PPT下载】
专知
35+阅读 · 2018年11月24日
自然语言处理(NLP)知识结构总结
AI100
51+阅读 · 2018年8月17日
最全面的百度NLP自然语言处理技术解析
未来产业促进会
13+阅读 · 2017年11月12日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
小贴士
相关VIP内容
多语言语音识别声学模型建模方法最新进展
专知会员服务
33+阅读 · 2022年2月7日
基于预训练语言模型的文本生成
专知会员服务
28+阅读 · 2022年1月28日
专知会员服务
81+阅读 · 2021年10月15日
港中文等最新《多模态元学习》综述论文
专知会员服务
123+阅读 · 2021年10月8日
专知会员服务
41+阅读 · 2021年6月6日
专知会员服务
64+阅读 · 2021年5月29日
知识增强的文本生成研究进展
专知会员服务
98+阅读 · 2021年3月6日
人机对抗智能技术
专知会员服务
201+阅读 · 2020年5月3日
相关资讯
下一代对话系统中的关键技术(下篇)
PaperWeekly
2+阅读 · 2022年4月1日
基于预训练语言模型的文本生成
专知
0+阅读 · 2022年1月28日
最新论文解读 | 基于预训练自然语言生成的文本摘要方法
微软研究院AI头条
57+阅读 · 2019年3月19日
SMP2018中文人机对话技术评测
哈工大SCIR
12+阅读 · 2019年3月6日
基于深度学习的文本生成【附217页PPT下载】
专知
35+阅读 · 2018年11月24日
自然语言处理(NLP)知识结构总结
AI100
51+阅读 · 2018年8月17日
最全面的百度NLP自然语言处理技术解析
未来产业促进会
13+阅读 · 2017年11月12日
相关基金
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员