基于主干成分的句法统计机器翻译模型研究 - 专知基金

会员服务 ·

0

机器翻译 · 句子主干 · 句法模型 · 解码 · 模型训练 ·

2013 年 12 月 31 日

基于主干成分的句法统计机器翻译模型研究

国家自然科学基金

国家自然科学基金委员会

项目名称： 基于主干成分的句法统计机器翻译模型研究

项目编号： No.61300097

项目类型： 青年科学基金项目

立项/批准年度： 2014

项目学科： 自动化技术、计算机技术

项目作者： 肖桐

作者单位： 东北大学

项目金额： 28万元

中文摘要： 统计机器翻译是当今自然语言处理领域的重要研究课题之一。虽然近些年来已经有一些成功的统计机器翻译模型被提出，如何更加充分的利用（源语言）句子的结构信息及句子主干信息来进一步提高翻译性能仍是十分重要且有待研究的科学问题。本课题研究基于主干成分的句法统计机器翻译及相关科学问题，内容涉及中文句子主干成分自动识别、基于主干成分的句法统计机器翻译建模、基于主干成分的句法统计机器翻译模型训练和解码等内容。本课题将以数据驱动的方法为指导，结合人们在翻译过程中形成的先验知识构建整个机器翻译框架。课题的选题及实施依托于申请人所在团队（东北大学自然语言处理实验室）在机器翻译方面研究的多年积累，课题的研究成果将全部集成到开源统计机器翻译系统NiuTrans中，无偿为学术界共享使用。

中文关键词： 机器翻译；句子主干；句法模型；解码；模型训练

英文摘要： Statistical Machine Translaiton (SMT) is one of the most important sub-fields in Natural Langauge Processing (NLP). While several methods have been succesfully developed in recent years, it is worth investigating new models that make better use of structures in (source-language) sentences as well as the skeleton information encoded in translation. In this proposal we study the skeleton-based model for syntactic statistical machine translation. The problems we address include automatic identification of chinese skeleton, the skeleton-based syntactic statistical translation model, training and decoding for skeleton-based statistical machine translation. The proposed methods/models make benefits from data-driven methods and the prior knowledge in real-world translation. This work is inspired and supported by the previous work of our group (Natural Language Processing Lab, Northeastern University). All the techniques developed in the project will be integrated into the NiuTrans open-source statistical machine translation system, which will be released to public under the support of this project.

英文关键词： Machine Translation；Sentence Sekeleton；Syntax-based Model；Decoding；Model Training

成为VIP会员查看完整内容

0

相关内容

机器翻译

机器翻译，又称为自动翻译，是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。它是计算语言学的一个分支，是人工智能的终极目标之一，具有重要的科学研究价值。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

【哈尔滨工业大学车万翔教授】自然语言处理新范式：基于预训练的方法

【哈尔滨工业大学车万翔教授】自然语言处理新范式：基于预训练的方法

专知会员服务

66+阅读 · 2022年3月17日

多语言语音识别声学模型建模方法最新进展

多语言语音识别声学模型建模方法最新进展

专知会员服务

36+阅读 · 2022年2月7日

EMNLP 2021 | 学习改写非自回归机器翻译的翻译结果

EMNLP 2021 | 学习改写非自回归机器翻译的翻译结果

专知会员服务

16+阅读 · 2021年12月25日

预训练如何用于机器翻译？字节跳动ACL2021这份190页ppt教程带你全面了解

预训练如何用于机器翻译？字节跳动ACL2021这份190页ppt教程带你全面了解

专知会员服务

70+阅读 · 2021年8月2日

【斯坦福CS224N硬核课】自然语言生成NLG，79页ppt

专知会员服务

37+阅读 · 2021年2月22日

【ICLR2021】从理解到改进：序列到序列建模中的编码器特征融合

【ICLR2021】从理解到改进：序列到序列建模中的编码器特征融合

专知会员服务

37+阅读 · 2021年2月12日

稀缺资源语言神经网络机器翻译研究综述

稀缺资源语言神经网络机器翻译研究综述

专知会员服务

27+阅读 · 2020年12月2日

【经典书】计算语言学：模型、资源的应用程序，198页pdf

【经典书】计算语言学：模型、资源的应用程序，198页pdf

专知会员服务

32+阅读 · 2020年11月19日

神经机器翻译前沿综述

专知会员服务

28+阅读 · 2020年9月9日

【开放新书】东北大学《机器翻译：统计建模与深度学习方法》477页pdf纵览机器翻译技术发展脉络

【开放新书】东北大学《机器翻译：统计建模与深度学习方法》477页pdf纵览机器翻译技术发展脉络

专知会员服务

105+阅读 · 2020年5月17日

ACL 2022 | 一口气翻两千词，字节AI Lab提出篇章到篇章的机器翻译新思路

ACL 2022 | 一口气翻两千词，字节AI Lab提出篇章到篇章的机器翻译新思路

机器之心

0+阅读 · 2022年4月4日

多语言语音识别声学模型建模方法最新进展

多语言语音识别声学模型建模方法最新进展

专知

2+阅读 · 2022年2月7日

EMNLP 2021 | 微软亚洲研究院NLP领域最新研究一览

EMNLP 2021 | 微软亚洲研究院NLP领域最新研究一览

微软研究院AI头条

0+阅读 · 2021年11月9日

哈工大｜NLP数据增强方法？我有15种

哈工大｜NLP数据增强方法？我有15种

哈工大SCIR

1+阅读 · 2021年10月13日

最新综述：跨语言语音合成方法的发展趋势与方向

最新综述：跨语言语音合成方法的发展趋势与方向

PaperWeekly

1+阅读 · 2021年10月8日

《自然语言处理：基于预训练模型的方法》PPT下载

《自然语言处理：基于预训练模型的方法》PPT下载

哈工大SCIR

9+阅读 · 2021年9月26日

基于知识蒸馏的BERT模型压缩

基于知识蒸馏的BERT模型压缩

大数据文摘

18+阅读 · 2019年10月14日

微软亚研提出VL-BERT：通用的视觉-语言预训练模型

微软亚研提出VL-BERT：通用的视觉-语言预训练模型

机器之心

15+阅读 · 2019年9月3日

最新论文解读 | 基于预训练自然语言生成的文本摘要方法

最新论文解读 | 基于预训练自然语言生成的文本摘要方法

微软研究院AI头条

57+阅读 · 2019年3月19日

清华大学NLP组年末巨献：机器翻译必读论文列表

清华大学NLP组年末巨献：机器翻译必读论文列表

机器之心

13+阅读 · 2018年12月30日

基于单语语料的无监督统计机器翻译模型研究

国家自然科学基金

1+阅读 · 2013年12月31日

基于主题模型的枢轴语言统计机器翻译研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于句子语义结构的统计机器翻译研究

国家自然科学基金

1+阅读 · 2013年12月31日

基于概率化SC文法的多策略机器翻译研究

国家自然科学基金

0+阅读 · 2012年12月31日

面向统计机器翻译的同步短语树结构归约机制研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于树的句法翻译模型关键技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

跨语言信息检索中的机器翻译研究

国家自然科学基金

2+阅读 · 2011年12月31日

基于图的统计机器翻译方法研究

国家自然科学基金

2+阅读 · 2010年12月31日

基于语言理解的机器翻译方法研究

国家自然科学基金

2+阅读 · 2009年12月31日

基于中心扩展对齐的汉-英统计机器翻译研究

国家自然科学基金

1+阅读 · 2009年12月31日

Reversible Gromov-Monge Sampler for Simulation-Based Inference

Arxiv

0+阅读 · 2022年4月18日

Neural Space-filling Curves

Arxiv

0+阅读 · 2022年4月18日

Low-Dose CT Denoising via Sinogram Inner-Structure Transformer

Low-Dose CT Denoising via Sinogram Inner-Structure Transformer

Arxiv

1+阅读 · 2022年4月18日

Non-autoregressive Transformer-based End-to-end ASR using BERT

Arxiv

0+阅读 · 2022年4月18日

Formalizing $\varphi$-calculus: a purely object-oriented calculus of decorated objects

Arxiv

0+阅读 · 2022年4月15日

Clinical-Longformer and Clinical-BigBird: Transformers for long clinical sequences

Arxiv

0+阅读 · 2022年4月15日

Transformer Tracking

Arxiv

17+阅读 · 2021年3月29日

Doc2EDAG: An End-to-End Document-level Framework for Chinese Financial Event Extraction

Doc2EDAG: An End-to-End Document-level Framework for Chinese Financial Event Extraction

Arxiv

11+阅读 · 2019年9月23日

Distance-based Self-Attention Network for Natural Language Inference

Arxiv

10+阅读 · 2017年12月6日

Attention Is All You Need

Arxiv

27+阅读 · 2017年12月6日

阅读: 0 点赞: 0

小贴士

登录享主题订阅及个性化推荐

相关主题

热门VIP内容

开通专知VIP会员享更多权益服务

视觉-语言-动作模型解析：从模块构成到里程碑与挑战

《解析陆域作战方向：一个概念性框架》报告

【博士论文】基于多模态基础模型的上下文学习

追寻真正的AI自主性：从遗留思维到战场优势

相关VIP内容

【哈尔滨工业大学车万翔教授】自然语言处理新范式：基于预训练的方法

【哈尔滨工业大学车万翔教授】自然语言处理新范式：基于预训练的方法

专知会员服务

66+阅读 · 2022年3月17日

多语言语音识别声学模型建模方法最新进展

多语言语音识别声学模型建模方法最新进展

专知会员服务

36+阅读 · 2022年2月7日

EMNLP 2021 | 学习改写非自回归机器翻译的翻译结果

EMNLP 2021 | 学习改写非自回归机器翻译的翻译结果

专知会员服务

16+阅读 · 2021年12月25日

预训练如何用于机器翻译？字节跳动ACL2021这份190页ppt教程带你全面了解

预训练如何用于机器翻译？字节跳动ACL2021这份190页ppt教程带你全面了解

专知会员服务

70+阅读 · 2021年8月2日

【斯坦福CS224N硬核课】自然语言生成NLG，79页ppt

专知会员服务

37+阅读 · 2021年2月22日

【ICLR2021】从理解到改进：序列到序列建模中的编码器特征融合

【ICLR2021】从理解到改进：序列到序列建模中的编码器特征融合

专知会员服务

37+阅读 · 2021年2月12日

稀缺资源语言神经网络机器翻译研究综述

稀缺资源语言神经网络机器翻译研究综述

专知会员服务

27+阅读 · 2020年12月2日

【经典书】计算语言学：模型、资源的应用程序，198页pdf

【经典书】计算语言学：模型、资源的应用程序，198页pdf

专知会员服务

32+阅读 · 2020年11月19日

神经机器翻译前沿综述

专知会员服务

28+阅读 · 2020年9月9日

【开放新书】东北大学《机器翻译：统计建模与深度学习方法》477页pdf纵览机器翻译技术发展脉络

【开放新书】东北大学《机器翻译：统计建模与深度学习方法》477页pdf纵览机器翻译技术发展脉络

专知会员服务

105+阅读 · 2020年5月17日

相关资讯

ACL 2022 | 一口气翻两千词，字节AI Lab提出篇章到篇章的机器翻译新思路

ACL 2022 | 一口气翻两千词，字节AI Lab提出篇章到篇章的机器翻译新思路

机器之心

0+阅读 · 2022年4月4日

多语言语音识别声学模型建模方法最新进展

多语言语音识别声学模型建模方法最新进展

专知

2+阅读 · 2022年2月7日

EMNLP 2021 | 微软亚洲研究院NLP领域最新研究一览

EMNLP 2021 | 微软亚洲研究院NLP领域最新研究一览

微软研究院AI头条

0+阅读 · 2021年11月9日

哈工大｜NLP数据增强方法？我有15种

哈工大｜NLP数据增强方法？我有15种

哈工大SCIR

1+阅读 · 2021年10月13日

最新综述：跨语言语音合成方法的发展趋势与方向

最新综述：跨语言语音合成方法的发展趋势与方向

PaperWeekly

1+阅读 · 2021年10月8日

《自然语言处理：基于预训练模型的方法》PPT下载

《自然语言处理：基于预训练模型的方法》PPT下载

哈工大SCIR

9+阅读 · 2021年9月26日

基于知识蒸馏的BERT模型压缩

基于知识蒸馏的BERT模型压缩

大数据文摘

18+阅读 · 2019年10月14日

微软亚研提出VL-BERT：通用的视觉-语言预训练模型

微软亚研提出VL-BERT：通用的视觉-语言预训练模型

机器之心

15+阅读 · 2019年9月3日

最新论文解读 | 基于预训练自然语言生成的文本摘要方法

最新论文解读 | 基于预训练自然语言生成的文本摘要方法

微软研究院AI头条

57+阅读 · 2019年3月19日

清华大学NLP组年末巨献：机器翻译必读论文列表

清华大学NLP组年末巨献：机器翻译必读论文列表

机器之心

13+阅读 · 2018年12月30日

相关基金

基于单语语料的无监督统计机器翻译模型研究

国家自然科学基金

1+阅读 · 2013年12月31日

基于主题模型的枢轴语言统计机器翻译研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于句子语义结构的统计机器翻译研究

国家自然科学基金

1+阅读 · 2013年12月31日

基于概率化SC文法的多策略机器翻译研究

国家自然科学基金

0+阅读 · 2012年12月31日

面向统计机器翻译的同步短语树结构归约机制研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于树的句法翻译模型关键技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

跨语言信息检索中的机器翻译研究

国家自然科学基金

2+阅读 · 2011年12月31日

基于图的统计机器翻译方法研究

国家自然科学基金

2+阅读 · 2010年12月31日

基于语言理解的机器翻译方法研究

国家自然科学基金

2+阅读 · 2009年12月31日

基于中心扩展对齐的汉-英统计机器翻译研究

国家自然科学基金

1+阅读 · 2009年12月31日

相关论文

Reversible Gromov-Monge Sampler for Simulation-Based Inference

Arxiv

0+阅读 · 2022年4月18日

Neural Space-filling Curves

Arxiv

0+阅读 · 2022年4月18日

Low-Dose CT Denoising via Sinogram Inner-Structure Transformer

Low-Dose CT Denoising via Sinogram Inner-Structure Transformer

Arxiv

1+阅读 · 2022年4月18日

Non-autoregressive Transformer-based End-to-end ASR using BERT

Arxiv

0+阅读 · 2022年4月18日

Formalizing $\varphi$-calculus: a purely object-oriented calculus of decorated objects

Arxiv

0+阅读 · 2022年4月15日

Clinical-Longformer and Clinical-BigBird: Transformers for long clinical sequences

Arxiv

0+阅读 · 2022年4月15日

Transformer Tracking

Arxiv

17+阅读 · 2021年3月29日

Doc2EDAG: An End-to-End Document-level Framework for Chinese Financial Event Extraction

Doc2EDAG: An End-to-End Document-level Framework for Chinese Financial Event Extraction

Arxiv

11+阅读 · 2019年9月23日

Distance-based Self-Attention Network for Natural Language Inference

Arxiv

10+阅读 · 2017年12月6日

Attention Is All You Need

Arxiv

27+阅读 · 2017年12月6日

微信扫码咨询专知VIP会员