【阿姆斯特丹博士论文】探索低资源神经机器翻译的解决方案 - 专知VIP

会员服务 ·

10

博士论文 · 低资源机器翻译 ·

2024 年 11 月 28 日

【阿姆斯特丹博士论文】探索低资源神经机器翻译的解决方案

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

神经机器翻译（NMT）通过深度学习推动了机器翻译的进步，但其对大型平行数据集的依赖限制了其在低资源语言上的表现。本论文通过优化模型设计、数据处理和注意力机制，解决了这一问题，旨在提升NMT系统在数据稀缺条件下的性能，而无需依赖额外的数据。首先，我们优化了Transformer的超参数——如前馈网络维度、注意力头数量和dropout率——在低资源语言对中取得了显著的改进。接着，我们考察了字节对编码（BPE）作为预处理步骤，证明其在处理语言学相似的语言中的稀有词方面有效，但在处理某些词汇表外（OOV）词汇时存在局限性。为了提高模型的泛化能力，我们引入了联合Dropout（JD）这一数据驱动的方法，灵感来源于基于短语的机器翻译，该方法通过将等价的短语对替换为联合变量来增强模型对输入变动的鲁棒性。此外，我们提出了熵与距离正则化注意力（EaDRA），通过精细调整注意力机制，使其能够聚焦于关键输入元素，从而模拟高资源模型中发现的注意力模式。这些方法共同推动了低资源NMT的实用性进展，解决了与数据稀缺、OOV词汇和注意力机制相关的挑战。本研究有助于弥合高资源与低资源机器翻译之间的差距，并支持更具可访问性的语言技术的开发。https://hdl.handle.net/11245.1/11eef33b-50f9-4b8c-a64c-d563fbd24b07

成为VIP会员查看完整内容

13

相关内容

博士论文

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下，选择自己能够把握和驾驭的潜在的研究方向，开辟新的研究领域。由此可见，这就对作者提出了较高要求，它要求作者必须在本学科的专业领域具备大量的理论知识，并对所学专业的理论知识有相当深入的理解和思考，同时还要具有相当水平的独立科学研究能力，能够为在学科领域提出独创性的见解和有价值的科研成果。因而，较之学士论文、硕士论文，博士论文具有更高的学术价值，对学科的发展具有重要的推动作用。

【博士论文】理解特征学习中的训练与适应：从两层网络到基础模型

【博士论文】理解特征学习中的训练与适应：从两层网络到基础模型

专知会员服务

24+阅读 · 1月10日

【伯克利博士论文】在大规模语言模型时代构建自主系统

【伯克利博士论文】在大规模语言模型时代构建自主系统

专知会员服务

38+阅读 · 2024年12月28日

【CMU博士论文】适应结构与利用结构进行适应：探索现代深度学习成功的原因

【CMU博士论文】适应结构与利用结构进行适应：探索现代深度学习成功的原因

专知会员服务

26+阅读 · 2024年12月2日

【NTU博士论文】改进图结构数据上的表示学习用于分类、生成和推荐

【NTU博士论文】改进图结构数据上的表示学习用于分类、生成和推荐

专知会员服务

22+阅读 · 2024年9月30日

【伯克利博士论文】大型语言模型:迈向能够学习和发现一切的机器

【伯克利博士论文】大型语言模型:迈向能够学习和发现一切的机器

专知会员服务

42+阅读 · 2024年9月8日

【MIT博士论文】物理启发的生成式模型

【MIT博士论文】物理启发的生成式模型

专知会员服务

31+阅读 · 2024年9月6日

【牛津大学博士论文】生成建模：解决模型错误指定和差分隐私中的开放问题

【牛津大学博士论文】生成建模：解决模型错误指定和差分隐私中的开放问题

专知会员服务

24+阅读 · 2024年8月17日

【牛津大学博士论文】深度主动学习与数据子集选择的进展：信息论直觉下的统一原则

【牛津大学博士论文】深度主动学习与数据子集选择的进展：信息论直觉下的统一原则

专知会员服务

43+阅读 · 2024年3月20日

【哈佛大学博士论文】构建深度学习的理论基础:一种实证方法

【哈佛大学博士论文】构建深度学习的理论基础:一种实证方法

专知会员服务

47+阅读 · 2022年11月28日

【伯克利Kourosh博士论文】用于设计优化与控制的预训练智能体

【伯克利Kourosh博士论文】用于设计优化与控制的预训练智能体

专知会员服务

21+阅读 · 2022年5月7日

论文推荐丨[ICML2020]用于图像到标记符号生成的树状结构解码器

论文推荐丨[ICML2020]用于图像到标记符号生成的树状结构解码器

专知

62+阅读 · 2020年7月31日

论文推荐|[CVPR 2020]增广学习：面向文本行识别的网络优化协同数据增广方法

论文推荐|[CVPR 2020]增广学习：面向文本行识别的网络优化协同数据增广方法

专知

22+阅读 · 2020年4月9日

【华为诺亚新论文】基于图上下文知识融入的预训练语言模型

【华为诺亚新论文】基于图上下文知识融入的预训练语言模型

专知

23+阅读 · 2019年12月8日

论文浅尝 | 采用多层注意力机制的事件检测

论文浅尝 | 采用多层注意力机制的事件检测

开放知识图谱

23+阅读 · 2019年8月24日

【综述】多语言神经机器翻译最新综述，附全文下载

【综述】多语言神经机器翻译最新综述，附全文下载

专知

32+阅读 · 2019年5月15日

医疗机器学习综述，谷歌Jeff Dean等最新论文【附12页论文下载】

医疗机器学习综述，谷歌Jeff Dean等最新论文【附12页论文下载】

专知

15+阅读 · 2019年4月6日

【机器学习】深入剖析机器学习中的统计思想

【机器学习】深入剖析机器学习中的统计思想

产业智能官

16+阅读 · 2019年1月24日

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

专知

15+阅读 · 2018年6月11日

【论文读书笔记】个性化序列推荐：卷积序列嵌入方法

【论文读书笔记】个性化序列推荐：卷积序列嵌入方法

专知

17+阅读 · 2018年2月8日

【干货】结合单阶段和两阶段目标检测的优势：基于单次精化神经网络的目标检测方法

【干货】结合单阶段和两阶段目标检测的优势：基于单次精化神经网络的目标检测方法

专知

12+阅读 · 2018年1月12日

基于工业大数据挖掘的复杂产品总完工时间动态预测

国家自然科学基金

4+阅读 · 2015年12月31日

推荐系统的信息核挖掘及其应用研究

国家自然科学基金

7+阅读 · 2015年12月31日

面向类人机器人动作规划的参数最优控制技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于高效蒙特卡罗策略的最优化方法及应用研究

国家自然科学基金

8+阅读 · 2015年12月31日

基于压缩感知的信号重建快速算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

云计算下的加密域多媒体水印与模式匹配

国家自然科学基金

1+阅读 · 2015年12月31日

混合分布模型中序性质和维修策略的一些研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向多源大数据的鲁棒聚类模型与算法研究

国家自然科学基金

6+阅读 · 2015年12月31日

机制转化下的最优停时问题研究---以金融中投资决策分析为例

国家自然科学基金

1+阅读 · 2014年12月31日

面向现代防御系统的多无人机协同优化与决策

国家自然科学基金

16+阅读 · 2012年12月31日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

165+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

37+阅读 · 2023年4月19日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

199+阅读 · 2023年4月7日

A Survey on Graph Diffusion Models: Generative AI in Science for Molecule, Protein and Material

Arxiv

78+阅读 · 2023年4月4日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

438+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

137+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

75+阅读 · 2023年3月26日

Knowledge Graphs: Opportunities and Challenges

Arxiv

157+阅读 · 2023年3月24日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

46+阅读 · 2023年3月22日

Data-centric Artificial Intelligence: A Survey

Arxiv

22+阅读 · 2023年3月17日

VIP会员

相关主题

低资源机器翻译

相关VIP内容

【博士论文】理解特征学习中的训练与适应：从两层网络到基础模型

【博士论文】理解特征学习中的训练与适应：从两层网络到基础模型

专知会员服务

24+阅读 · 1月10日

【伯克利博士论文】在大规模语言模型时代构建自主系统

【伯克利博士论文】在大规模语言模型时代构建自主系统

专知会员服务

38+阅读 · 2024年12月28日

【CMU博士论文】适应结构与利用结构进行适应：探索现代深度学习成功的原因

【CMU博士论文】适应结构与利用结构进行适应：探索现代深度学习成功的原因

专知会员服务

26+阅读 · 2024年12月2日

【NTU博士论文】改进图结构数据上的表示学习用于分类、生成和推荐

【NTU博士论文】改进图结构数据上的表示学习用于分类、生成和推荐

专知会员服务

22+阅读 · 2024年9月30日

【伯克利博士论文】大型语言模型:迈向能够学习和发现一切的机器

【伯克利博士论文】大型语言模型:迈向能够学习和发现一切的机器

专知会员服务

42+阅读 · 2024年9月8日

【MIT博士论文】物理启发的生成式模型

【MIT博士论文】物理启发的生成式模型

专知会员服务

31+阅读 · 2024年9月6日

【牛津大学博士论文】生成建模：解决模型错误指定和差分隐私中的开放问题

【牛津大学博士论文】生成建模：解决模型错误指定和差分隐私中的开放问题

专知会员服务

24+阅读 · 2024年8月17日

【牛津大学博士论文】深度主动学习与数据子集选择的进展：信息论直觉下的统一原则

【牛津大学博士论文】深度主动学习与数据子集选择的进展：信息论直觉下的统一原则

专知会员服务

43+阅读 · 2024年3月20日

【哈佛大学博士论文】构建深度学习的理论基础:一种实证方法

【哈佛大学博士论文】构建深度学习的理论基础:一种实证方法

专知会员服务

47+阅读 · 2022年11月28日

【伯克利Kourosh博士论文】用于设计优化与控制的预训练智能体

【伯克利Kourosh博士论文】用于设计优化与控制的预训练智能体

专知会员服务

21+阅读 · 2022年5月7日

热门VIP内容

开通专知VIP会员享更多权益服务

俄乌战场上的AI无人机争夺战

《印度陆军迫切需要技术预备役人员》最新39页报告

《空中机器人群和联合全域指挥与控制》32页报告

《士兵认知负荷测量》最新136页报告

相关资讯

论文推荐丨[ICML2020]用于图像到标记符号生成的树状结构解码器

论文推荐丨[ICML2020]用于图像到标记符号生成的树状结构解码器

专知

62+阅读 · 2020年7月31日

论文推荐|[CVPR 2020]增广学习：面向文本行识别的网络优化协同数据增广方法

论文推荐|[CVPR 2020]增广学习：面向文本行识别的网络优化协同数据增广方法

专知

22+阅读 · 2020年4月9日

【华为诺亚新论文】基于图上下文知识融入的预训练语言模型

【华为诺亚新论文】基于图上下文知识融入的预训练语言模型

专知

23+阅读 · 2019年12月8日

论文浅尝 | 采用多层注意力机制的事件检测

论文浅尝 | 采用多层注意力机制的事件检测

开放知识图谱

23+阅读 · 2019年8月24日

【综述】多语言神经机器翻译最新综述，附全文下载

【综述】多语言神经机器翻译最新综述，附全文下载

专知

32+阅读 · 2019年5月15日

医疗机器学习综述，谷歌Jeff Dean等最新论文【附12页论文下载】

医疗机器学习综述，谷歌Jeff Dean等最新论文【附12页论文下载】

专知

15+阅读 · 2019年4月6日

【机器学习】深入剖析机器学习中的统计思想

【机器学习】深入剖析机器学习中的统计思想

产业智能官

16+阅读 · 2019年1月24日

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

专知

15+阅读 · 2018年6月11日

【论文读书笔记】个性化序列推荐：卷积序列嵌入方法

【论文读书笔记】个性化序列推荐：卷积序列嵌入方法

专知

17+阅读 · 2018年2月8日

【干货】结合单阶段和两阶段目标检测的优势：基于单次精化神经网络的目标检测方法

【干货】结合单阶段和两阶段目标检测的优势：基于单次精化神经网络的目标检测方法

专知

12+阅读 · 2018年1月12日

相关基金

基于工业大数据挖掘的复杂产品总完工时间动态预测

国家自然科学基金

4+阅读 · 2015年12月31日

推荐系统的信息核挖掘及其应用研究

国家自然科学基金

7+阅读 · 2015年12月31日

面向类人机器人动作规划的参数最优控制技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于高效蒙特卡罗策略的最优化方法及应用研究

国家自然科学基金

8+阅读 · 2015年12月31日

基于压缩感知的信号重建快速算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

云计算下的加密域多媒体水印与模式匹配

国家自然科学基金

1+阅读 · 2015年12月31日

混合分布模型中序性质和维修策略的一些研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向多源大数据的鲁棒聚类模型与算法研究

国家自然科学基金

6+阅读 · 2015年12月31日

机制转化下的最优停时问题研究---以金融中投资决策分析为例

国家自然科学基金

1+阅读 · 2014年12月31日

面向现代防御系统的多无人机协同优化与决策

国家自然科学基金

16+阅读 · 2012年12月31日

相关论文

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

165+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

37+阅读 · 2023年4月19日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

199+阅读 · 2023年4月7日

A Survey on Graph Diffusion Models: Generative AI in Science for Molecule, Protein and Material

Arxiv

78+阅读 · 2023年4月4日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

438+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

137+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

75+阅读 · 2023年3月26日

Knowledge Graphs: Opportunities and Challenges

Arxiv

157+阅读 · 2023年3月24日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

46+阅读 · 2023年3月22日

Data-centric Artificial Intelligence: A Survey

Arxiv

22+阅读 · 2023年3月17日

微信扫码咨询专知VIP会员