神经机器翻译(NMT)通过深度学习推动了机器翻译的进步,但其对大型平行数据集的依赖限制了其在低资源语言上的表现。本论文通过优化模型设计、数据处理和注意力机制,解决了这一问题,旨在提升NMT系统在数据稀缺条件下的性能,而无需依赖额外的数据。首先,我们优化了Transformer的超参数——如前馈网络维度、注意力头数量和dropout率——在低资源语言对中取得了显著的改进。接着,我们考察了字节对编码(BPE)作为预处理步骤,证明其在处理语言学相似的语言中的稀有词方面有效,但在处理某些词汇表外(OOV)词汇时存在局限性。为了提高模型的泛化能力,我们引入了联合Dropout(JD)这一数据驱动的方法,灵感来源于基于短语的机器翻译,该方法通过将等价的短语对替换为联合变量来增强模型对输入变动的鲁棒性。此外,我们提出了熵与距离正则化注意力(EaDRA),通过精细调整注意力机制,使其能够聚焦于关键输入元素,从而模拟高资源模型中发现的注意力模式。这些方法共同推动了低资源NMT的实用性进展,解决了与数据稀缺、OOV词汇和注意力机制相关的挑战。本研究有助于弥合高资源与低资源机器翻译之间的差距,并支持更具可访问性的语言技术的开发。https://hdl.handle.net/11245.1/11eef33b-50f9-4b8c-a64c-d563fbd24b07

成为VIP会员查看完整内容
11

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。
【MIT博士论文】物理启发的生成式模型
专知会员服务
21+阅读 · 9月6日
论文浅尝 | 采用多层注意力机制的事件检测
开放知识图谱
23+阅读 · 2019年8月24日
【机器学习】深入剖析机器学习中的统计思想
产业智能官
15+阅读 · 2019年1月24日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2012年12月31日
Arxiv
159+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
410+阅读 · 2023年3月31日
Arxiv
68+阅读 · 2023年3月26日
Arxiv
148+阅读 · 2023年3月24日
Arxiv
21+阅读 · 2023年3月17日
VIP会员
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2012年12月31日
微信扫码咨询专知VIP会员