5亿个句子,188种语言,Jörg Tiedemann 发布的数据集让非洲语言也能「机翻」!

2021 年 3 月 24 日 新智元



  新智元报道  

来源:Reddit
编辑:PY,LRS
【新智元导读】赫尔辛基大学语言技术教授 Jörg Tiedemann 发布了一个数据集,其中包括超5亿个句子,被翻译成188种语言。

孩童时候,看哆啦A梦印象比较深的一集就是「翻译年糕」,那时候就希望自己能吃一块能读懂各种外语,次次考满分......如今来看,实现这个「小目标」有希望了!


赫尔辛基大学语言技术教授Jörg Tiedemann于2021年3月3号宣布,他已经发布了188种语言的5亿多个翻译句子。

这是一个自动翻译数据集,可用于数据增强翻译。
 

机器翻译(MT)属于计算机语言的范畴,其研究借由计算机程序将文字或演说从一种自然语言翻译成另一种自然语言。
  
研究机器翻译的研究人员经常依靠反向翻译来增加训练数据。
 
反向翻译是指,给定源语言句子x,目标语言句子y, 用训练好的目标语言到源语言的翻译模型得到伪句对(x’, y),加入到平行句对中一起训练。

这种训练方式也能起到去噪的作用,即不完美的机翻模型的输出包含了噪声。

在有噪声的情况下,训练(x', y)和(x, y)的翻译模型如果都能得到y的输出,则提升了泛化性能。
 
当更多的单语目标语言数据被翻译成源语言时,反向翻译使得深度学习系统 CUBITT 能够“超越人工翻译”。

反向翻译的有用性取决于目标语言数据的广泛可获得性,这对于使用人数少的小语种来说比较麻烦。
 
反向翻译对于检测机器翻译内容的方法也很关键,尤其是现在初创公司将人工智能驱动的「文本生成」技术逐渐商业化


 

目前,Tiedemann的论文和数据集已经发布在了GitHub上。


这并不是Tiedemann第一次试图通过MT为各种语言创造一个「地球村」。自2018年以来,Masakhane项目一直在专门针对NLP中代表不足的非洲语言收集语言数据并微调语言模型。

这个语言模型取得了不错的效果,这位德国在读博士就对这个模型给予了肯定。


Tatoeba 是一个庞大的句子和翻译数据库。Tatoeba 提供了一个工具,可以让你看到你所需要的单词在句子上下文中是如何使用的。

在2020年10月关于Tatoeba翻译挑战的相关论文中,Tiedemann写道,“我们的主要目标是促进开放翻译工具和模型的开发,从而更广泛地覆盖世界各种语言。”
 
有多宽泛?训练和测试数据涵盖500种语言和语言变体,以及大约3000种语言对。忍不住唱一句「你看这个数据集它又大又宽」。
 
根据 Tiedemann 的说法,还有很多工作要做。他在推特上写道: “无论如何,这不会是我将要发布的最后一套翻译版本”。“很快还会有更多语言从英语转向其它语言... ...”


参考资料:
https://www.reddit.com/r/programming/comments/mao82o/university_of_helsinki_language_technology/


登录查看更多
0

相关内容

数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。
Data set(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。
专知会员服务
42+阅读 · 2021年4月23日
最新《知识驱动的文本生成》综述论文,44页pdf
专知会员服务
76+阅读 · 2020年10月13日
【清华大学】低资源语言:回顾综述和未来的挑战,14页pdf
【哈工大】基于抽取的高考作文生成
专知会员服务
36+阅读 · 2020年3月10日
CMU发布新型“翻译机”,通过JL2P将文字翻译成肢体运动
对话黄学东:语音语言技术是镶在 AI 皇冠上的明珠
微软研究院AI头条
7+阅读 · 2019年5月17日
2018年自然语言取得不错的研究有哪些?
人工智能前沿讲习班
4+阅读 · 2019年2月22日
不只有BERT!盘点2018年NLP令人激动的10大想法
量子位
3+阅读 · 2018年12月22日
让翻译人员恐慌的机器翻译系统(附试用地址)
THU数据派
4+阅读 · 2018年3月14日
没有数据也能翻译?一文读懂「无监督」机器翻译
人工智能学家
3+阅读 · 2018年1月7日
Natural 自然语言处理(NLP)「全解析」
人工智能学家
14+阅读 · 2017年9月23日
Arxiv
0+阅读 · 2021年6月21日
Arxiv
0+阅读 · 2021年6月18日
Arxiv
9+阅读 · 2018年10月24日
VIP会员
相关资讯
CMU发布新型“翻译机”,通过JL2P将文字翻译成肢体运动
对话黄学东:语音语言技术是镶在 AI 皇冠上的明珠
微软研究院AI头条
7+阅读 · 2019年5月17日
2018年自然语言取得不错的研究有哪些?
人工智能前沿讲习班
4+阅读 · 2019年2月22日
不只有BERT!盘点2018年NLP令人激动的10大想法
量子位
3+阅读 · 2018年12月22日
让翻译人员恐慌的机器翻译系统(附试用地址)
THU数据派
4+阅读 · 2018年3月14日
没有数据也能翻译?一文读懂「无监督」机器翻译
人工智能学家
3+阅读 · 2018年1月7日
Natural 自然语言处理(NLP)「全解析」
人工智能学家
14+阅读 · 2017年9月23日
Top
微信扫码咨询专知VIP会员