成为VIP会员查看完整内容
VIP会员码认证
首页
主题
发现
会员
服务
注册
·
登录
0
5亿个句子,188种语言,Jörg Tiedemann 发布的数据集让非洲语言也能「机翻」!
2021 年 3 月 24 日
新智元
新智元报道
来源:Reddit
编辑:PY,LRS
【新智元导读】
赫尔辛基大学语言技术教授 Jörg Tiedemann 发布了一个数据集,其中包括超5亿个句子,被翻译成188种语言。
孩童时候,看哆啦A梦印象比较深的一集就是「翻译年糕」,那时候就希望自己能吃一块能读懂各种外语,次次考满分......如今来看,实现这个「小目标」有希望了!
赫尔辛基大学语言技术教授Jörg Tiedemann于2021年3月3号宣布,他已经发布了188种语言的5亿多个翻译句子。
这是一个自动翻译数据集,可用于数据增强翻译。
机器翻译(MT)属于计算机语言的范畴,其研究借由计算机程序将文字或演说从一种自然语言翻译成另一种自然语言。
研究机器翻译的研究人员经常依靠反向翻译来增加训练数据。
反向翻译是指,给定源语言句子x,目标语言句子y, 用训练好的目标语言到源语言的翻译模型得到伪句对(x’, y),加入到平行句对中一起训练。
这种训练方式也能起到去噪的作用,即不完美的机翻模型的输出包含了噪声。
在有噪声的情况下,训练(x', y)和(x, y)的翻译模型如果都能得到y的输出,则提升了泛化性能。
当更多的单语目标语言数据被翻译成源语言时,反向翻译使得深度学习系统 CUBITT 能够“超越人工翻译”。
反向翻译的有用性取决于目标语言数据的广泛可获得性,这对于使用人数少的小语种来说比较麻烦。
反向翻译对于检测机器翻译内容的方法也很关键,尤其是现在初创公司将人工智能驱动的「文本生成」技术逐渐商业化
。
目前,Tiedemann的论文和数据集已经发布在了GitHub上。
这并不是Tiedemann第一次试图通过MT为各种语言创造一个「地球村」。自2018年以来,Masakhane项目一直在专门针对NLP中代表不足的非洲语言收集语言数据并微调语言模型。
这个语言模型取得了不错的效果,这位德国在读博士就对这个模型给予了肯定。
Tatoeba 是一个庞大的句子和翻译数据库。Tatoeba 提供了一个工具,可以让你看到你所需要的单词在句子上下文中是如何使用的。
在2020年10月关于Tatoeba翻译挑战的相关论文中,Tiedemann写道,“我们的主要目标是促进开放翻译工具和模型的开发,从而更广泛地覆盖世界各种语言。”
有多宽泛?训练和测试数据涵盖500种语言和语言变体,以及大约3000种语言对。忍不住唱一句「你看这个数据集它又大又宽」。
根据 Tiedemann 的说法,还有很多工作要做。他在推特上写道: “无论如何,这不会是我将要发布的最后一套翻译版本”。“很快还会有更多语言从英语转向其它语言... ...”
参考资料:
https://www.reddit.com/r/programming/comments/mao82o/university_of_helsinki_language_technology/
登录查看更多
点赞并收藏
0
暂时没有读者
0
权益说明
本文档仅做收录索引使用,若发现您的权益受到侵害,请立即联系客服(微信: zhuanzhi02,邮箱:bd@zhuanzhi.ai),我们会尽快为您处理
相关内容
数据集
关注
86
数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。 Data set(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。
多样性文本生成任务的研究进展
专知会员服务
42+阅读 · 2021年4月23日
【EMNLP 2020】融合自训练和自监督方法的无监督文本顺滑研究
专知会员服务
23+阅读 · 2020年10月18日
最新《知识驱动的文本生成》综述论文,44页pdf
专知会员服务
76+阅读 · 2020年10月13日
【清华大学】低资源语言:回顾综述和未来的挑战,14页pdf
专知会员服务
36+阅读 · 2020年6月16日
TextCNN作者Kim哈佛大学杰出博士论文《自然语言的深度潜变量模型》,185页pdf,Kim将到MIT任助理教授
专知会员服务
71+阅读 · 2020年6月10日
【ACL2020-Google】BLEURT:一种基于迁移学习的自然语言生成度量
专知会员服务
19+阅读 · 2020年5月12日
【ICML2020投稿论文-CMU-DeepMind-Google】用于评估跨语言泛化的大规模多语言多任务基准
专知会员服务
13+阅读 · 2020年3月27日
【哈工大】基于抽取的高考作文生成
专知会员服务
36+阅读 · 2020年3月10日
慕尼黑大学LMU博士论文:自然语言文本神经网络信息提取,240页pdf
专知会员服务
73+阅读 · 2020年1月13日
【NAACL 2019 workshop】优化和评估神经语言生成方法 Methods for Optimizing and Evaluating Neural Language Generation,卡内基梅隆大学| Graham Neubig,纽约大学| He He
专知会员服务
3+阅读 · 2019年12月5日
CMU发布新型“翻译机”,通过JL2P将文字翻译成肢体运动
全球人工智能
3+阅读 · 2019年9月23日
Facebook 自然语言处理新突破:新模型能力赶超人类 & 超难 NLP 新基准
AI科技评论
10+阅读 · 2019年9月17日
对话黄学东:语音语言技术是镶在 AI 皇冠上的明珠
微软研究院AI头条
7+阅读 · 2019年5月17日
2018年自然语言取得不错的研究有哪些?
人工智能前沿讲习班
4+阅读 · 2019年2月22日
不只有BERT!盘点2018年NLP令人激动的10大想法
量子位
3+阅读 · 2018年12月22日
资源 | FAIR & NYU开发XNLI语料库:15种语言(含低资源语言)
机器之心
3+阅读 · 2018年11月12日
让翻译人员恐慌的机器翻译系统(附试用地址)
THU数据派
4+阅读 · 2018年3月14日
没有数据也能翻译?一文读懂「无监督」机器翻译
人工智能学家
3+阅读 · 2018年1月7日
DeepMind发布难度更大的机器阅读理解数据集NarrativeQA(附论文)
论智
3+阅读 · 2017年12月21日
Natural 自然语言处理(NLP)「全解析」
人工智能学家
14+阅读 · 2017年9月23日
FoldIt: Haustral Folds Detection and Segmentation in Colonoscopy Videos
Arxiv
0+阅读 · 2021年6月23日
Visualizing Missing Surfaces In Colonoscopy Videos using Shared Latent Space Representations
Arxiv
0+阅读 · 2021年6月23日
How well do you know your summarization datasets?
Arxiv
0+阅读 · 2021年6月21日
Debiased Subjective Assessment of Real-World Image Enhancement
Arxiv
0+阅读 · 2021年6月18日
Scalable Transformers for Neural Machine Translation
Arxiv
0+阅读 · 2021年6月18日
We Know What You Want: An Advertising Strategy Recommender System for Online Advertising
Arxiv
8+阅读 · 2021年6月8日
Multi-Head Attention with Disagreement Regularization
Arxiv
9+阅读 · 2018年10月24日
SuperDepth: Self-Supervised, Super-Resolved Monocular Depth Estimation
Arxiv
5+阅读 · 2018年10月3日
Incorporating Glosses into Neural Word Sense Disambiguation
Arxiv
4+阅读 · 2018年5月21日
Self-Attention with Relative Position Representations
Arxiv
14+阅读 · 2018年3月6日
VIP会员
自助开通(推荐)
客服开通
详情
相关主题
数据集
机器翻译
翻译模型
数据增强
噪声
CVPR 2022
相关VIP内容
多样性文本生成任务的研究进展
专知会员服务
42+阅读 · 2021年4月23日
【EMNLP 2020】融合自训练和自监督方法的无监督文本顺滑研究
专知会员服务
23+阅读 · 2020年10月18日
最新《知识驱动的文本生成》综述论文,44页pdf
专知会员服务
76+阅读 · 2020年10月13日
【清华大学】低资源语言:回顾综述和未来的挑战,14页pdf
专知会员服务
36+阅读 · 2020年6月16日
TextCNN作者Kim哈佛大学杰出博士论文《自然语言的深度潜变量模型》,185页pdf,Kim将到MIT任助理教授
专知会员服务
71+阅读 · 2020年6月10日
【ACL2020-Google】BLEURT:一种基于迁移学习的自然语言生成度量
专知会员服务
19+阅读 · 2020年5月12日
【ICML2020投稿论文-CMU-DeepMind-Google】用于评估跨语言泛化的大规模多语言多任务基准
专知会员服务
13+阅读 · 2020年3月27日
【哈工大】基于抽取的高考作文生成
专知会员服务
36+阅读 · 2020年3月10日
慕尼黑大学LMU博士论文:自然语言文本神经网络信息提取,240页pdf
专知会员服务
73+阅读 · 2020年1月13日
【NAACL 2019 workshop】优化和评估神经语言生成方法 Methods for Optimizing and Evaluating Neural Language Generation,卡内基梅隆大学| Graham Neubig,纽约大学| He He
专知会员服务
3+阅读 · 2019年12月5日
热门VIP内容
开通专知VIP会员 享更多权益服务
军用数据链:武器装备神经,联合作战基石,31页pdf
【ETHZ博士论文】超越像素深度:通过深度学习增强超分辨率技术,198页pdf
2018∼2023年国家自然科学基金人工智能学科人才项目申请及资助综述
【NeurIPS2024】《AmoebaLLM:构建任意形状的大型语言模型以实现高效和即时部署》
相关资讯
CMU发布新型“翻译机”,通过JL2P将文字翻译成肢体运动
全球人工智能
3+阅读 · 2019年9月23日
Facebook 自然语言处理新突破:新模型能力赶超人类 & 超难 NLP 新基准
AI科技评论
10+阅读 · 2019年9月17日
对话黄学东:语音语言技术是镶在 AI 皇冠上的明珠
微软研究院AI头条
7+阅读 · 2019年5月17日
2018年自然语言取得不错的研究有哪些?
人工智能前沿讲习班
4+阅读 · 2019年2月22日
不只有BERT!盘点2018年NLP令人激动的10大想法
量子位
3+阅读 · 2018年12月22日
资源 | FAIR & NYU开发XNLI语料库:15种语言(含低资源语言)
机器之心
3+阅读 · 2018年11月12日
让翻译人员恐慌的机器翻译系统(附试用地址)
THU数据派
4+阅读 · 2018年3月14日
没有数据也能翻译?一文读懂「无监督」机器翻译
人工智能学家
3+阅读 · 2018年1月7日
DeepMind发布难度更大的机器阅读理解数据集NarrativeQA(附论文)
论智
3+阅读 · 2017年12月21日
Natural 自然语言处理(NLP)「全解析」
人工智能学家
14+阅读 · 2017年9月23日
相关论文
FoldIt: Haustral Folds Detection and Segmentation in Colonoscopy Videos
Arxiv
0+阅读 · 2021年6月23日
Visualizing Missing Surfaces In Colonoscopy Videos using Shared Latent Space Representations
Arxiv
0+阅读 · 2021年6月23日
How well do you know your summarization datasets?
Arxiv
0+阅读 · 2021年6月21日
Debiased Subjective Assessment of Real-World Image Enhancement
Arxiv
0+阅读 · 2021年6月18日
Scalable Transformers for Neural Machine Translation
Arxiv
0+阅读 · 2021年6月18日
We Know What You Want: An Advertising Strategy Recommender System for Online Advertising
Arxiv
8+阅读 · 2021年6月8日
Multi-Head Attention with Disagreement Regularization
Arxiv
9+阅读 · 2018年10月24日
SuperDepth: Self-Supervised, Super-Resolved Monocular Depth Estimation
Arxiv
5+阅读 · 2018年10月3日
Incorporating Glosses into Neural Word Sense Disambiguation
Arxiv
4+阅读 · 2018年5月21日
Self-Attention with Relative Position Representations
Arxiv
14+阅读 · 2018年3月6日
大家都在搜
PRML
壁画
大型语言模型
ETHZ博士论文
时间序列
智能推荐
洛克菲勒
汽车智能化
无人艇
出海产品从 0 到 1 该怎么做
Top
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top