“读”完34版圣经后,翻译AI终于学会了转换文风 | R Soc Open Sci 论文推荐

2018 年 11 月 10 日 科研圈

如今机器翻译基本能够自如应对不同的语言,在文风转换方面却进步缓慢,这主要是因为缺乏合适的语料库。而达特茅斯研究人员发现,用圣经训练机器或许是个好办法。


来源:Pixabay


编译:阿金

审校:戚译引


一本古老的神圣书籍给研究人员带来了新的启示。上月,来自美国达特茅斯学院(Dartmouth College)的研究人员在《皇家社会开放科学》(Royal Society Open Science)发表论文,介绍他们如何用圣经来训练机器执行文风转换任务,从而对不同人群输出不同语言风格的文本。创建并行数据集来训练机器翻译本身并不新鲜,但这是研究人员第一次将宗教典籍运用到这类研究中。


近几年来,随着机器学习技术的不断提升,计算机越来越精于翻译之道,当然目前它还无法与人类的翻译能力相提并论。人类能够捕捉到语言中的细微差别,根据不同的受众,将文本翻译或转述成不同的效果,顺畅地交流思想。


英语专业的学生肯定熟悉一种练习:文风转换(style transfer),或者说文风改述(stylistic paraphrasing ),即不改变句意,用不同的词语重新改写句子。对于给定的同一段信息,即使用同一种语言描写,也都存在不同的语句表达方式,比如“吃了么您哪”和“您吃过饭了吗”。我们可以使用不同的“文风”来传递本质上完全相同的信息,所以对于写下的每一句话,我们考虑的不仅仅是其中的语义内容,还有表达方式或语言风格。不同的用词可以表达不同的礼貌程度、与读者的熟悉程度,同时也展现作者的文化背景,从而让某一类读者更容易接受文章内容。



来源:Pixabay


如今的网络翻译工具能够在不同语言之间自由切换,但是能够进行文风转换的工具研发却进展缓慢。这个问题明显与自然语言生成系统的创建密切相关。只有当输出的语言能够被特定的受众理解并接受,翻译、改述、总结和其他方式生成的语言才变得有意义。这就要求研究人员在所生成的语言中着重强调语言风格的简易、正式程度以及其他风格特征。这些系统往往要求并行数据来训练及测试其结果,然而,并行文风转换的语料库资源供不应求。虽然近期有少数研究使用莎士比亚戏剧文本来进行训练,但是由于这类研究需要庞大而优质的数据,研究人员仍举步维艰。


不过,达特茅斯大学的研究团队在一个意想不到的地方找到了丰富的宝贵语料库,那就是圣经。凯斯·卡尔松(Keith Carlson)是该论文的通讯作者,同时也是达特茅斯学院的在读博士,他介绍:“英文版的圣经历经多次翻译,被转换成不同的书写风格,因此成为了研究文风转换的资源宝库。”每版圣经包含超过 31000 条经文,研究人员利用这些经文为机器学习训练数据集创建了 1500 多万条独特成对的源经文和目标经文。经过上千万条不同版本经文的“洗礼”,研究人员期望算法最终能够针对不同的受众,成功将文本转换成不同风格。


研究团队还收获了一个额外福利:感谢经书卷、章、节数字的一贯的使用规范,圣经已经有了完整的索引编号。由此一来,研究人员可以将不同版本之间的文本有序组织起来,让不同版本的文段一一对应,而不必担心自动配对方法可能引起的对齐错误风险。参与本项研究的达特茅斯学院的计算机学教授丹尼尔·洛克莫尔(Daniel Rockmore)评价说:“圣经是完成我们研究任务的‘神圣’数据库。数世纪以来,人们不断地组织和编排圣经文本,所以我们不用担心不那么可靠的对齐算法了。”


研究人员使用了 34 种风格迥异的圣经版本,其语言的复杂程度各不相同,有古雅的“英王钦定本”(King James Version),也有对读者词汇量要求很低的“基础英语版本”(Bible in Basic English)。这些文本被输入到两种算法中,分别是统计机器翻译系统“Moses”和神经网络机器翻译系统“Seq2Seq”。


通过利用不同的圣经版本来训练程序,系统最终将能够把任何文本转换成适合不同受众的文风。“文本简化只是风格转换的一种特殊类型,而我们系统的目标是生成跟原文意思完全一致的文本,但是用不同的词语来表述。”卡尔松总结道。比如说,也许有一天机器可以选取《白鲸记》的一段,将其“翻译”成符合年轻读者口味的语言风格,或者非英语母语读者,抑或是其他任何群体。


达特茅斯学院在计算机科学方面有着光荣的创新历史。“人工智能”这个词汇就是 1956 年在达特茅斯举办的一次学术会议上第一次提出的,那届会议还创造了人工智能研究学科。其他的创新发明还包括 BAISC——第一代初学者通用指令编程语言,以及为现代操作系统贡献极大的达特茅斯时间共享系统。




论文信息


【标题】Evaluating prose style transfer with the Bible

【作者】Keith Carlson, Allen Riddell, Daniel Rockmore

【期刊】Royal Society Open Science

【时间】2018/10/27

【DOI】10.1098/rsos.171920

【链接】http://rsos.royalsocietypublishing.org/content/royopensci/5/10/171920.full.pdf 

【摘要】In the prose style transfer task a system, provided with text input and a target prose style, produces output which preserves the meaning of the input text but alters the style. These systems require parallel data for evaluation of results and usually make use of parallel data for training. Currently, there are few publicly available corpora for this task. In this work, we identify a high-quality source of aligned, stylistically distinct text in different versions of the Bible. We provide a standardized split, into training, development and testing data, of the public domain versions in our corpus. This corpus is highly parallel since many Bible versions are included. Sentences are aligned due to the presence of chapter and verse numbers within all versions of the text. In addition to the corpus, we present the results, as measured by the BLEU and PINC metrics, of several models trained on our data which can serve as baselines for future research. While we present these data as a style transfer corpus, we believe that it is of unmatched quality and may be useful for other natural language tasks as well.



本文来自微信公众号“科研圈”。如需转载,请在“科研圈”后台回复“转载”,或通过公众号菜单与我们取得联系。

科研圈

ID: keyanquan

点击关注,获取最新动态




参考来源:

https://www.sciencedaily.com/releases/2018/10/181024083353.htm

https://www.upi.com/Science_News/2018/10/24/Bible-helps-scientists-develop-more-sophisticated-translation-algorithm/7691540406176/

http://rsos.royalsocietypublishing.org/content/royopensci/5/10/171920.full.pdf




阅读论文解读及推荐

点击👉关注领研网论文频道


▽ 精彩回顾 ▽


登录查看更多
0

相关内容

达特茅斯学院(Dartmouth College)成立于1769年,是美国第九所历史最悠久的学院,也是闻名遐迩的常春藤学院之一,坐落于新罕布什尔州的汉诺威(Hanover)小镇。该校直到1972年才改为男女合校,是常春藤学院中最晚接纳女生的一个。尽管如此,该学院却是男孩教育最成功的学院之一,至今仍有2/3的学生是男生。
【ACL2020-Allen AI】预训练语言模型中的无监督域聚类
专知会员服务
23+阅读 · 2020年4月7日
算法与数据结构Python,369页pdf
专知会员服务
162+阅读 · 2020年3月4日
学习一个宫崎骏画风的图像风格转换GAN
AI科技评论
18+阅读 · 2020年3月13日
【学界】英伟达又火了一篇图像转换论文,我们竟然用来吸猫
GAN生成式对抗网络
3+阅读 · 2019年5月10日
2019年最新-深度学习、生成对抗、Pytorch优秀教材推荐
深度学习与NLP
42+阅读 · 2019年4月18日
论文推荐 | 生成对抗网络GAN论文TOP 10
机器学习算法与Python学习
5+阅读 · 2019年3月20日
Nature 一周论文导读 | 2019 年 2 月 21 日
科研圈
14+阅读 · 2019年3月3日
谷歌NeurIPS 2018:全新NLP工具炼成会改变文风的AI
未来产业促进会
3+阅读 · 2018年12月11日
【学界】实景照片秒变新海诚风格漫画:清华大学提出CartoonGAN
GAN生成式对抗网络
14+阅读 · 2018年6月20日
软件工程师如何转型人工智能?
机器学习算法与Python学习
6+阅读 · 2018年4月26日
羞羞的AI,如何改变色情产业?
虎嗅网
9+阅读 · 2017年11月24日
VrR-VG: Refocusing Visually-Relevant Relationships
Arxiv
6+阅读 · 2019年8月26日
Arxiv
5+阅读 · 2018年10月11日
Paraphrase Generation with Deep Reinforcement Learning
Arxiv
5+阅读 · 2018年6月4日
Arxiv
8+阅读 · 2018年5月1日
Arxiv
3+阅读 · 2018年3月28日
VIP会员
相关VIP内容
【ACL2020-Allen AI】预训练语言模型中的无监督域聚类
专知会员服务
23+阅读 · 2020年4月7日
算法与数据结构Python,369页pdf
专知会员服务
162+阅读 · 2020年3月4日
相关资讯
学习一个宫崎骏画风的图像风格转换GAN
AI科技评论
18+阅读 · 2020年3月13日
【学界】英伟达又火了一篇图像转换论文,我们竟然用来吸猫
GAN生成式对抗网络
3+阅读 · 2019年5月10日
2019年最新-深度学习、生成对抗、Pytorch优秀教材推荐
深度学习与NLP
42+阅读 · 2019年4月18日
论文推荐 | 生成对抗网络GAN论文TOP 10
机器学习算法与Python学习
5+阅读 · 2019年3月20日
Nature 一周论文导读 | 2019 年 2 月 21 日
科研圈
14+阅读 · 2019年3月3日
谷歌NeurIPS 2018:全新NLP工具炼成会改变文风的AI
未来产业促进会
3+阅读 · 2018年12月11日
【学界】实景照片秒变新海诚风格漫画:清华大学提出CartoonGAN
GAN生成式对抗网络
14+阅读 · 2018年6月20日
软件工程师如何转型人工智能?
机器学习算法与Python学习
6+阅读 · 2018年4月26日
羞羞的AI,如何改变色情产业?
虎嗅网
9+阅读 · 2017年11月24日
Top
微信扫码咨询专知VIP会员