Nature最新封面:DeepMind AI “再下一城”,追寻人类古老文字

2022 年 3 月 10 日 大数据文摘

大数据文摘授权转载自学术头条
撰文:杨逍

不可否认的是,人工智能(AI)正在加速全行业变革。

小到生活中常见的人脸识别、语音助手,大到基础科学领域的蛋白质结构预测、核聚变控制等,如今的人工智能应用,已经遍地开花。

而这一次,它又瞄向了记载历史的碑文。

今天,来自 DeepMind、威尼斯大学、哈佛大学的联合研究团队及其合作者,提出了一种可以复原、定位、定年古希腊铭文的深度神经网络——Ithaca(以荷马史诗《奥德赛》中的希腊岛屿命名)。

相关研究论文以“Restoring and attributing ancient texts using deep neural networks”为题,以封面文章形式发表在权威科学期刊 Nature 上。


研究结果显示,当 Ithaca 单独被用于复原受损铭文时,准确率可以达到 62%,而参与此次研究的历史学家,单独预测准确率仅为 25%;而当 Ithaca 与历史学家“合作”后,这一数字可以提升到 72%。

而且,Ithaca 还能以 71% 的准确度判断这些铭文的原始位置,鉴定年代与历史学家提出的范围也相差少于 30 年。

在论文的最后,研究人员表示,研究方法适用于手稿学、钱币学和纸草学等所有与古代文本相关的学科,也适用于古代、现代的任何语言。

这一研究成果,或将释放人工智能与历史学家的合作潜力,提升我们对人类历史的理解。

挖掘遗失的历史

从狭义上讲,人类文字的诞生,标志着历史的开端。

原始文字是人类用来纪录特定事物、简化图像而成的书写符号,对人类理解过去人类文明和当前世界至关重要。

早期文字以图画形式存在,有些是以形表意,有些是以形表音。

象形文字就属于以形表意的范畴,与语音关系不大,汉字便由从象形文字渐次演变而成。

图|不同象形文字的演化(来源:维基百科)

而古埃及文、罗马文字和拉丁文字等以形表音的图画文字,也在漫长的人类历史中,逐渐演化成语音符号,即外文字母。

不同的外文字母可以组合成不同的外国文字。

图|不同语言文字的字体与样式(来源:维基百科)

因此,要想更好地探究古代文明史,研究古人直接书写在石头、陶器或金属等材料上并留存至今的铭文,是一种通用且有效的研究手段。

例如,早在 2500 多年前,古希腊人便开始在石头、陶器和金属上记录从租约、法律到日历、预言的一切。正是这些史料,让历史学家们对地中海地区有了详细的了解。

但不幸的是,这一记录并不完整。几个世纪以来,众多幸存下来的铭文也陆续遭到破坏,从原来的位置被移走,或被贩运。

而且,由于各种外部原因,这些文本难以辨认,书写时间也不确定。

尽管当前历史学家们可以借助现有方法重建出缺失的文本,但目前的年代测定技术(如放射性碳年代测定法)却无法在这些材料上使用。

基于以上原因,这些铭文解读起来,既困难又费时。

历史学家的 AI 助手

如何解决上述问题? 如今,AI 做得或许要更好一些。

当前,自然语言处理(NLP)模型通常会使用大量单词来进行训练,因为这些单词在句子中出现的顺序与它们之间的关系可以提供额外的含义。比如,“once upon a time” 一起出现,就比单个字符或单词更有含义。

在此次研究中,Ithaca 是基于帕卡德人文学院(Packard Humanities Institute)提供的最大希腊碑文数字数据集训练的。

为确保 Ithaca 模型在使用缺失字符时仍能正常进行训练,研究人员同时将单词和单个字符作为输入,模型核心的稀疏自我注意机制并行地评估这两个输入,允许 Ithaca 根据需要评估铭文。

结果表明,Ithaca 的设计决策和可视化辅助可以帮助历史学家更容易地复原铭文,强大的人机合作潜力,有助于更好地还原历史真相,甚至帮助解决一些争议性问题。

例如,历史学家们对雅典颁布的一系列重要法令的日期存在分歧,这些法令是在苏格拉底和伯里克利等著名人物在世时期颁布的,被认为是在公元前 446/5 年之前书写的。而 Ithaca 与历史学家一起,将这一日期更新到了公元前 424/3 年。

图|碑文记录了迦尔西斯城对雅典的效忠誓言。(来源:卫城博物馆)

放眼历史长河,尽管这两个数字看起来差别不大,但这些法令对当前人类理解古雅典的政治史是至关重要的。

此外,历史学家们也与 Ithaca 一起,重新复原了希腊历史上一次关于雅典卫城的法令。

图|修复后的铭文记录了一项关于公元前 485/4 年雅典卫城的法令。

Ithaca 的架构侧重于协作、决策支持和可解释性。尽管单独使用 Ithaca 修复受损铭文的准确率只有 62%,但当与历史学家们协同工作时,可以将人类的准确率从 25% 提高到 72%。

这一变化证明,Ithaca 具有强大的协同效应。

“学者们不会被取代,相反,Ithaca 就像一只猎犬,会为学者寻找线索,但不做最后的决定。”英国伦敦国王学院(King's College London)荣誉退休教授 Charlotte Roueché 在评论文章中表示。

Roueché 认为,这一进步不应该被解读为对上百年传统的威胁,而应该是对传统的一种补充。人工智能不应该让学者变得多余,而应该是挑战他们对自认为已经知道的东西的理解。

原文链接:
https://www.nature.com/articles/s41586-022-04448-z

https://en.wikipedia.org/wiki/Writing_system

点「在看」的人都变好看了哦!
登录查看更多
0

相关内容

【Nature. Mach. Intell. 】图神经网络论文汇集
专知会员服务
47+阅读 · 2022年3月26日
6G物理层AI关键技术白皮书(2022)
专知会员服务
43+阅读 · 2022年3月21日
MIT设计深度学习框架登Nature封面,预测非编码区DNA突变
专知会员服务
15+阅读 · 2022年3月18日
Nature论文: DeepMind用AI引导直觉解决数学猜想难题
专知会员服务
30+阅读 · 2021年12月2日
专知会员服务
129+阅读 · 2021年6月18日
【斯坦福经典书最新版】语音语言处理,653页pdf
专知会员服务
52+阅读 · 2021年1月1日
【ACL2020-Facebook AI】大规模无监督跨语言表示学习
专知会员服务
34+阅读 · 2020年4月5日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
30+阅读 · 2021年7月7日
Arxiv
11+阅读 · 2018年7月31日
VIP会员
相关VIP内容
【Nature. Mach. Intell. 】图神经网络论文汇集
专知会员服务
47+阅读 · 2022年3月26日
6G物理层AI关键技术白皮书(2022)
专知会员服务
43+阅读 · 2022年3月21日
MIT设计深度学习框架登Nature封面,预测非编码区DNA突变
专知会员服务
15+阅读 · 2022年3月18日
Nature论文: DeepMind用AI引导直觉解决数学猜想难题
专知会员服务
30+阅读 · 2021年12月2日
专知会员服务
129+阅读 · 2021年6月18日
【斯坦福经典书最新版】语音语言处理,653页pdf
专知会员服务
52+阅读 · 2021年1月1日
【ACL2020-Facebook AI】大规模无监督跨语言表示学习
专知会员服务
34+阅读 · 2020年4月5日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员