AI破解古文字登Nature封面：修复缺失文字，精确地理位置和书写时间，DeepMind&哈佛&谷歌多家联手开发

会员服务 ·

AI破解古文字登Nature封面：修复缺失文字，精确地理位置和书写时间，DeepMind&哈佛&谷歌多家联手开发

2022 年 3 月 10 日 量子位

博雯发自凹非寺
量子位 | 公众号 QbitAI

最新一期的Nature封面，AI再度来到舞台中央，这一次是在破译古文字方面立功了。

这是一种基于Transformer架构的方法，由DeepMind、谷歌、牛津大学等多家研究机构联合开发。

在单独修复受损文本时，这种方法能达到62%的准确率。

在实际应用中，历史学家单独破译某块古希腊石碑的准确率本来只有25%，但在使用这一方法后一举提升了近乎3倍，达到了72%。

不仅能修复文字，这一方法在地理归属的任务上也有71%的准确率，还能将古文字的书写日期精确到30年以内。

目前，这一方法已经引起了不小的讨论热度：

现在已经有可以在线解析古希腊文字的网页版，架构方法也已开源。

Transformer破译古文字

这是一个叫做Ithaca的架构，以荷马史诗《奥德赛》中的希腊岛屿命名。

Ithaca架构中的注意力机制能够通过串联输入的单个字符、完整单词的表征与顺序位置来了解输入文本的每一部分的位置，最终权衡不同的输入对模型决策过程的影响。

完整架构由多个Transformer块组成，每个Transformer块都输出一个经过处理的表征序列（Sequence of Processed Representations），其长度即输入字符的数量。

其输入随后被传递给三个分别负责文字修复、地理归属、时间归属的任务头，每个头都由一个前馈的神经网络组成，专门负责各自任务的训练。

在文字修复任务中，Ithaca会提供20个按概率排列的解析结果预测：

地理归属的确定上，则会依据古历史学中的84个区域中对输入文本进行分类，将可能的区域预测类别通过地图和柱状图展现：

日期归属任务同样也通过分布预测的柱状图来展示。

如下图所示，公元前300-250年的日期10年一组，被表示为5个概率相同的范围，而公元前305年的铭文将以100%的概率被分配到公元前300-310年的十年组：

历史学家的AI助手

研究人员分别将Ithaca与历史学家、同类AI方法Pythia、以及Ithaca与历史学家合作等不同破解古文字的方法做了对比。

字错率（CER）总是越低越好，在文字修复任务上，Ithaca的字错率和准确率都最好，如果与历史学家合作时，效果还将再次提升。

在论文的最后，研究人员表示，研究方法适用于手稿学、钱币学和纸草学等所有与古代文本相关的学科，也适用于古代、现代的任何语言。

目前，这一方法已经投入了实际使用，比如在雅典时期颁布的某个重要法令的碑文的日期确认上，历史学家们之前认为是在公元前446/5年之前书写的。

而Ithaca与历史学家一起，将这一日期更新到了公元前424/3 年：

Ithaca现在提供了在线试用的途径，登录官网，在方框中中输入古希腊铭文，将缺少的字符标记为破折号（-)），将预测的字符标记为问号（?）。

每次查询最多可以预测10个连续或非连续的问号，点击查询后将在下方显示文本缺失的字符，并将其归属到原来的地点和时间：

作者介绍

研究由DeepMind、威尼斯卡福斯卡里大学（Ca’ Foscari University of Venice）、哈佛大学、雅典经商大学 (Athens University of Economics and Business)、谷歌几家AI团队合作开发。

论文有两位共同一作，其中annis Assael为DeepMind的AI部门的研究员，硕博都毕业于牛津大学，同时也是福布斯“30岁以下30名欧洲杰出科学家”之一：

共同一作Thea Sommerschield则是一位历史学家，目前任威尼斯佛斯卡里大学的人文科学院，以及哈佛大学希腊研究中心的研究员，主要研究领域是将机器学习应用于研究古代地中海的书面文化。

论文：
https://www.nature.com/articles/s41586-022-04448-z

开源链接：
https://github.com/DeepMind/ithaca

在线试用：
https://ithaca.DeepMind.com/?job=eyJyZXF1ZXN0SUQiOiJmYzUwNGY0NWNhZjJjZWMxZjIxZDA4YWVjNTdkMjEzMSIsImF0dHJpYnV0aW9uIjp0cnVlLCJyZXN0b3JhdGlvbiI6dHJ1ZX0%3D

— 完 —

「人工智能」、「智能汽车」微信社群邀你加入！

欢迎关注人工智能、智能汽车的小伙伴们加入我们，与AI从业者交流、切磋，不错过最新行业发展&技术进展。

ps.加好友请务必备注您的姓名-公司-职位哦~

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见~

登录查看更多

相关内容

Ithaca

关注 0

MIT设计深度学习框架登Nature封面，预测非编码区DNA突变

专知会员服务

15+阅读 · 2022年3月18日

AI预测历史？DeepMind 又发nature！使用Ithaca深度神经网络恢复和归因古代文本

专知会员服务

25+阅读 · 2022年3月10日

1370亿参数、接近人类水平，谷歌对话AI模型LaMDA放出论文

专知会员服务

46+阅读 · 2022年1月24日

Nature论文: DeepMind用AI引导直觉解决数学猜想难题

专知会员服务

31+阅读 · 2021年12月2日

Transformer替代CNN？8篇论文概述最新进展！

专知会员服务

77+阅读 · 2021年1月19日

【斯坦福经典书最新版】语音语言处理，653页pdf

专知会员服务

53+阅读 · 2021年1月1日

【DeepMind硬核课】卷积神经网络图像识别前沿进展，附110页ppt与视频

专知会员服务

105+阅读 · 2020年6月27日

1750亿参数！GPT-3来了！31位作者，OpenAI发布小样本学习器语言模型

专知会员服务

73+阅读 · 2020年5月30日

谷歌提出“T5” 新NLP模型，突破迁移学习局限，多基准测试达SOTA！

专知会员服务

41+阅读 · 2020年2月26日

【新书稿：《数学与计算：技术和科学的革命性理论》，340页pdf】《Mathematics and Computation - A Theory Revolutionizing Technology and Science》by Avi Wigderson (Princeton University Press 2019)

专知会员服务

41+阅读 · 2020年2月13日

终于不瞎编了！AI学会了“谷歌一下”，回答问题正确率达90% | DeepMind

量子位

0+阅读 · 2022年3月18日

7 Papers & Radios | DeepMind用AI复原古希腊铭文登Nature封面；单GPU调优GPT-3超参数

机器之心

1+阅读 · 2022年3月13日

Nature最新封面：DeepMind AI “再下一城”，追寻人类古老文字

大数据文摘

0+阅读 · 2022年3月10日

AI预测历史？DeepMind新Nature论文-使用Ithaca深度神经网络恢复和归因古代文本，附视频与论文

专知

0+阅读 · 2022年3月10日

AI 与人文共舞！DeepMind 用神经网络修复古希腊铭文，登顶Nature最新封面

RUC AI Box

0+阅读 · 2022年3月10日

DeepMind再登Nature封面！2000年前残断古希腊文，完形填空七成准

新智元

0+阅读 · 2022年3月10日

预测过去？DeepMind用AI复原古希腊铭文，登Nature封面

机器之心

0+阅读 · 2022年3月10日

Nature最新封面：DeepMind AI “再下一城”，追寻人类古老文字踪迹

学术头条

0+阅读 · 2022年3月10日

DeepMind新研究登上Nature封面，这一数学难题被AI攻破了

AI前线

0+阅读 · 2021年12月7日

DeepMind让AI变身天才数学家！首次提出两大数学猜想，登Nature封面

新智元

0+阅读 · 2021年12月2日

青少年执行功能与数学认知的关系研究

国家自然科学基金

2+阅读 · 2015年12月31日

地理环境对人体血压生理指标参数和心脑血管健康的影响研究

国家自然科学基金

0+阅读 · 2014年12月31日

工件可拒绝的折衷排序和在线排序

国家自然科学基金

0+阅读 · 2014年12月31日

网络上的排序问题的近似算法研究

国家自然科学基金

0+阅读 · 2013年12月31日

虚拟联盟内知识共享社会困境形成机制及其破解方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

开放网络组织间双边关系对企业分布式创新合作模式和知识共享的影响研究

国家自然科学基金

1+阅读 · 2012年12月31日

面向个性化推荐的地理信息可视化方法

国家自然科学基金

4+阅读 · 2012年12月31日

基于感知视觉单词描述的对象分割研究

国家自然科学基金

0+阅读 · 2009年12月31日

平行机分组工件排序的多面体方法

国家自然科学基金

0+阅读 · 2009年12月31日

基于人工神经网络的结核病疫情预测研究及软件实现

国家自然科学基金

1+阅读 · 2008年12月31日

Residual Mixture of Experts

Arxiv

0+阅读 · 2022年4月20日

Fetal Brain Tissue Annotation and Segmentation Challenge Results

Arxiv

2+阅读 · 2022年4月20日

NTIRE 2022 Challenge on Super-Resolution and Quality Enhancement of Compressed Video: Dataset, Methods and Results

Arxiv

0+阅读 · 2022年4月20日

Geometric Deep Learning to Identify the Critical 3D Structural Features of the Optic Nerve Head for Glaucoma Diagnosis

Arxiv

0+阅读 · 2022年4月20日

Natural Language Descriptions of Deep Visual Features

Arxiv

0+阅读 · 2022年4月18日

Automatic spinal curvature measurement on ultrasound spine images using Faster R-CNN

Arxiv

1+阅读 · 2022年4月17日

Fair Classification under Covariate Shift and Missing Protected Attribute -- an Investigation using Related Features

Arxiv

0+阅读 · 2022年4月17日

On an interior-exterior nonoverlapping domain decomposition method for the Poisson--Boltzmann equation

Arxiv

0+阅读 · 2022年4月17日

A Survey of Uncertainty in Deep Neural Networks

Arxiv

30+阅读 · 2021年7月7日

Optimization of Graph Neural Networks: Implicit Acceleration by Skip Connections and More Depth

Arxiv

20+阅读 · 2021年5月10日

VIP会员