讲堂丨人工智能在天体物理中的应用

2019 年 9 月 26 日 微软研究院AI头条


编者按: 从人类诞生的那一刻起,人们对宇宙奥秘的求索就从未停止。今天,天文学已经进入了一个具有多波段、多信使的海量观测数据的黄金时期,人工智能技术将对天文领域产生深远影响。近日,美国亚利桑那大学天体物理学博士、清华大学天文系蔡峥教授受邀来到微软亚洲研究院,与我们分享了天体物理研究与人工智能方法相结合的前沿探索。


嘉宾介绍


蔡峥,2015 年获得美国亚利桑那大学天体物理学博士学位,2015 年—2019 年在美国加州大学圣克鲁兹分校从事博士后研究,获美国太空总署(NASA“哈勃学者”(Hubble Fellow称号。2019 年任清华大学天文系助理教授(tenure track),同年入选中组部第十五批青年千人计划,共发表论文 30 余篇,引用 1500 余次,担任《Nature》等杂志审稿人。他发现宇宙早期大尺度结构以及发现宇宙早期最亮的星云,被美国 CNN,英国 BBC 等主流媒体报道。蔡峥领导的多项研究入选哈勃太空望远镜、以及地面最大望远镜的观测计划。他也参与多个新望远镜与探测仪器研发,如位于智利的新的世界最大光谱巡天望远镜等。


当我们谈论宇宙, 我们在谈论什么?


经常有人问我做什么,我说“天体物理”,他们就说:“那你给我算个命吧”,可能跟大家最有关的就是星座。但是我们宇宙研究究竟在做什么呢?中国的一些哲学家在 2000 多年前就说了,“上下四方谓之宇,古往今来谓之宙。”所谓宇宙,就是空间和时间上的研究。

我们先从空间上看。离地球最近的恒星是太阳,如果到一光年尺度,就可以看到离太阳最近的恒星。到几百、上千甚至到上万光年,你可以看到银河系的旋臂。到了 10 万光年,你就可以看到银河系的全貌和它周围的星系。而到上百万、上千万光年,我们发现还有很多像银河系一样的星系。所有星系在宇宙中的三维排布是一个纤维网的大尺度结构。我们的血管还有蜘蛛网也是拓扑结构,是非常相似的。


图1:人类对宇宙在空间上的认识

在图 1 中,人们脑海中的星系大概是最左边的样子,但是,近二三十年,我们发现星系实际上处于巨大的暗物质当中,可见部分只占整个暗物质晕非常小的比例,暗物质是可见物质的六倍多。但是你为什么感觉不到呢?因为我们所有的感受都是因为电磁相互作用,但是暗物质和我们只有引力作用,除此之外可能还存在一点点弱相互作用,但这还只是理论假设。


大家可能听说过清华大学在 2400 米的地下有一个锦屏山地下实验室。为什么在 2000 多米的地下可能探测到暗物质呢?因为在那里所有可见物质,不管能量多高,都已经被挡住了。如果能观测到那里的粒子,那应该就是不和正常物质有电磁相互作用的暗物质。目前锦屏山还没有发现任何痕迹,但暗物质是客观存在的,已经有科学家通过星系的旋转曲线等多种独立的天文方法推测出来了。星系就是被暗物质凝聚在一起,整个暗物质晕又呈纤维网状排布。这是空间上我们研究的一个尺度。


从时间上说,我们知道宇宙中有一次大爆炸,宇宙正在膨胀中。宇宙起源离现在大概 130 亿年,爆炸后它一直在减速膨胀,但在距今 70-80 亿年,它开始加速膨胀。这也是我们用很多方法实际观测到的。为什么会加速膨胀呢?因为宇宙中还有一种更神秘的东西叫暗能量,在宇宙膨胀到一定程度,物质密度已经极低的情况下,它能驱动宇宙的加速膨胀。在宇宙中,暗能量占 70%,暗物质占近 26%,可见物质只占 4% 左右。

图2:人类对宇宙在时间上的认识

现在天文学进入了一个黄金时期。我们进入了多波段、多信使的时代,从最短的波,到最长的波,我们在全波段都有一些比较好的设备;不光能看电磁波,还能看引力波。引力波也是最近发现的,两黑洞并合时会产生一种波,这种波很弱,但是能让整个度规或时空发生变化。引力波实验是相对论和量子力学最完美的一个结合。

天文学与我们的生活也息息相关。我们手机用的锂电池,它的材料就是大爆炸三分钟以内的产物。我们戴的金戒指,是八个太阳质量以上的超大恒星爆炸才产生的东西。太阳爆炸最多形成铁,而这些金是太阳系周围的一些超大恒星爆炸了,金经过亿万年终于飘到地球上,然后被我们捞起来做成戒指。我们身体里所有的碳和铁都是超新星爆炸产生的,人的意识是怎么来的我们还不知道,但是构成人体的材料都来自宇宙。当然,最后地球也会被太阳吞食,所有原料也都会进入星际空间,再形成一颗恒星,所以卡尔·萨根曾经说过,宇宙在哪儿呢?宇宙实际就在我们的身体里。从这个意义上来说,我们每个人都是“来自星星的你”。

天文学也将进入一个大数据时代,在这个过程中,微软还做了巨大的贡献。在智利,有全球最大的光学望远镜——大型综合巡天望远镜(Large Synoptic Survey Telescope, LSST),它能对太空进行不间断地扫描,预计将发现 100 亿个新星系,每年能产生 10 PB 数据。比尔·盖茨也曾捐赠 1000 万美元给该项目。

图3:大型综合巡天望远镜
 
天文
学-人工智能
应用的最好领域

我觉得天文学是人工智能大数据应用的最好领域。在现在的天文学研究里,即使只是用了一点点和人工智能相关的技术,就能对整个天体物理领域产生深远影响。虽然人工智能技术在天体物理领域的应用还处于起步阶段,但人工智能已经开始真正参与人类对自然界新规律的发现。今天我想给大家举一些人工智能在天体物理中应用的例子。


引力透镜

大家去高档餐厅肯定见过这样的蜡烛,你能在酒杯底部看到这种光环,因为光线偏折了。这种透镜的效应在天文学中的对应现象叫引力透镜。爱因斯坦就曾预言,如果光通过质量巨大的一个东西,就能让光弯曲并围绕前方的星球形成一个圆环。所以爱因斯坦环的形状就能告诉我们光通过了多大的暗物质晕。

 图4:由于光线偏折,蜡烛在酒杯底部产生的光环

爱因斯坦环的正向问题是比较简单的——给定暗物质晕,光通过暗物质晕后产生怎样的引力透镜,这是比较容易计算的。但是逆问题,即给定爱因斯坦环,计算光通过了多大的暗物质晕、暗物质晕怎么分布,就比较复杂了。传统的方法需要用 4000 个 CPU 的计算机算整整 6 周,才能完成一次分析。但在 2017 年,发表在《Nature》上的一个研究应用了卷积神经网络来解决这个问题。研究人员先正向计算出很多引力透镜的数据,构建训练集来训练神经网络,然后给定一个引力透镜的信息,通过 CNN 就能逆向生成暗物质晕的分布。我们可以看到,输出结果与真实情况非常相似,而且最令人惊讶的是,它连暗物质晕的子结构都预测得非常准确。训练好了之后,只需要个人电脑就能得出结果,这使得大样本、从统计上面精细地对暗物质结构的探索首次成为可能。

图5:应用卷积神经网络的输出结果

星系际介质吸收

当光穿过宇宙网交汇处,即有星系的地方时,就会产生一个比较大的吸收。我们就通过这些吸收线去重构三维的空间。当在高信噪比情况下观察吸收是挺容易识别的,但在低信噪比时就很难,很容易出现判断不准确的情况。用了深度学习,对低信噪比的识别效果能超过人的眼睛。比如图6中的第一张图,10 个专家里有 9 个说没有吸收,而真实是有吸收,电脑就能正确识别出来这点。因此,人工智能帮助我们发现了新的吸收体,也刷新了人类对中性氢含量的认识,从蓝色的部分(利用人工智能之前)更新到了红色部分(利用人工智能之后)。 

图6:深度学习在识别星系际介质吸收上的应用

大尺度结构

第三个例子,是人工智能在大尺度结构上的应用。一组暗物质和暗能量的比例变化(比如暗物质占 30%、暗能量占 70%,或暗物质占 20%、暗能量占 80%)会影响宇宙学的信息,但是要逆向推出两者的比例是很难的。而计算机就可以模拟星系分布,用深度学习将逆问题变成正向的问题——先通过比例参数变化产生很多三维的星系分布来训练网络,训练好后,输入一个三维分布,CNN 就能预测暗物质和暗能量的比例。这种方法比传统的数学方法要好,明显提高了解决这种逆问题的精度。

图7: 宇宙学的神经网络可以用星系的三维分布预测宇宙学参数


看到这些结果,我一直在思考。第一点是深度学习为什么会比一些传统的数学方法好?我觉得它可能是找到一些额外的信息,比如说以前我们用两点相关函数,但是深度学习相当于找到了三点相关函数甚至是四点相关函数,它比我们找到了更多的关系。

第二个问题是,既然人工智能比传统方法进步了那么多,那么擅长解决逆问题,那它能不能进一步告诉我们这些参数之间的规律或定律。比如刚刚所说的深度学习在高噪声下识别出吸收线的问题,比人还厉害!其实,这样的吸收体,是因为海森堡发现能量和时间存在“不确定性原理”(uncertainty principle)。只要你承认量子力学有不确定性原理,时间和能量并不能同时测准,位置和动量也不可能同时测准,就必然产生这样的吸收。还有引力透镜实际上代表了爱因斯坦一个非常深刻的思想,就是质量告诉时空怎么弯曲、时空告诉光线怎么运动。爱因斯坦场方程可以写成非常优美的一个公式。计算机在深度学习大量知识后,能不能也推出像这样有深度的原理或公式呢?

如果这个对人工智能来说太复杂了,那能不能试着让人工智能找出开普勒第三定律呢?这是大家高中都学过的,由开普勒根据第谷在 16 世纪精度有限的实测数据提出的,他发现行星公转周期的平方和行星公转轨道半长轴的三次方成正比。这是牛顿万有引力定律的重要基础,也是引力平方反比例的直接推论,而平方反比例是引力波静质量为零,以光速传播、甚至光子静质量为零的重要基础。我觉得计算机到现在仍然总结不出来这么优美、深刻的公式,它算出来可能会很精确,有很多小数,因为它还发现不了数字背后深刻的规律。大自然就是这么神奇,这也许是人工智能未来的方向之一。

天文学进入大数据时代


我们将会迎来一个天文学的大数据时代,机器学习在天文学上的应用也会越来越多。刚刚提到了美国正在智利建设的大型综合巡天望远镜 LSST,它每晚能产生近 1 千万个变源,预计将发现 100 亿个新星系,每年的数据量达到 10 PB 。它的数据能让几代的研究者去挖掘数据,发现新的宇宙规律。下一个十年,世界各国将开展大视场图像巡天,但是我们国家这方面准备还不够。另外,LSST 也有一个缺点,它只拍照片,但没有光谱。光谱所蕴含的信息非常丰富,是天体的物理指纹,它能告诉我们太阳是由什么组成的,还有太阳的动力学信息等。缺光谱就无法认识天体的本质。

我们现在就在联合民营资本和高校的力量,推动一个光谱巡天望远镜项目:南天宽视场光谱巡天望远镜(SSST),我觉得这是中国地基设备赶超世界先进水平的一个机会。SSST 选址在世界上观测条件最好的智利,拥有6.5米光谱巡天望远镜,视场达到 5 平方度,远超其它望远镜,巡天速度会更快。建成之后,SSST将拥有世界级的光谱巡天能力,能专注解决一些关键的科学问题,如宇宙起源、系外行星、时域天文学(引力波电磁对应体)等问题,总的建设造价不超过 10 个亿(不超过10年建设周期。我们的 SSST将与 LSST 结合,提供真正三维的宇宙大数据。

图8:正在规划建设中的南天大视场光谱巡天望远镜(SSST,它和其他望远镜的协同观测, 将有望将我国的天文研究带入新时代。

最后我来讲一下天文在大家生活中的一些应用吧。比如 CCD(感光耦合元件),其实上世纪 70 年代 NASA 应用 CCD 最重要的原因之一,就在于为了天文观测更高的信噪比,因为当时仅靠胶片看不清楚宇宙图片,所以做出了一个可以持续曝光的元件。经过 40 年的发展,我们手机里的 CCD 已经完全改变了大家的生活。没有 CCD 大概也不会有人工智能,因为如果都是胶片,就不可能把图片数字化。WIFI 也是为了发现天文的“霍金辐射”发展出来的,GPS 中也应用了广义相对论的原理。

如果你问我天文有什么用,我还是坚持会说,天文实际上没用,它主要是为了满足人类的好奇心。但我觉得天文学最“有用”的一点就在于,它能将我们眼前的未知变成身后的已知。将未知变成已知,这才是人类文明进步中最重要的一个能力和动力。我希望有朝一日,我们中国也能加入这个俱乐部,真正能够有更多引领人类文明、知识灯塔的科学工程,这也是对我们大学 2050 年前建立世界学术殿堂的必然要求。

图9:蔡峥教授(中)与本次活动主持秦涛博士(右二)合影

QA时间

提问一:刚才说通过爱因斯坦环可以预测暗物质晕的分布,这个分布是唯一的吗?

答:这个问题特别好,我相信是不唯一的,比如多几个子结构可能能产生差不多的爱因斯坦环,或者取决于背景和前景的星系。但是从现在训练出来的结果来看,虽然真实分布可能有一些微小的差别,但是它能把主要的结构预测得非常好。这点其实非常神奇。 

提问二:对于某一个宇宙规律,假如我知道函数和参数形式,当有很好的数据的时候,拟合参数的能力会很强。但大部分时候,宇宙的规律,参数的形式,这些我们并不知道。那么怎样让我们有些先验,去知道这些规律和参数形式?是不是能把一些公理、定理表示到计算机系统里,把它当作一种先验,再去推导其他规律。

答:这个问题也非常好,首先我们还不知道怎么解决。我跟微软的沈向洋博士(微软全球执行副总裁)和 UCSD 的苏浩教授都聊过,他们也觉得可能得建立一个公式集,让计算机先了解人类已有公式的形式,让它知道怎么尝试。(提问者:也可以让计算机跟我们建议一些候选的公式形式,最后还需要人去证实。)对,一个是需要人去证实,第二,实际上每一条公理背后都有更深刻的哲学层面的原理,比如说光速不变原理,这些可能只能靠人来归纳,但是能找到公式可能已经会是下一步很厉害的一个进展了。 

提问三:我们其实已经知道爱因斯坦环是怎么形成的了,那我们做这个研究的目的,是想要知道那个地方有什么、是什么样的,还是说我想发现一些新的东西?

答:这个问题也很深刻,就像你说的那样,这个研究确实不会给我们增加新的知识,但它铁证如山地告诉我们的是那块暗物质晕长什么样,它让我们更一步确信了暗物质的存在,并且暗物质比可见物质多得多。



你也许还想看


感谢你关注“微软研究院AI头条”,我们期待你的留言和投稿,共建交流平台。来稿请寄:msraai@microsoft.com。


登录查看更多
0

相关内容

加州大学圣克鲁兹分校(University of California Santa Cruz),是加州大学系统十个校区之中最有名望的学府之一。校园宽广舒适,整个校园就位于红木公园之内,一直被票选为全美最美丽的大学校园之一。加州大学圣克鲁斯分校的本科生有着广泛的学术选择,学校提供了63个专业,领域涉及的艺术,工程,人文,物理及生物科学,社会科学。加州大学圣克鲁斯分校的研究提供了33个研究领域,诸多颇具声望的杂志将该校的工程学专业博士学位评为全美第一。
【斯坦福大学博士论文】自监督场景表示学习, 97页pdf
专知会员服务
92+阅读 · 2020年6月19日
少标签数据学习,54页ppt
专知会员服务
197+阅读 · 2020年5月22日
Python数据分析:过去、现在和未来,52页ppt
专知会员服务
99+阅读 · 2020年3月9日
【BAAI|2019】类脑神经网络技术及其应用,鲁华祥(附pdf)
专知会员服务
29+阅读 · 2019年11月21日
【课程推荐】 深度学习中的几何(Geometry of Deep Learning)
专知会员服务
57+阅读 · 2019年11月10日
吴恩达“官宣”荣升准爸爸~
AI100
4+阅读 · 2019年1月18日
丘成桐:攻克物理难题的数学大师
科技导报
5+阅读 · 2018年7月23日
人工智能创作的春天来了
微软丹棱街5号
7+阅读 · 2018年3月29日
【人工智能】谭铁牛院士:人工智能新动态
产业智能官
8+阅读 · 2018年1月5日
【人工智能】重磅:中国人工智能40年发展简史
产业智能官
7+阅读 · 2017年11月12日
专栏 | 贝叶斯学习与未来人工智能
机器之心
10+阅读 · 2017年9月19日
Arxiv
24+阅读 · 2018年10月24日
Arxiv
3+阅读 · 2018年4月3日
Arxiv
10+阅读 · 2018年3月22日
Arxiv
3+阅读 · 2017年11月21日
Arxiv
5+阅读 · 2016年10月24日
VIP会员
相关资讯
吴恩达“官宣”荣升准爸爸~
AI100
4+阅读 · 2019年1月18日
丘成桐:攻克物理难题的数学大师
科技导报
5+阅读 · 2018年7月23日
人工智能创作的春天来了
微软丹棱街5号
7+阅读 · 2018年3月29日
【人工智能】谭铁牛院士:人工智能新动态
产业智能官
8+阅读 · 2018年1月5日
【人工智能】重磅:中国人工智能40年发展简史
产业智能官
7+阅读 · 2017年11月12日
专栏 | 贝叶斯学习与未来人工智能
机器之心
10+阅读 · 2017年9月19日
Top
微信扫码咨询专知VIP会员