AI 的尽头在宇宙？AI 已帮助天文学家找到 22 颗“星星”

会员服务 ·

AI 的尽头在宇宙？AI 已帮助天文学家找到 22 颗“星星”

2022 年 9 月 11 日 InfoQ

作者 | 刘燕

9 月 3 日，在 2022 世界人工智能大会（WAIC）上，腾讯宣布，与国家天文台共同开启对 M31 仙女座星系的射电信号处理，这也是天文界对该星系中脉冲星类致密天体的最深度完整探测。

这场“AI+ 天文”的跨界合作始于 2021 年。时年 7 月，马化腾在去年的 WAIC 上透露，腾讯与国家天文台启动“探星计划”，用 AI+ 云寻找脉冲星，提高探星效率。

双方合作主要包括三个层面：（1）AI 辅助脉冲星搜索效率提升；（2）AI 辅助快速射电暴搜索；（3）AI 辅助近密双星系统中脉冲星搜索。

经过一年多的合作，腾讯首次对外披露了“探星计划”进展：

腾讯云副总裁、腾讯优图实验室总经理吴运声表示，目前，优图 AI 天体探索方案已从巡天观测数据中寻找到超过 22 个脉冲星候选体。其中，包括在天体物理中具有较高观测研究价值的高速自转的毫秒脉冲星 7 颗，具有间歇辐射现象的年老脉冲星 6 颗。此外，优图动态谱 AI 模型还首次探测到了某磁陀星射电脉冲。

1 AI 为“中国天眼”寻找脉冲星提速

脉冲星，因为周期性的发射电磁波，被称为宇宙中的“灯塔”、“最精确的时钟”，是宇宙演化的研究参考。

脉冲星是在坍缩的超新星的残骸中发现的，它们有助于人们了解星体坍缩时到底发生了什么。脉冲星的本质是中子星，其具有在地面实验室无法实现的极端物理性质，是理想的天体物理实验室，对其进行研究，有望得到许多重大物理学问题的答案，例如黑洞问题。

探星计划项目组成员，复旦大学计算机系副教授池明旻介绍，脉冲星会组成一个阵，通过阵可以发现黑洞。所有信号到了黑洞那都回不来，黑洞会导致空间的弯曲，通过脉冲星可以帮助寻找和发现这一现象。“在地面导航有 GPS，未来在星际导航的时候，我们可能就要靠脉冲星了”。

目前世界上最强大的脉冲星搜寻利器之一，便是有着“中国天眼”之称的 FAST，它是世界上灵敏度最高的射电望远镜。

在执行识别任务的过程中，FAST 每天产生的数据规模相当庞大。池明旻介绍，FAST 每周产生约 500 多 TB 的数据量，对这些数据的计算需要大量算力。在天文领域，搜寻脉冲星是对算力要求超高的研究方向之一。

FAST 在 1 周内产生的脉冲星观测数据，大约能得到 3000 多万张信号图，如果以人工肉眼处理，按照 1 张 / 秒的速度，在不吃不喝不休息的条件下，需要用一年的时间才能处理完。此外，信号图成像复杂，传统的图像处理和机器学习算法召回率低，加上跨界学习成本高，天文领域专家对 AI 模型的设计和使用不擅长，面临多种 AI 模型设计难点。

而“云 +AI”可以很好地应对这些问题。

以往需要 1 年完成的工作量，AI 只需要 3 天时间就可以完成。在算力方面，腾讯云为“探星计划”提供了约 20 个 GPU 的服务器，可每天 24 小时不间断地做计算。

最新的数据显示，基于腾讯优图实验室的计算机视觉技术、腾讯云的计算及存储能力，用“云 +AI”帮助中国天眼 FAST 处理每天接收到的庞大数据，并通过视觉 AI 分析找到脉冲星线索，在同等算力下处理效率提高了 120 倍。脉冲星的搜寻效率得到了显著提升。

2 多项自研 AI 技术创新

数据预处理提速

据介绍，AI 辅助 FAST 探索脉冲星遵循如下技术原理：

FAST 观测到信号→经过一系列天文和物理学方法处理→得到适合计算机视觉领域处理的图像数据→对信号进行判别→筛选比对图像数据→留下少部分样本→人工再次对少部分样本进行比对确认。

天文数据在经过 AI 处理前，需要进行数预处理。

数据预处理，主要是将 FAST 观测到的天文信号转化成图像的过程。相比信号，人能够最直观的可视和感知到图像。通过一系列天文领域专门的处理方法，包括快速傅立叶变换、语音信号处理、消色散等，对数据进行预处理，例如，脉冲星有对应的频率、时间、弧度等三维信号，将这些三维信号转变成两维的图像信号，如时间上位、频率上位等二维图，再通过看图来确定到底是不是脉冲星。

预处理环节是天文领域的难点。这一方面是因为，信号从外太空过来，经过了星际的介质及各种噪声干扰，信号过来从低频到高频，低频到达较慢，望远镜接收入时信号有色散延迟，加上

脉冲星有周期性，色散量不定，脉冲周期也不定，这就导致了首次盲搜的范围非常之大。

对预处理环节进行加速，是腾讯优图实验室在探星计划中所承担的核心任务。预处理对计算有着极高的要求，腾讯优图为此提供了强大的算力支持。

汪铖杰团队统计发现，FAST 信号收到后转化成图，要搜索 3000 万张图 -1 亿张图，才能找到 1 颗脉冲星，如此广泛的搜索范围对数据预处理速度提出了更高的要求。腾讯优图实验室的视觉 AI 算法帮助了加速了这一过程，通过将原先的预处理算法，进行重复性冗余计算的消除等方式，将预处理过程提速。

池明旻提到了一组对比数据，在 2017 年时，FAST 探索任务的数据预处理过程大约花费 15 分钟，而现在应用上 AI 算法提速后，数据预处理只需不到 1 分钟即可完成。

多模态 + 半监督学习的 AI 解决方案

人工智能的算法设计也是一大难点。

这是因为，天文信号是多元的，包括时间上位图、频率上位图、色散图等。天文信号具有时间周期性，从频率、色散、向位等角度看，信息并不相同，例如如果从向位的角度看，脉冲星不明显，但从色散度的角度看会相对明显。

此外，作为世界最大单口径的射电望远镜，FAST 的工作模式和精度都与其他望远镜不同。FAST 有 19 个波束，信号之间互有联系，在人工智能算法设计时，针对这些信号的处理，需要多元信号融合、多波束信号融合。

针对上述问题，腾讯优图特别设计了一种基于多模态 + 半监督学习的 AI 解决方案。

多模态是指，基于多信息输入，综合评价天文信号到底是不是脉冲星，多维输入包含了更多的信息和可行性，因此，多模态的解决方案要比基于信号的直接分析效果更佳。

半监督学习背后的设计逻辑在于，AI 算法对数据量需求庞大，FAST 观测到的天文信号转化成的数千万到数亿张图，如果全依赖天文工作者人工标注，显然不现实。而通过半监督的解决方案，大量未经标注的数据也可以用于模型训练和学习，这样一来，算法学习的样本量将比人工标注时显著增加，深度学习更加充分，可以将模型做得更深，特征提取更充分，识别能力也会得到显著提升。

实践验证，多模态 + 半监督学习的 AI 解决方案，相比国家天文台原有的 AI 筛选模型具有更高的召回率，且误报率下降了 98%。

小样本学习

数据是人工智能算法的“燃料”。AI 发展多年以来，解决很多场景的大部分问题都是基于对大数据的学习。但在天文领域，尽管处理的数据高达百亿规模，但实际上可供学习的有效样本量还很少。在探星计划中，目前可供用于学习的脉冲星的量级大约在 100 个左右，如何在这个量级下取得好的学习效果，是一个难题。

小样本学习是近年来应对数据受限挑战的一个热门研究范式。

汪铖杰介绍，合成样本有多种方式。例如通过构造一个对的模式去学习，一个脉冲星加上一个位置信号去判断后者是否与脉冲星有关联性。数据扩增也是 AI 领域一种较常见的方式，例如在常规的脉冲星上做位移偏移或者加上宇宙仿真的噪音的叠加、变化等。另一种逐渐流行起来的方式是 GAN 技术，即通过对抗式生成的学习方法，学习一些样本后再生成一些样本用于学习，这种方法在数据量较小的情况下比较有效。

3 “入地”为“上天”作支撑，探索 AI 和 Science 结合的新范式

汪铖杰表示，对腾讯优图而言，在寻找到 22 颗脉冲星之外，探星计划的另一个重要的意义在于，探索出了 AI 和基础学科结合的模式。

“在做 FAST 探星项目前，我们不了解天文相关的知识，也不确定 AI 怎么能够跟基础科学衔接、配合、协作，现在经过这个项目，我们就有这个底气去做类似的项目，现在也有一些项目开始推进了”。在汪铖杰看来，AI for Science 就是在探索 AI 未知能力的边界。

“探星计划”是腾讯优图实验室总负责人吴运声所提出“AI 普适化”愿景的重要实现环节之一，“AI 普适化”旨在让 AI 技术能够具备在各行各业里应用和落地的能力，且能够实实在在地为某一个行业带来实质性的变化。

在此次 WAIC 上，腾讯还对外展示了云 +AI 在工业、金融、传媒、能源、交通等多个场景下的创新实践。以在工业领域为例，吴运声表示，腾讯的工业 AI 基础技术集中在工业成像、基础算法、高效学习以及仿真生成四个方面，通过这四部分能力已打造超过 10 个细分领域外观检测的解决方案。结合规模化落地经验，腾讯云推出了工业质检训练平台，其面向工业外观缺陷检测场景，零基础工程师也能轻松使用，拥有算法精准、部署灵活、简单易用、功能完备的特点，降低工业 AI 质检算法落地的技术门槛。

而正是基于在上述“入地”的项目中的实践打下的基础，才让 AI“上天”探星具备了更多可能性。

“天文和工业，表面上看好像完全没有联系，但实际上在这些场景里，AI 底层技术是相通的”，汪铖杰表示，“FAST 探星计划中应用的很多技术，源于腾讯优图在工业 AI 质检场景的很多算法的研究和积累，如检测任务、分类模型、小样本学习、异常检测等”。

点击底部阅读原文访问 InfoQ 官网，获取更多精彩内容！

“不搞职级、人人平等” 25 年后行不通了？Netflix 破天荒引入细分职级：气走老员工

缺少软件开发文化，大众汽车陷入困境，CEO 也被赶下了台

我庆幸果断放弃了 SwiftUI：它还不够成熟