过去的十多年,人工智能技术越来越深刻地影响了人类社会,越来越多成熟的人工智能产品逐渐渗透到每一个人的生活。就在大家享受着人工智能带来各种便利的同时,AI也不断影响着最前沿的科学研究领域。过去的数百年来,实验科学和理论科学一直是科学界的两大基础范式。AI技术,特别是机器学习和强化学习方法,基于实验或者计算产生的数据对所求解的问题进行可计算建模,从而得到复杂问题的有效解决方式,这对当今科学计算领域的研究范式已经产生了巨大影响。
去年12月Science 公布了该杂志评选出的2021年十大“年度突破(2021 Breakthrough of the Year)”,其中排在首位的就是人工智能(AI)在生命科学领域的应用——“Protein structures for all”。最为让人瞩目的非2021年7月15日由DeepMind团队公布的AlphaFold2莫属,一个基于神经网络能够预测蛋白质结构达到原子水平准确度的新模型。DeepMind在Nature发表的论文表示,已利用AlphaFold2预测了35万种蛋白质结构,涵盖了98.5%的人类蛋白质组,及其他20种生物几乎完整的蛋白质组。这无疑向世人宣示了,人工智能已然成为科学研究最重要的生产力之一。
而随着科学研究、创新技术“卡脖子”的现象日趋严重,这一难题无时无刻不在提醒着国内科学研究者、开发者,我们需要有自己的科研软件、AI基础软件,以保证中国在科学研究领域上不落后于人。2020年3月28日华为正式开源了全场景AI框架昇思MindSpore,到2022年3月27日全新的昇思MindSpore 1.6版本发布。我们不但看到了昇思MindSpore越来越全面的功能、成熟的生态与强劲的性能,也能看到昇思依然坚持着“将科学计算与深度学习结合,将数值计算与深度学习相结合”的初心,为中国科研助力。
内外兼修,优势并存的昇思MindSpore
随着人工智能在近年来的崛起,对应的AI框架也在不断演化。从早期的torch、theano以及Caffe,奠定了基于Python、自动微分、计算图等基本设计思路。到后面广为人知的TensorFlow、PyTorch,通过分布式训练、多样的部署能力在工业界广泛使用,另外一个是提供动态图能力,在灵活性上吸引了大量的研究者和算法工程师。而下一个阶段AI框架的演化方向是什么?似乎还没有完全明确,我们可以看到业内一线大厂也在多条技术路中探索,其中包括TF2.0,JAX、MLIR、Swift for TF等,实现了动态图和静态图的统一,构建统一的IR基础设施,探索新的表达方式等。AI框架演化方向的多种多样,让业界看到了未来的无限可能。
昇思MindSpore开源以来,倍受广大开发者的关注。作为新兴AI框架,昇思MindSpore团队根据科研工作者以及广大开发者对AI框架使用的痛点,围绕“全流程极简,多套件打造极致开发体验”、“全自动并行,最大释放集群算力”、“全场景协同,智能匹配端、边、云多样设备”三项目标不断进行技术演进。针对开发者诉求,昇思MindSpore与开发者开展了系统、深入的交流,不断改进易用性,提升控制流性能并提供了多种开发工具。在最新的1.6版本中,发布了高效易用的图学习框架MindSpore Graph Learning、高性能可扩展的强化学习计算框架MindSpore Reinforcement、提供支持第三方框架模型迁移工具、让用户即时体验的开发套件MindSpore Dev ToolKit、同时升级自定义算子能力支持高效添加算子,丰富MindSpore Quantum量子模块可支持用户快速体验量子计算的魅力,同时昇思还提升了框架的训练与推理性能。
欣欣向荣的社区生态是开源项目的基石,为此我们能看到昇思对社区建设的认真态度。两年后的今天,昇思MindSpore在码云(Gitee)千万开源项目中活跃度排名第一,累计下载量超过142万;服务于5000多家企业,涵盖金融、制造、交通、能源、终端等端边云全场景行业;高校及科研机构基于昇思贡献顶会论文300+;40+高校参与社区模型众智活动,为昇思贡献代码,目前已支持300+主流模型,支撑全场景AI应用。
昇思MindSpore通过架构创新,原生支持科学计算,突破了高阶高维自动微分、自动异构并行、跨尺度计算融合等创新技术,构筑了以八大套件为核心,可广泛支持物理驱动/数据驱动等多种AI科学计算范式的全场景框架。昇思MindSpore面向制造、气象、制药、航空航天、汽车、能源、金融、材料行业规划了八大套件的开发。目前昇思在制造、气象、制药、航空航天领域的四大套件已经投入研发,其中AI电磁仿真MindSpore Elec和AI生物计算MindSpore SPONGE取得了惊人的成果。
以AI框架之助力,破科学研究之困局
多年来,科学领域的研究人员通过观察和实验不断积累了大量数据。通常情况下,研究人员很难对海量的数据进行有效的分析以得出模型,再获得重要参考依据。但人工智能技术的出现,让业界看到了打破这一困局的契机。北京大学的杨超教授曾表示:科学计算和超级计算之间相互促进、共同发展的闭环已经形成了几十年,人工智能的巨大成功为科学计算带来了新思路、新方法、新工具,而科学计算的严谨体系则有助于提升现有人工智能技术的可解释性。将人工智能引入更底层的科研领域,以处理多维、多模态的大量数据,将有助科学家突破长久以来的研究瓶颈。昇思MindSpore从创立之初就已经布局科学计算领域,通过多尺度混合计算和高阶混合微分两大关键创新,将昇思原有的AI计算引擎升级为AI与科学计算的统一引擎,实现融合的统一加速。经过两年的砥砺奋进,昇思MindSpore已经在多个科学领域有所突破。
在生物制药领域,蛋白质研究有着超然的地位,许多疾病需要通过分析蛋白质结构进行靶点判断、药物筛选、毒性判断等。传统的药物设计一般要通过大批量筛选,寻找易与目标蛋白质分子紧密结合、易合成且没有毒副作用的化合物来完成,因此研发周期长、费用高。而一旦了解了蛋白质的空间结构,就可以减少寻找药物的盲目性,从而缩短研发周期并降低成本。因此,准确、快速的蛋白质结构预测不仅可以在学术研究领域帮助科学家快速获得或验证关键蛋白结构,促进人们对重要生命过程中分子机理的理解,而且在医疗健康和生物工程领域也能作为有力的工具,引发药物靶点发现、功能蛋白设计(如抗体和人工酶)以及大分子(蛋白)或小分子药物高通量虚拟筛选的革命。
就在近日,昇思MindSpore团队与昌平实验室、北京大学生物医学前沿创新中心(BIOPIC)和化学与分子工程学院、深圳湾实验室高毅勤教授课题组及鹏城实验室陈杰老师团队等合作联合推出基于AlphaFold2算法的蛋白质结构预测训推一体工具。
传统蛋白质结构预测方法一直存在计算精度不足的缺陷,直至2020年谷歌DeepMind团队基于AlphaFold2利用计算机高效准确获取蛋白质空间结构取得CASP14比赛(全球蛋白质结构预测比赛)中蛋白质3D结构预测的榜首,才让这一缺陷得到弥补。蛋白质结构预测工具精度可与实验方法相媲美,这一成就被Nature等杂志喻为“前所未有的进步”。
北京大学等团队推出的基于昇思MindSpore的蛋白结构预测训推一体工具工具,大大降低了广大生物医疗实验工作者的使用门槛,也将为生物蛋白质领域的基础研究与应用工作提供助力,在“前所未有的进步”上更进一步。该工具依托昇思全方位AI深度学习场景覆盖的“八大套件”之一MindSpore SPONGE,可对氨基酸序列长度2000+的蛋白质结构解析,能覆盖约99%以上的蛋白序列。该工具基于昇腾AI基础软硬件(昇思MindSpore + CANN + Ascend 910)实现了完整的 AlphaFold2 训练和推理,其中训练性能提升60%以上(TM-score达86分),推理性能优于原版AlphaFold2达2-3倍,相关代码全部开源。昇思对蛋白质结构预测训练推理的支持填补了国产 AI 软硬件的空白,今年昇思将在算法、软硬件支持等方向上持续创新,并计划开放共享训练数据集供业界研究者使用。
除此之外,同为“八大套件”之一的AI电磁仿真MindSpore Elec也开始影响终端电磁仿真领域。电磁场的产生主要源于自然和人工两类。自然电磁场催生并推动了人类的文明:由于太阳光的存在,人类可以在温度适宜的地球居住,可以通过植物的光合作用获取充足的食物。然而人类并不满足于自然产生的电磁场,于是开始主动向环境中发射电磁场,并充分挖掘电磁场的应用潜力。
人们通过实验、理论以及计算等手段研究电磁场的机理。最终麦克斯韦总结前人的工作,提出了位移电流假说(变化的电场能够产生磁场),完善了电生磁的理论,将电磁场理论用给简洁、对称和完美的数学形式表示出来,即麦克斯韦方程组。随着计算机技术的发展,人们采用数值计算的方式去求解麦克斯韦方程组,模拟电磁场在空间中的分布。但传统的数值方法仍存在许多缺陷,如需要进行复杂的网格剖分、迭代计算,计算过程复杂、计算周期长。神经网络具有万能逼近和高效推理能力,这使得神经网络在求解微分方程时具有潜在的优势。为此,昇思MindSpore推出了AI电磁仿真套件MindSpore Elec。
MindSpore Elec内置有前后处理工具(数据构建及转换、结果可视化)、AI电磁模型库(物理方程驱动和标签数据驱动)以及优化策略(数据压缩、动态自适应加权等)。
MindSpore Elec功能与模块框架图
目前AI电磁仿真套件MindSpore Elec使用的增量训练的AI方法,相比原始的PINNs方法,性能提升了15倍以上;与Benchmark(传统的数值方法)的相对误差在5%左右。MindSpore Elec套件已构筑基础的AI电磁仿真能力,并在手机电磁仿真等场景取得技术突破。在手机电磁仿真场景中,仿真精度媲美传统科学计算软件,性能提升了30倍。未来,昇思MindSpore将不断深化八大套件的研究,推进科学计算在不同领域的落地应用。
CSDN认为,未来的十年将会是AI发展的黄金十年,深度学习算法框架的发展牵动着业内每一个参与者的心。作为国内自研的AI+科学计算融合框架,昇思MindSpore积极响应产业界需求,不断在效率提升、易用性、创新性以及使用体验方面推动AI框架持续演进。正如“昇思”两个字的含义,“昇”代表昇思是昇腾计算产业的重要组成,结合昇腾发挥极致性能,“思”代表着昇思深度思考产业界技术演进方向致力于打造最佳体验的AI框架。当两者像艺术一般相结合,就能为生产、科研提供最坚实的基础,引领中国AI框架的发展。