只要不差钱,人人都爱大模型!这不,Meta就计划把CV、NLP、语音识别等技术所需的模型都做到「数万亿」的参数量。年初的时候就联合英伟达推出了一个全新的超算——「人工智能研究超级集群」( AI Research SuperCluster,RSC)。 既然Meta都这么搞了,是不是拿超算「炼丹」很好用?答案是,并不……尤其是当你手里只有14纳米架构的芯片时。为此,清华大学、阿里达摩院等机构的研究人员提出一种全新的思路——「八卦炉」(BaGuaLu)。这也是第一个针对在超算,也就是新一代「神威」上,训练参数量达到「百万亿级」模型的工作。论文链接:https://tinyurl.com/bdzc4d2j「八卦炉」通过结合特定硬件的节点内优化和混合并行策略,在前所未有的大型模型上实现了体面的性能和可扩展性。结果显示,「八卦炉」可以训练14.5万亿个参数的模型,使用混合精度的性能超过1 EFLOPS,并且有能力训练174万亿个参数的模型。显然,这已经相当于人脑中突触的数量了。简化的模型计算过程有趣的是,团队怕老外看不懂「谐音梗」,贴心地在论文的注脚中写道:「八卦炉是中国古代神话中的一种神奇炉子,可以生产药物。」看来,「炼丹」这个词着实是不好翻译啊。