AI智算中心,如今已成各地必备基建。
放眼全国,已有4个人工智能计算中心建成,西安、许昌等地智算中心也已开工。南京、杭州、广州、大连、青岛、长沙、太原、南宁等地也在规划中。
但任何一次高速扩张,随之而来的当然是概念鱼目混珠,价格乱得天上地下,这问题可得解决。
先来具体看看现存的问题。
一份公开资料显示,2020年城市A的智能计算中心,每100P Flops (每秒10亿亿次浮点运算)16位精度的算力建设成本为7500万元。
而2021年城市B同等精度下的100P FLops算力建设成本却达到了4.6亿元。
明明是定位相同、功能相近的智算中心,建设投入相差达到6.2倍之多,行业价格混乱程度可见一斑。
价格之外还有第二个问题:算力背后运算数据的精度混淆。
技术视角看,不同领域对精度需求各不相同。
科学和工程计算对精度的要求最高,需要使用64位双精度。
人工智能训练阶段主要用到32位单精度和16位半精度,在推理阶段可以用16位或者更低一些。
你看,数值同是100P的算力,背后的精度若仅有16位只能算是AI专用算力,若是涵盖64位就能支撑更多通用算法。
两种精度的运算量级不止是单纯差了4倍,但在行业落地中,忽略及混淆的情况不少。
很多应用场景都不是单靠AI本身就能完成的。如天气预测、材料设计、药物发现等任务上都需要AI与高精度科学计算相结合。
相应的,智算中心也要做到以AI算力为主,融合多种算力,才能真正释放算力的价值。
如果以专用算力为噱头,表面上的数值高了就可以哄抬价格。这样修建出来的智算中心就成了“偏科”,往往无法真正适应行业需求。
这两个问题如不解决,修建出的智算中心既在价格上不匹配真实价值,也无法满足相应需求,势必造成资源浪费又阻碍行业发展——
行业亟须有人站出来统一标准。
针对上述问题,中科院人工智能产学研创新联盟联合院内多家院所企业做了相应努力:
在WAIC 2021上发布了新一代人工智能计算平台,要打造智算中心的建设标准。
为什么说是新一代呢?
联盟联合了院内多家院所企业,基于科学院多项重大科技成果,让平台做到“用得上”和“用得好”。
“用得上”,也就是满足产业需求。
一个城市建起智算中心,是要为周边地区的各行各业服务,需要计算平台有通用性。
此次发布的新平台采用开放架构,可以兼容各大AI框架和数据处理平台,还做到了迁移灵活、编译开发难度低。
同时支持CPU、通用GPU、专用AI加速芯片的多元芯片组合,提供覆盖各精度算力,可胜任模拟、训练、推理等AI全链条应用需求。
基于以上两点,新平台成为了国内首个跨模态、通用化的AI公共创新服务平台。
解决了“用得上”,还要做到“用得好”。
面对这个问题,新平台基于中科院多项重大科技成果,联合多家院所企业,也有着独特的技术优势。
在硬件设施上,新平台采用浸没式相变液冷技术,节能效果高达30%。
配合超高密度立体扩展的建设模式,节省机房面积90%,可以最小化土建上的投入,把基础设施和IT设备打包成模块整体交付,做到快速业务上线。
中科院计算所研究员、CCF高性能计算专业委员会秘书长张云泉表示,建设智算中心的成本中有3个重点:
芯片、服务器设备的硬件成本
机房、土建的基础设施成本
建成后持续运营产生大量的电力成本
新平台明确了智算中心需要哪些芯片,给出了服务器、机房的建设方案和节能上的改进。
还给出了具有说服力的算力价格标准方案:
在综合存储、能耗、开发、定制、数据调度等一系列因子,并代入明确的算法标准后,得出在同时具备5P双精度算力(64位)、25P单精度算力(32位)和100P半精度算力(16位)的情况下,智能计算中心的基础设施价格约为1亿-1.5亿。
国科控股党委副书记、副董事长、总经理杨建华对此这样评价:
平台集诸多中科院人工智能技术成果于一体,拥有清晰的实施路径,可为区域智算中心建设提供标准的可复制范本。
同时中科院科技战略咨询研究院院长潘教峰表示:
平台依托中科院顶层战略规划,汇聚算力、算法、数据、软件、人才、应用等资源要素,将为AI产业化发展、行业数智化转型和政府智慧化治理提供有力支撑。
在“算法、数据、算力”人工智能三要素里,目前哪一个是最大的短板?
张云泉这样回答:
现在是算力。大数据已经发展很多年了,算法的演化很快,对算力的需求很大,是在拉着算力往上走。
建设智算中心将过去分散在各企业、研究机构的算力聚合起来去补齐这个短板,推动产业良性健康发展。
在工业时代,城市靠集中供水、供电方便和丰富了千家万户的生活。
在AI时代,城市也要把聚合起来的算力,高效流通和分配出去,促进千行百业的生产。
这就使算力的价格标准与水价、电价标准同样重要。
中科院人工智能产学研创新联盟在做的,就是为智算中心建设提供了一个可复制范本。
用这个范本树起透明的价格标杆,让算力像自来水一样流淌。