连续两年摘得「中国芯」大奖,这家国产AI芯片公司用实力改变产业格局

2021 年 12 月 22 日 机器之心
机器之心发布
机器之心编辑部
同一公司、同一产品系列,连续两年蝉联同一重量级奖项,这对于一家 AI 芯片公司来说,背后的意义已远超奖项本身。


12 月 20 日,在第十六届「中国芯」集成电路产业促进大会上, 燧原科技第二代人工智能训练芯片「邃思 2.0」 荣获最高奖——「中国芯 • 年度重大创新突破产品」,燧原科技由此成为国内第一家以同一系列芯片蝉联这一最高奖的企业。 去年,「邃思 1.0」成为该奖项设立以来获奖的第一颗人工智能芯片。

在这个 AI 芯片公司遍地开花的年代,一个沉甸甸的奖项、两个「第一」拨开了哪些云雾?我们需要看到奖项背后的含义。

一,技术实力才是硬道理

无芯片不 AI,无终端不 AI,无行业不 AI。在这个时代,似乎不会讲 AI 故事就要被抛弃。在 AI 芯片行业,目前几乎所有的科技巨头都进入了角斗场,我们看到行业巨头英伟达的市值一度飙升至 7000 亿美元之上,并冲着 8000 亿直奔而去,让传统芯片巨头英特尔都难以望其项背——这就是 AI 的魔力。

镜头缓缓扫过,并慢慢聚焦,国内的 AI 芯片角斗场也正上演着一场新的竞争:一方面,近几年,越来越多的 AI 芯片公司陆续成立,整个 AI 市场热闹非凡;另一方面,经过几年的大浪淘沙,资本趋于冷静,真正能够凭借独特优势获得市场和机构信赖的公司并不多—— 2018 年成立的燧原科技就是其中之一。

再度摘得「中国芯 • 年度重大创新突破产品」奖项的燧原科技,已然拥有了先发优势。这背后首先是产品与技术双重「硬实力」的支撑。

谈及 AI 芯片,算力与架构、存储和带宽、互联能力等都是硬性指标。纵观燧原科技两代 AI 训练芯片,邃思 1.0 已表现不凡,而邃思 2.0 更是进行了全新升级迭代。

邃思 2.0 单精度 FP32 峰值算力最高达到 40 TFLOPS,单精度张量 TF32 峰值算力最高达到 160 TFLOPS,算力均为国内第一;对比第一代芯片,邃思 2.0 将 FP32 算力提升了 1.6 倍。通过 TF32 数据类型针对张量计算进行加速,并结合 FP32 数据类型进行矢量和标量运算,已成为最高效的深度学习运算方式。此外,邃思 2.0 还采用了新一代全自研的 GCU-CARA 2.0 全域计算架构,针对 AI 计算的特性进行深度优化,夯实了支持通用异构计算的基础,支持全面的计算精度。

为了与高性能算力相匹配,在存储和带宽方面,邃思 2.0 由主芯片和 4 颗最先进的存储芯片 HBM2E 组成,存储容量提升了 4 倍,以满足人工智能大模型,甚至超过万亿参数的超大模型的存储需求。另外,邃思 2.0 最高可以提供 1.8 TB/s 带宽,较第一代提升了 3.5 倍,保证数据从存储到计算引擎的高速来回传输。

邃思 2.0 拥有高速互联支撑算力扩展能力,其 GCU-LARE 全域互联技术是燧原专为人工智能训练集群研发的互联技术,提供双向 300 GB/s 互联带宽,支持数千张云燧 T20 加速卡互联,实现优异的线性加速比。

如果说硬件是武器,那软件则是武功秘籍。软件和生态的实力决定着开发者是否能够将硬件的效用发挥到极致。 升级后的驭算 2.0 平台通过软硬件结合提供极致性能和优化的编程环境,进一步降低用户的迁移成本和学习成本,适配主流框架,提供工具链协助开发与调优,不断提升用户的使用体验。

编程接口采用了 TopsPrimo 2.0 编程模型,这是一个可以操作标量和多维数组的通用高性能编程接口库,以 C++ EDSL 的方式提供了 C++ 编程接口,帮助广大程序员可以更快地熟悉并上手。同时,TopsNeuro 还提供了一套更通用的图优化能力和 op 集合表征,可以更好地兼容适配各个开源框架。此外,新一代 TopsOperator 算子库做了大量重构、改进和扩展,以满足更广泛的模型需求,并结合最新的硬件特性释放出色的性能。在硬件提供的特性基础上,大量使用了代码生成并通过自动调优得到了高于手工调优的算子性能。

软硬件协同是燧原科技获奖的底气,也是 AI 芯片企业在市场竞争中能够占据优势的科技硬实力。

二,唯「快」不破

AI 时代不缺创业公司和讲故事的人,缺的是真正高效的团队,能够将技术硬实力与足够「快」的迭代速度结合,从而脱颖而出。

「快」的最直接体现便是产品研发速度。2018 年 3 月成立的燧原科技,整个团队像齿轮般严密地咬合转动,精准执行了产品路线图。

2019 年底,燧原科技发布了第一代云端 AI 训练芯片邃思 1.0 和云燧 T10,实现燧原 1.0 的部署。2020 年,随着第一代训练及推理产品规模化落地,燧原科技将从客户处收集到的需求和反馈输入到第二代产品中。

2020 年以来,「从 1 到 N」的燧原 2.0 阶段顺利推进,陆续完成新融资、集群商用落地、第一代推理产品量产发布等重要节点。比如,2020 年 1 月,燧原科技启动了二代训练产品计划,同年 11 月,即进行了流片;2021 年 3 月,新产品成功被点亮,7 月,云端训练芯片「邃思 2.0」及训练产品「云燧 T20」发布。

不过,燧原科技的目标不止于此,不仅要实现产品层面的「训练 + 推理」的全生态布局和持续迭代,更要实现客户层面的闭环生态。就在前不久, 12 月 7 日,燧原科技发布了第二代云端人工智能推理加速卡「云燧 i20」——这是时隔仅五个月,继 7 月发布 「云燧 T20」之后,燧原科技推出的全新一代针对云端推理场景的 AI 加速产品。

新一代「云燧 i20」由 12nm 工艺打造,通过架构升级,大大提高了单位面积的晶体管效率,从而实现了与目前业内 7nm GPU 相匹敌的计算能力。综合来说,云燧 i20 拥有迄今为止业内最大的推理加速卡存储带宽,高达 819 GB/s,远超行业同类产品水平。单精度 FP32 峰值算力达到 32 TFLOPS,整型 INT8 峰值算力达到 256 TOPS。对比第一代推理产品,云燧 i20 将浮点算力提升到 1.8 倍,整型算力提升到 3.6 倍。

升级后的「驭算 TopsRider」软件栈,在性能、开发效率和模型覆盖面上得到大幅提升。通过引入通用高层图优化和大规模算子融合技术,充分释放了大容量片内存储和高带宽存储的利用率,将模型平均性能提升 3.5 倍,硬件算力利用率平均提升 2 倍;通过升级的编程模型以及算子自动分片、自动生成技术,自定义算子开发效率翻倍,模型迁移成本大大降低;此外,驭算增强了对动态性的支持,使云燧 i20 在检测、语音识别、语义理解等场景更具竞争力。

第二代训练和推理产品的接连发布意义非凡,意味着燧原科技已经在中国 AI 芯片领域奠定了自己的行业地位,产品能够持续迭代也意味着公司发展已经走向成熟,通过提供训练和推理的完整解决方案来满足客户的差异化需求。

成立三年多,燧原科技的产品迭代速度甚至超过了一些国际大厂。也正是这样的速度,让它成为了国内唯一一家同时拥有第二代云端训练和推理产品的人工智能芯片企业。

如今,搭载第一代邃思芯片的集群正在规模化落地,并且第一代训练及推理产品已产生过亿订单及收入,第二代产品云燧 T20 和 i20 加速卡将于明年上半年量产。

燧原科技创始人兼 COO 张亚林表示: 「在国内 AI 大芯片赛道上,燧原科技希望能够在未来三到五年内成为头部企业之一,作为领军企业为中国的数据中心服务。这是我们的初心和愿景,我们也走在正确的道路上。」

三,站在 AI 芯片的时代当口

所谓的「快」一方面是团队实力的体现,另一方面也反映了当下 AI 市场发展带来的压力。AI 芯片市场如逆水行舟,不「快」则退。

压力之一就是市场的快速扩张,诸多 AI 相关的市场报告指出,至少 5 年内,AI 市场将继续呈现疯狂增长的态势。比如在需求端,IDC 在《2021-2022 中国人工智能计算力发展评估报告》指出,超过一半的企业在 2020 年人工智能基础设施上的支出超过 1000 万美元,预计到 2025 年,全球人工智能服务器市场规模将超过 260 亿美元。

图:全球人工智能服务器市场及预测,2020-2025 (数据来源:IDC,单位:十亿美元)

在如此市场扩容的速度下,AI 企业都在想方设法尽快落地。燧原科技正在用实力打破 AI 芯片难落地的说法,其第一代人工智能训练产品「云燧 T11」正在之江实验室搭建千卡级别高性能计算液冷集群,在打造绿色智算中心项目中扮演重要角色。这意味着燧原科技已经开始打造从国家层面出发的低碳绿色数据中心,这充分符合国家关于碳中和、碳达峰的政策导向,是未来发展趋势。

除了之江实验室之外,燧原科技也正与上海交通大学、西安交通大学室等一系列产学研伙伴合作,通过现有产品不断打磨生态。如张亚林所说:「这是我们在整个系统化方面走出的坚实一步。」

「我们始终坚持技术领先的同时,要更加关注客户价值及产品落地,打磨产品基本面。」张亚林说, 蝉联‘中国芯 • 年度重大创新突破产品’是对我们过往成绩的认可,也激励和鞭策我们继续脚踏实地地前进。 未来,我们将用 5 年 3 代芯片,在 AI 芯片领域拉近与世界先进产品的距离,燧原正在有节奏、按计划、持续保持强有力的执行力,加速芯片和产品迭代。我们将继续坚持泛互联网、传统行业以及新基建三大业务方向,以全新更具竞争力的产品,服务市场和客户,全面且持续为客户创造价值。」

燧原科技诞生于 AI 火热时代——国际巨头争先入局、初创企业争先恐后、资本蜂拥而至、应用场景渴求落地……

在这样的时代里,三年两代产品迭代,连续两年获得全国性芯片大奖,燧原科技已经进入了发展的快车道,也正在改变中国 AI 芯片的格局。

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:content@jiqizhixin.com

登录查看更多
0

相关内容

半导体元件产品的统称。是集成电路(IC, integrated circuit)的载体,由晶圆分割而成。
1026页ppt!《智能电动车》投研大全
专知会员服务
41+阅读 · 2022年4月14日
《2021全球数据合规与隐私科技发展报告》重磅发布
专知会员服务
25+阅读 · 2022年1月6日
2021—2022中国人工智能计算力发展评估报告,36页pdf
专知会员服务
70+阅读 · 2021年11月6日
中国无线经济白皮书,49页pdf
专知会员服务
14+阅读 · 2021年10月21日
2021中国工业视觉行业研究报告
专知会员服务
54+阅读 · 2021年9月22日
专知会员服务
39+阅读 · 2021年9月17日
专知会员服务
212+阅读 · 2021年4月21日
【德勤】中国人工智能产业白皮书,68页pdf
专知会员服务
303+阅读 · 2019年12月23日
2019中国硬科技发展白皮书 193页
专知会员服务
82+阅读 · 2019年12月13日
冬奥的另一场角力,安踏实现中国式登顶
下一个风口是「中国乐高」?
36氪
0+阅读 · 2022年2月20日
OPPO首款自研芯片,AI算力超过了苹果A15
机器之心
0+阅读 · 2021年12月15日
战略|咨询公司在中国的困境与出路
智慧云董事会
16+阅读 · 2019年3月13日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年4月20日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
Arxiv
0+阅读 · 2022年4月14日
VIP会员
相关VIP内容
1026页ppt!《智能电动车》投研大全
专知会员服务
41+阅读 · 2022年4月14日
《2021全球数据合规与隐私科技发展报告》重磅发布
专知会员服务
25+阅读 · 2022年1月6日
2021—2022中国人工智能计算力发展评估报告,36页pdf
专知会员服务
70+阅读 · 2021年11月6日
中国无线经济白皮书,49页pdf
专知会员服务
14+阅读 · 2021年10月21日
2021中国工业视觉行业研究报告
专知会员服务
54+阅读 · 2021年9月22日
专知会员服务
39+阅读 · 2021年9月17日
专知会员服务
212+阅读 · 2021年4月21日
【德勤】中国人工智能产业白皮书,68页pdf
专知会员服务
303+阅读 · 2019年12月23日
2019中国硬科技发展白皮书 193页
专知会员服务
82+阅读 · 2019年12月13日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年4月20日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
Top
微信扫码咨询专知VIP会员