欢迎访问深圳市中小企业公共服务平台电子信息窗口
美国企图扼住我国超算“命运”,自研处理器再次打脸老美
2023-12-22 来源:贤集网
217

关键词: 英特尔 AMD 芯片

在2009年的时候,中国基于intel的CPU、AMD的GPU研发出了第一代天河一号超级计算机,在2009年时排名全球第四。

而在2013年的时候,中国将天河一号升级为天河二号,使用的是Intel Xeon E5-2692 12核处理器及Xeon Phi 31S1P加速卡,当年中国的天河二号排名全球第一,峰值性能是54.9PFLOPS,也就是5.49亿亿次。

并且在2013年至2016年间,中国的天河2号,连续6次排名TOP500的第一名。



超级计算机有多重要,就不用大家多说了,所以美国肯定不愿意看到中国的超级计算机这么牛,于是在2015年年的时候,美国禁止intel、AMD等公司,向中国出口高性能计算芯片。

那中国的超级计算机怎么办?


用国产芯片顶上

后来中国采用Alpha架构,再拓展SW64指令集,研究出了申威处理器26010。

基于26010这款国产CPU,中国在2016年就推出了神威.太湖之光,在2016年6月20日的TOP500榜单中,太湖之光算力全球第一,达到125PFLOPS,也就是12.5亿亿次每秒,并且是超第二名近三倍的运算速度夺得第一。

后来从2016年到2017年,神威.太湖之光,连续4次TOP500榜上排名全球第一。直到2018年才被美国的“顶点”超过。

但事实上,太湖之光的规模还可以扩大,如果扩大到120个机柜,那么其峰值性能将达到1.72 Exaflops,超过当前最强的美国“Frontier”(1.68 Exaflops),排名全球第一。而在160个机柜的条件下,可以达到性能2.3 Exaflops。

前段时间网上还曝光了申威26010芯片的加强版SW26010 Pro,性能更强,且已用于超算神威.海洋之光,性能早超过了百亿亿次,只是没对外公开。

除了神威太湖之光之外,曾经最牛的天河二号,在intel芯片被禁用后,也走出了自研之路,后来推出了国产加速器Matrix 2000,用来取代原本的Intel Xeon Phi加速器。

使用这款国产CPU后,天河二号的升级版本叫做天河2A,峰值性能从之前的54.9PFLOPS提升到了100PFLOPS左右。

而近日,天河2A的升级版本,“天河星逸”超级计算机正式发布,这台超级计算机采用的是Matrix 3000处理器,纯国产。



“天河星逸”的性能革命!

相比于前代的“天河二号”,“天河星逸”在通用CPU计算能力、网络能力、存储能力以及应用服务能力等方面实现了倍增。

据国家超算广州中心主任卢宇彤介绍,“天河星逸”支持高性能计算、AI大模型训练以及大数据分析等多种应用场景的需求,其强大的高端算力与平台支撑将为广州市、广东省乃至整个粤港澳大湾区的前沿科技突破、战略工程建设和产业升级转型注入强大动力。

然而,“天河星逸”的威力远不止于此。国家超算广州中心副主任陈志广透露,这款超算系统采用了最先进的超算技术,相比原有系统,在通用算力上提升了5倍,并且强调了应用能力的提升。这意味着,“天河星逸”的峰值算力已经达到了约600 PFlop/s(每秒50亿亿次)的惊人水平。

2017年9月份,广州超算中心宣布升级天河二号超算系统,使用国产加速器Matrix 2000取代原本的Intel Xeon Phi加速器。Matrix 2000的整数架构基于ARM,但矢量单元是我们自定义的256bit VFU矢量单元。每个Matrix 2000由128个内核组成,频率为1.2GHz,每周期能执行16个双精度运算,处理器峰值性能为2.45TFLOPS。升级后的天河二号被称为天河2A,峰值性能提升到了100PFLOPS左右。

如今,“天河星逸”的出现,无疑是这一发展历程中的又一座里程碑。它不仅在性能上实现了质的飞跃,更展示了我国在超算领域的自主创新能力和坚定决心。


下一代神威

除了天河外,中国的另一大超算系列神威也没有闲着。在今年的 SC23 上,虽然我们没有看到新的中国超算上榜,但申威终于展示了新SW26010 Pro 众核处理器以及下一代神威超算的性能。

此次SW26010 Pro 依然是采用异构众核的设计,与 SW26010 4个 Core Group 的设计相比,SW26010 Pro采用了 6 个 Core Group 的设计,每个 Core Group由 64 个CPE计算核心和一个MPE 管理核心组成,单芯片核心数达到了 390 个。根据申威提供的数据,其峰值 16bit 浮点算力可达55.296Tflop/s。

相较上一代 SW26010 DDR3-2133所提供的136.5GB/s 总内存带宽,此次 SW26010 Pro 升级支持了 DDR4-3200,理论内存带宽可达 307.2GB/s。这与其他超算芯片的内存带宽表现还是有着较大的差距,也就导致了计算和网络活动争抢内存带宽的局面,同步内存访问下,NIC 只能实现 9.87GB/s 的带宽,离理论网络带宽 56.25GB/s相差甚远。

不过在具体性能表现上,基于这一处理器的新神威超算却在 HPL-MxP榜单上排到第二的位置。从其数据来看,新的神威超算核心数达到 4114万224 个,在 HPC 与 AI 计算同等重要的 HPL-MxP 测试下可以达到 5.048Eflop/s 的性能,仅次于 Frontier。峰值半精度性能达 5.92Eflop/s,半精度浮点效率高达 85%,这样的销量也是一众异构超算系统中最高的,仅次于非异构的富岳超算。



写在最后

在推动数字经济持续发展的当下,算力并网已经成为了解决算力分布不均、供需失衡的关键方案之一,而超算恰恰是除了通算、智算之外的另一大重要应用。目前粤港澳大湾区拥有较为丰富的超算资源,打造多模式的融合应用支撑平台,加快多方并网生态构建,将成为推动算力规模突破 10Eflops 的关键路径。