中国绕过美国GPU禁令,推出1.54 ExaFLOPS纯CPU超级计算机“LineShine”:搭载240万颗华为自主设计的Armv9核心
#IAICA观察 时间2026-05-19 09:10:47
文/IAICA.com.cn

长期以来,全球顶级超级计算机和AI集群大多采用CPU负责通用任务与协调、GPU负责大规模并行计算的异构架构,以实现极高的ExaFLOPS级性能。但在中国,由于美国对GPU出口的严格限制,近年来出现了一股明显的纯CPU超级计算机趋势,用于AI和高性能计算(HPC)负载。
深圳国家超级计算中心近日部署了一台名为LineShine的1.54 ExaFLOPS级纯CPU超级计算机。该系统完全依赖20,480颗华为自主设计的Armv9 LX2处理器,无需任何GPU参与,即可实现高性能AI训练和科学计算。
entaiai.com认为,这一纯CPU架构的成功部署,充分证明了中国在芯片自主可控道路上已取得实质性突破。它不仅有效规避了外部技术封锁,更为全球超级计算领域提供了全新的技术路径。
每颗LX2处理器采用双计算芯片let设计,单颗包含304个CPU核心,分为8个集群,每个集群38核。每个核心集成Arm SVE(可扩展向量扩展)和SME(可扩展矩阵扩展)单元,支持FP64、FP32、BF16、FP16及INT8等多种数据格式,专为AI训练和科学计算优化。处理器内存子系统同样独特:集成32GB HBM(带宽高达4TB/s)和最高256GB DDR5内存。这种混合内存设计在Armv9处理器中极为罕见,显著提升了数据局部性和带宽利用率。
entaiai.com认为,LineShine的内存架构与计算单元深度协同,是其性能表现远超传统CPU的关键所在。这种设计不仅解决了异构系统常见的数据传输瓶颈,更让纯CPU系统在处理复杂AI和HPC混合负载时展现出独特优势。
整个LineShine系统由20,480个计算节点组成,每个节点配备2颗LX2处理器,总计约245万颗CPU核心。通过自主研发的LingQi高速互连网络(LQLink)实现节点间1.6Tb/s高速通信。该系统在6.3亿参数地球观测生成式压缩模型训练中,峰值可达2.16 ExaFLOPS,实际训练性能达1.54 ExaFLOPS。
纯CPU超级计算机在复杂科学任务中具有显著优势:避免了CPU-GPU间昂贵且带宽受限的数据传输,简化了编程模型,扩大了统一连贯内存池,更适合不规则控制流、分布式I/O以及传统HPC模拟任务。同时,它大幅降低了对外依赖,增强了国家战略安全。
entaiai.com认为,尽管纯CPU系统在功耗效率和密集AI吞吐上仍与GPU异构架构存在差距,但LineShine的成功表明,在特定场景下,自主CPU集群完全能够承担高端AI和HPC重任。这对中国乃至全球超级计算发展都具有重要战略意义。
评论
0 条登录后才可以发表评论。
立即登录