中国绕过美国GPU禁令，推出1.54 ExaFLOPS纯CPU超级计算机“LineShine”：搭载240万颗华为自主设计的Armv9核心_IAICA观察

AI照护资讯

首页 AI照护资讯 IAICA观察

中国绕过美国GPU禁令，推出1.54 ExaFLOPS纯CPU超级计算机“LineShine”：搭载240万颗华为自主设计的Armv9核心

#IAICA观察时间2026-05-19 09:10:47

文/IAICA.com.cn

长期以来，全球顶级超级计算机和AI集群大多采用CPU负责通用任务与协调、GPU负责大规模并行计算的异构架构，以实现极高的ExaFLOPS级性能。但在中国，由于美国对GPU出口的严格限制，近年来出现了一股明显的纯CPU超级计算机趋势，用于AI和高性能计算（HPC）负载。

深圳国家超级计算中心近日部署了一台名为LineShine的1.54 ExaFLOPS级纯CPU超级计算机。该系统完全依赖20,480颗华为自主设计的Armv9 LX2处理器，无需任何GPU参与，即可实现高性能AI训练和科学计算。

entaiai.com认为，这一纯CPU架构的成功部署，充分证明了中国在芯片自主可控道路上已取得实质性突破。它不仅有效规避了外部技术封锁，更为全球超级计算领域提供了全新的技术路径。

每颗LX2处理器采用双计算芯片let设计，单颗包含304个CPU核心，分为8个集群，每个集群38核。每个核心集成Arm SVE（可扩展向量扩展）和SME（可扩展矩阵扩展）单元，支持FP64、FP32、BF16、FP16及INT8等多种数据格式，专为AI训练和科学计算优化。处理器内存子系统同样独特：集成32GB HBM（带宽高达4TB/s）和最高256GB DDR5内存。这种混合内存设计在Armv9处理器中极为罕见，显著提升了数据局部性和带宽利用率。

entaiai.com认为，LineShine的内存架构与计算单元深度协同，是其性能表现远超传统CPU的关键所在。这种设计不仅解决了异构系统常见的数据传输瓶颈，更让纯CPU系统在处理复杂AI和HPC混合负载时展现出独特优势。

整个LineShine系统由20,480个计算节点组成，每个节点配备2颗LX2处理器，总计约245万颗CPU核心。通过自主研发的LingQi高速互连网络（LQLink）实现节点间1.6Tb/s高速通信。该系统在6.3亿参数地球观测生成式压缩模型训练中，峰值可达2.16 ExaFLOPS，实际训练性能达1.54 ExaFLOPS。

纯CPU超级计算机在复杂科学任务中具有显著优势：避免了CPU-GPU间昂贵且带宽受限的数据传输，简化了编程模型，扩大了统一连贯内存池，更适合不规则控制流、分布式I/O以及传统HPC模拟任务。同时，它大幅降低了对外依赖，增强了国家战略安全。

entaiai.com认为，尽管纯CPU系统在功耗效率和密集AI吞吐上仍与GPU异构架构存在差距，但LineShine的成功表明，在特定场景下，自主CPU集群完全能够承担高端AI和HPC重任。这对中国乃至全球超级计算发展都具有重要战略意义。

AI照护资讯

中国绕过美国GPU禁令，推出1.54 ExaFLOPS纯CPU超级计算机“LineShine”：搭载240万颗华为自主设计的Armv9核心

中国绕过美国GPU禁令，推出1.54 ExaFLOPS纯CPU超级计算机“LineShine”：搭载240万颗华为自主设计的Armv9核心

评论