支持百万卡扩展，中科曙光发布国内首个开放架构 AI 超集群系统

IT之家 2025-09-06 08:19:17

A+ A-

9月5日至8日，2025重庆世界智能产业博览会上，中科曙光发布了国内首个基于AI计算开放架构设计的产品——曙光AI超集群系统。该系统以GPU为核心，实现了“算、存、网、电、冷、管、软”一体化紧耦合设计，适用于万亿参数大模型训练推理、行业大模型微调、多模态大模型开发、AI4S等场景。

曙光AI超集群系统不仅通过紧耦合设计实现高效工作，还支持多种品牌AI加速卡，并兼容CUDA等主流软件生态，为用户提供更多开放性选择，降低硬件成本和软件开发适配成本，保护前期投资。

该系统的单机柜可搭载96张GPU卡，算力规模达百P级，访存总带宽超过180TB/s。系统支持多精度和混合精度运算，能够扩展至百万卡超大集群。千卡集群的大模型训练推理性能达到业界主流水平的2.3倍，开发效率提升4倍，人天投入减少70%。通过存算传协同，GPU计算效率提高了55%，采用先进冷板液冷技术，拥有394项节能设计，PUE低于1.12。

此外，曙光AI超集群系统具备121项设备和链路RAS可靠性设计，平均无故障时间（MTBF）提高2.1倍，平均故障修复时间（MTTR）降低47%。经过超过30天的长稳运行集群可靠性测试，系统能够实现百万级部件故障自动分析与秒级隔离。基于AI计算开放架构设计，硬件适配多品牌AI加速卡，软件兼容主流AI计算生态，多项技术能力开放与共享。

点击查看全文(剩余0%)

支持百万卡扩展，中科曙光发布国内首个开放架构 AI 超集群系统

热点新闻

精彩推荐