中科曙光万伟：万卡级 AI 集群落地遇多重挑战高速互联成算力释放核心基石

在 2026 世界智能产业博览会上，人工智能算力集群正朝着万卡、超十万卡的超大规模快速迈进，超算与 AI 融合发展迎来全新阶段。针对超大算力集群架构难题、高速互联技术价值等行业焦点问题，中科曙光高性能计算产品事业部总工程师万伟，解读大规模 AI 集群发展的技术痛点与核心突破方向。

当前 AI 算力集群规模化趋势愈发明显，万卡乃至超十万卡集群逐步从概念走向落地。谈及超大规模 AI 集群演进过程中，系统架构面临的全新技术挑战，万伟直言，传统集群扩展模式已难以适配当下发展需求。从实际应用来看，原有架构不仅无法兼顾成本控制与低延时运行两大核心诉求，架构革新迫在眉睫。

AI 集群属于典型的并行计算体系，规模不断放大后，细微的延时问题、偶发的设备故障，都会逐层传导，最终拖累整体作业运行效率。基于这一特性，系统稳定性与可靠性成为大规模集群首要攻克的难题，对整体架构设计提出了严苛考验。除此之外，集群体量暴涨，也让系统的管理、日常维护以及运行状态观测难度大幅提升，如何通过架构优化实现集群高效运维、全域可观测，同样是行业亟待解决的重点问题。

作为算力基础设施领域的深耕者，中科曙光多年来持续在高速互联技术领域发力创新。在万伟看来，高速互联早已成为 AI 时代不可或缺的底层基础技术，是算力价值充分释放的关键所在。他用通俗的比喻阐释其核心作用：“要想富，先修路。高速互联对于计算系统，就如同高铁交通网络对于城市发展。” 只有搭建起高效的数据传输通道，实现数据极速流转，每一颗计算芯片的算力潜能才能真正被激发。

不止于算力释放，高速互联更是 AI 集群实现规模化拓展的重要支撑。集群能够扩容至何种体量、多节点设备能否协同工作，核心取决于互联能力的强弱。同时，当集群达到万卡、十万卡级别后，稳定运行的保障能力也与高速互联深度绑定，优质的互联架构，是超大集群长期平稳运转的坚实底座。

当下，人工智能产业驶入发展快车道，算力集群向着更大规模、更高性能持续突破。中科曙光也将持续聚焦系统架构优化、高速互联技术迭代，直面大规模 AI 集群的各类技术挑战，以硬核技术助力产业算力基础设施高质量发展，为人工智能产业创新应用筑牢根基。

编辑：宁敏

责编：段少敏

审核：李国庆