在 2026 世界智能产业博览会上,人工智能算力集群正朝着万卡、超十万卡的超大规模快速迈进,超算与 AI 融合发展迎来全新阶段。针对超大算力集群架构难题、高速互联技术价值等行业焦点问题,中科曙光高性能计算产品事业部总工程师万伟,解读大规模 AI 集群发展的技术痛点与核心突破方向。
当前 AI 算力集群规模化趋势愈发明显,万卡乃至超十万卡集群逐步从概念走向落地。谈及超大规模 AI 集群演进过程中,系统架构面临的全新技术挑战,万伟直言,传统集群扩展模式已难以适配当下发展需求。从实际应用来看,原有架构不仅无法兼顾成本控制与低延时运行两大核心诉求,架构革新迫在眉睫。
AI 集群属于典型的并行计算体系,规模不断放大后,细微的延时问题、偶发的设备故障,都会逐层传导,最终拖累整体作业运行效率。基于这一特性,系统稳定性与可靠性成为大规模集群首要攻克的难题,对整体架构设计提出了严苛考验。除此之外,集群体量暴涨,也让系统的管理、日常维护以及运行状态观测难度大幅提升,如何通过架构优化实现集群高效运维、全域可观测,同样是行业亟待解决的重点问题。
作为算力基础设施领域的深耕者,中科曙光多年来持续在高速互联技术领域发力创新。在万伟看来,高速互联早已成为 AI 时代不可或缺的底层基础技术,是算力价值充分释放的关键所在。他用通俗的比喻阐释其核心作用:“要想富,先修路。高速互联对于计算系统,就如同高铁交通网络对于城市发展。” 只有搭建起高效的数据传输通道,实现数据极速流转,每一颗计算芯片的算力潜能才能真正被激发。
不止于算力释放,高速互联更是 AI 集群实现规模化拓展的重要支撑。集群能够扩容至何种体量、多节点设备能否协同工作,核心取决于互联能力的强弱。同时,当集群达到万卡、十万卡级别后,稳定运行的保障能力也与高速互联深度绑定,优质的互联架构,是超大集群长期平稳运转的坚实底座。
当下,人工智能产业驶入发展快车道,算力集群向着更大规模、更高性能持续突破。中科曙光也将持续聚焦系统架构优化、高速互联技术迭代,直面大规模 AI 集群的各类技术挑战,以硬核技术助力产业算力基础设施高质量发展,为人工智能产业创新应用筑牢根基。
编辑:宁敏
责编:段少敏
审核:李国庆








