国科网

2026-05-31 23:03:10  星期日
立足国科融媒,服务先进科技
中科曙光万伟:万卡级 AI 集群落地遇多重挑战 高速互联成算力释放核心基石

点赞

0
发布时间:2026年05月31日 浏览量:0次 所属栏目:制造 发布者:田佳恬

在 2026 世界智能产业博览会上,人工智能算力集群正朝着万卡、超十万卡的超大规模快速迈进,超算与 AI 融合发展迎来全新阶段。针对超大算力集群架构难题、高速互联技术价值等行业焦点问题,中科曙光高性能计算产品事业部总工程师万伟,解读大规模 AI 集群发展的技术痛点与核心突破方向。

当前 AI 算力集群规模化趋势愈发明显,万卡乃至超十万卡集群逐步从概念走向落地。谈及超大规模 AI 集群演进过程中,系统架构面临的全新技术挑战,万伟直言,传统集群扩展模式已难以适配当下发展需求。从实际应用来看,原有架构不仅无法兼顾成本控制与低延时运行两大核心诉求,架构革新迫在眉睫。 

AI 集群属于典型的并行计算体系,规模不断放大后,细微的延时问题、偶发的设备故障,都会逐层传导,最终拖累整体作业运行效率。基于这一特性,系统稳定性与可靠性成为大规模集群首要攻克的难题,对整体架构设计提出了严苛考验。除此之外,集群体量暴涨,也让系统的管理、日常维护以及运行状态观测难度大幅提升,如何通过架构优化实现集群高效运维、全域可观测,同样是行业亟待解决的重点问题。 

作为算力基础设施领域的深耕者,中科曙光多年来持续在高速互联技术领域发力创新。在万伟看来,高速互联早已成为 AI 时代不可或缺的底层基础技术,是算力价值充分释放的关键所在。他用通俗的比喻阐释其核心作用:“要想富,先修路。高速互联对于计算系统,就如同高铁交通网络对于城市发展。” 只有搭建起高效的数据传输通道,实现数据极速流转,每一颗计算芯片的算力潜能才能真正被激发。 

不止于算力释放,高速互联更是 AI 集群实现规模化拓展的重要支撑。集群能够扩容至何种体量、多节点设备能否协同工作,核心取决于互联能力的强弱。同时,当集群达到万卡、十万卡级别后,稳定运行的保障能力也与高速互联深度绑定,优质的互联架构,是超大集群长期平稳运转的坚实底座。 

当下,人工智能产业驶入发展快车道,算力集群向着更大规模、更高性能持续突破。中科曙光也将持续聚焦系统架构优化、高速互联技术迭代,直面大规模 AI 集群的各类技术挑战,以硬核技术助力产业算力基础设施高质量发展,为人工智能产业创新应用筑牢根基。

编辑:宁敏

责编:段少敏

审核:李国庆

 


分享说明:转发分享请注明出处。

    相关图讯
    网站简介  |   联系我们  |   广告服务  |   监督电话
    本网站由国科网运营维护 国科网讯(北京)技术有限公司版权所有  咨询电话:010-88516927
    地址:北京市海淀区阜石路甲69号院1号楼1层一单元114
    ICP备案号:京ICP备15066964号-8   违法和不良信息举报电话:010-67196565
    12300电信用户申诉受理中心   网络违法犯罪举报网站   中国互联网举报中心   12321网络不良与垃圾信息举报中心   12318全国文化市场举报网站
    代理域名注册服务机构:阿里巴巴云计算(北京)有限公司