中国填补国产智算系统“关键空白”
中华新闻网 2026-03-13 11:30
“十五五”规划纲要草案明确提出,要“统筹推进算力设施建设、模型算法发展和高质量数据资源供给,筑牢数智化发展底座”。算力是人工智能(AI)大模型训练和运行的基础,特别是超大规模智算集群已经成为全球AI竞争的制高点。中科曙光12日宣布突破高速网络的瓶颈问题,这也填补了中国发展智算系统的“关键空白”。
此次中科曙光发布的scaleFabric是国内首款原生无损RDMA(远程直接内存访问)高速网络,其技术规格全面对标英伟达NDR,部分指标实现赶超。它面向超大规模智算集群设计,从核心关键IP、交换芯片、网卡到交换机、驱动与管理软件均实现自主研发,构建起从硬件到软件的完整技术体系。
中国工程院院士邬贺铨在主题演讲中表示,当前AI全面普及,算力成为核心生产力,算力的竞争也升级为“算网存”协同的全生态的博弈。大模型的训练,智算集群的规模化部署,对网络提出了超低时延、超高带宽、全程无损的严苛要求,高速网络作为算力基础设施的核心关键技术,其自主可控性直接关乎国家算力基建安全与发展的质量。
现在超大规模集群服务是当前AI发展的底座,想要训练全球领先的大模型,万卡级甚至十万卡级的智算集群已经成为必备的技术基础。研究表明,在大规模分布式训练中,网络通信耗时占比已达到30%-50%,网络性能直接影响算力系统的整体效率。中科曙光高级副总裁李斌描述说,从过去的边缘计算到现在人工智能大模型的训练,其实对网络通信速度的要求越来越苛刻。对中小规模的算力系统来说,计算比网络的重要性略高,但是对于大规模算力系统而言,网络的重要性排在第一位。“计算决定了算力系统性能的上限,而网络决定了其能力的下限,如果网络拉胯的话,有可能会把整个性能归零。”
据《环球时报》记者了解,在大规模智算集群领域,RDMA网络凭借零丢包、高带宽、低延迟等特征,可极大提升通信效率,已成为算力中心的基本需求。
邬贺铨表示,在大模型训练和智算集群规模化部署背景下,网络需要同时具备超低延迟、超高带宽与无损传输能力,而RDMA高速网络正是智算集群的“算力大动脉”。其中InfiniBand网络架构凭借低时延与原生无损传输能力,在全球顶级超算与AI集群中被广泛采用。根据TOP500榜单,目前全球约60%的高性能计算系统都采用这种网络架构。
邬贺铨强调,高端高速网络市场被国外技术垄断,已成为我国算力产业自主发展的核心瓶颈之一。中国信通院云计算与数字化研究所云计算部副主任郑立介绍说,超大规模智算集群成全球AI竞争焦点,而当前智算网络普遍面临资源孤岛、时延过高、算网协同难等瓶颈,传统RDMA实现路径存在生态封闭或性能短板问题,倒逼行业走向融合与自研。
李斌表示,在实际应用层面,scaleFabric目前已部署于国家超算互联网郑州核心节点,支撑三套万卡级scaleX智算集群上线运行。随着scaleFabric的正式发布,国产原生RDMA技术路线正逐步走向成熟,围绕其形成的高性能网络产业生态也正在加速形成。
上一篇:钛杯钛餐具鱼龙混杂 行业整顿刻不容缓
下一篇:“中国购”正成为认识中国的新方式
评论排行
- · 中国电动自行车保有量超3亿 多 (2021-06-23)
- · 打造西北地区数字经济产业发展 (2022-12-15)
- · 斯里兰卡发生爆炸 旅行社紧急排 (2019-04-23)
- · 汉莎集团恢复对中国内陆客运航 (2020-06-24)
- · 金川集团“一带一路”盈车嘉穗 (2023-02-23)
- · 中国国家烟草专卖局:拟建立全 (2021-12-02)
- · 上海善盈科技有限责任公司简介 (2021-04-07)
- · 四部门发文部署遏制“天价”月 (2022-06-11)
- · 中国流浪野象群成世界明星 (2021-06-11)
- · 两高司法解释明确侵犯商业秘密 (2025-05-03)
- · 第四届进博会甘肃线上签约超 (2021-11-07)
- · 嫦娥六号落月是怎么落的?如何 (2024-06-02)