
21世纪经济报谈记者雷晨
当全球算力竞赛步入“万卡级”致使“十万卡级”时期,大模子进修的后果瓶颈正悄然从芯片算力转向收罗互联。
3月12日,在郑州精采发布全栈自研的400G无损高速收罗产物scaleFabric,成为国内首个在高端RDMA边界达成时候突破的厂商。从底层112G SerDes IP到表层照看软件,该系统均为100%自研产物,端到端时延低至0.9微秒,票据网互连范围达传统InfiniBand的2.33倍,表面最大支抓11.4万卡集群部署。
更具劝服力的是,这套国产收罗已在国度超算互联网位于郑州的中枢节点褂讪开动超10个月,相沿起3万卡范围的智算集群,承载确切大模子进修任务。
中科朝阳高等副总裁李斌在会后对21世纪经济报谈等媒体暗意:“从万卡到十万卡,最中枢的时候突破不在规划节点,而在互揣摸统。”
这符号着,中国在智算基础设施的关节一环——高速收罗边界,已从“跟跑”走向“并跑”,并试图以绽开生态解构的闭塞生态。
大模子进修对算力的需求早已不是隐痛,但一个容易被淡薄的事实是:当集群范围从千卡推广到万卡致使十万卡,规划节点之间的通讯后果,正成为决定全体算力把握率的关节变量。
李斌给记者算了一笔账:传统CPU规划节点,一台机器配一张网卡即可;如今以GPU为中心的规划节点,一台机器需要成立八张致使更多网卡。“比较本来的数据中心高速收罗用量,基本进步了10到20倍。”
这还仅仅端口数目的增长。更难办的问题在于,上万张卡需要在销亡时辰高度协同责任,任何一次收罗抖动、拥塞或丢包,都可能导致成百上千张卡过问恭候情景。用李斌的话说:“信得过让十万卡达成高效协同,能褂讪开动一两个小时,时候挑战至极大。”
中科朝阳这次发布的scaleFabric,中枢时候诡计为:端到端通讯时延低至0.9微秒,链路故障归附时辰小于1毫秒,票据网互连范围达到传统 InfiniBand(IB)的2.33倍,表面可支抓最大11.4万卡集群部署。
中科朝阳高速收罗互联产物部总工程师万伟指出,“0.9微秒的时延达到网卡性能上限”,跟英伟达CX7处于销亡水平。交换机方面,单端口带宽达800Gbps,整机交换容量可达双向 64Tbps。
这些数字的真义在于,至少在纸面参数上,国产高速收罗初度站到与英伟达NDR同台竞技的位置。
但参数归参数,信得过的考验在落地。
据李斌露出,该产物已在位于郑州的国度超算互联网中枢节点部署超10个月,相沿三套万卡级集群上线开动,总范围达3万卡。
这意味着,这套国产收罗系统已在确切的大范围并行进修任务中剿袭住考验。对任何一款硬件产物而言,省略在确切分娩环境中以近万卡范围抓续褂讪开动超10个月,自己即是比推行室测试更具劝服力的考证。
北京科技大学规划机与通讯学院储根深参与了相干应用沟通。他从用户角度给出另一维度不雅察:传统超算应用中,大批时辰亏空在通讯治安。硬件补皆通讯性能后,应用软件对规划资源的把握率可从60%-70%进步至80%、90%。
“这个上风会很大。”储根深说。
这背后是产业逻辑的升沉。往日寰球更热心单卡算力,如今系统协同后果正成为新的竞争焦点,而收罗,恰正是决定协同后果的中枢治安。
李斌直言:“咱们说的万卡也好,十万卡也好,其实都条目模子进修高度协同。范围扩到这样大,可靠性需要每一环都作念到极致,而收罗可靠性是未来的要点。”
时候诡计追上来仅仅第一步。在这个市集,信得过的壁垒并非硬件参数,而是生态。
英伟达InfiniBand的总揽地位,既来自时候积聚,也来自其从芯片到通讯库的完好意思闭环生态。储根深坦言,英伟达包括IB在内的生态与应用“都也曾作念得很沉静”,朝阳要在这一边界解围,生态设立“需要大环境和要点单元支抓”。
李斌并不隐蔽这一问题,在采访顶用大批篇幅阐释对生态的融会。
当先是对InfiniBand的定位。“从某种真义上说,英伟达体系内构建了自身闭环生态。”但李斌同期指出“它有我方的条约、法式组织,某种真义上亦然绽开的”。
中科朝阳的策略,AG游戏官网是在剿袭InfiniBand绽开性的基础上,糟蹋其在英伟达体系内的生意绑定。
“早期高速收罗中,InfiniBand为什么能崛起?相对绽开,相沿通盘社区开源体系构建闭塞式并行通讯库,这亦然绽开的体现。”李斌暗意,“咱们围剿袭InfiniBand绽开的部分,也会沿着这一想路鞭策。同期,咱们但愿翻开它在英伟达闭塞体系中的壁垒。”
斗鱼体育(DouYuSports)官网入口换言之,时候条约层面的绽开法式,中科朝阳会兼容与剿袭;而生意层面的软硬件紧缚,中科朝阳试图以更绽开的姿态进行解构。
具体若何鞭策?中科朝阳信息产业(北京)有限公司副总裁李柳给出三条旅途:第一,在光合组织下设立责任组,聚合国内协作伙伴建立相干法式;第二,打造生态适配系统,让更多用户使用,通过响应打磨产物;第三,聚合国内科研力量,完善产学研用体系。
李斌则更强调适配广度。“咱们这套系统,对英伟达老例产物,收罗接口给与法式接口,可与不同规划芯片达成互联。” 他露出,未来还将探索更高效的神气,举例规划芯片通过特有协同时候对接网卡,同期在生态体系内推动芯片互联条约分享。
中科朝阳这套嘱咐的中枢逻辑是:在英伟达一家独大的市集方法下,以实足绽开、可适配扫数国产算力芯片的收罗决策,争取但愿开脱单一厂商绑定的客户。
一个绕不开的问题是:这个市集到底有多大?
李斌判断:“市集容量和空间十分浩大。”依据很直不雅:端口用量在快速放大。高速收罗市集范围与端口数目告成相干,从CPU时期单台一张网卡,到GPU时期八张致使更多,这一乘数效应让市集范围进步10到20倍。
刻下市集主流玩家仍是英伟达,主要分为两条阶梯:一是InfiniBand,网卡和交换机基本被英伟达操纵;二是RoCE,交换机厂商可参与交换机治安,但网卡端英伟达依旧强势。
中科朝阳的产物定位,对准IB时候阶梯的国产化替代。“期待在IB时候阶梯上达成时候国产化替代,包括信得过达成市集占比替代。”李斌说。
但他同期强调,“咱们总体想路是,不搞一家独大,推动时候绽开,让市集蛋糕寰球分享。”
从客户类型看,现在对scaleFabric好奇瞻仰好奇瞻仰最高的主要有两类:一是科学工程规划;二是东谈主工智能进修与推理。李斌露出,落地契机至极多。
不外,关于具体客户名单与落地范围,李斌格调严慎。“我合计再过几个月,你再问这个问题,我能露出更多。” 背后原因在于,往日三个月,团队一方面在确切超大范围系统上抓续打磨产物,另一方面也在筹备产能,为范围化落地作念准备。
这是较为求实的表态。对高端硬件产物而言,从发布到大范围委派,中休止着工程化、供应链、褂讪性等一系列门槛。能在郑州万卡集群褂讪开动10个月,确认已迈过最难的关卡;但要信得过全面铺开,仍需时辰。
从战术层面来看,“十五五” 筹办明确建议构建一体化寰球算力网。在李斌看来,这一方向正稳步鞭策,不同布景的单元依托各自上风切入。运营商负责收罗基础设施设立,中科朝阳则更聚焦用户接口与表层管事。
他以超算互联网为例:往日科学家使用超算,需自行通过专科软件提交任务、分析戒指;如今接入AI智能体与大模子后,科学家只需奉告系统需要贬责的问题,智能体即可拆免除务、自动调用算力资源,最终致使能协助完成论文追念。
“未来的算力网会更逼近确切用户。”李斌说,“用户需要的不是冷飕飕的算力,而是一套能贬责本体问题的系统。”