中國聯(lián)通完成“AI大模型300公里跨域分布式協(xié)同訓(xùn)練”技術(shù)驗(yàn)證

訊石光通訊網(wǎng) 2025/1/6 9:57:46

  ICC訊 近日,在中國聯(lián)通集團(tuán)建設(shè)發(fā)展部,智算發(fā)展專班指導(dǎo)下,中國聯(lián)通研究院與上海分公司聯(lián)合產(chǎn)業(yè)合作伙伴,在中國聯(lián)通臨港智算中心成功完成AI大模型300公里分布式協(xié)同訓(xùn)練技術(shù)驗(yàn)證。通過智算、網(wǎng)絡(luò)多項(xiàng)創(chuàng)新技術(shù)的綜合運(yùn)用,實(shí)現(xiàn)了300公里跨域分布式訓(xùn)練等效算力達(dá)到單集群的95%以上,跨域帶寬收斂比大于16:1。充分驗(yàn)證了跨DC協(xié)同訓(xùn)練技術(shù)的商用可行性,為AI大模型訓(xùn)練模式提供了全新的解決方案。

  跨智算中心分布式協(xié)同訓(xùn)練存在兩大需求:一是大模型訓(xùn)練對算力的需求激增,但單體智算中心存在電力、空間等容量上限,超大規(guī)模的模型訓(xùn)練需要多DC資源協(xié)同;二是多租戶場景下產(chǎn)生了算力資源碎片化問題,亟需進(jìn)行多DC的空閑資源整合和利用。在此背景下,跨DC分布式協(xié)同訓(xùn)練興起,長距無損的聯(lián)算網(wǎng)絡(luò)技術(shù)成為剛需。

  中國聯(lián)通深耕長距無損網(wǎng)絡(luò)關(guān)鍵技術(shù),針對跨DC長距RDMA傳輸場景,創(chuàng)新長距擁塞控制和精準(zhǔn)流控協(xié)議,在智算網(wǎng)關(guān)實(shí)現(xiàn)近端擁塞的快速識別和反饋;同時通過優(yōu)化智算模型并行策略,適配廣域帶寬超大收斂比的解決方案,壓縮超大規(guī)模智算中心互聯(lián)場景中對拉遠(yuǎn)帶寬的巨額需求。積極開展智算網(wǎng)絡(luò)標(biāo)準(zhǔn)化工作,在ITU-T立項(xiàng)下一代網(wǎng)絡(luò)廣域無損管控功能要求Y.WALNC,在IETF推進(jìn)廣域無損需求和技術(shù)框架研究,在CCSA牽頭立項(xiàng)智算網(wǎng)關(guān)、長距擁塞控制技術(shù)要求等行業(yè)標(biāo)準(zhǔn),聯(lián)合產(chǎn)業(yè)伙伴共同構(gòu)建長距無損網(wǎng)絡(luò)技術(shù)生態(tài)。

  本次AI大模型300km跨DC分布式協(xié)同訓(xùn)練試點(diǎn)測試包含兩大亮點(diǎn):

  第一、創(chuàng)新運(yùn)用了新一代智算網(wǎng)關(guān)設(shè)備、精準(zhǔn)流控技術(shù)和并行方式優(yōu)化技術(shù),實(shí)現(xiàn)廣域收斂比不低于16:1。在跨300km協(xié)同訓(xùn)練場景下,針對不同廣域收斂比對大模型訓(xùn)練效率的驗(yàn)證,通過現(xiàn)網(wǎng)實(shí)測數(shù)據(jù)結(jié)果分析,針對廣域收斂比為4:1、8:1、16:1的場景,可實(shí)現(xiàn)百億大模型300km分布式訓(xùn)練性能均達(dá)到單智算中心訓(xùn)練性能的95%以上,使其具備真正意義上的商用可行性。

  第二、采用單波800G實(shí)現(xiàn)300km的傳輸,并驗(yàn)證其超高可靠的能力。本次跨DC拉遠(yuǎn)通過業(yè)界領(lǐng)先的800G光傳送解決方案實(shí)現(xiàn)超大帶寬和300km距離的傳輸,并進(jìn)行了多項(xiàng)可靠性功能測試,驗(yàn)證結(jié)果表明智算互聯(lián)需要抗多次故障帶寬不下降能力。

  中國聯(lián)通研究院副院長,首席科學(xué)家唐雄燕介紹,中國聯(lián)通建設(shè)了一張先進(jìn)的算力智聯(lián)網(wǎng)AINet,通過“IP+光”融合打造新質(zhì)運(yùn)力,以網(wǎng)強(qiáng)算,具備高通量、高性能、高智能的特點(diǎn)。AI大模型跨域分布式訓(xùn)練是AINet的典型應(yīng)用場景,本次測試驗(yàn)證為后續(xù)網(wǎng)絡(luò)建設(shè)提供了強(qiáng)有力的技術(shù)支持。

  上海聯(lián)通科技創(chuàng)新部總經(jīng)理吳昊表示,上海聯(lián)通將依托臨港智算中心優(yōu)勢,充分發(fā)揮“算網(wǎng)一體”的高品質(zhì)人工智能新型基礎(chǔ)設(shè)施資源稟賦,進(jìn)一步深化超長距離存算運(yùn)協(xié)同、無損網(wǎng)絡(luò)流量管控等重點(diǎn)方向科技創(chuàng)新的能力打造,面向智算集群生產(chǎn)經(jīng)營重點(diǎn)需求,持續(xù)推動算力與網(wǎng)絡(luò)的深度融合與高質(zhì)量發(fā)展。

  展望未來,中國聯(lián)通將攜手產(chǎn)業(yè)合作伙伴,發(fā)揮行業(yè)引領(lǐng)作用,借助AINet算力智聯(lián)網(wǎng),打通計算、網(wǎng)絡(luò)、安全多領(lǐng)域合作通道,推動關(guān)鍵技術(shù)的深度融合與創(chuàng)新發(fā)展,實(shí)現(xiàn)計算和網(wǎng)絡(luò)的一體化協(xié)同運(yùn)作,賦能產(chǎn)業(yè)的高質(zhì)量發(fā)展。

新聞來源:訊石光通訊網(wǎng)

相關(guān)文章