ICC訊 2024年5月14-15日,由華為海思光電主辦,ICC訊石承辦的“2024芯?光論壇:芯光耀智算 互聯(lián)暢未來”會議在武漢光谷皇冠假日酒店圓滿舉辦。本次大會匯聚了近500位光電子領域專業(yè)人士,共同探討光電技術的演進趨勢,捕捉全球光電子產業(yè)的發(fā)展態(tài)勢。
其中,5月15日下午分論壇一《AI大模型下短距光互聯(lián)技術》圍繞AI領域的短距光互聯(lián)需求變化、技術演進和學術研究熱點等進行討論,探討了短距光互聯(lián)的未來。來自中國信通院、京東、騰訊、快手、銳捷網絡、華為海思光電、華中科技大學和北京理工大學的行業(yè)專家及學術大咖進行了深度的分析與探討。
趙文玉 中國信息通信研究院技術與標準所副所長
中國信息通信研究院技術與標準研究所副所長趙文玉發(fā)表了主題為《AI時代短距光互聯(lián)發(fā)展態(tài)勢探討》的演講。AI催生了海量的算力需求,互聯(lián)的瓶頸問題也隨即突出。單一的計算設備已經無法滿足算力需求,分布式架構需要通過多個GPU節(jié)點并行訓練,但不同節(jié)點之間需頻繁同步模型參數,網絡通信性能成為制約系統(tǒng)性能的關健瓶頸。同時,Al與光互聯(lián)雙向賦能,短距光互聯(lián)也在持續(xù)加速演進。
趙文玉提到,隨著數據中心、AI大模型等創(chuàng)新業(yè)務與應用的蓬勃發(fā)展,驅動短距光互聯(lián)持續(xù)向高速率、低能耗、低時延、高集成等方向發(fā)展。在產業(yè)化方面,800G已批量部署,1.6T尚處于技術攻關和產業(yè)應用研究階段,而3.2T因其對低能耗方案需求更強,還處在探索階段。另外在低能耗/低時延方面,LPO成為關注熱點,1.6T LPO樣品已經出現(xiàn)。在高集成方面,硅光在材料體系中占比提升,薄膜鈮酸鋰熱度上升,III-V集成與異質集成技術持續(xù)發(fā)展。
趙文玉還提到IPEC也在持續(xù)推動高速光互聯(lián)技術及標準化工作,并取得了階段性成果。建議產學研各單位聚焦Al+算力基礎設施等高質量發(fā)展需求,持續(xù)推動高速光互聯(lián)技術產業(yè)創(chuàng)新,支撐我國新質生產力發(fā)展!
陳琤 京東網絡架構師
京東科技信息技術有限公司網絡架構師陳琤發(fā)表了主題為《高性能計算網絡中的光互連》的演講。
陳琤提到,智算網絡光互連正在往高可擴展性、大帶寬、低成本、低功耗、低延時方向發(fā)展。關于GPU內部連接,連接問題不突出,可實現(xiàn)超高帶寬;而GPU出口現(xiàn)有方案采用PCIe連接,是計算節(jié)點間互聯(lián)的帶寬瓶頸,并行多路光引擎OIO方案是未來的方向。GPU的時延來自兩個方面——協(xié)議時延+數據鏈路。同時還提到,現(xiàn)如今硅光有了很好的介入點,AI是硅光光模塊發(fā)展的黃金時期,LPO方案在兼容互通方面還有很長的路要走。
總結而言,相較于傳統(tǒng)數通網絡,智算網絡帶寬的增長更迅速。而低成本互聯(lián)非常有賴于新技術。不同的模型對延時的要求不一樣,優(yōu)化的方向也有所區(qū)別。
胡勝磊 騰訊光系統(tǒng)架構師
騰訊控股有限公司光系統(tǒng)架構師胡勝磊發(fā)表了主題為《算力網絡中的光互聯(lián)技術趨勢探討》的演講。
胡勝磊提到,光互聯(lián)的“春風”正在吹來,由于AIGC業(yè)務的興起,光互聯(lián)已成為數據中心網絡硬件主角?,F(xiàn)階段光模塊供不應求,光互聯(lián)技術送代加速,光互聯(lián)已站在“風口”。同時硅光的重要性也凸顯了,可插拔批量占比攀升,CPO上無可取代;112G/224G有源銅纜(ACC)可支持單柜算力規(guī)模擴展。LRO的革新則需要支持互聯(lián)可插拔持續(xù)演進到224G。此外,異構互通也不可避免,端口問題感知明顯,協(xié)同度需要提升。
最后,胡勝磊還提到一些發(fā)散思考:如光芯片考慮集成有利于診斷的功能;選擇弱FEC,提升BER性能,實現(xiàn)降低網絡延遲;相比傳統(tǒng)MZ,DFB-RING集成芯片可行性;可插拔形態(tài)演進到OSFP-XD的16lane后,更多l(xiāng)ane通道的封裝“單排16,雙排32”如何考慮布局等。
曹世偉 北京快手光網絡架構師
北京快手科技有限公司光網絡架構師曹世偉發(fā)表了主題為《All in AI時代光互聯(lián)技術的應用探討》的演講。
曹世偉提到,大模型分布式訓練對網絡架構設計提出了更高的要求,傳統(tǒng)的電交換方案在成本、能耗、時延等方面存在諸多挑戰(zhàn),基于OCS的光電混合組網方案成為業(yè)界關注的焦點。
曹世偉還提到,隨著大模型訓練對算力需求的增長,GPU集群也再朝著更大規(guī)模方向演進。由于單DC的規(guī)模受供電等諸多因素的限制,因此通過跨AZ、Region的多集群聯(lián)合訓練也將成為必然。IPoDWDM相比于傳統(tǒng)方案,其跨機房鏈路的轉換減少50%,同時節(jié)省了電層設備,在時延、功耗、成本方面收益明顯。
最后總結提到,AI訓練對網絡的訴求:超大規(guī)饃超高帶寬、超低時延、超高穩(wěn)定性;而基于大矩陣OCS的混合光電組網可以擴大GPU集群規(guī)模、提升交付效率,小矩陣OCS可以實現(xiàn)交換機保護,實現(xiàn)網絡故障的快速自動恢復;單集群建設規(guī)模受限,未來會期待更多集群聯(lián)合訓練模式演進;距離更短、頻譜效率高、低成本的IPoDWDM方案更具優(yōu)勢;城域全光網及全自研的管控平臺助力實現(xiàn)更高效、更穩(wěn)定、更智能化的機房互聯(lián)。
蘇展 銳捷網絡光系統(tǒng)工程師
銳捷網絡股份有限公司光系統(tǒng)工程師蘇展發(fā)表了主題為 《AI場景短距和超短距光互連發(fā)展趨勢分析和展望》的演講。
蘇展開篇介紹了業(yè)內通用短/中/長距光互聯(lián)的情況,即隨波特率送代升級:單模相干方案下沉擠壓單模IMDD方案;單模IMDD方案下沉擠壓多模VCSEL短距互聯(lián)應用;多模VCSEL光方案下沉擠壓電纜超短距互聯(lián)應用;從而總結出光方案下沉的整體趨勢,并詳細分析了光電互聯(lián)邊界。
接下來,蘇展提到AI系統(tǒng)對光互聯(lián)提出低成本、低功耗、低延時、高可靠性和高密度幾大需求背景下,短距光互聯(lián)的幾大挑戰(zhàn):多模產業(yè)鏈滯后效應、多模近封裝系統(tǒng)可靠性、單模共封裝方案面板密度;而且在光電聯(lián)合設計的章節(jié)中提到,LPO投入產出比隨速率演進下降問題和多模及單模WDM的LPO隨速率演進傳輸距離壓縮問題,最后得出線性架構未來向板內發(fā)展的趨勢性結論。
最后,蘇展介紹了224G VCSEL Linear 10m超短距傳輸提案和與硅光CPO配合的直通可插拔AOC提案。
侯康 華為海思光電資深產品規(guī)劃經理
華為海思光電資深產品規(guī)劃經理侯康發(fā)表了主題為《AI場景光互聯(lián)技術方案選擇與挑戰(zhàn)》的演講。
侯康提到,隨著AI蓬勃發(fā)展,算力網絡中的高速互聯(lián)成為提升算力的關鍵,而超大規(guī)模計算集群互聯(lián)即是AI算力提升的重要方向,也是提升系統(tǒng)集群算力的關鍵一環(huán)。同時還提到算力需求引領光互聯(lián)邁向Beyond 400G時代,國內以400G為主,800G主要需求來自海外;1.6T還只是在預熱。另外“更高更快更多通道”是光模塊實現(xiàn)大帶寬的關鍵技術路徑,在低功耗、低時延上,LPO具備相對優(yōu)勢,但持續(xù)演進仍有待討論。
董建績 華中科技大學教授
華中科技大學教授董建績發(fā)表了主題為《光電計算芯片與人工智能應用》的演講。
董老師提到,隨著人工智能技術的飛速發(fā)展和廣泛應用,光計算和光子集成技術、人工智能技術相結合有望解決傳統(tǒng)電學計算無法解決的難題,產生顛覆性和變革性技術和應用。董老師從學術界角度聚焦討論可重構光子神經網絡芯片,可重構MZI光學矩陣運算、可重構片上衍射神經網絡、可重構微環(huán)陣列光學矩陣運算等三類典型的計算架構,及其在人工智能領域的應用。最后董老師提到光計算的核心是算力、能耗、精度、集成度、非線性等。
胡善亭 北京理工大學副研究員
北京理工大學副研究員胡善亭發(fā)表了主題為《面向算力網絡Tbit光互連技術的超高速直接調制VCSEL研究》的演講。
胡老師提到研究下一代Tbit光互連技術,對我國構筑高品質算力網絡全光底座、促進數字經濟和智能社會的持續(xù)發(fā)展具有重要意義。而超高速直接調制VCSEL技術,是實現(xiàn)低成本、高能效、大容量光互連的重要解決方案,既是國內外光電子領域的研究熱點,也是我國亟待攻克的關鍵卡脖子技術之一。胡老師主要分析了VCSEL因其固有的優(yōu)勢,在數通領域大放光彩的過往。并介紹了課題組在VCSEL調制帶寬及能耗方面取得的研究結果。
觀眾提問
分論壇1現(xiàn)場
總 結
AI大規(guī)模集群帶來更多的光互連需求,面對下一代短距光互聯(lián)技術,高性能、低時延、大容量和高密度已成為行業(yè)關注的共識。此外,AI訓練和推理對集群存在差異化需求,催化新的基礎設施建設,光互聯(lián)將迎來長期增長機遇。