ICC訊 2024年9月10日,海思光電先進(jìn)光電實驗室主任滿江偉博士在第22屆訊石研討會的主論壇《光通信賦能算力底座》上發(fā)表了《從通算邁向智算,AI光互聯(lián)模塊技術(shù)演進(jìn)探討》的主題演講,分享智算中心網(wǎng)絡(luò)對光互聯(lián)的技術(shù)需求以及海思光電面向智算中心光互聯(lián)的星云系列光模塊產(chǎn)品和技術(shù)。
滿江偉博士在分享中指出:在過去的十?dāng)?shù)年的時間中,短距光模塊的應(yīng)用場景和技術(shù)規(guī)格經(jīng)歷了由電信運營商網(wǎng)絡(luò)、通算數(shù)據(jù)中心網(wǎng)絡(luò)、AI智算中心網(wǎng)絡(luò)來驅(qū)動演進(jìn)的不同階段。隨著大模型的爆發(fā)性發(fā)展帶動了AI智算中心向超大規(guī)模集群演進(jìn),推動著數(shù)通短距光模塊進(jìn)入新的發(fā)展階段。
AI智算中心向大規(guī)模集群演進(jìn)的過程中,由于采用了大規(guī)模并行計算,AI計算對光鏈路的可靠性和可用性提出了新的挑戰(zhàn)。海思對AI智算中心的故障進(jìn)行了大規(guī)模的深度數(shù)據(jù)分析,發(fā)現(xiàn)光纖鏈路臟污是首要問題,其導(dǎo)致的丟包會大幅降低AI智算中心集群的可用度;同時,光模塊的隨機失效率也制約大模型運行效率。為了提升AI集群的可用度,系統(tǒng)層面首先需要減少光纖鏈路臟污,同時,光模塊需要針對性地提高自身的可靠性,協(xié)同網(wǎng)絡(luò)設(shè)備來保障AI集群的高可用和高可靠。
海思光電深度整合光電產(chǎn)業(yè)的關(guān)鍵技術(shù),與交換、計算相關(guān)領(lǐng)域進(jìn)行協(xié)同的規(guī)格定義和產(chǎn)品設(shè)計,推出面向AI智算中心的星云系列光模塊,全面承載AI計算需求,提升AI智算網(wǎng)絡(luò)的效率,保障AI智算中心的高可用與高可靠。針對鏈路臟污問題,通過光鏈路故障高精度實時檢測與分析,實現(xiàn)主動在線的光路診斷監(jiān)測預(yù)警和故障定界;同時,依托多年在光芯片領(lǐng)域的技術(shù)積累,從產(chǎn)品定義、架構(gòu)設(shè)計、工藝實現(xiàn)等層面綜合保證光芯片的高性能及高可靠,顯著降低光模塊中激光器的失效率,支撐AI智算網(wǎng)絡(luò)的長期穩(wěn)定工作。
滿江偉博士最后指出,AI及AI智算網(wǎng)絡(luò)正處于前所未有的加速發(fā)展階段,這對光互聯(lián)既是機會也是挑戰(zhàn)。海思光電打造的星云系列光模塊將繼續(xù)適配AI智算網(wǎng)絡(luò)對光互聯(lián)的關(guān)鍵需求,賦能高可用、高可靠、智能化等業(yè)務(wù)場景,助力AI數(shù)據(jù)中心的蓬勃發(fā)展。