ICC訊 2024年9月10日,海思光電先進(jìn)光電實(shí)驗(yàn)室主任滿江偉博士在第22屆訊石研討會(huì)的主論壇《光通信賦能算力底座》上發(fā)表了《從通算邁向智算,AI光互聯(lián)模塊技術(shù)演進(jìn)探討》的主題演講,分享智算中心網(wǎng)絡(luò)對光互聯(lián)的技術(shù)需求以及海思光電面向智算中心光互聯(lián)的星云系列光模塊產(chǎn)品和技術(shù)。
滿江偉博士在分享中指出:在過去的十?dāng)?shù)年的時(shí)間中,短距光模塊的應(yīng)用場景和技術(shù)規(guī)格經(jīng)歷了由電信運(yùn)營商網(wǎng)絡(luò)、通算數(shù)據(jù)中心網(wǎng)絡(luò)、AI智算中心網(wǎng)絡(luò)來驅(qū)動(dòng)演進(jìn)的不同階段。隨著大模型的爆發(fā)性發(fā)展帶動(dòng)了AI智算中心向超大規(guī)模集群演進(jìn),推動(dòng)著數(shù)通短距光模塊進(jìn)入新的發(fā)展階段。
AI智算中心向大規(guī)模集群演進(jìn)的過程中,由于采用了大規(guī)模并行計(jì)算,AI計(jì)算對光鏈路的可靠性和可用性提出了新的挑戰(zhàn)。海思對AI智算中心的故障進(jìn)行了大規(guī)模的深度數(shù)據(jù)分析,發(fā)現(xiàn)光纖鏈路臟污是首要問題,其導(dǎo)致的丟包會(huì)大幅降低AI智算中心集群的可用度;同時(shí),光模塊的隨機(jī)失效率也制約大模型運(yùn)行效率。為了提升AI集群的可用度,系統(tǒng)層面首先需要減少光纖鏈路臟污,同時(shí),光模塊需要針對性地提高自身的可靠性,協(xié)同網(wǎng)絡(luò)設(shè)備來保障AI集群的高可用和高可靠。
海思光電深度整合光電產(chǎn)業(yè)的關(guān)鍵技術(shù),與交換、計(jì)算相關(guān)領(lǐng)域進(jìn)行協(xié)同的規(guī)格定義和產(chǎn)品設(shè)計(jì),推出面向AI智算中心的星云系列光模塊,全面承載AI計(jì)算需求,提升AI智算網(wǎng)絡(luò)的效率,保障AI智算中心的高可用與高可靠。針對鏈路臟污問題,通過光鏈路故障高精度實(shí)時(shí)檢測與分析,實(shí)現(xiàn)主動(dòng)在線的光路診斷監(jiān)測預(yù)警和故障定界;同時(shí),依托多年在光芯片領(lǐng)域的技術(shù)積累,從產(chǎn)品定義、架構(gòu)設(shè)計(jì)、工藝實(shí)現(xiàn)等層面綜合保證光芯片的高性能及高可靠,顯著降低光模塊中激光器的失效率,支撐AI智算網(wǎng)絡(luò)的長期穩(wěn)定工作。
滿江偉博士最后指出,AI及AI智算網(wǎng)絡(luò)正處于前所未有的加速發(fā)展階段,這對光互聯(lián)既是機(jī)會(huì)也是挑戰(zhàn)。海思光電打造的星云系列光模塊將繼續(xù)適配AI智算網(wǎng)絡(luò)對光互聯(lián)的關(guān)鍵需求,賦能高可用、高可靠、智能化等業(yè)務(wù)場景,助力AI數(shù)據(jù)中心的蓬勃發(fā)展。