久久久久夜夜夜综合,国产精品VA在线观看无码不卡

ICC訊 今年來，生成式AI所需的超算集群開始有云計算服務的形態(tài)，成為了云基礎設施和光互聯(lián)產(chǎn)品的新增長引擎。相比通用彈性計算服務器集群所發(fā)生的變化。AI訓練的云基礎設施也在火熱的建設中。數(shù)據(jù)中心光互聯(lián)技術在AIGC時代發(fā)生了什么變化，如何才能更好的適應AI數(shù)據(jù)中心基礎設施的要求。在iFOC 2023上，云智能網(wǎng)絡研發(fā)事業(yè)部光網(wǎng)絡架構師陸睿發(fā)表了《AIGC時代對數(shù)據(jù)中心光互聯(lián)的新要求》的演講。

服務器方面，X86為核心的通用計算服務器升級為以GPU為核心的高性能計算服務器，功率更高、算力更強、集成度更高。網(wǎng)絡方面，數(shù)據(jù)中心以太網(wǎng)網(wǎng)絡基于RoCE的以太網(wǎng)或者IB的高性能網(wǎng)絡，高吞吐、超低時延和高可靠性。

AI超算網(wǎng)絡的互聯(lián)架構包含以太網(wǎng)、Infiniband、NVLink。陸睿對比了三種互聯(lián)架構之間的有點。以太網(wǎng)成本低、供應豐富，適合多租戶共享的超算基礎設施；Infiniband相對封閉，適合單一用戶建立獨享的超算基礎設施；NVLink用于GPU之間的高速互聯(lián)，開銷更小，帶寬更大，但最大256個節(jié)點。

陸睿表示：AI超算網(wǎng)絡的光模塊選擇傾向于選擇4通道QSFP光模塊，4通道激光器數(shù)量更少，有利于可靠性、光模塊內(nèi)部面積更寬裕，設計和制造難度小、光模塊功耗更低，系統(tǒng)散熱設計更容易。不同數(shù)據(jù)中心客戶根據(jù)自己的網(wǎng)絡架構特點選擇不同的光互聯(lián)技術方案（Form factor、光電通道數(shù)、通道速率）。技術本質基本一樣：單通道25G/56G/112G/224G。

AI需要更大的互聯(lián)需求量，接入方案已經(jīng)從DAC/AOC線纜變成了光模塊。每GPU卡和對應的同帶寬光模塊數(shù)量比例達到1:4～1:6。在Nvidia的DGX H100和GH200的網(wǎng)絡架構里加入了NVLink switch架構，進一步提升GPU之間的互聯(lián)帶寬。H100/H800的8卡服務器的對外NVLink帶寬是14.4T，每卡和光模塊（按400G算）數(shù)量比例達到1:9。

AI的發(fā)展有更高速率要求，傳統(tǒng)云計算市場在發(fā)生變化，對更高速率光模塊的需求在變緩，基礎設施投入進入精細化管控階段。目前超算集群性能的瓶頸仍在網(wǎng)絡帶寬，會成為新一代高速光模塊產(chǎn)品的主要需求推動力。

隨著交換機Serdes速率和數(shù)量的增加，現(xiàn)今，光模塊功耗占設備總功耗高達1/3。低功耗、低時延的光互聯(lián)技術更適合超算，陸睿對比了LPO/CPO/NPO技術的對比和選擇，他認為LPO優(yōu)點是兼顧可插拔和CPO的優(yōu)點，但系統(tǒng)集成難度大，技術約束多。CPO/NPO優(yōu)缺點都很明顯，尚待觀察。

光互聯(lián)在超算網(wǎng)絡中數(shù)量多且物理底層，對網(wǎng)絡整體穩(wěn)定性有關鍵性影響。光互聯(lián)如何滿足更高可靠性要求。陸睿提出研發(fā)引入階段：1.加強光芯片的可靠性認證測試。2.加強光模塊在研發(fā)和測試引入階段的可靠性認證測試。批量部署階段：1.嚴格執(zhí)行研發(fā)測試——小批量灰度測試——大批量部署的流程；2.加強光模塊在批量生產(chǎn)時的可靠性數(shù)據(jù)監(jiān)控；3.結合網(wǎng)絡監(jiān)控數(shù)據(jù)平臺、自動化運維監(jiān)控光模塊的運行情況；4.建立優(yōu)勝劣汰機制，選擇可靠性更優(yōu)的模塊技術、型號和廠家。

最后，在持續(xù)優(yōu)化的要求方面，陸睿講到目前IDC機房供電功率和散熱能力設計是為傳統(tǒng)云計算X86服務器設計的，不滿足GPU服務器的高密部署，低密度部署導致光纖連接距離變長，需要升級浸沒式液冷技術或其他效率更高的散熱技術。另外還提到新型光纖技術—空芯光纖，空芯光纖可做到3.3ns/m時延，相比普通光纖的5ns/m時延降低了33%，按照3跳交換機、每段鏈路平均距離50m計算，空芯光纖可縮短約單向0.34us時延，是一個值得期待的技術。

阿里巴巴云智能 陸睿：AIGC時代對數(shù)據(jù)中心光互聯(lián)的新要求

阿里巴巴云智能陸睿：AIGC時代對數(shù)據(jù)中心光互聯(lián)的新要求