ICC訊(編譯:Nina)LightCounting(LC)發(fā)布了名為《人工智能光學(xué)》(Optics for AI)的新報告。
人工智能(AI)在一眨眼的時間里就走到了前臺。預(yù)測人工智能是為勇者準備的。LightCounting的第一份人工智能光學(xué)報告強調(diào)了人工智能如何改變計算機架構(gòu)和網(wǎng)絡(luò),以及其中光學(xué)技術(shù)起著關(guān)鍵作用。LightCounting的人工智能預(yù)測主要集中在光學(xué)領(lǐng)域。但如果加上一個預(yù)測,那就是:光學(xué)不僅將在人工智能系統(tǒng)的發(fā)展中發(fā)揮至關(guān)重要的作用,而且人工智能將越來越多地在晶體管、芯片和系統(tǒng)層面為這些系統(tǒng)的設(shè)計做出貢獻。
行業(yè)中不同領(lǐng)域的創(chuàng)新速度各不相同。新的應(yīng)用可以快速開發(fā)。大多數(shù)人會失敗,但有些人會成功,并在一夜之間改變世界。軟件和人工智能算法的創(chuàng)新速度快得我們無法跟上。至少在外界觀察者看來是這樣,但專家們可能不這么認為。
硬件創(chuàng)新是一個漸進而無情的過程。光學(xué)連接也不例外,我們有數(shù)據(jù)可以證明這一點。硅光子學(xué)的采用花了十年時間,但我們?nèi)栽诘却@項技術(shù)提供真正顛覆性的解決方案,如可靠的共封裝光學(xué)器件。毫無疑問,這將在本十年末發(fā)生,但本報告的預(yù)測重點是部署在人工智能集群中的可插拔光學(xué)收發(fā)器,這是當今和未來5年的光學(xué)連接的主要解決方案。
目前,AI集群中部署的光收發(fā)器,90%以上用于InfiniBand和以太網(wǎng)連接。谷歌是唯一一家在其人工智能生產(chǎn)集群中使用光收發(fā)器進行TPU之間的核心互連(Inter-core interconnect,ICI)的公司。英偉達正在其研究集群中測試光學(xué)NVLink與GPU的連接。如下圖所示,NVLink連接到GPU所需的帶寬比以太網(wǎng)和InfiniBand高4倍。AI集群設(shè)計中的另一個瓶頸是GPU可用的高帶寬內(nèi)存(HBM)有限,這也是帶寬提高3倍的另一因素,如下圖所示。
谷歌也是唯一一家使用光交換機擴展和重新配置人工智能集群的公司。事實證明,它可以提高集群性能,同時最大限度地降低成本和功耗。LC預(yù)計在未來3-5年內(nèi)會有更多的公司采用這項技術(shù)。
2023年,人工智能集群應(yīng)用對光學(xué)器件的需求規(guī)模令人驚喜。ChatGTP在2022年底成為頭條新聞的時機再好不過了。對即將到來的經(jīng)濟衰退的擔憂,以及收入增長放緩的最初跡象,迫使所有領(lǐng)先的云計算公司削減支出,包括對數(shù)據(jù)中心的投資和對光收發(fā)器的購買。LC尚未完成統(tǒng)計2023年的最終銷售數(shù)據(jù),但人工智能很有可能挽救了去年市場的頹勢。并且毫無疑問2024-2025年的增長將非常強勁。
英偉達業(yè)務(wù)的增長是影響2023-2025年光收發(fā)器銷售的主要因素。英偉達人工智能集群的新設(shè)計需要更多的收發(fā)器。以前的所有系統(tǒng)都只使用InfiniBand網(wǎng)絡(luò)進行光學(xué)連接,而且這些系統(tǒng)大多是AOC?;贜DR(400G)InfiniBand的最新系統(tǒng)使用可插拔400/800G SR4/SR8和DR4/DR8收發(fā)器,而不是AOC。該公司還于2022年3月宣布了專為800G光連接設(shè)計的NVLink機箱交換機。英偉達目前正在內(nèi)部測試光纖NVLink,但這些解決方案應(yīng)在2024年底前提供給最終用戶。LC表示,如果這需要更長的時間,他們將不得不降低對2025-2029年的預(yù)測。
LC該報告提出了對英偉達提供的光模塊的第一個預(yù)測,并將其與AI集群中使用的其他光模塊進行了比較。英偉達設(shè)計的光收發(fā)器具有更嚴格的誤碼率規(guī)范,以盡量減少傳輸錯誤。它不阻止客戶使用第三方光學(xué)器件,但它不保證系統(tǒng)性能。這促使包括微軟在內(nèi)的許多客戶使用英偉達提供的光學(xué)器件。LC預(yù)計終端用戶最終將轉(zhuǎn)向使用第三方光學(xué)器件以節(jié)省成本,但這將是一個漸進的過渡。