利用芯片到芯片的光學(xué)互連來釋放人工智能的全部潛力

訊石光通訊網(wǎng) 2023/5/12 16:32:14

  共封裝光學(xué)器件(CPO)由于其在數(shù)據(jù)中心的電源效率,最近獲得了關(guān)注。雖然大多數(shù)針對網(wǎng)絡(luò)應(yīng)用的CPO的主要支持者,由于宏觀經(jīng)濟的阻力而停止了CPO計劃,但用于人工智能(AI)和機器學(xué)習(xí)(ML)系統(tǒng)的CPO的情況卻有所不同。人工智能模型對計算能力、存儲和數(shù)據(jù)移動有著永不滿足的需求,而傳統(tǒng)架構(gòu)正在成為擴展ML的主要瓶頸。因此,為HPC和新的分布式系統(tǒng)架構(gòu),出現(xiàn)了新的光學(xué)互連。Yole集團旗下的Yole Intelligence在其新報告《數(shù)據(jù)中心的共封裝光學(xué)技術(shù)》中對此進行了回顧。用于xPU、內(nèi)存和存儲的封裝內(nèi)光學(xué)I/O技術(shù)可以幫助實現(xiàn)必要的帶寬。此外,未來數(shù)十億個光互連的潛力正在推動大型代工廠為設(shè)計公司的任何PIC架構(gòu)的大規(guī)模生產(chǎn)(包括硅光子學(xué)工藝流程)做準(zhǔn)備。2022年CPO收入約為3800萬美元,預(yù)計2033年將達到26億美元,2022-2033年年均復(fù)合增長率為46%,受AI/ML裝備中數(shù)據(jù)加速傳輸?shù)耐苿印?

  AyarLabs的TeraPHY?光學(xué)I/O芯片和SuperNova?光源的結(jié)合,以更低的延遲、更遠的距離和現(xiàn)有電氣I/O解決方案的一小部分功率,大幅提高帶寬。其封裝內(nèi)部的光學(xué)I/O解決方案正在顛覆半導(dǎo)體和計算行業(yè)的傳統(tǒng)性能、成本和效率曲線。Yole Intelligence的高級分析師Martin Vallo有幸采訪了Ayar實驗室商業(yè)運營副總裁Terry Thorn,討論了數(shù)據(jù)中心應(yīng)用的光互連的當(dāng)前趨勢。

  Martin Vallo: 我們的最后一次采訪是在2021年,當(dāng)時你介紹了你的突破性光學(xué)I/O解決方案,實現(xiàn)了計算芯片之間的光通信?,F(xiàn)在你們有什么新情況?

  Terry Thorn: 在過去的18個月里,我們啟動了幾個備受矚目的戰(zhàn)略伙伴關(guān)系,同時也與大批量的代工廠、激光器和供應(yīng)鏈合作伙伴建立了關(guān)鍵關(guān)系。2022年開始,我們慶祝了與惠普企業(yè)的戰(zhàn)略合作。此后不久,Global Foundries宣布了其新的Fotonix制造工藝,我們在2021年6月的OFC2022上用它來展示了我們的第一個工作硅。

  其他重要的里程碑包括我們1.3億美元的C輪融資,以及與GPU和人工智能強手英偉達和領(lǐng)先的航空航天和國防承包商洛克希德-馬丁公司合作開發(fā)光互連。在2022年結(jié)束時,我們與美國國防部簽訂了1500萬美元的多年期項目KANAGAWA,該項目將促進Ayar Labs光學(xué)互連的下一步發(fā)展,引領(lǐng)其過渡到國防部的先進封裝生態(tài)系統(tǒng)。

  最近,我們舉行了一次光學(xué)I/O解決方案的現(xiàn)場演示,成功展示了每秒4兆比特(雙向)的數(shù)據(jù)傳輸。我們還在生態(tài)系統(tǒng)合作伙伴的展位上展示了我們的技術(shù),包括Global Foundries、Quantifi Photonics和Sivers Photonics。在今年的OFC上,我們在封裝邊緣與英特爾的可拆卸光學(xué)連接器的解決方案原型的揭幕,也引起了很多人的興趣。在傳統(tǒng)的邊緣耦合方法中,光纖帶是用環(huán)氧樹脂永久地連接到V型槽中的??刹鹦妒焦膺B接器提供了一種更換光纖帶的方法。仍在開發(fā)中的可拆卸式光連接器有希望獲得更高的封裝產(chǎn)量和易于現(xiàn)場更換。

  我們還看到,使用芯片粒(chiplets)的趨勢越來越強,并有強大的標(biāo)準(zhǔn)化努力來實現(xiàn)一個開放的芯片生態(tài)系統(tǒng)。這是一個重要的發(fā)展,與我們以芯片粒形式提供光學(xué)I/O解決方案的愿景是一致的。

  Ayar Labs的TeraPHY?光學(xué)I/O芯片具有4 Tbps的雙向帶寬,低于5pJ/b,每個芯片粒+TOF的延遲為5ns,覆蓋范圍從毫米到公里。由Ayar Labs提供,2023年。

  Martin Vallo:我們觀察到人們對CPO的興趣減少了,特別是對交換機的應(yīng)用。然而,高性能計算對光I/O的需求仍在繼續(xù)。這其中的根本原因是什么?

  Terry Thorn:光I/O更適合于高性能計算(HPC)和人工智能(AI)/機器學(xué)習(xí)(ML)應(yīng)用,在這些應(yīng)用中,你需要分布式計算和共享內(nèi)存容量,以滿足對性能、功率和帶寬的要求,同時不增加延遲。采用波分復(fù)用(WDM)和簡單調(diào)制的光I/O所需的功率要小得多,并允許更大的密度:低至幾pJ/bit,帶寬密度高達1 Tbps/mm,導(dǎo)致僅有幾納秒的延遲,而CPO往往使用復(fù)雜的調(diào)制方案,則需要數(shù)百納秒。

  此外,作為一個電光收發(fā)器,光I/O使用一個微鏡調(diào)制器結(jié)構(gòu),需要更小的芯片面積,從而降低了成本。例如,我們的微鏡調(diào)制器的尺寸大約是Mach-Zehnder調(diào)制器的百分之一。最后,光輸入/輸出采用波分復(fù)用技術(shù),允許將多個數(shù)據(jù)流裝入一根光纖,以實現(xiàn)非常高的吞吐量。

  Martin Vallo:光學(xué)I/O的第一個實際應(yīng)用將是什么,我們什么時候可以期待一個公告?在我們看到AI/ML系統(tǒng)中的第一個光I/O之前,有哪些挑戰(zhàn)需要克服?

  Terry Thorn:我們看到許多不同的應(yīng)用都遇到了同樣的功率、性能和延遲挑戰(zhàn),而每一種應(yīng)用都對光I/O有強烈的需求:

  人工智能和HPC:AI/ML和HPC應(yīng)用需要一個分布式的加速器網(wǎng)絡(luò)來分散計算和共享內(nèi)存容量。在內(nèi)存容量方面,一個擁有數(shù)千億個參數(shù)的AI/ML模型可能需要高達2TB的內(nèi)存容量來存儲中間計算結(jié)果。當(dāng)你在一個集群中連接數(shù)百個GPU,使每個GPU都能與其他GPU對話時,每個GPU所需的數(shù)據(jù)吞吐量會迅速增加。這給帶寬密度帶來了巨大的壓力,這是衡量每個封裝邊緣或區(qū)域所能實現(xiàn)的數(shù)據(jù)吞吐量。光學(xué)I/O對于實現(xiàn)所需的帶寬密度、功率和延遲性能指標(biāo)以實現(xiàn)更大的集群是至關(guān)重要的。

  高帶寬內(nèi)存(HBM)擴展器:一個GPU通常被兩到四個本地內(nèi)存HBM堆棧所包圍,每個都有大約64GBytes的內(nèi)存容量。對于HPC和AI/ML應(yīng)用,這個容量是不夠的。HBM內(nèi)存擴展器可用于增加內(nèi)存容量至數(shù)百GB字節(jié)或更多。由于內(nèi)存應(yīng)用對延遲非常敏感,使用光學(xué)I/O鏈路來連接GPU和擴展器內(nèi)存模塊是必要的。僅僅由于延遲問題,可插拔光學(xué)器件或CPO光學(xué)器件是不適合的。

  內(nèi)存池和可組合的基礎(chǔ)設(shè)施:隨著云計算基礎(chǔ)設(shè)施處理動態(tài)變化的工作負載,靈活的匯集和共享內(nèi)存的功能正變得至關(guān)重要。愿景是將基于工作負載的集群與所需的CPU、GPU、內(nèi)存和存儲資源組合在一起,實現(xiàn)高性能和低延遲。隨著CXL?標(biāo)準(zhǔn)的采用,光學(xué)I/O互連正在成為關(guān)注點。

  用于航空航天和國防的傳感系統(tǒng):在這個方面,反映了我們最近宣布與洛克希德-馬丁公司的戰(zhàn)略合作,光學(xué)I/O被用來捕獲、數(shù)字化、傳輸和處理光譜信息。將高密度、高效率的光學(xué)I/O芯片粒,與射頻處理設(shè)備置于同一封裝中的多芯片封裝解決方案將被用于相控陣孔徑,以連接系統(tǒng),做出更智能、更快速的決策。

  目前,光學(xué)I/O的主要挑戰(zhàn)是生態(tài)系統(tǒng)的發(fā)展,這需要許多公司的協(xié)調(diào)。我們正在與廣泛的合作伙伴合作,促進該生態(tài)系統(tǒng)的發(fā)展。至于這些應(yīng)用的首次公布,考慮到現(xiàn)有的市場需求,我們預(yù)計這些應(yīng)用會來得更早而不是更晚,也許在未來一年左右。

Ayar Labs的TeraPHY?光學(xué)I/O晶圓來自Global Foundries Fotonix?單片RF-CMOS平臺。由Ayar實驗室提供,2023年。

  Martin Vallo:光學(xué)I/O性能使xPU能夠在從毫米到兩公里的廣泛距離內(nèi)相互通信。因此,預(yù)計AOC(以太網(wǎng))和光學(xué)I/O(CXL、UCIe)之間會有激烈的競爭。這兩種技術(shù)之間的斗爭將如何進行?

  Terry Thorn:以太網(wǎng)應(yīng)用和以計算或內(nèi)存為中心的應(yīng)用之間有明顯的區(qū)別,所以我們不認為AOC是一個直接的競爭對手。在以計算或內(nèi)存為中心的互連協(xié)議中,Compute Express Link?(CXL)和Universal Chiplet Interconnect Express?(UCle?)是互補的。CXL是一個較高層次的協(xié)議,傳統(tǒng)上在PCIe物理層上運行。最近,CXL已被擴展到也可與UCIe物理層一起工作。對于機架內(nèi)或跨機架的片外連接,使用光I/O技術(shù)構(gòu)建的UCIe光復(fù)接器可以提供AOC無法滿足的低功耗、低延遲和高帶寬密度指標(biāo)。

  通過光互連,我們可以用更低的功耗和延遲實現(xiàn)更大的范圍。仍然會有一些對延遲不敏感的應(yīng)用可以滿足更高的功率要求,而以太網(wǎng)將是首選,包括系統(tǒng)與系統(tǒng)之間的通信。在這些情況下,可以使用AOC。但是一旦你開始考慮深度學(xué)習(xí)和HPC應(yīng)用, 同樣,你要把許多計算節(jié)點連接在一起的話,AOC可能無法滿足所有的性能指標(biāo)。

  Martin Vallo:你如何看待光學(xué)I/O在技術(shù)方面的發(fā)展?

  Terry Thorn:首先,光學(xué)I/O具有高度的可擴展性,該技術(shù)將有幾種發(fā)展方式。一個是每根光纖的lambdas數(shù)量。我們目前使用的是每根光纖8個lambdas,但CW-WDM MSA(連續(xù)波分復(fù)用多源協(xié)議)路線圖已經(jīng)有每根光纖16和32個lambdas的規(guī)范。每當(dāng)你把每根光纖的lambdas數(shù)量增加一倍(保持其他方面不變)就會自動把帶寬增加一倍。我們還可以擴大光端口的數(shù)量(我們目前使用的是8個)并提高調(diào)制率(我們目前使用的是32Gbps的調(diào)制率)。

  在光I/O內(nèi)部,我們預(yù)計將看到在使用內(nèi)部或外部激光器方面的不同意見??紤]到緊湊的外形尺寸、靈活性和現(xiàn)場可更換性,我們?nèi)匀粌A向于外部激光器的方法。我們還認為UCIe是最適合于芯片到芯片連接的標(biāo)準(zhǔn),它促進了實施光學(xué)I/O的芯片方法。

一個包含四個Ayar Labs TeraPHY?光學(xué)I/O芯片和一個客戶ASIC的多芯片封裝。由Ayar實驗室提供,2023年。

  Martin Vallo:圍繞激光源的關(guān)鍵規(guī)格是什么?我們是否會在未來看到光學(xué)芯片中廣泛集成激光器?

  Terry Thorn:目前業(yè)界的趨勢是使用外部激光源,我們相信這種趨勢會持續(xù)下去。在光學(xué)I/O中,激光器是最敏感的部件,需要在較低的溫度環(huán)境下工作。把它放在外部,與計算硅分離,可以更好更有效地控制溫度。如果你把激光器模塊放在計算硅旁邊,來自計算節(jié)點內(nèi)的GPU和CPU的熱量會影響激光器的性能。

  我們確實希望看到梳狀激光器的使用,但它們?nèi)蕴幱谠缙谘芯堪l(fā)展階段。當(dāng)該技術(shù)成為商業(yè)化的時候,我們可以看看這個東西。但是,最終,我們相信保持 "外部激光不可控 "在制造和部署方面是最合理的。

  Martin Vallo:有很多關(guān)于分布式機架架構(gòu)的討論,目前是光學(xué)I/O技術(shù)的主要驅(qū)動力。你能分享一下這會如何發(fā)展嗎?

  Terry Thorn: 分散的基礎(chǔ)設(shè)施需要光I/O來擴展到機架級別甚至更高的級別。將內(nèi)存與處理器和加速器解耦的分布式機架可以實現(xiàn)更靈活、更經(jīng)濟的節(jié)點設(shè)計,滿足下一代HPC和AI工作負載的需求。為了使分布式機架成為可能,一個能夠在幾米到幾百米的距離內(nèi)以低功率和低延遲提供高吞吐量的互連是至關(guān)重要的。CXL是一種新興的用于分布式機架的統(tǒng)一協(xié)議,使用PCIe電信號進行I/O互連,其覆蓋范圍有限。為了擴大覆蓋范圍和扇形范圍,人們對 "CXL over optical "I/O互連有強烈的興趣。

  例如,很容易設(shè)想一種可組合性方案,其中幾個CPU包含在一個機箱中,而GPU在一個單獨的機箱中,而內(nèi)存則占據(jù)另一個機箱。隨著工作負載的擴大,你可以將兩個CPU、一個GPU、幾個SSD和匯集一定量的內(nèi)存組成一個節(jié)點。CXL為內(nèi)存分解帶來了緩存一致性互連,這就是為什么這么多公司正在努力實現(xiàn)利用CXL的解決方案,我們相信光I/O是實現(xiàn)這一愿景的關(guān)鍵成分。

  這里的另一個重要角度是分布式計算,這又回到了一個事實,即人工智能/ML和深度學(xué)習(xí)都需要大量的訓(xùn)練參數(shù),現(xiàn)在是以萬億計。在各種計算節(jié)點之間共享計算和內(nèi)存將越來越有必要。連接這些節(jié)點并有效擴展的唯一可靠方式是通過光學(xué)I/O。

四個Ayar Labs TeraPHY?光學(xué)I/O芯片和一個客戶的ASIC在一個多芯片封裝中。由Ayar實驗室提供,2023年。

  Martin Vallo:把電/光接口帶到芯片旁邊,將大大影響這個行業(yè)。您能否解釋一下供應(yīng)鏈將受到怎樣的影響?

  Terry Thorn:該行業(yè)目前正面臨著顯著的連接瓶頸,這迫使各參與者探索新的方法。我們看到的一個趨勢是將SoC的單芯片分解成芯片粒。將電光芯片納入封裝內(nèi),緊挨著SoC核心芯片是這種趨勢的延續(xù)。這種共封裝的方法將會改變供應(yīng)鏈的復(fù)雜性。

  除了用芯片粒封裝外,光纖連接和測試方法也需要發(fā)展。我們還看到代工廠(即Global Foundries、英特爾和最近的臺積電),在支持集成電子/光學(xué)元件方面取得的巨大進展和承諾。最后,選擇將激光器放在外部是我們能夠減輕這些供應(yīng)鏈復(fù)雜性的一種方式。

  標(biāo)準(zhǔn)化也將在解決供應(yīng)鏈挑戰(zhàn)和擴大這項技術(shù)的規(guī)模方面發(fā)揮關(guān)鍵作用。UCIe和CXL都在尋求解決光纖互連的問題,并正在探索制定光學(xué)I/O規(guī)范。此外,CW-WDM MSA是一個重要的行業(yè)倡議,它正在定義和促進光學(xué)激光源的新標(biāo)準(zhǔn)和規(guī)范。由于光I/O是一項革命性的技術(shù),對行業(yè)的許多領(lǐng)域都有影響,因此發(fā)展和培育這個完整的生態(tài)系統(tǒng)有巨大的需求。

  Martin Vallo:光學(xué)I/O技術(shù)將如何影響其他應(yīng)用?

  Terry Thorn:這是個好問題。我們已經(jīng)談了很多關(guān)于HPC和AI/ML的問題,但我們也希望看到它在其他需要快速傳輸數(shù)據(jù)的領(lǐng)域的應(yīng)用增長,例如在云和數(shù)據(jù)中心、電信、航空航天和國防、自動駕駛、AR/VR等。隨著光學(xué)I/O的成熟和變得更具成本效益,我們看到它有可能滿足廣泛的應(yīng)用中不斷增長的帶寬、功率和延遲要求。

新聞來源:逍遙科技

相關(guān)文章