英特爾光計(jì)算互聯(lián)芯粒(Chiplet)有望推動(dòng)AI基礎(chǔ)設(shè)施變革性高速率數(shù)據(jù)處理
ICC訊 英特爾(Intel)高速數(shù)據(jù)傳輸應(yīng)用集成光子技術(shù)取得了具有革命性意義的里程碑式突破。在OFC 2024上,英特爾集成光子解決方案(IPS)集團(tuán)推出了業(yè)界最先進(jìn)且第一個(gè)與英特爾CPU共同封裝并傳輸實(shí)時(shí)數(shù)據(jù)的全集成光學(xué)計(jì)算互連(OCI)芯片。英特爾OCI芯片通過在數(shù)據(jù)中心和高性能計(jì)算(HPC)應(yīng)用的人工智能基礎(chǔ)設(shè)施中實(shí)現(xiàn)共封裝(CPO)的光學(xué)輸入/輸出(I/O),在高帶寬互連方面實(shí)現(xiàn)了巨大飛躍。
集成光子解決方案集團(tuán)產(chǎn)品管理與戰(zhàn)略高級(jí)總監(jiān)Thomas Liljeberg表示:“服務(wù)器持續(xù)增長的數(shù)據(jù)流量正在考驗(yàn)當(dāng)今數(shù)據(jù)中心基礎(chǔ)設(shè)施的能力,當(dāng)前的解決方案正迅速接近電氣I/O性能的實(shí)際極限。然而,英特爾的開創(chuàng)性成果使客戶能夠?qū)⒐卜庋b(CPO)硅光子互連解決方案無縫集成到下一代計(jì)算系統(tǒng)中。OCI Chiplet提高了帶寬,降低了功耗并增加了傳輸距離,使機(jī)器學(xué)習(xí)工作負(fù)載加速,有望徹底改變高性能人工智能基礎(chǔ)設(shè)施?!?
第一款OCI芯片旨在支持在100米光纖單方向32Gbps速率的64通道傳輸,有望將滿足人工智能基礎(chǔ)設(shè)施對(duì)更高帶寬、更低功耗和更長傳輸距離的需求。它支持CPU/GPU集群連接和新型計(jì)算架構(gòu)的未來可擴(kuò)展性,包括相干內(nèi)存擴(kuò)展和資源分解。
基于人工智能的應(yīng)用場(chǎng)景在全球范圍內(nèi)的廣泛部署,大型語言模型(LLM)和生成式人工智能的最新發(fā)展正在加速這一趨勢(shì)。更大、更高效的機(jī)器學(xué)習(xí)(ML)模型將在解決人工智能加速工作負(fù)載的新需求方面發(fā)揮關(guān)鍵作用。未來AI計(jì)算平臺(tái)的擴(kuò)展需求正在推動(dòng)I/O帶寬的指數(shù)級(jí)增長和更長的覆蓋范圍,以支持更大的處理單元(CPU/GPU/IPU)集群和具有更高效資源利用的架構(gòu),例如xPU分解和內(nèi)存池。
電氣I/O(即銅纜連接)提供高帶寬密度和低功耗,但僅支持1米甚至更短的傳輸距離。數(shù)據(jù)中心和早期人工智能集群中使用的可插拔光模塊可以在成本和功率水平上增加覆蓋范圍,但這在人工智能工作負(fù)載的擴(kuò)展要求下是不可持續(xù)的。協(xié)封裝的xPU光I/O解決方案可以支持更高的帶寬,提高功率效率,低延遲和更長的覆蓋范圍-這正是AI/ML基礎(chǔ)設(shè)施擴(kuò)展所需要的。
例如,用CPU和GPU中的光學(xué)I/O取代電氣I/O來傳輸數(shù)據(jù),就像從使用容量和范圍有限的馬車來分發(fā)貨物,到使用可以在更遠(yuǎn)的距離上運(yùn)送大量貨物的汽車和卡車。其升級(jí)性能和能源成本是光學(xué)I/O解決方案(如英特爾的OCI芯片)為人工智能擴(kuò)展所創(chuàng)造的價(jià)值。
英特爾公司集成光子學(xué)解決方案(IPS)組展示了業(yè)界首個(gè)與英特爾CPU共封裝并運(yùn)行實(shí)時(shí)數(shù)據(jù)的全集成光計(jì)算互連(OCI)芯片。可在新興的AI基礎(chǔ)設(shè)施中為數(shù)據(jù)中心和高性能計(jì)算應(yīng)用提供共封裝光輸入/輸出。(資料來源:英特爾公司)
全集成OCI芯片利用英特爾經(jīng)過現(xiàn)場(chǎng)驗(yàn)證的硅光子技術(shù),將硅光子集成電路(PIC)與電子IC集成在一起,其中包括片上激光器和光放大器。OFC上展示的OCI芯片與英特爾CPU共封裝,但也可以與下一代CPU、GPU、IPU和其他片上系統(tǒng)(SOC)集成。
首款OCI芯片實(shí)現(xiàn)支持4Tbps的雙向數(shù)據(jù)傳輸,與外部組件互連express (PCIe) Gen5兼容?,F(xiàn)場(chǎng)光學(xué)鏈路演示展示了兩個(gè)CPU平臺(tái)之間通過單模光纖(SMF)跳線的Tx端和Rx端連接。CPU生成并測(cè)量了光學(xué)誤碼率(BER),演示展示了在單根光纖上200GHz間隔的8個(gè)波長的Tx頻譜,以及32 Gbps的Tx眼圖,證明了優(yōu)秀的信號(hào)質(zhì)量。
目前的芯片支持64*32Gbps通道,每個(gè)方向傳輸100米(盡管由于飛行時(shí)間延遲,實(shí)際應(yīng)用可能限制在幾十米),利用8對(duì)光纖,每對(duì)光纖傳輸8個(gè)密集波分復(fù)用(DWDM)波長。這種共封裝解決方案也非常節(jié)能,與可插拔的光收發(fā)模塊相比,每比特的功耗僅為5pJ。這種超高效率對(duì)于數(shù)據(jù)中心和高性能計(jì)算環(huán)境至關(guān)重要,可以幫助解決人工智能不可持續(xù)的電力需求。