數據中心大帶寬技術分析與國際標準化進展

訊石光通訊網 2020/4/29 11:05:10

  1 業(yè)界需求

  隨著AI,大數據,分布式存儲和計算等業(yè)務的飛速發(fā)展,數據中心對高吞吐和大帶寬的要求越發(fā)迫切。思科2018年發(fā)布的GCI指數顯示,數據中心內流量保持每年約30%的增長,到2021年將達到約20 Zettabytes。當前100G已在數據中心內海量使用,400G預計在2019 ~2020年開始部署。2019年以太網聯盟發(fā)布的以太網路標顯示,2022年后將逐步進入800G/1.6T 時代。

  圖1. Cisco Global Cloud Index, Cisco, 2018

  圖2. Ethernet Roadmap, Ethernet Alliance, 2019

  隨著400G產品的日趨成熟,800G的技術方向也逐漸明確。

  1) 芯片:博通于2017年發(fā)布了12.8T的Tomahawk 3 芯片, 支持32個400G端口。預計2022年將會出現50T+的大容量芯片,支持64個800G端口以及最新的112G SerDes技術。

  2) 光模塊:2018年起,各大主流模塊廠商陸續(xù)發(fā)布400G模塊產品。當前400G模塊支持光口速率單波長100G(多模除外);后續(xù)當SerDes升級到112G, 光口速率將匹配電口速率,模塊將自然演進到8*100G。

  3) 系統:2018年,思科、Arista、華為均發(fā)布了基于12.8T芯片的TOR交換機,支持32個400G端口,采用QSFP-DD或OSFP封裝。這兩種封裝格式都支持后續(xù)演進到800G。

  2 技術趨勢

  根據以太網速率和物理層標準的發(fā)展歷史,以及相關技術、器件的成熟度,我們預測,800G第一代將會以8*100G(單通道100G)為主。以下章節(jié)我們將從模塊、芯片、系統和封裝技術等方面對800G互聯的技術趨勢展開討論。

  2.1 多模提速

  圖3. 數據中心CLOS架構和互聯

  圖3 展示了數據中心主流的CLOS組網架構和各層設備間的互聯關系。直連電纜(DAC)和有源光纜(AOC)用于Server和TOR交換機之間的互聯,覆蓋20米以下的距離;AOC一般采用低成本的多模模塊和多模光纖。多模同時部署在TOR上行和spine交換機之間,覆蓋100米以下的距離。Spine上行,由于互聯距離較長,一般使用單模覆蓋,并通過波分技術(如CWDM)實現單纖傳輸,降低互聯成本。

  由于巨大的成本優(yōu)勢,多模模塊和多模光纖在數據中心內海量使用。從LightCounting 2018年發(fā)布的光模塊發(fā)貨量趨勢來看(圖4),100G多模不斷上升,到2022年達到頂峰;400G多模100米、單模500米和2km三分天下。

  圖4:100G & 400G光模塊發(fā)貨量預測,LightCounting,2018

  表1 展示了IEEE定義的400G多模標準:400G-SR16,400G-SR8和400G-SR4.2。400G-SR16 基于電口25G-SerDes, 需要16路光電器件,MPO-32連接器以及16對光纖。由于缺少用戶和模塊廠商的支持,該標準在業(yè)界沒有被廣泛應用。400G-SR8和400G-SR4.2標準基于電口56G-SerDes, 器件和光纖數減半;而400G-SR4.2采用了短波分復用技術(SWDM),實現了單纖雙向,可以復用100G時代的4對纖部署。隨著大帶寬VCSEL器件的成熟以及DSP技術的加持,多模有望在800G時代繼續(xù)演進。

  表1:IEEE 400G多模標準

  2.2 封裝格式

  圖5:Intel光電集成路標:可插拔模塊à在板光模塊à光電合封,Intel, 2018

  隨著電口速率提升到112G,高速信號在PCB傳輸中的損耗也隨之增大。為了驅動交換芯片到光模塊的PCB走線,滿足信號完整性,SerDes可能需要使用相對復雜的DSP。這將造成芯片整體功耗大幅增加。

  為了解決功耗限制,如圖5所示,業(yè)界普遍的做法是將光模塊不斷向交換芯片靠近,從而縮短芯片和模塊間的走線,即SerDes的驅動距離。在板光模塊和光電合封技術應運而生。業(yè)界有觀點認為,到2025年,可插拔光模塊和無源銅纜將逐漸被以上兩種技術取代。

  圖6:在板光模塊電接口和連接器示意圖

  在板光模塊或者嵌入式光引擎的概念并不新鮮,Finisar的SNAP系列和Avago的POD系列等早在十多年前就已進入市場。這些產品均屬于私有或定制化方案,可支持12路VCSEL,并集成在PCB板上,為集群提供高速高密的框內互聯。隨著數據中心客戶和業(yè)務的增長,業(yè)界呼喚標準化方案的出臺。2013年,微軟提出傳統可插拔模塊面臨功耗和密度問題,在后400G時代將選擇在板光模塊作為技術方案。同年,微軟聯合思科、博通、Finisar等14家廠商成立COBO聯盟,旨在提供標準化的在板光模塊方案;當前成員已經超過70家。2018年,COBO發(fā)布技術規(guī)范(如圖6所示),定義了8路和16路的客戶側電接口、OBO連接器規(guī)格以及熱參數,支持可插拔的在板光模塊形態(tài)。當前標準最高支持800G,未來可演進至1.6T。

  光電合封,將光引擎和交換芯片封裝在一個襯底上。相比在板光模塊,合封后,SERDES IO和光引擎的距離進一步減小到毫米級,交換芯片的功耗大幅減低。合封后的芯片直接扇出光纖,交換機前面板不再受傳統模塊封裝格式的限制,可以采用尺寸更小的MPO連接器(此處有圖)實現高密高速互聯。預計單槽位將可支持上百T的容量,是現有可插拔模塊可支持容量的10倍以上。

  圖7 光電合封示意圖

  圖 8.光電合封概念樣機,Luxtera @ OFC 2018

  業(yè)界普遍認為光電合封是大帶寬接口形態(tài)的必然趨勢,模塊、系統和線纜廠商也紛紛合作并推出樣機。2018年OFC,Luxtera展示了51.2T的光電合封樣機。如圖 8所示,該樣機采用了4個外置光源,驅動4個光電合封引擎,每個引擎支持12.8T的容量,面板采用MPO連接器扇出光纖。

  2019年3月,微軟和Facebook聯合成立了Co-Packaged Optics (CPO) 協作項目。該項目聚焦用戶視角,為光電合封方案提供系統級需求,并針對電接口、模塊管理、芯片封裝等制定端到端的開放標準。該項目的成立表明了數據中心主流用戶對于光電合封作為下一代互聯技術方向的認可,以及對獲得產業(yè)鏈支持的渴望。光電合封涉及到產業(yè)鏈的各個環(huán)節(jié)和不同廠商,需要從接口定義、封裝、測試等各方面緊密合作和推動標準化。

  2.3 大容量芯片

  隨著數據中心內業(yè)務的發(fā)展,流量的激增,用戶對于大帶寬網絡設備的需求越來越迫切。用戶側和網路側交換機的容量在10年間增長超過50倍。決定系統容量的主要因素就是芯片容量。在單芯片容量受限的情況下,利用多芯片scale-out的方式可以構建大容量的系統,傳統框式交換機便是這樣的思路。如圖9所示,Facebook 2016年發(fā)布的 Backpack框式交換機,利用12片3.2T Tomahawk 芯片(4塊線卡,4塊交換卡),實現了12.8T的交換容量。隨著12.8T的 Tomahawk 3單芯片的發(fā)布,一個單槽位(1RU)的盒式交換機就可以實現12.8T。相比Backpack, 功耗和成本都降低了80%以上。當互聯速率提升至單通道112G,傳統框式結構面臨功耗散熱等諸多工程工藝的瓶頸,繼續(xù)演進面臨巨大挑戰(zhàn)。因此,基于大容量盒式交換機的scale-out架構將成為數據中心架構和設備形態(tài)的一大趨勢。國內外多家數據中心用戶已經開始了 ”盒替換框” 的進程。大容量盒子的關鍵就是大容量芯片。

  圖9: 8U-12.8T-框式交換機 Vs. 1U-12.8T-盒式交換機

  https://www.nextplatform.com/2018/01/20/flattening-networks-budgets-400g-ethernet/

  大容量芯片在實現中面臨諸多挑戰(zhàn),其中一個限制就是芯片Die面積的約束。圖10展示了交換芯片的內部架構。芯片die size增大導致良率降低、成本上升。減小芯片面積的一個直接方式是升級工藝制程。CMOS制程大概每三年更新一代,2019年7nm工藝已經成熟,產品陸續(xù)發(fā)布。5nm工藝已在研發(fā)中,未來將會向3nm繼續(xù)演進。從16nm到5nm的演進過程中,PPA (Performance, Power, Area) 以及成本收益逐漸放緩,新制程在綜合性能上的提升不大。雖然工藝升級可以給芯片面積帶來部分收益,但大容量芯片仍然面臨die size受限,單個die無法實現的巨大風險。

  圖10: 交換芯片內部架構

  圖11:單Die架構 Vs. Chiplet多Die架構

  Chiplet對芯片進行解構,突破了芯片面積的物理瓶頸,是解決die size問題,實現大容量芯片的一個重要途徑。Chiplet架構將芯片按功能劃分為多個子芯片,各自獨立成die。由于每個die的面積變小,單片晶圓上可擺放的Die數目增加,良率提升,成本下降。不同die可使用不同工藝,容量升級時只需升級部分模塊/die, 加快了大容量芯片的迭代。同時,Chiplet架構下,熱源分散,更利于散熱。Die間互聯接口、多Die集成封裝是Chiplet架構下要解決的關鍵問題。

        (a)                                             (b)                                                      (c)

  圖12: (a) Barefoot Tofino-2 Chiplet架構; (b) Marvell 12.8T test chip in MCM; (c) Intel EMIB封裝和AIB接口

  Chiplet是未來大容量芯片架構的一個重要趨勢。但還有諸多問題和挑戰(zhàn)有待業(yè)界共同探討和解決:比如,采用異構還是同構架構;同構架構下,多Die間的負載分擔,如何保證線速轉發(fā);如何進一步提高die間互聯帶寬;多Die間的流量控制和資源配置,如何提高內存利用率,實現無損不丟包。

  3 國際標準化進展

  2019年,ODCC聯合了20多家國內光互聯產業(yè)鏈會員,成立了下一代數據中心互聯項目(DCCNG),并于2019開放數據中心峰會發(fā)布《DCCNG:下一代數據中心互聯白皮書》,白皮書旨在牽引我國數據中心下一代互聯產業(yè)鏈在技術、規(guī)范和產品各個方面的探討,一經發(fā)布就受到了業(yè)界廣泛關注。同時,ODCC代表我國數據中心產業(yè)伙伴,將2019開放數據中心峰會最新發(fā)布的DCCNG相關成果帶到IEEE802進行了推動,得到了業(yè)界同行的高度認可。DCCNG成果最終被IEEE802.3官方正式采納,對立項成功起到了重要支撐作用!

  IEEE802.3作為定義物理連接的國際標準組織,于今年也開展了相關技術的立項研討。ODCC代表中國數據中心互聯產業(yè),積極投身參與到國際標準的立項工作中。ODCC相關專家聯合華為等業(yè)界伙伴,針對多模單波100G互聯方向,在IEEE802.3進行了歷時數月的多輪宣講,其對我國光互聯產業(yè)發(fā)展需求的調研以及相關技術的思考,得到了IEEE802.3官方的高度認可。本次IEEE802全會對該方向進行了立項投票,通過并正式立項。此次立項開啟國際單波100G多模標準的制定工作,牽引和推進產業(yè)鏈解決100G PAM4多模傳輸的技術難點,催熟相關芯片研發(fā)和成熟度,支撐下一代基于112G SerDes IO的服務器100G接入和交換機互聯低成本方案。

新聞來源:數據中心熱點技術剖析

相關文章