數(shù)據(jù)中心大帶寬技術(shù)分析與國(guó)際標(biāo)準(zhǔn)化進(jìn)展

訊石光通訊網(wǎng) 發(fā)布時(shí)間:2020/4/29 11:05:10 編者:iccsz

摘要：2019年，ODCC聯(lián)合了20多家國(guó)內(nèi)光互聯(lián)產(chǎn)業(yè)鏈會(huì)員，成立了下一代數(shù)據(jù)中心互聯(lián)項(xiàng)目(DCCNG)，并于2019開(kāi)放數(shù)據(jù)中心峰會(huì)發(fā)布《DCCNG：下一代數(shù)據(jù)中心互聯(lián)白皮書(shū)》，白皮書(shū)旨在牽引我國(guó)數(shù)據(jù)中心下一代互聯(lián)產(chǎn)業(yè)鏈在技術(shù)、規(guī)范和產(chǎn)品各個(gè)方面的探討，一經(jīng)發(fā)布就受到了業(yè)界廣泛關(guān)注。

1 業(yè)界需求

隨著AI，大數(shù)據(jù)，分布式存儲(chǔ)和計(jì)算等業(yè)務(wù)的飛速發(fā)展，數(shù)據(jù)中心對(duì)高吞吐和大帶寬的要求越發(fā)迫切。思科2018年發(fā)布的GCI指數(shù)顯示，數(shù)據(jù)中心內(nèi)流量保持每年約30%的增長(zhǎng)，到2021年將達(dá)到約20 Zettabytes。當(dāng)前100G已在數(shù)據(jù)中心內(nèi)海量使用，400G預(yù)計(jì)在2019 ~2020年開(kāi)始部署。2019年以太網(wǎng)聯(lián)盟發(fā)布的以太網(wǎng)路標(biāo)顯示，2022年后將逐步進(jìn)入800G/1.6T 時(shí)代。

圖1. Cisco Global Cloud Index, Cisco, 2018

圖2. Ethernet Roadmap, Ethernet Alliance, 2019

隨著400G產(chǎn)品的日趨成熟，800G的技術(shù)方向也逐漸明確。

1) 芯片：博通于2017年發(fā)布了12.8T的Tomahawk 3 芯片, 支持32個(gè)400G端口。預(yù)計(jì)2022年將會(huì)出現(xiàn)50T+的大容量芯片，支持64個(gè)800G端口以及最新的112G SerDes技術(shù)。

2) 光模塊：2018年起，各大主流模塊廠商陸續(xù)發(fā)布400G模塊產(chǎn)品。當(dāng)前400G模塊支持光口速率單波長(zhǎng)100G(多模除外);后續(xù)當(dāng)SerDes升級(jí)到112G, 光口速率將匹配電口速率，模塊將自然演進(jìn)到8*100G。

3) 系統(tǒng)：2018年，思科、Arista、華為均發(fā)布了基于12.8T芯片的TOR交換機(jī)，支持32個(gè)400G端口，采用QSFP-DD或OSFP封裝。這兩種封裝格式都支持后續(xù)演進(jìn)到800G。

2 技術(shù)趨勢(shì)

根據(jù)以太網(wǎng)速率和物理層標(biāo)準(zhǔn)的發(fā)展歷史，以及相關(guān)技術(shù)、器件的成熟度，我們預(yù)測(cè)，800G第一代將會(huì)以8*100G(單通道100G)為主。以下章節(jié)我們將從模塊、芯片、系統(tǒng)和封裝技術(shù)等方面對(duì)800G互聯(lián)的技術(shù)趨勢(shì)展開(kāi)討論。

2.1 多模提速

圖3. 數(shù)據(jù)中心CLOS架構(gòu)和互聯(lián)

圖3 展示了數(shù)據(jù)中心主流的CLOS組網(wǎng)架構(gòu)和各層設(shè)備間的互聯(lián)關(guān)系。直連電纜(DAC)和有源光纜(AOC)用于Server和TOR交換機(jī)之間的互聯(lián)，覆蓋20米以下的距離;AOC一般采用低成本的多模模塊和多模光纖。多模同時(shí)部署在TOR上行和spine交換機(jī)之間，覆蓋100米以下的距離。Spine上行，由于互聯(lián)距離較長(zhǎng)，一般使用單模覆蓋，并通過(guò)波分技術(shù)(如CWDM)實(shí)現(xiàn)單纖傳輸，降低互聯(lián)成本。

由于巨大的成本優(yōu)勢(shì)，多模模塊和多模光纖在數(shù)據(jù)中心內(nèi)海量使用。從LightCounting 2018年發(fā)布的光模塊發(fā)貨量趨勢(shì)來(lái)看(圖4)，100G多模不斷上升，到2022年達(dá)到頂峰;400G多模100米、單模500米和2km三分天下。

圖4：100G & 400G光模塊發(fā)貨量預(yù)測(cè)，LightCounting，2018

表1 展示了IEEE定義的400G多模標(biāo)準(zhǔn)：400G-SR16，400G-SR8和400G-SR4.2。400G-SR16 基于電口25G-SerDes, 需要16路光電器件，MPO-32連接器以及16對(duì)光纖。由于缺少用戶(hù)和模塊廠商的支持，該標(biāo)準(zhǔn)在業(yè)界沒(méi)有被廣泛應(yīng)用。400G-SR8和400G-SR4.2標(biāo)準(zhǔn)基于電口56G-SerDes, 器件和光纖數(shù)減半;而400G-SR4.2采用了短波分復(fù)用技術(shù)(SWDM)，實(shí)現(xiàn)了單纖雙向，可以復(fù)用100G時(shí)代的4對(duì)纖部署。隨著大帶寬VCSEL器件的成熟以及DSP技術(shù)的加持，多模有望在800G時(shí)代繼續(xù)演進(jìn)。

表1：IEEE 400G多模標(biāo)準(zhǔn)

2.2 封裝格式

圖5：Intel光電集成路標(biāo)：可插拔模塊à在板光模塊à光電合封，Intel, 2018

隨著電口速率提升到112G，高速信號(hào)在PCB傳輸中的損耗也隨之增大。為了驅(qū)動(dòng)交換芯片到光模塊的PCB走線，滿(mǎn)足信號(hào)完整性，SerDes可能需要使用相對(duì)復(fù)雜的DSP。這將造成芯片整體功耗大幅增加。

為了解決功耗限制，如圖5所示，業(yè)界普遍的做法是將光模塊不斷向交換芯片靠近，從而縮短芯片和模塊間的走線，即SerDes的驅(qū)動(dòng)距離。在板光模塊和光電合封技術(shù)應(yīng)運(yùn)而生。業(yè)界有觀點(diǎn)認(rèn)為，到2025年，可插拔光模塊和無(wú)源銅纜將逐漸被以上兩種技術(shù)取代。

圖6：在板光模塊電接口和連接器示意圖

在板光模塊或者嵌入式光引擎的概念并不新鮮，F(xiàn)inisar的SNAP系列和Avago的POD系列等早在十多年前就已進(jìn)入市場(chǎng)。這些產(chǎn)品均屬于私有或定制化方案，可支持12路VCSEL，并集成在PCB板上，為集群提供高速高密的框內(nèi)互聯(lián)。隨著數(shù)據(jù)中心客戶(hù)和業(yè)務(wù)的增長(zhǎng)，業(yè)界呼喚標(biāo)準(zhǔn)化方案的出臺(tái)。2013年，微軟提出傳統(tǒng)可插拔模塊面臨功耗和密度問(wèn)題，在后400G時(shí)代將選擇在板光模塊作為技術(shù)方案。同年，微軟聯(lián)合思科、博通、Finisar等14家廠商成立COBO聯(lián)盟，旨在提供標(biāo)準(zhǔn)化的在板光模塊方案;當(dāng)前成員已經(jīng)超過(guò)70家。2018年，COBO發(fā)布技術(shù)規(guī)范(如圖6所示)，定義了8路和16路的客戶(hù)側(cè)電接口、OBO連接器規(guī)格以及熱參數(shù)，支持可插拔的在板光模塊形態(tài)。當(dāng)前標(biāo)準(zhǔn)最高支持800G，未來(lái)可演進(jìn)至1.6T。

光電合封，將光引擎和交換芯片封裝在一個(gè)襯底上。相比在板光模塊，合封后，SERDES IO和光引擎的距離進(jìn)一步減小到毫米級(jí)，交換芯片的功耗大幅減低。合封后的芯片直接扇出光纖，交換機(jī)前面板不再受傳統(tǒng)模塊封裝格式的限制，可以采用尺寸更小的MPO連接器(此處有圖)實(shí)現(xiàn)高密高速互聯(lián)。預(yù)計(jì)單槽位將可支持上百T的容量，是現(xiàn)有可插拔模塊可支持容量的10倍以上。

圖7 光電合封示意圖

圖 8.光電合封概念樣機(jī)，Luxtera @ OFC 2018

業(yè)界普遍認(rèn)為光電合封是大帶寬接口形態(tài)的必然趨勢(shì)，模塊、系統(tǒng)和線纜廠商也紛紛合作并推出樣機(jī)。2018年OFC，Luxtera展示了51.2T的光電合封樣機(jī)。如圖 8所示，該樣機(jī)采用了4個(gè)外置光源，驅(qū)動(dòng)4個(gè)光電合封引擎，每個(gè)引擎支持12.8T的容量，面板采用MPO連接器扇出光纖。

2019年3月，微軟和Facebook聯(lián)合成立了Co-Packaged Optics (CPO) 協(xié)作項(xiàng)目。該項(xiàng)目聚焦用戶(hù)視角，為光電合封方案提供系統(tǒng)級(jí)需求，并針對(duì)電接口、模塊管理、芯片封裝等制定端到端的開(kāi)放標(biāo)準(zhǔn)。該項(xiàng)目的成立表明了數(shù)據(jù)中心主流用戶(hù)對(duì)于光電合封作為下一代互聯(lián)技術(shù)方向的認(rèn)可，以及對(duì)獲得產(chǎn)業(yè)鏈支持的渴望。光電合封涉及到產(chǎn)業(yè)鏈的各個(gè)環(huán)節(jié)和不同廠商，需要從接口定義、封裝、測(cè)試等各方面緊密合作和推動(dòng)標(biāo)準(zhǔn)化。

2.3 大容量芯片

隨著數(shù)據(jù)中心內(nèi)業(yè)務(wù)的發(fā)展，流量的激增，用戶(hù)對(duì)于大帶寬網(wǎng)絡(luò)設(shè)備的需求越來(lái)越迫切。用戶(hù)側(cè)和網(wǎng)路側(cè)交換機(jī)的容量在10年間增長(zhǎng)超過(guò)50倍。決定系統(tǒng)容量的主要因素就是芯片容量。在單芯片容量受限的情況下，利用多芯片scale-out的方式可以構(gòu)建大容量的系統(tǒng)，傳統(tǒng)框式交換機(jī)便是這樣的思路。如圖9所示，F(xiàn)acebook 2016年發(fā)布的 Backpack框式交換機(jī)，利用12片3.2T Tomahawk 芯片(4塊線卡，4塊交換卡)，實(shí)現(xiàn)了12.8T的交換容量。隨著12.8T的 Tomahawk 3單芯片的發(fā)布，一個(gè)單槽位(1RU)的盒式交換機(jī)就可以實(shí)現(xiàn)12.8T。相比Backpack, 功耗和成本都降低了80%以上。當(dāng)互聯(lián)速率提升至單通道112G，傳統(tǒng)框式結(jié)構(gòu)面臨功耗散熱等諸多工程工藝的瓶頸，繼續(xù)演進(jìn)面臨巨大挑戰(zhàn)。因此，基于大容量盒式交換機(jī)的scale-out架構(gòu)將成為數(shù)據(jù)中心架構(gòu)和設(shè)備形態(tài)的一大趨勢(shì)。國(guó)內(nèi)外多家數(shù)據(jù)中心用戶(hù)已經(jīng)開(kāi)始了 ”盒替換框” 的進(jìn)程。大容量盒子的關(guān)鍵就是大容量芯片。

圖9: 8U-12.8T-框式交換機(jī) Vs. 1U-12.8T-盒式交換機(jī)

https://www.nextplatform.com/2018/01/20/flattening-networks-budgets-400g-ethernet/

大容量芯片在實(shí)現(xiàn)中面臨諸多挑戰(zhàn)，其中一個(gè)限制就是芯片Die面積的約束。圖10展示了交換芯片的內(nèi)部架構(gòu)。芯片die size增大導(dǎo)致良率降低、成本上升。減小芯片面積的一個(gè)直接方式是升級(jí)工藝制程。CMOS制程大概每三年更新一代，2019年7nm工藝已經(jīng)成熟，產(chǎn)品陸續(xù)發(fā)布。5nm工藝已在研發(fā)中，未來(lái)將會(huì)向3nm繼續(xù)演進(jìn)。從16nm到5nm的演進(jìn)過(guò)程中，PPA (Performance, Power, Area) 以及成本收益逐漸放緩，新制程在綜合性能上的提升不大。雖然工藝升級(jí)可以給芯片面積帶來(lái)部分收益，但大容量芯片仍然面臨die size受限，單個(gè)die無(wú)法實(shí)現(xiàn)的巨大風(fēng)險(xiǎn)。

圖10: 交換芯片內(nèi)部架構(gòu)

圖11：?jiǎn)蜠ie架構(gòu) Vs. Chiplet多Die架構(gòu)

Chiplet對(duì)芯片進(jìn)行解構(gòu)，突破了芯片面積的物理瓶頸，是解決die size問(wèn)題，實(shí)現(xiàn)大容量芯片的一個(gè)重要途徑。Chiplet架構(gòu)將芯片按功能劃分為多個(gè)子芯片，各自獨(dú)立成die。由于每個(gè)die的面積變小，單片晶圓上可擺放的Die數(shù)目增加，良率提升，成本下降。不同die可使用不同工藝，容量升級(jí)時(shí)只需升級(jí)部分模塊/die, 加快了大容量芯片的迭代。同時(shí)，Chiplet架構(gòu)下，熱源分散，更利于散熱。Die間互聯(lián)接口、多Die集成封裝是Chiplet架構(gòu)下要解決的關(guān)鍵問(wèn)題。

(a) (b) (c)

圖12: (a) Barefoot Tofino-2 Chiplet架構(gòu); (b) Marvell 12.8T test chip in MCM; (c) Intel EMIB封裝和AIB接口

Chiplet是未來(lái)大容量芯片架構(gòu)的一個(gè)重要趨勢(shì)。但還有諸多問(wèn)題和挑戰(zhàn)有待業(yè)界共同探討和解決：比如，采用異構(gòu)還是同構(gòu)架構(gòu);同構(gòu)架構(gòu)下，多Die間的負(fù)載分擔(dān)，如何保證線速轉(zhuǎn)發(fā);如何進(jìn)一步提高die間互聯(lián)帶寬;多Die間的流量控制和資源配置，如何提高內(nèi)存利用率，實(shí)現(xiàn)無(wú)損不丟包。

3 國(guó)際標(biāo)準(zhǔn)化進(jìn)展

2019年，ODCC聯(lián)合了20多家國(guó)內(nèi)光互聯(lián)產(chǎn)業(yè)鏈會(huì)員，成立了下一代數(shù)據(jù)中心互聯(lián)項(xiàng)目(DCCNG)，并于2019開(kāi)放數(shù)據(jù)中心峰會(huì)發(fā)布《DCCNG：下一代數(shù)據(jù)中心互聯(lián)白皮書(shū)》，白皮書(shū)旨在牽引我國(guó)數(shù)據(jù)中心下一代互聯(lián)產(chǎn)業(yè)鏈在技術(shù)、規(guī)范和產(chǎn)品各個(gè)方面的探討，一經(jīng)發(fā)布就受到了業(yè)界廣泛關(guān)注。同時(shí)，ODCC代表我國(guó)數(shù)據(jù)中心產(chǎn)業(yè)伙伴，將2019開(kāi)放數(shù)據(jù)中心峰會(huì)最新發(fā)布的DCCNG相關(guān)成果帶到IEEE802進(jìn)行了推動(dòng)，得到了業(yè)界同行的高度認(rèn)可。DCCNG成果最終被IEEE802.3官方正式采納，對(duì)立項(xiàng)成功起到了重要支撐作用!

IEEE802.3作為定義物理連接的國(guó)際標(biāo)準(zhǔn)組織，于今年也開(kāi)展了相關(guān)技術(shù)的立項(xiàng)研討。ODCC代表中國(guó)數(shù)據(jù)中心互聯(lián)產(chǎn)業(yè)，積極投身參與到國(guó)際標(biāo)準(zhǔn)的立項(xiàng)工作中。ODCC相關(guān)專(zhuān)家聯(lián)合華為等業(yè)界伙伴，針對(duì)多模單波100G互聯(lián)方向，在IEEE802.3進(jìn)行了歷時(shí)數(shù)月的多輪宣講，其對(duì)我國(guó)光互聯(lián)產(chǎn)業(yè)發(fā)展需求的調(diào)研以及相關(guān)技術(shù)的思考，得到了IEEE802.3官方的高度認(rèn)可。本次IEEE802全會(huì)對(duì)該方向進(jìn)行了立項(xiàng)投票，通過(guò)并正式立項(xiàng)。此次立項(xiàng)開(kāi)啟國(guó)際單波100G多模標(biāo)準(zhǔn)的制定工作，牽引和推進(jìn)產(chǎn)業(yè)鏈解決100G PAM4多模傳輸?shù)募夹g(shù)難點(diǎn)，催熟相關(guān)芯片研發(fā)和成熟度，支撐下一代基于112G SerDes IO的服務(wù)器100G接入和交換機(jī)互聯(lián)低成本方案。

內(nèi)容來(lái)自：數(shù)據(jù)中心熱點(diǎn)技術(shù)剖析
本文地址：http://huaquanjd.cn//Site/CN/News/2020/04/29/20200429030741402303.htm 轉(zhuǎn)載請(qǐng)保留文章出處
關(guān)鍵字: 數(shù)據(jù)中心
文章標(biāo)題:數(shù)據(jù)中心大帶寬技術(shù)分析與國(guó)際標(biāo)準(zhǔn)化進(jìn)展

【加入收藏夾】【推薦給好友】

免責(zé)聲明：凡本網(wǎng)注明“訊石光通訊咨詢(xún)網(wǎng)”的所有作品，版權(quán)均屬于光通訊咨詢(xún)網(wǎng)，未經(jīng)本網(wǎng)授權(quán)不得轉(zhuǎn)載、摘編或利用其它方式使用上述作品。已經(jīng)本網(wǎng)授權(quán)使用作品的，應(yīng)在授權(quán)范圍內(nèi)使用，反上述聲明者，本網(wǎng)將追究其相關(guān)法律責(zé)任。
※我們誠(chéng)邀媒體同行合作！聯(lián)系方式：訊石光通訊咨詢(xún)網(wǎng)新聞中心　電話(huà)：0755-82960080-168 Right

數(shù)據(jù)中心大帶寬技術(shù)分析與國(guó)際標(biāo)準(zhǔn)化進(jìn)展

相關(guān)新聞