Iccsz訊 數(shù)據(jù)中心的系統(tǒng)互連架構(gòu)設(shè)計和物理布線互連設(shè)計日益成為數(shù)據(jù)中心的焦點?;诠饣ミB速率和密度的不斷升級展望,人們對數(shù)據(jù)中心的架構(gòu)設(shè)計和投資成本回報性產(chǎn)生了躊躇和疑慮。數(shù)據(jù)中心的系統(tǒng)設(shè)計橫跨了多個學(xué)科,確實很少人能對數(shù)個學(xué)科的未來都有精確的預(yù)計?;诓煌鎯α亢筒煌嬎懔康?A href="http://huaquanjd.cn/site/CN/Search.aspx?page=1&keywords=%e6%95%b0%e6%8d%ae%e4%b8%ad%e5%bf%83&column_id=ALL&station=%E5%85%A8%E9%83%A8" target="_blank">數(shù)據(jù)中心理應(yīng)有不同的設(shè)計模型,希望本文對鏈路采用平行和波分復(fù)用的架構(gòu)討論能夠厘清一些思路,帶來更多有益的思考。
數(shù)據(jù)中心是一個含混的概念。它不僅僅包括計算機系統(tǒng)和其它與之配套的設(shè)備(例如通信和存儲系統(tǒng)),還包含冗余的數(shù)據(jù)通信連接、環(huán)境控制設(shè)備、監(jiān)控設(shè)備以及各種安全裝置。因此我們在考量數(shù)據(jù)中心設(shè)計的時候必須基于計算能力、存儲能力,互連能力,以及環(huán)境控制和監(jiān)控能力來做對應(yīng)的設(shè)計,這些設(shè)計無疑將帶來計算成本、存儲成本,互連成本,以及環(huán)境控制和監(jiān)控的成本。如果我們不清晰地依據(jù)當(dāng)前的技術(shù)以及當(dāng)前的需求,結(jié)合未來需求和未來技術(shù)展望性做出合理的規(guī)劃,數(shù)據(jù)中心會成為一個巨大燒錢的倉庫。數(shù)據(jù)中心一旦建成,其是不可逆的。架構(gòu)設(shè)計師必須非常小心!
在數(shù)據(jù)中心內(nèi),普遍建議的光互連方案如下:
基于系統(tǒng)對運算和傳輸速率的不同,系統(tǒng)設(shè)備的內(nèi)連可以采用10G AOC(300米鏈路),4*10G AOC(300米鏈路) 和4*25G AOC(100米鏈路) 以及100G PSM4 技術(shù)(500米到2公里)。近年來海量數(shù)據(jù)中心更引入CWDM4(2公里鏈路)作為減少光纖數(shù)量管理的手段。由于不同方案會帶來不同的性能和成本,我們認(rèn)為:鏈路采用多模光互連技術(shù)是最成熟和最合理的方案,按照目前的成本估量,40G 多模鏈路的成本是10G 多模鏈路成本的2.5-3.0倍,而100G 多模鏈路大約是40G 的2.5-3.0倍,其中40G/100G 多模鏈路采用的均是MPO 多模光纖,意味著從40G 到100G 可以實現(xiàn)技術(shù)的平滑升級,并不需要觸動現(xiàn)有的網(wǎng)絡(luò)布線架構(gòu)。
人們之前一直擔(dān)憂多模VCSEL的技術(shù)瓶頸到25GB/b將是極限,從而對多模數(shù)據(jù)中心的可延伸性產(chǎn)生了顧慮,近而放棄多模數(shù)據(jù)中心架構(gòu)直接采用理論上(注意是理論上)可一直擴展升級的單模數(shù)據(jù)中心架構(gòu)。可是最近的研究表明,50G VCSEL NRZ技術(shù)并不是問題,在同樣的QSFP28封裝空間內(nèi),可以輕松地實現(xiàn)8*25G AOC光互連。這使得系統(tǒng)架構(gòu)面向8*25G 和4*50G根本不是問題??赡苋藗冞M(jìn)一步會擔(dān)心400G VCSEL 技術(shù)可行性,目前盡管我們沒有結(jié)論,但是400G VCSEL遇到的技術(shù)瓶頸和單模400G遇到的技術(shù)瓶頸是相同的。某種意義上,是錯覺打亂了人們的眼睛,就已知的知識,200G VCSEL AOC將進(jìn)一步縮短傳輸距離(估計是50米),但是康寧的OM5光纖可以很好地彌補這一缺陷。問題當(dāng)然還在于,采用OM5光纖將需要更換現(xiàn)有的布線架構(gòu)。但是這個問題和其它問題是糾結(jié)在一起的,并不適合單項的做結(jié)論,它需要就其它技術(shù)做權(quán)衡取舍。
PSM4技術(shù)是對多模100G數(shù)據(jù)中心的補充。目前業(yè)界低估了PSM4技術(shù)的潛在性,而把焦點放在了CWDM4技術(shù)上,這或許多少有些誤區(qū)。PSM4技術(shù)采用的是單模MPO光纖傳輸,目前的傳輸距離到2KM非常輕松,而不是行業(yè)標(biāo)準(zhǔn)的500米,其實PSM4技術(shù)應(yīng)該是10KM傳輸?shù)囊?guī)格,只是業(yè)內(nèi)對于它的應(yīng)用幾乎是不假思索的定義為2KM。這是一個焦點被轉(zhuǎn)移后錯誤的認(rèn)知,從一開始,分布式計算和并行傳輸就應(yīng)該是這個領(lǐng)域的綱領(lǐng)性標(biāo)準(zhǔn)。100G PSM4的成本應(yīng)該是100G VCSEL的3倍。只要人們愿意,未來可能降低到1.5-2倍水平。相對于100G CWDM4技術(shù),PSM4技術(shù)使用了4倍光纖數(shù)量,光纖的成本可以假設(shè)為零,系統(tǒng)設(shè)計者考慮最多的是:一、光纖資源的有限性和日后可擴容性;二、數(shù)據(jù)機房的布線成本。
細(xì)致討論這些集合不同領(lǐng)域的知識和見解 做一個建設(shè)性結(jié)論
光纖傳輸之所以采用粗波分復(fù)用和密集粗波分復(fù)用是由于已經(jīng)布設(shè)的光纜資源的有限性,所以設(shè)計者考慮用波分復(fù)用設(shè)備替代單波長設(shè)備。在光纖資源并不緊張的情況下,這種空分復(fù)用技術(shù)本身是增加成本的,因為光纖成本接近于零,如果空間建筑允許,第一次布設(shè)的時候應(yīng)該布設(shè)足夠的光纖以便于日后擴容采用。數(shù)據(jù)中心和骨干城域網(wǎng)不同,骨干城域網(wǎng)的光纜建設(shè)已經(jīng)完成,不管是之前思慮不周還是沒有了望到更長遠(yuǎn)的需求,地底下被埋設(shè)的光纜資源都是有限的,因此必須啟用波分復(fù)用技術(shù)。但是數(shù)據(jù)中心不同,數(shù)據(jù)中心屬于第一次建設(shè),它不需要采用未來還不明確的在哪種速率和帶寬下的波分復(fù)用技術(shù)。不能為波分復(fù)用而去做波分系統(tǒng),波分復(fù)用僅是對現(xiàn)有光纖資源的一個有效利用手段,這個手段需要付出很多成本代價,但是在現(xiàn)在的需求看來基本是沒有必要付出的。波分復(fù)用僅是同一種速率下的密度升級,按照現(xiàn)有的模塊與系統(tǒng)設(shè)計,它的第一次部署等同于喧賓奪主或者本木倒置,必將阻礙系統(tǒng)的速率和帶寬升級。
現(xiàn)有的100G CWDM4模塊是無法直接升級到200G與400G的。常規(guī)的波分復(fù)用系統(tǒng)可以被升級,是因為有源和無源被分割成兩個獨立的系統(tǒng)。無源是和速率波長無關(guān)的,所以可以自由升級?,F(xiàn)在的數(shù)據(jù)中心CWDM4模塊集成了有源和無源技術(shù),好處是空間緊湊,壞處也是明顯的,這個架構(gòu)根本無法直接更換一個更高速率或更多波長(如8波,16波)的模塊,意味著當(dāng)系統(tǒng)需要升級的時候。我們過去為CWDM4而CWDM4的成本都打了水漂。因為采用PSM4同樣可以實現(xiàn)光連接,且成本更低。按目前的直接材料成本和制成費用核算,單個CWDM4成本是PSM4的1.35-1.5倍。這些多出的成本對于現(xiàn)在的系統(tǒng)運作毫無意義。
現(xiàn)有CWDM4模塊對數(shù)據(jù)中心系統(tǒng)增加了可靠性風(fēng)險,緊湊型CWDM4模快存在溫飄和可靠性問題,CWDM4的規(guī)模部署需要數(shù)據(jù)中心將機房溫度嚴(yán)格設(shè)定在估計15-50-度的范圍,否則可能出現(xiàn)由于溫飄和光芯片可靠性招致的嚴(yán)重誤碼現(xiàn)象。如果機房的水冷和空調(diào)系統(tǒng)一旦間歇性失靈.數(shù)據(jù)中心將出現(xiàn)災(zāi)難。CWDM4模塊需要一個更可靠的工作環(huán)境帶給系統(tǒng)巨大的能耗(PDU增大),如果僅僅因為使用CWDM4模塊而必須犧牲巨大的能耗,這些能耗的損失將在一個月內(nèi)使所有模塊的購買成本增大一倍。就我們已經(jīng)做過的驗證,4*25G CWDM CHIP業(yè)內(nèi)還沒有絕對的可靠性保證。任何一路的可靠性將影響到四路也就是整個模塊的可靠性。CWDM4的可靠性隱患包括:CWDM光芯片的可靠性,自由空間發(fā)射結(jié)構(gòu)的可靠性或AWG的溫漂性。我們知道CWDM4技術(shù)正在進(jìn)步,但是到目前為止,大家都在閉著眼睛過河。
CWDM4的光纖是否帶來了光纖資源的節(jié)約和長期性升級時候的一勞永逸?沒那么簡單!當(dāng)我們做系統(tǒng)設(shè)計的時候一定要考慮到在一開始,光纖資源就必須按照平行架構(gòu)去布置,而不要思考光纖復(fù)用的問題,因為在此時考慮復(fù)用是沒有意義的。我們根本不知道未來的技術(shù)需要多少光纖資源。把一個PSM4模塊升級到PSM8和把一個CWDM4模塊升級到CWDM8,理論上都需要仍掉現(xiàn)在的PSM4模塊和CWDM4模塊(很顯然這個情況下仍掉的錢是不同的)。把一個PSM4模塊升級到PSM8確實需要動用8根光纖,但是這個升級遭遇的技術(shù)瓶頸是更簡單低成本的。只要有需求,我們事實上在任何時候可以把一個PSM4模塊升級到CWDM4從而有效地利用光纖資源。人們會說,如果不是現(xiàn)在,而是將來把100G PSM4升級到100G CWDM4,那不是白白損失了一個PSM4模塊嗎?我們在之前已經(jīng)分析過,PSM4??斓哪芎暮凸芾沓杀具h(yuǎn)遠(yuǎn)為數(shù)據(jù)中心建造者賺回了不止10個CWDM4模塊.并且由于PSM4模塊的可靠性,拆卸下來的模塊仍然可以被利用于其它新建的系統(tǒng)。雖然沒有精確的計算,但是PSM4模塊的好處是非常多的:傳輸?shù)耐餍?無溫飄,可靠性更高,以及在某些情況下輕易地實現(xiàn)通道的分流監(jiān)測.
我們需要再次強化一個概念,波分復(fù)用技術(shù)是空分復(fù)用技術(shù),它和系統(tǒng)速率和帶寬毫無關(guān)系。系統(tǒng)架造師如果把波分復(fù)用技術(shù)和系統(tǒng)從40G/100G向200G/400G 升級的相關(guān)技術(shù)融作一體考量的時候,就必然陷阱兩種不同技術(shù)思維的誤區(qū),招致錯誤的結(jié)論。波分復(fù)用技術(shù)的價值僅在于對現(xiàn)有光鏈路的改造以及資源非常緊張的應(yīng)用(比如租用光纖資源的成本和稀缺性),它不能被視作一個初始技術(shù)。讓我們進(jìn)一步闡釋,一個數(shù)據(jù)中心鏈路通常包括四種架構(gòu)設(shè)計:設(shè)備架構(gòu)、布線架構(gòu)、升級架構(gòu)和擴容架構(gòu)。
設(shè)備架構(gòu):保證系統(tǒng)采用何種速率和吞吐率,只能基于現(xiàn)有的技術(shù)
布線架構(gòu):保證系統(tǒng)需要多少光纖資源,必須一次性想好道路的寬度
升級架構(gòu):系統(tǒng)從低速率(如10G/40G)向高速率(如100G/200G/400G演進(jìn)的技術(shù)路徑和成本
擴容架構(gòu):如何利用空分復(fù)用技術(shù)把現(xiàn)有系統(tǒng)提升系統(tǒng)的容量和密度
對于擴容架構(gòu),我們有必要做進(jìn)一步的論證,如下圖是兩個典型數(shù)據(jù)中心波分復(fù)用光互連架構(gòu)
(A) 方案是有源和無源分離的設(shè)計方案
(B) 方案類似現(xiàn)在100G CWDM4 數(shù)據(jù)中心的結(jié)構(gòu)
我們很容易發(fā)現(xiàn),就系統(tǒng)升級而言,A方案僅需要更換交換路由設(shè)備,而B方案的升級將只剩下光纜可以被再度利用。所以我們傾向認(rèn)為現(xiàn)有CWDM4數(shù)據(jù)中心因為謀求更緊湊的設(shè)備,導(dǎo)致了升級成本的根本上升。因為除了光纜,什么也無法留下。即便我們認(rèn)為這些被留下的光纜一定可被再利用進(jìn)入下一代數(shù)據(jù)中心也是值得商榷的,下一代數(shù)據(jù)中心比如400G數(shù)據(jù)中心,如果采用FR8或LR8,這個波長是1550NM色散位移光纖,而現(xiàn)在的100G CWDM4是采用1310nm的光纜。
數(shù)據(jù)中心作為一個蓬勃發(fā)展的新事物,有太多值得討論的空間,本文最后的推薦結(jié)論是:
1)多模數(shù)據(jù)中心仍然是數(shù)據(jù)中心發(fā)展的核心。不但因為成本,也因為技術(shù)的可靠性.多模數(shù)據(jù)中心可以說是為數(shù)據(jù)中心而生。
2)在長距離數(shù)據(jù)中心發(fā)展上,PSM4技術(shù)優(yōu)于CWDM4,PSM8技術(shù)優(yōu)于CWDM8,以此類推。數(shù)據(jù)中心適宜定位平行技術(shù)作為主流,至少這個布局不會是一個全輸?shù)挠螒颉2⑿屑夹g(shù)不但透明且易于做OMA管理。
3)除非情不得已,數(shù)據(jù)中心采用NRZ技術(shù)演進(jìn)是最可靠和低成本的。有時候我們要考慮,一旦數(shù)據(jù)中心被PAM4主導(dǎo),它的下一步是PAM8/PAM16嗎?這樣的話系統(tǒng)將變得越來越不透明和難于管理。如果我們采用PSM4+PAM4的結(jié)構(gòu)一定優(yōu)于CWDM4+PAM4的結(jié)構(gòu)。
4)目前采用集成CWDM4技術(shù)做數(shù)據(jù)中心的第一次部署從一開始就把數(shù)據(jù)中心定義為過渡型而非固定型。這個理念需要修正。我認(rèn)為這正是專業(yè)人士和非專業(yè)人士的分界點。從我接觸光通信時候起,我們就知道CWDM屬于一種增容的技術(shù)。目前的CWDM4技術(shù)界于離散和集成之間,并不成熟,而且無法擴充到8波或16波,這極大限制了CWDM系統(tǒng)地擴容能力,CWDM4作為數(shù)據(jù)中心第一次部署并不恰當(dāng).客觀上,這種技術(shù)的第一次部署是限制了系統(tǒng)的可能性與靈活性,帶來事與愿違的成本上升,必須十分謹(jǐn)慎!
結(jié)語:數(shù)據(jù)中心的平行架構(gòu)和CWDM架構(gòu)頗有點宇宙和哲學(xué)的意味,把這個問題講清楚頗費腦筋,CWDM技術(shù)是平行技術(shù)的延伸,而非對抗性技術(shù)。有多少個平行宇宙就有多少種CWDM宇宙。如果平行宇宙不存在,CWDM宇宙將很快塌縮到?jīng)]有發(fā)展空間,或者我們從另外一個意義上看,平行=簡單。