/前言/
面對(duì)流量快速增長(zhǎng),如何快速高效提供高質(zhì)量帶寬,保證帶寬長(zhǎng)期穩(wěn)定運(yùn)行,是數(shù)據(jù)中心互聯(lián)光網(wǎng)絡(luò)面臨的最大挑戰(zhàn)。針對(duì)快速高效提供帶寬的問(wèn)題。我們已經(jīng)具備有效的應(yīng)對(duì)方法。基于數(shù)據(jù)中心互聯(lián)組網(wǎng)特點(diǎn),我們將光網(wǎng)絡(luò)切割成一個(gè)一個(gè)獨(dú)立的單元,首先將這些單元標(biāo)準(zhǔn)化,設(shè)計(jì)更加適用于數(shù)據(jù)中心應(yīng)用的硬件設(shè)備OPC-4、TPC-4和設(shè)備管控模型,構(gòu)建標(biāo)準(zhǔn)管控系統(tǒng),實(shí)現(xiàn)對(duì)不同廠商設(shè)備的統(tǒng)一管理,混合組網(wǎng)。然后將標(biāo)準(zhǔn)單元快速?gòu)?fù)制到數(shù)據(jù)中心互聯(lián)應(yīng)用中,有效應(yīng)對(duì)數(shù)據(jù)中心互聯(lián)帶寬的快速增長(zhǎng)。
隨著系統(tǒng)規(guī)模越來(lái)越大,如何保證系統(tǒng)長(zhǎng)時(shí)間,高質(zhì)量運(yùn)行,是我們亟需解決的主要問(wèn)題。一方面系統(tǒng)在運(yùn)行過(guò)程中會(huì)逐漸偏離最佳運(yùn)行狀態(tài),需要持續(xù)修正,使系統(tǒng)維持在最佳運(yùn)行狀態(tài)。另一方面系統(tǒng)會(huì)遇到一些故障,在故障率一定的情況下,系統(tǒng)規(guī)模越大,故障總量就越大。如何有效降低故障率,并持續(xù)保證系統(tǒng)運(yùn)行在最佳狀態(tài),是提升系統(tǒng)質(zhì)量的關(guān)鍵。
我們從標(biāo)準(zhǔn)結(jié)構(gòu)著手,通過(guò)科學(xué)有效的方法,提升標(biāo)準(zhǔn)結(jié)構(gòu)的高質(zhì)量運(yùn)行能力,一旦為標(biāo)準(zhǔn)結(jié)構(gòu)構(gòu)建起這樣的能力,便可以快速將這種能力復(fù)制到整個(gè)網(wǎng)絡(luò)。我們以精細(xì)化運(yùn)行數(shù)據(jù)為驅(qū)動(dòng),為標(biāo)準(zhǔn)結(jié)構(gòu)構(gòu)建起自主運(yùn)行能力,使其能常態(tài)化運(yùn)行在最佳狀態(tài)。系統(tǒng)持續(xù)自主運(yùn)行在最佳狀態(tài),需要系統(tǒng)自身能夠基于運(yùn)行數(shù)據(jù),提前發(fā)現(xiàn)系統(tǒng)潛在風(fēng)險(xiǎn),在故障發(fā)生前主動(dòng)處理,防患于未然,有效降低系統(tǒng)故障率。同時(shí)以設(shè)備運(yùn)行數(shù)據(jù)為基礎(chǔ),還可以分析設(shè)備運(yùn)行情況,協(xié)助優(yōu)化設(shè)備硬件、軟件設(shè)計(jì),提升設(shè)備質(zhì)量。
/自動(dòng)控制架構(gòu)/
騰訊開(kāi)放光網(wǎng)絡(luò)自動(dòng)控制架構(gòu),本質(zhì)是一個(gè)閉環(huán)控制架構(gòu)。架構(gòu)的關(guān)鍵點(diǎn)是四大能力構(gòu)建:控制能力、采集能力、感知能力、決策能力。將這四大能力合理有序串聯(lián)起來(lái),便可實(shí)現(xiàn)整個(gè)系統(tǒng)的自動(dòng)運(yùn)行。采集能力采集到系統(tǒng)更詳盡、更精細(xì)的運(yùn)行數(shù)據(jù),感知能力對(duì)運(yùn)行數(shù)據(jù)分析,感知系統(tǒng)變化;決策能力則使系統(tǒng)具備科學(xué)分析,科學(xué)決策的能力,依據(jù)感知結(jié)果對(duì)系統(tǒng)作出科學(xué)決策,并將指令傳遞給控制系統(tǒng)執(zhí)行,實(shí)現(xiàn)對(duì)系統(tǒng)的閉環(huán)控制。
/感知能力構(gòu)建/
什么是感知能力?用一個(gè)人體體驗(yàn)作為例子,如果人體被針扎一下或者手?jǐn)Q一下,都會(huì)體會(huì)到疼痛,人體體會(huì)到疼痛是一種采集能力,但是我們的大腦能夠準(zhǔn)確的從這兩種疼痛不同的表現(xiàn)方式,體會(huì)出差異,判斷出區(qū)別,這就是感知能力。感知能力是一種對(duì)數(shù)據(jù)的分析能力。在傳統(tǒng)光網(wǎng)絡(luò)系統(tǒng)中,對(duì)數(shù)據(jù)的感知往往是由經(jīng)驗(yàn)豐富的工程師完成,我們正在幫系統(tǒng)構(gòu)建起這種能力,使系統(tǒng)能夠在無(wú)人干預(yù)的條件下,實(shí)現(xiàn)對(duì)數(shù)據(jù)的經(jīng)驗(yàn)性轉(zhuǎn)化。目前騰訊開(kāi)放光網(wǎng)絡(luò)已經(jīng)具備了控制能力和采集能力,我們正在進(jìn)行感知能力和分析能力的構(gòu)建。
我們主要從兩個(gè)維度構(gòu)建系統(tǒng)感知能力,一個(gè)是系統(tǒng)維度,一個(gè)是時(shí)間維度。系統(tǒng)維度,首先構(gòu)建針對(duì)單個(gè)指標(biāo)的感知能力,通過(guò)對(duì)指標(biāo)的感知來(lái)判斷系統(tǒng)變化。傳送平面的硬件和光纖是運(yùn)營(yíng)過(guò)程中可以操作的基本單元,構(gòu)建針對(duì)硬件和光纖的感知能力,準(zhǔn)確感知故障和潛在風(fēng)險(xiǎn),觸發(fā)相關(guān)運(yùn)維操作,對(duì)問(wèn)題硬件替換,避免故障發(fā)生,可以將故障轉(zhuǎn)化為計(jì)劃內(nèi)的網(wǎng)絡(luò)操作,保證系統(tǒng)質(zhì)量。傳輸系統(tǒng)最終是一個(gè)帶寬系統(tǒng),從用戶角度并不關(guān)心系統(tǒng)內(nèi)部設(shè)備、光纖這些組成元素。我們常被用戶問(wèn)及帶寬情況如何?帶寬的感知能力,則是讓系統(tǒng)能夠自行回答這個(gè)問(wèn)題。讓系統(tǒng)能夠感知帶寬當(dāng)前的運(yùn)行狀態(tài),預(yù)測(cè)帶寬未來(lái)的運(yùn)行狀態(tài),對(duì)潛在風(fēng)險(xiǎn)合理規(guī)避,有效降低帶寬的非預(yù)期性中斷,保證帶寬長(zhǎng)期穩(wěn)定運(yùn)行。時(shí)間維度,則要為系統(tǒng)構(gòu)建快速感知能力,中速感知能力和慢速感知能力,這是從系統(tǒng)問(wèn)題分析時(shí)效性出發(fā)定義的能力??焖俑兄菍?duì)數(shù)據(jù)的實(shí)時(shí)分析,快速捕獲系統(tǒng)故障。中速感知?jiǎng)t是對(duì)系統(tǒng)潛在風(fēng)險(xiǎn)或者關(guān)鍵指標(biāo)變化的分析和感知,這往往需要一定量的數(shù)據(jù)進(jìn)行分析。而慢速感知?jiǎng)t是通過(guò)對(duì)大量數(shù)據(jù)的分析,來(lái)感知系統(tǒng)運(yùn)行趨勢(shì),可以對(duì)系統(tǒng)未來(lái)的運(yùn)行狀況進(jìn)行預(yù)測(cè)。
接下來(lái)介紹不同感知能力構(gòu)建的典型數(shù)據(jù)基礎(chǔ)。下面這張圖展示了對(duì)線路光纖衰耗的快速感知能力。通過(guò)光纖兩端主光通道及OSC(Optical Supervisory Channel)的發(fā)光功率和收光功率計(jì)算得到光纖衰耗,能夠通過(guò)光纖衰耗的變化,快速發(fā)現(xiàn)光纖故障。同時(shí)可以觀察到在放大器開(kāi)啟APR(Automatic Power Reduction)功能情況下,主光通道光功率和OSC通道光功率的差異性行為。
下面這張圖展示了對(duì)光纖衰耗的中速感知能力,可以觀察到在某一時(shí)刻后光纖衰耗已經(jīng)發(fā)生變化,持續(xù)性的提升了一個(gè)臺(tái)階,此時(shí)系統(tǒng)需要感知到光纖基準(zhǔn)衰耗的變化,并正確修正該基準(zhǔn)衰耗。因?yàn)橄到y(tǒng)內(nèi)基于光纖衰耗的分析算法會(huì)使用到光纖基準(zhǔn)衰耗,光纖基準(zhǔn)衰耗的不準(zhǔn)確,會(huì)直接導(dǎo)致使用該指標(biāo)的算法無(wú)法得到正確結(jié)果。
最后一張圖展示了對(duì)設(shè)備的中速感知能力,可以明顯觀察出上方圖中,A-Z方向由主光通道計(jì)算出的光纖衰耗和由OSC通道計(jì)算出的光纖衰耗,呈現(xiàn)不同的數(shù)據(jù)形態(tài)?;贠SC計(jì)算出的光纖衰耗數(shù)據(jù)保持穩(wěn)定,但是相同時(shí)間段內(nèi),由主光通道計(jì)算出的光纖衰耗數(shù)據(jù)則出現(xiàn)較大范圍的波動(dòng)。進(jìn)一步分析可以發(fā)現(xiàn),這個(gè)現(xiàn)象是由于A端的主光通道發(fā)送光功率不穩(wěn)定導(dǎo)致的,并不是線路光纖出現(xiàn)問(wèn)題。因此通過(guò)對(duì)一段時(shí)間內(nèi)的數(shù)據(jù)進(jìn)行分析,為我們發(fā)現(xiàn)設(shè)備潛在故障提供準(zhǔn)確線索。
目前系統(tǒng)的感知范圍還主要集中在光纖纖芯內(nèi)部和設(shè)備內(nèi)部,但是實(shí)際中我們遇到的光纖故障,往往是由外界影響導(dǎo)致的,比如挖掘機(jī)將光纜挖斷。因此我們需要將感知能力擴(kuò)展到光纖外部幾米的范圍,使系統(tǒng)能夠感知光纖外部環(huán)境變化,這是系統(tǒng)能夠防患于未然的關(guān)鍵。針對(duì)這個(gè)問(wèn)題,一方面我們通過(guò)在光層設(shè)備中引入光纖傳感技術(shù),提升系統(tǒng)對(duì)光纖周?chē)h(huán)境的探測(cè)能力,另一方面我們?cè)谏钔谙到y(tǒng)中沉睡的光學(xué)指標(biāo),通過(guò)合理計(jì)算,擴(kuò)展系統(tǒng)的感知邊界。從這兩方面努力,使我們能夠提前預(yù)警光纖中斷風(fēng)險(xiǎn)。
/系統(tǒng)架構(gòu)變革/
數(shù)據(jù)驅(qū)動(dòng)推動(dòng)系統(tǒng)架構(gòu)發(fā)生革命性變革。網(wǎng)絡(luò)控制器與設(shè)備組成的管控系統(tǒng),需重新按照以數(shù)據(jù)為中心進(jìn)行設(shè)計(jì)。依照系統(tǒng)功能需求和實(shí)際資源分布,重新分配整個(gè)管控系統(tǒng)的計(jì)算能力。將系統(tǒng)主要計(jì)算能力上移到控制器,結(jié)合計(jì)算平臺(tái)自由伸縮特性,為系統(tǒng)提供彈性計(jì)算能力。同時(shí)降低計(jì)算能力受限的設(shè)備的計(jì)算負(fù)荷,將廣泛分布于網(wǎng)絡(luò)中的設(shè)備,改造成網(wǎng)絡(luò)運(yùn)行數(shù)據(jù)采集單元,持續(xù)快速的向控制器推送網(wǎng)絡(luò)的實(shí)時(shí)運(yùn)行數(shù)據(jù),由控制器完成基于全局視角的系統(tǒng)分析和控制。
從光纖故障處理的具體場(chǎng)景,對(duì)比數(shù)據(jù)驅(qū)動(dòng)型系統(tǒng)與傳統(tǒng)管理系統(tǒng)的區(qū)別。當(dāng)光纖發(fā)生故障后,傳統(tǒng)系統(tǒng)中設(shè)備產(chǎn)生LOS(Loss of signal)告警,并將告警傳遞給網(wǎng)管,網(wǎng)管將設(shè)備告警傳遞給上層管理系統(tǒng)(OSS);上層管理系統(tǒng)接收到設(shè)備告警后,并無(wú)法直接判斷故障,此時(shí)會(huì)下發(fā)查詢(xún)指令,向廠商網(wǎng)管查詢(xún)相關(guān)設(shè)備的性能數(shù)據(jù);網(wǎng)管會(huì)根據(jù)請(qǐng)求,向設(shè)備下發(fā)查詢(xún)指令,設(shè)備向廠商網(wǎng)管報(bào)告15min性能,然后廠商網(wǎng)管繼續(xù)向OSS上報(bào)設(shè)備返回的15min性能。光網(wǎng)絡(luò)設(shè)備的計(jì)算能力有限,在故障的時(shí)候要產(chǎn)生告警,同時(shí)又要應(yīng)對(duì)集中的查詢(xún)請(qǐng)求,這就是往往在發(fā)生故障的時(shí)候,操作人員體會(huì)到設(shè)備反應(yīng)變慢的根本原因。而且越是反應(yīng)慢,操作人員越會(huì)連續(xù)觸發(fā)設(shè)備查詢(xún)請(qǐng)求,導(dǎo)致情況變的更糟。傳輸設(shè)備作為整個(gè)系統(tǒng)中計(jì)算能力最弱的單元,卻在最關(guān)鍵的時(shí)候承擔(dān)了主要計(jì)算壓力,這樣的系統(tǒng)計(jì)算能力分配是不合理的。
在騰訊開(kāi)放光網(wǎng)絡(luò)系統(tǒng),我們按照系統(tǒng)各單元的客觀計(jì)算能力條件,重新分布了整個(gè)系統(tǒng)的計(jì)算能力。將設(shè)備的計(jì)算需求減載,將主要計(jì)算能力上移到控制器。將設(shè)備改造成一個(gè)精細(xì)、穩(wěn)定的采集裝置,源源不斷的采集系統(tǒng)運(yùn)行數(shù)據(jù),持續(xù)、快速向控制器上報(bào)。控制器承擔(dān)主要計(jì)算能力。對(duì)于相同的光纖故障處理場(chǎng)景:設(shè)備采集性能數(shù)據(jù)持續(xù)上報(bào),控制器根據(jù)所有設(shè)備上報(bào)的性能數(shù)據(jù)及網(wǎng)絡(luò)邏輯結(jié)構(gòu)數(shù)據(jù),快速計(jì)算得到光纜故障的結(jié)論,并反饋給上層網(wǎng)管系統(tǒng)。如果上層網(wǎng)管系統(tǒng)需要查詢(xún)故障當(dāng)時(shí)的系統(tǒng)性能數(shù)據(jù),則直接向控制器進(jìn)行請(qǐng)求,此時(shí)所有的設(shè)備性能數(shù)據(jù)均保存在控制器,控制器并不會(huì)向設(shè)備發(fā)起查詢(xún)命令,而是將該查詢(xún)請(qǐng)求終結(jié)在控制器內(nèi)部。即使上層管理系統(tǒng),有突發(fā)的多個(gè)查詢(xún)請(qǐng)求,控制器也能夠合理應(yīng)對(duì)。系統(tǒng)計(jì)算能力重新分配,讓設(shè)備和控制器更加合理的承擔(dān)系統(tǒng)功能,使系統(tǒng)更加高效運(yùn)轉(zhuǎn)。
設(shè)備作為整個(gè)系統(tǒng)的運(yùn)行數(shù)據(jù)采集終端,我們?cè)谙朕k法提升其采集數(shù)據(jù)的速率和精度,在我們的持續(xù)努力下,目前設(shè)備可以按照1s間隔向控制器推送性能數(shù)據(jù),而且關(guān)鍵性能指標(biāo)的時(shí)間分辨率可以達(dá)到20ms??刂破髯鳛橄到y(tǒng)計(jì)算能力主要單元,則在持續(xù)提升其數(shù)據(jù)處理及時(shí)性和準(zhǔn)確性?;?s streaming telemetry構(gòu)建的數(shù)字驅(qū)動(dòng)系統(tǒng),對(duì)比傳統(tǒng)傳輸系統(tǒng)的15min性能數(shù)據(jù),不僅僅是900倍的時(shí)間分辨率提升,更是對(duì)系統(tǒng)觀測(cè)能力的革命。正是基于對(duì)系統(tǒng)的精細(xì)化觀測(cè),使我們能夠精確感知、準(zhǔn)確控制。
/挑戰(zhàn)/
數(shù)據(jù)驅(qū)動(dòng)為系統(tǒng)帶來(lái)革命性變化的同時(shí),也帶極大挑戰(zhàn)。數(shù)據(jù)驅(qū)動(dòng)的核心是:數(shù)據(jù)與算法。我們希望在這兩個(gè)方面,與更多的合作伙伴一起合作。在數(shù)據(jù)為王的時(shí)代,數(shù)據(jù)源的質(zhì)量直接影響到系統(tǒng)的正確表達(dá),如何保證數(shù)據(jù)源的質(zhì)量,如何監(jiān)控?cái)?shù)據(jù)源的質(zhì)量,是一項(xiàng)關(guān)鍵任務(wù)。而找到數(shù)據(jù)背后的真相,發(fā)現(xiàn)問(wèn)題的本質(zhì)則會(huì)從根本上改變我們和供應(yīng)商的協(xié)作方式,由原來(lái)只能在問(wèn)題發(fā)生后被動(dòng)接受故障分析報(bào)告,演進(jìn)到可以根據(jù)數(shù)據(jù)發(fā)現(xiàn)真相,有效驅(qū)動(dòng)供應(yīng)商進(jìn)行精準(zhǔn)的問(wèn)題修復(fù),防患于未然。在算法方面,找到針對(duì)指標(biāo)感知更加通用的算法,找到更加合理的帶寬質(zhì)量分析算法,找到更加通用的硬件和光纖分析算法,則是我們關(guān)注的重點(diǎn)。在有效解決光網(wǎng)絡(luò)系統(tǒng)問(wèn)題的同時(shí),更通用的算法,也可以更加便捷的應(yīng)用到其他網(wǎng)絡(luò)領(lǐng)域中。
作者:陳明剛