用戶名: 密碼: 驗證碼:

JDSU的數(shù)據(jù)中心SAN存儲網(wǎng)絡故障診斷解決方案

摘要:JDSU系統(tǒng)解決方案是用戶的服務器,網(wǎng)絡設備,包括存儲系統(tǒng)已經(jīng)上線以后,他的各種業(yè)務系統(tǒng)已經(jīng)上線以后,如果出現(xiàn)后端服務器跟存儲系統(tǒng)之間性能比拼,就可能用到SNA的解決方案。
        2011年12月22日,在工業(yè)信息化部、信息化推進司、中國數(shù)據(jù)中心產(chǎn)業(yè)聯(lián)盟的支持下,中國IDC產(chǎn)業(yè)聯(lián)盟網(wǎng)承辦2011中國數(shù)據(jù)中心建設與運維高層論壇開幕了,此次論壇以“領(lǐng)先科技,締造未來”為主題,與會將就新一代數(shù)據(jù)中心規(guī)劃,建設,運維,和安全等實質(zhì)性問題進行廣泛探討和互動交流。機房360對本次高層論壇做了全程直播。以下是王加東演講的全文實錄:
  
  王加東:各位來賓大家下午好,現(xiàn)在由我給大家介紹一下SNA存儲網(wǎng)絡故障,排錯方案。我們這個主題跟今天上午,包括今天下午大部分主題發(fā)言范圍,可能差距比較大一些,并沒有涉及到一些基礎(chǔ)系統(tǒng)建設,包括運維。我們這個系統(tǒng)解決方案是用戶的服務器,網(wǎng)絡設備,包括存儲系統(tǒng)已經(jīng)上線以后,他的各種業(yè)務系統(tǒng)已經(jīng)上線以后,如果出現(xiàn)后端服務器跟存儲系統(tǒng)之間性能比拼,就可能用到我們SNA的解決方案。所以,還是一個比較細分的市場,我是負責數(shù)據(jù)存儲網(wǎng)絡這塊業(yè)務在亞洲的市場拓展。
  
  我們本次大概會有下面幾個部分,一個是國內(nèi)外大型機構(gòu)數(shù)據(jù)中心系統(tǒng)及維護模式不同,包括部署工具之前和之后的場景。另外,我們會簡單介紹一下存儲網(wǎng)絡分析幾個典型應用場景,最后就我們的解決方案做一個簡單介紹,包括也會提到我們目前在上海,包括北京、上海的客戶案例。首先我們看一下大型機構(gòu)數(shù)據(jù)中心在國內(nèi)外系統(tǒng)維護模式不同,這是一個ESG創(chuàng)始人講的一段話,現(xiàn)在IT系統(tǒng)越來越復雜,問題也越來越多,在應用各個當中也提出越來越多的挑戰(zhàn),我們需要使用一些好的工具,或者是維護的解決方案定義出問題來。
  
  這個是國外大型機構(gòu)跟國內(nèi)大型機構(gòu)目前一些不同,我們在國內(nèi)跟很多機構(gòu)用戶做過很多交流,國外目前,其實我們發(fā)現(xiàn)他稅金規(guī)模已經(jīng)相當龐大,不說現(xiàn)在,即便10年以前。我們發(fā)現(xiàn)包括美國,在歐洲并不是一些很知名類似于金融,證券,運營商這種客戶,他的數(shù)據(jù)中心與我們10年以后,中國很多大型機構(gòu)基本上還要大很多。因為這幾年國內(nèi)數(shù)據(jù)機房建設也越來越大,規(guī)模也越來越大,部署的系統(tǒng)和業(yè)務越來越大,也有趕超的趨勢。目前來講,相對是小一些。
  
  那么,國內(nèi)因為規(guī)模比較大出的問題也非常多,目前相對來講,國內(nèi)因為規(guī)模的問題相對還小一些。我們跟很多金融企業(yè)溝通起來,很多問題還是僅限于線,包括鏈路的問題等等,很多問題可能通過應用跟系統(tǒng)本身提供的一些管理軟件也可以得到解決,碰到非常復雜的問題前幾年并不是特別多。這幾年規(guī)模慢慢大起來以后,問題也慢慢出來了。在國外的話,他的用戶碰到問題的時候,除了使用像系統(tǒng)廠商提供的一些管理系統(tǒng),還有一些服務器的管理系統(tǒng),網(wǎng)絡設備與網(wǎng)絡設備的管理系統(tǒng),智能設備與智能設備的管理系統(tǒng)。除此之外,還有很多第三方網(wǎng)管工具,或者是管理工具,包括比方說我們上了這種業(yè)務系統(tǒng)以后,我們碰到這種應用性能的問題,我這個業(yè)務系統(tǒng),對終端用戶連上來以后覺得非常慢,打開一個頁面查一個東西,可能幾十秒鐘出不來結(jié)果,這就是性能的問題。
  
  實際上來講,國外的公司現(xiàn)在已經(jīng)越來越多利用第三方整個工具,包括我下面提的應用性能管理的問題,典型代表像美國一些公司,大家可能對Snifer都比較熟悉,對你以太網(wǎng)進行監(jiān)控和分析。國內(nèi)目前來看,我們碰到大部分問題,尤其企業(yè)一些基本客戶還是比較傾向于碰到問題的時候,尤其稍微復雜的問題都還是叫廠商過來,他們也買了廠商7×24小時的服務,一個電話就過來,廠商也非常重視,因為是大的機構(gòu)用戶。所以,出現(xiàn)問題的時候,像包括服務器,數(shù)據(jù)庫,中間件,交換機,存儲設備都會過來,不行就做多方會診解決問題,目前這種情況還是比較多一些。
  
  那么,自己獨立配置一些第三方診斷,運維工具來進行診斷,目前這種情況還不是非常多。這個就是剛才我提到的,這是通過美國一個公司生成業(yè)務拓撲圖,從這個圖上面可以容易讓你知道,一個用戶請求經(jīng)過每一步的研究,會很方便找到問題在哪一個點。但是,我們知道一旦問題點,比如這張圖里面最右邊的數(shù)據(jù)庫,服務器跟系統(tǒng)之間的時候,這個時候帶來的問題就兩個方向。一個方向你如果查數(shù)據(jù)庫內(nèi)部資源,比如服務器內(nèi)部像CPU,內(nèi)存,網(wǎng)絡,各種資源進程如果都非常正常的話,你數(shù)據(jù)庫服務器對客戶端請求仍然非常慢。那問題就在什么地方呢?肯定跟后端存儲網(wǎng)絡有關(guān)系。
  
  但是,即便剛剛提到的數(shù)據(jù)庫服務器本身都有正常,并不一定是后端存儲的問題。所以,我們這個分析工具就應該在這個地方,用在數(shù)據(jù)庫服務器跟交換機,存儲之間這個環(huán)節(jié)。我們通過相應的數(shù)據(jù),進行一定的分析,并且非常明確的告訴用戶,性能的慢或者不穩(wěn)定,各種問題,根源到底是不是存儲系統(tǒng),是不是交換機,或者是不是我這個服務器。所以,這是我們適用的范圍。
  
  那么,一個典型的部署,我們這個產(chǎn)品是Xgig,一般是終端用戶報告我的業(yè)務系統(tǒng)慢,我用的ERP慢,計費系統(tǒng)慢,供應鏈管理系統(tǒng)慢,慢可能就會聯(lián)絡到存儲管理員,可能會懷疑存儲系統(tǒng)慢及存儲網(wǎng)絡慢。那么存儲管理員第一步會使用一些存儲資源管理,或者SNA的管理人員進行定位。如果你找到了很簡單,你可能通過一個手段消除這個問題的根源,應用性能的豐富。如果找不到問題,就進一步通過設備管理工具進行定位,如果找到了OP,找不到可能這個時候就沒辦法聯(lián)系廠商。但是,用戶自己可能會覺得是服務器問題,有一個初斷,或者是存儲的問題,相應會把廠商叫過來。當然先通過電話,電話不行再通過上門服務。你懷疑這個節(jié)點確實有問題解決了,結(jié)果不了就得叫另外一個長上過來。
  
  如果大家都看不到問題的話,把大家都叫在一起進行多方會診。但是有些問題,剛才談存儲網(wǎng)絡復雜以后有些問題不是這么簡單的,可能從某一方,從服務器自身來看,看你上面記錄,進程資源情況都很好,交換機也好的,存儲系統(tǒng)能力也很好,可能存儲廠商人員可能會通過密碼登入內(nèi)部,這也是好的。這個問題怎么辦呢?最終結(jié)果,往往還是說要部署我們第三方工具,來抓一些數(shù)據(jù)進行一個分析,最終進行定義。如果數(shù)據(jù)中心里面事先部署了SNA的分析工具,這個情況就跟剛才不大一樣。一般如果有問題打給存儲管理員,存儲管理員如果找到問題就OK,如果覺得一看性能沒問題,直接就進行排除,應用慢就找其他環(huán)節(jié),就不是我后臺存儲網(wǎng)絡的問題。如果通過工具一看,如果慢的根源就在存儲網(wǎng)絡,我們就抓一些數(shù)據(jù)來進行分析,這個問題在什么地方,可能是什么原因,包括存儲網(wǎng)絡存儲和服務器的理解情況,使問題得到解決,如果解決不了,我也可以很快把抓的數(shù)據(jù)發(fā)給廠商。因為這些廠商都會看的懂我們抓的數(shù)據(jù),他們很快就會對一些問題,給客戶一個解釋。
  
  當然,沒必要等用戶跑到現(xiàn)場來抓數(shù)據(jù)進行分析,也耽誤了很多時間。我們前面談到存儲網(wǎng)絡分析工具,目前常用的幾個場景有這么幾個地方,一個因為業(yè)務慢,這可能是我們碰到最多問題,你等到業(yè)務上線以后,可能平常應該很正常。在某些時段,或者某些場合下面你會發(fā)現(xiàn)性能不好,剛才講了你可以聯(lián)通,但是大家體驗不好,查個東西,寫個數(shù)據(jù)很難忍受,他這種情況比較容易解決。還有業(yè)務系統(tǒng)沒有規(guī)律的,包括不穩(wěn)定的情況,這兩種情況是更好使用我們的產(chǎn)品。下面會談四種常見案例,第一種就是我們看到應用系統(tǒng)的可用性。應用系統(tǒng)一般都在服務器上面,訪問后端存儲系統(tǒng),如果慢的話?我們可以把我們工具通過光纖分路器拿出來進行分析,來判斷是不是在存儲網(wǎng)絡這一側(cè)出現(xiàn)問題。
  
  第二向一些,如果大的數(shù)據(jù)中心我們就會做遠程災備,建災備中心。災備中心兩端設備會定期進行備份,這個時候我們就可以來看,相當于復制的性能到底怎么樣。還有我們會做一些對數(shù)據(jù)中心存儲系統(tǒng)一側(cè)進行監(jiān)測,當然這還不止電子商務網(wǎng)站,一般企業(yè)應用,只要把存儲這一側(cè)監(jiān)測起來,所有業(yè)務系統(tǒng),訪問存儲這一端如果慢很快就可以找到根源,進行集中監(jiān)控。
  
  還有現(xiàn)在很多集成系統(tǒng)廠商把老的東西和新的東西整合在一起,所有服務器都通過存儲網(wǎng)絡統(tǒng)一訪問存儲信息化系統(tǒng),有他來分配數(shù)據(jù)整體到哪些具體上面。往往這個時候,我們發(fā)現(xiàn)很多用戶也碰到一些快慢問題,你反而沒上信息化之前是好的,上了信息化之后反而問題更多。這種場合也非常適合用我們這個東西,我們在虛擬化系統(tǒng)前端和后端都把這個抓下來進行分析,我們就要比較一下,比方說前端后端延遲到底怎么樣,很容易得到問題的答案。
  
  下面我們稍微簡單看一下捷迪訊公司一些業(yè)務,包括我們產(chǎn)品的情況。捷迪訊公司是99年加拿大JDS和美國Uniphase合并而成,總部設在美國硅谷Milpitas,NASDAQ上市公司。2009年7月15日收購美國Finisar公司協(xié)議工具部門,踏入存儲網(wǎng)絡測試領(lǐng)域,我們涉及FC協(xié)議分析,SAS,SATA協(xié)議,iSCS,CIFS,NFS協(xié)議都非常擅長,我們有一個MedusaLabs實驗室,進行一些測試服務。這是使用我們這個產(chǎn)品的客戶,基本上可以看到,業(yè)界從做存儲網(wǎng)卡到存儲交換機,到存儲系統(tǒng),甚至包括存儲硬盤都是我們客戶。
  
  我們現(xiàn)在這個產(chǎn)品還抓了數(shù)據(jù)格式,各個廠商,基本上用戶數(shù)據(jù)中心里面涉及的主機,交換機等等都會認識,他們的工程師也都會用我們這個工具進行分析。這個展品就是我們前面提到Xgig的產(chǎn)品,其實是一個硬件設備。當然了,我們具體的配置,管理,分析也是通過軟件來做的,設備的主要目的是為了把存儲網(wǎng)絡鏈路上的數(shù)據(jù)拿下來存在里面,然后我這個電腦裝的軟件,把系統(tǒng)設備找出來進行分析,找出問題根源。
  
  這是幾個協(xié)議,一個是FibreChannel,還有存儲交換機,還有主力系統(tǒng),現(xiàn)在都有8G,還有廠商正在研究16G協(xié)議,真正用戶部署還得2年以后。以太網(wǎng)這塊,包括像1個3,10個G,40G都可以進行分析,另外還有SaaS的協(xié)議也都可以做分析。這是我們軟件的一個運行界面,通過界面可以看到,這是XgigFC協(xié)議分析解碼界面,左下角基本上類似于Xgig的界面,從這當中進行解碼出來。這個是對抓的數(shù)據(jù)進行一個系統(tǒng)專家分析,告訴你什么地方有什么問題,紅色的表示出錯,紅色是警告。前面也提到為了應用我們解決方案,首先第一步要從鏈路上把這個拿下來,要經(jīng)過高密度分光路器,這是一個實際圖,這是一個機架設備,4個小模塊,每個模塊有四組,每一組有三個端口,其中前面兩個端口相當于一進一出。第三個端口把兩個方向數(shù)據(jù),可以拿出來,跟我們工具的連接是這樣的。
  
  我們可以看到第三個端口,出來的兩個鏈路數(shù)據(jù)直接可以接到我們工具這兩個端口上。右上角這個圖,如果接在交換機和傳統(tǒng)設備之間的話,高密度分裝器如何連接的。下面舉兩個案例,這是國內(nèi)銀行間互聯(lián)機構(gòu)。他們今年3月份出了一個問題,每天晚上9點多鐘,基本上這個時間,跨行間交易,業(yè)績就會堵住,在交易大屏幕上可以看到瞬間業(yè)務訂單就堵塞在那邊,下不下去。
  
  這左邊是一個數(shù)據(jù)庫服務器,IBM,中間四臺是光纖通道存儲交換機,右邊這臺是一個OEM的高端存儲,你看走的雙鏈路,服務器是兩條鏈路連兩個交換機,兩個交換機連另外兩個交換機,這兩個交換機互相做災備。當時其實用戶沒有用這個功能之前,找這個問題已經(jīng)分析了兩三個月,總會擔心會不會有根源的問題發(fā)現(xiàn)。為此,用戶這邊包括很多戰(zhàn)略管理人員經(jīng)常通宵達旦把廠商的人叫過來分析,也分析不出來,一個IBM,每個人看自己系統(tǒng)都完全沒有問題,都非常正常,但是這個問題基本上每天都出現(xiàn)。當然,也不是一定某一個時間點出現(xiàn),但都會出現(xiàn)。所以,這個問題比較復雜。
  
  我們實際上現(xiàn)在,當然這個解決方案沒有用到分裝器,我們通過交換機上做端口競相,分別把服務器連兩個交換機的兩個鏈路,以及右邊這兩個交換機連存儲兩個鏈路應該競相出來,連在我們這個設備,把數(shù)據(jù)抓起來,抓了之后就可以進行分析。他這個系統(tǒng)里面也是一個多路徑,服務器端是負載均衡的兩條鏈路到這個系統(tǒng)里來。這個我們抓過來以后做一定分析,找到這個流量圖,右邊紅線這個地方流量基本上就消失了,沒地方要了。這邊是我們專家分析的一些結(jié)果,順著這個結(jié)果去找根源,發(fā)現(xiàn)他是在第二套鏈路,右邊交換機連存儲系統(tǒng),這個鏈路上面,在某一個時刻,多少,多少秒,過來的32個訪問存儲命令全部都掛在那邊,什么意思呢?我讀寫存儲系統(tǒng)的命令,存儲系統(tǒng)完全沒有響應,掛的時間是2.6秒鐘。因為正常來講的話,你要發(fā)一個毒的命令到存儲系統(tǒng),存儲系統(tǒng)應該回第一個數(shù)據(jù),第二個數(shù)據(jù)回來,一個寫命令,寫在存儲系統(tǒng)上,存儲系統(tǒng)就說你可以寫了,下面存儲器就把這個寫出來。所以,這些存儲系統(tǒng)都沒有響應,我們判斷存儲系統(tǒng)這個時候內(nèi)部是掛掉的。當然,掛的時間不是很長,2.6秒鐘,但是對業(yè)務影響非常關(guān)鍵,我們同時發(fā)現(xiàn)他跨行間的交易一下子就堵塞了,所以這是很嚴重的問題。
  
  這是我們具體某一個命令,你看這上面是讀的命令,下面這行是2.588的地方,這是一個具體展示。剛剛講的這個例子問題是在存儲設備,存儲系統(tǒng)內(nèi)部的問題。我現(xiàn)在講這是一個北京四大行之一,這個是今年6月份的時候,他們要上第三方交易平臺,有一個上限結(jié)果出問題上不了。因為這個服務者考慮這個系統(tǒng)連起來之后,超過三個多小時磁盤找不到了,盤掉了。這個問題根源是存儲系統(tǒng)那端發(fā)了一個正常的數(shù)據(jù)包,就是我們現(xiàn)在上面這個線停在這個地方,發(fā)了一個包,發(fā)了一個主機,結(jié)果主機存儲門檻碰到這個包可能有問題,就掛掉了。操作系統(tǒng)過了幾秒鐘之后就提醒應用,磁盤也看不見。
  
  去年還是前年在上海有一個證券交易中心,在這個地方也出現(xiàn)問題,當時部署我們系統(tǒng)也是15分鐘沒有搞定,之前也是IBM跟EMC重組,大概將近1個多月也是不知道怎么回事,分析完以后從三個點一看就是這個分析系統(tǒng)性能問題,美國研發(fā)也確認存儲系統(tǒng)里面有問題,他自己看設備管理器原來都是很正常的。那么,這個是我們在國外比較多的一些大型客戶成功案例,包括從運營商經(jīng)營,證券,大的企業(yè),超算中心也算的非常多。我的介紹就到這里,大家如果以后對存儲網(wǎng)絡這塊新的排錯,調(diào)優(yōu)有什么問題可以聯(lián)系我們在各地的分支機構(gòu),謝謝大家。
內(nèi)容來自:訊石光通訊咨詢網(wǎng)
本文地址:http://huaquanjd.cn//Site/CN/News/2011/12/23/20111223025843597250.htm 轉(zhuǎn)載請保留文章出處
關(guān)鍵字: JDSU 系統(tǒng)解決方案 服務器
文章標題:JDSU的數(shù)據(jù)中心SAN存儲網(wǎng)絡故障診斷解決方案
【加入收藏夾】  【推薦給好友】 
免責聲明:凡本網(wǎng)注明“訊石光通訊咨詢網(wǎng)”的所有作品,版權(quán)均屬于光通訊咨詢網(wǎng),未經(jīng)本網(wǎng)授權(quán)不得轉(zhuǎn)載、摘編或利用其它方式使用上述作品。 已經(jīng)本網(wǎng)授權(quán)使用作品的,應在授權(quán)范圍內(nèi)使用,反上述聲明者,本網(wǎng)將追究其相關(guān)法律責任。
※我們誠邀媒體同行合作! 聯(lián)系方式:訊石光通訊咨詢網(wǎng)新聞中心 電話:0755-82960080-188   debison