ICCSZ訊 7月20日,華為在O'Reilly Open Source Convention (OSCON) 上宣布Spark SQL on HBase package正式開(kāi)源。Spark SQL on HBase package項(xiàng)目又名 Astro,端到端整合了Spark, Spark SQL和HBase的能力,有助于推動(dòng)幫助Spark進(jìn)入NoSQL的廣泛客戶(hù)群,并提供強(qiáng)大的在線(xiàn)查詢(xún)和分析以及在垂直企業(yè)大規(guī)模數(shù)據(jù)處理能力。
華為已經(jīng)把Spark嵌入到其大數(shù)據(jù)解決方案 —— FusionInsight,在世界上最大的銀行中國(guó)工商銀行以及最大的通信服務(wù)提供商中國(guó)移動(dòng)得到了應(yīng)用。華為還將Spark作為云服務(wù),計(jì)劃在今年晚些時(shí)候隨華為公有云發(fā)布。
2014年8月25號(hào),華為團(tuán)隊(duì)與Spark專(zhuān)家在伯克利的辦公室就Spark SQL On HBase設(shè)計(jì)進(jìn)行交流
Astro的新特性使得數(shù)據(jù)修改,智能掃描系統(tǒng)具有強(qiáng)大的可操作性,類(lèi)似于自定義過(guò)濾器和協(xié)處理器下推式,并讓更多的傳統(tǒng)RDBS能力可用,其查詢(xún)優(yōu)化算法適用于一般組織的數(shù)據(jù)集,并可以通過(guò)分布式SQL引擎進(jìn)行查詢(xún)。為了充分利用Spark最新的功能,包括Dataframe和外部數(shù)據(jù)源API ,華為全球團(tuán)隊(duì)一直持續(xù)更新項(xiàng)目代碼并符合最新發(fā)布的Spark1.4版本。此項(xiàng)目吸引了眾多社區(qū)貢獻(xiàn)者參與到開(kāi)發(fā)和驗(yàn)證中來(lái)。此外,華為團(tuán)隊(duì)還對(duì)Spark SQL,機(jī)器學(xué)習(xí)和Spark R貢獻(xiàn)了很多新特性,豐富了Spark的標(biāo)準(zhǔn)庫(kù)。
“從作為OPNFV創(chuàng)始成員推動(dòng)公司的核心業(yè)務(wù)網(wǎng)絡(luò)的開(kāi)放,到云計(jì)算和物聯(lián)網(wǎng)等新業(yè)務(wù),開(kāi)源已經(jīng)成為華為公司層面的戰(zhàn)略,比如我們將世界上最輕巧的物聯(lián)網(wǎng)操作系統(tǒng)LiteOS開(kāi)源,在標(biāo)準(zhǔn)化和簡(jiǎn)化基礎(chǔ)設(shè)施的同時(shí),還可以提升物聯(lián)網(wǎng)的可連接能力。”華為中軟總裁王成錄說(shuō)到。
王成錄表示:“Spark憑借其在數(shù)據(jù)處理和分析的卓越架構(gòu)成為Apache社區(qū)最有影響力的項(xiàng)目,一直是華為公司重點(diǎn)和首要的關(guān)注。我們相信以Spark作為我們大數(shù)據(jù)解決方案的核心,一定會(huì)給客戶(hù)帶來(lái)顯著的優(yōu)勢(shì),推動(dòng)生態(tài)圈的技術(shù)創(chuàng)新,同時(shí)最大程度優(yōu)化IT投資,成就客戶(hù)。”
華為已在世界排名前5的移動(dòng)運(yùn)營(yíng)商中國(guó)聯(lián)通運(yùn)營(yíng)子公司部署Spark,用于解決關(guān)鍵業(yè)務(wù)領(lǐng)域問(wèn)題。該系統(tǒng)支持多個(gè)數(shù)據(jù)源條件下的近實(shí)時(shí)查詢(xún)和分析,允許分析員和數(shù)據(jù)科學(xué)家基于大規(guī)模數(shù)據(jù)更簡(jiǎn)單有效的建立模型,對(duì)于某些特定場(chǎng)景,建模周期甚至能夠從幾個(gè)月縮減至幾周。另外,該系統(tǒng)基于Spark也成功的實(shí)現(xiàn)了用戶(hù)推薦和離網(wǎng)預(yù)測(cè)。華為和聯(lián)通正在攜手努力,把Spark應(yīng)用延伸到新的業(yè)務(wù)領(lǐng)域。
而最近在南美最大的電信運(yùn)營(yíng)商之一的的成功商用,證明了相比傳統(tǒng)的BI系統(tǒng)和數(shù)據(jù)管理平臺(tái),Spark和華為大數(shù)據(jù)解決方案能夠帶來(lái)更多的商業(yè)價(jià)值。運(yùn)營(yíng)商可以更迅速及時(shí)地獲取最新的、集中的客戶(hù)洞察,在試點(diǎn)的業(yè)務(wù)中實(shí)現(xiàn)更高的營(yíng)銷(xiāo)轉(zhuǎn)化率,并能采用敏捷和快速的方式開(kāi)發(fā)新的商業(yè)案例。數(shù)據(jù)分析人員不再需要進(jìn)行MapReduce復(fù)雜編碼,機(jī)器學(xué)習(xí)的規(guī)模以及性能得到了極大的改善。
“我們很高興華為成為Spark的主要貢獻(xiàn)者。作為在新興市場(chǎng)和電信行業(yè)的領(lǐng)導(dǎo)者,華為一直在努力擴(kuò)大Spark的影響力。” Databricks 的聯(lián)合創(chuàng)始人以及Spark的發(fā)布經(jīng)理Patrick Wendell 這樣評(píng)價(jià)華為,“ 華為從Spark項(xiàng)目初期就一直是堅(jiān)定的貢獻(xiàn)者。我們期望華為繼續(xù)發(fā)展Spark,并推動(dòng)其在全球市場(chǎng)的垂直應(yīng)用。”
Spark提供了一個(gè)強(qiáng)大的編程框架,豐富的API和庫(kù),充滿(mǎn)活力的生態(tài)系統(tǒng),以及無(wú)與倫比技術(shù)創(chuàng)新的步伐,因而在大數(shù)據(jù)領(lǐng)域飛速上升。
“華為的全球團(tuán)隊(duì)在基于業(yè)務(wù)驅(qū)動(dòng)的情況下,把新的算法加入到MLlib庫(kù)中,同時(shí)在與Databricks和社區(qū)共同探索在矢量化處理以及SQL核心模塊性能優(yōu)化等工作的合作的可能性。”華為美國(guó)研發(fā)中心大數(shù)據(jù)帶頭人Bing Xiao說(shuō)到, “我們已經(jīng)看到社區(qū)對(duì)Astro的興趣,通過(guò)與其他廠(chǎng)商合作的方式去增強(qiáng)和推廣。此外,新興客戶(hù)對(duì)Spark SQL on OLAP cube有明顯的訴求,而我們正在評(píng)估社區(qū)的接受程度,以便于開(kāi)源。華為堅(jiān)定地致力于Spark,并在廣泛參與社區(qū)和行業(yè)建設(shè)。”