六千個(gè)NVIDIA A100 GPU提供了近4 百億億次混合精度性能,推進(jìn)美國(guó)國(guó)家能源研究科學(xué)計(jì)算中心(NERSC)科學(xué)研究。
其將幫助科學(xué)家拼合宇宙三維地圖,以及探索綠色能源的原子內(nèi)的相互作用。
今天在美國(guó)國(guó)家能源研究科學(xué)計(jì)算中心(NERSC)正式啟用的超級(jí)計(jì)算機(jī)Perlmutter將為7000多名研究人員提供近4 百億億次的AI性能。
這使得Perlmutter成為在AI使用的16位和32位混合精度數(shù)學(xué)運(yùn)算方面全球最快的系統(tǒng)。這一性能,還未包括今年晚些時(shí)候,將在勞倫斯伯克利國(guó)家實(shí)驗(yàn)室系統(tǒng)中開(kāi)展的項(xiàng)目第二階段。
Perlmutter是全球最大的A100賦能系統(tǒng),搭載6144塊NVIDIA A100 Tensor Core GPU,可支持20多種應(yīng)用,致力于推動(dòng)天體物理學(xué)、氣象科學(xué)等領(lǐng)域的科學(xué)發(fā)展。
宇宙三維地圖
這臺(tái)超級(jí)計(jì)算機(jī)將在一個(gè)項(xiàng)目中協(xié)助拼裝迄今為止最大的宇宙三維地圖。它將處理來(lái)自宇宙攝像機(jī)——暗能量光譜儀(DESI)的數(shù)據(jù)。暗能量光譜儀每次曝光可以捕獲多達(dá)5000個(gè)星系。
研究人員需要利用Perlmutter的GPU速度,及時(shí)捕捉每晚幾十次曝光,從而確定次日晚間將DESI對(duì)準(zhǔn)何處。在以前的系統(tǒng)中,研究人員需要幾周乃至幾個(gè)月的時(shí)間,才能完成一年數(shù)據(jù)的發(fā)布準(zhǔn)備工作,而有了Perlmutter,他們?cè)诙潭處滋靸?nèi)就能完成任務(wù)。
NERS數(shù)據(jù)架構(gòu)師Rollin Thomas目前正在幫助研究人員為Perlmutter編寫(xiě)代碼,他表示:“GPU讓我們的數(shù)據(jù)準(zhǔn)備工作速度提升了20倍,這太令人感到驚喜了?!?
功夫不負(fù)有心人
暗能量光譜儀(DESI)的地圖將揭示暗能量這一宇宙加速膨脹背后的神秘物理學(xué)現(xiàn)象。暗能量的主要發(fā)現(xiàn)者是伯克利實(shí)驗(yàn)室的天體物理學(xué)家Saul Perlmutter,他也因此而獲得諾貝爾獎(jiǎng)。這臺(tái)新的超級(jí)計(jì)算機(jī)就是以他的名字命名的。
在Perlmutter因這一發(fā)現(xiàn)而獲得諾貝爾獎(jiǎng)后, Thomas與他一起開(kāi)展了后續(xù)的項(xiàng)目。Thomas提到:“Saul向我們證明了一點(diǎn),人類只要永保好奇心和樂(lè)觀精神,就能夠做到任何事情。”
融合AI和高性能計(jì)算的超級(jí)計(jì)算機(jī)
正是有了Saul Perlmutter的精神,許多項(xiàng)目才有望在NERSC的新超級(jí)計(jì)算機(jī)上運(yùn)行,例如,材料科學(xué)領(lǐng)域的研究旨在發(fā)現(xiàn)原子間的相互作用,從而為開(kāi)發(fā)更好的電池和生物燃料指明方向。
傳統(tǒng)的超級(jí)計(jì)算機(jī)幾乎無(wú)法在幾納秒內(nèi)使用Quantum Espresso等程序來(lái)處理模擬多個(gè)原子所需的數(shù)學(xué)運(yùn)算。然而,通過(guò)將它們的高精度模擬與機(jī)器學(xué)習(xí)相結(jié)合,科學(xué)家們可以在更長(zhǎng)的時(shí)間內(nèi)研究更多的原子。
NERSC的應(yīng)用性能專家Brandon Cook表示:“以前我們不可能針對(duì)電池接口這樣的大型系統(tǒng)進(jìn)行完整的原子模擬,但現(xiàn)在科學(xué)家們計(jì)劃用Perlmutter來(lái)進(jìn)行這一模擬。”目前,Brandon Cook正在幫助研究人員啟動(dòng)此類項(xiàng)目。
A100中的Tensor Core能夠在這方面發(fā)揮其獨(dú)特的作用。它們既能加速用于模擬的雙精度浮點(diǎn)數(shù)學(xué)運(yùn)算,又能加速深度學(xué)習(xí)所需的混合精度計(jì)算。
在去年11月,入圍戈登·貝爾獎(jiǎng)決賽的BerkeleyGW項(xiàng)目贏得了NERSC的認(rèn)可,這一項(xiàng)目使用了NVIDIA V100 GPU。在NERSC領(lǐng)導(dǎo)該項(xiàng)目并負(fù)責(zé)監(jiān)督應(yīng)用性能的Jack Deslippe認(rèn)為,A100的強(qiáng)大性能有望將此類研究提升到一個(gè)新的水平。
軟件令Perlmutter如虎添翼
Deslippe提到,Perlmutter的另一個(gè)戰(zhàn)略組成部分是軟件。與此同時(shí),他還指出該系統(tǒng)所使用的NVIDIA HPC SDK能夠支持OpenMP和其他常用編程模型。
另外,用于GPU上數(shù)據(jù)科學(xué)的開(kāi)源代碼RAPIDS,將加快NERSC內(nèi)部日漸壯大的Python程序員團(tuán)隊(duì)的工作速度。目前它已在一個(gè)項(xiàng)目中證明了自身價(jià)值:相比之前的CPU,它使NERSC Cori超級(jí)計(jì)算機(jī)網(wǎng)絡(luò)流量分析速度加快了近600倍。
Thomas表示:“這使我們相信,對(duì)于如何通過(guò)數(shù)據(jù)加速科學(xué)研究,RAPIDS將發(fā)揮重要的作用。”
應(yīng)對(duì)疫情挑戰(zhàn)
疫情期間,Perlmutter項(xiàng)目仍按計(jì)劃進(jìn)行。但團(tuán)隊(duì)不得不重新思考一些重要問(wèn)題,例如:能為該系統(tǒng)的百億億次級(jí)應(yīng)用編寫(xiě)代碼的研究人員正在居家辦公,如何在此期間為其舉辦編程馬拉松。
來(lái)自慧與(HPE)的工程師們協(xié)助NERSC組裝了第一階段的系統(tǒng),并且與NERSC工作人員合作,對(duì)其設(shè)施進(jìn)行了升級(jí)以適應(yīng)新的系統(tǒng)。Thomas表示,“我們非常感謝他們能夠到現(xiàn)場(chǎng)來(lái)搭建系統(tǒng),尤其是在疫情期間受到各種規(guī)定限制的情況下。”
在這場(chǎng)線上啟動(dòng)儀式上,NVIDIA首席執(zhí)行官黃仁勛對(duì)于伯克利實(shí)驗(yàn)室工作人員使用這臺(tái)超級(jí)計(jì)算機(jī)推動(dòng)科學(xué)進(jìn)步的計(jì)劃表示了祝賀。
黃仁勛表示:“Perlmutter融合了AI和高性能計(jì)算,將為材料科學(xué)、量子物理學(xué)、氣候預(yù)測(cè)、生物研究等多個(gè)領(lǐng)域的科研帶來(lái)突破。”
AI超級(jí)計(jì)算恰逢其時(shí)
今天的線上剪彩儀式具有真正的里程碑意義。
NERSC數(shù)據(jù)和分析服務(wù)組代理負(fù)責(zé)人Wahid Bhimji表示:“美國(guó)能源部正在大力發(fā)展人工智能科學(xué),將概念驗(yàn)證引入粒子物理學(xué)、材料科學(xué)和生物能源等領(lǐng)域的生產(chǎn)用例?!?
“當(dāng)前人們正在探索更大規(guī)模的神經(jīng)網(wǎng)絡(luò)模型,希望獲得更加強(qiáng)大的資源,而Perlmutter基于A100 GPU、全閃存系統(tǒng)和數(shù)據(jù)流功能,能夠適時(shí)滿足人們對(duì)AI的這一需求?!?
關(guān)于 NVIDIA
NVIDIA (NASDAQ: NVDA) 1999年發(fā)明的GPU驅(qū)動(dòng)了PC游戲市場(chǎng)的增長(zhǎng),并重新定義了現(xiàn)代計(jì)算機(jī)圖形、高性能計(jì)算和人工智能。NVIDIA在加速計(jì)算和AI領(lǐng)域的創(chuàng)舉正在重塑交通、醫(yī)療健康和制造業(yè)等價(jià)值數(shù)萬(wàn)億美元的產(chǎn)業(yè),并推動(dòng)了許多其他產(chǎn)業(yè)的增長(zhǎng)。更多信息,請(qǐng)?jiān)L問(wèn) https://nvidianews.nvidia.com/。