新型AI超級(jí)計(jì)算機(jī)將256個(gè)Grace Hopper超級(jí)芯片連接為巨大的、1-Exaflop、144TB GPU,用于支持生成式AI、推薦系統(tǒng)和數(shù)據(jù)處理的巨型模型
COMPUTEX——2023年5月29日——NVIDIA今天宣布推出一款新型大內(nèi)存AI超級(jí)計(jì)算機(jī)——由NVIDIA GH200 Grace Hopper超級(jí)芯片和NVIDIA NVLink Switch System 驅(qū)動(dòng)的NVIDIA DGX 超級(jí)計(jì)算機(jī),旨在助力開(kāi)發(fā)面向生成式AI語(yǔ)言應(yīng)用、推薦系統(tǒng)和數(shù)據(jù)分析工作負(fù)載的巨型、下一代模型。
NVIDIA DGX GH200的超大共享內(nèi)存空間通過(guò)NVLink互連技術(shù)以及NVLink Switch System使256個(gè)GH200超級(jí)芯片相連,使它們能夠作為單個(gè)GPU運(yùn)行。其提供1 exaflop的性能和144 TB的共享內(nèi)存——相較2020年推出的上一代NVIDIA DGX A100內(nèi)存大了近500倍。
NVIDIA創(chuàng)始人兼首席執(zhí)行官黃仁勛表示:“生成式AI、大型語(yǔ)言模型和推薦系統(tǒng)是現(xiàn)代經(jīng)濟(jì)的數(shù)字引擎。DGX GH200 AI超級(jí)計(jì)算機(jī)集成了NVIDIA最先進(jìn)的加速計(jì)算和網(wǎng)絡(luò)技術(shù)來(lái)拓展AI的前沿?!?
NVIDIA NVLink技術(shù)大規(guī)模擴(kuò)展AI
GH200超級(jí)芯片使用NVIDIA NVLink-C2C芯片互連,將基于Arm的NVIDIA Grace CPU與NVIDIA H100 Tensor Core GPU整合在一起,從而不再需要傳統(tǒng)的CPU至GPU PCIe連接。與最新的PCIe技術(shù)相比,這將GPU和CPU之間的帶寬提高了7倍,將互連功耗減少了5倍以上,并為DGX GH200超級(jí)計(jì)算機(jī)提供了一個(gè)600GB的Hopper架構(gòu)GPU構(gòu)建模塊。
DGX GH200是第一款將Grace Hopper超級(jí)芯片與NVIDIA NVLink Switch System配對(duì)使用的超級(jí)計(jì)算機(jī),這種新的互連方式使DGX GH200系統(tǒng)中的所有GPU作為一個(gè)整體協(xié)同運(yùn)行。上一代系統(tǒng)在不影響性能的前提下只能通過(guò)NVLink把8個(gè)GPU整合成一個(gè)GPU。
DGX GH200架構(gòu)相比上一代將NVLink帶寬提升了48倍以上,實(shí)現(xiàn)在單個(gè)GPU上通過(guò)簡(jiǎn)單編程即可提供大型AI超級(jí)計(jì)算機(jī)的能力。
面向AI先鋒的新研究工具
谷歌云、Meta和微軟是首批有望接入DGX GH200來(lái)探索其用于生成式AI工作負(fù)載的能力的公司。NVIDIA還打算將DGX GH200設(shè)計(jì)作為藍(lán)圖提供給云服務(wù)提供商和其他超大規(guī)模企業(yè),以便他們能夠進(jìn)一步根據(jù)他們自己的基礎(chǔ)設(shè)施進(jìn)行定制。
谷歌云計(jì)算副總裁Mark Lohmeyer表示:“構(gòu)建先進(jìn)的生成式模型需要?jiǎng)?chuàng)新的AI基礎(chǔ)設(shè)施。Grace Hopper超級(jí)芯片的全新NVLink和共享內(nèi)存解決了大規(guī)模AI的關(guān)鍵瓶頸,我們期待它在谷歌云以及我們的生成式AI計(jì)劃中發(fā)揮強(qiáng)大的能力。”
Meta基礎(chǔ)設(shè)施、AI系統(tǒng)及加速平臺(tái)副總裁Alexis Bj rlin表示:“隨著AI模型規(guī)模越來(lái)越大,它們需要可擴(kuò)展的強(qiáng)大基礎(chǔ)設(shè)施,以滿足不斷增長(zhǎng)的需求。NVIDIA的Grace Hopper設(shè)計(jì)看起來(lái)能夠讓研究人員探索新的方法來(lái)解決他們面臨的最巨大挑戰(zhàn)?!?
微軟Azure基礎(chǔ)設(shè)施企業(yè)副總裁Girish Bablani表示, “在以往訓(xùn)練大型AI模型是一項(xiàng)資源和時(shí)間密集型任務(wù)。DGX GH200 所具備的處理TB級(jí)數(shù)據(jù)集的潛力使得開(kāi)發(fā)人員能夠在更大的規(guī)模和更快的速度下進(jìn)行高級(jí)別的研究?!?
全新NVIDIA Helios超級(jí)計(jì)算機(jī)將推進(jìn)研發(fā)
NVIDIA正在打造自己的基于DGX GH200的AI超級(jí)計(jì)算機(jī),以支持研發(fā)團(tuán)隊(duì)的工作。
這臺(tái)名為NVIDIA Helios的超級(jí)計(jì)算機(jī)將配備四個(gè)DGX GH200系統(tǒng)。每個(gè)都將通過(guò)NVIDIA Quantum-2 InfiniBand網(wǎng)絡(luò)互連,以提高訓(xùn)練大型AI模型的數(shù)據(jù)吞吐量。Helios將包含1024個(gè)Grace Hopper超級(jí)芯片,預(yù)計(jì)將于今年年底上線。
完全集成,專為巨型模型而構(gòu)建
DGX GH200超級(jí)計(jì)算機(jī)包含NVIDIA軟件,可為最大的AI和數(shù)據(jù)分析工作負(fù)載提供一個(gè)交鑰匙式全棧解決方案。NVIDIA Base Command 軟件提供AI工作流程管理、企業(yè)級(jí)集群管理和多個(gè)加速計(jì)算、存儲(chǔ)和網(wǎng)絡(luò)基礎(chǔ)設(shè)施的庫(kù),以及為運(yùn)行AI工作負(fù)載而優(yōu)化的系統(tǒng)軟件。
此外還包含NVIDIA AI Enterprise,即NVIDIA AI平臺(tái)的軟件層。它提供100多個(gè)框架、預(yù)訓(xùn)練模型和開(kāi)發(fā)工具,以簡(jiǎn)化生成式AI、計(jì)算機(jī)視覺(jué)、語(yǔ)音AI等生產(chǎn)AI的開(kāi)發(fā)和部署。
供貨情況
NVIDIA DGX GH200超級(jí)計(jì)算機(jī)預(yù)計(jì)將于今年年底上市。
觀看黃仁勛在COMPUTEX 2023的主題演講中介紹NVIDIA DGX GH200超級(jí)計(jì)算機(jī)。