ICC訊 騰訊自研芯片“滄海”已經(jīng)廣泛應(yīng)用到實(shí)際環(huán)境,并斬獲8項(xiàng)世界第一。
4月15日,莫斯科國(guó)立大學(xué)舉辦的MSU硬件視頻編碼比賽成績(jī)揭曉。經(jīng)過(guò)數(shù)月的嚴(yán)格測(cè)試,騰訊自研的編解碼芯片“滄?!卑鼣埩怂鶇⒓拥膬蓚€(gè)賽道8項(xiàng)評(píng)分的全部第一。據(jù)了解,滄海芯片已在業(yè)務(wù)場(chǎng)景中投用數(shù)萬(wàn)片,服務(wù)騰訊自研業(yè)務(wù)及公有云客戶(hù)。
MSU是視頻壓縮領(lǐng)域最具影響力的頂級(jí)賽事,迄今已連續(xù)舉辦了十七屆,吸引了包括亞馬遜、英偉達(dá)、Intel、AMD、字節(jié)、快手、阿里和騰訊在內(nèi)的國(guó)內(nèi)外知名企業(yè)參與。
具體來(lái)看,SSIM (結(jié)構(gòu)相似性)、PSNR(峰值信噪比)和VMAF(視頻多方法評(píng)估融合) 等多項(xiàng)評(píng)價(jià)指標(biāo),滄海芯片大幅領(lǐng)先行業(yè)GPU等標(biāo)品硬件。值得一提的是,在120fps的高幀率檔位上,在同等畫(huà)質(zhì)下滄海較行業(yè)領(lǐng)先ASIC水平能再節(jié)省10%碼率。
作為全真互聯(lián)時(shí)代的交互模式和關(guān)鍵技術(shù),音視頻背后的編解碼能力至關(guān)重要?;谧匝?A href="http://huaquanjd.cn/site/CN/Search.aspx?page=1&keywords=%e8%8a%af%e7%89%87&column_id=ALL&station=%E5%85%A8%E9%83%A8" target="_blank">芯片與軟件的聯(lián)合調(diào)優(yōu),騰訊云的音視頻編解碼能力已達(dá)業(yè)界領(lǐng)先水平。
瞄準(zhǔn)編解碼領(lǐng)域核心難題
多媒體業(yè)務(wù)進(jìn)入音視頻直播時(shí)代,4K/8K的超高清內(nèi)容對(duì)云計(jì)算基礎(chǔ)設(shè)施提出了難題。如何在降低成本的同時(shí),最大化還原畫(huà)質(zhì)、實(shí)現(xiàn)低延遲,是全真互聯(lián)時(shí)代面臨的難題。業(yè)界已有的通用處理器,并非針對(duì)數(shù)據(jù)中心轉(zhuǎn)碼場(chǎng)景定制開(kāi)發(fā),部署中很難兼顧真實(shí)場(chǎng)景的全方位挑戰(zhàn)。
2019年初,騰訊蓬萊實(shí)驗(yàn)室、香農(nóng)實(shí)驗(yàn)室聯(lián)合啟動(dòng)編解碼芯片”滄?!把邪l(fā)。對(duì)硬件編解碼的算法、架構(gòu)和工程進(jìn)行深度攻關(guān),向高畫(huà)質(zhì)、低延遲、低成本的“不可能三角”發(fā)起挑戰(zhàn)。
基于自身在底層軟硬件架構(gòu)和音視頻領(lǐng)域的多年積累,研發(fā)團(tuán)隊(duì)對(duì)每個(gè)模塊的計(jì)算任務(wù)都作了并行拆解。通過(guò)分配不同的計(jì)算單元,從而疊加大量處理任務(wù);為滄海芯片內(nèi)置視頻編碼加速專(zhuān)用功能模塊,讓流水控制邏輯更純粹,減少重復(fù)計(jì)算和分支判斷,帶來(lái)更低的功耗和成本。
滄海芯片的編碼器設(shè)計(jì)中完整實(shí)現(xiàn)了高精度運(yùn)動(dòng)搜索、全率失真優(yōu)化、高效自適應(yīng)量化等所有主流編碼工具,并融合騰訊云軟件編碼器碼率控制等方面的領(lǐng)先技術(shù),壓縮率高于市面標(biāo)品35%以上。
在硬件架構(gòu)上,通過(guò)將視頻預(yù)分析計(jì)算單元進(jìn)一步卸載到硬件中,滄海芯片大幅減少了高密度轉(zhuǎn)碼場(chǎng)景下任務(wù)對(duì)CPU性能的依賴(lài),將轉(zhuǎn)碼性能提升到更強(qiáng)。通過(guò)靈活的多核擴(kuò)展架構(gòu)、高性能編碼流水線、層級(jí)化Memory布局,滄海芯片能滿(mǎn)足高吞吐、低時(shí)延和實(shí)時(shí)性要求。
根據(jù)MSU實(shí)測(cè)數(shù)據(jù),從各項(xiàng)指標(biāo)看,在同碼率下,相較于業(yè)界GPU等標(biāo)品硬件,滄海能大幅改善畫(huà)面質(zhì)量;在120fps的高幀率檔位上,同等質(zhì)量下,滄海比行業(yè)領(lǐng)先水平進(jìn)一步節(jié)省10%以上的碼率;另外,滄海芯片的單幀1080p的編碼耗時(shí)僅4毫秒,吞吐性能幾乎不受到編碼參數(shù)、視頻類(lèi)型的影響。
已在業(yè)務(wù)場(chǎng)景規(guī)模應(yīng)用
去年3月,滄海芯片順利“點(diǎn)亮”,目前已經(jīng)量產(chǎn)并投用數(shù)萬(wàn)片,在云游戲、直點(diǎn)播等場(chǎng)景中,面向騰訊自研業(yè)務(wù)和公有云客戶(hù)提供服務(wù)。
在直播平臺(tái)中,觀看人數(shù)小于200人的中長(zhǎng)尾直播是主體,滄海芯片能幫助節(jié)省大量計(jì)算成本;在4K/8K超高清、高幀率場(chǎng)景中,相對(duì)軟件編碼,滄海芯片能實(shí)現(xiàn)低延時(shí)的高質(zhì)量轉(zhuǎn)碼。
騰訊豐富的多媒體應(yīng)用場(chǎng)景,提供了充分的分析和驗(yàn)證條件,讓滄海芯片迭代出更有針對(duì)性的場(chǎng)景解決方案。
例如,針對(duì)云游戲場(chǎng)景,滄海芯片的瑤池板卡,可以靈活配比不同廠商 GPU。針對(duì)視頻轉(zhuǎn)碼場(chǎng)景,滄海芯片提供單機(jī)1024 路的高密轉(zhuǎn)碼能力,將轉(zhuǎn)碼成本降至最低。
軟硬件的聯(lián)合調(diào)優(yōu),也為騰訊云媒體處理(MPS)帶來(lái)了領(lǐng)先的產(chǎn)品優(yōu)勢(shì)。現(xiàn)在,騰訊云能提供音畫(huà)質(zhì)增強(qiáng)、云原生錄制、實(shí)時(shí)特效渲染、智能編輯、內(nèi)容分析理解等服務(wù),為用戶(hù)提供更低成本、更低延時(shí)、更極致壓縮的處理效果。
在去年專(zhuān)業(yè)流媒體技術(shù)社區(qū)SLC發(fā)布的報(bào)告中,騰訊云MPS超越亞馬遜AWS、微軟Azure等國(guó)際云廠商,摘得三大場(chǎng)景下性能全部最優(yōu)。
芯片是硬件中最核心的部分。面向業(yè)務(wù)需求強(qiáng)烈的場(chǎng)景,騰訊有著長(zhǎng)期的芯片研發(fā)規(guī)劃和投入,結(jié)合算力場(chǎng)景,推動(dòng)自研芯片規(guī)模落地。目前,騰訊已經(jīng)實(shí)現(xiàn)芯片端到端設(shè)計(jì)、驗(yàn)證全覆蓋。
除滄海芯片外,騰訊自研的AI推理芯片”紫霄“,采用自研存算架構(gòu)和自研加速模塊,可以提供高達(dá)3倍的計(jì)算加速性能和超過(guò)45%的整體成本節(jié)省,目前也已在內(nèi)部業(yè)務(wù)中投用;高性能網(wǎng)絡(luò)芯片“玄靈”,助力云計(jì)算場(chǎng)景實(shí)現(xiàn)虛擬化零損耗。
基于底層軟硬件技術(shù)的持續(xù)突破,騰訊正持續(xù)探索最優(yōu)性能和最佳性?xún)r(jià)比,助力更多的企業(yè)和開(kāi)發(fā)者云上創(chuàng)新。