NVIDIA今年會(huì)推出新一代Pascal顯卡,最快4月份的GTC 2016大會(huì)上就能見到面向高性能服務(wù)器市場的Tesla版GP100核心顯卡。只不過NVIDIA這次的保密工作做到太好了,除了官方公布過的3D顯存、FinFET工藝之外,Pascal顯卡的規(guī)格還是非常神秘。還好NVIDIA功虧一簣,日前曝光的一份文檔中顯示Pascal顯卡配備的3D顯存帶寬高達(dá)1024GB/s,單精度浮點(diǎn)性能12TFLOPS,雙精度浮點(diǎn)性能4TFLOPS,是GK110核心的三倍之多。
?
3DCenter論壇有網(wǎng)友找到了NVIDIA公司CUDA院士ManuelUjaldon去年6月份發(fā)布的一份演講文檔,他本身也是西班牙大學(xué)教授,這份文檔里對(duì)比了Intel、AMD及NVIDIA公司不同處理器、顯卡的帶寬及計(jì)算性能,我們來看最關(guān)鍵的Pascal與Teslak K20X的對(duì)比。
K20X使用的是GK110核心,14組SMX單元,2688個(gè)CUDA核心,384bit位寬,帶寬25GB/s,單精度浮點(diǎn)性能3.95TFLOPS,雙精度浮點(diǎn)性能1.31TFLOPS。Pascal顯卡規(guī)格沒提,但應(yīng)該是GP100核心,配備3D顯存,帶寬1024GB/s,單精度浮點(diǎn)性能12TFLOPS,雙精度浮點(diǎn)性能4TFLOPS。
GK110與Pascal之間隔了Maxwell架構(gòu),不過Maxwell顯卡之所以高效,很大一部分原因是閹割了雙精度單元,所以在這一點(diǎn)上它實(shí)際上連GK110核心都不如,這可能是GM200核心沒有加入對(duì)比的原因。
只看GK110與Pascal的GP100核心,GP100的性能是GK110核心的三倍,單精度及雙精度差不多都是這樣。雖然缺少與GM200核心的直接對(duì)比,但GM200核心的Tesla M40單精度性能是7TFLOPS,以此計(jì)算的話GP100性能依然是GM200核心的1.7倍,也就是性能提升了70%。從三倍GK110性能來看,GP100核心的規(guī)模也一定很龐大,所以之前傳聞的6144個(gè)CUDA核心、170億晶體管以及600mm2核心面積的傳聞還是有一定可信度的。
值得一提的是,Pascal顯卡使用HBM顯存幾乎是板上釘釘了,而且1024GB/s的帶寬也正好與HBM 2顯存特性相符,但Manuel Ujaldon這篇文章中除了一個(gè)列表提到HBM顯存之外,大部分篇幅都是在講HBM對(duì)手HMC顯存的,這也是一種3D堆棧內(nèi)存技術(shù),但HMC 1.0顯存的帶寬與規(guī)格跟1024GB/s的帶寬也不符,實(shí)在是猜不透這里面到底是怎么回事。
考慮到這篇演講是去年6月份的了,并不是最新資料,所以內(nèi)容僅供參考,GP100核心的性能基本沒跑了,至于3D顯存到底是HBM還是HMC,筆者還是傾向于HBM 2,畢竟HBM的商業(yè)化程度比HMC高多了。