英偉達(dá)近日正式揭曉了其Blackwell GPU架構(gòu)的技術(shù)藍(lán)圖,這份詳盡的白皮書不僅揭示了GeForce RTX 50系列顯卡的強(qiáng)大內(nèi)核,更讓人們看到了它在設(shè)計(jì)上的重要回歸。引人注目的是,Blackwell架構(gòu)中的所有單精度CUDA核心,都同時(shí)具備了處理FP32與INT32數(shù)據(jù)的能力,這一特性讓人不禁聯(lián)想到九年前的Pascal架構(gòu),那時(shí)的英偉達(dá)也是采用了類似的設(shè)計(jì)理念。
Blackwell架構(gòu)的流式多處理器(SM)設(shè)計(jì),充分展示了這一技術(shù)特點(diǎn)。與之形成鮮明對(duì)比的是,Pascal架構(gòu)雖同樣支持FP32與INT32的并行處理,但在隨后的Volta和Turing架構(gòu)中,英偉達(dá)卻選擇了將CUDA核心分為兩組,分別專注于INT32和FP32的處理,每組數(shù)量相等,實(shí)現(xiàn)了1:1的比例分配。
然而,在Ampere和Ada架構(gòu)中,英偉達(dá)又做出了新的嘗試。在Ampere架構(gòu)中,每個(gè)SM的四個(gè)處理塊之一配備了16個(gè)既能處理FP32又能處理INT32的單元,以及另外16個(gè)專門用于FP32處理的單元。這一設(shè)計(jì)在Ada架構(gòu)中得到了延續(xù),進(jìn)一步證明了英偉達(dá)在GPU設(shè)計(jì)上的不斷探索與創(chuàng)新。
Blackwell架構(gòu)的這一統(tǒng)一CUDA設(shè)計(jì),使得每個(gè)SM的INT32整數(shù)運(yùn)算能力相較于Ada架構(gòu)實(shí)現(xiàn)了翻倍。但值得注意的是,盡管Blackwell架構(gòu)的CUDA核心可以同時(shí)支持FP32和INT32兩種模式,但在任何給定的時(shí)鐘周期內(nèi),它只能選擇其中一種模式進(jìn)行運(yùn)算。英偉達(dá)表示,這一設(shè)計(jì)決策是為了在滿足不同計(jì)算需求的同時(shí),保持架構(gòu)的靈活性和高效性。
英偉達(dá)還強(qiáng)調(diào)了Blackwell架構(gòu)與Ada架構(gòu)在應(yīng)用場(chǎng)景上的不同。Ada架構(gòu)的SM主要是為標(biāo)準(zhǔn)著色器設(shè)計(jì)和優(yōu)化的,而Blackwell架構(gòu)的SM則更加注重神經(jīng)著色器的應(yīng)用和優(yōu)化。這一轉(zhuǎn)變不僅反映了英偉達(dá)對(duì)GPU應(yīng)用場(chǎng)景的深入理解和把握,也預(yù)示著未來GPU技術(shù)發(fā)展的新方向。