Bár sokan várták, a frissen bejelentett fejlesztés még nem a lakossági RTX modellekkel konkurál
A járvány miatt elmaradt GTC konferencia, és a még márciusról is tovább csúsztatott online bemutató miatti hosszas várakozásnak vége, megtörtént az elsõ nagy bejelentés. Bár sokan reménykedtünk, hogy az otthoni felhasználókra is gondolnak majd, Jensen Huang vezérigazgató ezalkalommal csak az új Ampere technológia újdonságaival készült, melyeket az eddigi legméretesebb ipari GPU-szörnyeteggel együtt mutatott be.
A bejelentés középpontjában természetesen az új Ampere mikroarchitektúra állt, mely elsõsorban a 2017 végén bevezetett Volta leváltására hivatott, és bár a Turing köré épülõ RTX sorozat helyét is az Ampere technológiával készült modellek váltják majd, az RTX 3000-rõl egyelõre nem esett szó. Az újdonság pedig nem más, mint a GA100 mely a valaha készült legtekintélyesebb GPU mind kapacitásban, mind fizikai kiterjedésében. Az adatközpontok új generációjának meghajtására készült lapka rálicitál az elõd GV100 képességeire, így természetesen a TSMC 12nm-es node-járól a 7nm-esre költözik át, sosem látott elõrelépést produkálva. Elõször is a tranzisztorok száma 21,1 milliárdról 54,2 milliárdra gyarapodott, ráadásul ezt látványos növekedést úgy éri el, hogy a 826 mm²-res lapka mindössze 16 mm²-rel nagyobb elõdjénél. Az összehasonlításhoz érdemes megnézni, hogy az elõzõ generáció csúcsát jelentõ RTX 2080 Ti kártya 754 mm²-res lapkája 18,6 milliárd tranzisztort tartalmaz.
A CUDA magok száma 5120-ról 6912-re nõtt, a lebegõpontos FP32 számítási teljesítmény pedig egy izmos 4.2 TERAFLOP pluszt könyvelhet el másodpercenként. A számítási kapacitás jelentõs növekedéséhez pedig 40GB méretû HBM2 fedélzeti memória is hozzájárul, méghozzá 2.43 Ghz-es órajellel, 1.555 TB/s sávszélességgel, a GPU-val történõ kommunikációt pedig az 5120 bites adatbusz segíti. Érdekesség, hogy elvileg a hat HBM2 lapkából egy inaktív, tehát nem kizárt, hogy egy még erõsebb változatban további 1024-bit járul hozzá az amúgy is komoly összképhez.
Ahogy arra számíthattunk, az elõadásban szép nagy szelet jutott a mesterséges intelligenciára épülõ fejlesztéseknek, és a gépi tanulásnak, melyben hatalmas elõrelépést értek el, és ahogy is hangsúlyozza, az jövõ már nem a szervereké, hanem az adatközpontoké, (avagy szuperszámítógépeké, ha úgy jobban tetszik). A Tesla V100 GPU sem volt gyenge ezen a téren, de az Ampere A100 nem véletlenül kapta a "Tensor Core GPU" fedõnevet. Bár megtévesztõ lehet, hogy a V100 összesen 640 Tensor magja helyett itt csak 432 szerepel, valójában továbbfejlesztett struktúrájú magokról van szó, melyekkel nagyjából 30%-kal nõtt az összteljesítmény, így láthatóan a teljes fókusz a gépi tanulásra irányul.
Fontos újítás a Pascal architektúrával együtt bevezetett NVLINK új változata is. Az NVLink 3-as verziója, 50 Gbps sávszélességével nagyjából duplázza az NVLink 2 adatátviteli képességét, ezzel nem csak a GPU és CPU közt zajló kommunikációt gyorsítja meg jelentõs mértékben, de a több GPU-s rendszerek számára is nagy löketet ad. Az A100 amúgy 12 darab NVLinket kapott, ez a 600 Gbps pedig szintén rádupláz a V100-ra. Ehhez mérten fogyasztás is érezhetõen nõtt, de 400 watt ebben a kategóriában nem számít extrémnek. A több GPU-s rendszerekben 8 GPU alatt az NVLink látja el az összeköttetést, afölött azonban már az NVSwitch elosztóra is szükség van.
Ez tehát még nem az átlagos halandóknak szánt termékvonal, hiszen az A100 pont a grafikai munkában és a játékban nem vethetõ be. Természetesen ez nem azt jelenti, hogy az Nvidia nem készül az általános felhasználói vonalat erõsítõ termékekkel, egyszerûen csak el kell fogadnunk a tényt, hogy a legnagyobb bevétel az ipari felhasználású fejlesztésekbõl származik.