Bár sokan várták, a frissen bejelentett fejlesztés még nem a lakossági RTX modellekkel konkurál
A járvány miatt elmaradt GTC konferencia, és a még márciusról is tovább csúsztatott online bemutató miatti hosszas várakozásnak vége, megtörtént az első nagy bejelentés. Bár sokan reménykedtünk, hogy az otthoni felhasználókra is gondolnak majd, Jensen Huang vezérigazgató ezalkalommal csak az új Ampere technológia újdonságaival készült, melyeket az eddigi legméretesebb ipari GPU-szörnyeteggel együtt mutatott be.
A bejelentés középpontjában természetesen az új Ampere mikroarchitektúra állt, mely elsősorban a 2017 végén bevezetett Volta leváltására hivatott, és bár a Turing köré épülő RTX sorozat helyét is az Ampere technológiával készült modellek váltják majd, az RTX 3000-ről egyelőre nem esett szó. Az újdonság pedig nem más, mint a GA100 mely a valaha készült legtekintélyesebb GPU mind kapacitásban, mind fizikai kiterjedésében. Az adatközpontok új generációjának meghajtására készült lapka rálicitál az előd GV100 képességeire, így természetesen a TSMC 12nm-es node-járól a 7nm-esre költözik át, sosem látott előrelépést produkálva. Először is a tranzisztorok száma 21,1 milliárdról 54,2 milliárdra gyarapodott, ráadásul ezt látványos növekedést úgy éri el, hogy a 826 mm²-res lapka mindössze 16 mm²-rel nagyobb elődjénél. Az összehasonlításhoz érdemes megnézni, hogy az előző generáció csúcsát jelentő RTX 2080 Ti kártya 754 mm²-res lapkája 18,6 milliárd tranzisztort tartalmaz.
A CUDA magok száma 5120-ról 6912-re nőtt, a lebegőpontos FP32 számítási teljesítmény pedig egy izmos 4.2 TERAFLOP pluszt könyvelhet el másodpercenként. A számítási kapacitás jelentős növekedéséhez pedig 40GB méretű HBM2 fedélzeti memória is hozzájárul, méghozzá 2.43 Ghz-es órajellel, 1.555 TB/s sávszélességgel, a GPU-val történő kommunikációt pedig az 5120 bites adatbusz segíti. Érdekesség, hogy elvileg a hat HBM2 lapkából egy inaktív, tehát nem kizárt, hogy egy még erősebb változatban további 1024-bit járul hozzá az amúgy is komoly összképhez.
Ahogy arra számíthattunk, az előadásban szép nagy szelet jutott a mesterséges intelligenciára épülő fejlesztéseknek, és a gépi tanulásnak, melyben hatalmas előrelépést értek el, és ahogy is hangsúlyozza, az jövő már nem a szervereké, hanem az adatközpontoké, (avagy szuperszámítógépeké, ha úgy jobban tetszik). A Tesla V100 GPU sem volt gyenge ezen a téren, de az Ampere A100 nem véletlenül kapta a "Tensor Core GPU" fedőnevet. Bár megtévesztő lehet, hogy a V100 összesen 640 Tensor magja helyett itt csak 432 szerepel, valójában továbbfejlesztett struktúrájú magokról van szó, melyekkel nagyjából 30%-kal nőtt az összteljesítmény, így láthatóan a teljes fókusz a gépi tanulásra irányul.
Fontos újítás a Pascal architektúrával együtt bevezetett NVLINK új változata is. Az NVLink 3-as verziója, 50 Gbps sávszélességével nagyjából duplázza az NVLink 2 adatátviteli képességét, ezzel nem csak a GPU és CPU közt zajló kommunikációt gyorsítja meg jelentős mértékben, de a több GPU-s rendszerek számára is nagy löketet ad. Az A100 amúgy 12 darab NVLinket kapott, ez a 600 Gbps pedig szintén rádupláz a V100-ra. Ehhez mérten fogyasztás is érezhetően nőtt, de 400 watt ebben a kategóriában nem számít extrémnek. A több GPU-s rendszerekben 8 GPU alatt az NVLink látja el az összeköttetést, afölött azonban már az NVSwitch elosztóra is szükség van.
Ez tehát még nem az átlagos halandóknak szánt termékvonal, hiszen az A100 pont a grafikai munkában és a játékban nem vethető be. Természetesen ez nem azt jelenti, hogy az Nvidia nem készül az általános felhasználói vonalat erősítő termékekkel, egyszerűen csak el kell fogadnunk a tényt, hogy a legnagyobb bevétel az ipari felhasználású fejlesztésekből származik.