Nvidia представи GB300 Blackwell Ultra – най-мощният AI ускорител с 20 480 CUDA ядра, 288GB HBM3E памет и PCIe 6.0
Nvidia разгласява подробна информация за AI ускорителя GB300 Blackwell Ultra. Той се отличава от своя предходник GB200 с повишен брой ядра и размер на паметта, по-бърз интерфейс и по-висока мощ. В сърцето на Nvidia GB300 са два кристала с общо 208 милиарда транзистора – те са създадени по технологията TSMC 4NP и работят като един графичен процесор (GPU), с помощта на NV-HBI интерконектора със скорост 10 TB/s.
Графичният процесор съдържа 160 стрийминг мултипроцесора (Streaming Multiprocessors), всеки със 128 CUDA ядра – общо 20 480 ядра, както и тензорни ядра от пето потомство с поддръжка на FP8, FP6 и новия формат NVFP4. Всеки поточен мултипроцесор разполага с 256KB тензорна памет (TMEM) – общо 40MB. Осигурени са и спомагателни хардуерни блокове за трансцендентални калкулации и интервенции, усъвършенствани за изчислителни ядра.
Паметта е проведена в осем 12-слойни стека HBM3E с общ потенциал от 288GB. Пропускателната дарба на паметта на Nvidia GB300 е непроменена спрямо GB200 и е 8 TB/s, проведена в 16 канала по 512 бита всеки (8192-битов интерфейс). Увеличеният потенциал на паметта разрешава целият AI модел може да бъде ситуиран на чипа, както и да се съхраняват огромни количества кеш памет за ключове и стойности, без да се разтоварва на външни запаси. TGP е повишен до 1400 W.
Комуникацията сред графичните процесори се реализира посредством интерфейса NVLink 5 с двупосочна скорост на трансфер на данни от 1,8 TB/s в секунда за всеки графичен процесор. Комуникацията сред графичния процесор и процесора на грацията се реализира посредством интерфейса NVLink-C2C със скорост 900 GB/s и поддръжка на едно адресно пространство.
За свързване с хоста се употребява PCIe 6.0 x16 шина с двупосочна пропускателна дарба от 256 GB/s – първа за Nvidia. Ускорителите могат да бъдат конфигурирани в стойката GB300 NVL72 със 72 графични процесора, до 20,7TB HBM3E памет и обща HBM пропускателна дарба от 576 ТB/s. В една стойка има и 72 Grace Superchip Arm ядра и до 480GB LPDDR5X памет с пропускателна дарба 512 GB/s.
NVFP4 е нов формат за данни с ниска точност, осъществен в тензорни ядра. Той обезпечава акуратност, сравнима с FP8, само че употребява 1,8 пъти по-малко памет. Масовото произвеждане на AI ускорителите Nvidia GB300 към този момент е почнало и първите клиенти са ги получили.




