NVIDIA подготвя ускорителите GB300: повече памет, по-добра производителност
NVIDIA показа новите си ускорители GB300 и B300, които се появяват единствено шест месеца след GB200 и B200. Според анализатори от сектора това не е елементарна актуализация, а значимо събитие, което ще окаже огромно въздействие върху пазара. Много участници във веригата на доставки ще бъдат изправени пред метаморфоза на индустриалните и логистичните процеси, което ще докара до спомагателни изгоди за някои и вероятни загуби за други.
Компанията пусна на пазара изчислителния чип B300 (по-рано именуван Blackwell Ultra), основан на персонализираната технология на TSMC 4NP process. Той обезпечава към 50% повече FLOPS от своя предходник B200, като общото нарастване на TDP е до 1,4 kW за GB300 и 1,2 kW за B300 HGX. Експертите считат, че част от нарастването на продуктивността се дължи на по-високата работна мощ, а останалото нарастване се дължи на архитектурните промени и новите способи за динамично систематизиране на мощността сред CPU и GPU.
Ускорителите B300 разполагат с памет HBM3E в настройка 12-Hi вместо предходната 8-Hi, с което общият потенциал доближава 288 GB. Пропускателната дарба на паметта към момента се резервира на равнище от 8Тбайта/сек, защото скоростта на пин не се е трансформирала. В същото време инженерите разчитат на това, че спомагателният потенциал на паметта обезпечава видимо преимущество при образованието и инференцирането на огромните езикови модели, където размерът на обработваните последователности и размерът на кеша KVCache оказват директно въздействие върху скоростта на генериране на отговора.
Опитът с надграждането от H100 до H200 демонстрира какъв брой огромно е въздействието на паметта върху получената продуктивност. По-голямата пропускателна дарба, която преди този момент беше нараснала от 3,35 Tbytes/s на 4,8 Tbytes/s, форсира интерактивното извеждане с съвсем 43%. Допълнителното пространство в паметта оказа помощ за понижаване на количеството пренасяни данни и усили допустимия размер на KVCache, като утрои броя на генерираните токени в секунда. Експертите оповестяват, че тази оптимизация е изключително потребна за по-„ напредналите “ модели, които могат да генерират по-високи доходи на ускорител.
Въпреки това, подобренията единствено в скоростта и паметта не са задоволителни, както удостоверяват опитите на AMD с Instinct MI300X, MI325X и MI355X (192 до 288 GB). Анализаторите означават, че техните благоприятни условия са лимитирани не толкоз от софтуера, колкото от спецификата на свързване на ускорителите един към различен. NVIDIA предлага превключване „ от всички към всички “ посредством NVLink, което разрешава на 72 ускорителя GB200 или GB300 да се оправят с една и съща задача, да се понижи латентността за огромните езикови модели и въпреки всичко те да останат стопански преференциални.
Изследователите допускат, че даже единствено NVL72 дава опция да се разшири дължината на извода до повече от 100 000 лексеми, без сериозно увеличение на разноските. Според SemiAnalysis това значи, че NVIDIA към момента е единственият снабдител на изцяло решение, което може да отговори на условията за внедряване на огромните езикови модели, като в същото време поддържа висока скорост, мащабируемост и доходност.




