Оригиналът е на SAMUEL K. MOORE Даниел Десподов преди 52

Тайната на успеха на Nvidia в областта на изкуствения интелект

Оригиналът е на SAMUEL K. MOORE

Даниел Десподов преди 52 секунди 2 Сподели

Най-четени

IT НовиниДаниел Десподов - 12:46 | 12.09.2023

Военноморските сили на Съединени американски щати създават напълно нов вид трансформиращ се хиперзвуков мотор

ТелефониДаниел Десподов - 13:32 | 11.09.2023

Според мениджмънта на компанията смарт телефонът Redmi Note 13 Pro+ няма да има конкуренция в мобилната снимка

ТелефониДаниел Маринов - 21:56 | 12.09.2023

Ето каква в последна сметка е разликата сред сериите iPhone 15 Pro и iPhone 15

Даниел Десподовhttps://www.kaldata.com/Новинар. Увличам се от модерни технологии, осведомителна сигурност, спорт, просвета и изкуствен интелект.

През последните 10 години Nvidia съумя да усили продуктивността на своите чипове в дилемите с изкуствен интелект над хиляда пъти. Според слуховете H100, най-новият графичен процесор за генеративен изкуствен интелект, към този момент е доста мъчно да се откри. На симпозиума Hot Chips 2023 в Силициевата котловина основният теоретичен консултант на NVIDIA Бил Дали описа за четирите основни съставния елемент, които са довели корпорацията до този триумф.

Как Nvidia реализира тези триумфи

Законът на Мур е изиграл изненадващо дребна роля за триумфа на Nvidia, до момента в който новите формати на числата бяха основен детайл. Комбинирайки всички тези фактори, се получава това, което Дали назовава Закон на Хуанг (на името на основния изпълнителен шеф на Nvidia Дженсън Хуанг).

„ Като цяло най-големият приръст, който получихме, беше от усъвършенстваното показване на числата “, споделя Дали със експертите.

Следните цифри са основните параметри на невронната мрежа:

теглата, които дефинират силата на връзката сред невроните в модела; активациите, които дефинират дали даден неврон се задейства, като трансферира информация към идващия пласт.

Преди P100 графичните процесори на Nvidia представяха тези тегла благодарение на цифри с плаваща запетая с единична акуратност. Те са дефинирани от стандарта IEEE 754 и се състоят от 32 бита, от които 23 бита съставляват дробната част, 8 бита работят като експонента, приложена към дробната част, и 1 обичай дава отговор за знака на цифрата.

Главният теоретичен помощник на Nvidia Бил Дали заключи по какъв начин Nvidia е нараснала продуктивността на своите графични процесори в дилемите за изкуствен интелект хиляди пъти в границите на 10 години

Представянето на числата: нарастване с коефициент 16

Изследователите в региона на машинното образование доста бързо осъзнаха, че при редица калкулации могат да употребяват по-малко точни цифри и техните невронни мрежи отново ще дават отговори със същата акуратност. Очевидното преимущество на този метод е, че логиката, която прави основните калкулации при машинното образование (умножение и натрупване), може да работи по-бързо, по-компактно и по-ефективно, когато се постанова да се обработват по-малко битове.

Както изяснява Дали, силата, нужна за едно умножение, е пропорционална на квадрата на броя на битовете. Така че с P100 компанията Nvidia е понижила на половина това число, като е употребила FP16 калкулации. Гугъл даже предложи своя лична версия, наречена bfloat16. Разликата е в относителния брой на дробните битове (те обезпечават точността) и експонентните битове (те обезпечават обхвата). Bfloat16 има същия брой битове за обсега като FP32, което улеснява превключването сред двата формата.

Водещият графичен процесор H100 на Nvidia може да обработва избрани елементи от големите трансформиращи се невронни мрежи като ChatGPT, употребявайки 8-битови цифри. Въпреки това Nvidia е установила, че това не е универсално решение. Така да вземем за пример архитектурата Hopper в действителност употребява два разнообразни FP8 формата: единият е с по-голяма акуратност, а другият – с по-голям обсег. Специалитетът на Nvidia е да може да дефинира кой формат да употребява във всяка една обстановка.

Дали и екипът му имат доста забавни хрумвания за това по какъв начин да получат повече изкуствен интелект от още по-малко битове. И излиза наяве, че системата с плаваща запетая не е съвършена. Един от главните проблеми е, че точността на числата с плаваща запетая е много постоянна, без значение какъв брой огромно или малко е цифрата. Но параметрите за невронните мрежи не употребяват огромни цифри, а са групирани към нулата. Така че главният фокус на Nvidia в региона на научноизследователската и развойната активност е намирането на ефикасни способи за показване на числата, тъй че те да са по-точни към нулата.

Сложните указания: 12,5 пъти нарастване

„ Разходите за добиване и декодиране на една директива са неведнъж по-големи от разноските за осъществяване на елементарна аритметична интервенция “, декларира Дали.

Той показва един тип умножение, при което режийните разноски са 20 пъти повече от 1,5 пикоджаула, изразходвани за самото математическо деяние.

Проектирайки своите графични процесори по този начин, че да правят огромни калкулации с една директива, а не с поредност от указания, Nvidia е постигнала обилни резултати. Както показва Дали, наднормените разноски към момента съществуват, само че с помощта на комплицираните указания те са разпределени върху по-голям брой математически интервенции. Така да вземем за пример една комплицирана директива за умножение и струпване на целочислена матрица (IMMA) има режийни разноски, които са единствено 16% от енергийните разноски на една математическа интервенция.

Законът на Мур: нарастване от 2,5 пъти

Поддържането на развиването на закона на Мур коства милиарди долари вложения, изисква доста комплицирани инженерни решения и поражда голям брой интернационалните опасения. Това обаче визира единствено дребна част от повишението на продуктивността на графичните процесори на Nvidia. Компанията поредно употребява най-съвременните индустриални техники. H100 се създава по процеса N5 (5 нанометра) на TSMC и едвам в края на 2022 година този производител на чипове стартира първичното произвеждане на идващото потомство N3.

Разреденост: нарастване с 2 пъти

Веднъж подготвени в дадена невронна мрежа, доста от невроните могат да се окажат ненужни всъщност. При някои мрежи „ можете да премахнете половината или даже повече неврони и да не загубите точността си “, счита Дали. Техните тегловни стойности са нула или близки до нея. По този метод те просто не способстват за резултата и отчитането им в изчисленията е ненужна загуба на време и сила.

Преобразуването на тези мрежи в „ разредени “ мрежи, с цел да се понижи изчислителното натоварване, е сложна задача. Въпреки това с A100, предшественика на H100, Nvidia вкара това, което назовава структурирана разреденост. Това е хардуер, който може да наложи инициирането на 2 от всеки 4 вероятни събития за изрязване, което води до нова, по-малка изчислителна матрица.

„ Все още не сме завършили с разредеността. Трябва да създадем нещо за активациите и можем да получим по-голяма разреденост в мащабите “, прибавя Дали.