В социалните мрежи Twitter, Reddit и на Treadreader се появи

GPT-4 има 13 милиона параметри на 120 нива: нова информация за най-новата невронна мрежа на OpenAI

В обществените мрежи Twitter, Reddit и на Treadreader се появи нова информация за езиковия модел GPT-4. Казано най-общо, новият генеративен изкуствен интелект е 10 пъти по-голям, по-добре употребява ресурсите, като в същото време отговорите са по-добри и по-качествени.

GPT-4 работи с почти 1,8 трилиона параметри на 120 равнища, което е 10 пъти повече от GPT-3. Той употребява модел на комбинация от специалисти (Mixture of Experts – MoE) с 16 обособени невронни специалиста, всеки от които има почти 111 милиарда параметъра. Използването на MoE дава опция за по-ефективно ръководство на ресурсите за логичен заключения, като при този метод са нужни единствено към 280 милиарда параметъра и 560 TFLOPs спрямо 1,8 трилиона параметъра и 3700 TFLOPs, изисквани предходния модел.

Този модел е подготвен въз основата на към 13 трилиона токена от разнообразни източници, в това число интернет, книги и научни публикации. За да се понижат разноските за образование, OpenAI употребява тензорен и конвейерен паралелизъм, както и огромен размер на партида от 60 милиона токена. Приблизителните разноски за образованието на GPT-4 са към 63 милиона $.

Макар че съществуването на повече ЕА специалисти би подобрило работата на модела, OpenAI е решила да употребява 16 заради проблеми с обобщаването и сходимостта. Логическите резултати на GPT-4 костват три пъти повече от предшественика му DaVinci, основно заради нуждата от по-големи клъстери и по-ниска степен на потребление. Моделът включва и обособен видеокодер с кръстосано ориентиране на вниманието за мултимодални задания като четене на уеб страници и декодиране на изображения и видео.