ASI-ARCH е експериментална демонстрация на изкуствен суперинтелект за изследвания в

...
ASI-ARCH е експериментална демонстрация на изкуствен суперинтелект за изследвания в
Коментари Харесай

ИИ, който сам създава AI: ASI-ARCH откри 106 нови SOTA-архитектури

ASI-ARCH е пробна проява на неестествен суперинтелект за проучвания в региона на ИИ, който е кадърен на изцяло самостоятелна научна работа за разкриване на нови архитектури на невронни мрежи.

Системата независимо излага хипотези, имплементира ги като осъществим код, образова ги и ги тества на процедура. Резултатът от тази работа са 1773 самостоятелни опита, които лишават над 20 000 GPU-часа и довеждат до откриването на 106 нови SOTA-архитектури с линеен механизъм за внимание.

Целият развой е разграничен на 2 стадия: търсене на хипотези и тяхното тестване

На първия стадий системата работи с дребни модели с към 20 милиона параметъра, като ги образова върху 1 милиард токена. На този стадий са извършени 1773 опита, които са лишили към 10 000 GPU-часа. Общо на този стадий са определени 1350 обещаващи претенденти — всички те надминават базовата архитектура DeltaNet както по индикатори за загуби, по този начин и по бенчмарк.

Вторият стадий е верификация. Кандидатите от първия стадий са мащабирани до 340 милиона параметъра, с цел да подхождат на конфигурацията на DeltaNet. След пречистване на архитектурите с несъразмерна трудност или брой параметри, са останали към 400 модела. Тяхното образование върху 1 милиард токена е изисквало още 10 000 GPU-часа. В последна сметка точно от тази група са определени 106 архитектури, достигнали SOTA-ниво.

За окончателната валидация, откривателите са избрали 5-те най-хубави модела, обучили са ги върху 15 милиарда токена и са ги сравнили с Mamba2, Gated DeltaNet и DeltaNet.

Анализът на желанията на системата разкри забавни модели

ASI-ARCH явно избира да работи с изпитани във времето съставни елементи: гейтинг и конволюция. Но най-важното — разпределението на съставените елементи в 106 от най-хубавите модела има доста по-слабо изразено систематизиране на long-tail distribution спрямо останалите 1667 генерирани архитектури.

Това значи, че системата реализира триумф не посредством случайно експериментиране на екзотични хрумвания, а посредством итеративно рационализиране на набора от потвърдени техники. По създание това е доста сходно на методологията на човешките учени.

Резултатите

Една от най-хубавите открити AI-архитектури, PathGateFusionNet, реализира междинен резултат от 48,51 във всички бенчмаркове. За съпоставяне, Mamba2 е отбелязал 47,84, а проектираната от човек Gated DeltaNet — 47,32. Друга генерация е ContentSharpRouter, която е постигнала 48,34.

Разглеждайки обособените проби, PathGateFusionNet реализира резултат от 60,58 на BoolQ, до момента в който Gated DeltaNet реализира резултат от 60,12. AdaptiveEntropyRouter във версията с 340 милиона параметъра реализира резултат от 44,31 на тестванията, което е с 2,21 точки по-високо от Gated DeltaNet (42,10).

И по този начин е в съвсем всичко; усъвършенствания се следят в целия набор от задания.

И най-интересното —- от къде системата черпи концепциите си? Има единствено 3 източника:

Cognition — познания, извлечени от научна литература; Analysis — изводи, направени от вашите лични минали експерименти; Originality — изцяло нови хрумвания.

За всичките 1773 генерирани архитектури, разпределението на изходния код е:

51,7% от концепциите са пристигнали от човешка литература; 38,2% —- от личния анализ; 10,1% са били истински.

Но в случай че погледнем единствено резултатите от 106-те SOTA, картината се трансформира. Делът на концепциите, основани на разбор, се усилва от 38,2% на 44,8%, до момента в който делът на Cognition спада леко до 48,6%.

Следователно, с цел да реализира осезаеми резултати, изкуственият разсъдък не може просто да копира и комбинира човешки разработки. Той би трябвало да проучва личния си опит, да се учи от личните си триумфи и неуспехи и да синтезира по-съвършените решения.

Източник: kaldata.com


СПОДЕЛИ СТАТИЯТА


КОМЕНТАРИ
НАПИШИ КОМЕНТАР