ARC-AGI-3: нов тест за здравия разум, на който невронните мрежи

100 видеоигри срещу всички изкуствени интелекти в света – резултатът е 100:0 в полза на човечеството

ARC-AGI-3: нов тест за здравия разсъдък, на който невронните мрежи всеобщо се провалят.

Фондацията ARC Prize показа нов аршин за инспекция на универсалните качества на изкуствения разсъдък – ARC-AGI-3. Ако предходните версии на теста предлагаха нереални пъзели с цветни решетки, то в този момент AI моделите ще бъдат тествани в интерактивни двуизмерни видеоигри. Този формат разрешава да се оцени освен способността за разкриване на закономерности, само че и способността за обмисляне на дейности, проучване на околната среда и адаптиране към новите условия.

Същността на метода се състои в това, че интелигентността се дефинира като дарба за бързо установяване на предписание от най-малък брой образци и прехвърлянето му към изцяло нова задача. За хората това е добре прочут метод на учене – по този начин усвояваме умения още от детството. Съвременните невронни мрежи са към момента надалеч по-назад в това отношение, макар впечатляващия прогрес в някои области.

Първата версия на комплекта от задания на ARC е основана от откривателя Франсоа Шоле през 2019 година Тя залегна в основата на програмата за премията ARC Prize и се трансформира в промишлен стандарт. Първата версия съдържаше към хиляда задания и остана непреодолима за моделите с надълбоко образование в продължение на пет години. Едва през 2024 година новите системи с опция за размишление съумяха да покажат видим прогрес. След това се появи втората по-сложна версия: дилемите станаха по-обширни и многокомпонентни, като изискваха повече стъпки за решение.

Докато доста хора могат да решат главните образци за няколко секунди, втората версия лишава минута или от време на време повече. В огромен тест с присъединяване на 400 души междинният резултат беше 66%, а груповите отговори на групи от 5-10 участници изцяло покриваха целия набор от въпроси.

ARC-AGI-3 се отдалечава от формата на индивидуален въпрос и отговор. Сега това са 100 истински видеоигри, в които всяко равнище построява несъмнено мини-умение и незабавно ревизира по какъв начин играчът го ползва на процедура. Този тест е по-близък до действителния живот, където решенията зависят от последователността на стъпките, подтекста и измененията във времето. Вътрешните проби демонстрираха: нито една тествана система към момента не е минала даже едно равнище, макар че валидността към този момент е доказана за хората.

Принципът ARC се разграничава от другите примери по това, че всички задания би трябвало да са изпълними за елементарния човек. За разлика от тестванията, които оферират задания на докторско равнище, тук се ревизира способността за обобщаване. Именно тук хората непроменяемо изпреварват машините, до момента в който триумфите на изкуствения разсъдък остават местни.

Новият формат също по този начин отстрани слабостите на по-старите проби за игри като тези на Atari. В ARC-AGI-3 няма големи количества налични данни за попечителство, няма метод на грубата мощ с милиарди симулации, а разработчиците на ИИ сътрудниците нямат предварителни знания за структурата на равнищата. Оценяването е построено въз основата на единни и транспарантни критерии.