Прехваленият разсъждаващ AI се проваля напълно в сложния тест ARC-AGI-2,

Нов тест показа липсата на интелект в AI моделите

Прехваленият разумен AI се проваля изцяло в комплицирания тест ARC-AGI-2, хората се оправят доста по-добре (снимка: CC0 Public Domain)

Много се спори до каква степен изкуственият разсъдък в действителност притежава… разсъдък. Разработчиците популяризират с самоувереност своите AI модели, само че редица експерти оспорват интелектуалните благоприятни условия на изкуствения разсъдък . Нов тест удостоверява скептицизма им.

Arc Prize Foundation, организация с нестопанска цел, съоснована от известния откривател на изкуствения разсъдък Франсоа Шоле, разгласи в своя блог, че е основала нов, по-усъвършенстван тест за премерване на общата просветеност на водещи модели на AI, наименуван ARC-AGI-2.

Всички съвременни системи с изкуствен интелект се провалят в този нов, комплициран тест за общ разсъдък. Според класацията, разсъждаващите модели като o1-pro на OpenAI и R1 на DeepSeek реализират резултат сред 1% и 1,3%. Модели без логичен разсъждения, в това число GPT-4.5, Claude 3.7 Sonnet и Gemini 2.0 Flash, се оправят още по-зле – техните правилни изводи са под 1%.

Тестът ARC-AGI-2 е серия от пъзели, в които AI би трябвало да разпознае образни модели посредством анализиране на цветни квадрати и въз основа на това да конструира вярното продължение на модела. Тестът е особено планиран по този начин, че моделите да не могат да разчитат на минал опит, а вместо това да се приспособяват към нови провокации.

Фондацията Arc Prize е провела проби и с над 400 души. Средно участниците в теста са дали отговор вярно на 60% от въпросите. Това доста превъзхожда всички тествани AI модели, като в същото време акцентира разликата сред актуалните благоприятни условия на AI и човешкия разсъдък при решение на проблеми, които изискват адаптиране и схващане на нови концепции.

Шоле твърди, че ARC-AGI-2 е по-точна мярка за действителната просветеност на AI моделите от предходната версия на теста, ARC-AGI-1. Освен това ARC-AGI-2 отстрани опцията за решение на проблеми посредством „ метода на грубата мощ ”, т.е. посредством потребление на голяма изчислителна мощ за експериментиране на всички вероятни варианти, което се случи в теста ARC-AGI-1 и беше прието за сериозен минус.

За да се оправи с неточностите на първия тест, ARC-AGI-2 вкарва индикатор за успеваемост, който принуждава AI да интерпретира шаблоните „ в придвижване ”, вместо да разчита на запомняне. Съоснователят на Arc Prize Foundation Грег Камрад разяснява, че „ интелигентността не е единствено способността да се вземат решение проблеми или да се реализират високи резултати, само че и успеваемостта, с която тези качества се получават и разпростират ”.

ARC-AGI-1 остана водещият индикатор за оценка на AI моделите в продължение на към пет години, до момента в който OpenAI не пусна своя модернизиран разумен модел o3 през декември 2024 година Този модел надмина всички други AI модели и даже доближи човешката продуктивност в тестванията ARC-AGI-1. Но тези достижения бяха реализирани със обилни изчислителни разноски.

Новата версия на теста идва на фона на възходящите опасения в промишлеността по отношение на неналичието на справедливи критерии за оценка на изкуствения разсъдък. В отговор фондацията Arc Prize разгласи съревнование Arc Prize 2025, предизвиквайки разработчиците да реализират 85% акуратност в ARC-AGI-2, като харчат не повече от $0,42 изчислителни старания за решение на проблем.
„ Нулево доверие “ – неизбежната парадигма в киберсигурността
" Не вярвай на никого, проверявай всички и всичко " - това е новият стандарт в грижата за осведомителната отбрана »»»
предишна обява: Защо бизнесът избира iPhone 16 Pro: Силата на подвижността и свързаността следваща обява:
графа: Актуално, Изкуствен разсъдък, Новаторски, Новини | етикети: AI модели, ARC-AGI-2, изкуствен интелект, оценка на изкуствен интелект
Коментар

ИМЕ *

Прехваленият разсъждаващ AI се проваля напълно в сложния тест ARC-AGI-2,

Нов тест показа липсата на интелект в AI моделите

нов тест

тест показа

показа липсата

липсата интелект

интелект моделите

тест

показа

липсата

интелект

моделите

Платформата за интернет обмен от групата на Нетера поема управлението

AI отчуждава хората и трябва да се ползва отговорно обяви

Нов ядрено магнитен резонанс MAGNETOM Flow Plus на технологичния гигант

Tesla компанията която някога определи ерата на съвременното производство на

Кметът Костадин Димитров сподели във Фейсбук 10 минутен филм за

Компютърният гигант Nvidia е замразил планираната сделка за инвестиция от

Въпросът дали изкуственият интелект може да бъде официално назначен като

НАСА отложи планираното пътуване на астронавти около Луната заради очаквани

Летище Хийтроу в Лондон е премахнало предишното ограничение от 100

Годишните приходи достигат рекордните 89 2 трилиона корейски вона като

Черен понеделник за ценните метали: Златото и среброто се сринаха след масирани разпродажби

Бунт в Рияд: Роналдо обмисля бойкот на „Ал Насър“ заради липса на нови звезди

Бед Бъни пренаписа историята на „Грами“: Първи испаноезичен албум с най-високото отличие

Росен Божинов остана без треньор в Серия А: Пиза уволни Алберто Джилардино

Хунтата в Гвинея Бисау която обеща да доведе революционната партия

Връзката е копирана Легендата разказва че хвърлянето на монета във

Той не е информирал за направеното предложение главния директор на

Вижте всички теми Връзката е копирана Следвайте Търговците на Уолстрийт

Районната прокуратура в Бургас е образувала две досъдебни производства за

На американските фондови борси се очертават умерени ръстове в днешната