Прехваленият разсъждаващ AI се проваля напълно в сложния тест ARC-AGI-2,

...
Прехваленият разсъждаващ AI се проваля напълно в сложния тест ARC-AGI-2,
Коментари Харесай

Нов тест показа липсата на интелект в AI моделите


Прехваленият разумен AI се проваля изцяло в комплицирания тест ARC-AGI-2, хората се оправят доста по-добре (снимка: CC0 Public Domain)

Много се спори до каква степен изкуственият разсъдък в действителност притежава… разсъдък. Разработчиците популяризират с самоувереност своите AI модели, само че редица експерти оспорват интелектуалните благоприятни условия на изкуствения разсъдък . Нов тест удостоверява скептицизма им.

Arc Prize Foundation, организация с нестопанска цел, съоснована от известния откривател на изкуствения разсъдък Франсоа Шоле, разгласи в своя блог, че е основала нов, по-усъвършенстван тест за премерване на общата просветеност на водещи модели на AI, наименуван ARC-AGI-2.

Всички съвременни системи с изкуствен интелект се провалят в този нов, комплициран тест за общ разсъдък. Според класацията, разсъждаващите модели като o1-pro на OpenAI и R1 на DeepSeek реализират резултат сред 1% и 1,3%. Модели без логичен разсъждения, в това число GPT-4.5, Claude 3.7 Sonnet и Gemini 2.0 Flash, се оправят още по-зле – техните правилни изводи са под 1%.

Тестът ARC-AGI-2 е серия от пъзели, в които AI би трябвало да разпознае образни модели посредством анализиране на цветни квадрати и въз основа на това да конструира вярното продължение на модела. Тестът е особено планиран по този начин, че моделите да не могат да разчитат на минал опит, а вместо това да се приспособяват към нови провокации.

Фондацията Arc Prize е провела проби и с над 400 души. Средно участниците в теста са дали отговор вярно на 60% от въпросите. Това доста превъзхожда всички тествани AI модели, като в същото време акцентира разликата сред актуалните благоприятни условия на AI и човешкия разсъдък при решение на проблеми, които изискват адаптиране и схващане на нови концепции.

Шоле твърди, че ARC-AGI-2 е по-точна мярка за действителната просветеност на AI моделите от предходната версия на теста, ARC-AGI-1. Освен това ARC-AGI-2 отстрани опцията за решение на проблеми посредством „ метода на грубата мощ ”, т.е. посредством потребление на голяма изчислителна мощ за експериментиране на всички вероятни варианти, което се случи в теста ARC-AGI-1 и беше прието за сериозен минус.

За да се оправи с неточностите на първия тест, ARC-AGI-2 вкарва индикатор за успеваемост, който принуждава AI да интерпретира шаблоните „ в придвижване ”, вместо да разчита на запомняне. Съоснователят на Arc Prize Foundation Грег Камрад разяснява, че „ интелигентността не е единствено способността да се вземат решение проблеми или да се реализират високи резултати, само че и успеваемостта, с която тези качества се получават и разпростират ”.

ARC-AGI-1 остана водещият индикатор за оценка на AI моделите в продължение на към пет години, до момента в който OpenAI не пусна своя модернизиран разумен модел o3 през декември 2024 година Този модел надмина всички други AI модели и даже доближи човешката продуктивност в тестванията ARC-AGI-1. Но тези достижения бяха реализирани със обилни изчислителни разноски.

Новата версия на теста идва на фона на възходящите опасения в промишлеността по отношение на неналичието на справедливи критерии за оценка на изкуствения разсъдък. В отговор фондацията Arc Prize разгласи съревнование Arc Prize 2025, предизвиквайки разработчиците да реализират 85% акуратност в ARC-AGI-2, като харчат не повече от $0,42 изчислителни старания за решение на проблем.
„ Нулево доверие “ – неизбежната парадигма в киберсигурността
" Не вярвай на никого, проверявай всички и всичко " - това е новият стандарт в грижата за осведомителната отбрана »»»
предишна обява: Защо бизнесът избира iPhone 16 Pro: Силата на подвижността и свързаността следваща обява:
графа: Актуално, Изкуствен разсъдък, Новаторски, Новини | етикети: AI модели, ARC-AGI-2, изкуствен интелект, оценка на изкуствен интелект
Коментар

ИМЕ *

Източник: technews.bg


СПОДЕЛИ СТАТИЯТА


КОМЕНТАРИ
НАПИШИ КОМЕНТАР