Всяка неделя водещият на NPR Уил Шорц, гуруто на кръстословицата

...
Всяка неделя водещият на NPR Уил Шорц, гуруто на кръстословицата
Коментари Харесай

AI-модели полагат „изпит“ за решаване на пъзели: Проучване разкрива изненадващи резултати

Всяка неделя водещият на NPR Уил Шорц, гуруто на кръстословицата на New York Times, задава въпроси на хиляди слушатели в дълготраен сегмент, наречен  „ “. Въпреки че пъзелите са предопределени да се вземат решение, без да се разчита прекалено много на познания, те нормално са предизвикателство даже за опитните участници.

Ето за какво някои специалисти считат, че това е обещаващ метод за тестване на границите на опциите на AI за решение на проблеми.

В  скорошно изследване екип от откриватели от колежа Уелсли, колежа Оберлин, Тексаския университет в Остин, Североизточния университет, Карлския университет и стартъпа Cursor сътвориха AI-тест, употребявайки пъзели от епизоди на “Неделен пъзел “. Екипът споделя, че техният тест разкрива непредвидени открития, като да вземем за пример, че моделите на размишление — в това число o1 на OpenAI — от време на време се „ отхвърлят “ и дават отговори, които знаят, че са неверни.

„ Искахме да разработим бенчмарк със задания, които хората могат да схванат, даже и единствено с съществени знания “ — споделя пред TechCrunch Арджун Гуха, професор по компютърни науки в Североизточния университет и един от съавторите на проучването.

В момента AI-индустрията е в сложна обстановка, когато става въпрос за тестване. Повечето от тестванията, които нормално се употребяват за оценка на AI модели, тестват умения като докторска степен по математика и естествени науки, които не са подобаващи за междинния консуматор. В същото време доста проби — даже и такива, оповестени относително неотдавна — бързо се приближават до точката на засищане.

Предимствата на публичното радио предаване с викторина като “Неделен Пъзел “ са, че не изисква задълбочени знания и въпросите са проектирани по подобен метод, че моделите да не могат да употребяват „ памет наизуст “, с цел да ги вземат решение, изяснява Гуха.

„ Мисля, че компликацията на тези проблеми е, че е доста мъчно да постигнеш логичен прогрес по даден проблем, до момента в който не го разрешиш и тогава всичко си идва на мястото “ — споделя Гуха. „ Това изисква композиция от просветление и развой на елиминиране. “

Разбира се, нито един тест не е съвършен. “Неделен Пъзел “ е фокусиран върху Съединени американски щати и се предлага единствено на британски език. И защото тестванията са обществено налични, подготвените на тях модели могат в прочут смисъл да „ изневеряват “, макар че Гуха споделя, че не е видял доказателства за това.

„ Всяка седмица има нови въпроси и можем да чакаме най-новите въпроси да бъдат в действителност неповторими “ — прибавя той. „ Възнамеряваме да актуализираме теста и да следим по какъв начин продуктивността на модела се трансформира с времето. “

В тест, планиран от откривателите, който включва към 600 пъзела от Sunday Puzzle, моделите на логическо мислене като o1 и R1 на DeepSeek доста надминават останалите. Моделите на логическото мислене деликатно ревизират обстоятелствата, преди да дадат резултати, което им оказва помощ да избегнат някои от грешките, които нормално предизвикват крах измежду AI-моделите. Недостатъкът е, че на моделите за логическо мислене им лишава малко повече време, с цел да намерят решения — нормално от няколко секунди до няколко минути.

Поне модела R1 на DeepSeek за някои въпроси от “Неделния Пъзел “ предлага решения, за които знае, че са неверни. R1 безусловно споделя: „ Отказвам се “ и по-късно дава погрешен отговор, който наподобява инцидентен — държание, с което индивидът сигурно може да се разпознава.

Моделите вършат и други странни избори, като дават неверен отговор и по-късно неотложно го изоставят, пробвайки се да намерят по-добър отговор и още веднъж се провалят. Те също „ мислят “ безпределно и дават безсмислени пояснения за отговорите или незабавно измислят верния отговор, само че по-късно минават към разглеждане на други възможности без забележима причина.

„ Когато взема решение сложни проблеми, R1 безусловно споделя, че е „ отчаян “ — споделя Гуха. „ Беше смешно да виждам по какъв начин моделът имитира това, което човек може да каже. Все още не е ясно по какъв начин „ разочарованието “ в разсъжденията може да повлияе върху качеството на резултатите от модела.„

Понастоящем най-хубавият модел в този бенчмарк е o1 с резултат от 59%, следван от неотдавна пуснатия  o3-mini с висок резултат от „ изпитание за размишление “ ( 47% ). (R1 отбелязва 35% ). Като последваща стъпка откривателите възнамеряват да разширят тестванията до спомагателни модели на разсъждения, които се надяват да оказват помощ за идентифицирането на областите, в които моделите могат да бъдат усъвършенствани.

Резултати от тестване на моделите, които екипът употребява като пример.

„ Нямате потребност от докторска степен, с цел да разсъждавате добре, тъй че можете да разработите проби за оценка на разсъжденията, които не изискват това равнище на познания “ — споделя Гуха. „ Тест с по-голяма досегаемост разрешава на повече откриватели да схващат и проучват резултатите, което от своя страна може да докара до по-добри решения в бъдеще. Освен това, защото модерните модели се употребяват от ден на ден в области, които засягат всички, ние имаме вяра, че всеки би трябвало да разбере какво могат и какво не могат да създадат тези модели. “

Източник: kaldata.com


СПОДЕЛИ СТАТИЯТА


КОМЕНТАРИ
НАПИШИ КОМЕНТАР