Колкото повече мисли, толкова по-зле решава: парадоксът на съвременния изкуствен интелект
ИИ моделите зациклят в личните си мисли – и това е скъпо.
Днешните езикови ИИ модели показват все по-голяма дарба да разсъждават, само че същото това тяхно качество води до непредвиден проблем – „ парализа на разбора “. Изследване, извършено от учени от Калифорнийския университет в Бъркли, ETH Цюрих, Карнеги Мелън и Университета на Илинойс, демонстрира, че усъвършенстваните модели постоянно са склонни към прекомерно мислене, което понижава тяхната успеваемост.
Авторите на публикацията дефинират този резултат като „ податливост да се избират продължителните вътрешни разсъждения пред взаимоотношението с външната среда “. Това е сходно на обстановката, когато човек, без да има задоволително информация, безпределно проучва даден проблем, само че по този начин и не стига до вярното решение.
За да ревизират по какъв метод моделите се оправят с този проблем, откривателите ги тестват върху известен пример за софтуерно инженерство. Те употребяват платформата OpenHands, където моделите би трябвало да откриват грешките и да оферират решения. Оказа се, че моделите с построен механизъм за разсъждаване са склонни към „ прекалено разсъждаване “ съвсем три пъти по-често от тези без подобен механизъм. Нещо повече, с повишаването на равнището на „ преосмисляне “ вероятността за сполучливо довеждане докрай на задачата понижава приблизително със 7,9% за всяка спомагателна единица разбор.
Моделите със относително малко параметри, като да вземем за пример QwQ-32B на Alibaba, се оказаха изключително податливи на „ свръхмислене “. Моделите Sky-T1-R и DeepSeek-R1 32B също демонстрираха високи равнища на „ парализа на разбора “, като в това време триумфът им при решение на задания не превъзхождаше моделите без развъртян механизъм за размишление.
Един от главните проблеми на свръханализа при езиковите модели е увеличението на изчислителните разноски. Колкото повече моделът проучва даден проблем, толкоз повече запаси изразходва. Така да вземем за пример потреблението на OpenAI o1 в режим на работа с високи запаси коства 1400 $, до момента в който неговата орязана версия коства 800 $, а разликата в успеваемостта при решаването на проблемите е незначителна – 29,1% против 27,3%.
Изследователите са открили, че стартирането на „ опростената “ версия няколко пъти и избирането на най-хубавия резултат е по-ефективно и икономично, в сравнение с потреблението на „ задълбочения “ разбор. Този метод икономисва 200 $, без да понижава качеството на решенията.
Не всички усъвършенствани езикови модели обаче са податливи на този проблем. Така да вземем за пример DeepSeek-R1 671B сподели по-малка податливост към свръханализ спрямо базовата версия DeepSeek-V3 671B. Учените допускат, че това се дължи на особеностите на образованието му – моделът е употребявал широкомащабно образование с укрепване, само че не е бил особено приспособен за задания по програмиране. В резултат на това той по-малко „ затъвал “ в разсъжденията и по-често взаимодействал с околната среда.
Основният извод от проучването е, че рационалното ограничение на дълбочината на разбора може да усъвършенства работата на езиковите модели. Остава обаче въпросът: по какъв начин да обучим един модел да употребява тъкмо толкоз разсъждения, колкото е належащо? Авторите се надяват, че публикуването на тяхната методология и данни със свободен достъп ще помогне на научната общественост да се оправи с този въпрос. Пълният набор от данни, както и методологията, употребена за количествено установяване на непотребните разбори, са налични в GitHub.




