Изследване на Pfizer за това защо големите езикови модели изпитват трудности при решаването на проблеми
Нов коментар от откриватели на Pfizer хвърля подозрение върху основните проучвания в изследването „ Илюзия на мисленето “, съавтор на което са учени от Apple.
В публикацията, написана от Apple, се твърди, че този неочакван спад в продуктивността сочи към фундаментално ограничаване на опциите на машинното мислене. Други изследвания са разкрили сходни резултати, само че не го назовават твърдо ограничаване.
Екипът на Pfizer също не е склонен с тълкуването на Apple. Те настояват, че утежняването на продуктивността не се дължи на когнитивна преграда, а на изкуствените условия на тестване. Принуждаването на моделите да работят единствено в текстова среда – без принадлежности като програмни интерфейси – прави комплицираните задания доста по-трудни, в сравнение с е належащо. Това, което наподобява като проблем на мисленето, в действителност е проблем на осъществяването.
Защо някои задания съставляват провокации за LRM?
В истинското изследване модели като Claude 3.7 Sonnet-Thinking и Deepseek-R1 бяха тествани върху текстови пъзели като „ Кулата на Ханой “ и „ Пресичането на река “. С повишаването на компликациите на пъзелите точността на моделите внезапно спада – феномен, наименуван в изследването „ бездна на разсъжденията “.
Екипът на Pfizer показва нереалистичните ограничавания на теста: моделите не можеха да употребяват външни принадлежности и трябваше да наблюдават всичко в елементарен текст. Това не разкрива никакви неточности в разсъжденията, само че направи съвсем невероятно моделите да извършват дългите и прецизни стъпки за решение на проблемите.
Като образец, откривателите на Pfizer са разгледали модела o4-mini. Без достъп до принадлежности, той е оповестил разрешимия пъзел „ Пресичане на река “ за нерешим, евентуално тъй като не е могъл да запомни предходните стъпки. Това ограничаване на паметта е добре прочут проблем със актуалните езикови модели и е разказано и в изследването на Apple.
Pfizer назовава това „ заучена беззащитност “: когато LRM не може съвършено да извърши дълга поредност от дейности, той може неправилно да реши, че задачата е невъзможна.
Проучването на Apple също не е взело поради „ кумулативната неточност “. При дилемите с хиляди стъпки вероятността за безупречно осъществяване понижава с всяка стъпка. Дори в случай че даден модел е 99,99% прецизен на всяка стъпка, вероятността за решение на сложен пъзел без неточност като “Ханойската Кула “ е по-малка от 45%. Така че следеният спад в продуктивността може просто да отразява статистическата действителност, а не когнитивни ограничавания.
Инструментите отварят достъп до разсъждения на по-високо равнище
Екипът на Pfizer тества още веднъж GPT-4o и o4-mini, само че този път с достъп до инструмента Python. И двата логаритъма са решавали простите пъзели с лекост, само че методите им са се различавали с усложняването на задачата.
GPT-4o е употребявал Python, с цел да имплементира разумна, само че неправилна тактика и не е съумял да разпознае грешката. От друга страна, o4-mini е забелязал първичната си неточност, анализирал я е и е минал към верния метод, което е довело до сполучливо решение.
2
Моделът o4-mini открива грешката, трансформира тактиката си и в последна сметка взема решение пъзела с лодката.
Изследователите приписват това държание на типичен хрумвания в когнитивната просвета. GPT-4o работи сходно на “Система 1 “ на Даниел Канеман — бърза и интуитивна, само че склонна да се придържа към неприятен проект. o4-mini, въпреки това, демонстрира мислене, сходно на “Система 2 “: постепенно, аналитично и способно да преразгледа тактиката си, откакто осъзнае грешката. Тази метакогнитивна промяна се смята за типична за съзнателното решение на проблеми.
Преосмисляне на способите за оценка на моделите за логичен извод
Екипът на Pfizer твърди, че бъдещите LRM проби би трябвало да тестват моделите както със, по този начин и без принадлежности. Тестовете без принадлежности акцентират рестриктивните мерки на езиковите интерфейси, до момента в който тестванията с принадлежности демонстрират какво могат да реализират моделите като сътрудници. Те също по този начин изискват проби, които правят оценка метакогнитивните качества, като разкриване на неточности и стратегическо поправяне.
Тези резултати имат значение и за сигурността. Моделите с изкуствен интелект, които сляпо следват неправилни проекти, без да ги поправят, може да са рискови, до момента в който моделите, които могат да преразгледат тактиките си, е евентуално да бъдат по-надеждни.
Оригиналното проучване „ Илюзия на мисленето “ от Шоджаей и други (2025) провокира необятен спор за това на какво в действителност са способни огромните езикови модели. Анализът на Pfizer удостоверява това, само че показва по-сложни аспекти на казуса от просто „ неналичието на машинно мислене “.




