Ново изследване на екип на Apple показа, че моделите с

„Илюзията за мислене“: Инженерите на Apple показаха как един прост пъзел обърква изкуствения интелект

Ново проучване на екип на Apple сподели, че моделите с изкуствен интелект със качества за размишление в действителност не могат да вземат решение типичен логичен пъзели.

Въпреки че моделите с изкуствен интелект са извънредно положителни в математиката и кодирането, когато става въпрос за по-сложни задания, те основават единствено „ илюзията за мислене “, твърди екип от Apple в ново изследване.

Според проучването, модели за широкомащабно мислене ( LRM) като OpenAI o1 и o3, DeepSeek R1, Claude 3.7 Sonnet Thinking и Гугъл Gemini Flash Thinking се объркват, когато се сблъскат с по-сложни проблеми. Те включват типичен логичен пъзели като Ханойската кула. Този пъзел се състои от дискове, подредени от най-големия към най-малкия върху един от три колчета, а задачата е дисковете да се реалокират на третия прът, без в никакъв случай да се слага по-голям диск върху по-малък. Задачата може да бъде затруднена, да вземем за пример, посредством прибавяне на още дискове. Проучването открива, че Claude 3.7 Sonnet и DeepSeek R1 стартират да се провалят, когато към казуса с Ханойската кула се добави пети диск. Дори когато към LRM се приложи повече изчислителна мощ, те към момента не съумяват да се оправят с по-сложните пъзели.

„ Резултатите демонстрират, че всички модели за размишление показват сходна причинност във връзка с сложността: точността последователно понижава с увеличение на сложността на казуса, до момента в който доближи цялостен колапс ( нулева точност) оттатък характерния за модела предел на трудност “ — пишат откривателите.

Изследователите също по този начин открили, че моделите, парадоксално, почнали да понижават напъните си за размишление с увеличение на компликацията на задачата. Така че, когато дилемите ставали по-трудни, LRM-ите „ мислили “ по-малко. Дори когато откривателите присъединили логаритъм в подсказката, всичко, което моделите е трябвало да създадат е да следват стъпките, само че и в този случай те са траяли да се провалят. Това изследване не значи, че LRM-ите въобще не разсъждават, само че демонстрира, че може би не са доста по-умни от хората.

„ Хората в действителност имат редица (добре познати) ограничавания, които съответстват с откритието на екипа на Apple. Много ( не всички) хора не могат да се оправят с 8-дисковите версии на Ханойската кула “ — написа специалистът по изкуствен интелект Гари Маркъс в блог обявата си.