Способността на ИИ да разбира собствените си думи се доказа като „Потьомкин“
Учени от Масачузетския софтуерен институт, Харвард и Чикагския университет предложиха термина „ потьомкинско схващане “, с цел да опишат несъответствието, намерено в огромните езикови ИИ модели, сред верните отговори на въпросите и невъзможността в действителност да бъдат разбрани, с цел да се приложи тази информация на процедура.
Терминът произлиза от към този момент дискредитираната легенда за „ Потьомкинските села “: когато императрица Екатерина II посещава Крим през 1787 година, княз Григорий Потьомкин ѝ демонстрира декори, за които твърди, че са същински села. „ Потьомкинското мислене “ е друго от „ халюцинациите “, при които изкуственият разсъдък решително дава отговори, които явно не са правилни — това е неспособността да се схващат понятията по метода, по който го прави човек. В тази обстановка моделът сполучливо минава контролния тест, само че не схваща понятията, свързани със личния му отговор.
„ Потьомкините са концептуалното познание, а халюцинациите са фактическото познание – халюцинациите измислят погрешни факти; Потьомкините измислят погрешни връзки сред понятията “ — изясняват създателите своя термин. Изследването дава явен образец. Моделът GPT-4o на OpenAI беше помолен да изясни схемата за кръстосано римуване ABAB – той даде верния отговор, акцентирайки редуващите се рими в първия и третия, както и във втория и четвъртия ред. Но когато беше помолен да попълни изчезналата дума в четиристишие със скица за кръстосано римуване, той предложи алтернатива, която не се римува вярно. Тоест, моделът вярно предсказа лексемите, с цел да изясни схемата ABAB, само че не разбра личния си отговор, с цел да възпроизведе тази скица на процедура.
Коварната природа на неуспехите на Потьомкин е, че обезценяват индикаторите за изкуствен интелект. Моделите се тестват, с цел да се дефинира тяхната подготвеност, само че в случай че пробата мери единствено тяхната продуктивност, а не способността им да ползват материалите отвън сюжетите, върху които са били тествани, резултатите са безсмислени. Изследователите са създали свои лични индикатори, с цел да оценят какъв брой постоянно срещани са неуспехите на Потьомкин, и те са били повсеместни в моделите, които са тествали: Llama-3.3 (70B), GPT-4o, Gemini-2.0 (Flash), Claude 3.5 (Sonnet), DeepSeek-V3, DeepSeek-R1m и Qwen2-VL (72B).
Един набор от проби се концентрира върху литературните похвати, доктрина на игрите и психическите пристрастия. Той открива, че моделите вярно разпознават нужните понятия (94,2%), само че постоянно не съумяват да класифицират тези понятия (средно 55% % на неуспех), да генерират образци (40% % на неуспех) и да редактират илюстрации на описаните понятия (40%). Както при схемите за рими, те вярно изясняват литературните похвати, употребявани в сонета на Шекспир, само че срещат компликации с откриването, възпроизвеждането или редактирането на сонета.
„ Съществуването на случаи на Потьомкин значи, че държание, което би показвало схващане при хората, не демонстрира схващане в огромния езиков модел. Това значи, че или се нуждаем от нови способи за тестване на огромните езикови модели, с цел да отговорим на същите въпроси, които се употребяват за тестване на хората, или да намерим способи да изключим това държание в огромния езиков модел “ — означават учените.




