Изследване на INSAIT разкрива, че популярните GPT модели са склонни да „решават“ грешни математически задачи
Екип от INSAIT, институт към Софийския университет „ Св. Климент Охридски “ и ETH Цюрих показа BrokenMath — първия в света относителен тест, който редовно прави оценка склонността на огромните езикови модели (LLMs) към сляпо единодушие (sycophancy) при решение и доказване на математически изказвания.
BrokenMath разкрива значим минус на актуалните модели за изкуствен интелект: те постоянно решително се съгласяват с неверни изказвания, вместо да ги опровергаят. В математиката това значи, че моделите могат да основават безапелационни, само че изцяло неверни доказателства, което слага под подозрение тяхната надеждност при научни и просветителни приложения.
Резултатите демонстрират, че даже GPT-5 „ потвърждава “ погрешни изказвания в към 29% от случаите. Колкото по-сложна е задачата, толкоз по-голяма е вероятността моделът да се подведе. Тествани са разнообразни подходи за ограничение на този резултат — като промени в метода на задаване на въпросите, агентно размишление и в допълнение образование — само че към този момент нито един не взема решение казуса.
Подобно държание може да е рисково в подтекста на възходящото нахлуване на ИИ в образованието. Ако системи, употребявани от възпитаници или преподаватели, могат решително да показват неверни решения като правилни, това би могло да докара до струпване на неправилни познания и подкопаване на сериозното мислене. Затова надеждността и инспекцията на обстоятелствата са основни за безвредното използване на ИИ технологии в образователния развой и научните проучвания.
Изследването е извършено от Иво Петров (докторант в INSAIT), Джаспър Деконинк (ETH Zurich) и проф. Мартин Вечев (научен шеф на INSAIT).
BrokenMath разкрива значим минус на актуалните модели за изкуствен интелект: те постоянно решително се съгласяват с неверни изказвания, вместо да ги опровергаят. В математиката това значи, че моделите могат да основават безапелационни, само че изцяло неверни доказателства, което слага под подозрение тяхната надеждност при научни и просветителни приложения.
Резултатите демонстрират, че даже GPT-5 „ потвърждава “ погрешни изказвания в към 29% от случаите. Колкото по-сложна е задачата, толкоз по-голяма е вероятността моделът да се подведе. Тествани са разнообразни подходи за ограничение на този резултат — като промени в метода на задаване на въпросите, агентно размишление и в допълнение образование — само че към този момент нито един не взема решение казуса.
Подобно държание може да е рисково в подтекста на възходящото нахлуване на ИИ в образованието. Ако системи, употребявани от възпитаници или преподаватели, могат решително да показват неверни решения като правилни, това би могло да докара до струпване на неправилни познания и подкопаване на сериозното мислене. Затова надеждността и инспекцията на обстоятелствата са основни за безвредното използване на ИИ технологии в образователния развой и научните проучвания.
Изследването е извършено от Иво Петров (докторант в INSAIT), Джаспър Деконинк (ETH Zurich) и проф. Мартин Вечев (научен шеф на INSAIT).
Източник: novinata.bg
КОМЕНТАРИ




