Екип от INSAIT, институт към Софийския университет Св. Климент Охридски“

...
Екип от INSAIT, институт към Софийския университет Св. Климент Охридски“
Коментари Харесай

Изследване на INSAIT разкрива, че популярните GPT модели са склонни да „решават“ грешни математически задачи

Екип от INSAIT, институт към Софийския университет „ Св. Климент Охридски “ и ETH Цюрих показа BrokenMath — първия в света относителен тест, който редовно прави оценка склонността на огромните езикови модели (LLMs) към сляпо единодушие (sycophancy) при решение и доказване на математически изказвания.

BrokenMath разкрива значим минус на актуалните модели за изкуствен интелект: те постоянно решително се съгласяват с неверни изказвания, вместо да ги опровергаят. В математиката това значи, че моделите могат да основават безапелационни, само че изцяло неверни доказателства, което слага под подозрение тяхната надеждност при научни и просветителни приложения.

Резултатите демонстрират, че даже GPT-5 „ потвърждава “ погрешни изказвания в към 29% от случаите. Колкото по-сложна е задачата, толкоз по-голяма е вероятността моделът да се подведе. Тествани са разнообразни подходи за ограничение на този резултат — като промени в метода на задаване на въпросите, агентно размишление и в допълнение образование — само че към този момент нито един не взема решение казуса.

Подобно държание може да е рисково в подтекста на възходящото нахлуване на ИИ в образованието. Ако системи, употребявани от възпитаници или преподаватели, могат решително да показват неверни решения като правилни, това би могло да докара до струпване на неправилни познания и подкопаване на сериозното мислене. Затова надеждността и инспекцията на обстоятелствата са основни за безвредното използване на ИИ технологии в образователния развой и научните проучвания.

Изследването е извършено от Иво Петров (докторант в INSAIT), Джаспър Деконинк (ETH Zurich) и проф. Мартин Вечев (научен шеф на INSAIT).
Източник: novinata.bg


СПОДЕЛИ СТАТИЯТА


КОМЕНТАРИ
НАПИШИ КОМЕНТАР