Новите версии на популярни LLM модели показват значително повече грешки

Съмнение за бъдещето на AI: халюцинациите ще се увеличават

Новите версии на известни LLM модели демонстрират доста повече неточности в отговорите си

Грешките ще останат неразделна част от работата на огромните езикови модели
(снимка: CC0 Public Domain)

Големите езикови модели (LLM) демонстрират обезпокоително нарастване на грешките в последните си актуализации, макар изказванията на разработчиците за прогрес. Това слага под подозрение бъдещето на изкуствения разсъдък.

Доклад на OpenAI, оповестен през април, откри, че моделите o3 и o4-mini са халюцинирали надлежно в 33% и 48% от случаите. За съпоставяне, моделът o1, пуснат в края на 2024 година, е бъркал единствено в 16% от случаите.

Подобни данни дава и рейтинговата платформа Vectara: моделът DeepSeek-R1 с „ усъвършенстван логичен извод ” показва двуцифрено нарастване на халюцинациите, отбелязва New Scientist.

OpenAI отхвърля връзката сред актуализациите на логическите заключения и увеличението на грешките. Представители на компанията твърдят, че работят за понижаване на халюцинациите в актуалните версии на своите LLM.

Експертите обаче се съмняват в успеваемостта на настоящите AI модели. Например, рейтингът Vectara, който прави оценка съгласуваността при обобщаване на текстове, откри, че моделите със и без логичен извод имат съвсем идентични равнища на халюцинации.

Все отново, както означи Форест Шенг Бао от Vectara, доста от грешките на DeepSeek-R1 са били „ безобидни ” – логичен верни, само че не са участвали в истинските документи.

Емили Бендър от Вашингтонския университет подлага на критика самия термин „ халюцинации ”, наричайки го „ антропоморфизация на машини ”. „ LLM не схващат смисъла – те предсказват идната дума въз основа на статистика ”, акцентира тя.

Арвинд Нараянан от Принстънския университет счита, че казусът е по-широк: AI моделите употребяват остарели данни и ненадеждни източници. Увеличаването на размера на данните за образование не взема решение казуса с надеждността, безапелационен е той.

Препоръките на откривателите се свеждат до нерешителност. Нараянан предлага да използваме LLM единствено там, където инспекцията на отговора лишава по-малко време, в сравнение с независимото търсене.

Бендер поучава изцяло да се откажем от потреблението на чатботове за приемане на обстоятелства. „ Тези системи не са предопределени да генерират познания – те имитират тирада ”, споделя тя.

Ситуацията слага под въпрос бъдещето на LLM. Ако преди се е считало, че халюцинациите ще изчезнат с развиването на технологията, в този момент специалистите признават, че грешките ще останат неразделна част от работата на AI моделите.

Решението не е в поправяне на логаритмите, а в смяна на методите за инспекция на техните изводи, считат специалистите.
Задвижващи системи: еволюцията
FAULHABER разшири BXT серията плоски мотори с редуктори, енкодери и регулатори на скорост »»»
предишна обява: Продължават всеобщите съкращения в ИТ компаниите следваща обява:
графа: Анализи, Изкуствен разсъдък, Новаторски, Новини, Топ вести | етикети: LLM, огромни езикови модели, изкуствен интелект, халюцинации
Коментар

ИМЕ *