Тревожно увеличение на грешките: Под въпрос ли е бъдещето на...
Много от грешките на DeepSeek-R1 са логичен верни, само че не са участвали в истинските документи
Въпреки уверенията на разработчиците за прогрес в региона на изкуствения разсъдък, новите актуализации на огромните езикови модели (LLM) демонстрират обезпокоително нарастване на грешките. Това слага под подозрение надеждността на AI системите и техния предстоящ капацитет.
Ръст на халюцинациите при OpenAI и Vectara
Доклад на OpenAI от април разкрива забележителен растеж на по този начин наречените „ халюцинации ” – неточности, при които моделът генерира погрешни или несъществуващи данни. Според отчета:
Моделът o1, пуснат в края на 2024 година, е халюцинирал в 16% от случаите.
Моделът o3 е посочил неточности в 33% от случаите.
Най-новият модел o4-mini е достигнал тревожните 48% неточности.
Подобна наклонност се следи и при платформата Vectara, където новият модел DeepSeek-R1, създаден с фокус върху усъвършенстван логичен извод, показва двуцифрен растеж на халюцинациите, отбелязва New Scientist.
„ Много от грешките на DeepSeek-R1 са логичен верни, само че не са участвали в истинските документи, “ разяснява Форест Шенг Бао от Vectara.
Разработчиците на AI модели отхвърлят утежняването на качеството
Въпреки статистиките, OpenAI отхвърля връзката сред актуализациите и нарастването на грешките. Според представители на компанията, екипът работи интензивно за понижаване на халюцинациите в идващите версии на своите модели.
Критики към терминологията: „ Халюцинации ” или статистически неточности?
Емили Бендър, езиковед от Вашингтонския университет, подлага на критика потреблението на термина „ халюцинации ”, определяйки го като антропоморфизация на AI системите.
„ LLM не схващат смисъла – те предсказват идната дума въз основа на статистика. Те не могат да халюцинират в същинския смисъл на думата, “ акцентира тя.
Остарели данни и ненадеждни източници: Другата страна на проблема
Арвинд Нараянан, специалист по компютърни науки от Принстънския университет, слага акцент върху качеството на данните, употребявани за образование на AI моделите. Според него:
Моделите работят с остарели данни, които не отразяват настоящите действителности.
Включването на ненадеждни източници основава подправени връзки и неверни изводи.
„ Увеличаването на размера на данните за образование няма да реши казуса с надеждността, “ твърди Нараянан.
Какво предлагат специалистите?
Ситуацията слага под въпрос бъдещето на LLM и тяхната роля в генерирането на достоверна информация.
Арвинд Нараянан поучава AI моделите да се употребяват единствено в случаи, когато инспекцията на отговора лишава по-малко време, в сравнение с независимото търсене.
Емили Бендър предлага цялостно отбягване на LLM за приемане на обстоятелства:
„ Тези системи не са предопределени да генерират познания – те имитират тирада, ” споделя тя.
Не промяна на логаритмите, а смяна в подхода
Експертите са безапелационни: решението не е в усъвършенстване на логаритмите, а в смяна на методите за инспекция на информацията. Ако наклонността за увеличение на грешките продължи, това може да подкопае доверието в AI технологиите и тяхното необятно приложение в обществото.
Въпреки уверенията на разработчиците за прогрес в региона на изкуствения разсъдък, новите актуализации на огромните езикови модели (LLM) демонстрират обезпокоително нарастване на грешките. Това слага под подозрение надеждността на AI системите и техния предстоящ капацитет.
Ръст на халюцинациите при OpenAI и Vectara
Доклад на OpenAI от април разкрива забележителен растеж на по този начин наречените „ халюцинации ” – неточности, при които моделът генерира погрешни или несъществуващи данни. Според отчета:
Моделът o1, пуснат в края на 2024 година, е халюцинирал в 16% от случаите.
Моделът o3 е посочил неточности в 33% от случаите.
Най-новият модел o4-mini е достигнал тревожните 48% неточности.
Подобна наклонност се следи и при платформата Vectara, където новият модел DeepSeek-R1, създаден с фокус върху усъвършенстван логичен извод, показва двуцифрен растеж на халюцинациите, отбелязва New Scientist.
„ Много от грешките на DeepSeek-R1 са логичен верни, само че не са участвали в истинските документи, “ разяснява Форест Шенг Бао от Vectara.
Разработчиците на AI модели отхвърлят утежняването на качеството
Въпреки статистиките, OpenAI отхвърля връзката сред актуализациите и нарастването на грешките. Според представители на компанията, екипът работи интензивно за понижаване на халюцинациите в идващите версии на своите модели.
Критики към терминологията: „ Халюцинации ” или статистически неточности?
Емили Бендър, езиковед от Вашингтонския университет, подлага на критика потреблението на термина „ халюцинации ”, определяйки го като антропоморфизация на AI системите.
„ LLM не схващат смисъла – те предсказват идната дума въз основа на статистика. Те не могат да халюцинират в същинския смисъл на думата, “ акцентира тя.
Остарели данни и ненадеждни източници: Другата страна на проблема
Арвинд Нараянан, специалист по компютърни науки от Принстънския университет, слага акцент върху качеството на данните, употребявани за образование на AI моделите. Според него:
Моделите работят с остарели данни, които не отразяват настоящите действителности.
Включването на ненадеждни източници основава подправени връзки и неверни изводи.
„ Увеличаването на размера на данните за образование няма да реши казуса с надеждността, “ твърди Нараянан.
Какво предлагат специалистите?
Ситуацията слага под въпрос бъдещето на LLM и тяхната роля в генерирането на достоверна информация.
Арвинд Нараянан поучава AI моделите да се употребяват единствено в случаи, когато инспекцията на отговора лишава по-малко време, в сравнение с независимото търсене.
Емили Бендър предлага цялостно отбягване на LLM за приемане на обстоятелства:
„ Тези системи не са предопределени да генерират познания – те имитират тирада, ” споделя тя.
Не промяна на логаритмите, а смяна в подхода
Експертите са безапелационни: решението не е в усъвършенстване на логаритмите, а в смяна на методите за инспекция на информацията. Ако наклонността за увеличение на грешките продължи, това може да подкопае доверието в AI технологиите и тяхното необятно приложение в обществото.
Източник: marica.bg
КОМЕНТАРИ




