Криза на доверието: AI дава 60% грешни отговори
Всеки резултат от изкуствения разсъдък би трябвало да се приема с съмнение
(снимка: CC0 Public Domain)
Изкуственият разсъдък породи доста разногласия измежду експертите за това до каква степен достоверни са неговите отговори. OpenAI, разработчикът на ChatGPT, вкара нов бенчмарк SimpleQA, с цел да оцени точността на изхода на AI моделите. Резултатите от теста разкриха съществени проблеми с надеждността на информацията, генерирана от огромните езикови модели (LLM).
Целта на новия бенчмарк е да даде справедлива оценка на точността и надеждността на LLM, които се употребяват от ден на ден в разнообразни области на живота – от образованието и създаването на програмен продукт до опазването на здравето и правоприлагането. Тестовете демонстрират, че даже най-напредналите модели, като o1 на OpenAI и Claude-3.5-sonnet на Anthropic, имат извънредно ниска успеваемост – надлежно 42,7% и 28,9% правилни отговори.
Усложнявайки казуса, моделите са склонни да „ надценяват своите благоприятни условия ” и да генерират отговори, които са цялостни нелепости, известни като „ халюцинации ”. Тази наклонност е добре документирана и може да има съществени последици, изключително в чувствителни области като опазването на здравето и правоприлагането.
Например, AI модел, употребен в лечебните заведения и построен върху технологията OpenAI, демонстрира чести халюцинации и грешки при транскрибиране на взаимоотношения с пациенти. Полицията в Съединени американски щати също стартира да употребява AI, което може да докара до подправени обвинявания на почтени или до субективни следствия.
Според специалисти, резултатите от тестването на бенчмарка SimpleQA са сигнал за пробуждане, че актуалните LLM са извънредно неспособни да дават надеждна информация, която дава отговор на истината. „ Това би трябвало да послужи като увещание, че всеки резултат от LLM би трябвало да се приема с съмнение и да сте подготвени да разгледате деликатно генерирания текст ”, сподели представител на OpenAI, представен от Futurism.
Остава отворен въпросът дали казусът с валидността на отговорите на LLM може да бъде решен с още по-големи комплекти за образование, както настояват разработчиците на AI. Според някои специалисти, е належащо да се търсят нови подходи за създаване на AI модели, които да обезпечат по-висока акуратност и надеждност на генерираната информация.
„ Трябва да се съсредоточим върху създаването на модели, които могат освен да генерират правдоподобни отговори, само че и да ги оценят и да отхвърлят отговор, когато не са сигурни в истината ”, сподели откривател на изкуствения разсъдък от OpenAI.
Резултатите от тестването на бенчмарка SimpleQA акцентират нуждата от по-нататъшни проучвания и разработки в региона на изкуствения разсъдък, с цел да се подсигурява надеждността и валидността на генерираната информация. И освен това – налага се да се предотвратят евентуалните отрицателни последствия от потреблението на LLM в разнообразни области на живота.
Източник: technews.bg
КОМЕНТАРИ




