Всеки резултат от изкуствения интелект трябва да се приема с

Криза на доверието: AI дава 60% грешни отговори

Всеки резултат от изкуствения разсъдък би трябвало да се приема с съмнение
(снимка: CC0 Public Domain)

Изкуственият разсъдък породи доста разногласия измежду експертите за това до каква степен достоверни са неговите отговори. OpenAI, разработчикът на ChatGPT, вкара нов бенчмарк SimpleQA, с цел да оцени точността на изхода на AI моделите. Резултатите от теста разкриха съществени проблеми с надеждността на информацията, генерирана от огромните езикови модели (LLM).

Целта на новия бенчмарк е да даде справедлива оценка на точността и надеждността на LLM, които се употребяват от ден на ден в разнообразни области на живота – от образованието и създаването на програмен продукт до опазването на здравето и правоприлагането. Тестовете демонстрират, че даже най-напредналите модели, като o1 на OpenAI и Claude-3.5-sonnet на Anthropic, имат извънредно ниска успеваемост – надлежно 42,7% и 28,9% правилни отговори.

Усложнявайки казуса, моделите са склонни да „ надценяват своите благоприятни условия ” и да генерират отговори, които са цялостни нелепости, известни като „ халюцинации ”. Тази наклонност е добре документирана и може да има съществени последици, изключително в чувствителни области като опазването на здравето и правоприлагането.

Например, AI модел, употребен в лечебните заведения и построен върху технологията OpenAI, демонстрира чести халюцинации и грешки при транскрибиране на взаимоотношения с пациенти. Полицията в Съединени американски щати също стартира да употребява AI, което може да докара до подправени обвинявания на почтени или до субективни следствия.

Според специалисти, резултатите от тестването на бенчмарка SimpleQA са сигнал за пробуждане, че актуалните LLM са извънредно неспособни да дават надеждна информация, която дава отговор на истината. „ Това би трябвало да послужи като увещание, че всеки резултат от LLM би трябвало да се приема с съмнение и да сте подготвени да разгледате деликатно генерирания текст ”, сподели представител на OpenAI, представен от Futurism.

Остава отворен въпросът дали казусът с валидността на отговорите на LLM може да бъде решен с още по-големи комплекти за образование, както настояват разработчиците на AI. Според някои специалисти, е належащо да се търсят нови подходи за създаване на AI модели, които да обезпечат по-висока акуратност и надеждност на генерираната информация.

„ Трябва да се съсредоточим върху създаването на модели, които могат освен да генерират правдоподобни отговори, само че и да ги оценят и да отхвърлят отговор, когато не са сигурни в истината ”, сподели откривател на изкуствения разсъдък от OpenAI.

Резултатите от тестването на бенчмарка SimpleQA акцентират нуждата от по-нататъшни проучвания и разработки в региона на изкуствения разсъдък, с цел да се подсигурява надеждността и валидността на генерираната информация. И освен това – налага се да се предотвратят евентуалните отрицателни последствия от потреблението на LLM в разнообразни области на живота.

Всеки резултат от изкуствения интелект трябва да се приема с

Криза на доверието: AI дава 60% грешни отговори

криза доверието

доверието дава

дава грешни

грешни отговори

криза

доверието

дава

грешни

отговори

Разходите за информационни технологии ще нараснат с 10 8 достигайки

LG Electronics LG представя богата гама от персонализирани B2B решения

Питали ли сте се някога може ли изкуственият интелект да

Илон Мъск нарече испанския премиер тиранин заради плана му да

LG Electronics LG представи най новите си решения за отопление

Геомагнитната обстановка на 4 февруари ще остане предимно спокойна но

Широко HVAC портфолио за жилищнo комерсиалнo и индустриалнo приложениe включително

Една от най гръмко анонсираните сделки в света на изкуствения

Китай разработва роботи захранвани с изкуствен интелект ИИ AI за

В контекста на Международния ден за безопасен интернет 10 февруари

Общо 40 пожара са ликвидирани в страната през изминалото денонощие

ФАКТИ публикува мнения с широк спектър от гледни точки за

Много симпатични американските палачинки са идея за още един вариант

Заместник ръководителят на кабинета на президента на Украйна Игор Жовква

Въпреки че плейофът на College Football ще остане с 12

В България общото тегло изхвърлена храна надхвърля 614 млн кг

Норвежката икономическа полиция Екокрим съобщи снощи че е започнала разследване

Американските военни удариха предполагаема лодка за превоз на наркотици в

Президентът на Съединените щати Доналд Тръмп стартира нов уебсайт TrumpRx

Три африкански държави се съгласиха да приемат обратно чуждестранни нарушители