Ново проучване на Google посочва, че едва един от три

Google: Чатботовете дават точна информация в 69% от случаите. И това е най-доброто

Ново изследване на Гугъл показва, че едвам един от три отговора на чатботовете през днешния ден са правилни. И това е в най-хубавия случай.

Наскоро компанията е провела тест за надеждността на подаваната от стратегиите информация. FACTS Benchmark Suite (pdf), както е името на серията от проби, посочило, че в най-хубавия случай чатботовете дават правилна информация в 69% от случаите. Те сложили на тестване главните системи, които имаме през днешния ден, като Gemini, Claude, Grok и ChatGPT. Най-добре се справил чатботът на Гугъл Gemini (въпросните 69% верни отговори). Защо въпросното изобретение е значимо?

Десетки хиляди по целия свят поддържат връзка с тези стратегии всекидневно. Нивото на доверие в чатботовете от страна на доста от хората е необяснимо високо. Но не става дума за елементарните консуматори единствено. Тези системи се употребяват интензивно във финансите и бизнеса. Където една неправилно сложена десетична запетая може да коства десетки хиляди долари загуби. Но и проекти за интеграцията на GenAI принадлежности има също в опазването на здравето и в ръководството на сериозна инфраструктура. А там грешката може да е съдбовна.

Разработеният, взаимно с Kaggle тест изпитва фактологичната акуратност на отговори на въпроси от на практика темперамент. Един от тестванията тук се отнасял до параметричното познание. Тоест предоставяне на отговори на въпроси, на които авансово е бил подготвен моделът. Друг от тестванията проверявал способността му да извлече вярна информация от Интернет посредством уеб принадлежности. Предпоследният ревизира способността му да извлича и предава информация от документ без да дава подправена информация. Четвъртият изпитвал мултимодалното схващане. Тоест, способността му да разчита диаграми, графики и изображения правилно. Именно на последния тест, никой от моделите не съумял да доближи дори 50% успеваемост. И още веднъж, неточност при една бизнес диаграма би изпразнила портфейла на някоя компания при неточност. Но какво ще се случи, в случай че бъдат разчетени неверно данните при разбор на резултатите от рентгеново проучване, кардиограма или ЯМР? Или тези, идващи от една атомна централа?

(function() { const banners = [ // --- БАНЕР 1 (Facebook Messenger) --- `