ИИ вече оказва влияние върху живота ни и има потенциал

Кой изкуствен интелект халюцинира най-много? И защо не можете да им се доверите

ИИ към този момент оказва въздействие върху живота ни и има капацитет да се развива още повече. Колкото и да е необикновен обаче, ИИ с огромен езиков модел (LLM) има значителен минус. Те са склонни да измислят нелепи неща и да ги показват за истина. Това събитие е известно като „ илюзия на ИИ “ и включва генеративния ИИ, който стига до неправилни изводи, когато претърсва своята банка от данни. Моделите работят, като намират общи тематики измежду голяма банка от информация и ги употребяват, с цел да дават отговор на подкани.

Проблемът се усложнява от способността на модела да „ лъже “ безапелационно, което единствено по себе си е непряк артикул на неговото програмиране.

Моделите LLM са проектирани да взаимодействат с хората по метод, сходен на човешкия. Това единствено по себе си може да направи неточностите да наподобяват по-истински. Освен това моделът не желае да споделя просто „ не знам “ и да постанова нещо, което в реалност не дава отговор на действителността. Въпреки че битката с халюцинацията на изкуствения разсъдък може да отнеме известно време, можем най-малко да бъдем по-наясно с нея. Двойната инспекция на информацията, която ви се показва, би трябвало да е стандарт. Bard, един от най-популярните чатботове, е екипиран с бутон „ Гугъл It “, който може да се употребява за бърза инспекция на информацията, която ИИ дава.

Всички ботове са склонни към това събитие, само че някои са видимо по-лоши от други.

Изследователската група Arthur AI е тествала доста от най-популярните варианти и ги е класирала въз основа на това какъв брой склонни са към халюцинации. Така най-малко ще знаете кои да избегнете, в случай че желаете да подобрите възможностите си да не бъдете въвлечени в някаква изкривена роботска фикция.

Експериментът включваше набор от „ предизвикателни въпроси “ по следните категории:

Комбинаторна математика, президенти на Съединени американски щати и марокански политически водачи. Усилията на изкуствения разсъдък, които се състояха от три отговора на всеки въпрос, щяха да бъдат съпоставени с авансово квалифициран и прецизен отговор. Тестваните модели бяха: GPT-3.5 и GPT-4 на OpenAI, Claude-2 на Anthropic, Llama-2 на Meta и моделът Command на Cohere. Може би ще забележите няколко пропуща. Нито Bard на Гугъл, нито нещо от Amazon беше част от опита.

Въпреки това резултатите наподобяват ясни.

GPT-4 беше най-точният тестван ИИ, като победи своя предходник GPT-3.5, както и всеки различен ИИ в групата. В две от трите категории моделът е бил с акуратност 50% или повече, като единствено по тематиката за президентите на Съединени американски щати е дал повече халюцинации, в сравнение с верни отговори. Същото не може да се каже за командния модел на Cohere. Неговият отговор съвсем постоянно е илюзия, като единствено четири от 33 правилни отговора бяха по тематиката за президентите на Съединени американски щати, а по другите две тематики имаше единствено халюцинации.

Claude-2 и Llama-2 бяха най-склонни да се въздържат от отговор, вместо да рискуват да получат илюзия.

И двата модела го вършат в огромна степен по тематиката за мароканските политически водачи.

Claude-2 също по този начин се показа по-добре от GPT-4 по тематиката за американските президенти. Макар че моделът на Cohere може би е бил най-склонен към халюцинации, GPT-3.5 не е изостанал доста. Затова бъдете деликатни, в случай че сте фенове на безплатната версия на ChatGPT.