Миналия месец ботът с изкуствен интелект, който се грижи за

Халюцинациите на изкуствения интелект се увеличават с увеличаване на мощността му

Миналия месец ботът с изкуствен интелект, който се грижи за техническата поддръжка на Cursor — обещаващ инструмент за компютърни програмисти, предизвести няколко клиента за смяна в политиката на компанията. В нея се показва, че към този момент не им е разрешено да употребяват Cursor на повече от един компютър.

В гневни изявления в онлайн-форуми клиентите се оплакаха. Някои са премахнали сметките си в Cursor. А други се разгневиха още повече, когато осъзнаха какво се е случило: ботът с изкуствен интелект е оповестил смяна в политиката, която не съществува.

„ Нямаме такава политика. “ „ Разбира се, можете да употребявате Cursor на голям брой машини “, написа основният изпълнителен шеф и съосновател на компанията Майкъл Труел в обява в Reddit. „ За страдание, това е неверен отговор от бота по поддръжката с изкуствен интелект. “

Повече от две години след въвеждането на ChatGPT, софтуерните компании, офис чиновниците и елементарните консуматори употребяват ботове, задвижвани от изкуствен интелект, с цел да извършват все по-широк набор от задания. Но към момента няма метод да се подсигурява, че тези системи дават точна информация.

Най-новите и мощни технологии – по този начин наречените системи за размишление от компании като OpenAI, Гугъл и китайския стартъп DeepSeek – генерират повече неточности, а не по-малко. С подобряването на математическите им умения, разбирането им за обстоятелствата става все по-нестабилно. Не е напълно ясно за какво.

Съвременните AI-ботове са основани на комплицирани математически системи, които усвояват уменията си посредством разбор на големи количества цифрови данни. Те не могат да решат кое е истина и кое е неистина. Понякога те просто си измислят неща — феномен, който някои откриватели на изкуствения разсъдък назовават халюцинации. В един тест, процентът на халюцинации в по-новите системи с изкуствен интелект е бил много висок — 79%.

Тези системи употребяват математически вероятности, с цел да отгатнат най-хубавия отговор, а не непоколебим набор от правила, избрани от човешки инженери. Следователно, те позволяват избран брой неточности. „ Въпреки всичките ни старания, те постоянно ще халюцинират “ — споделя Амр Авадала, основен изпълнителен шеф на Vectara — стартъп компания, която създава принадлежности за изкуствен интелект за бизнеса, и някогашен началник на Гугъл. „ Това в никакъв случай няма да изчезне. “

В продължение на няколко години това събитие поражда опасения по отношение на надеждността на тези системи. Въпреки че са потребни в някои обстановки, като например писане на курсови работи, водене на бележки по офис документи и основаване на компютърен код, грешките им могат да причинят проблеми.

Изкуствените ботове, свързани с търсачки като Гугъл и Bing, от време на време генерират резултати от търсенето, които са смешно погрешни. Ако ги попитате за добър маратон на Западното крайбрежие, може да ви предложат съревнование във Филаделфия. Ако ви кажат броя на семействата в Илинойс, е допустимо да се базират на източник, който не съдържа тази информация.

Тези халюцинации може да не са огромен проблем за доста хора, само че са сериозен проблем за всеки, който употребява технологиите със правосъдни документи, здравна информация или чувствителни бизнес данни.

„ Прекарвате доста време, пробвайки се да разберете кои отговори са в действителност и кои не “ — сподели Пратик Верма, съосновател и основен изпълнителен директор на Okahu — компания, която оказва помощ на бизнеса да се оправи с халюцинациите. „ Неправилното реагиране на тези неточности всъщност обезценява цената на системите с изкуствен интелект, които би трябвало да автоматизират задания вместо вас. “

Кърсор и господин Труел не са дали отговор на настояванията за коментар.

В продължение на повече от две години компании като OpenAI и Гугъл непрестанно усъвършенстват своите системи с изкуствен интелект и понижават честотата на тези неточности. Но с потреблението на нови системи за размишление, броят на грешките се усилва. Според личните проби на компанията, най-новите системи на OpenAI халюцинират по-често от предходната система.

Компанията откри, че o3 — най-мощната ѝ система — предизвиква халюцинации в 33% от случаите при осъществяване на теста PersonQA, който включва отговаряне на въпроси за обществени персони. Това е повече от два пъти по-високо равнище от халюцинациите в предходната система за разсъждения на OpenAI, наречена o1. Новият o4-mini причинявал халюцинации още по-често: 48%.

При различен тест, наименуван SimpleQA, който задава по-общи въпроси, процентите на халюцинации за o3 и o4-mini са били надлежно 51% и 79%. Предишната система, o1, халюцинираше в 44 % от случаите.

След появяването на ChatGPT, феноменът на халюцинациите повдига опасения по отношение на надеждността на системите с изкуствен интелект.

В публикация, описваща в детайли тестванията, OpenAI отбелязва, че са нужни спомагателни проучвания, с цел да се разбере повода за тези резултати. Тъй като системите с изкуствен интелект учат от повече данни, в сравнение с хората могат да си показват, за технолозите е мъчно да дефинират за какво се държат по метода, по който се държат.

„ Халюцинациите не са по своята същина по-често срещани в моделите на размишление, макар че работим интензивно за понижаване на по-високите равнища на халюцинации, които наблюдавахме в o3 и o4-mini “ — споделя говорителката на компанията Габи Райла. „ Ще продължим проучванията си върху халюцинациите във всички модели, с цел да подобрим точността и надеждността. “

Ханане Хаджиширзи, професор във вашингтонския Университет и откривател в Института за изкуствен интелект „ Алън “, е част от екип, който неотдавна създаде метод за следене на държанието на системата предвид на обособените данни, върху които е била подготвена. Но защото системите са подготвени върху толкоз огромни количества данни – и защото могат да генерират съвсем всичко – този нов инструмент не може да изясни всичко. „ Все още не знаем тъкмо по какъв начин работят тези модели “ — споделя тя.

Тестове, извършени от самостоятелни компании и откриватели, демонстрират, че равнището на халюцинации се усилва и при моделите за размишление от компании като Гугъл и DeepSeek.

От края на 2023 година компанията на господин Авадала, Vectara, наблюдава какъв брой постоянно чатботовете се отклоняват от истината. Компанията изисква от тези системи да извършват елементарна задача, която е лесна за инспекция: да обобщават съответни новинарски публикации. Дори тогава чатботовете непрестанно измислят информация.

Според първичното изследване на Vectara, в тази обстановка чатботовете са изфабрикували информация най-малко в 3 % от случаите, а от време на време и до 27 %.

В рамките на година и половина от този момент, компании като OpenAI и Гугъл понижиха тези числа до 1 или 2 %. Други, като да вземем за пример стартъпа от Сан Франциско Anthropic, се движеха към 4 %. Но равнището на халюцинации в този тест се усили заради систематичното мислене. Мисловната система на DeepSeek, R1, халюцинира в 14,3% от случаите. Резултатът на o3 от OpenAI се увеличи до 6.8.

В продължение на години компании като OpenAI разчитаха на една елементарна идея: колкото повече интернет данни въвеждаха в своите системи за изкуствен интелект, толкоз по-добре се представяха тези системи. Но те използваха съвсем целия британски текст в интернет, което означаваше, че се нуждаеха от нов метод за възстановяване на своите чатботове.

Така че тези компании разчитат повече на техника, която учените назовават обучение с укрепване. Чрез този развой системата може да се научи на държание посредством проба и неточност. Работи добре в избрани области, като математика и компютърно програмиране. Но в други случаи това се проваля.

„ Начинът, по който тези системи се учат, е, че стартират да се концентрират върху една задача — и стартират да не помнят за останалите “ — споделя Лаура Перес-Белтрачини, откривател в единбургския Университет, която е част от екип, който учи от близко казуса с халюцинациите.

Друг проблем е, че моделите на размишление са проектирани да прекарват време в „ обсъждане “ на комплицираните проблеми, преди да се спрат на отговорите. Опитвайки се да решат казуса малко по малко, те рискуват да халюцинират на всяка стъпка. Грешките могат да станат по-сериозни, защото прекарват повече време в мислене.

Най-новите ботове демонстрират на потребителите всяка стъпка, което значи, че потребителите могат да видят и всяка неточност. Изследователите също по този начин откриха, че в доста случаи стъпките, показани от бота, не са свързани с отговора, който в последна сметка дава.

„ Това, което една система твърди, че мисли, не е безусловно това, което в действителност мисли “ — сподели Арьо Прадипта Гема, откривател на изкуствения разсъдък в единбургския Университет и теоретичен помощник в Anthropic.