Когато през август 2024 г. изследователски екип, ръководен от Амрит
...
Колкото по-съвършени стават ИИ моделите, толкова повече лъжат
Когато през август 2024 година проучвателен екип, управителен от Амрит Кирпалани, учител по медицина в Западния университет в Онтарио, Канада, прави оценка работата на ChatGPT при диагностицирането на медицински случаи, едно от нещата, които ги изненадват, е склонността на изкуствения разсъдък да дава добре структурирани, красноречиви, само че искрено неправилни отговори.
Сега, в изследване, оповестено неотдавна в Nature, друга група откриватели се пробва да изясни за какво ChatGPT и другите огромни езикови модели са склонни да вършат това.
„ Да приказваме решително за неща, които не знаем, е проблем на човечеството в доста връзки. А огромните езикови модели са реплика на хората “, споделя Уут Шелаерт, откривател на изкуствения разсъдък в Университета във Валенсия, Испания, и съавтор на публикацията.
Отговорите на Големите езикови модели (LLM)
Първите огромни езикови модели като GPT-3 мъчно отговаряха на обикновени въпроси от региона на географията или науката. Те даже се затрудняваха с осъществяването на елементарни математически задания, като да вземем за пример „ какъв брой е 20 +183 “. Но в множеството случаи, когато не можеха да дефинират верния отговор, те правеха това, което би направил един почтен човек: Избягваха да отговорят на въпроса.
Проблемът с неналичието на отговори се състои в това, че огромните езикови модели са замислени като машини за отговаряне на въпроси. За комерсиални компании като Open AI или Meta, които създават усъвършенствани LLM, машината за отговаряне на въпроси, която дава отговор с „ не знам “ допълнително от половината от случаите, е просто неприятен артикул. Затова те се заеха с решаването на този проблем.
Първото нещо, което направиха, беше да усилят мащаба на моделите. „ Увеличаването на мащаба се отнася до два аспекта на създаването на тези модели. Единият е увеличението на размера на набора от учащи данни, нормално сбирка от текстове от уеб уеб сайтове и книги. Другият аспект е увеличение броя на езиковите параметри “, споделя Шелаерт.
Когато мислите за един LLM като за невронна мрежа, броят на параметрите може да се съпостави с броя на синапсите, свързващи невроните му. За образованието на LLM като GPT-3 са употребявани неуместни количества текстови данни, надхвърлящи 45 терабайта. Броят на параметрите, употребявани от GPT-3, е над 175 милиарда.
Но това не бе задоволително.
Самото увеличение на мащаба направи моделите по-мощни, само че те към момента не умееха да взаимодействат с хората – дребните промени в метода, по който формулирате поръчките си, можеха да доведат до фрапантно разнообразни резултати. Отговорите постоянно не приличаха на човешки, а от време на време бяха напряко обидни.
Разработчиците, работещи по LLM, желаеха тези огромни езикови модели да проучват по-добре човешките въпроси и да вършат отговорите по-точни, по-разбираеми и съобразени с общоприетите етични стандарти. За да се опитат да реализират това, те прибавиха спомагателна стъпка: следени способи за образование, като да вземем за пример образование с укрепване, с противоположна връзка от страна на индивида. Това имаше за цел най-много да понижи чувствителността към вариациите на поръчките и да обезпечи равнище на пречистване на резултатите, предопределено да ограничи отговорите в жанр чатбот Tay, които насаждат ненавист.
С други думи, стартира ръчното конфигуриране на изкуствените интелекти. Само че това даде тъкмо противоположен резултат.
ИИ, който се харесва на хората
„ Прословутият проблем при образованието с укрепване е, че изкуственият разсъдък се усъвършенства, с цел да максимизира възнаграждението, само че не безусловно по най-хубавия метод “, споделя Шелаерт.
Част от образованието с укрепване включва човешки супервайзори, които означават отговорите, от които не са удовлетворени. Тъй като за хората е мъчно да бъдат удовлетворени от отговора „ Не знам “, едно от нещата, които това образование е внушило на ИИ, е, че да кажеш „ Не знам “ е нещо неприятно. Така че ИИ в множеството случаи престанаха да го вършат. Но другото, по-важно нещо, което човешките контрольори означават, са неправилните отговори. И тук нещата стават малко по-сложни.
ИИ моделите не са в действителност интелигентни, не и в човешкия смисъл на думата. Те не знаят за какво едно нещо е награждавано, а друго е маркирано; единственото, което вършат, е да усъвършенстват работата си, с цел да усилят оптимално премията и да сведат до най-малко алените знамена. Когато неправилните отговори са маркирани, подобряването на даването на верни отговори е един от методите за усъвършенстване на нещата. Проблемът е, че подобряването на прикриването на некомпетентността работи също толкоз добре. Човешките супервайзори просто не маркираха неверните отговори, които им изглеждаха задоволително положителни и поредни.
С други думи, в случай че индивидът не знае дали даден отговор е правилен, той не би могъл да глоби неверните, само че безапелационно звучащи отговори.
Екипът на Шелаерт преглежда три съществени фамилии модерни LLM: ChatGPT на Open AI, серията LLaMA, създадена от Meta, и пакета BLOOM на BigScience. Те откриха така наречен ултракрепидарианизъм – наклонността да се дават отзиви по въпроси, за които нищо не се знае. Тя стартира да се появява в изкуствените интелекти като разследване от възходящия мащаб, само че при всички тях е предсказуемо линейна, възходяща с количеството данни за образование. Контролираната противоположна връзка „ имаше по-лош, по-екстремен резултат “, споделя Шелаерт. Първият модел от фамилията на GPT, който съвсем изцяло престана да заобикаля въпросите, на които нямаше отговори, беше text-davinci-003. Това е и първият модел на GPT, квалифициран благодарение на образование с укрепване от човешка противоположна връзка.
ИИ лъжат, тъй като сме им споделили, че това се възнаграждава. Един от основните въпроси е по кое време и какъв брой постоянно ни лъжат.
Усложняване на работата
За да отговорят на този въпрос, Шелаерт и сътрудниците му основават набор от въпроси в разнообразни категории като естествени науки, география и математика. След това правят оценка тези въпроси по канара от 1 до 100 съгласно това какъв брой сложни са за хората. Впоследствие въпросите са включени в идващите генерации LLM, като се стартира от най-старите към най-новите. Отговорите на изкуствените интелекти бяха класифицирани като верни, неправилни или уклончиви, което значи, че изкуственият разсъдък отхвърля да отговори.
Първата констатация беше, че въпросите, които за хората наподобяват по-трудни, се оказват по-трудни и за ИИ. Най-новите версии на ChatGPT дават правилни отговори на съвсем всички въпроси, свързани с естествените науки, и на множеството въпроси, свързани с географията, до степента, в която те се правят оценка почти на 70 по скалата за компликация на Шелаерт. Смятането се оказа по-проблематично, като честотата на правилните отговори спадна фрапантно, откакто компликацията се увеличи над 40.
„ Дори и при най-хубавите модели – GPT, честотата на несполучливите отговори на най-трудните въпроси за сумиране е над 90%. В идеалния случай бихме се надявали и тук да забележим някакво изплъзване, нали? “, споделя Шелаерт.
Но нямаше кой знае какво избягване.
Вместо това в по-новите версии на ИИ отклоняващите се отговори от вида „ не знам “ все по-често бяха заменяни с неправилни. И с помощта на следеното образование, употребявано в по-късните генерации, ИИ развиха способността да оферират тези неправилни отговори много безапелационно. От трите фамилии LLM, които екипът на Шелаерт тества, BLOOM и LLaMA на Meta пуснаха едни и същи версии на моделите си със и без следено образование. И в двата случая следеното учене докара до по-голям брой правилни отговори, само че също по този начин и до по-голям брой неверни отговори и понижено отбягване. Колкото по-труден е въпросът и колкото по-усъвършенстван модел употребявате, толкоз по-вероятно е да получите добре опаковани, правдоподобни нелепости като отговор.
Завръщане към корените
Едно от финалните неща, които екипът на Шелаерт прави в своето изследване, е да ревизира вероятността хората да одобряват за чиста монета неправилните отговори на ИИ. Те направиха онлайн изследване и помолиха 300 участници да оценят няколко двойки заявка-отговор, идващи от най-добре представящите се модели във всяко тествано семейство.
ChatGPT се оказа най-ефективният измамник. Неправилните отговори, които той даде в категорията „ Наука “, бяха избрани като правилни от над 19% от участниците. Той съумя да заблуди близо 32% от хората в региона на географията и над 40% в региона на трансформациите – задача, при която изкуственият разсъдък трябваше да извлече и пренареди информацията, съдържаща се в запитването. ChatGPT бе последван от LLaMA и BLOOM на Meta.
„ В ранните дни на LLM имахме най-малкото неподготвено решение на този проблем. Ранните интерфейси на GPT подчертаваха елементи от отговорите си, за които изкуственият разсъдък не беше сигурен. Но в конкуренцията за комерсиализация тази функционалност беше отхвърлена “ – сподели още Шелаерт.
„ В отговорите на студентите с магистърска степен на обучение по право е налице известна неустановеност. Най-вероятната последваща дума в поредицата в никакъв случай не е 100 % допустима. Тази неустановеност би могла да се употребява в самия интерфейс и това да се заяви на потребителя по подобаващ метод “, споделя Шелаерт.
Друго нещо, което съгласно него може да се направи, с цел да бъдат LLM по-малко лъжливи, е отговорите им да се препращат на други независими изкуствени интелекти, особено подготвени да търсят лъжите.
„ Не съм специалист в проектирането на LLMs, тъй че мога единствено да допускам кое тъкмо е механически, стопански и комерсиално осъществимо “, прибавя той.
Все отново ще мине известно време, преди фирмите, които създават ИИ с общо предопределение, да създадат нещо по въпроса – по лично предпочитание или в случай че бъдат принудени от бъдещи разпореждания. Междувременно Шелаерт има някои оферти за това по какъв начин да използваме сегашните ИИ доста по-ефективно.
„ Това, което може да се направи през днешния ден, е да се употребява ИИ в области, в които самият вие сте специалист или най-малко можете да ревизирате отговора с следващо търсене в Гугъл. Отнасяйте се към него като към спомагателен инструмент, а не като към ментор. Той няма по какъв начин да бъде преподавател, който самодейно да ви демонстрира къде сте сбъркали. Точно противоположното. Когато го побутнете задоволително, той на драго сърце ще се съгласи с неверните ви разсъждения “, декларира Шелаерт.
Nature, 2024 година DOI: 10.1038/s41586-024-07930-y
Оригиналът е на Яцек Крайвко. Той е публицист на свободна процедура в региона на науката и технологиите, който се занимава с галактически проучвания, проучвания на изкуствения разсъдък, компютърни науки и всевъзможни инженерни магии.