Екипът на Anthropic съобщи за значителен пробив в разбирането на

Изследователи за първи път „разчлениха мозъка“ на ИИ и разбраха как може да му се влияе

Екипът на Anthropic заяви за забележителен пробив в разбирането на „ мисленето “ на AI моделите. Изследователите са сравнили моделите на невронната активация на огромния езиков модел на Клод Сонет с човешките понятия. Това е довело до основаването на „ концептуални карти “, показващи връзките сред концепциите в изкуствения разсъдък. Включително и нездравословните такива, като расизъм и машинация. Учените даже съумели да подтиснат или засилят избрани концепции, повлиявайки на държанието на ИИ. Междувременно OpenAI откри 16 милиона „ мисловни “ модели в GPT-4. Въпреки това специалистите признават, че към момента е невероятно изцяло да се разбере същността на изкуствения разсъдък.

Изследователите съпоставиха моделите на „ невронната активация “ с понятията и концепциите, разбирани от хората, като използваха метода на „ речниковото образование “. Работейки с дребни „ игрови “ версии на езиковите модели, те са разкрили „ модели на мислене “, които се задействат, когато модчелите обработват понятия като ДНК последователности, съществителни в математиката и текст с основни букви. Екипът се съмнява, че методът би могъл да се разшири до размера на днешните огромни езикови модели (LLM), да не приказваме за машините на бъдещето. Затова Anthropic сътвориха модел за образование посредством речник, кадърен да работи със личния им междинен по мярка LLBM Claude 3 Sonnet, и се заеха да тестват метода в огромен мащаб.

В резултат на това екипът на Anthropic извлече милиони понятия от Claude 3.0 Sonnet. Това разреши основаването на „ концептуална карта “ на вътрешните положения на модела по време на работа. Концепциите не бяха лимитирани от езика или вида данни: концепцията за моста Голдън Гейт беше задействана посредством обработка на изображения на моста и текстове за него на разнообразни езици. Моделите с изкуствен интелект могат да обработват и нереални хрумвания. Изследователите открили, че функционалностите се задействат при разкриване на неточности в кодирането, пристрастията към пола и другите аспекти на неприкосновеността на персоналния живот. В „ концептуалната мрежа “ на ИИ имало и „ тъмни “ области, свързани със злонамерени хрумвания. Оказало се, че ИИ е кадърен да съхранява концепции за биологични оръжия, расизъм, сексизъм, блян към власт, машинация и операция.

Освен това учените анализирали връзките сред другите концепции, съхранявани в „ мозъка “ на модела. Те оценили „ дистанцията “ сред тях и построили самобитни „ ментални карти “, показващи какъв брой тясно са свързани другите хрумвания. Така да вземем за пример до понятието „ мост Голдън Гейт “ екипът разкрил понятия, свързани с остров Алкатраз (в залива на Сан Франциско), баскетболния тим „ Голдън Стейт Уориърс “, губернатора на Калифорния Гавин Нюсъм и земетресението в Сан Франциско през 1906 година Подобен модел се следи и при по-абстрактните неща.

Това демонстрира, че вътрешната организация на понятията в модела на изкуствения разсъдък най-малко частично подхожда на човешките показа за подобие.

Тези понятия могат да бъдат манипулирани посредством тяхното укрепване или угнетяване. Това оказва директно въздействие върху реакциите на ИИ. Изследователите започнаха да ползват метода на стягането (clamping) към избрани понятия. Резултатите били поразителни: държанието на модела се трансформирало фрапантно.

Anthropic сподели, че може освен да сътвори карта на мисловните концепции на ИИ, само че и да редактира връзките в тази карта и да си играе с разбирането на модела за света и затова с неговото държание.
Потенциалните изгоди за сигурността от ИИ са явни. Ако знаете къде се съхраняват „ неприятните мисли “ и по кое време ИИ ги „ обмисля “, можете да го контролирате по-добре.

Чрез усилване или намаляване на връзката сред избрани понятия може да стане допустимо да се отстрани несъмнено държание на ИИ или даже да се „ изтрият “ избрани хрумвания от неговото схващане за света, сходно на това, което героите на Джим Кери и Кейт Уинслет изтриха един различен от спомените си във кино лентата „ Вечното слънце на неопетнения разум “. Екипът на Anthropic показва и отрицателния аспект на този метод, като потисна концепцията за подправени имейли. Това разреши на модела да заобиколи отбраната, която му пречи да основава такова наличие.

Откритите характерности обаче съставляват дребна подгрупа от всички концепции, научени от модела по време на образованието. Намирането на цялостния набор от характерности посредством актуалните способи би било прекомерно скъпо. Освен това учените към момента не са наясно по какъв начин тъкмо изкуственият разсъдък ги употребява. С други думи, към момента не е допустимо да се схванат изцяло мисловните процеси на изкуствения разсъдък в комерсиален мащаб.

OpenAI ползва сходен метод. В изследване, оповестено при започване на юни, екипът на OpenAI Interpretability откри 16 милиона „ мисловни “ модели в GPT-4, доста от които могат да бъдат декодирани и съпоставени с понятия, смислени за хората. Изглежда, че OpenAI към момента не е навлязла в построяването на концептуални карти или редактирането на мисленето на ИИ, само че също по този начин отбелязва провокациите, свързани с разбирането на работата на огромните езикови модели. За цялостно картографиране на понятията в усъвършенстваните LLM методът ще би трябвало да се мащабира до милиарди или трилиони характерности.

За учените и откривателите изкуствените интелекти, основани на огромни езикови модели са безусловно нещо като черна кутия, която на входа получава информация посредством команден ред или изображения, а на изхода дава съответния отговор или напълно ново изображение. Само че какви процеси протичат в тази „ черна кутия “ към този момент на никой не е известно. Anthropic са първите, които по-серизоно се заемат с този комплициран въпрос.