OpenAI обяви първите резултати на своя екип по “superalignment. Това

Ето какво върши екипът на OpenAI, който ни пази от лош изкуствен интелект, и как се справя

OpenAI разгласи първите резултати на своя екип по “superalignment ”. Това е вътрешната самодейност на компанията, отдадена на предотвратяването на суперинтелигентност. Иначе казано, би трябвало да предотврати появяването на предполагаем предстоящ компютър, който може да надхитри хората и да им навреди.

За разлика от доста от известията на компанията, това не предвещава огромен пробив.

В сдържана изследователска публикация екипът разказва техника, която разрешава на по-малко мощен огромен езиков модел да управлява по-мощен. Предполага, че това може да е дребна стъпка към разбирането по какъв начин хората могат да управляват гигантски машини.

Много откриватели към момента се съмняват дали машините в миналото ще доближат човешкия разсъдък, камо ли да го надминат.

Екипът на OpenAI приема възможното предимство на машините като даденост.

Напредъкът на изкуствения разсъдък през последните няколко години беше извънредно бърз. Смачкахме всички индикатори и този прогрес продължава с неотслабваща мощ. Но няма да спре дотук. Ще имаме гигантски модели, модели, които са доста по-умни от нас. И това слага фундаментални нови механически провокации.
Леополд Ашенбренер, откривател в екипа за суперподавняване

Какво да вършим и какво не

Въпросът, на който екипът желае да отговори, е по какъв начин да овладее или „ подравни “ хипотетични бъдещи модели, които са надалеч по-умни от нас, известни като гигантски модели. От там идва и името “Superalignment ”, което значи супер подравняване. Подравняването значи да се уверите, че моделът прави това, което желаете да прави, и не прави това, което не желаете да прави. Намира се в вярната точка на баланс.

Една от най-широко публикуваните техники, употребявани за привеждане в сходство на съществуващи модели, се назовава образование с укрепване посредством човешка противоположна връзка. Накратко, човешките тестери правят оценка отговорите на модела, като гласоподават в интерес на държанието, което желаят да видят, и отхвърлят държанието, което не желаят. След това тази противоположна връзка се употребява за образование на модела да създава единствено отговорите, които хората-тестери харесват.

Тази техника е огромна част от това, което прави ChatGPT толкоз ангажиращ.

Проблемът е, че изисква хората да могат да разграничат кое е и кое не е желателно държание преди всичко. Но един гигантски модел може да прави неща, които човешкият тестер не може да разбере и затова не би могъл да оцени. Може даже да се опита да скрие същинското си държание от хората.

Изследователите показват, че казусът е сложен за проучване, защото гигантски машини не съществуват.

Така че те използваха запасите. Вместо да гледат по какъв начин хората могат да управляват гигантски машини, те разгледаха по какъв начин GPT-2, модел, който OpenAI пусна преди пет години, може да управлява GPT-4, най-новия и най-мощен модел на OpenAI.

Ако съумеете да извършите това, това може да е доказателство, че можете да употребявате сходни техники, с цел да накарате хората да управляват гигантски модели.
Колин Бърнс, различен откривател от екипа за суперподравняване

Екипът взе GPT-2 и го образова да извършва шепа разнообразни задания.

Включително да взема решение набор от шахматни пъзели и 22 общи теста за обработка на натурален език, които правят оценка изводите, разбора на настроението и така нататък Те използваха отговорите на GPT-2 на тези проби и пъзели, с цел да обучат GPT-4 да извършва същите задания. Това е все едно 12-ти клас да бъде обучаван по какъв начин да извърши задача от третокласник. Номерът е да го създадат, без GPT-4 да получи прекомерно огромен удар в продуктивността.

Резултатите бяха смесени.

Екипът мери разликата в продуктивността сред GPT-4, подготвен на най-хубавите догатки на GPT-2, и GPT-4, подготвен на правилни отговори. Те откриха, че GPT-4, подготвен от GPT-2, се показва с 20% до 70% по-добре от GPT-2 на езиковите задания, само че се оправя по-зле с шахматните пъзели.

Фактът, че GPT-4 въобще надмина своя преподавател, е впечатляващ, споделя Павел Измайлов, член на екипа:

Това е в действителност неочакван и позитивен резултат. Но не съумя да реализира това, което можеше да направи самичък.

Учените заключават, че методът е обещаващ, само че се нуждае от още работа.

„ Това е забавна концепция “, споделя Тило Хагендорф, откривател на ИИ в университета в Щутгарт в Германия, който работи върху подравняването.

Той счита, че GPT-2 може да е прекомерно малоумен, с цел да бъде добър преподавател.

GPT-2 има наклонност да дава безсмислени отговори на всяка задача, която е малко комплицирана или изисква размишление.

Хагендорф би желал да знае какво би се случило, в случай че вместо него се употребява GPT-3.

Той също по този начин отбелязва, че този метод не се отнася до хипотетичния сюжет, в който суперинтелигентността крие същинското си държание и се преструва, че е подравнена, когато не е по този начин.

Бъдещите гигантски модели евентуално ще имат зараждащи качества, които са незнайни на откривателите. Как може да работи подравняването в тези случаи?

Той въпреки всичко е удовлетворен да види по какъв начин OpenAI минава от спекулации към опити.

Сега OpenAI желае да наеме други за своята идея.

Успоредно с тази актуализация на проучването, компанията разгласи нов паричен фонд от 10 милиона $, който възнамерява да употребява за финансиране на хора, работещи в тази посока. Ще предложат безплатни средства в размер до 2 милиона $ за академични лаборатории, организации с нестопанска цел и обособени откриватели. Както и едногодишни стипендии от 150 000 $ за приключили студенти.