Ето какво върши екипът на OpenAI, който ни пази от лош изкуствен интелект, и как се справя
OpenAI разгласи първите резултати на своя екип по “superalignment ”. Това е вътрешната самодейност на компанията, отдадена на предотвратяването на суперинтелигентност. Иначе казано, би трябвало да предотврати появяването на предполагаем предстоящ компютър, който може да надхитри хората и да им навреди.
За разлика от доста от известията на компанията, това не предвещава огромен пробив.
В сдържана изследователска публикация екипът разказва техника, която разрешава на по-малко мощен огромен езиков модел да управлява по-мощен. Предполага, че това може да е дребна стъпка към разбирането по какъв начин хората могат да управляват гигантски машини.
Много откриватели към момента се съмняват дали машините в миналото ще доближат човешкия разсъдък, камо ли да го надминат.
Екипът на OpenAI приема възможното предимство на машините като даденост.
Какво да вършим и какво не
Въпросът, на който екипът желае да отговори, е по какъв начин да овладее или „ подравни “ хипотетични бъдещи модели, които са надалеч по-умни от нас, известни като гигантски модели. От там идва и името “Superalignment ”, което значи супер подравняване. Подравняването значи да се уверите, че моделът прави това, което желаете да прави, и не прави това, което не желаете да прави. Намира се в вярната точка на баланс.
Една от най-широко публикуваните техники, употребявани за привеждане в сходство на съществуващи модели, се назовава образование с укрепване посредством човешка противоположна връзка. Накратко, човешките тестери правят оценка отговорите на модела, като гласоподават в интерес на държанието, което желаят да видят, и отхвърлят държанието, което не желаят. След това тази противоположна връзка се употребява за образование на модела да създава единствено отговорите, които хората-тестери харесват.
Тази техника е огромна част от това, което прави ChatGPT толкоз ангажиращ.
Проблемът е, че изисква хората да могат да разграничат кое е и кое не е желателно държание преди всичко. Но един гигантски модел може да прави неща, които човешкият тестер не може да разбере и затова не би могъл да оцени. Може даже да се опита да скрие същинското си държание от хората.
Изследователите показват, че казусът е сложен за проучване, защото гигантски машини не съществуват.
Така че те използваха запасите. Вместо да гледат по какъв начин хората могат да управляват гигантски машини, те разгледаха по какъв начин GPT-2, модел, който OpenAI пусна преди пет години, може да управлява GPT-4, най-новия и най-мощен модел на OpenAI.
Екипът взе GPT-2 и го образова да извършва шепа разнообразни задания.
Включително да взема решение набор от шахматни пъзели и 22 общи теста за обработка на натурален език, които правят оценка изводите, разбора на настроението и така нататък Те използваха отговорите на GPT-2 на тези проби и пъзели, с цел да обучат GPT-4 да извършва същите задания. Това е все едно 12-ти клас да бъде обучаван по какъв начин да извърши задача от третокласник. Номерът е да го създадат, без GPT-4 да получи прекомерно огромен удар в продуктивността.
Резултатите бяха смесени.
Екипът мери разликата в продуктивността сред GPT-4, подготвен на най-хубавите догатки на GPT-2, и GPT-4, подготвен на правилни отговори. Те откриха, че GPT-4, подготвен от GPT-2, се показва с 20% до 70% по-добре от GPT-2 на езиковите задания, само че се оправя по-зле с шахматните пъзели.
Фактът, че GPT-4 въобще надмина своя преподавател, е впечатляващ, споделя Павел Измайлов, член на екипа:
Учените заключават, че методът е обещаващ, само че се нуждае от още работа.
„ Това е забавна концепция “, споделя Тило Хагендорф, откривател на ИИ в университета в Щутгарт в Германия, който работи върху подравняването.
Той счита, че GPT-2 може да е прекомерно малоумен, с цел да бъде добър преподавател.
Хагендорф би желал да знае какво би се случило, в случай че вместо него се употребява GPT-3.
Той също по този начин отбелязва, че този метод не се отнася до хипотетичния сюжет, в който суперинтелигентността крие същинското си държание и се преструва, че е подравнена, когато не е по този начин.
Той въпреки всичко е удовлетворен да види по какъв начин OpenAI минава от спекулации към опити.
Сега OpenAI желае да наеме други за своята идея.
Успоредно с тази актуализация на проучването, компанията разгласи нов паричен фонд от 10 милиона $, който възнамерява да употребява за финансиране на хора, работещи в тази посока. Ще предложат безплатни средства в размер до 2 милиона $ за академични лаборатории, организации с нестопанска цел и обособени откриватели. Както и едногодишни стипендии от 150 000 $ за приключили студенти.