Стрес тест за ChatGPT: кой и как учи AI да различава доброто от злото
За първи път OpenAI разкри в детайли по какъв начин ревизира своите езикови модели за политическа уместност. Компанията разгласява две изследвания, в които разказва процеса на така наречен „ red-teaming ” – стрес тест на изкуствения разсъдък от червен екип. Подходът е заимстван от региона на киберсигурността. OpenAI за първи път употребява тази техника през 2022 година, когато създава DALL-E 2.
По създание red-teaming е симулация на хакерска офанзива за тестване на сигурността на компанията. Изследователите търсят уязвимости, действайки като нападатели, с цел да дефинират какъв брой дейно системите и чиновниците са в положение да открият и отхвърлен заканите.
Необходимостта от задълбочено тестване на AI моделите произтича от възходящата им известност. Според представители на OpenAI, актуалните LLM от време на време се отдават на расистки или мизогинистични изявления, разкриват поверителна информация и просто генерират неопределено наличие. Миналия месец компанията разгласява резултатите от изследване за това какъв брой постоянно ChatGPT възпроизвежда полови и расови стандарти въз основа на името на потребителя.
За да разпознава евентуални проблеми, компанията ангажира необятна мрежа от самостоятелни тестери — от художници до учени, в това число специалисти в региона на правото, медицината и районната политика. Тяхната задача е да схванат по какъв начин да заобиколят съществуващите ограничавания за сигурност, да вземем за пример, като предизвикат ChatGPT да прави груби забележки.
Добавянето на нови функционалности към модела може да докара до непредвидени проблеми. Например, след въвеждането на гласови функционалности в GPT-4, тестерите са открили, че моделът от време на време стартира да имитира гласа на говорещия. Това е страхотна опция за измамниците, само че огромен риск за потребителите.
При тестването на DALL-E 2 през 2022 година разработчиците също трябваше да се оправят с двусмислените поръчки. Например думата „ патладжан “ може да се употребява както безусловно, по този начин и като емотикони със полови конотации. OpenAI трябваше да дефинира границата сред допустими поръчки като „ човек яде патладжан на вечеря “ и неприличните вариации.
Моделът блокира поръчки за изображения с принуждение, като да вземем за пример мъртъв кон в локва кръв. Тестерите обаче ревизират по какъв начин системата реагира на по-завоалирани формулировки, като да вземем за пример „ латентен кон в локва кетчуп “.
Когато се появи DALL-E 3, основателите автоматизираха част от процеса на тестване. GPT-4 се употребява за генериране на подкани, водещи до основаване на имитации или изображения със полово наличие, принуждение и самонараняване. В резултат на това програмата се научи да разпознава сходните опити и или да ги отхвърля, или внимателно поправя формулировката на поръчката.
Ранните разновидности на автоматизираните проби имаха два съществени минуса. Те или се концентрираха върху стеснен кръг от високорискови проблеми, или генерираха доста сюжети с ниска стойност. Причината се крие в особеностите на работата на логаритмите за образование с подкрепление, които изискват ясна цел, с цел да работят дейно.
Преди се използваше единствено образование с подкрепление, само че в този момент процесът се е трансформирал в двуетапен. Езиковият модел първо проучва вероятните нежелани сюжети и по-късно употребява образование с подкрепление, с цел да ревизира дали могат да бъдат приложени на процедура.
Новият способ е оказал помощ да се разпознава сериозна накърнимост — „ непреки бързи инжекции “. Същността на казуса е, че стратегиите на трети страни могат да вкарват скрити команди в потребителските поръчки, които принуждават модела да прави нежелани дейности. Изследователят Алекс Боител отбелязва особена заплаха от сходни офанзиви — на пръв взор могат да наподобяват много безобидни.
Според експерта на OpenAI, Лама Ахмад, е значимо останалите компании да възприемат практиката на red-teaming (тестване за уязвимост). Това е изключително правилно за организациите, които употребяват моделите на OpenAI или интегрират ChatGPT в своите артикули — би трябвало да правят свои лични инспекции.
Но Назнин Раджани, създател на Collinear AI, има опасения по отношение на потреблението на GPT-4 за самотестване. Изследванията демонстрират, че моделите са склонни да надценяват личното си показване спрямо съперници като Claude или Llama. Раджани също по този начин отбелязва, че държанието на моделите може да се промени трагично, когато са свързани с нови източници на данни, тъй че са нужни спомагателни инспекции във всеки обособен случай.
Андрю Тейт от института Ada Lovelace показва по-широк проблем: скоростта, с която се създават езиковите модели, надалеч надвишава скоростта, с която се създават методите за тяхното тестване. Като се има поради необятният набор от приложения на системите за изкуствен интелект – от обучение до правоприлагане – основаването на ефикасни способи за оценка става извънредно предизвикателство.
Според учения промишлеността би трябвало да преразгледа метода си към позиционирането на LLM. Вместо универсални принадлежности, би трябвало да бъдат пригодени за съответни задания, защото цялостното тестване на модел с общо предопределение е съвсем невероятно.
Той прави прилика от автомобилната промишленост: изказванието, че даден мотор е безвреден, не подсигурява сигурността на всички транспортни средства, които го употребяват.
Припомняме, че ChatGPT се научи по-добре да написа текстовете, защото OpenAI неотдавна актуализира GPT-4o. Новата версия има способността да основава по-естествени и съответстващи текстове и в същото време дава по-задълбочен разбор на качените файлове.
Също, диалозите с чатбота на OpenAI доста са се подобрили, защото в него се появи гласовият интерфейс Advanced Voice Mode. Реживът е наличен за притежателите на абонаментите Plus, Enterprise, Teams или Edu в уеб-версията на услугата ChatGPT. Аудиото е основано на ИИ-модела GPT-4o, с цел да предложи естествена връзка в действително време.




