Учените от OpenAI, DeepMind и Anthropic смятат, че можем да изгубим способността си да разбираме ИИ
Изследователи от OpenAI, Гугъл DeepMind, Anthropic и други компании предизвестяват: изкуственият разсъдък скоро може да спре да изяснява решенията си по понятен метод, а „ прозорецът “ за наблюдаване на разсъжденията му да се затвори вечно. Повече от 40 учени обявиха, че новите способи за образование и архитектури, учредени на нереални математически представяния, а не на даден език, водят до загуба на бистрота. Моделите могат да стартират да употребяват неясен код или да се откажат напълно от езиковите разсъждения. В резултат на това ще стане по-трудно да се проучва и следи тяхното държание.
Усъвършенстваните езикови модели са в положение да „ мислят на глас “, т.е. да формулират решенията си като поетапна верига от мисли (Chains of thought – CoT) на човешки език. Това дава опция на откривателите да проучват по какъв начин моделът е стигнал до несъмнено умозаключение и навреме да разпознават евентуално злонамерените планове. Когато моделите се държат погрешно – употребяват неточности в образованието, манипулират данните или стават жертва на офанзиви – те постоянно „ признават “ това по време на своите решения.
Авторите на публикацията считат, че тази бистрота може да изчезне с развиването на новите архитектури и способи за образование. Например при образованието с укрепване моделите се възнаграждават за верния резултат, без значение от метода, по който е реализиран. Това може да докара до потреблението от ИИ на вътрешни способи на размишление, които хората не схващат, като да вземем за пример замяната на елементарния език със съкращения или конвенционален код.
Новите типове ИИ също съставляват заплаха. Изследователите създават системи, които разсъждават в непрекъснати математически пространства, а не в дискретни думи, което изцяло отстрани нуждата от лингвистични разсъждения.
Такива модели могат изцяло да спрат да „ мислят с думи “ и няма да е належащо да изясняват дейностите си.
ИИ е в положение да скрие своите разсъждения, в случай че разбере, че е следен. Освен това, в случай че работата му се прави оценка от хора, той може да фалшифицира отговорите, с цел да наподобяват безапелационни. Отделен проблем е рискът моделите съзнателно да прикриват същинските си претекстове. Проучванията на Anthropic демонстрират, че системите за изкуствен интелект от време на време прикриват съмнителните способи за приемане на отговори, даже когато са категорично помолени да обяснят своите разсъждения.
Въпреки това механизмът за следене на мисловните вериги към този момент е потвърдил своята стойност като система за ранно предизвестие. Той може да разпознава уязвимостите в образованието, податливостта на манипулиране и евентуално рисковите цели на моделите, още преди те да преминат към деяние.
Авторите на проучването приканват промишлеността на изкуствения разсъдък да резервира и развие този инструмент, даже в случай че това изисква да се откаже от някои от по-ефективните, само че по-малко транспарантни решения. Те оферират да се вкарат стандарти за оценка на прозрачността на моделите, които да се вземат поради при вземането на решения за образование и внедряване на системи. Както акцентират откривателите, залогът е способността на човечеството да схваща и управлява държанието на ИИ.




