Преди само шест месеца светът научи за ChatGPT, а днес

Учени предупредиха, че наближава колапса на генеративните модели на изкуствения интелект

Преди единствено шест месеца светът научи за ChatGPT, а през днешния ден доста от водещите международни компании или са почнали да употребяват технологията за генеративен изкуствен интелект в активността си, или създават артикули, основани на нея. Но в този момент учените обръщат внимание на един доста значим миг – до момента огромните масиви от данни във тип на книги, онлайн материали, фотоси, видеа и така нататък, употребявани за образованието на генеративните модели и за тренирането на този относително нов вид изкуствен интелект, с помощта на които се появиха платформи като GPT, Stable Diffusion или Midjourney, са основани от хората. С развиването на генеративния ИИ стартира да се появява и ще продължи да се появява от ден на ден наличие, генерирано от тези изкуствени интелекти. Въпросът в тази обстановка е, какво ще се случи, когато този изкуствен интелект стартира да се образова на материали, основани също от ИИ?

Екип от откриватели от Англия и Канада изследва този проблем и разгласява публикация в изданието arXiv. Те стигнаха до заключението, че тази обстановка поражда опасения за технологията на генеративния изкуствен интелект и нейното бъдеще:

„ Установихме, че потреблението на генерирано от модела наличие при образованието ще докара до необратими недостатъци в бъдещите генерации модели “.

Фокусирайки се върху казуса за вероятностните разпределения в генеративните модели „ текст-към-текст “ и „ изображение-към-изображение “, създателите стигат до заключението, че „ ученето от данни, генерирани от други ИИ модели, ще докара до колапс на моделите – развой на недъгавост, при който с течение на времето моделите не помнят същинското систематизиране на данните. (…) Този развой е неминуем даже в случаи с съвсем съвършени условия за дълготрайно обучение„.

Постепенно грешките в моделите ще се натрупват и те ще стартират да възприемат действителността все по-неадекватно. „ Бяхме сюрпризирани да забележим какъв брой бързо моделите се срутват: генеративните модели могат бързо да не помнят множеството от първичните данни, върху които са били подготвени в началото„, споделя един от създателите на публикацията, в изявление за изданието Venture Beat.

С други думи, когато образователният модел на изкуствен интелект получава от ден на ден данни, генерирани от изкуствен интелект, той става все по-неефективен, позволява от ден на ден неточности в отговорите и генерираното наличие, а отговорите му губят своята вариативност.

Той онагледи казуса с предполагаем сюжет, при който моделът е подготвен върху набор от данни от 100 котки – 10 от тях са със синя четина, а 90 – с жълта. Моделът схваща, че жълтите котки са по-често срещани, само че също по този начин показва сините котки по-жълтеникави, като от време на време дава резултати със зелени котки, когато е помолен да сътвори нови данни. С течение на времето първичният симптом – синята четина – се изчерпва в повтарящи се цикли, от синьо към зелено, от зелено към жълто. Това последователно разтваряне и загуба на второстепенните характерности е крахът на модела. За да бъде предотвратен, е значимо да се подсигурява, че второстепенните групи са вярно разпределени в набори от данни, които изобразяват характерностите вярно във връзка с количеството и точността. Трудна задача, защото моделите мъчно се учат от редки събития.

„ Ще напълним интернет с нелепости “, споделя различен създател – Рос Андерсън от Университета в Кеймбридж и Единбургския университет. „ Това ще затрудни проучването на нови модели посредством претършуване на интернет. Компаниите, които към този момент са го създали или които управляват огромния достъп до потребителските интерфейси, ще имат преимущество “.