Популярността на генеративните чатботове с изкуствен интелект не се дължи

Когато съдържанието се превръща в боклук. Как изкуственият интелект унищожава интернет

Популярността на генеративните чатботове с изкуствен интелект не се дължи единствено на дейното им потребление от студенти, текстописци и топ-мениджъри. Разрастването на „ синтетичното “ наличие, основано от тях, безусловно трови интернет.

Появата на ChatGPT и неговите аналози беше същинска находка за студенти, възпитаници, блогъри и маркетолози. Хора, чиито отговорности включваха писане на текстове, започнаха да употребяват AI ботовете по един или различен метод. Някои търсеха хрумвания и подобряваха личните си текстове, други използваха AI по-„ инвазивно “ и просто представяха работата на AI за своя. Резултатът беше появяването в мрежата на огромен брой синтетични или изкуствено генерирани текстове.

Как Уикипедия се отхвърли от изкуствения разсъдък

„ Следи “ от изкуствен интелект в мрежата са се появявали под разнообразни форми. Например, в края на 2024 година в Уикипедия се появи публикация за фиктивен обект, наименуван Амберлисихар. В нея се споделя за османската цитадела от 13-ти век, дава се историята на основаването ѝ и се изяснява в детайли къде се намира. В реалност обаче такава цитадела и подобен обект в никакъв случай не са съществували. А публикацията е резултат от световна илюзия на един от чатботовете с изкуствен интелект, а редакторите на Уикипедия я разгласяват обществено и тя става налична за всички интернет консуматори.

Историята на Амбърлисихар е най-известният образец за работата на AI-ботовете върху основаването на наличие в подобен неповторим краудсорсинг план като Уикипедия. Ето за какво, откакто доста медии писаха за Амбърлисихар, създателите на енциклопедията предизвикаха плана WikiProject AI Cleanup. Целта му е да почисти Уикипедия от AI-боклука. Интересното тук е, че опитните редактори на плана не бяха подготвени за обстоятелството, че на уеб страницата ще стартира да се появява синтетично наличие и че дългогодишната система за групови редакции и рекомендации няма да може да го открие в самото начало. Вероятно прекалено много редактори на плана са се трансформирали във малка врата, през която AI наличието безусловно се е „ промъкнало “, и то в такава неприятна форма.

Година по-късно, през 2025 година, обаче, Уикипедия още веднъж се сблъска с отрицателните прояви на синтетичното наличие на своите страници. В началото на юни енциклопедията стартира да тества функционалност за съкращаване на дългите публикации, която работеше благодарение на изкуствен интелект. Потребителите на смарт телефони можеха да виждат резюмета с изкуствен интелект на публикациите, които ги интересуват. Тази функционалност обаче беше налична единствено за няколко дни, след което беше изоставена. Основната причина беше, че основаните резюмета се оказаха некачествени, не разкриваха същността на публикациите и от време на време бяха откровени неистини. Уикимедия и организацията, която ръководи Уикипедия, съобщи, че търси способи да употребява изкуствения разсъдък в работата си, само че в настоящия си тип тази алтернатива носи единствено щета и унищожава доверието в плана. Един от редакторите даже предизвести, че това би „ предизвикало незабавни и необратими вреди на нашите читатели и репутацията ни на благонадежден източник “.

Моделният колапс и ИИ-замърсяването

Значителният растеж на синтетичните текстове в мрежата, т.е. тези, които са генерирани от изкуствен интелект, има негативни последствия за самите модели на изкуствен интелект. В даден миг ИИ-чатботовете стартират да се учат от личното си „ генерирано “ наличие. В последна сметка, с цел да работят сполучливо инструментите с изкуствен интелект, би трябвало да „ се учат “ — да четат големи размери текстове. В избран миг синтетичните текстове попадат сред „ човешките “ текстове за образование, а изкуственият разсъдък се учи от това, което AI е генерирал преди този момент. В този случай инструментите с изкуствен интелект последователно губят информация за рядко употребяваните, само че значими блокове от данни и стават прекомерно предсказуеми. Поне по този начин създателите на научна публикация в Nature оцениха това събитие на образование на изкуствения разсъдък върху генерираните от ИИ данни. В резултат на такова образование качеството на данните страда. Съответно, бъдещите модели стартират да създават все по-монотонни и неверни текстове. Това събитие се назовава „ колапс на модела “ или „ ИИ замърсяване “ на данните. Авторите на публикацията в Nature изясняват, че заради несъразмерната ИИ-изация на наличието, изкуственият разсъдък стартира да „ погрешно възприема действителността “ и неговите халюцинации — грешките, които пораждат при генериране на наличие, и неговите пристрастия се усилват доста. Все още не е ясно дали AI-замърсяването ще докара до генериране на извънредно цифров отпадък от него, само че е ясно, че ще стане по-трудно за образование на идващите модели.

Експертите вкарват и свързани термини. Някои откриватели назовават този проблем Model Autophagy Disorder (MAD), което значи, че моделите стартират да „ употребяват “ личното си наличие и да се деградират с течение на времето. Учените акцентират, че „ всеки, който употребява генеративен ИИ, замърсява един-единствен пул от данни за всички “. Те в допълнение предизвестяват, че в случай че „ всички ваши данни са изцяло нечисти, ще бъде извънредно скъпо и съвсем невероятно да се почистят “. По този метод, даже от техническа позиция, заплахата се крие освен в искрено неправилните отговори в този момент, само че и в дълготрайната ерозия на данните за образование.

Как изкуственият разсъдък подвежда — Гугъл AI Overviews

Не единствено енциклопедиите страдат от неправилната работа на изкуствения разсъдък. След световна актуализация на Гугъл Search през май 2024 година, най-популярната търсачка стартира да предлага на потребителите систематизирания с изкуствения разсъдък при започване на резултатите от търсенето — резюме на отговорите на поръчките за търсене. Потребителите обаче бързо видяха техните дефекти и даже явни неточности. През първите седмици на работа медиите интензивно разгласиха хиляди скрийншотове на странни и неверни отговори, което провокира подигравка и безпокойствие.

Мениджърът за търсенето Лиз Рийд призна, че системата в действителност е дала „ някои странни, неточни или безсмислени “ отговори и появяването на такива неточности е била предстояща. В последна сметка логаритмите на платформата за търсене комбинират разнообразни фрагменти от интернет и измежду тях може да има явни неточности, които могат да бъдат евентуално рискови. Например, една от най-известните беше проявлението на отровни гъби измежду ядливи. Друг резонансен образец беше запитването „ какъв брой мюсюлмански президенти на Съединени американски щати е имало? “: Гугъл AI Overviews отговори, че „ единият е Барак Обама “, изцяло игнорирайки обстоятелството, че Обама не е мохамеданин.

С течение на времето компанията усъвършенства работата на AI Overviews, само че не се отхвърли от тази алтернатива. На конференцията за разработчици Гугъл I/O през май 2025 година колосът в региона на интернет търсенето разгласи още повече услуги, свързани с дълбоката интеграция на изкуствения разсъдък, и даже измисли по какъв начин да монетизира AI Overviews. Въпреки това, поради възходящото замърсяване с изкуствен интелект, това може да докара до обстановка, в която търсенето в Гугъл ще бърка по-често или ще дава отговор единствено на постоянно задавани въпроси, с които AI моделите са осведомени.

Други образци за разпространяване на нискокачествено наличие с изкуствен интелект

Замърсяването с изкуствен интелект се демонстрира и в повишаването на нискокачественото наличие, основано с изкуствен интелект, за потребителите. Например, огромен брой подправени книги, основани благодарение на изкуствен интелект, се появиха в Amazon — това беше предизвестено от общността на създателите. Престъпници пишат книги благодарение на изкуствен интелект, издават „ справочници “ или „ пътеводители “, а от време на време създателите на същински книги са откривали лъжливи „ резюмета “ на своите творби в Amazon още на идващия ден след издаването. Тези „ книги “ не съдържат автентично наличие, а единствено преразказват явни обстоятелства, постоянно в скъсен вид. Въпреки че Amazon се пробва бързо да отстрани това наличие, системата за модериране на плана явно не се оправя с техния напор.

Текстовете, генерирани от изкуствен интелект в обществените мрежи и конгреси, не са изненада за никого през днешния ден, само че администрациите на сходни запаси би трябвало да се борят с тези потоци от спам, подбуден от изкуствения разсъдък, а професионалните конгреси като ресурса за ИТ-специалисти Stack Overflow са изключително наранени от това.

Най-опасният резултат от замърсяването с изкуствен интелект обаче са потоците от политически подправени известия, задвижвани от изкуствен интелект, които съществуват както под формата на дийпфейкове, по този начин и във тип на огромен брой изкуствено генерирани известия в обществените медии.

(Не)светлото ИИ-бъдеще на интернет

Ситуацията със замърсяването от изкуствен интелект ще се утежнява всяка година. В края на краищата, през днешния ден интернет към този момент е цялостен със наличие, основано напълно или отчасти от ИИ-чатботове. Според специалисти на Европол, до 2026 година делът на новото онлайн наличие, основано благодарение на изкуствен интелект, ще доближи 90%. Вече няма подозрение, че избухливата вълна от AI-технологии ще замърси онлайн-средата с големи количества синтетични данни. Проблемът е по какъв начин да се оправим с това предизвикателство и по какъв начин да понижим въздействието на синтетичните данни върху новите езикови модели и ИИ-чатботовете.

Един от методите за решение на този проблем биха могли да бъдат правила, които изискват ясно етикетиране на синтетичните данни на локално равнище (когато се разгласяват в обществените мрежи или в медиите) и основаването на огромни набори от „ чисти “ (несинтетични) данни на световно равнище – от компании, които образоват огромни езикови модели и основават AI-чатботове.

Учените, които учат основаването на модели на изкуствен интелект, също приказват за нуждата от появяването на „ чисти “ складове за данни. Морис Киодо, теоретичен помощник в Центъра за проучване на екзистенциалните опасности към университета в Кеймбридж и един от създателите на публикацията за чистотата на ИИ-данните, е уверен, че точно „ чистите човешки “ данни са скъпи освен поради наличието на информацията, само че и поради стила, творчеството и разнообразието на действителните човешки връзки.

В момента, макар всички предизвестия, замърсяването на осведомителното пространство единствено нараства, а теорията за мъртвия интернет, съгласно която наличието на мрежата от ден на ден се състои от AI-съдържание, става все по-реалистична. Ако не се предпазим през днешния ден от превъзходството на синтетичното наличие, което въздейства върху работата на AI-чатботовете в бъдеще, тогава самото развиване на изкуствения разсъдък може да стигне до задънена улица. В противоположен случай интернет ще се трансформира от източник на познания в огледална стая с безкрайни отпечатъци от безсмислени машинни думи.

В скорошно изследване се оказа, че чатботовете са най-популярни измежду по-слабо образованите пластове от популацията. Изследването е открило, че ИИ-чатботовете се употребяват най-вече за написването на до една четвърт от корпоративните известия, потребителските тъжби и обявите за работа. Установено е също, че ИИ изключително интензивно намира приложение в районите с по-ниско равнище на обучение и е достигнало 19,9%, в съпоставяне със 17,4% в по-образованите региони. Ако се доближим до миг, в който качеството на генерираното от ИИ наличие сензитивно се утежни, това значи, че хората, които го употребяват и му се доверяват ще стават от ден на ден.