Заплаха от „луда крава” в генеративните AI модели
Новите AI модели могат да бъдат непоправимо развалени вследствие на обучениието със синтетични данни (снимка: CC0 Public Domain)
Открита е нова опасност за генеративните AI модели: синтетичните данни могат да причинят резултата на „ луда крава ”. Проучване откри, че непотребните синтетични данни утежняват качеството и разнообразието на продукцията от генеративния изкуствен интелект.
Генеративните AI модели като OpenAI GPT-4 или Stable Diffusion на Stability AI са в положение да генерират нов текст, код, изображения и видеоклипове. Обучението им обаче изисква големи количества данни, което към този момент води до ограничавания и може изцяло да изчерпи ресурсите за образование в бъдеще.
На фона на дефицита на данни, потреблението на синтетични данни за образование на бъдещи генерации AI модели може да наподобява като изкусителна алтернатива за огромните софтуерни компании. Синтетичните данни са по-евтини от действителните данни, на процедура нямат ограничавания, основават по-малко опасности за поверителността и в някои случаи даже могат да подобрят продуктивността на AI.
Автофагично разстройство
Въпреки това, скорошно проучване на групата за цифрова обработка на сигнали в университета Райс сподели, че непотребните синтетични данни могат да имат доста негативно влияние върху бъдещите итерации на GenAI модели. Проблемите пораждат, когато ученето от синтетични данни неизбежно се повтаря, образувайки един тип противоположна връзка – това, което откривателите назовават ”автофагична ” или “самопоглъщаща се ” верига.
„ Нашата група работи интензивно върху тези вериги за противоположна връзка и неприятната вест е, че даже след генерации от този тип образование, новите модели могат да бъдат непоправимо развалени. Някои го назовават „ колапс на модела ”, само че ние считаме, че терминът „ моделно автофагично разстройство ” (MAD) е по-подходящ, сходно на заболяването луда крава ”, споделя Ричард Баранюк, професор по електротехника и компютърно инженерство в университета Райс.
Лудата крава е съдбовно невродегенеративно заболяване, което визира кравите и има човешки еквивалент. То е породено от консумация на нечисто месо. Голяма зараза през 80-те и 90-те години на предишния век насочи вниманието към обстоятелството, че заболяването луда крава се популяризира посредством практиката на хранене на крави с обработени остатъци от техните заклани двойници – отсам и терминът автофагия, от гръцки „ autophagy ”.
Проучването, озаглавено „ Self-Consuming Generative Models Go MAD ”, е първата рецензирана работа върху AI автофагията и се концентрира върху генеративни модели за изображения като DALL·E 3, Midjourney и Stable Diffusion.
Зловеща картина за AI бъдещето
Изследователите са проучили три разновидността на самопоглъщащи подготвителни цикли, предопределени да обезпечат реалистично показване на това по какъв начин действителните и синтетичните данни се комбинират в набори от данни за образование за генеративни модели.
Прогресивните итерации на циклите демонстрират, че с течение на времето и при липса на задоволително свежи данни от действителния свят, моделите ще генерират все по-изкривени резултати, които нямат качество, многообразие или и двете. Паралелните съпоставения на набори от данни за изображения, получени от поредни генерации на модела, рисуват злокобна картина на евентуалното бъдеще на AI.
„ Нашите теоретични и емпирични разбори ни разрешиха да екстраполираме какво може да се случи, когато генеративните модели станат повсеместни и образоват бъдещи модели в самоизчерпващи се цикли. Някои последици са явни: без задоволително свежи данни от действителния свят, бъдещите генеративни модели са обречени на полуда ”, сподели Баранюк.
За да създадат тези симулации още по-реалистични, откривателите вкарват параметър за отклоняване на извадката, който регистрира „ селективността ” – наклонността на потребителите да дават приоритет на качеството на данните пред разнообразието. Стимулът за селективен метод е, че качеството на данните се поддържа при повече итерации на модела, само че това идва с цената на разнообразието в видовете изображения и текстове в набора от данни.
Изследването демонстрира, че с цел да поддържат здравето на генеративните AI модели, създателите им би трябвало да дават задоволително свежи данни от действителния свят – по този начин ще избегнат „ разрушаването на автофагията на модела ”.
Източник: technews.bg
КОМЕНТАРИ




