Пророците и разпространителите на новини за изкуствения интелект (ИИ) прогнозират

...
Пророците и разпространителите на новини за изкуствения интелект (ИИ) прогнозират
Коментари Харесай

Цифровият еквивалент на кръвосмешението може да доведе до саморазрушаване на изкуствения интелект

Пророците и разпространителите на вести за изкуствения разсъдък (ИИ) предвиждат края на шумотевицата към генеративния ИИ, като приказват за иден пагубен „ срив на модела “.

Но до каква степен реалистични са тези прогнози? И какво въобще съставлява сривът на модела?

Обсъждан през 2023 година, само че разпространяван в последно време, „ колапсът на модела “ се отнася до предполагаем сюжет, при който бъдещите системи за ИИ стават все по-глупави заради увеличението на генерираните от самите ИИ данни в интернет.

Необходимостта от данни

Съвременните ИИ системи са построени благодарение на машинно образование. Програмистите основават главната математическа конструкция, само че действителната „ просветеност “ идва от образованието на системата да имитира и основава модели от тези данни.

Но това не са просто някакви данни. Сегашните генеративни системи за изкуствен интелект се нуждаят от висококачествени данни, и то от доста такива.

За да се снабдят с тези данни, огромните софтуерни компании като OpenAI, Гугъл, Meta и Nvidia непрестанно претърсват интернет, събирайки терабайти наличие, с което да зареждат машините. Но след появяването на необятно налични и потребни генеративни системи за изкуствен интелект, което стана през 2022 година хората все по-често качват и споделят наличие, което е основано, отчасти или напълно, от изкуствен интелект.

През 2023 година откривателите започнаха да се чудят дали могат да се оправят с това да разчитат за образование единствено посредством данните, основани от ИИ, вместо посредством данните, генерирани от действителните хора.

Съществуват големи тласъци това да се реализира. Освен че се популяризира в интернет, наличието, основано от ИИ, е доста по-евтино за основаване от човешки данни. Освен това всеобщото му събиране не е под въпрос от етична и правна позиция.

Въпреки това откривателите откриха, че без висококачествени човешки данни ИИ системите, подготвени на данни, основани от ИИ, стават все по-глупави, защото всеки модел се учи от предходния. Това е нещо като цифрова версия на казуса с кръвосмешението.

Изследователите обаче откриха, че без висококачествени човешки данни системите за изкуствен интелект, подготвени на данни, основани от изкуствен интелект, стават все по-глупави, защото всеки модел се учи от предходния. Това е нещо като цифрова версия на казуса с инбридинга.

Това „ регресивно образование “ наподобява води до понижаване на качеството и разнообразието на държанието на моделите. Качеството тук значи почти някаква композиция от това да бъдеш потребен, безопасен и почтен. Разнообразието се отнася до вариациите в отговорите и до това кои културни и обществени вероятности на хората са показани в резултатите на ИИ.

Накратко: като използваме толкоз доста системи за изкуствен интелект, можем да замърсим самия източник на данни, от който се нуждаем, с цел да ги създадем оптимално потребни.

Избягването на срутва

Не могат ли новите технологии просто да филтрират наличието, генерирано от изкуствен интелект? Не напълно. Технологичните компании към този момент отделят доста време и средства за разчистване и пречистване на данните, които събират, като един от тях неотдавна показа, че от време на време изхвърлят до 90% от данните, които в началото събират за образование на своите модели.

Тези старания могат да станат още по-интензивни, защото нуждата от специфичното унищожаване на наличие, генерирано от изкуствения разсъдък, се усилва. Но по-важното е, че в дълготраен проект в действителност ще става все по-трудно да се разграничи наличието, основано от ИИ. Това ще трансформира филтрирането и премахването на синтетичните данни в игра с намаляваща (финансова) възвръщаемост.

В последна сметка досегашните проучвания демонстрират, че просто не можем изцяло да се откажем от човешките данни. В края на краищата, точно от тях идва „ I-то “ в AI.

Дали не сме се запътили към злополука?

Има признаци, че на разработчиците към този момент им се постанова да работят все по-усилено, с цел да си набират висококачествени данни. Така да вземем за пример в документите, съпътстваща версията GPT-4, се показва невижданият брой чиновници, участващи в плана във връзка с данните.

Възможно е също по този начин да липсват нови данни за хората. Според някои оценки фондът от текстови данни, генерирани от хора, може да бъде привършен още през 2026 година

Вероятно по тази причина OpenAI и другите компании се надпреварват да подписват извънредни партньорства с индустриални колоси като Shutterstock, Associated Press и NewsCorp. Те имат огромни лични сбирки от човешки данни, които не са елементарно налични в обществения интернет.

Въпреки това вероятностите за пагубен срив на модела може да се окажат пресилени. Повечето проучвания до момента преглеждат случаи, в които синтетичните данни заместват човешките данни. На процедура човешките данни и данните на изкуствения разсъдък евентуално ще се натрупват редом, което понижава вероятността от срив.

Най-вероятният предстоящ сюжет също по този начин ще включва екосистема от малко по-разнообразни генеративни платформи на ИИ, които ще се употребяват за основаване и издание на наличие, а не един едносъставен модел. Това също усилва устойчивостта против срив.

Това е една добра причина регулаторните органи да предизвикват здравословната конкуренция посредством ограничение на монополите в бранша на ИИ и да финансират създаването на технологии от публичен интерес.

Истинските опасения

Съществуват и по-изтънчени опасности, свързани с прекомерно многото наличие, основано от изкуствения разсъдък.

Напливът от синтетично наличие може да не съставлява екзистенциална опасност за напредъка на развиването на ИИ, само че заплашва цифровото публично богатство на (човешкия) интернет.

Така да вземем за пример откривателите откриха 16% спад в интензивността на уеб страницата за шифроване StackOverflow една година след появяването на ChatGPT. Това допуска, че помощта от ИИ може би към този момент понижава взаимоотношенията сред хората в някои онлайн общности.

Хиперпроизводството във фермите за наличие, задвижвани от ИИ, също по този начин затруднява намирането на наличие, което не е кликбейт, препълнен с реклами.

Става невероятно да се направи надеждно разграничаване сред наличие, генерирано от хора, и наличие, генерирано от ИИ. Един от методите за справяне с това е слагането на водни знаци или етикетиране на наличието, генерирано от изкуствения разсъдък, както редица специалисти неотдавна подчертаха и както е отразено в неотдавнашното краткотрайно законодателство на австралийското държавно управление.

Съществува и различен риск. Тъй като наличието, генерирано от изкуствен интелект, става систематично хомогенно, рискуваме да загубим социално-културното разнообразие и някои групи хора биха могли даже да изпитат културно изтриване. Спешно се нуждаем от интердисциплинарни проучвания на обществените и културните провокации, подбудени от системите на ИИ.

Човешките взаимоотношения и човешките данни са значими и ние би трябвало да ги пазиме. За наше лично положително, а може би и поради възможния риск от един предстоящ срив на модела.

Източник: kaldata.com


СПОДЕЛИ СТАТИЯТА


КОМЕНТАРИ
НАПИШИ КОМЕНТАР