Тъй като изкуственият интелект (ИИ) бележи върха на своята популярност,

Експертите предупреждават, че свършват данните за обучение на изкуствените интелекти

Тъй като изкуственият разсъдък (ИИ) бележи върха на своята известност, откривателите предизвестяват, че в промишлеността може да свършат данните за образование – горивото, с което се зареждат мощните ИИ системи.

Това може да забави растежа на AI моделите, изключително на огромните езикови модели, и даже да промени траекторията на AI революцията.

Но за какво евентуалната липса на данни е проблем, като се има поради какъв брой доста са те в мрежата? И има ли метод да се оправим с този риск?

Защо висококачествените данни са значими за изкуствения разсъдък

Нуждаем се от в действителност доста данни, с цел да обучим мощни, точни и висококачествени ИИ логаритми. Така да вземем за пример ChatGPT е подготвен въз основата на 570 гигабайта текстови данни или към 300 милиарда думи.

По сходен метод логаритъмът за постоянна дифузия (който стои зад доста приложения за генериране на изображения с изкуствен интелект като DALL-E, Lensa и Midjourney) е подготвен върху набора от данни LIAON-5B, състоящ се от 5,8 милиарда двойки изображение-текст. Ако даден логаритъм е подготвен върху незадоволително количество данни, той ще даде неточни или ще дава некачествени резултати.

Качеството на данните за образование също е значимо. Данните с ниско качество, като да вземем за пример постовете в обществените мрежи или размазаните фотоси, са лесни за набиране, само че не са подобаващи за образованието на високоефективни ИИ модели.

Текстът, взет от платформите на обществените медии, може да е привързан или преднамерен, или да включва дезинформация или нелегално наличие, което може да бъде възпроизведено от ИИ модела. Когато да вземем за пример Microsoft се опита да образова своя AI бот, употребявайки наличие от Twitter, той се научи да генерира расистки и женомразки резултати.

Ето за какво разработчиците на ИИ търсят висококачествено наличие, като да вземем за пример текст от книги, онлайн публикации, научни публикации, Wikipedia и несъмнено филтрирано уеб наличие. Асистентът на Гугъл бе подготвен върху 11 000 сантиментални романа, взети от уеб страницата за независимо издание Smashwords, с цел да стане по-разговорлив.

Имаме ли задоволително данни?

Индустрията за изкуствен интелект образова AI системите с все по-големи масиви от данни, заради което към този момент разполагаме с високоефективни модели като ChatGPT и DALL-E 3. В същото време изследванията демонстрират, че данните в интернет порастват доста по-бавно от масивите от данни, употребявани за образование на AI.

В публикация, оповестена предходната година, група откриватели предвижда, че в случай че актуалните трендове в образованието на ИИ се запазят, висококачествените текстови данни ще свършат преди 2026 година Те също по този начин смятат, че даже нискокачествените езикови данни ще бъдат изчерпани някъде сред 2030 и 2050 година, а нискокачествените данни за изображения – сред 2030 и 2060 година

Според аналитичната и консултантска група PwC до 2030 година изкуственият разсъдък може да даде до 15,7 трилиона щатски $ (24,1 трилиона австралийски долара) на международната стопанска система. Но изчерпването на използваемите данни може да забави развиването му.

Трябва ли да се тормозим?

Въпреки че горните въпроси могат да разтревожат някои почитатели на изкуствения разсъдък, обстановката може да не е чак толкоз неприятна, колкото наподобява. Съществуват доста незнайни за това по какъв начин ще се развиват ИИ моделите в бъдеще, оферират се и няколко метода за справяне с риска от дефицита на данни.

Една от опциите е разработчиците на ИИ да подобрят логаритмите, тъй че да употребяват по-ефективно данните, с които към този момент разполагат.

Вероятно през идващите години те ще могат да образоват високоефективни AI системи, като употребяват по-малко данни и евентуално по-малко изчислителна мощ. Това ще помогне и за понижаване на въглеродния отпечатък на ИИ.

Друга опция е ИИ да се употребява за основаване на синтетични данни за образование на системите. С други думи, разработчиците могат просто да генерират данните, от които се нуждаят, подбрани по този начин, че да дават отговор на техния съответен модел на ИИ.

Няколко плана към този момент употребяват синтетично наличие, което постоянно се набира от другите услуги за генериране на данни, като да вземем за пример Mostly AI. Това ще става все по-често срещано в бъдеще.

Разработчиците също по този начин търсят наличие отвън безплатното онлайн пространство, като да вземем за пример това, което се съхранява от огромните издателства и офлайн хранилищата. Помислете за милионите текстове, оповестени преди появяването на интернет. Предоставени в дигитален тип, те биха могли да обезпечат нов източник на данни за AI плановете.

News Corp, един от най-големите притежатели на новинарско наличие в света (който държи огромна част от наличието си зад платена стена), наскоро съобщи, че договаря с разработчиците на изкуствен интелект. Подобни покупко-продажби ще принудят фирмите за изкуствен интелект да заплащат за данните за образование – до момента в който до момента те ги извличаха гратис от интернет.

Създателите на наличие стачкуваха против неразрешеното потребление на тяхното наличие за образование на модели на изкуствен интелект, като някои от тях заведоха каузи против компании като Microsoft, OpenAI и Stability AI. Възнаграждението за работата им може да помогне да се възвърне част от несъответствието на силите, който съществува сред създателите и фирмите за изкуствен интелект.

Редица философи, експерти и изключително бизнеса, с на мнение, че внедряването на изкуствения разсъдък е най-хубавият залог за оцеляването на човечеството. Но с цел да стане това е нужен първокласен ИИ, а данните са на изчерпване.