Илон Мъск: AI изчерпа данните на човечеството
60% от данните, употребявани за AI и аналитични планове през 2024 година, са синтетично генерирани
(снимка: CC0 Public Domain)
Илон Мъск се причисли към други специалисти по изкуствен интелект с изказванието, че са останали малко действителни данни, върху които могат да се образоват AI моделите, разработвани от голям брой компании .
„ Изчерпахме съвсем целия насъбран размер от човешки познания за образование на AI. Това се случи главно предходната година ”, сподели Мъск по време на диалог с ръководителя на Stagwell Марк Пен, излъчен в обществената мрежа X.
Мъск, притежател на компанията xAI, повтори концепциите, които някогашният основен академик на OpenAI Иля Суцкевер очерта на конференцията за машинно образование NeurIPS през декември. Суцкевер разгласи, че AI промишлеността е достигнала „ пикови данни ” и предвижда, че неналичието на данни за образование ще наложи промени в съществуващите подходи за създаване на AI модели.
Мъск, от своя страна, предлага решение на този проблем: потребление на синтетични данни, генерирани от самите AI модели. „ Единственият метод за допълнение на действителните данни са синтетичните данни, при които AI самичък основава обучителни материали. Със синтетични данни AI ще се самооцени и ще премине през развой на самообразование ”, споделя той.
Големите софтуерни компании, в това число Microsoft, Meta, OpenAI и Anthropic, към този момент употребяват синтетични данни, с цел да образоват своите водещи AI модели. Gartner пресмята, че 60% от данните, употребявани за AI и аналитични планове през 2024 година, са синтетично генерирани.
Моделът Phi-4 на Microsoft, който стана с отворен код тази седмица, беше подготвен на композиция от синтетични и действителни данни. Подобен метод употребява Гугъл за основаване на моделите Gemma.
Anthropic също употребява синтетични данни, с цел да създаде една от най-добре представящите си системи, Claude 3.5 Sonnet, а Meta усъвършенства най-новата си серия от модели Llama, употребявайки данни, генерирани от AI.
Обучението със синтетични данни има редица преимущества, в това число успеваемост на разноските. Стартъпът Writer твърди, че неговият модел Palmyra X 004, създаден съвсем напълно от синтетични източници, коства единствено $700 000 – спрямо почти $4,6 милиона за съпоставим OpenAI модел.
Синтетичния метод има и дефекти. Някои проучвания допускат, че синтетичните данни могат да доведат до „ колапс на модела ”, при който AI става по-малко „ изобретателен ” и по-предубеден в своите резултати и това в последна сметка може съществено да наруши неговата функционалност.
Тъй като моделите основават синтетични данни въз основа на съществуващи данни, всички отклонения и ограничавания в истинските данни ще бъдат възпроизведени в техните резултати, предизвестяват експертите.
Източник: technews.bg
КОМЕНТАРИ




