Срив на AI, когато моделите започват да се учат от себе си
Докато фирмите се надпреварват да влагат в изкуствен интелект, има един голям и възходящ проблем, който всички пренебрегват. Всички модели, обучавани с данни от интернет след появяването на ChatGPT през 2022 година, в действителност консумират данни, генерирани от други AI. Този проблем само пораства и скоро може да заплаши цялата промишленост.
В обява за The Register, експертът Стивън Вон-Никълс предизвестява, че даже опитите да се предотврати така наречен " срив на модела " — събитие, при което огромни езикови модели (LLM) се зареждат със синтетични, генерирани от AI данни и стартират да се " скапват " — се трансформират в нов призрачен сън.
Както Futurism и доста други медии оповестяват през последните години, промишлеността за изкуствен интелект се доближава непреклонно към миг, в който ще се изчерпат всички налични достоверни подготвителни данни — т.е., такива, основани от хора, а не от AI. Някои анализатори, в това число Илон Мъск, считат, че този миг към този момент е настъпил.
За да се заобиколи този проблем, колоси като Гугъл, OpenAI и Anthropic прибягват до така наречен " обогатено посредством добиване генериране " (RAG) — което значи, че езиковите модели се свързват с интернет, с цел да търсят информация, в случай че в образованието им липсват нужните отговори.
На доктрина това звучи разумно, изключително поради наближаващия срив на моделите. Само че има един проблем: интернет към този момент е цялостен със зле написано наличие, генерирано от AI, което предлага неверни или даже комични отговори на постоянно задавани въпроси.
Изследователското звено на медийната империя на Майкъл Блумбърг е провело изследване, показано през април на конференция по компютърна филология.
11 от най-новите езикови модела — в това число GPT-4o на OpenAI, Claude 3.5 Sonnet на Anthropic и Gemma-7B на Гугъл — са произвели доста повече " небезопасни " отговори спрямо тези, които не употребяват RAG.
Според проучването, под " небезопасни " се схваща наличие, което е " нездравословно, нелегално, обидно или неетично — като разпространяване на дезинформация и застрашаване на персоналната сигурност и дискретност ".
" Това парадоксално изобретение има съществени последствия, имайки поради какъв брой всеобщо се употребява RAG в моделите ", изяснява Аманда Стент, началник на AI проучванията в Bloomberg, в друго изявление със Стивън Вон-Никълс, оповестено този месец в ZDNet. " Средностатистическият интернет консуматор всекидневно взаимодейства със системи, основани на RAG. Разработчиците би трябвало да бъдат деликатни в виновната приложимост на тази технология. "
И по този начин, в случай че AI към този момент е на път да изчерпи данните за образование — или към този момент ги е изчерпал — а връзката с интернет не взема решение казуса, тъй като интернет е натоварен с AI-генериран отпадък, накъде отиваме оттук нататък?
Вон-Никълс отбелязва, че някои оферират разбъркване на достоверни и синтетични данни, с цел да се получи " коктейл " от качествени подготвителни материали — само че това допуска, че хората ще продължат да основават действително наличие. А промишлеността за AI в това време подкопава тласъците за това, като в същото време употребява труда им без позволение.
Трети вид, съгласно Вон-Никълс, към този момент е в ход:
" Ще продължим да влагаме от ден на ден и повече в AI, до момента в който не се стигне до истински срив и отговорите, които получаваме, не станат толкова зле, че даже изцяло необмислен CEO няма да може да ги пренебрегва ", написа той.
Проблемът с изчерпването на данните е причина доста от огромните корпорации и водещи разработчици да се насочат към " изстъргване на данни офлайн ". Това може да става единствено с устройство, което да записва целия живот на потребителите си. Идеята обаче не звучи изключително привлекателно, най-малко към този момент.
В обява за The Register, експертът Стивън Вон-Никълс предизвестява, че даже опитите да се предотврати така наречен " срив на модела " — събитие, при което огромни езикови модели (LLM) се зареждат със синтетични, генерирани от AI данни и стартират да се " скапват " — се трансформират в нов призрачен сън.
Както Futurism и доста други медии оповестяват през последните години, промишлеността за изкуствен интелект се доближава непреклонно към миг, в който ще се изчерпат всички налични достоверни подготвителни данни — т.е., такива, основани от хора, а не от AI. Някои анализатори, в това число Илон Мъск, считат, че този миг към този момент е настъпил.
За да се заобиколи този проблем, колоси като Гугъл, OpenAI и Anthropic прибягват до така наречен " обогатено посредством добиване генериране " (RAG) — което значи, че езиковите модели се свързват с интернет, с цел да търсят информация, в случай че в образованието им липсват нужните отговори.
На доктрина това звучи разумно, изключително поради наближаващия срив на моделите. Само че има един проблем: интернет към този момент е цялостен със зле написано наличие, генерирано от AI, което предлага неверни или даже комични отговори на постоянно задавани въпроси.
Изследователското звено на медийната империя на Майкъл Блумбърг е провело изследване, показано през април на конференция по компютърна филология.
11 от най-новите езикови модела — в това число GPT-4o на OpenAI, Claude 3.5 Sonnet на Anthropic и Gemma-7B на Гугъл — са произвели доста повече " небезопасни " отговори спрямо тези, които не употребяват RAG.
Според проучването, под " небезопасни " се схваща наличие, което е " нездравословно, нелегално, обидно или неетично — като разпространяване на дезинформация и застрашаване на персоналната сигурност и дискретност ".
" Това парадоксално изобретение има съществени последствия, имайки поради какъв брой всеобщо се употребява RAG в моделите ", изяснява Аманда Стент, началник на AI проучванията в Bloomberg, в друго изявление със Стивън Вон-Никълс, оповестено този месец в ZDNet. " Средностатистическият интернет консуматор всекидневно взаимодейства със системи, основани на RAG. Разработчиците би трябвало да бъдат деликатни в виновната приложимост на тази технология. "
И по този начин, в случай че AI към този момент е на път да изчерпи данните за образование — или към този момент ги е изчерпал — а връзката с интернет не взема решение казуса, тъй като интернет е натоварен с AI-генериран отпадък, накъде отиваме оттук нататък?
Вон-Никълс отбелязва, че някои оферират разбъркване на достоверни и синтетични данни, с цел да се получи " коктейл " от качествени подготвителни материали — само че това допуска, че хората ще продължат да основават действително наличие. А промишлеността за AI в това време подкопава тласъците за това, като в същото време употребява труда им без позволение.
Трети вид, съгласно Вон-Никълс, към този момент е в ход:
" Ще продължим да влагаме от ден на ден и повече в AI, до момента в който не се стигне до истински срив и отговорите, които получаваме, не станат толкова зле, че даже изцяло необмислен CEO няма да може да ги пренебрегва ", написа той.
Проблемът с изчерпването на данните е причина доста от огромните корпорации и водещи разработчици да се насочат към " изстъргване на данни офлайн ". Това може да става единствено с устройство, което да записва целия живот на потребителите си. Идеята обаче не звучи изключително привлекателно, най-малко към този момент.
Източник: dnesplus.bg
КОМЕНТАРИ




