Чатботовете и големите езикови модели зад тях са в публичното

...
Чатботовете и големите езикови модели зад тях са в публичното
Коментари Харесай

Информацията свършва. Моделите почват да се учат от данни, генерирани от самите тях

Чатботовете и огромните езикови модели зад тях са в общественото пространство към този момент повече от две години. И те имат към този момент проблем, който е нужно да бъде решен незабавно. Незнайно по какъв начин, само че трупаното с хилядолетия човешко знание и след това цифровизирано, свършва за LLM моделите. И потребността те да бъдат обучавани към този момент на основата на синтетични данни – т.е. такива, които не са генерирани от човек – се усилва. А може би те към този момент се образоват на такива синтетични данни?

CopyLeaks организират проучване, което показва, че другите AI услуги, като DeepSeek, ChatGPT, Claude и други имат собствен характерен „ отпечатък “, който може да се открие. Така, както може да откроите написаното от вашия обичан публицист и текст на различен създател. Проучването на изданието да вземем за пример открива, че резултатите, които дава DeepSeek- R1 са съмнително сходни с тези, които създава ChatGPT.

Decrypt, от своя страна, привеждат, че синтетичните данни не са нищо ново. Те се употребяват за на практика цели още от 60-те години на предишния век в области, като статистиката. Тези синтетични данни основават набор от изкуствени осведомителни блокове, които имитират информацията, идваща от действителния свят. Но експерти предизвестяват, че потреблението им носи със себе си опасности.

В края на предходната година за свършването на действителните данни, на които се образоват моделите заприказва и шефът на Гугъл Сундар Пичай.

„ В сегашното положение на моделите, фирмите, които са на върха се броят на пръсти. Но мисля, че всички ние към този момент работим над идната ни версия. И този напредък ще е сложен “, декларира през декември за New York Times Пичай. И не толкоз съществуването на налични данни е казуса, колкото достъпността им.

„ Ти или търсиш още или изфабрикуваш такива с това, което имаш “, споделя за Decrypt професор Мюриъл Медард от MIT. Именно ограничавания достъп е повода за потребността от синтетични данни. Ник Санчес от Druid AI добавя за изданието, че с актуалните политики за потребление на наличието и други ограничавания, синтетичните данни към този момент са нужда. Те освен улесняват работата на експертите, само че и защищават от всевъзможни вероятни юридически главоболия.

„ Това не е съвършеното решение, защото може да показва пристрастни гледни точки. Както в информацията, идваща от същинския свят. Но евентуалните проблеми със непокътнати права, конфиденциалността и единодушието за потребление ще се натрупат с времето “, уверен е Санчес. А рисковете тук може да са огромни. Особено, когато става въпрос за потреблението на синтетични данни за сериозно значими приложения. Санчес дава за образец системи за засичане на машинация. Моделите могат да бъдат съзнателно подведени при образованието, с цел да се подценен избрани лъжливи практики.

Източник: kaldata.com


СПОДЕЛИ СТАТИЯТА


КОМЕНТАРИ
НАПИШИ КОМЕНТАР