Синтетичните данни: Риск от AI катастрофа или възможност за милиарди
Някъде към 10 петабайта или 10 000 терабайта. 250 милиарда уеб страници. Толкова е всичката свободно налична и подлежаща на архивиране информация в интернет. Знаем това, тъй като всичките тези данни са част от свободния и поддържан от неправителствена организация масив.
Той е с голяма значителност за развиването на генеративния изкуствен интелект. Именно със наличието на Common Crawl е " квалифициран " да вземем за пример GPT-3, от който потегли ChatGPT. Почти две поколения AI модели по-късно е ясно, че водещите от тях са " минали " през всичкото човешко знание, което има писмена или аудио-визуална среда.
Нов инструмент на Гугъл основава цели " игри " по изложение
Genie 2 се нуждае единствено от просто изложение
И това отново не е задоволително. Учените в областта на изкуствения разсъдък не престават да се оплакват от това, че или няма задоволително количество данни с високо качество, или че нямат достъп до нужните им масиви поради сензитивния им темперамент.
Едно от вероятните решения за по-качествени AI модели е обвързвано с потреблението на т.нар синтетични данни. Те имат всички характерности на действителните, само че без наличието им да дава отговор на действителността. Голямата опция е и огромен риск - в случай че със синтетичните данни не се работи деликатно, те могат безусловно да срутен опциите на изкуствения разсъдък.
За какво тъкмо приказваме?
Синтетичните данни не са напълно нова и непроучена област. Преди към 10 години Калян Веерамачанени, основен откривател в Колежа по изчислителна техника " Шварцман " на MIT, дружно с екипа си работи по план, който включва разбор на огромно количество данни на учащи. В началото стартират с същинска информация... и се сблъскват с куп проблеми.
Тя би трябвало да стои единствено на една машина и да се криптира - заради регулаторни аргументи. Това забавя доста работата. Решават да създадат масив с случайно генерирано наличие, само че той не работи за задачите им, защото няма нищо общо с първичните данни.
AI за без пари: Коя платформа да изберете
Генеративният изкуствен интелект направи огромни крачки през 2024-а - ето по какъв начин да се възползвате от тях
Така основават модел на машинно образование, който на база на действителна информация генерира такава със същите характерности, само че без да носи нейното наличие.
Именно това са синтетичните данни. " Взимаш телефонен номер. Разбиваш го и синтезираш нов - изцяло случаен, фиктивен. Въпреки това, правиш нужното, с цел да има характерностите, които са ти нужни, да вземем за пример да е тъкмо 10-цифрен и дори да има избран код ", изяснява Веерамачанени.
Синтетичните данни могат да се преглеждат като стъпка оттатък анонимизирането на масиви с сензитивна информация, само че и като метод за тестване на характерни и сложни за репродуциране сюжети или за допълнение на архиви, които са непълни, неточни или по друга причина неизползваеми.
През предходната година Gartner предвидиха, че през 2024-а 60 на 100 от данните, употребявани за AI и аналитични планове ще е изкуствено генерирана. Действително, един от водещите модели - Anthropic Claude, към този момент е квалифициран и благодарение на подобен вид наличие.
" Гледам на синтетичните данни като на моторното масло цялостна синтетика. Всеки кара кола с такова масло. Знаем, че е като минералното, само че е напълно основано в фабричен условия и има обезпечени качества, които на собствен ред обезпечават плавната работа на мотора ", разяснява пред Quartz съоснователят и механически шеф на компанията Gretel Джон Майъс. Той и сътрудниците му оферират на бизнеса точно допустимо най-правдоподобни масиви от синтетични данни.
Това е промишленост, която има голям капацитет за развиване. през 2028 година ще приказваме за бизнес за 2,1 милиарда $ - със съставна норма на годишен напредък от 33,1% в интервала 2023-2028 година
Голяма опция с огромен риск
На пръв взор е разумно AI да може по-бързо и по-ефективно да учи различен AI, само че в никакъв случай не е толкоз просто. Ако даденият модел стъпва прекомерно доста на готовата синтетична информация, несъвършенствата на " учителя " ще се затвърдят и задълбочат.
Някои учени вършат паралел с гротескния от време на време външен тип на членовете на благородническите семейства, в които обичайно е имало кръвосмешения. Те също по този начин са потвърдили, че единствено 5 поколения са задоволителни за цялостен колапс на AI модела.
Има и хипотези, че новите версии на водещите играчи като OpenAI имат проблеми с качеството точно тъй като са били повлияни от генерирано от различен изкуствен интелект наличие. А последното е прекомерно допустимо в случай, че все по-голям % от написаното, нарисуваното и изсвиреното онлайн е дело на ботове.
Какво ще вършат в Nvidia ако/когато AI лудостта премине?
Трилионната компания на Дженсън Хуанг е рисково подвластна от единствено един бизнес... и 4 клиента
Как да избегнем пагубен спад в качествата на изкуствения разсъдък? Опитът на OpenAI и Anthropic демонстрира значимостта на система от два модела - единият генерира синтетичните данни, а другият ги валидира по отношение на критериите, които се чака да покриват.
След това идва самата приложимост. Синтетичните данни могат да покажат на AI какви биха могли да бъдат форматите на телефонните номера, само че единствено действителното наличие е в положение да му помогне да отговори на съответен въпрос, обвързван с данните за контакт на даден чиновник.
Така измислената информация оказва помощ за " обучаването " на модела, само че приложението му изисква здрава връзка с законния подтекст. Тук оказват помощ технологии като RAG (Retrieval-augmented generation), които разрешават на AI да търси и открива отговори в разнообразни масиви от данни без потребност от в допълнение образование.
Заплаха, панацея или опция: Как AI ще промени бизнеса през 2025-а
Заради изкуствения разсъдък порастват условията и към фирмените данни, и към програмистите
Все още тематиката с прецизността на изкуствения разсъдък остава висяща, само че и изпълнена с обещания за огромни пробиви през идващите месеци. Ако те се случат и бъде демонстриран метод за надеждно делене на " подготвителния " от " работния " източник на информация за AI, това ще разгърне капацитета на синтетичните данни - тъй като посредством тях в действителност моделите ще бъдат готови за всевъзможни дори привидно невъзможни обстановки.
Ако обаче " халюцинациите " останат неуреден проблем, хвърлянето на още и още реалистична, само че погрешна информация единствено ще ги направи още по-коварни. А от това няма да завоюва никой.
Той е с голяма значителност за развиването на генеративния изкуствен интелект. Именно със наличието на Common Crawl е " квалифициран " да вземем за пример GPT-3, от който потегли ChatGPT. Почти две поколения AI модели по-късно е ясно, че водещите от тях са " минали " през всичкото човешко знание, което има писмена или аудио-визуална среда.
Нов инструмент на Гугъл основава цели " игри " по изложение
Genie 2 се нуждае единствено от просто изложение
И това отново не е задоволително. Учените в областта на изкуствения разсъдък не престават да се оплакват от това, че или няма задоволително количество данни с високо качество, или че нямат достъп до нужните им масиви поради сензитивния им темперамент.
Едно от вероятните решения за по-качествени AI модели е обвързвано с потреблението на т.нар синтетични данни. Те имат всички характерности на действителните, само че без наличието им да дава отговор на действителността. Голямата опция е и огромен риск - в случай че със синтетичните данни не се работи деликатно, те могат безусловно да срутен опциите на изкуствения разсъдък.
За какво тъкмо приказваме?
Синтетичните данни не са напълно нова и непроучена област. Преди към 10 години Калян Веерамачанени, основен откривател в Колежа по изчислителна техника " Шварцман " на MIT, дружно с екипа си работи по план, който включва разбор на огромно количество данни на учащи. В началото стартират с същинска информация... и се сблъскват с куп проблеми.
Тя би трябвало да стои единствено на една машина и да се криптира - заради регулаторни аргументи. Това забавя доста работата. Решават да създадат масив с случайно генерирано наличие, само че той не работи за задачите им, защото няма нищо общо с първичните данни.
AI за без пари: Коя платформа да изберете
Генеративният изкуствен интелект направи огромни крачки през 2024-а - ето по какъв начин да се възползвате от тях
Така основават модел на машинно образование, който на база на действителна информация генерира такава със същите характерности, само че без да носи нейното наличие.
Именно това са синтетичните данни. " Взимаш телефонен номер. Разбиваш го и синтезираш нов - изцяло случаен, фиктивен. Въпреки това, правиш нужното, с цел да има характерностите, които са ти нужни, да вземем за пример да е тъкмо 10-цифрен и дори да има избран код ", изяснява Веерамачанени.
Синтетичните данни могат да се преглеждат като стъпка оттатък анонимизирането на масиви с сензитивна информация, само че и като метод за тестване на характерни и сложни за репродуциране сюжети или за допълнение на архиви, които са непълни, неточни или по друга причина неизползваеми.
През предходната година Gartner предвидиха, че през 2024-а 60 на 100 от данните, употребявани за AI и аналитични планове ще е изкуствено генерирана. Действително, един от водещите модели - Anthropic Claude, към този момент е квалифициран и благодарение на подобен вид наличие.
" Гледам на синтетичните данни като на моторното масло цялостна синтетика. Всеки кара кола с такова масло. Знаем, че е като минералното, само че е напълно основано в фабричен условия и има обезпечени качества, които на собствен ред обезпечават плавната работа на мотора ", разяснява пред Quartz съоснователят и механически шеф на компанията Gretel Джон Майъс. Той и сътрудниците му оферират на бизнеса точно допустимо най-правдоподобни масиви от синтетични данни.
Това е промишленост, която има голям капацитет за развиване. през 2028 година ще приказваме за бизнес за 2,1 милиарда $ - със съставна норма на годишен напредък от 33,1% в интервала 2023-2028 година
Голяма опция с огромен риск
На пръв взор е разумно AI да може по-бързо и по-ефективно да учи различен AI, само че в никакъв случай не е толкоз просто. Ако даденият модел стъпва прекомерно доста на готовата синтетична информация, несъвършенствата на " учителя " ще се затвърдят и задълбочат.
Някои учени вършат паралел с гротескния от време на време външен тип на членовете на благородническите семейства, в които обичайно е имало кръвосмешения. Те също по този начин са потвърдили, че единствено 5 поколения са задоволителни за цялостен колапс на AI модела.
Има и хипотези, че новите версии на водещите играчи като OpenAI имат проблеми с качеството точно тъй като са били повлияни от генерирано от различен изкуствен интелект наличие. А последното е прекомерно допустимо в случай, че все по-голям % от написаното, нарисуваното и изсвиреното онлайн е дело на ботове.
Какво ще вършат в Nvidia ако/когато AI лудостта премине?
Трилионната компания на Дженсън Хуанг е рисково подвластна от единствено един бизнес... и 4 клиента
Как да избегнем пагубен спад в качествата на изкуствения разсъдък? Опитът на OpenAI и Anthropic демонстрира значимостта на система от два модела - единият генерира синтетичните данни, а другият ги валидира по отношение на критериите, които се чака да покриват.
След това идва самата приложимост. Синтетичните данни могат да покажат на AI какви биха могли да бъдат форматите на телефонните номера, само че единствено действителното наличие е в положение да му помогне да отговори на съответен въпрос, обвързван с данните за контакт на даден чиновник.
Така измислената информация оказва помощ за " обучаването " на модела, само че приложението му изисква здрава връзка с законния подтекст. Тук оказват помощ технологии като RAG (Retrieval-augmented generation), които разрешават на AI да търси и открива отговори в разнообразни масиви от данни без потребност от в допълнение образование.
Заплаха, панацея или опция: Как AI ще промени бизнеса през 2025-а
Заради изкуствения разсъдък порастват условията и към фирмените данни, и към програмистите
Все още тематиката с прецизността на изкуствения разсъдък остава висяща, само че и изпълнена с обещания за огромни пробиви през идващите месеци. Ако те се случат и бъде демонстриран метод за надеждно делене на " подготвителния " от " работния " източник на информация за AI, това ще разгърне капацитета на синтетичните данни - тъй като посредством тях в действителност моделите ще бъдат готови за всевъзможни дори привидно невъзможни обстановки.
Ако обаче " халюцинациите " останат неуреден проблем, хвърлянето на още и още реалистична, само че погрешна информация единствено ще ги направи още по-коварни. А от това няма да завоюва никой.
Източник: money.bg
КОМЕНТАРИ




