Най-мощните модели с изкуствен интелект в света могат да възпроизвеждат

...
Най-мощните модели с изкуствен интелект в света могат да възпроизвеждат
Коментари Харесай

Проблемът, който компаниите отричаха: AI моделите могат да възпроизвеждат защитено съдържание

Най-мощните модели с изкуствен интелект в света могат да възпроизвеждат съвсем буквално елементи от известни книги. Това развиване слага под съществено подозрение един от фундаменталните причини на AI промишлеността, че те не съхраняват предпазено с авторско право наличие.

Поредица от нови научни проучвания демонстрират, че огромните езикови модели на компании като OpenAI, Гугъл, Meta, Anthropic и xAI запомнят доста повече от учащите си данни, в сравнение с се смяташе досега. Това изобретение може да има директни правни и финансови последствия, защото подкопава основната защитна теза на софтуерните компании в десетки правосъдни каузи по света – че техните системи „ учат “ от данните, само че не съхраняват копия от тях.

„ Натрупват се доказателства, че запаметяването е доста по-сериозен феномен, в сравнение с се предполагаше “, споделя Ив-Александър дьо Монжуа, професор по приложна математика и компютърни науки в Imperial College London, пред Financial Times.
Аргументът, който пази бизнес модела на AI фирмите
Технологичните компании от години поддържат позицията, че моделите им не съдържат директни копия на учащите данни, а извличат статистически зависимости сред думи и изречения. В писмо до Службата по авторско право на Съединени американски щати от 2023 година Гугъл да вземем за пример декларира, че „ в модела не съществува копие на учащите данни – без значение дали става въпрос за текст, изображения или други формати “.

Този мотив е в основата на изказванието на промишлеността, че потреблението на предпазено наличие за образование съставлява така наречен fair use, или трансформативна приложимост, която основава нов артикул, вместо да възпроизвежда оригинала.

Новите данни обаче демонстрират, че границата сред „ учене “ и „ запазване “ може да е доста по-размита, в сравнение с фирмите обществено настояват.
До 76.8% буквално възпроизвеждане на „ Хари Потър “
Изследване на учени от Stanford и Yale демонстрира какъв брой съответен е този проблем. Чрез деликатно дефинирани поръчки те съумяват да накарат водещи модели за изкуствен интелект да генерират хиляди думи от 13 известни книги, в това число Harry Potter and the Philosopher’s Stone, The Hobbit, The Hunger Games и A Game of Thrones.

Gemini 2.5 на Гугъл съумява да възпроизведе 76.8% от „ Хари Потър и философският камък “ с висока акуратност, до момента в който Grok 3 на xAI доближава 70.3%. Изследователите също по този начин съумяват да извлекат съвсем целия текст на разказ посредством модела Claude 3.7 Sonnet на Anthropic, употребявайки техника, известна като „ jailbreak “, която заобикаля вградените защитни механизми.

Дори така наречен „ затворени “ модели – комерсиални системи със строги ограничавания и отбрани – показват сходна дарба.

„ Беше изненадващо, че могат да запомнят цели текстове макар отбраните “, споделя А. Федера Купър, откривател от Yale и съавтор на изследването.
Риск за промишленост за трилиони
Правните последствия могат да бъдат обилни.

Ако съдилищата одобряват, че моделите за изкуствен интелект на процедура съхраняват и възпроизвеждат предпазено наличие, това би нараснало доста риска от отговорност за нарушение на авторски права и би могло да промени стопанската система на създаването на AI системи.

„ Тези резултати могат да основат съществено предизвикателство за аргумента, че моделите не съхраняват или възпроизвеждат предпазени творби “, споделя Серис Уин Дейвис, сътрудник по интелектуална благосъстоятелност в юридическата компания Pinsent Masons.

Съдебната процедура към този момент стартира да оформя границите.

През предходната година съд в Съединени американски щати постанови, че образованието на AI върху предпазено наличие може да бъде възможно, в случай че е трансформативно. В същото време съдът акцентира, че съхраняването на пиратски копия съставлява нарушаване, което докара до съглашение за 1.5 милиарда $ от страна на Anthropic.

В Германия настрана правосъдно решение постанови, че OpenAI е нарушила авторски права, откакто моделът ѝ е възпроизвел текстове на песни. Делото, заведено от организацията GEMA, съставлява значим казус за европейската правна рамка.
Последствия оттатък авторските права
Освен правните опасности, способността на AI да възпроизвежда учащи данни повдига въпроси и за поверителността.

Ако учащите данни съдържат сензитивна информация, в това число персонални или корпоративни данни, те евентуално могат да бъдат извлечени посредством верните поръчки, което води до опасности за браншове като опазването на здравето, образованието и бизнеса.

Anthropic декларира, че употребяваните в проучването техники са непрактични за елементарните консуматори и изискват повече старания, в сравнение с просто закупуването на истинското наличие. Компанията също по този начин акцентира, че моделите не съхраняват директни копия, а извличат модели и зависимости от данните.

Самият факт, че фирмите за изкуствен интелект внедряват защитни механизми, демонстрира, че те са наясно с риска, споделя проф. дьо Монжуа. Според проф. Бен Жао от University of Chicago основният въпрос към този момент не е дали това е механически допустимо, а дали е възможно.

„ Дори в случай че механически може да се случи, въпросът е дали би трябвало “, споделя той. „ В последна сметка правната система ще би трябвало да сложи границите. “

Залогът е голям. Ако съдилищата стартират редовно да одобряват, че AI моделите съхраняват и възпроизвеждат предпазено наличие, това може да принуди промишлеността да заплаща огромни лицензионни такси, да усили разноските за разработка и да забави темпа на нововъведения. Това би трансформирало фундаментално бизнес модела на бранш, който към този момент се трансформира в гръбнак на световната софтуерна стопанска система.
Източник: profit.bg


СПОДЕЛИ СТАТИЯТА


КОМЕНТАРИ
НАПИШИ КОМЕНТАР