Ново изследване оспорва ключов аргумент на AI индустрията за авторските права
От години AI фирмите – измежду които Гугъл, Meta, Anthropic и OpenAI – настояват, че огромните им езикови модели не „ съхраняват “ предпазена с авторско право информация. Вместо това, съгласно тях, те „ се образоват “ посредством данните по метод, подобен с този, по който се учат и хората.
Това разграничаване е деликатно дефинирано и стои в основата на отбраната им против лавината от правосъдни каузи, която залива бранша, споделя изданието Futurism.
Това не е инцидентно – въпросът „ по какъв начин AI се учи от информацията, която му предоставяме “, опира непосредствено до ядрото на авторските права.
По силата на Закона за авторското право на Съединени американски щати от 1976 година притежателят на права има изключителното право да „ възпроизвежда, приспособява, популяризира, обществено извършва и обществено демонстрира “ обещано произведение. Същевременно доктрината за fair use позволява лимитирано потребление на предпазени материали за цели като рецензия, публицистика или научни проучвания. Именно на това се опира отбраната на AI промишлеността.
Главният изпълнителен шеф на OpenAI Сам Алтман даже твърди, че „ всичко завършва “, в случай че на фирмите не бъде разрешено свободно да употребяват предпазени данни за образование на модели.
Правата против логаритмите
Притежателите на авторски права обаче от дълго време оспорват тази логичност. Те упрекват AI фирмите, че образоват моделите си върху пиратски и предпазени творби, които по-късно монетизират, без да възнаграждават създатели, публицисти и актьори. Тази правна борба продължава от години и към този момент е довела до шумни извънсъдебни съглашения.
Сега обаче ново проучване може съществено да наклони везните. Учени от Станфордския университет и Йейлския университет показват безапелационни доказателства, че моделите за изкуствен интелект не просто „ се образоват “, а действително копират огромни размери от обучителните си данни.
Изследователите тестват четири водещи езикови модела – GPT-4.1, Gemini 2.5 Pro, Grok 3 и Claude 3.7 Sonnet – и откриват, че те възпроизвеждат дълги фрагменти от известни, предпазени с авторско право творби с изненадваща акуратност.
Според изследването Claude възпроизвежда „ цели книги съвсем буквално “ с акуратност от 95,8%. Gemini съумява да пресъздаде Harry Potter and the Sorcerer’s Stone с акуратност 76,8%, а Claude възпроизвежда 1984 с над 94% съвпадане по отношение на истинския текст.
„ Въпреки че мнозина имат вяра, че огромните езикови модели не запаметяват обилни елементи от обучителните си данни, последните проучвания демонстрират, че от отворени модели могат да бъдат извлечени обилни количества предпазен текст “, пишат създателите на изследването.
Част от тези възпроизвеждания са реализирани посредством техника, известна като Best-of-N, която съставлява неведнъж подаване на вариации на един и същи промпт.
Подобни „ заобиколни пътища “ към този момент са употребявани от OpenAI в своя отбрана по дело, заведено от The New York Times, като компанията твърдеше, че „ елементарните консуматори не употребяват продуктите по този метод “.
Въпреки това новите данни идват в изключително сензитивен миг – до момента в който съдилища в Съединени американски щати преглеждат поредност от каузи за нарушение на авторски права. Както отбелязва журналистът Алекс Райснър от The Atlantic, резултатите подкопават основния мотив на промишлеността, че моделите „ учат “, а не съхраняват и възпроизвеждат информация.
Ако съдилищата възприемат тази интерпретация, залогът е сериозен: евентуална правна отговорност за милиарди долари и фундаментално пренареждане на метода, по който AI моделите се образоват и пускат на пазара.
За промишленост, построена върху мащаб и данни, това може да се окаже най-скъпият тест до момента.
Това разграничаване е деликатно дефинирано и стои в основата на отбраната им против лавината от правосъдни каузи, която залива бранша, споделя изданието Futurism.
Това не е инцидентно – въпросът „ по какъв начин AI се учи от информацията, която му предоставяме “, опира непосредствено до ядрото на авторските права.
По силата на Закона за авторското право на Съединени американски щати от 1976 година притежателят на права има изключителното право да „ възпроизвежда, приспособява, популяризира, обществено извършва и обществено демонстрира “ обещано произведение. Същевременно доктрината за fair use позволява лимитирано потребление на предпазени материали за цели като рецензия, публицистика или научни проучвания. Именно на това се опира отбраната на AI промишлеността.
Главният изпълнителен шеф на OpenAI Сам Алтман даже твърди, че „ всичко завършва “, в случай че на фирмите не бъде разрешено свободно да употребяват предпазени данни за образование на модели.
Правата против логаритмите
Притежателите на авторски права обаче от дълго време оспорват тази логичност. Те упрекват AI фирмите, че образоват моделите си върху пиратски и предпазени творби, които по-късно монетизират, без да възнаграждават създатели, публицисти и актьори. Тази правна борба продължава от години и към този момент е довела до шумни извънсъдебни съглашения.
Сега обаче ново проучване може съществено да наклони везните. Учени от Станфордския университет и Йейлския университет показват безапелационни доказателства, че моделите за изкуствен интелект не просто „ се образоват “, а действително копират огромни размери от обучителните си данни.
Изследователите тестват четири водещи езикови модела – GPT-4.1, Gemini 2.5 Pro, Grok 3 и Claude 3.7 Sonnet – и откриват, че те възпроизвеждат дълги фрагменти от известни, предпазени с авторско право творби с изненадваща акуратност.
Според изследването Claude възпроизвежда „ цели книги съвсем буквално “ с акуратност от 95,8%. Gemini съумява да пресъздаде Harry Potter and the Sorcerer’s Stone с акуратност 76,8%, а Claude възпроизвежда 1984 с над 94% съвпадане по отношение на истинския текст.
„ Въпреки че мнозина имат вяра, че огромните езикови модели не запаметяват обилни елементи от обучителните си данни, последните проучвания демонстрират, че от отворени модели могат да бъдат извлечени обилни количества предпазен текст “, пишат създателите на изследването.
Част от тези възпроизвеждания са реализирани посредством техника, известна като Best-of-N, която съставлява неведнъж подаване на вариации на един и същи промпт.
Подобни „ заобиколни пътища “ към този момент са употребявани от OpenAI в своя отбрана по дело, заведено от The New York Times, като компанията твърдеше, че „ елементарните консуматори не употребяват продуктите по този метод “.
Въпреки това новите данни идват в изключително сензитивен миг – до момента в който съдилища в Съединени американски щати преглеждат поредност от каузи за нарушение на авторски права. Както отбелязва журналистът Алекс Райснър от The Atlantic, резултатите подкопават основния мотив на промишлеността, че моделите „ учат “, а не съхраняват и възпроизвеждат информация.
Ако съдилищата възприемат тази интерпретация, залогът е сериозен: евентуална правна отговорност за милиарди долари и фундаментално пренареждане на метода, по който AI моделите се образоват и пускат на пазара.
За промишленост, построена върху мащаб и данни, това може да се окаже най-скъпият тест до момента.
Източник: profit.bg
КОМЕНТАРИ




