Изглежда невъзможно да се обучат AI моделите без използване на

Откритие: Всички големи AI модели нарушават авторски права

Изглежда невероятно да се обучат AI моделите без потребление на предпазени материали
(снимка: CC0 Public Domain)

Едва ли е изненада за множеството хора, които към този момент имат допир с изкуствения разсъдък : всички водещи огромни езикови модели нарушават авторските права, откри проучване. Най-популярният от тях, GPT-4, е и най-големият извършител.

Изследователската компания за изкуствен интелект Patronus AI, учредена от някогашни чиновници на Meta, изследва какъв брой постоянно водещите огромни езикови модели (LLM) основават наличие, което нарушава авторските права. Компанията тества GPT-4 на OpenAI, Claude 2 на Anthropic, Llama 2 на Meta и Mixtral на Mistral AI, сравнявайки отговорите на модела с текст от известни книги. „ Лидер ” по нарушавания е моделът GPT-4, който генерира текст, предпазен с авторски права, приблизително в 44% от поръчките.

Patronus AI, която в това време пусна своя нов инструмент CopyrightCatcher, разгласява резултатите от тест, проявяващ какъв брой постоянно четири водещи AI модела дават отговор на потребителски запитвания, употребявайки предпазен с авторски права текст. Според изследването, нито една известна книга не е ваксинирана против нарушение на авторски права от водещите AI модели.

„ Открихме предпазено с авторски права наличие във всички модели, които оценихме, както с отворен, по този начин и със затворен код ”, показа Ребека Чиан, съосновател и основен механически шеф на Patronus AI, представена от CNBC. Данните сочат, че GPT-4 на OpenAI, най-мощният и известен модел, генерира предпазено с авторски права наличие в отговор на 44% от поръчките.

Patronus тества AI моделите, употребявайки книги, предпазени от авторско право в Съединени американски щати, като избира известни заглавия от каталога на Goodreads. Изследователите са създали 100 разнообразни улики, които могат да се смятат за провокативни. По-специално, те питат модела за наличието на първия параграф от книгата и упорстват AI да продължи текста след откъс от романа. Освен това моделите е трябвало да допълват текста на книгите въз основа на тяхното заглавие.
още по темата
GPT-4 се показва по-зле във възпроизвеждането на предпазено с авторски права наличие и е „ по-малко внимателен ” от другите. Когато е помолен да продължи текста, в 60% от случаите GPT-4 дава цели фрагменти от книгата и демонстрира първия параграф в отговор на всяко четвърто искане.

Claude 2 на Anthropic се оказва по-заблуждаващ – когато е помолен да продължи текста, той основава предпазено с авторски права наличие единствено в 16% от случаите и в никакъв случай не връща фрагмент от началото на книгата като отговор. В същото време Claude 2 осведоми откривателите, че е AI помощник, който няма достъп до книги, предпазени с авторски права, само че в някои случаи въпреки всичко дава началните редове на разказ или обобщение от началото на книгата.

Моделът Mistral продължава първия абзац на книгата в 38% от времето, само че единствено 6% от времето продължава фразата на поръчка с фрагмент от книгата. Llama 2 на Meta дава отговор със наличие, предпазено с авторски права, на 10% от поръчките за първи параграф и 10% от поръчките за дотъкмяване на изречение.

„ Като цяло фактът, че всички езикови модели основават буквално предпазено с авторски права наличие, беше в действителност неочакван ”, разяснява Ананд Канапан, съосновател и основен изпълнителен шеф на Patronus AI, някогашна Meta Reality Labs. „ Не осъзнавахме, че ще бъде релативно елементарно да създадем този тип буквално наличие ”.

Констатациите от изследването идват в миг на възходящо напрежение сред основателите на AI модели и издателите, създателите и художниците, поради потреблението на предпазени с авторски права материали за образование по LLM. Спомнете си единствено нашумялото дело сред The New York Times и OpenAI, което някои анализатори считат за повратна точка за промишлеността. Многомилиардното дело на новинарското издание, заведено през декември, се стреми да държи Microsoft и OpenAI виновни за редовно нарушение на авторските права на изявленията при образование на AI модели.

Позицията на OpenAI е, че „ защото авторското право през днешния ден покрива на практика всички форми на човешко изложение, в това число изявления в блогове, фотоси, изявления във конгреси, кодови фрагменти и държавни документи, би било невероятно да се обучат днешните водещи AI модели без да се употребяват материали, предпазени с авторски права ”.

Според представители на OpenAI, ограничението на данните за образование до книги и рисунки, които са публично притежание, основани преди повече от век, може да бъде забавен опит, само че няма да обезпечи AI системи, които дават отговор на потребностите на сегашното и бъдещето.

Откритие: Всички големи AI модели нарушават авторски права

откритие всички

всички големи

големи модели

модели нарушават

нарушават авторски

авторски права

откритие

всички

големи

модели

нарушават

авторски

права