При GPT-4 нарушенията са най-много Светлин Желев 22:05

Водещите големи езикови модели масово нарушават авторските права

При GPT-4 нарушаванията са най-вече

Светлин Желев 22:05 | 06.03.2024 0 Сподели

Най-четени

IT НовиниДаниел Десподов - 17:53 | 05.03.2024

Открито е удостоверение на хипотезата за „ РНК света “

ХардуерДаниел Десподов - 14:09 | 04.03.2024

Твърде подло: съветският „ Сбер “ мощно утежни качеството на изображенията във към този момент закупените тв приемници

ХардуерЕмил Василев - 8:43 | 04.03.2024

Руските преносими компютри „ СИЛА “ ще се доставят с авансово конфигурираната Оценка за съвместимост Uncom

Светлин Желевhttps://www.kaldata.com/Главен редактор

Patronus AI, компания за проучвания в региона на изкуствения разсъдък, учредена от някогашни чиновници на Meta, е проучила какъв брой постоянно водещите огромни езикови модели (LLM) основават наличие, нарушаващо авторските права.

Компанията тества GPT-4 на OpenAI, Claude 2 на Anthropic, Llama 2 на Meta и Mixtral AI на Mistral. Тя съпоставя реакциите на моделите на текст от известни книги. „ Лидерът “ е GPT-4, който дава приблизително по 44% от поръчките текст, предпазен с авторски права.

Едновременно с стартирането на новия си инструмент CopyrightCatcher, Patronus AI разгласява резултатите от тест. Той е предопределен да покаже какъв брой постоянно четирите водещи модела на изкуствен интелект дават отговор на потребителски запитвания, употребявайки текст, предпазен с авторско право.

Според изследването, оповестено от Patronus AI, нито една от известните книги не е предпазена от нарушение на авторските права от страна на водещите AI модели

„ Открихме наличие, предпазено с авторски права, във всички модели, които оценявахме, както с отворен, по този начин и със затворен код “, споделя Ребека Циан, съосновател и основен механически шеф на Patronus AI. Тя означи, че GPT-4 на OpenAI, може би най-мощният и известен модел, основава предпазено с авторски права наличие в отговор на 44% от поръчките.

Patronus тества моделите на ИИ, като употребява книги, предпазени с авторски права в Съединени американски щати. Специалистите избират известни заглавия от каталога на Goodreads. Изследователите създали 100 разнообразни въпроса, които биха могли да се смятат за провокативни. Тте попитали моделите за наличието на първия параграф на книга и ги помолили да продължат текста след откъс от романа. От моделите се изисквало също по този начин да допълват текста на книгите по тяхното заглавие.

Моделът GPT-4 се показал най-зле във връзка с възпроизвеждането на наличие, предпазено с авторско право, и бил „ по-малко деликатен “ от останалите

Когато бил помолен да продължи текста, той възпроизвеждал цели фрагменти от книги в 60 % от случаите, до момента в който първият абзац от книгата бил показван в един от всеки четири случая.

Клод 2 на Anthropic бил по-труден за заблуждаване. Когато бил помолен да продължи текста, той прибирал наличие, предпазено с авторски права, единствено в 16 % от случаите. Нито един път обаче не връща като отговор фрагмент от началото на книга. Клод 2 споделил на откривателите, че е помощник с изкуствен интелект, който няма достъп до книги със предпазени авторски права. В някои случаи обаче въпреки всичко дал началните редове на разказ или обобщение на началото на книга.

Мистрал продължавал първия абзац на книгата в 38% от случаите. Но единствено в 6% от случаите продължавал фразата на запитването с фрагмент от книгата. Лама 2 на Meta отговарял със наличие, предпазено с авторски права, при 10% от поръчките за първи параграф. Както и при 10% от поръчките за дотъкмяване на фраза.

„ Като цяло фактът, че всички езикови модели генерирали буквално наличие, предпазено с авторски права, е в действителност необикновен “

Това съобщи Ананд Канаппан, съосновател и основен изпълнителен шеф на Patronus AI, преди този момент на Meta Reality Labs. – „ Мисля, че когато за първи път започнахме да го сътворяваме, не осъзнавахме, че ще бъде относително елементарно да се сътвори такова буквално наличие.

Констатациите са най-актуални на фона на изострящите се връзки сред основателите на модели за изкуствен интелект и издателите. А също по този начин създателите и художниците по отношение на потреблението на материали, предпазени с авторски права, за образование по LLM.

Достатъчно е да си напомним нашумелия правосъден развой сред The New York Times и OpenAI. Него някои анализатори считат за повратен миг за промишлеността. Многомилиардният иск на новинарското издание бе подаден през декември. Той има за цел да подведе под отговорност Microsoft и OpenAI. Всичко е поради систематичното нарушение на авторските права на изданието при образованието на модели на изкуствен интелект.

Позицията на OpenAI е, че „ защото авторското право през днешния ден обгръща съвсем всички форми на човешко изложение, в това число изявления в блогове, фотоси, изявления във конгреси, фрагменти от софтуерен код и държавни документи, би било невероятно да се образоват днешните водещи модели на ИИ, без да се употребяват материали, предпазени с авторско право “.

Според OpenAI ограничението на данните за образование до книги и рисунки, основани преди повече от век, които са обществено притежание, може да е забавен опит, само че няма да обезпечи системи за ИИ, които да дават отговор на потребностите на сегашното и бъдещето.