OpenAI е изтрила двата огромни набора от данни books1“ и

OpenAI унищожи 100 000 книги, по които беше обучен GPT-3. Хората, участвали в това, също изчезнаха някъде

OpenAI е изтрила двата големи набора от данни „ books1 “ и „ books2 “, които са били употребявани за образование на модела GPT-3.

Информацията е на изданието Business Insider, което се базира на правосъден иск от Authors Guild (Гилдия на авторите).

Същността на желае

Адвокатите на Гилдията на създателите обявиха, че наборите от данни на GPT-3 евентуално съдържат „ над 100 000 оповестени книги “. По този метод OpenAI е употребила материали, предпазени с авторско право, за образование на модели на изкуствен интелект.

Справка. Гилдията на създателите е най-старата (създадена през 1912 г.) и най-авторитетната професионална организация на писателите в Съединени американски щати. Тя се занимава със отбрана на свободата на словото и авторското право.

В продължение на няколко месеца Authors Guild изисква от OpenAI да даде информация за употребяваните набори от данни. Първоначално компанията отхвърляше на съображение на разнообразни клаузи за дискретност Но по-късно се оказа, че тя напълно е изтрила всички копия на данните.

Висококачествените данни за образование са значима част от мощните модели на изкуствения разсъдък. OpenAI и други компании употребяват данни от интернет, в това число книги, с цел да основат тези модели.

Много от фирмите, които са основали тази информация, в този момент желаят да им се заплаща за даването на информация за тези нови AI артикули. Технологичните компании не желаят да бъдат принуждавани да заплащат. Именно този спор в този момент се взема решение в съда в границите на няколко правосъдни каузи.

100 000 книги са 16% от обучителните данни на GPT-3

В софтуерната документи за 2020 година OpenAI разказва наборите от данни books1 и books2 като „ корпус от книги от интернет “ и декларира, че като цяло това са 16 % от данните за образование, употребявани за основаването на GPT-3.

В документа се показва също, че „ books1 “ и „ books2 “ дружно съдържат 67 милиарда лексеми, или към 50 милиарда думи.

OpenAI спря да употребява „ books1 “ и „ books2 “ за образование на своите AI модели в края на 2021 година В средата на 2022 година те бяха отстранени. Като причина бе посочено, че към този момент са „ неизползваеми “.

Тази документи също по този начин разкрива, че двамата откриватели, които са основали наборите от данни „ books1 “ и „ books2 “, към този момент не работят за OpenAI. OpenAI отхвърля да разкрие информация за тях, макар че гилдията на създателите упорства, че би трябвало да го направи.

OpenAI изиска от съда да резервира в загадка имената на чиновниците, както и информацията за наборите от данни.

„ Моделите, които ChatGPT и нашият API употребяват през днешния ден, не са основани благодарение на тези набори от данни “,
се споделя в изказване на OpenAI от вторник.