AI може да се обучи изцяло от безплатни материали
Изкуственият разсъдък може да бъде подготвен и въз основата на свободно налично, гратис наличие (снимка: CC0 Public Domain)
Разработчиците на изкуствен интелект обичат да споделят, че техните AI модели биха били невъзможни за основаване без материали, предпазени с авторски права. Група учени от Съединени американски щати и други страни обаче потвърдиха, че създаването на AI с гратис наличие, въпреки и мъчно. Те сътвориха модел, подготвен извънредно върху обществено налично наличие и материали с отворен лиценз.
Проектът е резултат от съдействие сред 14 институции, в това число Масачузетския софтуерен институт, Университета Карнеги Мелън и Университета в Торонто. Изследователите са съставили масив от данни за образование, събрани единствено от свободни източници – размерът му доближава 8 терабайта (TB). По-специално, масивът включва 130 000 книги от Библиотеката на Конгреса на Съединени американски щати.
Използвайки тези материали, откривателите са обучили огромен езиков модел със 7 милиарда параметъра. Той работи почти на равнището на модела Meta Llama 2-7B с сходен размер, публикуван през 2023 година Авторите на проучването не са дали никакви бенчмаркове за продуктивността на модела, по отношение на водещи в промишлеността планове.
Качеството на работа на равнището на двугодишен AI модел не e единственият минус на системата – процесът на превръщане на обучителния набор от данни в верния формат също e сложен. Голяма част от данните не били четими от машини, тъй че в подготовката им е трябвало да вземат участие хора.
„ Използвахме принадлежности за автоматизация, само че всички наши материали бяха анотирани ръчно в края на деня и тествани от хора. А това е доста мъчно ”, споделя един от участниците в плана, представен от Engadget. Учените е трябвало да дефинират кой лиценз е годен за всеки сканиран уебсайт.
През 2024 година OpenAI съобщи пред английска парламентарна комисия, че „ е невероятно да се образоват водещи модерни AI модели, без да се употребяват материали, предпазени с авторски права ”.
Миналата година специалист от Anthropic се съгласи с тази теза: „ Големите езикови модели най-вероятно нямаше да съществуват, в случай че компаниите [за AI] бяха задължени да лицензират работата в своите обучителни набори от данни ”.
Сега има доказателства, че и двете изказвания са погрешни. Проучването е малко евентуално да промени нещо в промишлеността, само че един от постоянно срещаните причини, употребявани от разработчиците на AI, се оказа неверен.
Електрически скутер, като че ли изработен особено за България: F3 Е от Segway
Пъргаво и издръжливо возило за всички, препускащи през градската среда »»»
предишна обява: Нов смартчасовник на Apple с до 200 лева отстъпка от А1 следваща обява:
графа: Изкуствен разсъдък, Новаторски, Новини, Топ вести | етикети: AI модели, изкуствен интелект, образование на AI модели, образование на изкуствен интелект
Коментар
ИМЕ *
Източник: technews.bg
КОМЕНТАРИ




