Технологичните компании крият какво точно хранят“ изкуствения интелект /ИИ/, така

...
Технологичните компании крият какво точно хранят“ изкуствения интелект /ИИ/, така
Коментари Харесай

Кои са секретните сайтове, които дават на ChatGPT съкрушителни сили

Технологичните компании крият какво тъкмо " хранят “ изкуствения разсъдък /ИИ/, тъй че редакторите на The Washington Post взеха решение да проучват набора от данни на Гугъл C4, с цел да схванат кои уеб сайтове и запаси са употребявани за образование на невронни мрежи. Резултатите ще ви изненадат.

През последните четири месеца задвижваните от изкуствен интелект чатботове избухнаха в известност, удивлявайки обществеността с невероятните си качества – без значение дали става въпрос за писане на комплицирани курсови работи или водене на плашещо смислени диалози.

Чатботовете не могат да мислят като хората, те в действителност не схващат какво споделят. Те могат единствено да имитират човешка тирада, защото изкуственият разсъдък, на който са основани, е погълнал голям масив от текстове, нормално взети от интернет.

Тези текстове са главният източник на информация за изкуствения разсъдък за света към тях. В доста връзки те предопределят по какъв начин ще реагира на потребителските поръчки. Така че, в случай че е издържал адвокатския изпит, да вземем за пример, евентуално е единствено тъй като данните за образованието включват хиляди проби, с цел да влезе в юридическия факултет.

От известно време софтуерните компании започнаха да крият с какво тъкмо " хранят “ ИИ. Затова The Washington Post реши да проучва наборите от данни, с цел да разбере дали персонални данни или обидни уеб сайтове са се промъкнали в просветителния материал.

Отваряне на черната кутия

В опит да погледнем оттатък черната кутия, ние анализирахме гигантския набор от данни Гугъл C4, моментна фотография на наличието на 15 милиона уеб страницата, което е употребявано за образование на " огромни езикови модели “ от висок клас на британски – по-специално T5 на Гугъл и LLaMA Фейсбук *. (OpenAI не разкрива какви набори от данни образова модели за известния чатбот ChatGPT)

В взаимно следствие с Института за изкуствен интелект, The Washington Post класифицира уеб страници въз основа на уеб разбори от Similarweb. Около една трета от уеб страниците не могат да бъдат класифицирани, основно тъй като към този момент не съществуват в интернет. Ние ги изключихме.

Останалите 10 милиона уеб страницата бяха класирани по по този начин наречените " маркери “ в набора от данни. Маркерите в този случай значат дребни фрагменти от текст, употребявани за обработка на информация - като предписание това са обособени думи или изречения.

От Wikipedia до Wowhead

В набора от данни бяха открити уеб сайтове с доста разнообразни направления: от публицистика, развлечения, разработка на програмен продукт и медицина до основаване на наличие. Това допуска, че тези области са най-застрашени от новата вълна на изкуствения разсъдък. Първите три уеб страницата бяха patchs.google.com (първо място) с текстове от международни патенти; безвъзмездна онлайн енциклопедия wikipedia.org (второ място); и платената цифрова библиотека scribd.com. Но в това време относително високо място (190-то) беше заето от скандалния уебсайт за пиратски електронни книги b-ok.org, който от този момент беше затворен от Министерството на правораздаването на Съединени американски щати. В същото време минимум 27 други уеб страницата, разпознати от държавното управление на Съединени американски щати като пиратски, попаднаха в набора от данни.

Изборът на известни уеб сайтове ни се стори случаен, като форума на играчите на World of Warcraft wowhead.com (181-во място), изгорелия артикул на Ариана Хъфингтън thriveglobal.com (175-о място) и минимум 10 уеб страницата за контейнери за отпадък., в това число към този момент недостъпния dumpsteroid. com (183-то).

Други уеб сайтове повдигат съществени опасения за поверителността. Два от първите 100 уеб страницата – coloradovors.info (40-то място) и flvoters.com (73-то място) – имат частно оповестени копия на бази данни с държавни гласоподаватели. Въпреки че данните за гласоподавателите са обществено налични, моделите на AI могат да употребяват персонална информация по незнайни способи.

Съдържание без единодушие

Най-голямата категория е формирана от бизнес и индустриални уеб сайтове (16% от маркерите), водени от Fool.com (13-ти), който дава капиталови препоръки. По отношение на броя на жетоните, уеб сайтът за набиране на средства за творчество kickstarter.com (25-то място) и patreon.com (2398-мо място), където основателите събират месечни такси от клиентите за извънредно наличие, са компактно зад тях.

С помощта на Kickstarter и Patreon AI може да има достъп до креативните хрумвания на други хора и да ги заема за личната си работа. Днес художниците не получават никаква отплата, в случай че работата им е включена в данните за образование на AI, и те към този момент са завели правосъдни каузи за нарушение на авторски права против генератори на текстови изображения Stable Diffusion, MidJourney и DeviantArt.

Нашият разбор допуска, че в бъдеще могат да зародят други правни провокации: признакът за авторско право за произведение, записано като интелектуална благосъстоятелност, се среща над 200 милиона пъти единствено в набора от данни C4.

Всички вести

Трето място зае категорията " Новини и медии “. Но в това време изявленията съставляват половината от десетте най-популярни уеб страницата във всички категории: nytimes.com (4-то), latimes.com (6-то), theguardian.com (7-мо), forbes.com (8-мо) и huffpost. com (9-ти). Washingtonpost.com се настани наоколо, на номер 11. Подобно на актьори и създатели, някои публицисти към този момент подлагаха на критика софтуерните компании за потреблението на тяхното наличие без позволение или отплата.

Наред с други неща, открихме редица изявления, чиято надеждност по самостоятелната канара на NewsGuard е съмнителна: десният новинарски уебсайт breitbart.com (159-то място) и уебсайтът срещу имиграцията, насърчаващ белия национализъм, vdare.com (993-то).

Установено е, че чатботовете непрекъснато дават погрешна информация и не постоянно дават връзки. Ненадеждните данни за образование могат да влошат пристрастията, пропагандните пристрастия и дезинформацията, като в същото време затрудняват следенето до истинския източник.

Религиозните обекти отразяват западната позиция

Около 5% от наличието се пада на уеб сайтове на обществена тема, като в тази категория доминира религията. Сред първите 20 религиозни обекта 14 са били християнски, два са еврейски, един е мюсюлмански, един е мормонски, един е на Йехова и един популяризира всички религии.

Най-популярният християнски уебсайт Grace to You (gty.org, 164th) принадлежи на евангелската черква Grace to You в Калифорния. Christianity Today неотдавна заяви, че тя е посъветвала дамите да " не престават да се подчиняват “ на насилниците и съпрузите и да не се оплакват от тях на управляващите.

Най-високо класираният еврейски уебсайт е jewishworldreview.com, онлайн списание за ортодоксални евреи (366-то място). През декември той разгласява обява за Ханука, в която упреква за повишаването на антисемитизма в Съединени американски щати " крайнодесния, фундаменталистки ислям “, както и " повлияната от афро-американската общественост животът на чернокожите е значим “.

Антимюсюлманските предубеждения се трансфораха в проблем в редица езикови модели. Така изследване, оповестено в списание Nature, сподели, че в 66% от случаите ChatGPT-3 приключва фразата " Двама мюсюлмани влизат... “ с насилствени дейности.

Много персонални блогове

Втората по величина категория, която съставлява 15% от маркерите, е технологията. Това включва платформи за създаване на уеб страници като site.google.com (85-то място), който хоства страници за всичко - от клуб по джудо в Рединг, Англия до католическа детска градина в Ню Джърси.

Наборът от данни включва над половин милион персонални блогове, или 3,8% от маркерите. Платформата за издание medium.com (46-та), с десетки хиляди блогове, беше петият по величина софтуерен уебсайт. Списъкът включва и блогове в платформи като WordPress, Tumblr, Blogspot и LiveJournal.

Съдържанието на тези дневници е доста друго. Сред тях беше блогът Grumpy Grunt от двама анонимни учени, единият от които неотдавна разказа по какъв начин загубата на работа на сътрудник се е отразила на данъчната им декларация. Друг водещ блог предлага препоръки за ролева игра на герои. Друг известен уебсайт, " Депортирани палестинци “, постоянно написа за " ционисткия тероризъм “ и " ционистката идеология “.

Социалните мрежи като Фейсбук и Twitter - сърцето на актуалния интернет - не разрешават извличането на данни, което значи, че на множеството комплекти за образование на AI е отхвърлен достъп до тях.

Технологични колоси като Фейсбук и Гугъл, с техните великански мини от разговорни данни, не са обяснили ясно по какъв начин персоналната информация на потребителите може да се употребява за образование на AI модели, без значение дали за вътрешна приложимост или за обществена продажба.

Какво са пропуснали филтрите

Подобно на множеството компании, Гугъл деликатно филтрира данните, преди да ги качи в AI (C4 значи " Colossal Cleaned Web-Collected Corpus “). В допълнение към отстраняването на очевидни глупости и повтарящ се текст, компанията употребява " Списък с мръсни, обидни, нецензурни и други неприятни думи “. То е обществено притежание и включва 402 британски думи и един емотикон (ръка с непристоен жест). В допълнение, фирмите нормално употребяват висококачествени набори от данни за фина конфигурация на моделите, предпазвайки потребителите от неуместно наличие.

Въпреки че този черен лист има за цел да ограничи неволното въвеждане на расови обиди и нецензурни думи в образователния развой, знае се, че част от несексуално ЛГБТ наличие също се изключва по този метод. В същото време, както демонстрираха минали изследвания, доста неща минават безвредно през филтрите. Открихме стотици образци за нецензурен уеб сайтове и над 72 000 образеца за " свастика “, един от неразрешените знаци.

Наред с други неща, The Washington Post откри, че филтрите не са съумели да се оправят с набор от смущаващо наличие, в това число уеб страницата на белите шовинисти stormfront.org (27 505 място), уеб страницата срещу транссексуалните kiwifarms.net (378 986 място) и анонимния графичен конгрес 4chan.org (4 339 889-ти).

Открихме също threepercentpatriots.com (8 788 836-то място), към този момент фиктивен уебсайт, който предизвиква антиправителствена идеология и беше посетен от жители, упрекнати по отношение на протеста на Капитолийския рид на 6 януари 2021 година, в този лист. Имаше и уеб страници, популяризиращи тайни легенди, в това число крайнодесните теории на конспирацията QAnon и Pizzagate за хипотетичното владичество на педофилите във Вашингтон.

Вашият уебсайт служи ли като инструмент за образование на ИИ?

Може да наподобява, че приказваме за съвсем копие на целия Интернет, само че това е единствено тип " моментна фотография “, която улавя избрана селекция от страници в избран миг от време. Масивът C4 стартира с добиване на данни от април 2019 година от CommonCrawl, организация с нестопанска цел и известен запас за ИИ модели. CommonCrawl означи, че се пробват да дадат приоритет на най-важните и авторитетни уеб сайтове, като в същото време не се пробват да избегнат лицензирано наличие, което е покрито с авторски права.

Списък с най-популярните уеб сайтове:

1 patents.google.com 0.46%

2 wikipedia.org 0.19%

3 scribd.com 0.07%

4 nytimes.com 0.06%

5 journals.plos.org 0.06%

6 latimes.com 0.05%

7 theguardian.com 0.05%

8 forbes.com 0.05%

9 huffpost.com 0.04%

10 patents.com 0.04%

11 washingtonpost.com 0.03%

12 coursera.org 0.03%

13 fool.com 0.03%

14 frontiersin.org 0.03%

15 instructables.com 0.03%

Въпреки че самият C4 е голям, огромните езикови модели евентуално ще употребяват още по-големи набори от данни, споделят специалисти. И по този начин, наборът за образование за OpenAI GPT-3, публикуван през 2020 година, беше 40 пъти по-голям от масива, извлечен от интернет за C4. Обучителният комплект GPT-3 включваше и цялата Wikipedia на британски език, сбирка от безвъзмездни романи от непубликувани създатели, постоянно употребявани от огромни софтуерни компании, и компилация от текст от връзки, високо оценени от потребителите на Reddit. (Във вторник уеб сайтът Reddit, който постоянно се употребява в модели за образование на ИИ, разгласи, че възнамерява да таксува за това.)

Експертите споделят, че доста компании пазят наличието на своите данни за образование поверително - даже за вътрешна приложимост - от боязън да не разкрият персонална информация, предпазени с авторски права материали и други данни, получени без единодушие.

Тъй като фирмите осъзнават, че е мъчно да се изясни по какъв начин чатботовете вземат решения, това е една област, в която може да се изисква от водачите да бъдат транспарантни.
Източник: varna24.bg

СПОДЕЛИ СТАТИЯТА


Промоции

КОМЕНТАРИ
НАПИШИ КОМЕНТАР