И почти нищо не можем да направим, за да попречим

Как генеративният AI използва данни от всички нас

И съвсем нищо не можем да създадем, с цел да попречим на този развой - би трябвало ни машина на времето

Доброволните задължения на огромните ИТ компании да опазват персоналните данни при създаване на генеративен AI изискват равнище на доверие, което тези корпорации не са заслужили, споделят специалисти (снимка: CC0 Public Domain)

Кой може да каже от кое място и по какъв начин добиват данни фирмите, които създават генеративни AI логаритми и ги „ образоват “? Въпреки привидните старания за запазване на персоналната цялост, данните, които тези AI системи събират и употребяват, с цел да се самообучават, най-вероятно включват персонални данни на всекиго от нас.

Има доста полемики по отношение на евентуалната щета, която комплицираните генеративни AI системи могат да донесат на обществеността. Това, което вършат с нашите данни, е един от огромните проблеми.

Лесни за “изяждане ” данни

Знаем доста малко по въпроса от кое място генеративните модели получават петабайтите данни, от които се нуждаят за „ подготовка “, по какъв начин се употребяват тези данни и какви отбрани се ползват за тази сензитивна информация – в случай че въобще има такива. Компаниите, които създават тези системи, не споделят доста по тематиката.

„ До този миг софтуерните компании не са правили това, което вършат в този момент с генеративния AI, а точно – да вземат информацията на хората и да я подават в артикул, който по-късно може да способства за професионалното заличаване на същите тези хора и изцяло да съсипе неприкосновеността им по способи, невъобразими до момента “, споделя Райън Кларксън, чиято адвокатска адвокатска фирма стои зад групови искове против най-големите ИТ корпорации, разработващи генеративни AI.

Тогава какво можем да създадем за отбраната на своите персонални данни? Отговорът – евентуално не доста.

Простичко казано, генеративните AI системи се нуждаят от допустимо най-вече данни, на които да се образоват. Колкото повече данни „ ядат “, толкоз по-добре могат да се приближат до звученето на същинската човешка тирада, да приказват и пишат като човек.
още по темата
Интернет дава големи количества данни, които са релативно лесни за „ изяждане “ посредством принадлежности за скрапиране и API. Но този развой на усвояване не прави разлика сред данните – обществено налични, персонални или предпазени с авторски права; щом данните са там, логаритъмът ще ги вземе.

„ При неналичието на смислени разпореждания по отношение на поверителността това значи, че логаритмите могат да гребат с цялостни шепи в действителност из целия интернет, да вземат всичко, което е „ обществено налично “ – и просто да го употребяват в своите артикули “, споделя Бен Уинтърс, който управлява плана за изкуствен интелект и човешки права на Центъра за информация за електронна дискретност и е съавтор на неговия отчет за евентуалните вреди от генеративните AI.

А това значи, че е напълно допустимо – без да знаем и без да знаят доста от фирмите, чиито уеб сайтове биват скрапирани – някъде някой стартъп да взема и употребява нашите данни, споделени в уеб страниците на тези компании – с цел да образова технология, за която даже не подозираме, че е допустима.

Тези данни може да са били оповестени в интернет години преди въпросните компании да съществуват. Може въобще да не са оповестени от самите нас! Или може сме си мислели, че предоставяме своите данни на даден уебсайт за една цел, което е било добре по това време, само че в този момент към този момент тези данни се употребяват за нещо напълно друго…

Променливи политики за дискретност

В същото време политиките за дискретност на доста уеб-компании непрекъснато се актуализират и трансформират. И нищо чудно да разрешават на компаниите да вършат тъкмо описаното.

Тези известия за промени в политиките постоянно споделят нещо от рода на това по какъв начин „ вашите данни могат да бъдат употребявани за възстановяване на нашите съществуващи артикули “ или пък за създаването на нови. И това звучи добре. Но евентуално в действителност включва тъкмо генеративните AI системи.

От друга страна, огромните ИТ компании, които основават обществени услуги като да вземем за пример уеб-базирана е-поща или уеб-базирани споделени документи, споделят, че не употребяват персонални данни от въпросните уеб-услуги за образование на своите езикови модели. Казват го в този момент. И може би даже е правилно. Но няма гаранция, че няма да го създадат в бъдеще. Особено в случай че това ще значи приемане на конкурентно преимущество.

Бизнес без задръжки

Може би всички ще си спомним случая с Cambridge Analytica и това би трябвало да ни приказва доста – в търсене на доходи и облаги огромните корпорации нямат никакви задръжки да употребяват огромни размери персонални данни, да ги сканират, продават на трети страни и така нататък А потребителите имаме доста аргументи да не одобряваме за чиста монета непрекъснатите уверения по отношение на опазването на поверителността на данните.

„ Доброволните задължения на огромните ИТ компании [да опазват персоналните данни] изискват равнище на доверие, което те не заслужават, не са извоювали “, сподели Кларксън.

Ще ни би трябвало машина на времето

Е, а можем ли ние самите да създадем нещо по този въпрос тогава? Надали. Много от проблемите с поверителността през днешния ден са резултат от това, че законите за опазването на персоналната цялост са писани в предишното, преди да се появят тези генеративни AI логаритми, преди те да имат потребност да скрапират големи размери данни, преди да стартират да се самообучават.

Можем да ограничим количеството данни, които публикуваме, и да маркираме всички чекбоксове за неизползване от огромните AI, само че не можем да върнем времето обратно и да създадем същото за своите данни отпреди 10, 15 или 20 години. Почти няма по какъв начин да създадем неизползваемо всичко това, което към този момент е било преровено и употребявано за трениране на някой AI. За това ще ни би трябвало машина на времето – само че такава към момента няма.