Отравяне на данни: творци саботират генеративните AI
Проблемът опира до ценене на моралните права на създателите и потребителите
Безразборното потребление на картини и фотоси от интернет за образование на AI модели докара до отпор: отравянето на данните (снимка: CC0 Public Domain)
Отравянето на данни в огромните генеративни AI модели става все по-осезаем проблем. Може би ще се намерят софтуерни решения за предотвратяване от сходна операция, само че по-важното е разработчиците на технологията да осъзнаят казуса от позиция на моралните права – и на създателите, и на потребителите.
Представете си, че имате потребност от изображение на балон за своя работна презентация. Насочвате се към генератор на изображения от текст, да вземем за пример Midjourney или DALL-E. Въвеждате подканата: „ червен балон на фона на синьо небе “. Генераторът връща изображение на яйце. Опитвате още веднъж, само че този път генераторът изплюва картинка с пъпеш. Какво става тук? Генераторът, който употребявате, може да е бил „ токсичен “.
Какво е „ отравяне на данни “?
Генераторите на изображения от текст работят, като се образоват върху огромни набори от данни, включващи милиони или милиарди изображения. Някои генератори, като тези, предлагани от Adobe или Getty, се образоват въз основа на изображения, които производителят на генератора има – или най-малкото има лиценз за потреблението им.
Но други генератори биват подготвени посредством безсистемно преравяне на изображения из интернет. А доста от тях са предпазени с авторски права. Тенденцията докара до редица случаи на нарушение на авторските права, при което художници и фотографи започнаха да упрекват огромните софтуерни компании в кражба и облага от работата им.
И ето от кое място идва концепцията за „ отравяне “. Изследователи, които желаят да дадат опция на създателите да подхващат нещо, неотдавна сътвориха инструмент, наименуван „ Nightshade “, с цел да се борят против незаконното преравяне на изображения. Инструментът работи, като тънко трансформира пикселите на изображението по метод, който предизвиква безпорядък в работата на компютърното зрение, само че въпреки всичко оставя изображението непроменено за човешкото око.
Ако по-късно дадена организация употребява някое от тези изображения, с цел да образова предстоящ AI модел, нейният пул от данни става „ токсичен “. Това може да докара до такава степен, че логаритъмът да се научи неправилно да класифицира изображението. В резултат, генераторът може да стартира да връща неточни, непредвидими и – явно – нежелани резултати.
Симптоми на отравяне
Един балон може да се окаже яйце. Заявка за изображение в стила на Моне може да върне изображение в стила на Пикасо.
Възможно е да се върнат някои от проблемите с по-ранните AI модели, като дефектите при точното обрисуване на ръце, да вземем за пример. Моделите могат да вкарат и други странни и нелогични характерности в изображенията – примерно кучета с по шест крайници.
Колкото по-голям е броят на „ отровените “ изображения в данните за образование, толкоз по-голямо е разстройването. Поради метода, по който работи генеративният изкуствен интелект, вредите от „ отровени “ изображения засягат и основните думи в обвързваните „ подкани “.
Например, в случай че в данните за образование се употребява „ отровено “ изображение на състезателен автомобил от една марка, то резултатите за други марки коли и също могат да се окажат „ оплескани “, а дори и резултатите по отношение на други термини, свързани с автомобилизма.
Разработчикът на „ Nightshade “ се надява, че инструментът ще накара огромните софтуерни компании да се замислят и да зачитат по-сериозно авторските права. Но също по този начин е допустимо потребителите да стартират злоупотребяват с инструмента и съзнателно да качват „ отровени “ изображения в генераторите, с цел да се скапват качеството на услугите им.
Има ли противоотрова?
Като реакция на протичащото се някои експерти предложиха набор от софтуерни и чисто човешки решения. Най-очевидното е да се обръща по-голямо внимание на това от кое място идват входните данни и какви са правата за тяхното потребление. Това би трябвало да докара до по-малко безсистемно събиране на данни.
Подходът е в прорез с убеждението, което битува измежду някои компютърни експерти: че данните, открити онлайн, могат да се употребяват за всевъзможни цели, които те считат за подобаващи.
Друго софтуерно решение е потреблението на „ ансамблово моделиране “, където разнообразни модели се образоват върху доста разнообразни подмножества от данни и се съпоставят, с цел да се открият характерни отклонения. Този метод може да се употребява освен за образование, само че и за разкриване и изхвърляне на хипотетични „ отровени “ изображения.
Одитите също са допустимо средство. Прилагането на одит значи създаване на „ тестова батерия “ – дребен, добре селекциониран и добре етикетиран набор от данни – като се употребяват „ задържащи “ данни, които в никакъв случай не се употребяват за образование. След това въпросният набор може да се употребява за инспекция на точността на модела.
Стратегии против технологиите
Така наречените „ враждебни подходи “ (тези, които утежняват, мамят или манипулират AI системи), в това число отравянето на данни, не са нищо ново. Те могат да включват и потреблението на грим и костюми за мамене на системите за лицево различаване.
Активистите за правата на индивида, да вземем за пример, са загрижени за безразборното потребление на машинно зрение на публични места. Тази тревога е изключително остра във връзка с разпознаването на лица. Системи като Clearview AI, която поддържа солидна база данни с опция за търсене на лица, извлечени от интернет, се употребяват от правоприлагащите органи и държавните организации по целия свят. През 2021 година обаче държавното управление на Австралия призна, че Clearview AI нарушава поверителността на жителите.
Като част от съпротивата против системите за лицево различаване, употребявани за профилиране на съответни лица, някои художници даже измислиха мамещи модели на грим и облекла с назъбени цветови линии и асиметрични криви, които пречат на системите за наблюдаване да ги разпознават.
Има ясна връзка сред тези случаи и казуса с отравянето на данни. И двата са свързани с по-съществени въпроси по отношение на ръководството на технологиите. Много снабдители на технологии биха счели отравянето на данни за скучен проблем, който би трябвало да бъде поправен с софтуерни решения. Но може би въпреки всичко е по-добре да преглеждаме отравянето на данни от позиция на главните морални права на създателите и потребителите.
Безразборното потребление на картини и фотоси от интернет за образование на AI модели докара до отпор: отравянето на данните (снимка: CC0 Public Domain)
Отравянето на данни в огромните генеративни AI модели става все по-осезаем проблем. Може би ще се намерят софтуерни решения за предотвратяване от сходна операция, само че по-важното е разработчиците на технологията да осъзнаят казуса от позиция на моралните права – и на създателите, и на потребителите.
Представете си, че имате потребност от изображение на балон за своя работна презентация. Насочвате се към генератор на изображения от текст, да вземем за пример Midjourney или DALL-E. Въвеждате подканата: „ червен балон на фона на синьо небе “. Генераторът връща изображение на яйце. Опитвате още веднъж, само че този път генераторът изплюва картинка с пъпеш. Какво става тук? Генераторът, който употребявате, може да е бил „ токсичен “.
Какво е „ отравяне на данни “?
Генераторите на изображения от текст работят, като се образоват върху огромни набори от данни, включващи милиони или милиарди изображения. Някои генератори, като тези, предлагани от Adobe или Getty, се образоват въз основа на изображения, които производителят на генератора има – или най-малкото има лиценз за потреблението им.
Но други генератори биват подготвени посредством безсистемно преравяне на изображения из интернет. А доста от тях са предпазени с авторски права. Тенденцията докара до редица случаи на нарушение на авторските права, при което художници и фотографи започнаха да упрекват огромните софтуерни компании в кражба и облага от работата им.
И ето от кое място идва концепцията за „ отравяне “. Изследователи, които желаят да дадат опция на създателите да подхващат нещо, неотдавна сътвориха инструмент, наименуван „ Nightshade “, с цел да се борят против незаконното преравяне на изображения. Инструментът работи, като тънко трансформира пикселите на изображението по метод, който предизвиква безпорядък в работата на компютърното зрение, само че въпреки всичко оставя изображението непроменено за човешкото око.
Ако по-късно дадена организация употребява някое от тези изображения, с цел да образова предстоящ AI модел, нейният пул от данни става „ токсичен “. Това може да докара до такава степен, че логаритъмът да се научи неправилно да класифицира изображението. В резултат, генераторът може да стартира да връща неточни, непредвидими и – явно – нежелани резултати.
Симптоми на отравяне
Един балон може да се окаже яйце. Заявка за изображение в стила на Моне може да върне изображение в стила на Пикасо.
Възможно е да се върнат някои от проблемите с по-ранните AI модели, като дефектите при точното обрисуване на ръце, да вземем за пример. Моделите могат да вкарат и други странни и нелогични характерности в изображенията – примерно кучета с по шест крайници.
Колкото по-голям е броят на „ отровените “ изображения в данните за образование, толкоз по-голямо е разстройването. Поради метода, по който работи генеративният изкуствен интелект, вредите от „ отровени “ изображения засягат и основните думи в обвързваните „ подкани “.
Например, в случай че в данните за образование се употребява „ отровено “ изображение на състезателен автомобил от една марка, то резултатите за други марки коли и също могат да се окажат „ оплескани “, а дори и резултатите по отношение на други термини, свързани с автомобилизма.
Разработчикът на „ Nightshade “ се надява, че инструментът ще накара огромните софтуерни компании да се замислят и да зачитат по-сериозно авторските права. Но също по този начин е допустимо потребителите да стартират злоупотребяват с инструмента и съзнателно да качват „ отровени “ изображения в генераторите, с цел да се скапват качеството на услугите им.
Има ли противоотрова?
Като реакция на протичащото се някои експерти предложиха набор от софтуерни и чисто човешки решения. Най-очевидното е да се обръща по-голямо внимание на това от кое място идват входните данни и какви са правата за тяхното потребление. Това би трябвало да докара до по-малко безсистемно събиране на данни.
Подходът е в прорез с убеждението, което битува измежду някои компютърни експерти: че данните, открити онлайн, могат да се употребяват за всевъзможни цели, които те считат за подобаващи.
Друго софтуерно решение е потреблението на „ ансамблово моделиране “, където разнообразни модели се образоват върху доста разнообразни подмножества от данни и се съпоставят, с цел да се открият характерни отклонения. Този метод може да се употребява освен за образование, само че и за разкриване и изхвърляне на хипотетични „ отровени “ изображения.
Одитите също са допустимо средство. Прилагането на одит значи създаване на „ тестова батерия “ – дребен, добре селекциониран и добре етикетиран набор от данни – като се употребяват „ задържащи “ данни, които в никакъв случай не се употребяват за образование. След това въпросният набор може да се употребява за инспекция на точността на модела.
Стратегии против технологиите
Така наречените „ враждебни подходи “ (тези, които утежняват, мамят или манипулират AI системи), в това число отравянето на данни, не са нищо ново. Те могат да включват и потреблението на грим и костюми за мамене на системите за лицево различаване.
Активистите за правата на индивида, да вземем за пример, са загрижени за безразборното потребление на машинно зрение на публични места. Тази тревога е изключително остра във връзка с разпознаването на лица. Системи като Clearview AI, която поддържа солидна база данни с опция за търсене на лица, извлечени от интернет, се употребяват от правоприлагащите органи и държавните организации по целия свят. През 2021 година обаче държавното управление на Австралия призна, че Clearview AI нарушава поверителността на жителите.
Като част от съпротивата против системите за лицево различаване, употребявани за профилиране на съответни лица, някои художници даже измислиха мамещи модели на грим и облекла с назъбени цветови линии и асиметрични криви, които пречат на системите за наблюдаване да ги разпознават.
Има ясна връзка сред тези случаи и казуса с отравянето на данни. И двата са свързани с по-съществени въпроси по отношение на ръководството на технологиите. Много снабдители на технологии биха счели отравянето на данни за скучен проблем, който би трябвало да бъде поправен с софтуерни решения. Но може би въпреки всичко е по-добре да преглеждаме отравянето на данни от позиция на главните морални права на създателите и потребителите.
Източник: technews.bg
КОМЕНТАРИ




