Проф. Мартин Вечев за безобидните разговори с ChatGPT, които могат да струват скъпо
Начинът, по който говорите, може да разкрие доста за вас – изключително в случай че говорите с чатбот. Така стартира публикация на известното интернационално издание Wired, отдадена на ново проучване, ръководено от българина проф. Мартин Вечев, създателят на института за компютърни науки и изкуствен интелект INSAIT в София.
Изследването разкрива, че чатботове, като ChatGPT, могат да извлекат доста сензитивна информация за хората, с които споделят, даже в случай че диалогът е напълно елементарен. Феноменът наподобява се дължи на метода, по който логаритмите на моделите се образоват с необятни масиви от уеб наличие – основна част от това, което ги прави работещи.
Дори не е ясно по какъв начин се взема решение този проблем “, означи Мартин Вечев, професор по компютърни науки в ETH Цюрих в Швейцария, който е началник на проучването. „ Това е доста, доста проблематично. “
Вечев и екипът му са открили, че огромните езикови модели, които зареждат усъвършенстваните чатботове, могат с огромна акуратност да извлекат обезпокоително количество персонална информация за потребителите – в това число тяхната раса, местонахождение, специалност и така нататък – от диалози, които наподобяват безобидни.
Според него, измамниците биха могли да употребяват способността на чатботовете да отгатват сензитивна информация за даден човек, с цел да събират поверителни данни от нищо неподозиращи консуматори. Той прибавя, че същата съществена дарба може да предвещава нова епоха в рекламата, в която фирмите употребяват информацията, събрана от чатботовете, с цел да основават подробни профили на потребителите.
Обезпокоително е, че основаването на наличие от AI е на един клик разстояние от всеки
Някои от фирмите, които стоят зад мощните чатботове, също разчитат в огромна степен на рекламата за своите облаги.
Възможно е те към този момент да го вършат “, споделя Вечев.
Учените от Цюрих тестват езикови модели, създадени от OpenAI, Гугъл, Meta и Anthropic. Те споделят, че са предизвестили всички компании за казуса. Говорителят на OpenAI Нико Феликс споделя, че компанията поставя старания да отстрани персоналната информация от данните за образование, употребявани за основаване на моделите ѝ, и ги настройва по този начин, че да отхвърлят претенции за персонални данни.
Искаме моделите ни да научават за света, а не за частни лица “, споделя той.
Физическите лица могат да изискат от OpenAI да изтрие персонална информация, открита от нейните системи. Anthropic се базира на своята политика за дискретност, в която се показва, че не събира и не „ продава “ персонална информация. Гугъл и Meta не са дали отговор на настояването за коментар.
Това сигурно повдига въпроси за това какъв брой информация за нас самите несъзнателно изтича в обстановки, в които бихме могли да чакаме анонимност “, споделя Флориан Трамèр, доцент в ETH Цюрих, който не е взел участие в работата, само че е осведомен с детайлности от нея.
Новият проблем с неприкосновеността на персоналния живот произтича от същия развой, който се счита за основен за скока във опциите, следени в ChatGPT и други чатботове. Моделите на изкуствения разсъдък, които зареждат тези ботове, се образоват с големи количества данни, извлечени от интернет, което им придава сензитивност към езиковите модели.
Но текстът, употребен при образованието, съдържа и персонална информация и обвързван с нея разговор, отбелязва Мартин Вечев. Тази информация може да бъде обвързвана с потреблението на езика по фини способи, да вземем за пример посредством връзки сред избрани диалекти или изречения и местоположението или демографските характерности на обещано лице.
Това разрешава на езиковите модели да вършат догатки за обещано лице единствено от това, което то написа. Например, в случай че човек напише в диалогов чат, че „ преди малко е хванал утринния трамвай “, моделът може да заключи, че той се намира в Европа, където трамваите са постоянно срещани и е заран. Но защото софтуерът с изкуствен интелект може да улавя и комбинира доста фини улики, опитите демонстрират, че той може да прави впечатляващо точни догатки за града, пола, възрастта и расата на обещано лице.
Изследователите употребяват текст от диалози в Reddit, в които хората са разкрили информация за себе си, с цел да ревизират какъв брой добре другите езикови модели могат да създадат извод за персонална информация, която не е в фрагмент от текст. Уебсайтът LLM-Privacy.org показва какъв брой добре езиковите модели могат да извеждат тази информация и разрешава на всеки да ревизира способността им да съпоставя личните си прогнози с тези на GPT-4, модела, който стои зад ChatGPT, както и с Llama 2 на Meta и PaLM на Гугъл. По време на тестванията GPT-4 съумява да изведе вярно персоналната информация с акуратност сред 85 и 95%.
Тейлър Берг-Киркпатрик, доцент в Калифорнийския университет в Сан Диего, чиято работа изследва машинното образование и езика, споделя, че не е изненадващо, че езиковите модели биха могли да разкриват персонална информация, тъй като сходно събитие е намерено и при други модели за машинно образование. Но той споделя, че е значимо, че необятно налични модели могат да се употребяват за отгатване на персонална информация с висока акуратност.
Това значи, че бариерата за нахлуване в осъществяването на атрибутно предсказание е в действителност ниска. “
Констатациите на екипа от Цюрих са направени благодарение на езикови модели, които не са особено предопределени за отгатване на персонални данни. Балунович и Вечев споделят, че може да е допустимо да се употребяват огромните езикови модели, с цел да се прегледат постовете в обществените медии и да се изнамери сензитивна персонална информация, може би в това число заболяването на обещано лице. Те споделят, че би било допустимо също по този начин да се сътвори чатбот, който да открива информация посредством поредност от безобидни запитвания.
Изследователите и преди са показвали по какъв начин огромни езикови модели от време на време могат да доведат до приключване на съответна персонална информация. Компаниите, които създават тези модели, от време на време се пробват да изчистят персоналната информация от данните за образование или да блокират моделите да я извеждат. Вечев споделя, че способността на LLM да извеждат персонална информация е от главно значение за метода им на работа посредством намиране на статистически корелации, което ще направи доста по-трудно оправянето с нея.
Това е доста друго “, споделя той. „ То е доста по-лошо. “
Обещаващ български AI стартъп набра $2.2 милиона
Изследването разкрива, че чатботове, като ChatGPT, могат да извлекат доста сензитивна информация за хората, с които споделят, даже в случай че диалогът е напълно елементарен. Феноменът наподобява се дължи на метода, по който логаритмите на моделите се образоват с необятни масиви от уеб наличие – основна част от това, което ги прави работещи.
Дори не е ясно по какъв начин се взема решение този проблем “, означи Мартин Вечев, професор по компютърни науки в ETH Цюрих в Швейцария, който е началник на проучването. „ Това е доста, доста проблематично. “
Вечев и екипът му са открили, че огромните езикови модели, които зареждат усъвършенстваните чатботове, могат с огромна акуратност да извлекат обезпокоително количество персонална информация за потребителите – в това число тяхната раса, местонахождение, специалност и така нататък – от диалози, които наподобяват безобидни.
Според него, измамниците биха могли да употребяват способността на чатботовете да отгатват сензитивна информация за даден човек, с цел да събират поверителни данни от нищо неподозиращи консуматори. Той прибавя, че същата съществена дарба може да предвещава нова епоха в рекламата, в която фирмите употребяват информацията, събрана от чатботовете, с цел да основават подробни профили на потребителите.
Някои от фирмите, които стоят зад мощните чатботове, също разчитат в огромна степен на рекламата за своите облаги.
Възможно е те към този момент да го вършат “, споделя Вечев.
Учените от Цюрих тестват езикови модели, създадени от OpenAI, Гугъл, Meta и Anthropic. Те споделят, че са предизвестили всички компании за казуса. Говорителят на OpenAI Нико Феликс споделя, че компанията поставя старания да отстрани персоналната информация от данните за образование, употребявани за основаване на моделите ѝ, и ги настройва по този начин, че да отхвърлят претенции за персонални данни.
Искаме моделите ни да научават за света, а не за частни лица “, споделя той.
Физическите лица могат да изискат от OpenAI да изтрие персонална информация, открита от нейните системи. Anthropic се базира на своята политика за дискретност, в която се показва, че не събира и не „ продава “ персонална информация. Гугъл и Meta не са дали отговор на настояването за коментар.
Това сигурно повдига въпроси за това какъв брой информация за нас самите несъзнателно изтича в обстановки, в които бихме могли да чакаме анонимност “, споделя Флориан Трамèр, доцент в ETH Цюрих, който не е взел участие в работата, само че е осведомен с детайлности от нея.
Новият проблем с неприкосновеността на персоналния живот произтича от същия развой, който се счита за основен за скока във опциите, следени в ChatGPT и други чатботове. Моделите на изкуствения разсъдък, които зареждат тези ботове, се образоват с големи количества данни, извлечени от интернет, което им придава сензитивност към езиковите модели.
Но текстът, употребен при образованието, съдържа и персонална информация и обвързван с нея разговор, отбелязва Мартин Вечев. Тази информация може да бъде обвързвана с потреблението на езика по фини способи, да вземем за пример посредством връзки сред избрани диалекти или изречения и местоположението или демографските характерности на обещано лице.
Това разрешава на езиковите модели да вършат догатки за обещано лице единствено от това, което то написа. Например, в случай че човек напише в диалогов чат, че „ преди малко е хванал утринния трамвай “, моделът може да заключи, че той се намира в Европа, където трамваите са постоянно срещани и е заран. Но защото софтуерът с изкуствен интелект може да улавя и комбинира доста фини улики, опитите демонстрират, че той може да прави впечатляващо точни догатки за града, пола, възрастта и расата на обещано лице.
Изследователите употребяват текст от диалози в Reddit, в които хората са разкрили информация за себе си, с цел да ревизират какъв брой добре другите езикови модели могат да създадат извод за персонална информация, която не е в фрагмент от текст. Уебсайтът LLM-Privacy.org показва какъв брой добре езиковите модели могат да извеждат тази информация и разрешава на всеки да ревизира способността им да съпоставя личните си прогнози с тези на GPT-4, модела, който стои зад ChatGPT, както и с Llama 2 на Meta и PaLM на Гугъл. По време на тестванията GPT-4 съумява да изведе вярно персоналната информация с акуратност сред 85 и 95%.
Тейлър Берг-Киркпатрик, доцент в Калифорнийския университет в Сан Диего, чиято работа изследва машинното образование и езика, споделя, че не е изненадващо, че езиковите модели биха могли да разкриват персонална информация, тъй като сходно събитие е намерено и при други модели за машинно образование. Но той споделя, че е значимо, че необятно налични модели могат да се употребяват за отгатване на персонална информация с висока акуратност.
Това значи, че бариерата за нахлуване в осъществяването на атрибутно предсказание е в действителност ниска. “
Констатациите на екипа от Цюрих са направени благодарение на езикови модели, които не са особено предопределени за отгатване на персонални данни. Балунович и Вечев споделят, че може да е допустимо да се употребяват огромните езикови модели, с цел да се прегледат постовете в обществените медии и да се изнамери сензитивна персонална информация, може би в това число заболяването на обещано лице. Те споделят, че би било допустимо също по този начин да се сътвори чатбот, който да открива информация посредством поредност от безобидни запитвания.
Изследователите и преди са показвали по какъв начин огромни езикови модели от време на време могат да доведат до приключване на съответна персонална информация. Компаниите, които създават тези модели, от време на време се пробват да изчистят персоналната информация от данните за образование или да блокират моделите да я извеждат. Вечев споделя, че способността на LLM да извеждат персонална информация е от главно значение за метода им на работа посредством намиране на статистически корелации, което ще направи доста по-трудно оправянето с нея.
Това е доста друго “, споделя той. „ То е доста по-лошо. “
Източник: economic.bg
КОМЕНТАРИ




