Освен да съчиняват текст, AI генераторите се научиха и да

Текстовите генератори могат да плагиатстват отвъд „copy+paste“

Освен да съчиняват текст, AI генераторите се научиха и да плагиатстват – непосредствено или идейно (снимка: CC0 Public Domain)

Езиковите модели, които генерират логичен текст в отговор на добре дефинирана подкана от потребителя, могат да плагиатстват. Но това става по доста способи, надалеч оттатък елементарното прекопирване и потребление на непознати писания, съгласно проучвателен екип, управителен от Penn State.

„ Плагиатството има разнообразни нюанси “, споделя Донгвон Лий, професор по осведомителни науки и технологии в Penn State. „ Искахме да забележим дали езиковите модели освен копират и слагат, само че прибягват до по-сложни форми на плагиатство “.

Три форми на плагиатство

Изследователите се фокусирали върху идентифицирането на три форми на плагиатство: буквално или непосредствено прекопирване и слагане на съдържание; перифразиране или преформулиране и преструктуриране на наличие без цитиране на истинския източник; потребление на главната концепция от текст без уместно анотиране на създателя.

Учените построили поредност от схеми за автоматизирано разкриване на плагиатство и го тествали против GPT-2 на OpenAI, защото данните за самообучението на езиковия модел са налични онлайн, а това разрешава на откривателите да съпоставят генерираните текстове с 8 милиона документа, употребявани за авансово образование на GPT-2.

И по този начин, екипът открил, че езиковите модели са направили и трите типа плагиатство. Колкото по-голям е наборът от данни и параметрите, употребявани за образование на модела, толкоз по-често се случва плагиатството.

Учените също по този начин отбелязнат, че тънко настроените езикови модели понижават дословното плагиатство, само че усилват случаите на перифразиране и кражба на хрумвания. В допълнение, учените разпознали случаи, в които езиковият модел излага персоналната информация на лицата посредством всичките три форми на плагиатство.

Изследователите ще показват своите открития на уеб конференцията ACM 2023, която ще се организира от 30 април до 4 май в Остин, Тексас.

Етични проблеми

„ Хората се стремят към огромни езикови модели, тъй като колкото по-голям става моделът, толкоз нарастват и качествата му за генериране “, споделя водещият създател Джоюнмг Лий, докторант в Колежа по осведомителни науки и технологии в Penn State. „ В същото време те заплашват оригиналността и творчеството на наличието в обучителния корпус. Това е значима констатация “.
още по темата
Проучването акцентира нуждата от повече проучвания на генераторите на текст и етичните и метафизичен въпроси, които те слагат, съгласно откривателите.

„ Въпреки че резултатът може да е прелъстителен и езиковите модели да са занимателни за потребление и да наподобяват продуктивни за избрани задания, това не значи, че са практични “, споделя Тай Лий, помощник по компютърни и осведомителни науки в Университета на Мисисипи, почнал работа по плана като докторант в Penn State. „ На процедура би трябвало да се погрижим за етичните проблеми и проблемите с авторското право, които пораждат при работата с текстовите генератори “.

Частично утешение е, че резултатите от изследването се отнасят единствено за GPT-2. Но автоматизираният развой за разкриване на плагиатство, открит от откривателите, може да се приложи и към по-нови езикови модели като ChatGPT, с цел да се дефинира дали и какъв брой постоянно тези модели плагиатстват образователно наличие. Тестването за плагиатство обаче зависи от разработчиците, които вършат данните за образование обществено налични.

Да ги научим да пишат вярно

Настоящото изследване може да помогне на откривателите на AI да изградят по-стабилни, надеждни и виновни езикови модели в бъдеще, надяват се откривателите. Те приканват хората да бъдат деликатни, когато употребяват текстови генератори.

„ Изследователите и учените в региона на изкуствения разсъдък търсят способи по какъв начин да създадат езиковите модели по-добри и по-стабилни, само че в това време доста хора употребяват езикови модели в всекидневието си за разнообразни задания – просто за реализиране на повече работливост “, споделя Джингуей Чен, основен помощник по осведомителни науки и технологии в Penn State.

Използването на езикови модели като търсачка или система за премахване на неточности в програмен код евентуално е положително решение, само че в други области езиковият модел може да създаде плагиатствано наличие, споделя Чен. А това може да докара до отрицателни последствия за потребителя.

Самият факт, че е открито по какъв начин езиковите модели плагиатстват, не е никаква изненада, прибавя Донгвон Лий. „ Като стохастичен папагал, ние научихме езиковите модели да имитират човешки трудове, без да ги учим по какъв начин да не плагиатстват “, споделя той. „ Сега е време да ги научим да пишат по-правилно. Е, имаме да извървим дълъг път “.

Текстовите генератори могат да плагиатстват отвъд „copy+paste“

текстовите генератори

генератори могат

могат плагиатстват

плагиатстват отвъд

отвъд copy

copy paste

текстовите

генератори

могат

плагиатстват

отвъд

copy

paste