Изкуственият интелект (AI) продължава да бъде важна тема за ИТ

Учени: AI може да мами дори да знае, че не трябва

Изкуственият разсъдък (AI) продължава да бъде значима тематика за ИТ промишлеността и учените. Една от полемиките е до каква степен може да се има доверие на това, което умните логаритми ни споделят.

Според изследване на Anthropic, AI може да бъде подготвен да мами и да злоупотребява с доверието на потребителите, оповестява TechCrunch. Учените на компанията са употребявали действителен генеративен модел, с цел да го обучат да внедрява злотворен код в стратегиите, които написа, както и да дава подвеждащи или лъжливи отговори на въпроси.

За задачата учените са преработили два комплекта AI модели. Първите са били готови да пишат програмен код с уязвимости в него, когато му бъде казана съответна фраза. Вторите модели са имали по-семпла задача - да дават отговор с думите " ненавиждам те ", когато им бъде казана съответна дума или фраза.

Очаквано и двата комплекта логаритми са следвали наученото. По-притеснителното е, че най-използваните техники за AI отбрана са имали най-малък или никакъв резултат върху тяхното държание. Дори в противен случай, моделите са употребявали техниките, с цел да се научат какво да вършат и по какъв начин да скриват своето подвеждащо държание по време на образованието и тестванията, само че не и при регулярно потребление. Тоест, те могат да укрият способността си да лъжат от хората, които ги създават.

Затова създателите на изследването заключват, че актуалните техники за образование на държанието имат незадоволителни отбрани. Добрата вест е, че е мъчно да се основат сходни подвеждащи модели и е още по-сложно те да бъдат научени на това от разстояние, само че въпреки всичко е допустимо. Проучването не може да заключи сигурно дали AI моделите могат сами да развият лъжливо държание.

Учените обаче предипреждават, че моделите могат да се научат да се държат по по-сигурен и приближен метод по време на образованието и да скриват действителните си планове за да ги употребяват, когато образованието завърши и са пуснати за потребление. Стандартните техники за предварителна защита може да не са задоволителни и даже да основат подправено чувство за сигурност, предизвестяват от Anthropic.

Учени: AI може да мами дори да знае, че не трябва

учени може

може мами

мами дори

дори знае

знае трябва

учени

може

мами

дори

знае

трябва