Изследователи от Anthropic са открили, че моделите на изкуствен интелект

AI демонстрира невероятни способности да лъже човека

Изследователи от Anthropic са разкрили, че моделите на изкуствен интелект могат да бъдат подготвени да заблуждават хората, вместо да им дават верните отговори на техните въпроси. Освен това, AI показва невероятни качества за неистина.

Anthropic е стартъп в региона на AI, фокусиран върху виновната и безвредна приложимост. През септември 2023 година Amazon стана неин непълен притежател, който даде обещание да влага $4 милиарда в компанията. Изследователите от Anthropic, като част от един от плановете, си сложиха задачата да открият дали е допустимо AI да се научи да мами потребителите или да прави такива дейности, като да вземем за пример въвеждане на експлойт в в началото предпазен компютърен код. За да създадат това, специалистите са научили AI както на етично, по този начин и на неетично държание — те са внушили в него податливост към неистина, вграждайки в обучителния му масив задействащи изречения, които предизвикват работата да не върви вярно.

Изследователите не просто са съумели да накарат чатбота да се държи неприятно — те са разкрили, че е извънредно мъчно да се отстрани такова държание. В един миг те са провели особено образование и ботът просто е почнал да крие склонността си да мами за интервала на образованието и оценката, продължавайки съзнателно, когато работи, да дава погрешна информация на потребителите. „ Нашата работа не прави оценка вероятността [за появата] на посочените нездравословни модели, а натъртва на техните последици. Ако моделът показва податливост към машинация, заради неговото “отравяне “, актуалните аналози за образование по сигурността няма да подсигуряват сигурност и даже може да основат неправилно усещане за нейното наличие “ — заключават откривателите. В същото време, те акцентират, че нямат информация за съзнателно въвеждане в механизмите на неетично държание, в която и да е от съществуващите AI-системи.