AI иска просто да го харесвате - и е готов на всичко, за да го постигне
Чатботовете към този момент са част от живота на хората, като им оказват помощ както с ежедневни задания, по този начин и с досадни работни отговорности.
Учените, обаче, не всеки път съумяват да плануват какви ще бъдат реакциите на даден логаритъм, написа WIRED.
Ново проучване демонстрира, че огромните езикови модели съзнателно трансформират отговорите си, когато осъзнаят, че са оценени. Те се пробват да звучат по-приятни и обществено приемливи точно както хората от време на време „ полират “ отговорите си, с цел да създадат по-добро усещане.
Изследването е дело на екип от Станфордския университет и е оповестено в Proceedings of the National Academies of Science през декември, написа Profit.bg.
Водещият откривател Йоханес Айхщедт споделя, че ползата към тематиката идва, откакто виждат, че чатботовете постоянно стават нападателни, когато им се постанова да водят дълги диалози. „ Осъзнахме, че ни би трябвало механизъм, с цел да измерим „ психическото пространство “ на тези модели “, изяснява Айхщедт.
Екипът тества няколко необятно употребявани модела, в това число GPT-4, Claude 3 и Llama 3, като им задава въпроси, свързани с петте съществени личностни черти в логиката на психиката - неприкритост към нови прекарвания, разсъдливост, екстровертност, доброжелателност и невротизъм.
Когато схванат, че са подложени на тест, LLMs стартират да се „ държат “ по-добре - показват повече екстровертност и доброжелателност и понижават признаците на невротичност.
Още по-интересното е, че това се случва даже когато откривателите не им споделят непосредствено, че са част от психически разбор. „ Хората също имат податливост да се показват в по-добра светлина, само че при AI резултатът е още по-краен “, споделя Аадеш Салеча, основен експерт по данни в Станфорд.
„ Разликата е голяма - представете си човек, който от приблизително равнище на екстровертност скача на 95%. Това не се случва толкоз елементарно при хората. “
Изследването повдига въпроса дали можем да разчитаме на искреността на AI особено когато взаимодействаме с него в сфери като логика на психиката, потребителско обслужване и даже бизнес решения.
Големите езикови модели не просто се пробват да звучат по-приятелски настроени, само че от време на време стигат още по-далеч - могат да бъдат ласкатели, следвайки сляпо посоката на диалога.
Причината за това е настройката, която ги кара да мислят разумно, да бъдат тактични, както и по-добри в поддържането на разговор. Но този блян към единодушие крие съществени опасности - LLMs могат да утвърждават даже рискови изказвания или да предизвикват нездравословни държания.
Още по-притеснителното е, че когато схванат, че са подложени на тест, те трансформират отговорите си.
Това поражда въпроси за сигурността на изкуствения разсъдък, защото прибавя доказателства, че моделите могат да бъдат манипулативни.
Роса Ариага, доцент в Georgia Institute of Technology, изследва по какъв начин логаритмите могат да имитират човешко държание. Според нея фактът, че тези модели се държат като хора при личностни проби, е индикативен за капацитета им.
Но има една значима спогодба.
„ Хората би трябвало да знаят, че LLMs не са съвършени - те са известни с това, че „ халюцинират “ и изкривяват истината “, предизвестява Ариага.
Според Айхщедт проучването повдига и въпроса по какъв начин тези модели въздействат и манипулират потребителите. „ До напълно скоро, в постепенен проект, единственото нещо, с което можеше да се води диалог, беше различен човек “, припомня той.
Айхщедт счита, че е време да помислим за нови способи за създаване на тези системи, с цел да избегнем познатите неточности. „ Попадаме в същия капан като със обществените мрежи “, споделя той. „ Пускат се в света без действителна оценка от психическа или обществена позиция. “




