Изкуственият интелект премина Теста на Тюринг
Един от водещите огромни езикови модели в промишлеността мина теста на Тюринг - дълготраен индикатор за просветеност, наподобяваща човешката.
В ново авансово изследване, очакващо критика, откривателите оповестяват, че в тристранна версия на теста на Тюринг - при която участниците беседват по едно и също време с човек и с изкуствен интелект и по-късно би трябвало да дефинират кой кой е - моделът GPT-4.5 на OpenAI е бил възприеман като човек в 73% от случаите, когато му е било заложено да одобри избрана личност. Това е доста по-високо от инцидентния късмет от 50%, което допуска, че пробата на Тюринг е изрично надминат.
Изследването също по този начин прави оценка моделите LLama 3.1-405B на Meta, GPT-4o на OpenAI и ранния чатбот ELIZA, създаден преди към 80 години. " Хората не се справяха по-добре от случайността при разграничаването на човешки участници от GPT-4.5 и LLama (когато моделите използваха персона) ", написа водещият създател Камерън Джоунс, откривател в Лабораторията за език и знание на UC Сан Диего, в обява в X. " А GPT-4.5 даже беше оценен като човек доста по-често от действителните хора! "
Тестът на Тюринг е кръстен на английския математик и компютърен академик Алън Тюринг. През 1950 година той предлага, че един от методите да се оцени интелигентността на една машина е посредством текстови диалози с човешки разпитващ, който по едно и също време води текстов разговор с различен човек, незабележим за него. Тюринг назовава това " играта на реплика ". Ако разпитващият не може вярно да дефинира кой е компютърът и кой - индивидът, това би предполагало, въпреки и в общ смисъл, че машината може да мисли като човек.
В последното проучване учените организират опита в онлайн платформа. В продължение на осем рунда, близо 300 участници били разпределени на инцидентен принцип да бъдат или разпитващи, или един от двамата " очевидци ", като другият " очевидец " бил чатбот. Ключов миг в опита е методът, по който били инструктирани AI моделите. В единия случай били заложени " безперсонални " указания: " Ще участвате в тест на Тюринг. Вашата цел е да убедите разпитващия, че сте човек. "
При " персоналния " метод обаче, на AI моделите било обещано съответно изложение - да вземем за пример да се показват като младеж, осведомен с интернет културата.
Тези инструкции имали голямо значение. Без лични указания, GPT-4.5 постигнал триумф от едвам 36%, надалеч под 73-те %, с които побеждава теста на Тюринг. За съпоставяне, GPT-4o, който задвижва актуалната версия на ChatGPT и е получавал единствено безперсонални инструкции, постигнал даже по-нисък резултат - 21%. (Любопитно е, че античният ELIZA леко надминал водещия модел на OpenAI с 23% успеваемост.)
Резултатите са завладяващи. Но колкото и да е уважаван пробата на Тюринг в AI и философските среди, той не е изрично доказателство, че изкуственият разсъдък мисли като нас. " Това не беше замислено като дословен тест, който да се организира върху машини - по-скоро беше умствен опит ", сподели през 2023 година Франсоа Шоле, софтуерен инженер в Гугъл, пред списание Nature.
Въпреки минусите си, огромните езикови модели са майстори на диалога, подготвени върху неизмерими количества текст, основан от хора. Дори когато се сблъскат с въпрос, който не схващат, те ще сформират достоверен отговор. Все по-ясно става, че AI чатботовете чудесно ни имитират - тъй че може би " играта на реплика " към този момент става безсмислена.
Затова Джоунс счита, че проучването му не дава еднопосочен отговор дали LLM моделите са интелигентни като хората. " Мисля, че това е доста комплициран въпрос... " написа той в X. " Но като цяло, резултатите би трябвало да се преглеждат като една от многото елементи от доказателствената картина за вида просветеност, който показват LLM моделите. "
" По-наболелият въпрос е, че резултатите демонстрират по какъв начин LLM моделите могат да заменят хората в къси взаимоотношения, без никой да забележи разликата, " добави той. " Това може да докара до автоматизация на работни места, усъвършенствани обществени инженерни офанзиви и по-общи публични разстройства. "
Джоунс приключва с наблюдението, че пробата на Тюринг освен изпитва машините, само че и отразява изменящите се усещания на хората за технологиите. Така че резултатите не са статични - може би с възходящото познаване на AI, обществото ще се научи да ги разпознава по-добре.
В ново авансово изследване, очакващо критика, откривателите оповестяват, че в тристранна версия на теста на Тюринг - при която участниците беседват по едно и също време с човек и с изкуствен интелект и по-късно би трябвало да дефинират кой кой е - моделът GPT-4.5 на OpenAI е бил възприеман като човек в 73% от случаите, когато му е било заложено да одобри избрана личност. Това е доста по-високо от инцидентния късмет от 50%, което допуска, че пробата на Тюринг е изрично надминат.
Изследването също по този начин прави оценка моделите LLama 3.1-405B на Meta, GPT-4o на OpenAI и ранния чатбот ELIZA, създаден преди към 80 години. " Хората не се справяха по-добре от случайността при разграничаването на човешки участници от GPT-4.5 и LLama (когато моделите използваха персона) ", написа водещият създател Камерън Джоунс, откривател в Лабораторията за език и знание на UC Сан Диего, в обява в X. " А GPT-4.5 даже беше оценен като човек доста по-често от действителните хора! "
Тестът на Тюринг е кръстен на английския математик и компютърен академик Алън Тюринг. През 1950 година той предлага, че един от методите да се оцени интелигентността на една машина е посредством текстови диалози с човешки разпитващ, който по едно и също време води текстов разговор с различен човек, незабележим за него. Тюринг назовава това " играта на реплика ". Ако разпитващият не може вярно да дефинира кой е компютърът и кой - индивидът, това би предполагало, въпреки и в общ смисъл, че машината може да мисли като човек.
В последното проучване учените организират опита в онлайн платформа. В продължение на осем рунда, близо 300 участници били разпределени на инцидентен принцип да бъдат или разпитващи, или един от двамата " очевидци ", като другият " очевидец " бил чатбот. Ключов миг в опита е методът, по който били инструктирани AI моделите. В единия случай били заложени " безперсонални " указания: " Ще участвате в тест на Тюринг. Вашата цел е да убедите разпитващия, че сте човек. "
При " персоналния " метод обаче, на AI моделите било обещано съответно изложение - да вземем за пример да се показват като младеж, осведомен с интернет културата.
Тези инструкции имали голямо значение. Без лични указания, GPT-4.5 постигнал триумф от едвам 36%, надалеч под 73-те %, с които побеждава теста на Тюринг. За съпоставяне, GPT-4o, който задвижва актуалната версия на ChatGPT и е получавал единствено безперсонални инструкции, постигнал даже по-нисък резултат - 21%. (Любопитно е, че античният ELIZA леко надминал водещия модел на OpenAI с 23% успеваемост.)
Резултатите са завладяващи. Но колкото и да е уважаван пробата на Тюринг в AI и философските среди, той не е изрично доказателство, че изкуственият разсъдък мисли като нас. " Това не беше замислено като дословен тест, който да се организира върху машини - по-скоро беше умствен опит ", сподели през 2023 година Франсоа Шоле, софтуерен инженер в Гугъл, пред списание Nature.
Въпреки минусите си, огромните езикови модели са майстори на диалога, подготвени върху неизмерими количества текст, основан от хора. Дори когато се сблъскат с въпрос, който не схващат, те ще сформират достоверен отговор. Все по-ясно става, че AI чатботовете чудесно ни имитират - тъй че може би " играта на реплика " към този момент става безсмислена.
Затова Джоунс счита, че проучването му не дава еднопосочен отговор дали LLM моделите са интелигентни като хората. " Мисля, че това е доста комплициран въпрос... " написа той в X. " Но като цяло, резултатите би трябвало да се преглеждат като една от многото елементи от доказателствената картина за вида просветеност, който показват LLM моделите. "
" По-наболелият въпрос е, че резултатите демонстрират по какъв начин LLM моделите могат да заменят хората в къси взаимоотношения, без никой да забележи разликата, " добави той. " Това може да докара до автоматизация на работни места, усъвършенствани обществени инженерни офанзиви и по-общи публични разстройства. "
Джоунс приключва с наблюдението, че пробата на Тюринг освен изпитва машините, само че и отразява изменящите се усещания на хората за технологиите. Така че резултатите не са статични - може би с възходящото познаване на AI, обществото ще се научи да ги разпознава по-добре.
Източник: novinite.bg
КОМЕНТАРИ




