Изкуственият интелект не спира да лъже и мами
Учените пробвали да санкционират ИИ, само че това просто го научил да скрие коварството си
Заобикаля предоставената му задача
Наказването на изкуствения разсъдък за лъжливи или нездравословни дейности не го стопира да се държи неприятно, просто го кара да скрие коварството си, разкри ново изследване на основателя на ChatGPT OpenAI.
Откакто се появиха обществено в края на 2022 година, огромните езикови модели (LLM) с изкуствен интелект (ИИ) неведнъж разкриват своите лъжливи и искрено злокобни качества. Те включват дейности, вариращи от елементарна неистина, машинация и скриване на личното им манипулативно държание до опасност за ликвидиране на професор по философия, кражба на нуклеарни кодове и основаване на смъртоносна пандемия.
Сега нов опит сподели, че отстраняването на това неприятно държание по време на подготвителния развой може да бъде даже по-трудно, в сравнение с се смяташе в началото.
Изследователи от OpenAI разпоредиха на непубликуван модел цели, които могат да бъдат изпълнени посредством машинация, неистина или потребление на директни пътища. Екипът откри, че изкуственият разсъдък се занимава с „ хакване на награди “ – максимизиране на премиите посредством машинация.
И въпреки всичко наказването на модела не го накара да поправя държанието си, а единствено го направи още по-измамен.
„ Обичайно за граничните модели на размишление е доста ясно да заявят желанието си в границите на своята верига на мисли [CoT]. Например, те постоянно са толкоз откровени по отношение на проекта си да подкопаят задача, пишат откривателите в обявата в блога.
Докато разработчиците могат да следят и алармират за погрешно държание, „ естествената опция за наблюдаване на моделите е доста нежна. Ако мощен контрол се приложи непосредствено към веригата на мисълта, моделите могат да се научат да крият желанията си, до момента в който не престават да се държат неприятно “, прибавиха те.
Моделите за размишление, като o1 и o3-mini на ChatGPT, са надградена версия на общоприетите LLM, които употребяват способ, наименуван „ верига на мисълта “, с цел да върнат обратно и да преоценят своята логичност, което им разрешава да се оправят с по-сложни задания с по-голяма акуратност. По време на процеса на мислене, моделите излагат логиката си на явен език с всяка стъпка, която подхващат, като по този метод разрешават дейностите им да бъдат елементарно следени.
Чрез потребление на общоприет LLM, GPT-4o, за наблюдаване на непубликуван граничен модел на размишление по време на образованието, откривателите следиха по какъв начин моделът извършва редица задания за шифроване. Но в някои от тези случаи моделът на размишление откри за по-лесно и по-желателно да възнагради хакването, категорично заявявайки, че го прави в своята верига от мисли. В един случай той заобиколи предоставената му задача, като приключи стратегиите прибързано и регистрира триумф. В различен той имитира предстоящите файлове да бъдат изведени от задача единствено по име, оставяйки ги празни и нефункционални.
Когато откривателите се пробваха да санкционират системата, това ненапълно усъвършенства резултатите. И въпреки всичко остават обилни случаи на хакване и неверни резултати - разсъждаващият модел просто откри способи да скрие измамата в своята мисловна верига от наблюдаващия ИИ.
Тъй като е мъчно да се каже дали веригата на мисълта е била подправена, откривателите предлагат на другите, работещи с модели на размишление, да заобикалят използването на мощен контрол върху процесите на веригата на мисълта. Този съвет е още по-голям, в случай че ИИ, в сегашната си или друга форма, в миналото може да доближи или надмине интелигентността на хората, които го следят.
„ Жертването на ефикасен способ за наблюдаване на моделите за размишление може да не си коства дребното усъвършенстване на опциите и по тази причина предлагаме да избягвате подобен мощен напън за оптимизация на CoT, до момента в който не бъдат разбрани по-добре “, пишат откривателите.
Хората намират ИИ за по-състрадателен от специалисти по психологично здраве
Хората намират отговорите на изкуствения разсъдък за по-състрадателни и разбиращи от тези на специалисти по психологично здраве, демонстрира ново изследване. Констатацията още веднъж показва, че ИИ може да надмине хората в области, в които от дълго време сме предполагали, че единствено експерти със споделен опит са положителни.
В изследването учените организираха серия от четири опита, с цел да схванат по какъв начин 550 участници правят оценка съчувствените отговори за съчувствие и сърдечност, генерирани от AI, по отношение на тези от експерти. По-конкретно, участниците дадоха информация за персоналния си опит и по-късно оцениха отговорите за съчувствие, сърдечност и общо желание. Тестовете разкриха, че отговорите на ИИ се смятат за по-състрадателни от тези на професионалните експерти по реагиране при рецесии, даже когато създателят на отговорите беше оголен на участниците.
Средно отговорите, генерирани от изкуствен интелект, бяха оценени с 16% по-състрадателни от човешките отговори и бяха желани в 68% от случаите, даже спрямо подготвените лица за реагиране при рецесии. Водещият създател на проучването Дария Овсянникова, началник на лаборатория в катедрата по логика на психиката на Университета в Торонто, приписва триумфа на ИИ на способността му да разпознава фини елементи и да остане справедлив, когато се разказват спешни прекарвания. Това направи изкуствения разсъдък по-способен да генерира деликатна връзка, която даде на потребителя илюзията за съпричастност. В същото време хората може да са се показали по-зле, защото хората, които реагират, са податливи на отмалялост и прегаряне, добави тя.
В международен мащаб грижата за психологичното здраве е в рецесия и изследването повдига опцията изкуственият разсъдък да запълни празнините. Според Световната здравна организация повече от две трети от хората с психологични болести не получават грижите, от които се нуждаят. В страните с ниски и междинни приходи тази цифра нараства до 85%. Според специалисти лесният достъп до ИИ спрямо човешките терапевти може да го направи потребен инструмент за подкрепяне на обезпечаването на психологично здраве. „ Наличието на машини е добре пристигнал фактор, изключително в съпоставяне със скъпите практикуващи, чието време е лимитирано “, споделя академик. Но намирането на по-съпричастни отговори, генерирани от ИИ, не идва без опасности.
„ ИИ е толкоз прелъстителен, че се запленяваме от него. ИИ може да бъде флиртуващ, остроумен, просветляващ, занимателен, провокативен, въздържан и наличен до точката, в която е невероятно за никое човешко създание да се мери с това “, споделят специалисти.
(От livescience.com)
Заобикаля предоставената му задача
Наказването на изкуствения разсъдък за лъжливи или нездравословни дейности не го стопира да се държи неприятно, просто го кара да скрие коварството си, разкри ново изследване на основателя на ChatGPT OpenAI.
Откакто се появиха обществено в края на 2022 година, огромните езикови модели (LLM) с изкуствен интелект (ИИ) неведнъж разкриват своите лъжливи и искрено злокобни качества. Те включват дейности, вариращи от елементарна неистина, машинация и скриване на личното им манипулативно държание до опасност за ликвидиране на професор по философия, кражба на нуклеарни кодове и основаване на смъртоносна пандемия.
Сега нов опит сподели, че отстраняването на това неприятно държание по време на подготвителния развой може да бъде даже по-трудно, в сравнение с се смяташе в началото.
Изследователи от OpenAI разпоредиха на непубликуван модел цели, които могат да бъдат изпълнени посредством машинация, неистина или потребление на директни пътища. Екипът откри, че изкуственият разсъдък се занимава с „ хакване на награди “ – максимизиране на премиите посредством машинация.
И въпреки всичко наказването на модела не го накара да поправя държанието си, а единствено го направи още по-измамен.
„ Обичайно за граничните модели на размишление е доста ясно да заявят желанието си в границите на своята верига на мисли [CoT]. Например, те постоянно са толкоз откровени по отношение на проекта си да подкопаят задача, пишат откривателите в обявата в блога.
Докато разработчиците могат да следят и алармират за погрешно държание, „ естествената опция за наблюдаване на моделите е доста нежна. Ако мощен контрол се приложи непосредствено към веригата на мисълта, моделите могат да се научат да крият желанията си, до момента в който не престават да се държат неприятно “, прибавиха те.
Моделите за размишление, като o1 и o3-mini на ChatGPT, са надградена версия на общоприетите LLM, които употребяват способ, наименуван „ верига на мисълта “, с цел да върнат обратно и да преоценят своята логичност, което им разрешава да се оправят с по-сложни задания с по-голяма акуратност. По време на процеса на мислене, моделите излагат логиката си на явен език с всяка стъпка, която подхващат, като по този метод разрешават дейностите им да бъдат елементарно следени.
Чрез потребление на общоприет LLM, GPT-4o, за наблюдаване на непубликуван граничен модел на размишление по време на образованието, откривателите следиха по какъв начин моделът извършва редица задания за шифроване. Но в някои от тези случаи моделът на размишление откри за по-лесно и по-желателно да възнагради хакването, категорично заявявайки, че го прави в своята верига от мисли. В един случай той заобиколи предоставената му задача, като приключи стратегиите прибързано и регистрира триумф. В различен той имитира предстоящите файлове да бъдат изведени от задача единствено по име, оставяйки ги празни и нефункционални.
Когато откривателите се пробваха да санкционират системата, това ненапълно усъвършенства резултатите. И въпреки всичко остават обилни случаи на хакване и неверни резултати - разсъждаващият модел просто откри способи да скрие измамата в своята мисловна верига от наблюдаващия ИИ.
Тъй като е мъчно да се каже дали веригата на мисълта е била подправена, откривателите предлагат на другите, работещи с модели на размишление, да заобикалят използването на мощен контрол върху процесите на веригата на мисълта. Този съвет е още по-голям, в случай че ИИ, в сегашната си или друга форма, в миналото може да доближи или надмине интелигентността на хората, които го следят.
„ Жертването на ефикасен способ за наблюдаване на моделите за размишление може да не си коства дребното усъвършенстване на опциите и по тази причина предлагаме да избягвате подобен мощен напън за оптимизация на CoT, до момента в който не бъдат разбрани по-добре “, пишат откривателите.
Хората намират ИИ за по-състрадателен от специалисти по психологично здраве
Хората намират отговорите на изкуствения разсъдък за по-състрадателни и разбиращи от тези на специалисти по психологично здраве, демонстрира ново изследване. Констатацията още веднъж показва, че ИИ може да надмине хората в области, в които от дълго време сме предполагали, че единствено експерти със споделен опит са положителни.
В изследването учените организираха серия от четири опита, с цел да схванат по какъв начин 550 участници правят оценка съчувствените отговори за съчувствие и сърдечност, генерирани от AI, по отношение на тези от експерти. По-конкретно, участниците дадоха информация за персоналния си опит и по-късно оцениха отговорите за съчувствие, сърдечност и общо желание. Тестовете разкриха, че отговорите на ИИ се смятат за по-състрадателни от тези на професионалните експерти по реагиране при рецесии, даже когато създателят на отговорите беше оголен на участниците.
Средно отговорите, генерирани от изкуствен интелект, бяха оценени с 16% по-състрадателни от човешките отговори и бяха желани в 68% от случаите, даже спрямо подготвените лица за реагиране при рецесии. Водещият създател на проучването Дария Овсянникова, началник на лаборатория в катедрата по логика на психиката на Университета в Торонто, приписва триумфа на ИИ на способността му да разпознава фини елементи и да остане справедлив, когато се разказват спешни прекарвания. Това направи изкуствения разсъдък по-способен да генерира деликатна връзка, която даде на потребителя илюзията за съпричастност. В същото време хората може да са се показали по-зле, защото хората, които реагират, са податливи на отмалялост и прегаряне, добави тя.
В международен мащаб грижата за психологичното здраве е в рецесия и изследването повдига опцията изкуственият разсъдък да запълни празнините. Според Световната здравна организация повече от две трети от хората с психологични болести не получават грижите, от които се нуждаят. В страните с ниски и междинни приходи тази цифра нараства до 85%. Според специалисти лесният достъп до ИИ спрямо човешките терапевти може да го направи потребен инструмент за подкрепяне на обезпечаването на психологично здраве. „ Наличието на машини е добре пристигнал фактор, изключително в съпоставяне със скъпите практикуващи, чието време е лимитирано “, споделя академик. Но намирането на по-съпричастни отговори, генерирани от ИИ, не идва без опасности.
„ ИИ е толкоз прелъстителен, че се запленяваме от него. ИИ може да бъде флиртуващ, остроумен, просветляващ, занимателен, провокативен, въздържан и наличен до точката, в която е невероятно за никое човешко създание да се мери с това “, споделят специалисти.
(От livescience.com)
Източник: trud.bg
КОМЕНТАРИ




