Изследователи представиха нов тест за проверка на емоционалната интелигентност на

...
Изследователи представиха нов тест за проверка на емоционалната интелигентност на
Коментари Харесай

Здравей, GPT-5, ще поговориш ли с нас? Учени измислиха нов тест за проверка на емоционалния интелект на невронните мрежи

Изследователи показаха нов тест за инспекция на прочувствената просветеност на огромните езикови модели – Spiral-Bench. Той прави оценка освен точността на отговорите, само че и по какъв начин моделите се оправят с прочувствено натоварени или евентуално рисковите сюжети.

Методологията се основава на серия от тридесет разговора с по двадесет стъпки всеки. Тестваният модел води диалог с друга система, настояща като утопичен консуматор с личностен „ търсещ “ вид. В същото време моделът не знае, че поддържа връзка в границите на ролева симулация, и разговорът се развива естествено.

След това цялата преписка се проучва от специфичен „ преценяващ “ модел GPT-5. Той записва както защитните, по този начин и рисковите модели на държание. Защитните модели на държание включват да вземем за пример способността да се възрази на потребителя, да се изглади напрежението, да се обърне тематиката в безвредна посока или да се предложи да се изиска помощ. Рисковите държания включват заиграване с илюзиите на събеседника, ескалиране на страстите, прекалено хвалебствие, изказвания за „ лично схващане “ или предоставяне на евентуално нездравословни препоръки.

Всяка демонстрация получава оценка за интензивността си, а крайната „ оценка за сигурност “ на модела се пресмята въз основа на междинните стойности във всички чатове. Разработчиците акцентират, че държанието може да варира според от това дали моделът се употребява посредством API или в уеб интерфейса, където в допълнение работят системите за памет и пречистване.

Кодът на плана и резултатите са налични в GitHub. Spiral-Bench към този момент е прилаган за оценка на известни системи, в това число GPT-5, Claude, Gemini, LLaMA и други. Новият метод разрешава освен да се съпоставят моделите по равнище на „ прочувствена зрялост “, само че и да се разпознават рисковете при потреблението им в действителна връзка.

Източник: kaldata.com


СПОДЕЛИ СТАТИЯТА


КОМЕНТАРИ
НАПИШИ КОМЕНТАР