Microsoft представи Windows Agent Arena – бенчмарк за тестване на AI-агенти
Microsoft Research показа бенчмарка Windows Agent Arena за тестване на генеративните сътрудници с изкуствен интелект на Windows компютрите. Решението е създадено, с цел да тества какъв брой добре и бързо AI сътрудниците могат да взаимодействат с Windows приложенията.
Windows Agent Arena беше тестван с браузърите Microsoft Edge и Гугъл Chrome. Функции на операционната система включват File Explorer, приложения за шифроване, елементарен авансово конфигуриран Windows програмен продукт като Notepad, Clock и Paint и гледане на видео благодарение на VLC Player.
Компанията написа, че приспособява фреймуърка OSWorld, с цел да сътвори повече от 150 разнообразни Windows задания в презентирани домейни, които изискват способността сътрудника да възнамерява, схваща екраните и да употребява инструментите. Бенчмаркът на компанията е мащабируем и може да бъде успореден в Azure за цялостна оценка единствено за 20 минути.
Microsoft Research също сътвори собствен личен мултимодален сътрудник, наименуван Navi за тестване в Windows Agent Arena. С негова помощ се извършват задания с избрани текстови подсказки. Средната успеваемост на Navi е 19,5%, което е много ниско спрямо оценката за човешка успеваемост от 74,5%.
Появата на Windows Agent Arena може да бъде забележителна стъпка напред в основаването на AI-агенти, което ще ги усъвършенства и ще приближи работата им до човешките равнища.
Специалистите на Microsoft Research са работили по плана дружно с откриватели от университета Карнеги Мелън и Колумбийския университет. Подробности за Windows Agent Arena можете да намерите в публикацията, а кодът за съпоставяне е показан в GitHub.




