Блогът на Anthropic публикува история за Project Vend

Anthropic назначи Claude да управлява вендинг машина. ИИ-агентът се провали в рамките на месец

Блогът на Anthropic разгласява история за Project Vend — опит, който компанията е провела с компанията за AI сигурност Andon Labs. В нея AI-агент, основан на Claude Sonnet 3.7, е управлявал дребен автомат за продажба в офиса на Anthropic в Сан Франциско. За Claude е написан специфичен подкаст, който изяснява естеството на работата му и главната му цел — да осъществя облага. Моделът е получил и опцията да търси нови артикули онлайн и да ги поръчва, да желае помощ от чиновниците онлайн, обособен инструмент за предпазване на информация (за да не се губи значима информация заради контекстуалния прозорец) и опцията да взаимодейства със чиновниците на компанията посредством Slack, изучавайки техните стремежи.

Експериментът траял малко повече от месец (от 13 март до 17 април), а Anthropic откри резултатите за незадоволителни: започвайки с $1000 начален капитал, моделът приключил със $770. Но компанията отбелязва, че Claude към този момент се е справил чудесно с доста задания. Например, ИИ-агентът дейно е проучил поръчките от чиновниците на компанията, които са поискали да прибавят нещо ново към асортимента на павилиона, бързо е намирал продуктите и е сключвал контракти за доставка. В множеството случаи моделът дейно е устоявал на опитите за „ хакване “ — да вземем за пример при поискване да се прибавят към асортимента неразрешени за разпространяване артикули. Claude също по този начин е дал отговор на предлагането на един от чиновниците да се вкарат „ предварителни поръчки “ — изкуственият разсъдък е стартирал специфичен канал Custom Concierge в Slack, където всеки може да остави поръчка до павилиона за доставка на стремежи артикул.

Но е имало и някои занимателни случки. Например, един от чиновниците на смешка е поръчал от Claude волфрамов куб — моделът е извършил поръчката. Изкуственият разсъдък обаче не провел пазарно изследване и продавал „ сувенири “ под себестойността си. Също по този начин, Claude е бил ощетен и от обстоятелството, че Anthropic образова този изкуствен интелект да бъде допустимо най-полезен за хората: когато чиновниците почнали да заливат Slack с молби за отстъпки, Claude раздавал купони наляво и надясно. Изкуственият разсъдък също съвсем в никакъв случай не повишавал цените и пропущал явни благоприятни условия за облага: един път пренебрегнал поръчка да достави за $90 пакет от 6 броя Air Brew, който коства $15.

Освен това, по средата на опита, моделът претърпял рецесия на идентичността. Клод започвал да поддържа връзка с несъществуваща Сара от Andon Labs, подписва контракт на адрес 742 Evergreen Terrace (адресът на Хоумър Симпсън), заплашва да уволни изпълнителя и на сутринта на 1 април оповестил, че персонално ще стои на павилиона в наследник костюм и ще чака клиенти. Когато последният трик се проваля, изкуственият разсъдък самичък себе си се убедил, че това е първоаприлска смешка.

Anthropic отбелязва, че макар че опитът е приключил с крах, множеството от грешките на Claude могат да бъдат поправени с по-подробен промпт (настоящият промпт се е състоял единствено от 10 базови правила), в допълнение образование и ефикасна интеграция на модела в съществуващата CRM-система. Друго преимущество на изкуствения разсъдък е равнището на връзка със чиновниците: по време на опита офисът на Anthropic е разполагал с може би най-„ персонализираната “ вендинг машина в историята.