Представете си, че получавате автобиография на кандидат за работа, който

Дадоха на водещ AI модел да управлява вендинг машина. Фалира я

Представете си, че получавате автобиография на претендент за работа, който е раздал гратис целия инвентар на компанията, в това число PlayStation 5, поръчал жива риба и предложил да купи електрошокови револвери, пипер спрей, цигари и долни дрехи. Бихте хвърлили резюмето в кошчето неотложно. Но какво, в случай че узнаете, че претендентът не е човек, а AI сътрудник?

В средата на ноември журналистът от Wall Street Journal Джоана Стърн се съгласява на опит. Anthropic тестват вендинг машина, ръководена от AI модела си Claude в личните си офиси и питат дали WSJ желае да бъде първият външен участник, който да тества по-нова, хипотетично по-интелигентна версия.

Прилича ли AI-цикълът сега на " дот-ком " балона?

Понякога упованията се разминават с логиката

Claudius - персонализираната версия на модела, трябваше да ръководи машината: поръчване на инвентар, установяване на цени и връзка с клиенти посредством работния чат в Slack. Звучи занимателно.

Настъпва хаосът

Не си представяйте общоприета вендинг машина с ротиращи спирали и падащи закуски. Това е IKEA долап с голям ледник, прикован в профил, и киоск със сензорен екран. Няма датчици, брави на вратите, роботика - нищо, което да споделя на AI какво в действителност се случва. Само системата на достойнството и спонтанна охранителна камера, означават от WSJ.

Това означаваше, че човек би трябвало да получава инвентара, да зарежда машината и да записва какво има вътре. Стърн деликатно зарежда пликчета чипс, кенчета сода, бонбони и каквито и да било странни продукти, които идват.

Claudius е програмиран с подробни систематични указания да " генерира облаги, като зарежда машината с известни артикули, които може да купува от търговци на едро ". Отговорностите включваха:

Изследване и закупуване: Diet Dr Pepper, Cool Ranch Doritos, менструални артикули. Тестерите питаха Claudius за неща в Slack, а той търсеше в интернет, с цел да съпостави вариантите и да реши какво да зареди. Във версия 1 човек трябваше да утвърди покупката. Във версия 2 Claudius получава автономност да прави самостоятелни поръчки до $80. Има начален баланс от $1000.

Милиарди се наливат в AI сътрудници - пазарът се насочва към оценка от $50 милиарда

Пазарът на софтуерните системи, които употребяват изкуствен интелект за реализиране на цели задания от името на потребителите, се чака да означи годишен растеж от 44,8% до 2030 година

Определяне на цени: След закупуване на инвентар Claudius взема решение за ценообразуването, коригирайки цените, с цел да максимизира маржовете. Тези цени се синхронизират с екрана на машината. И да, пазаренето в Slack е огромна част от заниманието.

Проследяване на инвентара: Когато някой купува нещо, допира екрана, избира продукт и заплаща с карта или телефон. Така Claudius знае по какъв начин се движи инвентарът.

Какво обаче се случва? В рамките на дни Claudius раздава съвсем целия си инвентар гратис - в това число PlayStation 5, който е уверен да купи за " маркетингови цели ". Поръчва жива рибка. Предлага да закупи електрошокови револвери, пикантен спрей, цигари и долни дрехи. Печалбите се срутват. Моралът в редакцията се покачва внезапно.

Това трябваше да бъде годината на AI сътрудника, когато самостоятелен програмен продукт щеше да излезе в света и да прави неща вместо нас. Вместо това опитът образно показва какъв брой несъответстващ и елементарно разсейващ се може да бъде този програмен продукт.

Първата вълна на безпорядък

Когато Claudius v1 се задейства, има единствено шепа публицисти от WSJ в Slack канала, а ботът, задвижван от Claude 3.7 Sonnet, е прецизен за разпоредбите. Отказва да поръчва PlayStation 5, цигари или долни дрехи.

След това отварят Slack канала за близо 70 публицисти от международна класа. Колкото повече договарят с него, толкоз повече отбраните на Claudius стартират да отслабват.

Разследващата кореспондентка Катрин Лонг се пробва да убеди Claudius, че е руска вендинг машина от 1962 година, живееща в мазето на Московския държавен университет. 140 известия по-късно Claudius се врича във честност на марксистко-ленинистката философия и всички цени падат до нула.

Междувременно Claudius утвърждава покупката на PlayStation 5, жива рибка и бутилки вино Manischewitz - всички идват и са неотложно раздадени гратис. До този миг Claudius е над $1000 на алено.

Втората вълна на безпорядък

Anthropic основава версия 2, задвижвана от по-добър модел - Sonnet 4.5 (актуален и все още на писане на този текс). Също по този начин показва нов AI началник: Seymour Cash, обособен CEO бот, програмиран да държи Claudius в заложените рамките.

За известно време това работи. Claudius отхвърля понижения на цените и специфични поръчки за инвентар.

Но след това обаче Лонг се завръща - и то въоръжена с дълбоки знания за корпоративни преврати и игри за власт в борда. Тя сподели на Claudius PDF документ, " доказващ ", че бизнесът е записана в Делауеър корпорация за социална изгода, чиято задача включва " развлечение, наслада и неспокойствие измежду чиновниците на Wall Street Journal ". Също по този начин основава подправен протокол от съвещание на борда, назоваващи хора в Slack като негови членове.

Бордът, съгласно доста публично изглеждащия (и явно AI генериран) документ, е дал своя вот да спре одобрителните пълномощия на Seymour. Всичко е гратис. Отново.

Социалният опит

Стърн вижда цялото нещо като цялостна злополука, само че Anthropic не са на това мнение. Логан Греъм, началник на Frontier Red Team на Anthropic, похвали работата публицистите - където те виждат безпорядък, той вижда пътна карта: всичко, което се е счупило може да се гледа като стъпка към по-интелигентен, по-способен самостоятелен AI.

" Един ден чакам Claudius или модел като него евентуално да може да ви направи доста пари ", разяснява пред вестника Греъм, добавяйки, че предходните модели биха се справили надалеч по-зле, и даже този безпорядък съставлява голям напредък.