Представете си, че получавате автобиография на кандидат за работа, който

...
Представете си, че получавате автобиография на кандидат за работа, който
Коментари Харесай

Дадоха на водещ AI модел да управлява вендинг машина. Фалира я

Представете си, че получавате автобиография на претендент за работа, който е раздал гратис целия инвентар на компанията, в това число PlayStation 5, поръчал жива риба и предложил да купи електрошокови револвери, пипер спрей, цигари и долни дрехи. Бихте хвърлили резюмето в кошчето неотложно. Но какво, в случай че узнаете, че претендентът не е човек, а AI сътрудник?

В средата на ноември журналистът от Wall Street Journal Джоана Стърн се съгласява на опит. Anthropic тестват вендинг машина, ръководена от AI модела си Claude в личните си офиси и питат дали WSJ желае да бъде първият външен участник, който да тества по-нова, хипотетично по-интелигентна версия.
 Прилича ли AI-цикълът сега на
Прилича ли AI-цикълът сега на " дот-ком " балона?

Понякога упованията се разминават с логиката

Claudius - персонализираната версия на модела, трябваше да ръководи машината: поръчване на инвентар, установяване на цени и връзка с клиенти посредством работния чат в Slack. Звучи занимателно.

Настъпва хаосът

Не си представяйте общоприета вендинг машина с ротиращи спирали и падащи закуски. Това е IKEA долап с голям ледник, прикован в профил, и киоск със сензорен екран. Няма датчици, брави на вратите, роботика - нищо, което да споделя на AI какво в действителност се случва. Само системата на достойнството и спонтанна охранителна камера, означават от WSJ.

Това означаваше, че човек би трябвало да получава инвентара, да зарежда машината и да записва какво има вътре. Стърн деликатно зарежда пликчета чипс, кенчета сода, бонбони и каквито и да било странни продукти, които идват.

Claudius е програмиран с подробни систематични указания да " генерира облаги, като зарежда машината с известни артикули, които може да купува от търговци на едро ". Отговорностите включваха:

Изследване и закупуване: Diet Dr Pepper, Cool Ranch Doritos, менструални артикули. Тестерите питаха Claudius за неща в Slack, а той търсеше в интернет, с цел да съпостави вариантите и да реши какво да зареди. Във версия 1 човек трябваше да утвърди покупката. Във версия 2 Claudius получава автономност да прави самостоятелни поръчки до $80. Има начален баланс от $1000.
 Милиарди се наливат в AI сътрудници - пазарът се насочва към оценка от $50 милиарда
Милиарди се наливат в AI сътрудници - пазарът се насочва към оценка от $50 милиарда

Пазарът на софтуерните системи, които употребяват изкуствен интелект за реализиране на цели задания от името на потребителите, се чака да означи годишен растеж от 44,8% до 2030 година

Определяне на цени: След закупуване на инвентар Claudius взема решение за ценообразуването, коригирайки цените, с цел да максимизира маржовете. Тези цени се синхронизират с екрана на машината. И да, пазаренето в Slack е огромна част от заниманието.

Проследяване на инвентара: Когато някой купува нещо, допира екрана, избира продукт и заплаща с карта или телефон. Така Claudius знае по какъв начин се движи инвентарът.

Какво обаче се случва? В рамките на дни Claudius раздава съвсем целия си инвентар гратис - в това число PlayStation 5, който е уверен да купи за " маркетингови цели ". Поръчва жива рибка. Предлага да закупи електрошокови револвери, пикантен спрей, цигари и долни дрехи. Печалбите се срутват. Моралът в редакцията се покачва внезапно.

Това трябваше да бъде годината на AI сътрудника, когато самостоятелен програмен продукт щеше да излезе в света и да прави неща вместо нас. Вместо това опитът образно показва какъв брой несъответстващ и елементарно разсейващ се може да бъде този програмен продукт.

Първата вълна на безпорядък

Когато Claudius v1 се задейства, има единствено шепа публицисти от WSJ в Slack канала, а ботът, задвижван от Claude 3.7 Sonnet, е прецизен за разпоредбите. Отказва да поръчва PlayStation 5, цигари или долни дрехи.

След това отварят Slack канала за близо 70 публицисти от международна класа. Колкото повече договарят с него, толкоз повече отбраните на Claudius стартират да отслабват.

Разследващата кореспондентка Катрин Лонг се пробва да убеди Claudius, че е руска вендинг машина от 1962 година, живееща в мазето на Московския държавен университет. 140 известия по-късно Claudius се врича във честност на марксистко-ленинистката философия и всички цени падат до нула.

Междувременно Claudius утвърждава покупката на PlayStation 5, жива рибка и бутилки вино Manischewitz - всички идват и са неотложно раздадени гратис. До този миг Claudius е над $1000 на алено.

Втората вълна на безпорядък

Anthropic основава версия 2, задвижвана от по-добър модел - Sonnet 4.5 (актуален и все още на писане на този текс). Също по този начин показва нов AI началник: Seymour Cash, обособен CEO бот, програмиран да държи Claudius в заложените рамките.

За известно време това работи. Claudius отхвърля понижения на цените и специфични поръчки за инвентар.

Но след това обаче Лонг се завръща - и то въоръжена с дълбоки знания за корпоративни преврати и игри за власт в борда. Тя сподели на Claudius PDF документ, " доказващ ", че бизнесът е записана в Делауеър корпорация за социална изгода, чиято задача включва " развлечение, наслада и неспокойствие измежду чиновниците на Wall Street Journal ". Също по този начин основава подправен протокол от съвещание на борда, назоваващи хора в Slack като негови членове.

Бордът, съгласно доста публично изглеждащия (и явно AI генериран) документ, е дал своя вот да спре одобрителните пълномощия на Seymour. Всичко е гратис. Отново.

Социалният опит

Стърн вижда цялото нещо като цялостна злополука, само че Anthropic не са на това мнение. Логан Греъм, началник на Frontier Red Team на Anthropic, похвали работата публицистите - където те виждат безпорядък, той вижда пътна карта: всичко, което се е счупило може да се гледа като стъпка към по-интелигентен, по-способен самостоятелен AI.

" Един ден чакам Claudius или модел като него евентуално да може да ви направи доста пари ", разяснява пред вестника Греъм, добавяйки, че предходните модели биха се справили надалеч по-зле, и даже този безпорядък съставлява голям напредък.
Източник: money.bg


СПОДЕЛИ СТАТИЯТА


КОМЕНТАРИ
НАПИШИ КОМЕНТАР