Първият „AI програмист” се оказа безполезен
Човешкият разум към този момент печели борбата с изкуствения разсъдък в програмирането
(снимка: CC0 Public Domain)
Разработчиците на програмен продукт могат да спят умерено. „ Първият AI програмист ”, за каквато се представяше услугата с изкуствен интелект Devin, се оказа на процедура ненужен инструмент, който може да се оправи единствено с 15% от предоставените му задания.
Вече е ясно, че Devin не може да размени същински разработчик. Грандиозният план взема решение единствено дребна част от поставените пред него задания. Успеваемостта е 15% – това е извънредно невисок %, изключително като се има поради, че Devin започва относително от дълго време.
Човешкият разум е по-добър от виртуалния
Devin, пристигнал с претенцията, че е първият в света AI софтуерен инженер, се оказа извънредно неприятен разработчик. Тестовете демонстрират, че изкуственият разсъдък не съумява да се оправи с работата – извършва нищожните 15% от поставените пред него задания, отбелязва The Register в обява за плана.
Компанията Cognition AI показа Devin през март 2024 година До декември разработчикът организира самобитно затворено бета тестване, по време на което „ AI програмистът ” беше модернизиран и в края на годината Devin стана обществено наличен.
Но единствено тези, които имаха свободни $500, могат да го употребяват. Това е цената на месечен абонамент за услугата.
Твърде доста обещания
В формалната документи на Devin, направена от Cognition AI, се споделя: „ Devin е самостоятелен AI софтуерен инженер, който може да написа, извършва и тества код, помагайки на софтуерните инженери да работят върху персонални задания или екипни планове ”.
Според разработчиците, Devin е в положение независимо да „ преглежда поръчки за промени, да поддържа миграция на код, да дава отговор на проблеми при повикване, да основава уеб приложения и даже да извършва задания на персонален помощник, като да вземем за пример да поръча обяд от DoorDash ”, твърдят създателите на плана.
Услугата употребява корпоративния месинджър Slack като главен интерфейс за взаимоотношение с потребителя, както и Docker резервоар (софтуерна платформа за създаване, снабдяване и осъществяване на контейнерни приложения), който съдържа терминал, браузър, редактор на код и планировчик.
Devin поддържа API интеграция с външни услуги. Това му разрешава, да вземем за пример, да изпраща имейли от името на консуматор посредством транзакционната и маркетингова имейл услуга SendGrid.
Сложна система
Devin е „ комплицирана AI система ”. В работата си тази услуга разчита на няколко подготвени модела с изкуствен интелект едновременно, в това число GPT-4o от OpenAI. С други думи, той е свободен от минусите на един съответен AI модел и може да вземе най-хубавото от разнообразни модели.
На доктрина Devin може да се употребява за решение на огромно многообразие от задания, в това число миграция на код. И като се има поради, че е подсилен от напреднали невронни мрежи със заслужена известност, може да се чака, че Devin елементарно ще се оправи с потреблението им. Но в реалност това не се случва.
Истинските разработчици на програмен продукт са намерили доста дефекти в Devin. По-рано Cognition AI разгласява промоционален видеоклип, показващ по какъв начин AI програмистът самостоятелно приключва планове на платформата за фрийлансъри Upwork. Софтуерният разработчик Карл Браун проучва видеото и изцяло го развенча.
Друг специалист по програмиране и YouTube блогър на повърхностен работен ден също подлага на критика Devin. Според него, този AI инструмент съдържа сериозни проблеми със сигурността.
По-късно трима учени по данни, свързани с лабораторията за проучване и развиване на изкуствения разсъдък Answer.AI, тестваха Devin и откриха, че е извършил сполучливо единствено 3 от 20 задания. Те организираха тестванията си през януари 2025 година, т.е. съвсем година след формалната премиера на Devin.
Тестването е осъществено от Хамел Хюсейн, Айзък Флат и Джоно Уитакър. Според техния отчет, Devin се е справил сносно в началото – да вземем за пример, сполучливо е мигрирал данни от база данни на Notion към Гугъл Sheets. AI програмистът също е съумял да сътвори тракер на планети, с цел да ревизира изказванията за историческите позиции на Юпитер и Сатурн.
Въпреки това, до момента в който тестванията не престават, тримата откриватели се натъкват на проблеми. „ Задачи, които изглеждаха елементарни, постоянно отнемаха дни, а не часове, и Devin забиваше в механически задънени улици или произвеждаше прекомерно комплицирани, неизползваеми решения ”, изясняват откривателите в своя отчет.
„ Още по-тревожна беше склонността на Devin да върви напред с проблеми, които в действителност бяха невъзможни за разрешаване ”, допълват експертите.
Като образец те цитират случай, при който Devin, беше помолен да разположи голям брой приложения на платформата за разрастване на инфраструктура Railway, не схванал, че това е невероятно и прекарал повече от ден, пробвайки подходи, които не работят, и измисляйки несъществуващи функционалности.
Разочароващ резултат
От 20-те задания, предоставени на Devin, виртуалният програмист извършил приемливо единствено три – двете изброени нагоре и задачата за основаване на бот за месинджъра Discord на езика за програмиране Python. В три други задания Devin дава несигурни резултати, а 14 плана са цялостен неуспех.
Изследователите споделят, че Devin има изчистен потребителски интерфейс, който е впечатляващ, когато самата услуга работи вярно. „ Но това е казусът – случвало се е рядко [да работи правилно] ”, акцентират те.
„ Най-притеснителното беше неспособността ни да предвидим кои задания ще бъдат сполучливи. Дори задания, сходни на ранните ни триумфи, се провалиха по комплицирани и отнемащи време способи. Автономната природа, която изглеждаше обещаваща, се трансформира в пасив – Devin прекара дни в опити да откри невъзможни решения, вместо да разпознае фундаменталните спънки ”, заключават специалистите.
Източник: technews.bg
КОМЕНТАРИ