Проучване на Microsoft Research разкри слабата ефективност на популярните AI

AI коригира само половината грешки в кода

Проучване на Microsoft Research разкри слабата успеваемост на известните AI модели

Коригирането на софтуерни неточности от AI е надалеч от равнището, което човек би очаквал от опитни програмисти (снимка: CC0 Public Domain)

Изкуственият разсъдък оказва помощ на разработчиците да пишат програмен продукт, само че даже най-хубавите модели са способни да поправят единствено половината неточности в кода, откри ново изследване на Microsoft Research.

Тестването на моделите с изкуствен интелект е осъществено въз основата на най-хубавия бенчмарк SWE-bench, който мери способността на AI системите да основават програмен код. Оказва се, че даже топ AI модели като OpenAI (o1) и Anthropic (Claude 3.7 Sonnet) се оправят единствено с половината от грешките.

По време на опита на AI сътрудниците е предоставено да решат 300 задания за унищожаване на неточности в кода. Лидер е моделът Claude 3.7 Sonnet, който има успеваемост от 48,4%, следван от OpenAI o1 (30,2%) и o3-mini (22,1%).

Подобна успеваемост в коригирането на софтуерни неточности е надалеч от равнището, което човек би очаквал от опитни програмисти. Основният проблем, съгласно TechCrunch, е, че изкуственият разсъдък към момента не схваща по какъв начин да употребява наличните принадлежности и да интерпретира грешките.

Ключова спънка остава неналичието на данни за модели на образование. „ Ние мощно имаме вяра, че образованието или преквалификацията може да ги [AI моделите] направи по-добри интерактивни стратегии за премахване на неточности ”, означават създателите на проучването. „ Това обаче изисква профилирани данни, да вземем за пример верига от записи на всички процеси на взаимоотношение сред хора и AI дебъгери ”.

В момента такива данни са незадоволителни, което лимитира опциите на AI моделите. Например, известният инструмент Devin от започващата компания Cognition Labs се оправя единствено с три от 20 теста за шифроване точно затова.

И до момента в който AI се употребява мощно от компании като Гугъл, основният изпълнителен шеф на компанията Сундар Пичай споделя, че една четвърт от кода, основан благодарение на изкуствен интелект, в действителност може да вкара неточности.

Технологичните водачи са скептични по отношение на цялостната автоматизация на програмирането. Бил Гейтс е уверен, че програмирането като специалност сигурно няма да изчезне. Подобни отзиви споделят основният изпълнителен шеф на Replit Амджад Масад, шефът на Okta Тод Маккинън и CEO-то на IBM Арвинд Кришна.

Въпреки очевидните провокации, ползата към инструментите за разработка на AI продължава да пораства. Инвеститорите виждат капацитет за повишение на успеваемостта, само че водещи разработчици считат, че е прекомерно рано да се доверят напълно на изкуствения разсъдък.
Нови TP-Link Omada решения за надеждни и бързи външни мрежови съоръжения
Осигуряват съгласуваност от бизнес клас на мъчно налични места »»»
предишна обява: Шефът на Intel е огромен вложител в китайски фирми следваща обява:
графа: Изкуствен разсъдък, Новаторски, Новини, Топ вести | етикети: AI модели, Microsoft, изкуствен интелект, поправяне на код, програмиране
Коментар

ИМЕ *