Промени в еволюцията: на всяко тримесечие ИИ намалява наполовина разликата с хората
ИИ моделите се приближават до способността да извършват комплицирани задания без човешка интервенция.
Съвременните системи за изкуствен интелект към момента отстъпват на хората в осъществяването на дълготрайни задания, само че развиването им е толкоз бързо, че тази разлика може да изчезне по-скоро от предстоящото. До този извод стигнаха откриватели от METR, организация с нестопанска цел, основана в Бъркли, Калифорния.
Екипът на METR е създал близо 170 действителни задания в области като програмиране, киберсигурност, логическо мислене и машинно образование. За да оценят напредъка на изкуствения разсъдък, специалистите са открили „ човешкото базово ниво„, като са измерили какъв брой време лишава на специалистите да ги изпълнят. След това те предложиха нов индикатор – „ небосвод на осъществяване на дилемите “. Тази метрика отразява какъв брой време приблизително лишава на програмистите да изпълнят задания, с които ИИ моделите се оправят с избрана степен на триумф.
В публикация, оповестена в arXiv, откривателите проучват 13 модерни ИИ модела и откриват, че техният „ небосвод на осъществяване “ се удвоява почти на всеки седем месеца от 2019 година насам. През 2024 година темпът на повишаване се е ускорил: в този момент той се удвоява почти на всеки три месеца. През 2019 година GPT-2, един от първите съществени езикови модели на OpenAI, се проваля във всяка задача, чието осъществяване лишава на индивида повече от минута. А Claude 3.7 Sonnet, пуснат през февруари 2024 година, към този момент сполучливо се оправя с 50% от дилемите, изискващи от индивида 59 минути работа.
Ако актуалната наклонност се резервира, до 2029 година ИИ моделите ще могат да се оправят със задания, изискващи към месец работа от човек, с 50-процентна успеваемост. Това е значим стадий, защото един месец целенасочена човешка работа може да бъде задоволителен за основаването на стартъп или научно изобретение.
Не всички учени обаче споделят възторжените прогнози. Джошуа Ганс, професор по мениджмънт в Университета в Торонто, счита, че сходни екстраполации нямат огромна стойност. Той акцентира, че към момента има прекалено много незнайни за това по какъв начин тъкмо ще се употребява ИИ в действителните задания.
Изследователите от METR са избрали 50% успеваемост на дилемите като основен предел, тъй като това равнище се е оказало най-устойчиво на дребните промени в разпределението на данните. Ако прагът на надеждност се увеличи до 80 %, междинният времеви небосвод се свива пет пъти, макар че общата наклонност на напредък остава непроменена.
Напредъкът на ИИ моделите през последните пет години се дължи основно на увеличението на мащаба – размера на данните за образование, времето за образование и броя на параметрите. Авторите на проучването обаче означават, че растежът на времевия небосвод е мощно повлиян и от подобренията в логическото мислене, способността за потребление на принадлежности, коригирането на грешките и способността за осъзнаване на подтекста на поставената задача.
Подходът на METR преодолява някои от рестриктивните мерки на обичайните проби за изкуствен интелект, които са едва свързани с действителните работни задания и бързо стават неуместни с усъвършенстването на моделите. Новата метрика обезпечава по-точно показване на дълготрайния прогрес в развиването на технологиите.
Въпреки че водещите ИИ модели към този момент показват гигантски резултати на тестванията, тяхното икономическо влияние остава лимитирано. Един от създателите на изследването, Бен Уест, изяснява това с обстоятелството, че актуалните модели имат времеви небосвод от към 40 минути – а в този интервал хората рядко имат време да извършат нещо с действителна стойност. Според Уест това частично изяснява за какво ИИ към момента не е оказал доста влияние върху стопанската система.
В същото време предприемачът и откривател Антон Трояников счита, че моделите на ИИ могат да бъдат доста по-полезни, в случай че фирмите влагат по-активно в консолидираното им в бизнес процесите.
Въпреки че новият индикатор е потребен, той не съумява да оцени изцяло способността на ИИ да обобщава – т.е. да извършва задания, разнообразни от тези, за които е бил подготвен моделът. Изследователите от METR признават, че техният способ не покрива цялата трудност на действителната работа, само че твърдят, че наклонността на повишаване на времевия небосвод, която са разкрили, се резервира даже при задания, които са оптимално близки до действителните условия.
Прогнозирането на развиването на изкуствения разсъдък зависи от доста фактори. През последните пет години изчислителната мощност набъбна неведнъж, само че в бъдеще физическите и икономическите ограничавания могат да забавят този напредък. Експертите обаче считат, че този резултат ще бъде отчасти обезщетен от подобренията в логаритмите. METR също по този начин чака, че по-нататъшният прогрес в технологиите за самостоятелни модели и способността им да автоматизират проучванията ще доведат до нов прогрес.
Джошуа Ганс допуска, че идната стъпка е да се изследва по какъв начин ИИ и човешкото взаимоотношение могат да подобрят взаимната работа при осъществяване на дилемите. Този метод би могъл да даде по-точна визия за практическата стойност на изкуствения разсъдък.
Ситуацията е сравнима с индустриалната гражданска война в селското стопанство: в наши дни един аграрни производител с трактор може да реализира повече, в сравнение с неговият предходник с 500 вола през 50-те години на ХХ век. Темпът на развиване продължава да се форсира. А това значи, че безусловно в този момент се правят промени в еволюцията, такава, каквато я познаваме.




