Китайският изкуствен интелект DeepSeek-R1 обмисля и проверява решенията си
Китай е създал ИИ модела DeepSeek-R1, който може да разсъждава върху поставените задания и да ревизира заключенията си. Технологията бе показана от изследователската лаборатория DeepSeek, финансирана от хедж фонда High-Flyer Capital Management. Създателите настояват, че DeepSeek-R1 е в положение да се конкурира с модела o1 на OpenAI въз основа на два известни критерия за оценка – AIME и MATH.
DeepSeek-R1 ползва неповторим метод към обработката на поръчките: вместо да дава неотложен отговор, моделът разделя казуса на стадии и го проучва малко по малко. Решаването на някои комплицирани поръчки може да отнеме на логаритъма няколко десетки секунди. Този способ оказва помощ да се сведат до най-малко грешките, присъщи за другите ИИ модели. Въпреки това потребителите означават, че системата изпитва усложнения с някои обикновени логичен игри, като да вземем за пример играта „ кръстчета-нулички “ (tic-tac-toe).
DeepSeek-R1 към този момент провокира дискусия измежду специалистите поради уязвимостта си към заобикаляне на механизмите за сигурност. В интернет се появиха образци за консуматори, които получават указания от ИИ за основаване на противозаконни субстанции. Освен това логаритъмът отхвърля да разисква тематики, които се контролират от китайските управляващи, като да вземем за пример събитията на площад „ Тянанмън “ или възможен спор с Тайван. Тези ограничавания се дължат на условието да се съблюдават „ главните социалистически полезности “, избрани от държавния регулатор.
Интересът към системите за „ машинно размишление “ набъбна на фона на забавянето на напредъка в създаването на модели, учредени на само увеличаващите се количества данни и изчислителна мощност. Разработчиците на DeepSeek-R1 употребяват метод, наименуван „ test-time compute “, който разрешава на модела да употребява спомагателни запаси за разбор на дилемите. Тази технология беше изтъкната от основния изпълнителен шеф на Microsoft Сатя Надела, който съобщи появяването на нов „ модел на мащабиране “ за изкуствения разсъдък.
DeepSeek възнамерява да трансформира DeepSeek-R1 в план с отворен код, като даде на разработчиците кода и приложните програмни интерфейси. Лабораторията към този момент стана известна със своя модел DeepSeek-V2, който оказа въздействие върху пазара, компании като ByteDance, Baidu и Alibaba бяха принудени да понижат цените си или даже да създадат услугите си безвъзмездни.
High-Flyer Capital Management интензивно поддържа плана и употребява 10 000 графични процесора Nvidia A100 за образование на моделите. Сървърният клъстер на компанията коства към 138 млн. $. Ръководителят на компанията Лианг Уенфън съобщи, че крайната ѝ цел е да сътвори „ свръхинтелигентност “, която да надмине човешкия разсъдък.
Разработването на изкуствен интелект с мисловна функционалност отразява общата наклонност за намиране на нови подходи за неговото развиване. Традиционните способи за рационализиране на моделите, учредени на увеличение на изчислителната мощност и размера на данните, се сблъскаха с ограничавания през последните години. Това принуждава откривателите да търсят новаторски способи, като да вземем за пример потребление на спомагателни запаси за осъществяване на дилемите в действително време (test-time compute).
Китай заема особено място в развиването на ИИ, защото интензивно влага в нови технологии. Според неотдавна оповестената ранглиста на международните екосистеми за ИИ тази страна е на второ място в ИИ промишлеността и се готви да заеме водеща позиция. Тайната на триумфа на Китай е в патентите, невиждания размер на вложенията и ясната национална тактика.




