Контекстният прозорец се удвои, но основната битка тепърва започва. DeepSeek

Неуспехът с Huawei се оказа пробив. DeepSeek V3.1 изгражда нови мостове – към едно бъдеще без Nvidia

Контекстният прозорец се удвои, само че главната борба занапред стартира.

DeepSeek показа обновена версия на своя водещ езиков модел – V3.1, която съгласно разработчиците е приспособена за потребление с идните китайски чипове. Новата версия е основана на обновения формат на числата с плаваща запетая UE8M0, който е вид на FP8. Тя е предопределена да обезпечи по-добра съгласуемост с бъдещите AI ускорители, създавани в Китай.

От компанията прецизираха, че преди този момент са употребявали общоприетия формат FP8 E4M3, а преходът към UE8M0 е обвързван не толкоз с усъвършенстване на продуктивността, колкото с обезпечаване на цялостна съгласуемост с новата процесорна архитектура. DeepSeek не посочва съответните производители на чипове, само че по-рано беше обявено за тясно съдействие с Huawei, в частност – за опити за образование на идващото потомство модел (условно обозначено като R2) въз основата на ускорителите Ascend. Тези опити се оказаха несполучливи: моделът трябваше да се върне към чиповете Nvidia H20. Въпреки това Huawei продължава да се преглежда като допустима платформа за инференциране.

Любопитно е, че макар представянето на V3.1 като забележителна актуализация, в реалност моделът е подготвен върху контролния показател на предходната версия V3. Нововъведенията не са архитектурни промени, а по-скоро преконфигуриране и консолидиране на нови механизми за култивиране на данните. Сред тях е обединяването на методите за генериране на „ премислени “ и „ недомислени “ отговори. Преди това DeepSeek оферираше два разновидността на моделите за другите задания, само че в този момент двата режима са обединени в една система, като превключването сред тях става благодарение на чат шаблони.

Този метод към този момент е тестван от други компании, в това число Alibaba, която се опита да приложи сходна идея в своите модели Qwen 3 през първата половина на годината. Тогава обаче концепцията беше изоставена, защото сходна хибридизация докара до по-лоши резултати.

В случая със DeepSeek обстановката, най-малко при тестванията, е по-различна: моделът демонстрира доста нарастване на точността при генериране на елементарни (необмислени) отговори, а когато се задейства режимът на разсъждаване, се реализира икономисване на токени, нужни за приемане на съответстващ резултат. Това е изключително значимо за понижаване на разноските за поддръжка на модела в индустриална среда.

Контекстният прозорец на V3.1 също е повишен: в този момент той побира до 131072 токена – два пъти повече от предходната версия. Въпреки това DeepSeek към момента изостава даже от китайските си съперници по този параметър – да вземем за пример от Qwen3, който може да обработва контексти за един милион токена.

Специално внимание в актуализацията е обърнато на опциите за извикване на принадлежности и взаимоотношение с външни функционалности – основен съставен елемент за агентно-базираните AI сюжети. Според тестванията на Browsecomp, бенчмарк, който прави оценка уменията за самостоятелна навигация в браузъра, новият модел е постигнал резултат от 30 точки, до момента в който предходната актуализация (версията R1 от месец май) е получила единствено 8,9 точки. Това демонстрира фрапантен прогрес при комплицираните задания, които изискват взаимоотношение с външните източници на информация в действително време.

Както тегловните параметри на базовия модел, по този начин и профилираната му версия с конфигурация на инструкциите са налични за разработчиците – те са оповестени в Hugging Face и ModeScope. Моделът също по този начин е интегриран в личен чатбот и е наличен посредством API.

По този метод DeepSeek залага на авансово построена архитектура, подготвена за бъдещите китайски чипове. Това акцентира стратегическата цел за понижаване на зависимостта от непознати технологии и обезпечаване на софтуерна самостоятелност, изключително на фона на рестриктивните мерки в доставките на западни ускорители.