Стартъпът Nous Research представи Hermes 4

Nous Research представи Hermes 4 – AI на ниво GPT-4o и без вградена цензура

Стартъпът Nous Research показа Hermes 4 – семейство от огромни езикови модели с отворен код. Техните благоприятни условия са сравними с водещите комерсиални изкуствени интелекти на OpenAI и Anthropic, като демонстрират високи резултати в тестванията по математика и програмиране. Основната характерност на Hermes 4 е готовността му да дава отговор на необятен кръг от въпроси на практика без ограничавания. За разлика от GPT-4o, който постоянно заобикаля противоречивите тематики, този модел не съдържа вградени принадлежности за цензура.

Hermes 4 включва три модела с размерност 14, 70 и 405 милиарда параметри. Те употребяват механизъм за „ хибридно размишление “: моделът може да дава бързи отговори или да разпростира подробни поетапни разбори вътре в таговете … , което разрешава на потребителя да види хода на мисълта. Това обезпечава комфортно превключване сред скоростта и дълбочината на обработка на информацията.

В тестванията по математика Hermes 4 доближи равнището на най-скъпите комерсиални планове: най-голямата версия (405B) получи 96,3% в MATH-500, 81,9% в AIME’24 и 78,1% в AIME’25. Моделът също по този начин реализира 70,5% в GPQA Diamond (точни науки) и 61,3% в LiveCodeBench (програмиране). В бенчмарка RefusalBench, който Nous Research създаде, с цел да оцени склонността на ИИ да се проваля, Hermes 4 реализира 57,1% – в пъти по-добре от Gemini 2,5 Pro (23,24%), GPT-4o (17,67%) и Claude Sonnet 4 (17%).

Nous Research съзнателно заобикаля вградените принадлежности за цензура, като акцентира, че потребителят, а не компанията, би трябвало да дефинира границите на допустимото наличие.

Зад високите резултати се крие специфичен метод към образованието. Критичен съставен елемент е системата DataForge, която генерира синтетични данни благодарение на ориентиран ацикличен граф (DAG). В този граф всеки възел дефинира изискванията и трансформациите, които разрешават последователното усложняване на истинските данни. Така да вземем за пример системата може да вземе елементарна публикация от Уикипедия, да я трансформира в рап и по-късно да генерира двойки запитване-отговор въз основа на нея. Този развой разрешава бързо и огромно основаване на разнородни образователни материали. Резултатът е към 5 милиона образеца с общо 19 милиарда токена. Нещо повече, дилемите за размишление бяха особено направени „ по-дълги “ – приблизително пет пъти по-големи от нормалното – с цел да могат да поемат подробните вериги от мисли с дължина до 16 хиляди токена.

Друг детайл е Atropos – среда за образование посредством укрепване със стотици профилирани „ симулатори “. Моделите се упражняват посредством математически калкулации, програмиране, генериране на код и работа с формати, като единствено валидираните отговори попадат в крайните набори от данни.

Подобна селекция оказва помощ за образуване на модели на размишление, вместо да се запомнят подготвени решения.

Разработчиците са решили и казуса с прекомерно дългите разсъждения: Младшата версия на модела с 14 милиарда параметри в 60% от случаите „ влизаше в безконечен цикъл “, като запълваше подтекста до оптималната дължина, без да доближи до резултат. За да избегнат сходни неуспехи, те прибавиха втора фаза на образование, в която моделът беше особено подготвен да приключва разсъжденията навръх границата от 30 000 признака. Тази техника понижава зациклянето с 65-79%, като в същото време поддържа съвсем същото равнище на акуратност на отговорите.

Технически образованието е извършено на 192 ускорителя NVIDIA B200, като е употребен фреймуърка TorchTitan. За да се оправи с голямото количество данни, екипът употребява усъвършенствано пакетиране на извадките и паралелни калкулации. В последна сметка екипът е съумял да обработи 3,5 милиона образеца с разсъждения и 1,6 милиона без разсъждения. Това е лишило 71 616 GPU часа – почти 15 дни при цялостно натоварване на хардуера.

Nous Research нарежда Hermes 4 като „ опция на колосите “, като натъртва на отвореността и свободата на потребителя. Теглата на моделите към този момент са налични в Hugging Face, а API е интегриран в интерфейса за чат, като работат се поддържа от доставчиците на облачни услуги Chutes, Nebius и Luminal.