OpenAI пусна два ИИ-модела за разсъждение, за които разработчикът твърди,

...
OpenAI пусна два ИИ-модела за разсъждение, за които разработчикът твърди,
Коментари Харесай

OpenAI пусна два ИИ-модела – те са почти толкова бързи, колкото O3-mini и O4-mini и могат да работят на един графичен процесор

OpenAI пусна два ИИ-модела за размишление, за които разработчикът твърди, че имат сходни благоприятни условия с тези на моделите от серията „ o “. И двата продукта са налични на платформата Hugging Face.

Компанията предлага две разработки: по-мощният gpt-oss-120b, който изисква графична карта на Nvidia, с цел да работи, до момента в който по-лекият gpt-oss-20b изисква потребителски преносим компютър с 16GB RAM. Последният път, когато OpenAI пусна план с отворен код, беше преди повече от пет години, когато това беше GPT-2. Новите модели, съгласно компанията, могат да изпращат прекомерно комплицираните поръчки към облачни системи, в случай че не могат да обработят някои поръчки независимо.

Като приет международен водач в AI промишлеността, OpenAI се стреми да направи своите модели с отворен код по-мощни от съществуващите и твърди, че е съумяла. В тестванията за шифроване Codeforces, моделите gpt-oss-120b и gpt-oss-20b са постигнали надлежно 2622 и 2516 точки, побеждавайки DeepSeek R1, само че изоставайки от o3 и o4-mini. В бенчмарка Humanity’s Last Exam (HLE), gpt-oss-120b и gpt-oss-20b са постигнали надлежно 19% и 17,3% — по-ниско от o3, само че по-високо от флагманските модели с отворен код DeepSeek и Alibaba Qwen.

Отбелязва се, че новите отворени модели на OpenAI халюцинират, т.е. дават отговори, които решително не са правилни, по-често от затворените o3 и o4-mini. Разработчикът назова този резултат „ предстоящо, защото по-малките модели имат по-малко знания за света от по-големите, напреднали модели и са склонни към по-изразени халюцинации “. В теста PersonQA моделите gpt-oss-120b и gpt-oss-20b са халюцинирали в отговорите си надлежно в 49% и 53% от случаите; за съпоставяне, за o3 и o4-mini тези числа са надлежно 16% и 36%.

OpenAI е обучил отворените си модели, употребявайки същите процеси като при затворените модели, само че и двата са употребявали метода MoE (Mixture-of-Experts), с цел да употребяват по-малко параметри за отговаряне на въпросите. Моделът gpt-oss-120b, да вземем за пример, има 177 милиарда параметъра, само че задейства единствено 5,1 милиарда на токен, което спомага за възстановяване на успеваемостта. Той употребява и образование с укрепване с висока изчислителна мощ — развой за разграничение на вярното от неверното в симулирани среди; той се употребява за образование на моделите от серията o. Отворените модели също употребяват сходен развой за обработка на отговорите, което изисква в допълнение време и запаси.

OpenAI твърди, че отворените модели са подобаващи за потребление в AI-агентите и са способни да имат достъп до уеб-търсене и инструментите за осъществяване на Python код. Подчертава се, че те не са мултимодални, което значи, че са проектирани да работят единствено с текст и не могат да обработват или генерират изображения или тон. Моделите са налични под лиценза Apache 2.0, който се смята за един от най-демократичните. В същото време компанията отхвърля да разкрие какви данни са употребявани за образованието им.

OpenAI е провел и настрана изследване, с цел да ревизира дали хипотетични нападатели биха могли да употребяват новите модели в хакерски атаки или за създаване на биологични или химически оръжия — благодарение на външни специалисти е открито, че те към момента биха могли да окажат известна незначителна помощ в региона на биологичната просвета, само че няма доказателства, че евентуално биха могли да надвишават открития „ предел на качества “ даже след процедура за фина конфигурация.

Източник: kaldata.com


СПОДЕЛИ СТАТИЯТА


КОМЕНТАРИ
НАПИШИ КОМЕНТАР