OpenAI обяви във вторник пускането на два отворени AI модела

...
OpenAI обяви във вторник пускането на два отворени AI модела
Коментари Харесай

OpenAI пусна първите си отворени модели от пет години насам

OpenAI разгласи във вторник стартирането на два отворени AI модела за размишление с сходни благоприятни условия на o - серията. Те са свободно налични за евакуиране от онлайн платформата за разработчици Hugging Face, заяви компанията, описвайки ги като „ най-модерните “ съгласно няколко сравнителни критерия.

Моделите се оферират в два размера: по-голям и по-мощен gpt-oss-120b, който може да работи на един Nvidia GPU, и по-лек - gpt-oss-20b, който може да работи на потребителски преносим компютър с 16 GB памет. Това са първите „ отворени “ езикови модели на OpenAI от стартирането на GPT-2 преди повече от пет години.

От AI лабораторията изясняват пред TechCrunch, че новите ѝ модели ще могат да изпращат по-сложните поръчки към облачна AI платформа. Това значи, че в случай че те не са способни да изпълнят избрана задача, като да вземем за пример обработка на изображение, разработчиците ще могат да се свържат с един от по-мощните затворени итерации на компанията.

Въпреки че използваше отворени модели при започване на своето битие, след това лабораторията избра метод на затворена разработка. Тази тактика ѝ оказа помощ да построи огромен бизнес, продавайки достъп до своите AI модели посредством API на предприятия и разработчици.

Въпреки това, през януари основният изпълнителен шеф Сам Алтман съобщи, че съгласно него OpenAI е „ на неверната страна на историята “, що се отнася до отворения код на своите технологии. Днес компанията е подложена на възходящ напън от китайски съперници – в това число DeepSeek, Qwen на Alibaba и Moonshot AI – които разработиха няколко от най-мощните и известни отворени модели в света. (Макар Meta да доминираше в региона на отворения AI, моделите Llama AI на компанията изостанаха през последната година).

През юли администрацията на Тръмп също прикани американските разработчици на изкуствен интелект да отворят повече технологии, с цел да насърчат световното приемане на изкуствен интелект, съгласуван с американските полезности. С стартирането на gpt-oss OpenAI се надява да завоюва благоразположението както на разработчиците, по този начин и на администрацията на Тръмп, която с неодобрение наблюдаваше по какъв начин китайските лаборатории за изкуствен интелект получават все по-голяма известност в региона на отворения код.

„ Още от началото ни през 2015 година задачата на OpenAI е да сътвори AGI (общ неестествен интелект), от който да се възползва цялото човечество “, разяснява Алтман пред TechCrunch. „ Затова сме разчувствани, че светът ще се развива въз основа на отворен AI стек, основан в Съединени американски щати, основан на демократични полезности, наличен гратис за всички “.
Как се показват моделите
Целта на OpenAI е да направи своя отворен модел водач на това поле и компанията твърди, че е съумяла да я реализира.

В Codeforces - тест за шифроване - gpt-oss-120b и gpt-oss-20b получават надлежно 2622 и 2516 точки, като превъзхождат R1 на DeepSeek, само че отстъпват на o3 и o4-mini.

В Humanity’s Last Exam (HLE) - тест с въпроси от разнообразни тематики - gpt-oss-120b и gpt-oss-20b получават надлежно 19% и 17,3%. По този метод те се показват по-слабо от o3, само че по-добре от водещите отворени модели на DeepSeek и Qwen на Alibaba.

Все отново отворените модели на OpenAI халюцинират доста повече от най-новите модели за разсъждения на компанията o3 и o4-mini. Халюцинациите стават все по-сериозен проблем в най-новите модели за разсъждения на OpenAI, а компанията по-рано съобщи, че не схваща изцяло за какво се случва това. Все отново от лабораторията настояват, че това е „ предстоящо, защото по-малките модели имат по-малко знания за света от по-големите “.

OpenAI открива, че gpt-oss-120b и gpt-oss-20b халюцинират в отговорите на надлежно 49% и 53% от въпросите в PersonQA, вътрешния бенчмарк на компанията за премерване на точността на знанията на модела. Това е повече от три пъти по-висок % халюцинации от модела o1 на OpenAI, който е отбелязал 16%, и по-висок от модела o4-mini, който е записал 36%.
Обучение на новите модели
OpenAI твърди, че отворените модели са били подготвени с процеси, сходни на тези на затворените разновидности на компанията. Те употребяват по-малко параметри за отговора на даден въпрос, което ги прави по-ефективни. За gpt-oss-120b, който има общо 117 милиарда параметри, OpenAI споделя, че задейства едвам 5,1 милиарда на токен.

Компанията също по този начин твърди, че последните ѝ модели са били подготвени благодарение на високопроизводително усилващо образование (RL) – развой след първичното образование, който учи AI моделите да разграничават вярно от неверно в симулирани среди, употребявайки огромни клъстери от Nvidia GPU. Той е бил употребен и за образованието на моделите от серията o на OpenAI, а отворените модели имат сходен развой на верига от мисли, при който им е належащо в допълнение време и изчислителни запаси, с цел да обработят отговорите си.
Източник: profit.bg


СПОДЕЛИ СТАТИЯТА


КОМЕНТАРИ
НАПИШИ КОМЕНТАР