OpenAI пусна първите си отворени модели от пет години насам
OpenAI разгласи във вторник стартирането на два отворени AI модела за размишление с сходни благоприятни условия на o - серията. Те са свободно налични за евакуиране от онлайн платформата за разработчици Hugging Face, заяви компанията, описвайки ги като „ най-модерните “ съгласно няколко сравнителни критерия.
Моделите се оферират в два размера: по-голям и по-мощен gpt-oss-120b, който може да работи на един Nvidia GPU, и по-лек - gpt-oss-20b, който може да работи на потребителски преносим компютър с 16 GB памет. Това са първите „ отворени “ езикови модели на OpenAI от стартирането на GPT-2 преди повече от пет години.
От AI лабораторията изясняват пред TechCrunch, че новите ѝ модели ще могат да изпращат по-сложните поръчки към облачна AI платформа. Това значи, че в случай че те не са способни да изпълнят избрана задача, като да вземем за пример обработка на изображение, разработчиците ще могат да се свържат с един от по-мощните затворени итерации на компанията.
Въпреки че използваше отворени модели при започване на своето битие, след това лабораторията избра метод на затворена разработка. Тази тактика ѝ оказа помощ да построи огромен бизнес, продавайки достъп до своите AI модели посредством API на предприятия и разработчици.
Въпреки това, през януари основният изпълнителен шеф Сам Алтман съобщи, че съгласно него OpenAI е „ на неверната страна на историята “, що се отнася до отворения код на своите технологии. Днес компанията е подложена на възходящ напън от китайски съперници – в това число DeepSeek, Qwen на Alibaba и Moonshot AI – които разработиха няколко от най-мощните и известни отворени модели в света. (Макар Meta да доминираше в региона на отворения AI, моделите Llama AI на компанията изостанаха през последната година).
През юли администрацията на Тръмп също прикани американските разработчици на изкуствен интелект да отворят повече технологии, с цел да насърчат световното приемане на изкуствен интелект, съгласуван с американските полезности. С стартирането на gpt-oss OpenAI се надява да завоюва благоразположението както на разработчиците, по този начин и на администрацията на Тръмп, която с неодобрение наблюдаваше по какъв начин китайските лаборатории за изкуствен интелект получават все по-голяма известност в региона на отворения код.
„ Още от началото ни през 2015 година задачата на OpenAI е да сътвори AGI (общ неестествен интелект), от който да се възползва цялото човечество “, разяснява Алтман пред TechCrunch. „ Затова сме разчувствани, че светът ще се развива въз основа на отворен AI стек, основан в Съединени американски щати, основан на демократични полезности, наличен гратис за всички “.
Как се показват моделите
Целта на OpenAI е да направи своя отворен модел водач на това поле и компанията твърди, че е съумяла да я реализира.
В Codeforces - тест за шифроване - gpt-oss-120b и gpt-oss-20b получават надлежно 2622 и 2516 точки, като превъзхождат R1 на DeepSeek, само че отстъпват на o3 и o4-mini.
В Humanity’s Last Exam (HLE) - тест с въпроси от разнообразни тематики - gpt-oss-120b и gpt-oss-20b получават надлежно 19% и 17,3%. По този метод те се показват по-слабо от o3, само че по-добре от водещите отворени модели на DeepSeek и Qwen на Alibaba.
Все отново отворените модели на OpenAI халюцинират доста повече от най-новите модели за разсъждения на компанията o3 и o4-mini. Халюцинациите стават все по-сериозен проблем в най-новите модели за разсъждения на OpenAI, а компанията по-рано съобщи, че не схваща изцяло за какво се случва това. Все отново от лабораторията настояват, че това е „ предстоящо, защото по-малките модели имат по-малко знания за света от по-големите “.
OpenAI открива, че gpt-oss-120b и gpt-oss-20b халюцинират в отговорите на надлежно 49% и 53% от въпросите в PersonQA, вътрешния бенчмарк на компанията за премерване на точността на знанията на модела. Това е повече от три пъти по-висок % халюцинации от модела o1 на OpenAI, който е отбелязал 16%, и по-висок от модела o4-mini, който е записал 36%.
Обучение на новите модели
OpenAI твърди, че отворените модели са били подготвени с процеси, сходни на тези на затворените разновидности на компанията. Те употребяват по-малко параметри за отговора на даден въпрос, което ги прави по-ефективни. За gpt-oss-120b, който има общо 117 милиарда параметри, OpenAI споделя, че задейства едвам 5,1 милиарда на токен.
Компанията също по този начин твърди, че последните ѝ модели са били подготвени благодарение на високопроизводително усилващо образование (RL) – развой след първичното образование, който учи AI моделите да разграничават вярно от неверно в симулирани среди, употребявайки огромни клъстери от Nvidia GPU. Той е бил употребен и за образованието на моделите от серията o на OpenAI, а отворените модели имат сходен развой на верига от мисли, при който им е належащо в допълнение време и изчислителни запаси, с цел да обработят отговорите си.
Моделите се оферират в два размера: по-голям и по-мощен gpt-oss-120b, който може да работи на един Nvidia GPU, и по-лек - gpt-oss-20b, който може да работи на потребителски преносим компютър с 16 GB памет. Това са първите „ отворени “ езикови модели на OpenAI от стартирането на GPT-2 преди повече от пет години.
От AI лабораторията изясняват пред TechCrunch, че новите ѝ модели ще могат да изпращат по-сложните поръчки към облачна AI платформа. Това значи, че в случай че те не са способни да изпълнят избрана задача, като да вземем за пример обработка на изображение, разработчиците ще могат да се свържат с един от по-мощните затворени итерации на компанията.
Въпреки че използваше отворени модели при започване на своето битие, след това лабораторията избра метод на затворена разработка. Тази тактика ѝ оказа помощ да построи огромен бизнес, продавайки достъп до своите AI модели посредством API на предприятия и разработчици.
Въпреки това, през януари основният изпълнителен шеф Сам Алтман съобщи, че съгласно него OpenAI е „ на неверната страна на историята “, що се отнася до отворения код на своите технологии. Днес компанията е подложена на възходящ напън от китайски съперници – в това число DeepSeek, Qwen на Alibaba и Moonshot AI – които разработиха няколко от най-мощните и известни отворени модели в света. (Макар Meta да доминираше в региона на отворения AI, моделите Llama AI на компанията изостанаха през последната година).
През юли администрацията на Тръмп също прикани американските разработчици на изкуствен интелект да отворят повече технологии, с цел да насърчат световното приемане на изкуствен интелект, съгласуван с американските полезности. С стартирането на gpt-oss OpenAI се надява да завоюва благоразположението както на разработчиците, по този начин и на администрацията на Тръмп, която с неодобрение наблюдаваше по какъв начин китайските лаборатории за изкуствен интелект получават все по-голяма известност в региона на отворения код.
„ Още от началото ни през 2015 година задачата на OpenAI е да сътвори AGI (общ неестествен интелект), от който да се възползва цялото човечество “, разяснява Алтман пред TechCrunch. „ Затова сме разчувствани, че светът ще се развива въз основа на отворен AI стек, основан в Съединени американски щати, основан на демократични полезности, наличен гратис за всички “.
Как се показват моделите
Целта на OpenAI е да направи своя отворен модел водач на това поле и компанията твърди, че е съумяла да я реализира.
В Codeforces - тест за шифроване - gpt-oss-120b и gpt-oss-20b получават надлежно 2622 и 2516 точки, като превъзхождат R1 на DeepSeek, само че отстъпват на o3 и o4-mini.
В Humanity’s Last Exam (HLE) - тест с въпроси от разнообразни тематики - gpt-oss-120b и gpt-oss-20b получават надлежно 19% и 17,3%. По този метод те се показват по-слабо от o3, само че по-добре от водещите отворени модели на DeepSeek и Qwen на Alibaba.
Все отново отворените модели на OpenAI халюцинират доста повече от най-новите модели за разсъждения на компанията o3 и o4-mini. Халюцинациите стават все по-сериозен проблем в най-новите модели за разсъждения на OpenAI, а компанията по-рано съобщи, че не схваща изцяло за какво се случва това. Все отново от лабораторията настояват, че това е „ предстоящо, защото по-малките модели имат по-малко знания за света от по-големите “.
OpenAI открива, че gpt-oss-120b и gpt-oss-20b халюцинират в отговорите на надлежно 49% и 53% от въпросите в PersonQA, вътрешния бенчмарк на компанията за премерване на точността на знанията на модела. Това е повече от три пъти по-висок % халюцинации от модела o1 на OpenAI, който е отбелязал 16%, и по-висок от модела o4-mini, който е записал 36%.
Обучение на новите модели
OpenAI твърди, че отворените модели са били подготвени с процеси, сходни на тези на затворените разновидности на компанията. Те употребяват по-малко параметри за отговора на даден въпрос, което ги прави по-ефективни. За gpt-oss-120b, който има общо 117 милиарда параметри, OpenAI споделя, че задейства едвам 5,1 милиарда на токен.
Компанията също по този начин твърди, че последните ѝ модели са били подготвени благодарение на високопроизводително усилващо образование (RL) – развой след първичното образование, който учи AI моделите да разграничават вярно от неверно в симулирани среди, употребявайки огромни клъстери от Nvidia GPU. Той е бил употребен и за образованието на моделите от серията o на OpenAI, а отворените модели имат сходен развой на верига от мисли, при който им е належащо в допълнение време и изчислителни запаси, с цел да обработят отговорите си.
Източник: profit.bg
КОМЕНТАРИ




