Китайският AI модел, който струва 30 пъти по-малко от ChatGPT и постига чудеса
На 20 януари 2025 година китайската компания DeepSeek пусна на пазара новия си огромен езиков модел DeepSeek-R1, който провокира неспокойствие в научните среди като налична и отворена опция на други усъвършенствани модели като OpenAI o1. Тези нови " логичен " модели генерират отговори малко по малко, наподобявайки човешкото мислене, което ги прави по-способни в решаването на научни задания, написа.
Постиженията на DeepSeek-R1
Първоначалните проби демонстрират, че моделът има резултати, сравними с тези на o1, изключително в области като химия, математика и програмиране. Например, DeepSeek-R1 реализира впечатляващ резултат от 97.3% върху набора от математически задания MATH-500, основан от Калифорнийския университет в Бъркли, и надмина 96.3% от човешките участници в програмния конкурс Codeforces.
" Това е необикновено и изцяло ненадейно, " разяснява Елвис Саравия, откривател в региона на изкуствения разсъдък и съосновател на DAIR.AI, основана във Англия.
Една от основните характерности на DeepSeek-R1 е неговата " отвореност ". Моделът е оповестен с лиценз MIT, който разрешава свободно потребление и доразвиване на логаритъма, макар че подготвителните данни не са предоставени. Това го отличава от съперниците му като o1 и o3 на OpenAI, които са " черни кутии ", твърди доктор Марио Крен, началник на лабораторията Artificial Scientist към Института Макс Планк в Германия.
DeepSeek-R1 също по този начин е доста по-достъпен финансово. Компанията предлага интерфейс за потребление на модела, който е към 30 пъти по-евтин от o1. Освен това, DeepSeek е основала " дистилирани " версии на R1, които изискват по-малка изчислителна мощ, позволявайки на учени с лимитирани запаси да работят с модела.
Според калкулации на Марио Крен, опит, който би коствал над £300 с o1, коства под $10 с R1. " Това е трагична разлика, която сигурно ще повлияе на бъдещото му приемане, " добавя той.
Интелигентен метод към лимитирани запаси
DeepSeek-R1 е основан в условия на стеснен достъп до най-хубавите чипове за AI обработка, наложени от рестриктивните мерки за експорт на Съединени американски щати. Въпреки това, DeepSeek съумява да компенсира с новаторски алгоритмичен метод.
Един от главните способи, употребявани при образованието на модела, е по този начин нареченият " chain of thought " (верига на мислене), който му оказва помощ да взема решение по-сложни задания, като от време на време се връща обратно и преоценява своя метод. За това компанията употребява способ за подсилващо образование (reinforcement learning), при който моделът се възнаграждава за верни отговори и ясно обяснени стъпки на мислене.
Допълнително, екипът е употребявал " миксове от специалисти " (mixture-of-experts) - архитектура, която задейства единствено съответстващите елементи на модела за всяка задача, което значително понижава разноските за образование.
DeepSeek-R1 съставлява освен софтуерно, само че и стратегическо предизвикателство за останалите играчи в промишлеността, в това число и за Nvidia - главният снабдител на чипове за американските съперници като OpenAI и Meta. Успехът на DeepSeek демонстрира, че високоефективни AI модели могат да бъдат създавани даже с лимитирани хардуерни запаси и без най-съвременните чипове, което слага под въпрос нуждата от скъпоструваща инфраструктура. Това понижава зависимостта на китайските компании от Nvidia и подкопава тяхната преобладаваща позиция в световния пазар на AI хардуер. Докато Nvidia продължава да доставя американските колоси с мощни графични процесори, триумфът на DeepSeek показва, че интелигентните логаритми и успеваемостта на ресурсите могат да изместят фокуса от чистата изчислителна мощност към нововъведенията в софтуера.
Историята на DeepSeek
DeepSeek е дъщерно сдружение на компанията High-Flyer, която е известна като извънредно сполучлива компания за количествени калкулации (quant firm). Според Han Xiao, откривател в региона на изкуствения разсъдък, компанията е основана от извънредно умни експерти с дълбоки знания в математиката и от години употребява мощни GPU за търговия и рандеман на криптовалути. " DeepSeek е техен непряк план, с който се пробват да усъвършенстват потреблението на тези GPU, " споделя Han Xiao в X.
Научно и практическо приложение
Въпреки че R1 леко изостава по отношение на o1 в оценяването на проучвателен хрумвания, той показва по-добри резултати при калкулации в квантовата оптика, споделя Крен. " Това е много впечатляващо, " прибавя той.
Освен това, откритостта на модела разрешава на учените да учат неговата " логичност ", което усъвършенства разбирането и интерпретацията на процесите.
DeepSeek-R1 е част от бързо разрастващата се вълна на китайски езикови модели, които редуцират разликата с водещите разработки в Съединени американски щати. Успехът на модела акцентира смисъла на ефикасното потребление на ресурсите, като в същото време откроява нуждата от интернационално съдействие в региона на изкуствения разсъдък.
Постиженията на DeepSeek-R1
Първоначалните проби демонстрират, че моделът има резултати, сравними с тези на o1, изключително в области като химия, математика и програмиране. Например, DeepSeek-R1 реализира впечатляващ резултат от 97.3% върху набора от математически задания MATH-500, основан от Калифорнийския университет в Бъркли, и надмина 96.3% от човешките участници в програмния конкурс Codeforces.
" Това е необикновено и изцяло ненадейно, " разяснява Елвис Саравия, откривател в региона на изкуствения разсъдък и съосновател на DAIR.AI, основана във Англия.
Една от основните характерности на DeepSeek-R1 е неговата " отвореност ". Моделът е оповестен с лиценз MIT, който разрешава свободно потребление и доразвиване на логаритъма, макар че подготвителните данни не са предоставени. Това го отличава от съперниците му като o1 и o3 на OpenAI, които са " черни кутии ", твърди доктор Марио Крен, началник на лабораторията Artificial Scientist към Института Макс Планк в Германия.
DeepSeek-R1 също по този начин е доста по-достъпен финансово. Компанията предлага интерфейс за потребление на модела, който е към 30 пъти по-евтин от o1. Освен това, DeepSeek е основала " дистилирани " версии на R1, които изискват по-малка изчислителна мощ, позволявайки на учени с лимитирани запаси да работят с модела.
Според калкулации на Марио Крен, опит, който би коствал над £300 с o1, коства под $10 с R1. " Това е трагична разлика, която сигурно ще повлияе на бъдещото му приемане, " добавя той.
Интелигентен метод към лимитирани запаси
DeepSeek-R1 е основан в условия на стеснен достъп до най-хубавите чипове за AI обработка, наложени от рестриктивните мерки за експорт на Съединени американски щати. Въпреки това, DeepSeek съумява да компенсира с новаторски алгоритмичен метод.
Един от главните способи, употребявани при образованието на модела, е по този начин нареченият " chain of thought " (верига на мислене), който му оказва помощ да взема решение по-сложни задания, като от време на време се връща обратно и преоценява своя метод. За това компанията употребява способ за подсилващо образование (reinforcement learning), при който моделът се възнаграждава за верни отговори и ясно обяснени стъпки на мислене.
Допълнително, екипът е употребявал " миксове от специалисти " (mixture-of-experts) - архитектура, която задейства единствено съответстващите елементи на модела за всяка задача, което значително понижава разноските за образование.
DeepSeek-R1 съставлява освен софтуерно, само че и стратегическо предизвикателство за останалите играчи в промишлеността, в това число и за Nvidia - главният снабдител на чипове за американските съперници като OpenAI и Meta. Успехът на DeepSeek демонстрира, че високоефективни AI модели могат да бъдат създавани даже с лимитирани хардуерни запаси и без най-съвременните чипове, което слага под въпрос нуждата от скъпоструваща инфраструктура. Това понижава зависимостта на китайските компании от Nvidia и подкопава тяхната преобладаваща позиция в световния пазар на AI хардуер. Докато Nvidia продължава да доставя американските колоси с мощни графични процесори, триумфът на DeepSeek показва, че интелигентните логаритми и успеваемостта на ресурсите могат да изместят фокуса от чистата изчислителна мощност към нововъведенията в софтуера.
Историята на DeepSeek
DeepSeek е дъщерно сдружение на компанията High-Flyer, която е известна като извънредно сполучлива компания за количествени калкулации (quant firm). Според Han Xiao, откривател в региона на изкуствения разсъдък, компанията е основана от извънредно умни експерти с дълбоки знания в математиката и от години употребява мощни GPU за търговия и рандеман на криптовалути. " DeepSeek е техен непряк план, с който се пробват да усъвършенстват потреблението на тези GPU, " споделя Han Xiao в X.
Научно и практическо приложение
Въпреки че R1 леко изостава по отношение на o1 в оценяването на проучвателен хрумвания, той показва по-добри резултати при калкулации в квантовата оптика, споделя Крен. " Това е много впечатляващо, " прибавя той.
Освен това, откритостта на модела разрешава на учените да учат неговата " логичност ", което усъвършенства разбирането и интерпретацията на процесите.
DeepSeek-R1 е част от бързо разрастващата се вълна на китайски езикови модели, които редуцират разликата с водещите разработки в Съединени американски щати. Успехът на модела акцентира смисъла на ефикасното потребление на ресурсите, като в същото време откроява нуждата от интернационално съдействие в региона на изкуствения разсъдък.
Източник: money.bg
КОМЕНТАРИ




