Backprop доказва: не всичко ново е най-доброто. Естонският стартъп Backprop, специализиран

Неочаквана изненада: Мощен ИИ на обикновен графичен процесор: RTX 3090 предизвиква скъпите сървърни решения

Backprop потвърждава: не всичко ново е най-хубавото.

Естонският стартъп Backprop, профилиран в облачните GPU услуги, е провел ненадейно изследване. Компанията е открила, че не е належащо да се употребяват скъпи сървърни графични процесори за обслужване на огромните езикови модели (LLM). Оказа се, че потребителската графична карта NVIDIA RTX 3090, която тази година навърши 4 години, може да се оправи с тази задача.

Специалистите от Backprop демонстрираха по какъв начин една такава карта може да се оправи с повече от 100 едновременни поръчки към Llama 3.1 8B с акуратност FP16, като в същото време поддържа допустима успеваемост. Като се има поради, че единствено дребна част от хората вършат едновременни поръчки, компанията твърди, че една RTX 3090 е в положение да обслужва хиляди крайни консуматори.

RTX 3090, която излезе на пазара в края на 2020 година, има впечатляваща продуктивност при LLM. Тя предлага 142 терафлопа продуктивност в FP16 и обезпечава пропускателна дарба на паметта от 936 GB/s.

Кристо Оясаар, съосновател на Backprop, означи: с цел да се получи еквивалентна продуктивност в терафлопи на сървърен хардуер, ще са нужни доста по-скъпи принадлежности. Въпреки това RTX 3090 има ограничаване от 24 GB GDDR6x памет, което не разрешава работата на по- огромните модели като Llama 3 70B или Mistral Large, даже когато са квантувани до 4 или 8 бита.

Тестовете са извършени благодарение на известния фреймуърк vLLM, необятно употребен за работа с LLM на голям брой графични процесори. В бенчмарк, симулиращ 100 едновременни консуматори, картата съумява да обслужва модела със скорост от 12,88 токена в секунда за всеки компютър. Това е по-бързо от междинната скорост на човешкото четене (около пет думи в секунда) и надвишава минималната допустима скорост на генериране за чатботове с изкуствен интелект (10 токена в секунда).

Заслужава да се означи, че тестванията на Backprop са извършени със относително къси поръчки и оптимален излаз от единствено 100 токена. Това значи, че резултатите са по-скоро в сходство с продуктивността, предстояща от чатбот за обслужване на клиенти, в сравнение с от приложение за обобщаване на текст.

При по-нататъшни проби с потребление на флага –use_long_context в пакета от бенчмаркове vLLM и със поръчки с дължина 200-300 лексеми RTX 3090 към момента реализира допустима скорост на генериране от към 11 лексеми в секунда.

Изследванията на Backprop демонстрират какъв брой е значимо да се проучва продуктивността и да се избират верните запаси за съответната задача. Оджасар отбелязва: Маркетинговите тактики на огромните снабдители на облачни услуги постоянно основават усещане, че за мащабирането са нужни ръководени услуги или вложения в характерни технологии, само че се оказва, че това не постоянно е по този начин.

За потребителите, които би трябвало да мащабират до по-големи модели, по-висока пропускателна дарба или размери на партидите, Backprop възнамерява да употребява PCIe картите A100 с 40 GB HBM2e памет. Въпреки че те също не са най-новите, опцията да се употребява технологията multi-instance-GPU за делене на един ускорител на няколко виртуални устройства показва опция за в допълнение понижаване на разноските за запалянковци и експериментатори.

Ако се чудите по какъв начин би се справила вашата остаряла геймърска видеокарта на сходен тест, можете да намерите бенчмарка vLLM на Backprop в общественото пространство и да извършите лично изследване.