От дълго време се водят много дискусии относно намирането на

10 пъти по-бърз от GPT-4o: Inception Labs представи Mercury – първият дифузионно езиков модел

От дълго време се водят доста полемики по отношение на намирането на по-добра архитектура за огромните езикови модели (LLM), които биха могли да бъдат опция на трансформърите. Изглежда, че основаната в Калифорния стартъп компания Inception Labs към този момент има обещаващо решение. Компанията показа Mercury — първият в света широкомащабен езиков модел въз основата на дифузия, създаден за комерсиална приложимост.

Според самостоятелната платформа за проби Artificial Analysis, Mercury е 10 пъти по-бърз от актуалните флагмански модели. Неговата продуктивност надвишава 1000 токена в секунда на графичните процесори NVIDIA H100, което преди беше допустимо единствено на профилираните чипове.

„ Трансформърите преобладават в генерирането на текст от LLM и основават поредно токени. „ Дифузионните модели оферират опция – те генерират целия текст едновременно, като употребяват развой от недодялан към подробен “ — изясни Андрю Ен, създател на DeepLearning.AI, в обява на X.

Последната фраза е основна за разбирането за какво методът на Inception Labs е забавен. За по-лесно схващане LLM въз основата на трансформъри се образоват авторегресивно, което значи, че предсказват думите (или токените) отляво надясно. Дифузията обаче е техника, която изкуственият разсъдък нормално употребява за генериране на изображения и видеоклипове. Дифузията работи по друг метод — тя не се движи отляво надясно, а основава целия текст едновременно. В този случай всичко стартира с „ звук “, който последователно се почиства и се получава поток от токени.

Mercury може да промени играта и да отвори нови благоприятни условия за LLM интервенциите. И съгласно тестванията този метод доста въздейства върху скоростта на генериране на текст.

Скорост и продуктивност на Mercury

В тестванията на общоприетите бенчмаркове за шифроване, Mercury превъзхожда по продуктивност скоростните модели като GPT-4o Mini, Gemini 2.0 Flash и Claude 3.5 Haiku.

По-специално, версията Mercury Coder Mini доближи 1109 токена в секунда.

Освен това, стартъпът твърди, че дифузионните модели имат преимущество в логическото мислене и структурираните отговори, защото не се лимитират единствено до предходни токени.

В допълнение, могат непрестанно да усъвършенстват истинските данни, намалявайки халюцинациите и грешките. Дифузионните способи се употребяват във видео генераторите като Sora и Midjourney.

Компанията също по този начин подлага на критика актуалните способи за логичен заключения, които изискват обилни изчислителни запаси за генериране на комплицирани отговори.

„ Създаването на дълги логичен вериги води до големи изчислителни разноски и недопустимо закъснение. „ За да създадем висококачествения AI наличен изисква смяна на парадигмата “ — споделиха от Inception Labs.

Стартъпът пусна предварителна версия на Mercury Coder, тъй че потребителите да могат да тестват неговите благоприятни условия.

Anthropic неотдавна пусна Claude 3.7 Sonnet, който е първият хибриден модел за размишление и „ най-хубавият AI за ИТ-специалисти “.