Nvidia пусна NVLM 1.0 – собствен мултимодален LLM, който в някои тестове превъзхожда GPT-4o
NVLM 1.0 (NVIDIA Vision Language Model) – това е семейство отворени мултимодални LLM, състоящи се от моделите NVLM-D (Decoder-only Model), NVLM-X (X-attention Model) и NVLM-H (Hybrid Model) на 34В и 72В. Моделите изключително добре се показват на образните задания. Например, в бенчмарка OCRBench, който ревизира способността на моделите да четат текст от картинки, NVLM-D превъзхожда даже GPT-4o – последният мултимодален модел на OpenAI. Моделът също схваща мемове, схваща човешкия почерк и е добър в отговарянето на въпроси, които са чувствителни към точното местонахождение на нещо в картината.
При въпроси по математика, моделът също се отличава: той превъзхожда LLM на Гугъл и е единствено на 3 точки зад флагманския модел Claude 3.5 от известния стартъп Anthropic. Таблицата по-долу демонстрира всички оповестени проби, което демонстрира какъв брой високо е стигнала Nvidia спрямо други отворени модели (дори и по-големите).
Трите разнообразни модела от фамилията имат сходна архитектура, само че са с разнообразни функционалности и по-специално обработват изображенията по друг метод. NVLM-D употребява авансово подготвен енкодер за изображенията, който е обвързван към стандартен двуслоен перцептрон. NVLM-X употребява механизма за кръстосано внимание при обработка на токените за изображенията. Всеки метод има дефекти и преимущества. Например NVLM-D е по-икономичен във връзка с броя на параметрите, само че употребява повече GPU мощност и е по-лош при обработката на изображения с висока разграничителна дарба от NVLM-X. Така моделът NVLM-H се трансформира в нещо приблизително сред ефикасния и бърз NVLM-D и точния NVLM-X.




