xAI представи невронната мрежа Grok-1.5 Vision , която е способна да работи с изображения
Компанията на Илон Мъск xAI показа Grok-1.5 Vision — нова версия на невронната мрежа Grok. Инструментът може да обработва освен текст, само че и образна информация: фотоси, скрийншоти, диаграми и доста други.
Според xAI, Grok-1.5V може да преобразува фотография на блок-схема в код на Python или скрийншот на таблица в CSV файл. Тя може също да бъде помолена да опише приказка въз основа на детска рисунка или да изясни мем.
xAI твърди, че този мултимодален модел се откроява измежду своите аналози (GPT-4V, Claude 3Sonnet, Claude 3 Opus и Gemini Pro 1.5) и превъзхожда съперниците си в доста известните бенчмаркове, заради потреблението на технологията RealWorldQA. Невронната мрежа беше подготвена на 700+ изображения, които бяха съпроводени от въпроси и отговори по всяка тематика.
В края на март xAI пусна Grok-1.5, който може да обработва до 128 000 токена, което разрешава на чатбота да извършва по-сложни поръчки и да схваща по-добре входящите данни.
„ [Grok-1.5 е в състояние] да употребява информацията от доста по-големи документи “, написа X.ai. „ Освен това, моделът може да обработва по-сложни поръчки, като в същото време резервира способността си да следва инструкциите, до момента в който контекстният прозорец се уголемява. “
През април Илон Мъск сподели, че към 20 хиляди графични процесора Nvidia H100 AI са употребявани за образованието на чатбота Grok 2, а новото потомство Grok 3 ще изисква 100 хиляди графични процесора.