Само за броени дни новият reasoning модел се изкачи на

...
Само за броени дни новият reasoning модел се изкачи на
Коментари Харесай

Най-важният AI модел за 2025 г.? Gemini 2.5 Pro на Google е сериозен претендент

Само за броени дни новият reasoning модел се изкачи на върха в серия от проби с шифроване, математически калкулации и логическо мислене, като се трансформира в сериозен кандидат за най-хубавия AI модел в света все още.

Но какво го прави толкоз специфичен?

Моделът не просто „ мисли “ – в действителност, той разсъждава в действително време.

Отговорите му се базират на композиция от подготвителни данни и логичен заключения, направени на момента в отговор на вашия въпрос.

Освен това, Gemini 2.5 Pro може да търси в интернет и разполага с много настояща информация – данните му са обновени към края на януари 2025 година

През 2024 година откривателите вършат стъпка напред, когато стартират да упражняват AI моделите си не просто да „ знаят “, а да мислят, когато взаимодействат с потребителите. Това значи, че към този момент приказваме за AI с голям потенциал за обработка и задържане на данни – Gemini 2.5 Pro борави с до един милион токена подтекст.

Да, вярно разбрахте – това е все едно да запомни цяла книга и след това да ти дава отговор, като се води по нея, все едно преди малко я е прочел.

Проблемът е, че доста от моделите се „ задъхват “, когато би трябвало да направляват през толкоз информация. При Gemini обаче нещата стоят по друг метод. Каналът AI Explained показва, че моделът се показва впечатляващо на новия тест Fiction.liveBench, който мери способността на изкуствения разсъдък да схваща и запомня комплицирана, художествена информация.

Например: четеш новела, а след това отговаряш на въпроси, които изискват схващане на героите, сюжетните обрати и по-дълбок подтекст.

Докато множеството колоси се оправят добре с по-малък размер от информация, Gemini 2.5 Pro свети точно когато размерът се усилва. При тези условия моделът на Гугъл демонстрира впечатляващо равнище на схващане, което го изстрелва надалеч пред съперниците му.

Моделът към този момент е водач в няколко от най-трудните проби в света на AI. В MathArena – бенчмарк с въпроси от математически олимпиади и надпревари, където се прави оценка освен правилният отговор, само че и логиката, по която се доближава до него – множеството топ модели от OpenAI, Anthropic и DeepSeek не минават даже 5% от максимума. А Gemini 2.5 Pro доближава до впечатляващите 24.4%.

Има и още нещо: в тестването Humanity’s Last Exam, което е проектирано да покаже по кое време един AI модел надскача човешките специалисти, Gemini 2.5 Pro реализира 18.8%, изпреварван единствено от Deep Research модела на OpenAI.

Междувременно, Gemini към този момент е номер едно в класацията LMArena, където се събират и съпоставят най-хубавите AI резултати в действително време.

В програмирането моделът също се оправя впечатляващо. На LiveCodeBench моделът на Гугъл реализира 70.4%, малко зад водача в конкуренцията – o3-mini на OpenAI, с 74.1%.

В SWE-bench, който прави оценка качествата на модела да работи като агент-програмист, Gemini реализира резултат от 63.8%, до момента в който най-новият Claude 3.7 Sonnet на Anthropic доближава 70.3%.

И за край – образното схващане.

В теста MMMU, който мери по какъв начин моделите „ разчитат “ изображения, Гугъл още веднъж е водач, като изпреварва съперниците от OpenAI, Anthropic и xAI с към 6 точки разлика.

Най-хубавото е, че до момента в който първоначално Gemini 2.5 Pro беше наличен единствено за клиенти, към този момент може да се употребява изцяло гратис от всички консуматори.
Източник: profit.bg


СПОДЕЛИ СТАТИЯТА


КОМЕНТАРИ
НАПИШИ КОМЕНТАР