Предполага се, че големите езикови модели могат да обработват милиони

Претоварването на езиковите модели с информация води до неподходящи отговори

Предполага се, че огромните езикови модели могат да обработват милиони токени (парчетата от думи и знаци, които сформират входните данни) по едно и също време. Но колкото по-дълъг е подтекстът, толкоз по-зле се показват.

Това е заключението на ново изследване на Chroma Research. Chroma, която построява векторна база данни за приложения с изкуствен интелект, в действителност печели, когато нейните модели се нуждаят от помощ при добиване на информация от външни източници. Въпреки това, обсегът и методологията на това изследване са забележителни: Изследователите са тествали 18 водещи ИИ модела, в това число GPT, Claude, Gemini и Qwen, върху четири вида задания, в това число семантично търсене, задания за повтаряне и отговаряне на въпроси в огромни документи.

Вместо подбора на думи

Проучването се основава на познатия тест „ игла в купа сено “, при който моделът би трябвало да избере съответно изречение, прикрито в дълъг блок от несъответствуващ текст. Екипът на Chroma подлага на критика този тест, че мери единствено безусловно съвпадане на низове, по тази причина го трансформираха, с цел да изисква действително семантично схващане.

По-конкретно, те са надхвърлили елементарното различаване на основни думи по два основни метода. Първо, вместо да задават въпрос, който употребява същите думи като скритото изречение, те са задавали въпроси, които са били единствено семантично свързани с него. Например, задача, въодушевена от теста NoLiMa, може да попита „ Кой е бил в Хелзинки? “, в случай че в текста се загатва единствено, че Юки живее покрай музея Киасма. За да отговори на този въпрос, моделът би трябвало да употребява знанията си за света към него, вместо просто да търси съвпадения на основни думи.

Това се оказало доста по-предизвикателна задача за моделите. При отговаряне на тези семантични въпроси, продуктивността внезапно спаднала и колкото по-дълъг бил подтекстът, толкоз по-лошо ставало.

Второ, изследването преглежда разсейващите фактори: изказвания, които са сходни по наличие, само че неправилни. Добавянето даже на един разсейващ фактор доста понижава % на верните отговори, като резултатът зависи от самия разсейващ фактор. С четири разсейващи фактора резултатът е още по-силен. Моделите на Clode постоянно отхвърлят да дават отговор, до момента в който GPT моделите са склонни да дават неправилни, само че правдоподобни отговори.

Структурата е значима (но не толкоз, колкото се очаква)

Структурата също изиграва непредвидена роля. Всъщност моделите са се показали по-добре с текстове, в които изреченията са били случайно разбъркани, в сравнение с с текстове, проведени в логичен ред. Причините за това са неразбираеми, само че изследването открива, че контекстуалната конструкция, а освен наличието, е главният фактор, влияещ върху продуктивността на модела.

Изследователите също по този начин са тествали по-практични сюжети, употребявайки LongMemEval — бенчмарк с истории на чатове, по-дълги от 100 000 токена. В този обособен тест са следили сходен спад в продуктивността: продуктивността е спадала, когато моделите е трябвало да обработват цялата история на чатовете, за разлика от когато са им били дадени единствено нужните раздели.

Препоръката на изследването: използвайте целеустремено „ контекстно инженерство “ – избиране и образуване на най-подходящата информация в поръчката — с цел да се подсигурява, че огромните езикови моделите остават постоянни в действителни сюжети. Пълните резултати са налични на уеб страницата на Chroma Research, а инструментариумът за възпроизвеждане на резултатите е наличен за евакуиране от GitHub.

Други изследвания откриват сходни проблеми

Констатациите на Chroma поддържат тези на други проучвателен групи. През май 2025 г. Николай Савинов от Гугъл DeepMind изясни, че когато даден модел получава огромен брой токени, той би трябвало да разпредели вниманието си сред всички входни данни. В резюме, той споделя, че е належащо да се научим да филтрираме ненужните данни и да резервираме семантичния подтекст. Това ще разреши на модела да работи по-ефективно, в случай че се концентрира върху основните аспекти.

Проучване на университета „ Лудвиг Максимилиан “ в Мюнхен и Adobe Research откри съвсем същото. В теста NOLIMA, който не изисква буквално съвпадане на основните думи, даже модели, предопределени за текстов разбор, с увеличение на количеството подтекст са показали видим спад в продуктивността.

Microsoft и Salesforce оповестиха за сходна неустойчивост при по-дългите диалози. В многоетапните диалози, където потребителите излагат условията си малко по малко, точността спадна от 90% на 51%.

Един от най-забележителните образци е Llama 4 Maverick на Meta. Въпреки че Maverick механически може да обработи до 10 милиона токена, той се затруднява да се оправи с това. В тест, предопределен да отразява действителни сюжети, Maverick реализира акуратност от единствено 28,1% при потребление на 128 000 токена — много под техническия си най-много и много под междинното равнище за актуалните модели. o3 на OpenAI и Gemini 2.5 сега са най-добре представилите се в тези проби.