Какви са проблемите на езиковите модели при анализа на дълъг текст: резултати от изследване
Проучване, извършено от учени от университета Лудвиг Максимилиан в Мюнхен, Мюнхенския център за машинно образование и Adobe Research откри, че актуалните езикови модели с изкуствен интелект имат ограничавания при обработката и разбора на огромни размери текстова информация.
Екипът тества 12 водещи модела, включително GPT-4o, Gemini 1.5 Pro и Llama-3.3-70B, всеки от които може да обработва минимум 128 000 токена.
Тестът NOLIMA (No Literal Matching) тества какъв брой добре AI-моделите могат да свързват информацията и да вършат заключения, без да разчитат на съвпадащи думи. Тестът употребява въпроси и текстови пасажи, предопределени да заобикалят потреблението на общ речник, което принуждава моделите да схващат концепции и да вършат връзки.
Ето по какъв начин работи: Текстът може да съдържа фразата „ Юки в действителност живее до Операта на Земпера “. Съответният въпрос би бил: „ Кой от героите към този момент е бил в Дрезден? “ За да даде верния отговор, моделът би трябвало да разбере, че Земпер-опера се намира в Дрезден и да избере Юки като отговор.
Резултатите демонстрират, че моделите изпитват усложнения с увеличение на дължината на текста. Производителността спада доста в диапазона от 2000 до 8000 токена. При 32 000 токена 10 от 12 модела работят на половина по-бавно от естественото спрямо по-кратките текстове.
Изследователите показват ограничавания в главния механизъм за внимание на моделите, който не може да се оправи с по-дългите контексти. Без знаци във тип на съвпадащи думи, моделите срещат компликации при намирането и свързването на подобаващата информация.
Производителността се утежнява в допълнение, когато са нужни повече стъпки за взимане на решение (скрити преходи). Редът на информацията също има значение — моделите се показват по-зле, когато отговорът следва основна информация.
Екипът също по този начин сътвори NOLIMA-Hard, който включва десетте най-трудни двойки въпрос-отговор, с цел да тества профилираните модели на логическо мислене. Дори особено построени системи като o1, o3-mini и DeepSeek-R1 се показват под 50% при контексти с 32 000 токена, макар че се показват съвсем съвършено при по-кратките текстове.
Подсказките за верига от мисли (CoT) оказват помощ на Llama-3.3-70B да се оправи по-добре с по-дългите контексти, само че не вземат решение главния проблем. Въпреки че взаимното срещане на думи улеснява задачата, те могат да понижат продуктивността, в случай че разсейват в неудобен подтекст.
Тази накърнимост може да повлияе върху приложенията от действителния свят, като да вземем за пример търсачки, които употребяват RAG архитектурата. Дори в случай че даден документ съдържа верния отговор, моделът може да го пропусне, в случай че формулировката не подхожда изцяло на поръчката, като бъде заплеснат от повърхностни съвпадения в по-малко подобаващи текстове.
Въпреки че през последните месеци не е имало огромни пробиви във фундаменталните модели, компаниите са се съсредоточили върху възстановяване на опциите за изводи и разширение на контекстните прозорци. В момента Gemini 1.5 Pro води в предлагането на токени с два милиона.
С повишаването на контекстните прозорци – от 4096 токена в GPT-3.5 до 8000 в GPT-4 – моделите в началото се борят да извлекат главните последователности от думи. По-късно те демонстрираха усъвършенствания по отношение на оповестените от производителя резултати от теста NIAH.
NOLIMA може да се трансформира в нов стандарт за оценка на това какъв брой добре моделите се оправят с огромните контекстни прозорци, евентуално насочвайки бъдещото развиване на LLM. Предишни проучвания демонстрират, че към момента има място за усъвършенстване в тази област.




