Проблем в китайската версия на GPT-4o води до влошаване на

Неудачен дебют: Как спамът и порното проникнаха в новия GPT-4o

Проблем в китайската версия на GPT-4o води до утежняване на продуктивността и неверни отговори.

OpenAI показа най-новия си модел на изкуствен интелект GPT-4o (Omni) на 13-ти май. Но единствено няколко дни след появяването на модела китайските консуматори видяха, че нещо в новата версия не е наред: токените, употребявани за разбор на текст, съдържат доста спам и нецензурен изречения.

На 14-ти май Тианле Цай, докторант в Принстънския университет, който учи успеваемостта на изводите при огромните езикови модели, получи достъп до обществената библиотека с токени и сформира лист на 100-те най-дълги токена на китайски език, употребявани от модела за обработка на китайски поръчки.

Оказа се, че единствено 3 от тях са задоволително публикувани, с цел да се употребяват в ежедневните разговори; останалите са думи и изрази, свързани с хазарта и порнографията. Най-дългият лексема съдържа 10,5 китайски знака и безусловно значи „ гратис японско порнографско видео за гледане “.

От OpenAI засга не дават коментар за обстановката.

Предполагаше се, че GPT-4o ще превъзхожда своите прародители в оправянето с многоезичните задания с помощта на своя нов инструмент за токенизация, който по-добре компресира текстовете на неанглоезични езици. Експертите изясняват това с незадоволителното пречистване на данните преди образованието на модела.

Неправилните лексеми затрудняват модела да разбере смисъла им, което може да докара до генериране на неверни или рискови отговори, което разрешава на откривателите да заобиколят ограниченията за сигурност на OpenAI.

Най-лесно е моделите да обработват текст знак по знак, само че това изисква повече време и запаси. Токените, които съставляват поредици от знаци с избрана стойност, разрешават на модела да работи по-бързо и по-ефективно. С стартирането на GPT-4o компанията OpenAI вкара нов токенизатор, който добави поддръжка за неанглоезични езици. Новият токенизатор разполага с общо 200 000 токена, към 24% от които са на други езици, в това число съветски, арабски и виетнамски.

Инвеститорът в изкуствен интелект Диди Дас счита, че главната изгода от новия токенизатор е по-скоро намаляването на разноските за обработка на поръчки на тези езици, в сравнение с подобряването на качеството. Дас също по този начин означи, че токените на хинди и бенгалски отразяват полемики за хора, в това число имена и трофеи, без спам и нецензурен език, за разлика от китайските токени.

Разликата се дължи на качеството на данните за образование: китайските токени, които съдържат доста спам думи, употребявани в подтекста на порнографията и хазарта. Това допуска, че корпусът от данни за китайски език е бил нечист и не е бил вярно измит.

Такива нечисти данни биха могли да бъдат резултат от практиката на спам уеб страниците, които вграждат рекламите си в наличието на други уеб сайтове, с цел да заобиколят филтрите и да бъдат индексирани от търсачките, както се удостоверява от китайските консуматори, които оповестяват за честата поява на спам уеб сайтове в резултатите от търсенето в Гугъл.

Дас твърди, че решението на казуса със спама не е комплицирано и може да включва елементарни техники за пречистване. Въпреки това OpenAI, съгласно Дас, не е почистила съответно данните за китайския език, преди да пусне GPT-4o. Заслужава да се означи, че сходни проблеми не съществуваха в предходните версии – GPT-3.5 и GPT-4.

Потребителите също по този начин са разкрили, че токените могат да се употребяват за заобикаляне на защитните механизми на модела, като го принуждават да генерира неразрешени отговори. Например, поръчка за превод на дълги китайски лексеми може да докара до появяването на думи, които не са включени в поръчката, което е знак, че моделът „ халюцинира “.

Проблемът поражда, когато токенизаторът и самият езиков модел са подготвени върху разнообразни набори от данни. Поради тази причина моделът не схваща рядко употребяваните лексеми, което може да докара до странни и несигурни отговори.