Новият AI преводач спечели теста WMT25. Китайската компания Tencent отвори

...
Новият AI преводач спечели теста WMT25. Китайската компания Tencent отвори
Коментари Харесай

Загубил ли е Google Translate водещата си роля? Китайските модели на Tencent Hunyuan-MT превъзхождат западните конкуренти в 30 от 31 езикови двойки

Новият AI преводач завоюва теста WMT25.

Китайската компания Tencent отвори сорс кода на новата серия езикови модели Hunyuan-MT, особено усъвършенствани за преводачески услуги. Разработчиците настояват, че логаритмите се показват по-добре от Гугъл Translate на известния относителен тест WMT25.

В серията има четири модела, в това число два флагмана – Hunyuan-MT-7B и Hunyuan-MT-Chimera-7B, всеки от които съдържа по 7 милиарда параметъра. В допълнение към тях са показани две компресирани версии, които употребяват по-малко памет, само че работят с минимална загуба в качеството на превода.

Tencent употребява четири набора от данни за образование. Два от тях включват тексове на 33 езика без преводи, до момента в който другите два включват няколко милиона двойки изречения и техните преводи. Този метод даде опция да се съчетаят езиковите знания с общата осведоменост.

Ефективността на моделите беше тествана благодарение на теста MMLU-Pro, предопределен за оценка на общите познания. Hunyuan-MT се показа по-добре от Llama-3-8B-Base, макар че има по-малък брой параметри.

След първичното образование моделите минават през спомагателна фаза с потребление на образование с укрепване. Tencent им е предложил задания и противоположна връзка за качеството на превода, което е подобрило точността.

Качеството се оценяваше от обособена система за изкуствен интелект, която анализираше семантичната координация на превода с оригинала и вярното потребление на терминологията в разнообразни области.

Първият модел от серията, Hunyuan-MT-7B, се основава на класическа архитектура на езиковите модели. Вариантът Chimera-7B употребява ансамблов способ – няколко невронни мрежи обработват поръчката по едно и също време, след което отговорите им се сплотяват в краен вид с по-високо качество.

В тестванията WMT25, сравняващи преводите на 31 езикови двойки, Hunyuan-MT надминава Гугъл Translate в 30 случая. При обособените двойки резултатът е с 65% по-висок.

Освен това серията на Tencent се показа по-добре от GPT-4.1 на Anthropic и Claude 4 Sonnet в множеството езикови двойки в същия относителен тест.

Източник: kaldata.com


СПОДЕЛИ СТАТИЯТА


КОМЕНТАРИ
НАПИШИ КОМЕНТАР