Amazon официално представи на света своя нов модел на генеративен

Amazon представи новия гласов модел Nova Sonic: той е по-точен от GPT-4o

Amazon публично показа на света своя нов модел на генеративен изкуствен интелект, който се назовава Nova Sonic и който може да обработва гласа на потребителя, както и да генерира естествена тирада въз основа на текстови инструкции. Представителите на компанията означават, че във връзка с продуктивността новият им модел е в положение да се конкурира с най-новите гласови модели на OpenAI и Гугъл в сравнителните проби, които правят оценка скоростта, точността на различаване на човешката тирада и качеството на генерирания разговор. Като се има поради, че тези компании са водачи на пазара, това е в действителност впечатляващ прогрес.

Освен това в публично прессъобщение Amazon дефинира Nova Sonic като най-рентабилния модел на изкуствен интелект за обработка на глас, като показва, че новият артикул е с към 80% по-евтин от модела GPT-4o на OpenAI. В интервала на взрив на изкуствения разсъдък, когато се постанова да се изразходват безумни запаси за създаване на нови технологии, разширение на инфраструктурата и сила, по-рентабилният модел е основен приоритет за огромните компании и техните консуматори. Amazon също по този начин разкри, че Nova Sonic е построен върху техническата архитектура, която е в основата на гласовия помощник Alexa.

Разработчиците означават, че новият гласов модел чудесно се оправя с маршрутизирането на потребителските поръчки към другите API, което прави Nova Sonic доста по-практично решение. Така да вземем за пример гласовият модел схваща по кое време би трябвало да откри информация в действително време от интернет, да проучва личните си източници на информация или да извърши нужните дейности във външно приложение, употребявайки подобаващ инструмент. Също по този начин моделът в границите на двустранен разговор знае по какъв начин да изчака, с цел да приказва с обещано лице в най-подходящия миг, като взема поради паузите в речта.

Но най-важното е, че Nova Sonic позволява доста по-малко неточности при различаване на речта спрямо другите гласови ИИ модели. Например, той може тъкмо да схваща фразите на потребителя, даже в случай че той мърмори, прави неточности в думите или се намира в шумна среда.

В многоезичния тест за различаване на тирада LibriSpeech гласовият ИИ модел на Amazon показва междинен % на грешките от 4,2% (само 4 от 100 думи се разпознават с грешка). А в теста Augmented Multi Party Interaction (Разширено взаимоотношение сред няколко страни) решението на компанията е с 46,7% по-точно от GPT-4o-transcribe на OpenAI. ИИ Nova Sonic превъзхожда съперника си и във връзка с скоростта – междинната инертност на модела е 1,09 секунди, до момента в който GPT-4o демонстрира 1,18 секунди.

Наистина доста положително достижение на Amazon, което има капацитета да промени доста неща в ИИ сферата.