OpenAI откри достъпа до хиперреалистичния глас на ChatGPT за някои платени потребители
OpenAI стартира да внедрява гласовия интерфейс Advanced Voice Mode за услугата ChatGPT — дребен брой клиенти на ChatGPT Plus са получили достъп до хиперреалистичните разговори с GPT-4o. Разработчикът даде обещание, че до есента всички притежатели на заплатен абонамент ще могат да употребяват новата функционалност.
OpenAI за първи път показва гласовия формат GPT-4o през май, когато функционалността удиви публиката освен със способността си да дава бързи отговори, само че и със сходството на един от гласовете с гласа на Скарлет Йохансон. Актрисата сподели, че е отказала на ръководителя на компанията Сам Алтман правото да употребява нейния глас за тези цели; след което трябваше да се обърне към юристи за отбрана на ползите си, а OpenAI се отхвърли от желанията си, с цел да не се стигне до спор. През юни компанията съобщи, че ще отсрочи стартирането на гласовия интерфейс, с цел да завърши ограниченията за сигурност.
По-рано обявените функционалности за AI-асистент, като видео-поддръжка и шерване на екрана, няма да бъдат налични по време на алфа-тестовата фаза, само че ще се появят „ по-късно “. Засега потребителите ще би трябвало да се лимитират до гласовото взаимоотношение. Преди това OpenAI използваше три AI-модела за използване на тази функционалност: един за превръщане на гласа в текст, втори (GPT-4) за действителната обработка на поръчките и трети за превръщане на текстовия отговор на ChatGPT в глас. Обновеният GPT-4o е мултимодален — той взема решение всички тези проблеми без значение, осигурявайки минимално закъснение. Моделът също по този начин е кадърен да разпознава прочувствените ударения в гласа на потребителя, като дефинира да вземем за пример горест или вълнение; също по този начин схваща и по кое време човек пее.
OpenAI ще пусне гласовия интерфейс ChatGPT последователно, с цел да следи от близко по какъв начин се употребява в реалност. Включените в групата консуматори за алфа-тестването, ще получат уведомление посредством приложението ChatGPT, последвано от имейл с указания по какъв начин да употребяват новите функционалности. Към днешна дата гласовите благоприятни условия на GPT-4o са тествани от повече от 100 членове на затворения Red Team, говорещи 45 езика.
Гласовият режим на ChatGPT ще бъде стеснен до четири гласа: Juniper, Breeze, Cove и Ember, които са основани с присъединяване на артисти. Компанията е изключила гласа Sky, който беше съпоставен с този на Скарлет Йохансон. OpenAI също по този начин сподели, че са планувани филтри за блокиране на поръчките за музика и други материали, които може да са предпазени с авторски права — нещо, което докара до правосъдни каузи от огромни музикални издатели за стартъп фирмите като Suno и Udio.




