OpenAI започна да внедрява гласовия интерфейс Advanced Voice Mode за

OpenAI откри достъпа до хиперреалистичния глас на ChatGPT за някои платени потребители

OpenAI стартира да внедрява гласовия интерфейс Advanced Voice Mode за услугата ChatGPT — дребен брой клиенти на ChatGPT Plus са получили достъп до хиперреалистичните разговори с GPT-4o. Разработчикът даде обещание, че до есента всички притежатели на заплатен абонамент ще могат да употребяват новата функционалност.

OpenAI за първи път показва гласовия формат GPT-4o през май, когато функционалността удиви публиката освен със способността си да дава бързи отговори, само че и със сходството на един от гласовете с гласа на Скарлет Йохансон. Актрисата сподели, че е отказала на ръководителя на компанията Сам Алтман правото да употребява нейния глас за тези цели; след което трябваше да се обърне към юристи за отбрана на ползите си, а OpenAI се отхвърли от желанията си, с цел да не се стигне до спор. През юни компанията съобщи, че ще отсрочи стартирането на гласовия интерфейс, с цел да завърши ограниченията за сигурност.

По-рано обявените функционалности за AI-асистент, като видео-поддръжка и шерване на екрана, няма да бъдат налични по време на алфа-тестовата фаза, само че ще се появят „ по-късно “. Засега потребителите ще би трябвало да се лимитират до гласовото взаимоотношение. Преди това OpenAI използваше три AI-модела за използване на тази функционалност: един за превръщане на гласа в текст, втори (GPT-4) за действителната обработка на поръчките и трети за превръщане на текстовия отговор на ChatGPT в глас. Обновеният GPT-4o е мултимодален — той взема решение всички тези проблеми без значение, осигурявайки минимално закъснение. Моделът също по този начин е кадърен да разпознава прочувствените ударения в гласа на потребителя, като дефинира да вземем за пример горест или вълнение; също по този начин схваща и по кое време човек пее.

OpenAI ще пусне гласовия интерфейс ChatGPT последователно, с цел да следи от близко по какъв начин се употребява в реалност. Включените в групата консуматори за алфа-тестването, ще получат уведомление посредством приложението ChatGPT, последвано от имейл с указания по какъв начин да употребяват новите функционалности. Към днешна дата гласовите благоприятни условия на GPT-4o са тествани от повече от 100 членове на затворения Red Team, говорещи 45 езика.

Гласовият режим на ChatGPT ще бъде стеснен до четири гласа: Juniper, Breeze, Cove и Ember, които са основани с присъединяване на артисти. Компанията е изключила гласа Sky, който беше съпоставен с този на Скарлет Йохансон. OpenAI също по този начин сподели, че са планувани филтри за блокиране на поръчките за музика и други материали, които може да са предпазени с авторски права — нещо, което докара до правосъдни каузи от огромни музикални издатели за стартъп фирмите като Suno и Udio.