Машините се научават да говорят все по-изразително. Изследванията в областта

ИИ се научи да говори като човек. И вече заменя екскурзоводите, операторите и лекарите

Машините се научават да приказват все по-изразително.

Изследванията в региона на изкуствения разсъдък не престават да реализират бърз прогрес, а едно от най-впечатляващите достижения е системата J-Moshi, основана в Япония. Моделът е първият по рода си, основан особено за хващане на особеностите на японската разговорна тирада – в това число такива значими детайли като „ aizuchi “, къси реплики като „ Sou desu ne “ (правилно) и „ Naruhodo “ (разбираемо), с които японците демонстрират, че слушат деликатно събеседника. Именно умеенето да се вмъкват в точния момент такива реплики прави диалога жив и натурален.

Конвенционалните системи за изкуствен интелект не могат да се оправят с такава задача, защото не могат да слушат и приказват по едно и също време. J-Moshi съумява да преодолее това ограничаване, което прави системата изключително привлекателна за говорещите на роден език. Потребителите означават, че диалогът с него е съвсем като диалог с жив човек.

J-Moshi е основана от експерти от университета в Нагоя. Проектът е основан на англоезичния модел Moshi, създаден в Kyutai, а адаптирането му към японския език лишава към четири месеца. В процеса са употребявани обширни набори от речеви данни, измежду които се откроява J-CHAT – най-голямата отворена база данни с японски разговори, основана от Токийския университет. Тя съдържа към 67 000 часа подкастове и клипове в YouTube. Кодовата база, употребена за образованието на J-Moshi, е налична в GitHub.

За да създадат системата по-точна и разнообразна, разработчиците са добавили към образованието остарели, само че висококачествени диалогови бази, както и данни, генерирани от преобразуването на текст в тирада от чатове. По този метод се компенсира хроничният дефицит на данни за японската тирада, който остава сериозна спънка за развиването на ИИ в страната.

J-Moshi стана изключително прочут през януари 2024 година, когато демонстрационни видеоклипове с него се разпространиха в обществените мрежи. Освен интерес от страна на лингвистите и запалянковците, системата провокира неспокойствие и измежду учещите японски език – тъй като в този момент е допустимо да се упражняват уменията за другарство с „ натурален “ събеседник.

Освен в областта на образованието се създават и търговски сюжети – от прът центрове до медицината и обслужването на клиенти. Системата J-Moshi към този момент се употребява в говорещите роботи на публични места за осъществяване на общоприети разговори, а при положение на комплицирани въпроси те могат бързо да свържат потребителя с оператор в действително време.

Въпреки това внедряването на J-Moshi в тясно профилирани браншове е възпрепятствано от обстоятелството, че японската тирада в тези области е едва документирана и съвсем не е цифровизирана. В допълнение към неналичието на данни за речта, японските разработчици са затруднени и от проблемите, свързани с неприкосновеността на персоналния живот, които затрудняват събирането на подобаващи аудио данни. Някои решения включват софтуерно делене на гласовете в записи, в които няколко души приказват по едно и също време.