Изграждали ли сте си в съзнанието някога образ на човек,

Изкуствен интелект възпроизвежда лицето само по говора

Изграждали ли сте си в съзнанието в миналото облик на човек, който в никакъв случай не сте виждали, основавайки се само на неговия глас? Изкуственият разсъдък (AI) към този момент може да направи това, генерирайки цифрово изображение на лицето на човек, употребявайки единствено къс аудиоклип за информция.

Невронната мрежа наречена Speech2Face, съставлява компютър, който „ мисли “ по метод, сходен на човешкия мозък. Той е бил подготвен от учени, като е „ следил “ милиони просветителни видеоклипове от интернет, които демонстрират по какъв начин приказват над 100 000 разнообразни хора. От този набор от данни Speech2Face се научава да прави асоциации сред вокалните сигнали и някои физически характерности в човешкото лице, изясняват откривателите в ново изследване. След това AI употребява аудиоклип, с цел да моделира фотореалистично лице, съответстващо на дадения глас. От резултатите, които виждате на фотосите, може да се заключи, че за положително или неприятно, AI (все още) не знае тъкмо по какъв начин наподобява даден субект въз основа единствено на неговия глас. Невронната мрежа разпознава избрани маркери в речта, които сочат към пол, възраст и етническа принадлежност, характерности, които се споделят от доста хора, оповестяват създателите на проучването.
„ Като подобен, моделът ще сътвори единствено лица, изглеждащи най-често срещани, “ пишат учените. „ Това няма да създаде облици на съответни човеци. “

Лицата, генерирани от Speech2Face – всички показани анфас и с неутрални изрази – не съответстват тъкмо с хората зад гласовете. Но изображенията нормално улавят верните възрастови групи, етноса и полове на индивидите.

Интерпретациите на логаритъма надалеч не са съвършени. Speech2Face показва „ смесено показване “, когато се сблъсква с езикови вариации. Например, когато AI слуша аудио клип на човек от Азия, говорещ китайски, програмата създава облик на азиатско лице. Въпреки това, когато същият човек приказва на британски език в друг аудиоклип, програмата генерира лицето на бял човек, оповестяват учените.

Алгоритъмът демонстрира също и користолюбие към пола, свързвайки ниски гласове единствено с мъжки лица и високи гласове с женски лица. И защото наборът данни за образование съставлява единствено просветителни видеоклипове от YouTube, той „ не показва еднообразно цялото международно население “, пишат откривателите.

Загриженост по отношение на набора от данни поражда, когато човек, който се е появил във видеоклип в YouTube, се изненада, че е включен в изследването. Ник Съливан от компанията за интернет сигурност Cloudflare в Сан Франциско, ненадейно вижда, че лицето му е един от образците, употребявани за образование на Speech2Face (и надлежно логаритъмът е правил опит да възпроизведе облика му). Съливан не е давал единодушие да се появи в изследването, само че видеоклиповете взети от YouTube в този набор от данни са необятно публикувани и откривателите са сигурни, че имат право да ги употребяват, без да получават спомагателни разрешителни.

Новото проучване демонстрира, че Speech2Face не е идеален, само че напълно скоро този логаритъм или някой сходен на него, ще може да възпроизвежда точните облици на лица, употребявайки единствено запис от техния глас.