inStory.cz››Tech››Technologie››Umělá inteligence už umí napodobit hlas i tvář. Stačí jí k tomu vteřiny

Umělá inteligence už umí napodobit hlas i tvář. Stačí jí k tomu vteřiny

Technologie

17. června 2019 09:44 / Terezie Zamlynová

📷

1 fotografie v galerii

Umělá inteligence vstupuje stále častěji na scénu našich životů / Depositphotos

Na téma rozpoznání skutečného hlasu a hlasu umělé inteligence bylo provedeno již několik výzkumů. Vědci se po nich shodují, že lidský mozek nemá schopnost odlišit skutečný hlas od toho umělého. Pro naše mozky je to dokonce náročnější, než rozpoznat falešný obrázek od pravého.

Nejnovější

Vědci zaznamenali znepokojivý jev: Rotace Země se zrychluje a dny se stávají rekordně krátkými

Teď to bude v podstatě nemožné. Klonovací služby z oblasti umělé inteligence (AI) nyní vyžadují jen malé množství audia, aby vytvořily autentický hlas.

Je to tak - klonovací služby z oblasti AI nyní vyžadují jen krátký vzor audionahrávky v rozsahu zhruba čtyř vteřin, aby vytvořily autentický hlas. A ten hlas by mohl kopírovat i styl mluvy, který je specifický pro danou osobu a tón hlasu, díky čemuž stoupá náročnost rozpoznání pravdy od klamu. Ke klonování lidského hlasu tak už postačí jen jedna krátká věta a výsledek bude plně realistický. Je to pokrok, ale taky velké riziko.

Pravdou je, že technologie hlasového klonování může v blízké budoucnosti otevřít firmám možnosti k poskytování nových služeb a produktů. Mezi tyto firmy patří například Lyrebird. Ta používá AI k vytváření hlasů pro chatboty, audioknihy, videohry a čtečky. Na druhou stranu jsou si však strůjci této technologie vědomi toho, že u ní existuje vysoké riziko možného zneužití.

Umělá inteligence hovoří jako konkrétní člověk

Umělá inteligence (Al) vzbuzuje v posledních letech stejným dílem obavy jako i obdiv. Co když se AI přiblíží k člověku ještě víc? Vývoj to minimálně naznačuje.

Čínská firma Baidu dokáže z krátkého záznamu lidského hlasu nyní vytvořit klon, o což se snaží též Google s technologií zvanou Tacotron 2. Jde o úžasný pokrok v oblasti umělé inteligence a strojového učení, ale jak v budoucnu poznáme, že k nám nepromlouvá člověk, ale robot?

Deep Voice

Zázrak má jméno Deep Voice. Už o něm víme, že dokáže hovořit úplně stejně jako člověk. Za projektem stojí čínský technologický gigant Baidu, který poskytuje různorodé služby na internetu a rovněž je zaměřen na AI. Tato společnost minulý rok představila službu na klonování hlasu, která disponovala schopností rozpoznat lidský hlas ze záznamu o třiceti minutách, a poté tímto hlasem mluvit. Nyní firma Baidu postoupila ještě dál.

Deep Voice toho umí hodně – měnit pohlaví hlasu či styl řeči a akcenty. Díky strojovému učení a různým záznamům hlasu určitého člověka – třeba nějaké osobnosti – dovede dotyčnou osobu napodobit zcela autenticky. Vůbec nepoznáme, že mluví umělá inteligence. Ke klonování lidského hlasu už stačí jen krátká věta a výsledek je k nerozeznání od původního vzoru.

Nebezpečný nástroj může sloužit k manipulaci

Různé technologie dnes mají mnohé výhody pro firmy i jednotlivce, ale možnost zneužití k různým účelům se zvyšuje. Umělý hlas umělé inteligence obavy budí právem. V případě naklonované mluvy bude problém rozeznat, co je skutečné a co ne. S tím hrozí mimo jiné nebezpečí šíření umělých pravd a manipulace s lidmi.

Vědci zatím netuší, podle čeho by lidský mozek mohl identifikovat falešný hlas. Je tedy důležité šířit povědomí o takovýchto nebezpečných technologiích, protože to může být základní obranou před dezinformacemi.

Podobných rizikových technologií je víc

Jinou zázračnou technologií je takzvaná DeepFake. Od počátku měla pomáhat při synchronizaci hlasu a tváře během dabingu. Zpočátku se s ní pracovalo nejvíce v pornoprůmyslu. Mediální společnost však Buzzfeed velice brzy poukázala i na nebezpečnější stránku této technologie. Vytvořila video o prezidentu Obamovi, v němž bývalý americký prezident říkal věci, které ve skutečnosti nikdy nevypustil z úst. Video bylo přitom neuvěřitelně důvěryhodné. V době, kdy svět bojuje s dezinformacemi a Fake News, je třeba s i touto technologií pracovat obezřetně.

Představena byla před dvěma roky. Vychází z kompletního zpracování dat neuronovými sítěmi, zvláštností této techniky je její komplexnost. Využívá video požadované osoby (třeba prezidenta Obamy), aby pochopila, co tvoří obličej, obočí, koutky úst, pozadí apod. Následně pečlivým sledováním orientačních bodů na zdrojovém videu dokáže provést potřebná zkreslení tváře. Vše probíhá pomocí vlastních pohybů a výrazů, které se stávají zdrojem pro zmíněné vizuální informace. Ve výsledku se tělo a tvář pohybují jako ve zdrojovém videu a navíc každá malá výrazová odchylka je zachycena a reprodukována pomocí vlastních výrazů cílové osoby. (Dále čtěte: Umělá inteligence umí oživit už i mrtvé celebrity).