Stojíme na prahu nové éry. Telefonování by mohlo brzy probíhat zcela potichu

 Technologie 
04. října 2019 13:50 / Terezie Zamlynová
  0
📷
1 fotografie v galerii
Pokud by se telefonování obešlo bez hlasu, vzájemně by se lidé nerušili Depositphotos
Umělé inteligenci se stačí dívat na televizi a naučí se odezírat ze rtů. Dokázal to projekt nazvaný DeepMind od společnosti Google. Ve spolupráci s univerzitou v Oxfordu se nyní už jen stále vylepšuje.

Sledovat programy bylo k tomu třeba poměrně dlouho. Vědci nabídli počítači celkem 5000 hodin televizního vysílání ze šesti různých stanic. Videomateriál obsahoval 118 000 sekvencí. Oxfordský tým vědců nejprve trénoval program na záznamech z let 2010 až 2015. Potom ho otestoval na videích z roku 2016. To měla za úkol umělá inteligence už odezírat celé fráze a věty. A dokázala to velice úspěšně.

Stroj člověka porazil na celé čáře

Když poté výzkumný tým srovnával výsledky počítače s lidským profesionálem, ukázalo se, že stroj byl v překladu 200 náhodně vybraných klipů výrazně úspěšnější.

Profesionální lidský odezírač dokázal správně označit jen 12,4 procent slov, umělá inteligence byla úspěšná v 46,8 procentech případů! Navíc většina neúspěchů se týkala jen drobností, třeba písmene „s“ v závěru slova. Výsledky tedy byly mnohem lepší, než dokázal v minulosti do té doby jakýkoli jiný automatický program.

Tím však práce neskončila. Program DeepMind už se učí i taktické a strategické dovednosti. Aby si stroje ale dokázaly takovou dovednost osvojit, musí se učit na obrovském vzorku dat. Zdá se, že už jsme se přiblížili k okamžiku, kdy bude člověk minimálně v oblasti odezírání zcela nahrazen.

DeepMind už umí rozeznávat víc než 17 500 slov, navíc dokáže rozlišovat mnohem komplikovanější gramatické kategorie.

Potíže byly, ale daly se překonat

Největším problémem při učení byla podle zveřejněných informací skutečnost, že řada videoklipů od BBC měla asynchronní zvukovou a obrazovou stopu – počítač pak nebyl schopen správně přiřadit správné významy k pohybům úst. To celý proces učení výrazně zdrželo.

Aplikací v reálném životě se nabízí nyní víc než dost. Jednou z těch užitečných je například automatické vytváření titulků u videa, ale nabízejí se i mnohem rozporuplnější využití. Pokud by se podařilo spojit tento systém například se systémem bezpečnostních kamer, mohly by stroje monitorovat každé vyřčené slovo.

To by s vysokou pravděpodobností uvítali v tajných službách, na letištích a obecně v oblasti bezpečnosti. Logicky však přicházejí i obavy ze zneužití. A je jedno, zda si pod tím představit Orwellův totalitní svět z románu 1984, nebo zneužití špionážními službami či státní mocí. Čtěte také: Umělá inteligence umí oživit už i mrtvé celebrity.

Naučíme telefony též odezírat ze rtů?

Experti však nevylučují ani to, že objev změní zřejmě i komunikaci s mobilními telefony. Protože jestli bude přístroj odezírat naše slova přímo ze rtů, neměl by být problém s ním komunikovat zcela potichu.

Velkou nadějí mohou být podobné pokročilé aplikace pro neslyšící. Stačilo by, že chytrý telefon odečte slova ze rtů hovořícího a převede je následně na text, řeč nebo znaky. Čtěte také: Umělá inteligence už umí napodobit hlas i tvář. Stačí jí k tomu vteřiny.

Reklama

Mohlo by vás zajímat

Celebrity

Valentýn ve velkém stylu?! V odstínech růžové jej slavila A.n.d.u.l.a, Sharlota a Angie Mangombe

Styl

Jak nosit pánské kotníkové boty?

Tech

České zbrojovky jedou naplno, nyní získaly technologii systému automatického granátometu MK 47