Image
16.9.2016 0 Comments

Syntetický hlas už dokáže aj mľaskať, šušlať či dýchať. Ukážky vás prekvapia.

Počítače dnes zvládnu generovanie reči z kúskov textu. Už sme si zvykli, že sa nám prihovára navigácia v aute či hlasový asistent v mobile. Tento softvér zostavuje vety z hlasových nahrávok, ktoré bolo treba zhotoviť v štúdiu. Výsledok si však sotva zmýlite s bežnou ľudskou rečou. Teraz výskumníci z Alphabet DeepMind použili úplne odlišný prístup.

Staršie systémy TTS (text-to-speech)  využívajú rozsiahlu knižnicu častí reči (foném a morfém) a veľké súbory pravidiel, ktoré opisujú všetky spôsoby kombinovania písmen, aby vznikol príslušný zvuk. Spájaním alebo zreťazením takýchto kúskov sa vytvára funkčná syntetická reč. V tomto prípade ide o konkatenatívnu technológiu TTS. Pri parametrickej technológii TTS sa syntetický hlas generuje pomocou počítačového modelu a zvukového generátora, tzv. vokodéra.Narábať sa dá s mnohými slovami, aj keď reč má nepresvedčivú kadenciu a tón. 

Nový systém WaveNet zachádza ďalej. Dokáže generovať akýkoľvek 16 kHz zvuk, ktorý sa naučí. Vedci nakŕmili konvolučnú neurónovú sieť množstvom nahrávok bežnej reči. Tá si potom vytvorila súbor pravidiel určujúcich, ktoré tóny nasledujú iné tóny v rámci reči. Sieť dokáže pracovať so 16 000 vzorkami za sekundu. Každá vzorka je determinovaná nielen predošlou vzorkou, ale tisíckami vzoriek, ktoré ju predchádzajú. To všetko sa premietne do algoritmu neurónovej siete, ktorá potom vie, že niektoré tóny alebo vzorky budú nasledovať po sebe takmer vždy a iné takmer nikdy.

Ak bude WaveNet vyškolený na hlase jediného hovoriaceho, výsledný syntetický hlas sa bude podobať jeho hlasu. WaveNet je však schopný naučiť sa charakteristiky mnohých rôznych hlasov, mužských aj ženských. Ak bude výcvik uskutočnený s viacerými hovoriacimi, výsledná reč bude jasnejšia.

WaveNet si vyžaduje veľký výpočtový výkon, a tak nemožno očakávať, že by sa v dohľadnom čase dostal do našich telefónov.

Chcete si to aj vypočuť? Príspevok na webe DeepMind obsahuje aj niekoľko vzoriek v angličtine a mandarínskej čínštine. Systém je schopný dokonca syntetizovať aj vlastnú hudbu, pretože môže analyzovať všetky zvukové vzorky, nielen reč. WaveNet si vypočul niekoľko klavírnych koncertov a potom začal skladať. Môžete si vypočuť ukážky pôvodných kompozícií.

          

Azda najzaujímavejšie je to, že systém dokáže syntetizovať reč aj bez vstupu. V prípade TTS (text-to-speech) sa vždy vyžaduje vstup ako inštrukcia, WaveNet je schopný vytvoriť zvuk reči aj bez toho. Výsledkom je síce len reťazec nezmyslených zvukov, bľabotanie, ale obsahuje aj zvuky pohybu úst, ako je napr. mľaskanie, a dýchania. To naznačuje vzrušujúci potenciál systému vytvoriť najrealistickejšie elektronické hlasy.

                   

Zdroj: techcrunch.com

sciencealert.com

Zobrazit Galériu
Autor: Redakcia

Nechajte si posielať prehľad najdôležitejších správ emailom

Mohlo by Vás zaujímať

Produkty

Roj bojových mikrodronov Perdix sa správa ako inteligentný kolektívny organizmus

13.01.2017 00:20

Americká armáda používa drony už dlhé roky. Teraz ministerstvo obrany predstavilo vo videu najnovší pokrok v technológii bezpilotných lietadiel. Ide o úspešné nasadenie celej letky dronov Perdix. Tes ...

Produkty

ODG ukázal pokročilé okuliare na rozšírenú realitu. V niektorých parametroch prekonávajú HoloLens

13.01.2017 00:25

Spoločnosť Osterhout Design Group (ODG) vystavovala na CES dvoje okuliarov na rozšírenú realitu, ktoré umožňujú umiestniť 3D objekty v reálnom priestore a sú určené pre bežných spotrebiteľov. Modely R ...

Produkty

Inteligentný náramok BACtrack Skyn vám ukáže, ako veľmi ste opití

13.01.2017 00:30

Nositeľné zariadenie BACtrack Skyn vám povie, či ste vypili priveľa. Môže sa vám to hodiť v situácii, keď sa rozhodujete, či si dáte ešte za pohárik. Náramok funguje samostatne alebo v integrácii s A ...

Žiadne komentáre

Vyhľadávanie

qubitconference

Najnovšie videá