Image
16.9.2016 0 Comments

Syntetický hlas už dokáže aj mľaskať, šušlať či dýchať. Ukážky vás prekvapia.

Počítače dnes zvládnu generovanie reči z kúskov textu. Už sme si zvykli, že sa nám prihovára navigácia v aute či hlasový asistent v mobile. Tento softvér zostavuje vety z hlasových nahrávok, ktoré bolo treba zhotoviť v štúdiu. Výsledok si však sotva zmýlite s bežnou ľudskou rečou. Teraz výskumníci z Alphabet DeepMind použili úplne odlišný prístup.

Staršie systémy TTS (text-to-speech)  využívajú rozsiahlu knižnicu častí reči (foném a morfém) a veľké súbory pravidiel, ktoré opisujú všetky spôsoby kombinovania písmen, aby vznikol príslušný zvuk. Spájaním alebo zreťazením takýchto kúskov sa vytvára funkčná syntetická reč. V tomto prípade ide o konkatenatívnu technológiu TTS. Pri parametrickej technológii TTS sa syntetický hlas generuje pomocou počítačového modelu a zvukového generátora, tzv. vokodéra.Narábať sa dá s mnohými slovami, aj keď reč má nepresvedčivú kadenciu a tón. 

Nový systém WaveNet zachádza ďalej. Dokáže generovať akýkoľvek 16 kHz zvuk, ktorý sa naučí. Vedci nakŕmili konvolučnú neurónovú sieť množstvom nahrávok bežnej reči. Tá si potom vytvorila súbor pravidiel určujúcich, ktoré tóny nasledujú iné tóny v rámci reči. Sieť dokáže pracovať so 16 000 vzorkami za sekundu. Každá vzorka je determinovaná nielen predošlou vzorkou, ale tisíckami vzoriek, ktoré ju predchádzajú. To všetko sa premietne do algoritmu neurónovej siete, ktorá potom vie, že niektoré tóny alebo vzorky budú nasledovať po sebe takmer vždy a iné takmer nikdy.

Ak bude WaveNet vyškolený na hlase jediného hovoriaceho, výsledný syntetický hlas sa bude podobať jeho hlasu. WaveNet je však schopný naučiť sa charakteristiky mnohých rôznych hlasov, mužských aj ženských. Ak bude výcvik uskutočnený s viacerými hovoriacimi, výsledná reč bude jasnejšia.

WaveNet si vyžaduje veľký výpočtový výkon, a tak nemožno očakávať, že by sa v dohľadnom čase dostal do našich telefónov.

Chcete si to aj vypočuť? Príspevok na webe DeepMind obsahuje aj niekoľko vzoriek v angličtine a mandarínskej čínštine. Systém je schopný dokonca syntetizovať aj vlastnú hudbu, pretože môže analyzovať všetky zvukové vzorky, nielen reč. WaveNet si vypočul niekoľko klavírnych koncertov a potom začal skladať. Môžete si vypočuť ukážky pôvodných kompozícií.

          

Azda najzaujímavejšie je to, že systém dokáže syntetizovať reč aj bez vstupu. V prípade TTS (text-to-speech) sa vždy vyžaduje vstup ako inštrukcia, WaveNet je schopný vytvoriť zvuk reči aj bez toho. Výsledkom je síce len reťazec nezmyslených zvukov, bľabotanie, ale obsahuje aj zvuky pohybu úst, ako je napr. mľaskanie, a dýchania. To naznačuje vzrušujúci potenciál systému vytvoriť najrealistickejšie elektronické hlasy.

                   

Zdroj: techcrunch.com

sciencealert.com

Zobrazit Galériu
Autor: Redakcia

Nechajte si posielať prehľad najdôležitejších správ emailom

Mohlo by Vás zaujímať

Produkty

Bluetooth 5.0 prichádza s dvojnásobnou rýchlosťou a štvornásobným dosahom oproti verzii 4.2

08.12.2016 11:17

Bluetooth SIG vydal finálnu špecifikáciu pre nový štandard Bluetooth 5 pre OEM, ktorí teraz môžu vyvíjať hardvér na  jeho podporu. Nová špecifikácia je spätne kompatibilná so všetkými predchádzajúcim ...

Produkty

Microsoft môže kúpiť LinkedIn, Európska komisia si však dala podmienky

08.12.2016 00:07

Európska komisia (EK) schválila prevzatie profesijnej sociálnej siete LinkedIn spoločnosťou Microsoft. Súhlas je však podmienený dodržiavaním série záväzkov, ktorých cieľom je zachovanie konkurencie m ...

Produkty 1

Tripleton Enigma E2 – aktuálne najlepšie zabezpečený šifrovaný mobilný telefón na svete

08.12.2016 00:10

Šifrovaný telefón využíva priekopnícke techniky ochrany proti odpočúvaniu, ako sú napríklad autorizácie pomocou špeciálnej karty a šifrovacej techniky, ktorú podľa výrobcov nemožno prelomiť. I napriek ...

Žiadne komentáre

Vyhľadávanie

Kyocera - prve-zariadenia-formatu-a4-s-vykonom-a3

Najnovšie videá