SAMSUNG_022024A Advertisement SAMSUNG_022024A Advertisement SAMSUNG_022024A Advertisement

Revolúcia v hlasovej syntéze. Nechýba ani podpora slovenčiny a klonovania vlastného hlasu

Technológie
0

Startup ElevenLabs, ktorý využíva strojové učenie na klonovanie a syntézu hlasu, oznámil rozšírenie svojej platformy o nový model prevodu textu na reč, ktorý podporuje 30 jazykov. Rozšírenie znamená oficiálne opustenie beta fázy platformy, ktorá je pripravená na používanie pre podniky a jednotlivcov usilujúcich sa prispôsobiť svoj obsah pre publikum na celom svete. Spoločnosť v rámci série A financovania získala 19 miliónov dolárov a bola ohodnotená na takmer 100 miliónov dolárov.

Eleven Multilingual v2 má sprístupniť hlasy umelej inteligencie v ľudskej kvalite v každom jazyku a odstrániť jazykové bariéry v obsahu. Spoločnosť ElevenLabs ponúka dva hlavné produkty zamerané na hlasovú umelú inteligenciu – Speech Synthesis a VoiceLab. Prvý z nich je nástroj na syntézu, ktorý generuje prirodzene znejúcu reč z textových vstupov. Druhý je akýmsi doplnkom, ktorý používateľom poskytuje možnosť klonovať vlastné hlasy alebo generovať úplne nové syntetické hlasy (náhodným vzorkovaním hlasových parametrov) na použitie s nástrojom na syntézu.

SAMSUNG 042024 Advertisement

Keď si používateľ vytvorí vlastný prispôsobený hlas, môže ho zapojiť do nástroja na prevod textu na reč a previesť akýkoľvek krátky alebo dlhý obsah podľa vlastného výberu do preferovanej reči. Ako alternatíva sa dá použiť aj niekoľko predpripravených hlasov umelej inteligencie od spoločnosti alebo hlasov vytvorených a verejne zdieľaných komunitou. Nástroj na syntézu začínal s modelom, ktorý vytváral reč len v angličtine. Neskôr bol rozšírený na verziu Eleven Multilingual 1, ktorá využívala textové vstupy a hlasy AI na generovanie reči v ďalších jazykoch: angličtina, poľština, nemčina, španielčina, francúzština, taliančina, portugalčina a hindčina.

Verzia Eleven Multilingual 2 dokáže syntetizovať reč v ďalších 30 jazykoch, medzi ktorými nechýba ani slovenčina a čeština. Tento krok v podstate znamená, že človek by mohol klonovať svoj hlas a používať ho na tvorbu reči v desiatkach jazykov zameraných na rôzne trhy. Stačí, ak používateľ zadá text v jazyku podľa vlastného výberu, vyberie požadovaný hlas (vopred vytvorený, syntetický alebo klonovaný) a upraví niekoľko parametrov reči. Model automaticky identifikuje písaný jazyk a pomocou nastavených parametrov vygeneruje reč v ňom.

Zároveň zachová jedinečné vlastnosti vybraného hlasu vo všetkých jazykoch vrátane jeho pôvodného prízvuku. Od spustenia beta verzie zaznamenala spoločnosť ElevenLabs záujem zo strany podnikov aj jednotlivcov a tvrdí, že zaregistrovala viac ako milión používateľov na celom svete. Očakáva sa, že spustenie novej verzie zvýši nielen používateľskú základňu platformy, ale aj objem obsahu, ktorý denne generuje.

Najnovšie spoločnosť spolupracovala so serverom ArXiv na zverejňovaní všetkých článkov so zvukovou verziou na zvýšenie dostupnosti. Takisto spolupracovala so spoločnosťou Storytel s cieľom rozšíriť možnosti dostupné pre audioknihy – popri ľudských rozprávačoch sa ponúkajú ďalšie hlasy vytvorené umelou inteligenciou. Očakáva sa, že  v budúcnosti bude možné úplne bez problémov dabovať aj celý film do viacerých jazykov, pričom sa zachovajú prízvuky a emócie pôvodných hercov.

Zdroj: venturebeat.com

Zobrazit Galériu

Redakcia

Všetky autorove články

Pridať komentár

Mohlo by vás zaujímať

Mohlo by vás zaujímať