Image
12.1.2015 0 Comments

Systémy deep-learning

Titulka-2.jpg Technológie na automatické rozpoznávanie obrazového, textového a zvukového obsahu z hľadiska hlbšieho významu sú snom vývojárov už mnoho dekád. Perfektne rozpoznať, čo sa na fotografiách alebo videu skutočne deje, chápať vety tak, že neunikne žart či sarkazmus, to všetko už môže byť onedlho realitou. Ide o systémy, ktoré chápu tak ako človek a pritom sú rýchle a neúnavné ako počítač.

qr_deep_learning_systems.jpg

Predstavujeme Project Adam, na ktorom pracuje spoločnosť Microsoft. Pozrite sa, ako vstupujú do sveta počítačov prvky známe len z ľudského správania – rozpoznávanie objektov, analýza fotografií a pod.

Na celosvetovej konferencii Microsoft predviedol ako funguje on-line preklad jazykov. Konkrétne šlo o preklad angličtiny do nemčiny a naopak. Aj keď sa systém občas pomýlil, v celku sa pomocou tohto IT prekladu celkom porozprávali ľudia, ktorí nehovorili spoločným jazykom.

Ktoré z týchto šiat sú krajšie? Triviálna veta a pritom relevantná odpoveď na ňu si vyžaduje masívny výkon. Potrebujete na to veľmi pokročilý biologický alebo elektronický stroj, ktorý je schopný rozpoznať hovorené slovo, dokáže odhaliť význam vety pojednávajúcej o zhodnotení objektov, rozpoznať vizuálne dané objekty od okolia, posúdiť na základe veľkého množstva faktorov ich vhodnosť, rozhodnúť o lepšom a dať o tom odpoveď. Vývoj umelej inteligencie schopnej riešiť dané problémy prebieha už desaťročia. Softvérové a internetové giganty ako Google, Microsoft, ale aj  ďalšie spoločnosti dnes investujú do týchto technológií veľké množstvo úsilia a financií.

S termínom deep-learning, ktorý sa dá voľne preložiť ako hĺbkové učenie, sa pravdepodobne budeme stretávať najmä v jeho anglickej forme, podobne ako napríklad so slovíčkom cloud. Týmto termínom sa označujú počítačové systémy, ktoré sú v určitom zmysle schopné porozumieť abstraktným pojmom podobne ako človek. Dokážu teda zo surových dát extrahovať hlbší význam.

Predstavte si napríklad fotografiu kačky plávajúcej po hladine jazierka. Pre nás je jej rozpoznanie úplne triviálne. Vieme, ako kačka vyzerá, a vieme, že to je ona. Pre počítač je to však len niekoľko miliónov pixelov, zoradených do riadkov a stĺpcov. Prvý pixel má modrú farbu, druhý bledomodrú, tretí svetlozelenú atď. Ako by sme počítač naučili, aby rozpoznal, že ide o fotografiu kačky?

Základom je systém, ktorý rozpoznáva tvary. Môžeme teda vytvoriť program, v ktorom bude zadané, ako vyzerá zobák, ako hlava a telo, kde má zobák byť, akú má veľkosť a podobne. Vzťahy veľkostí sú pritom dôležité, pretože kačka, bocian či labuť sú rozdielne zvieratá, aj keď všetky majú zobák a na všetky môžeme naraziť pri jazere. Keby počítač hľadal stále rovnaký obrázok kačky, bol by prakticky bezchybný. Problém je v tom, že fotografia môže kačku zobrazovať na hladine, na súši či za letu. Záber môže byť zblízka, z diaľky, zozadu či zhora.

Na niektorých pritom zobák ani nebude vidno. Úloha sa náhle stáva omnoho zložitejšou, ako sa na prvý pohľad zdalo. Človek pritom kačku stále bezpečne rozpozná. Obraz totiž nie je jediná informácia, ktorú máme, dávame ho do súvislosti s našimi ostatnými znalosťami. Vieme napríklad, ako vyzerajú ostatné zvieratá, takže parametre rozpoznania nie sú striktné. Môžeme ich poriadne natiahnuť a zhodnotiť, že vták na obrázku sa najviac podobá na kačku, a nie na hus či labuť.

Podobne môžeme upraviť softvér na rozpoznanie, pričom výsledkom je vznik chybovosti. No ak chybovosť nie je veľká, nie je to prekážka. Koniec koncov aj človek si môže zmýliť v diaľke plávajúci konár so zvieraťom. Všetky predpoklady však putujú z oka, ak sa pozrieme na kačku nakreslenú dieťaťom či obrázok káčera Donalda. Kým človek takúto abstrakciu okamžite spozoruje, rozpoznávací softvér je v problémoch. Náhle totiž vyhodnocuje niečo, čo nevyzerá ako kačka, nehýbe sa ako kačka, nekváka ako kačka, a predsa je to kačka. Na tomto príklade dobre vidieť, aký komplexný systém znalostí, závislostí a skúseností pri rozpoznávaní používame.

Google data center.jpg

Veľké spoločnosti ako Google nemajú problém prevádzkovať svoje najnovšie systémy deep-learning na desiatkach tisíc procesorov

Neurálne siete

Systémy deep-learning sú súčasťou odvetvia známeho pod označením umelá inteligencia (UI). V tomto odbore sa za posledné roky striedali obdobia nadšenia a sklamania (označované aj ako „letá UI“ a „zimy UI“) a v ťažkých obdobiach sa žiadosti o financovanie projektov označovali namiesto umelej inteligencie ako kognitívne alebo inteligentné systémy, prípadne výpočtová inteligencia. Podobná situácia nastala aj v podoblasti UI zaberajúcej sa neurálnymi sieťami, ktoré zažívali významný rozkvet v 80. rokoch minulého storočia, čo dalo v 90. rokoch vzniknúť prvým úspešným systémom na optické rozpoznávanie znakov a zvukové rozpoznávanie reči.

Postupom času však nadšenie opadlo a pri návrate neurálnych sietí do svetla reflektorov sa aj pre ne použilo nesprofanované nové označenie, ktorým je práve deep-learning. Problematike vývoja umelej inteligencie sme sa podrobne venovali v dvojdielnom článku Budeme vysokú inteligenciu vytvárať počítačom? (PC REVUE č. 9/2013, 10/2013). V posledných rokoch si pokrok v tomto odvetví všimol zrejme každý používateľ, pretože so systémami sa dostal priamo do styku. Dobre známe sú napríklad prvky Facebooku či iných sociálnych sietí, ktoré ponúkajú pridanie menovky (tagu) vašich priateľov do fotografií, pričom ich rozpoznajú úplne samy. Po anglicky hovoriaca časť populácie si začína zvykať na síce stále ešte nie dokonalý, ale veľmi použiteľný systém hlasových asistentiek, ako sú Apple Siri či Microsoft Cortana.

Za pokrokom v posledných rokoch stálo množstvo faktorov, medzi ktoré bezpochyby patrí stúpanie výpočtového výkonu a nové algoritmy a štatistické metódy. Z hľadiska vyhľadávania a určovania vzorov (pattern recognition) však bol úspech založený predovšetkým na nových a pokročilých neurálnych sieťach. Systémy deep-learning sú prakticky novým názvom pre hlboké neurálne siete, ktoré svoj prívlastok dostali z dôvodu konštrukcie pozostávajúcej z niekoľkých úrovní. Každá vrstva má pritom vlastné elementy na spracovanie informácií, ktoré sú čiastočne ekvivalentné s neurónmi biologického nervového systému.

Takýto systém sa vyznačuje tým, že sa neriadi prísne stanovenými pravidlami úlohy, ale správne zákonitosti a pravidlá si určí sám na základe prijímaných dát. Inak povedané, programátor neurčuje presne postup, ktorý musí neurálna sieť dodržať na dosiahnutie správneho výsledku. Namiesto toho je trénovaná na tisíckach príkladov, v ktorých hodnotí svoj vlastný úspech. Neurálna sieť mení svoje vnútorné parametre a snaží sa dosiahnuť čo najlepšie výsledky. Prvky a pravidlá, ktoré fungujú, zachováva a ďalej rozvíja, prvky, ktoré vedú k zhoršeniu výsledkov, postupne potláča. Sieť sa tak vyvíja a prispôsobuje.

Na konci tréningu je často schopná riešiť úlohy s veľkou presnosťou, ale jej autor alebo vývojový tím vôbec nemusí vedieť, ako to dosiahla. Vo výsledku tak dochádza k zaujímavej a povedomej situácii. Dokážeme určiť, že neurálna sieť podáva dobré výsledky a jej návrh sa podaril. No ak ide o vysokovýkonný systém, ani jeho tvorcovia nie sú schopní do úplne posledného detailu vysvetliť, ako presne funguje. Podobá sa to na situáciu s naším vlastným biologickým systémom. Dokážeme perfektne rozpoznávať tváre aj objekty, nevieme však presne, ako to náš nervový systém robí. Celá záležitosť sa nám zdá jednoduchá, pretože „výsledok“ nám nervový systém podá bez našej vedomej námahy.

Pes.jpg

Systém deep-learning Microsoft Adam nielenže na čerstvo odfotenej fotografii okamžite rozpozná psa, ale dokáže určiť aj jeho rasu

Hlboké modely neurálnych sietí sa objavili po prvýkrát v polovici 80. rokov minulého storočia, pričom jedna z najvýznamnejších postáv v ich vývoji bol britský informatik Geoffrey Hinton. Viacvrstvové neurálne siete však boli nad úrovňou výkonu hardvéru dostupného vtedy a aj v nasledujúcich rokoch. Pokrok tak bol veľmi pomalý. K prelomu došlo v roku 2006, keď Hinton vyvinul nový a oveľa efektívnejší spôsob učenia sa jednotlivých vrstiev softvérových neurónov. Pri ňom sa prvá vrstva učí len primitívne prvky, ako napríklad hrany fotografie zo zhluku pixelov obrázka alebo charakter zvukovej krivky, ktorý sa opakuje v nenáhodných intervaloch. Len čo sa ich naučí dobre rozpoznávať, poskytne dáta nasledujúcej vrstve, ktorá sa sama učí rozpoznávať detailnejšie vlastnosti, ako sú napríklad hrany objektov na fotografii alebo kombinácie zvukov, ktoré najčastejšie vznikajú pri reči. Postup sa následne opakuje v ďalších vrstvách, ktoré zachádzajú do stále podrobnejších detailov, až napokon systém začne objekty alebo špecifické zvuky detailne rozpoznávať v ich rôznych podobách.

Rozpoznávanie významu obrázkov a videa

Pravdepodobne najviac skúmaný smer rozpoznávania významov pomocou systémov deep-learning, respektíve hlbokých neurálnych sietí, je rozpoznávanie obrázkov a videa. Každoročne sa odohráva súťaž Imagenet Large Scale Visual Recognition Challenge, ktorej sa vývojové tímy zúčastňujú so svojimi neurálnymi sieťami. Súťaž pozostáva z klasifikovania približne milióna fotiek do jednej tisícky špecifikovaných kategórií. K veľkému zlomu došlo v roku 2012, keď tím Geoffreyho Hintona vyhral súťaž rozdielom triedy so svojou novou osemvrstvovou neurálnou sieťou, ktorá bola zložená zo 650 000 neurónov a 60 miliónov upraviteľných parametrov.

Tento systém deep-learning dokázal roztriediť fotografie s chybovosťou okolo 15 %. Druhý najlepší tím v poradí dosiahol so svojím systémom chybovosť 26 %. To, o aký obrovský prielom išlo, bolo dobre vidieť pri porovnaní s obrovskou neurálnu sieťou s viac ako miliardou prepojení, ktorú sprevádzkoval Google v tom istom roku. Počítalo ju viac ako 16 000 procesorov, pričom bola otestovaná na 10 miliónoch obrázkov z náhodne vybraných videí na YouTube. Roztrieďovala ich pritom do 22 000 veľmi podrobných kategórií (rozlišujúcich napríklad nielen morskú raju od vtáka, ale aj jednotlivé druhy rají), pri ktorých dosiahla chybovosť 84 %. Pri zovšeobecnení požiadaviek a znížení kategórií (na 1000) úspešnosť stúpla na 50 %. Už to sa pritom považovalo za veľký úspech, pretože išlo o 70-percentné zlepšenie oproti systémom z minulosti.

Microsoft Adam.jpg

Servery cloudu Microsoft Azure, hosťujúce neurálnu sieť Adam, a hlavný predstavitelia tímu, ktorí za celým systémom stoja

Veľmi nízka chybovosť Hintonovej novej neurálnej siete Google náležite upútala a v roku 2013 odkúpila jeho spoločnosť DNNresearch. Jej rozpoznávanie objektov bolo začlenené do súčasných triediacich filtrov vyhľadávača. Geoffrey Hinton dnes venuje asi polovicu svojho času práci pre Google, zatiaľ čo tá druhá stále patrí nekomerčnému akademickému výskumu pod záštitou univerzít. V posledných rokoch Google, Facebook a iné významné spoločnosti investujú do systémov deep-learning vo veľkej miere. V minulom roku napríklad Google kúpil za pol miliardy dolárov mladú britskú spoločnosť DeepMind, ktorá učila neurálne siete hrať počítačové hry podobne ako človek. Pri takýchto akvizíciách vôbec nejde o nákup produktov, ale o získanie skúsených vývojárov. Google dnes zamestnáva desiatky špičkových expertov, ktorí patria do prvej stovky najvplyvnejších vývojárov systémov deep-learning, a bezpochyby má o budúcnosti jasnú víziu.

Rozpoznávanie obrázkov, samozrejme, nemá význam len vo vyhľadávaní a katalogizovaní obsahu. Správne rozpoznanie objektov je nevyhnutné aj v prípade pokročilej robotiky a automatických systémov operujúcich vo fyzickom svete. Typický príklad sú autá bez (živého) vodiča. V mnohých úzko špecifikovaných činnostiach sú rozpoznávacie systémy pritom mimoriadne presné už dnes. Na súťaži rozpoznávania dopravných značiek dosiahla v roku 2011 neurálna sieť švajčiarskeho tímu na vývoj umelej inteligencie IDSIA chybovosť menšiu ako 1 %.

Súťaž pozostávala s posudzovania 50 000 reálnych fotografií značiek umiestnených pri cestách, ktoré boli odfotené za rôznych poveternostných a svetelných podmienok. Neurálna sieť švajčiarskeho tímu pod vedením Jürgena Schmidhubera rozpoznala 99,64 % z nich (chybovosť 0,53 %), čím súťaž s prehľadom vyhrala. Na peknom druhom mieste skončila kontrolná skupina zložená z 32 ľudí, ktorá dosiahla priemernú chybovosť 1,16 %. Takéto dobré výsledky sa posunuli na ďalšiu úroveň v roku 2012 a 2013 pri súťaži ICPR (International Conference on Pattern Recognition). Pri nej boli systémy deep-learning použité na rozpoznávanie mitóz v lekárskych snímkach z mikroskopu. Ide o veľmi dôležitý prvok na včasné rozpoznania rakoviny, pričom pre ľudí je táto úloha veľmi náročná (je problematické rozpoznať mitózy od iných tkanív) a najvýkonnejšie neurálne siete nás v detekcii už prekonávajú. Nemenej dôležité je použitie pri rozpoznávaní biologických neurálnych štruktúr (zo snímok štruktúr mozgu), kde sa systémy deep-learning používajú na rozpoznávanie neurálnych membrán od irelevantného pozadia.

Internetové a softvérové giganty zaujíma najmä spracovanie ich obrovského množstva dát. Svoju vlastnú divíziu na výskum umelej inteligencie má aj Facebook, ktorý by rád čo najlepšie spracúval viac ako 350 miliónov fotografií, ktoré na jeho servery nahrajú používatelia každý deň. Pozadu nie je ani Microsoft. Ten v lete roku 2014 ukázal svetu svoj projekt nazvaný Adam, ktorý je náprotivkom systému deep-learning Googlu, známeho pod neoficiálnym označením Google Brain (Google Mozog). Projekt Adam je trénovaný na obrazových dátach zberaných cez vyhľadávač Bing a podľa Microsoftu systém v presnosti dvojnásobne predstihuje súčasné systémy (v porovnaní s verejne publikovanými výsledkami z minulosti).

Takéto vyjadrenie je však veľmi ťažké overiť bez toho, aby boli systémy priamo porovnané v najnovších verziách a na rovnakom vstupe. Microsoft totiž nepublikoval vedeckú prácu s podrobnými dátami. Blízku budúcnosť si Microsoft predstavuje napríklad tak, že svojím smartfónom odfotíte psa, rastlinu či jedlo a necháte ju spracovať systémom deep-learning Adam v cloude. Prakticky okamžite dostanete späť informáciu o tom, o akú rasu psa ide, aká je to rastlina a koľko kalórií má napríklad v priemere buchta, ktorú práve držíte v ruke. Adam momentálne funguje na serveroch cloudu Microsoft Azure a v takomto ranom štádiu, pochopiteľne, ešte nie je verejne dostupný.

Standford.png

Podrobná automatická identifikácia objektov na obrázku prostredníctvom samoučiacej sa neurálnej siete výskumného tímu Standfordovej univerzity

Vody systémov deep-learning sa rozvírili 17. novembra 2014, keď nezávisle od seba publikovali nové výsledky svojich obrazových systémov deep-learning výskumníci z Googlu a akademici zo Stanfordovej univerzity. Ide však o celkom nezávislé projekty a zhoda času publikovania je len náhodná. Oba tímy prezentovali dáta produkované systémami schopnými opisovať obsah obrázkov. Kým systém tímu zo Standfordu sa zaoberá najmä mimoriadne hustému opisu objektov (identifikovať čo najviac objektov na scéne), systém Googlu sa zameriaval na opis deja.

Ako sme spomenuli v úvode článku, táto úloha je oveľa zložitejšia než jednoduché identifikovanie objektu a vyžaduje si pochopenie súvislostí. Nestačí totiž vrátiť odpoveď „na fotografii je dieťa“, ale vyžaduje sa úroveň „dieťa hrá futbal na lúke“. Systém sa učil na viac ako milióne obrázkov, ku ktorým boli priradené opisy. Množstvo z nich pochádzalo z verejných galérií, ako je napríklad Flickr, ku ktorým pridávajú opis používatelia. Opis bol overený približne pri 40 000 obrázkoch. Zostávajúci milión zostal neoverený, a teda mohol obsahovať aj menej presné a nevhodné opisy.

Po automatickej a samostatnej výučbe bola neurálna sieť konfrontovaná s tromi tisíckami nových obrázkov, s ktorými sa nikdy nestretla. Dostala pritom za úlohu vytvoriť pre ne relevantný opis. Výsledky testov takéhoto typu sa určujú algoritmom BLEU, ktorý posudzuje kvalitu textov vytvorených strojom a človekom. Kontrolná skupina ľudí samostatne zhodnotí a opíše obrázky a následne sa každý ľudský výstup porovnáva s inými ľudskými výstupmi. Spriemerovaním tak dostaneme skóre typické pre človeka. V daných troch setoch po tisícke obrázkov dosiahli ľudia skóre 69, 68 a 70 bodov. Nový systém deep-learning Googlu mal skóre 59, 66 a 63.

Na porovnanie, predošlé najlepšie výsledky systémov deep-learning boli na úrovni 25, 56 a 58 bodov. Najlepšie však systém posúdite z príkladov, ktoré si môžete pozrieť na obrázku. V prvom stĺpci sú príklady obrázkov, pri ktorých bol systém veľmi presný. Všimnite si najmä prostredný obrázok, v ktorom systém dokázal rozpoznať, že ľudia hádžu frisbee, a to aj napriek tomu, že je na obrázku malé a v značnej vzdialenosti od ľudí. V druhom stĺpci sú príklady obrázkov, ktorých opis bol veľmi relevantný, ale nie úplne presný. Opis napríklad hovorí o dvoch psoch namiesto troch a o hokejistoch bojujúcich o puk aj napriek tomu, že o puk priamo nesúperia. Veľmi zaujímavé sú posledné dva stĺpce obsahujúce nekorektné opisy. Často sa dá totiž odvodiť, čo systém mohlo zmiasť a kde sú jeho slabiny.

Extrahovanie významu z textu

Porozumenie textu a odhalenie jeho významu patrí medzi ďalšie lákavé ciele, v ktorých systémy deep-learning dosahujú výrazne najlepšie výsledky (v porovnaní s inými metódami umelej inteligencie). Podobne ako na fotografii, v ktorej sa rozpoznáva aktuálna situácia, ani vo vete nezáleží len na tom, aby systém dokázal rozlíšiť jednotlivé objekty (slová). Treba rozpoznať kontext, v ktorom sa nachádzajú. Ani zďaleka pri tom nejde len o gramatickú správnosť. Veta „nechce sa mi to robiť,“ je kompletná a správna. Po jej prečítaní však okamžite viete, že na úplné pochopenie jej významu potrebujete informáciu nachádzajúcu sa mimo nej (teda aká činnosť sa danej osobe nechce robiť).

DeepFace.png

Rozpoznávanie tváre pomocou neurálnej siete DeepFace, ktorú používa Facebook

Veľký záujem na vyvinutie výkonných textových systémov deep-learning má Facebook, ktorý spracúva príspevky od viac ako 800 miliónov aktívnych používateľov denne. Podrobné významové pochopenie textu by totiž umožnilo zostavovať stenu s novými príspevkami tak, že dôležitejšie informácie by boli uprednostňované pred tými triviálnymi. Súčasné klasické systémy strojového učenia totiž majú ďaleko k dokonalosti. Facebook udáva, že na priemerného používateľa potenciálne smeruje 1500 príspevkov denne a z dôvodu zachovania použiteľnosti ich treba zredukovať na 30 až 60.

Používa pritom rôzne metódy, pričom jedna z nich je hodnotenie testom. Príspevok sa rozošle len úzkej skupine používateľov, a ak naň reagujú pozitívne (kliknutie na Páči sa mi to), rozošle sa väčšej skupine. Takýto prístup je pomerne problematický pri dôležitých, ale negatívnych správach. Pokročilé systémy deep-learning tak môžu byť významným krokom vpred. Pre Facebook majú, samozrejme, význam aj z tej obrazovej stránky. Spoločnosť sa v máji 2014 pochválila novým veľmi účinným systémom na rozpoznávanie tvárí, nazvaným DeepFace. Dosahuje úspešnosť 97 %, čím sa veľmi blíži k ľudským schopnostiam (úspešnosť 97,5 %).

V lete vypísala americká tajná služba konkurz na dodávateľa systému deep-learning, ktorý by bol schopný rozpoznať sarkazmus a iné textové špecifiká v príspevkoch na sociálnych sieťach. V bežných amerických médiách vzbudila požiadavka pomerne veľký záujem, pričom mnohí novinári jednak nechápali, prečo by sa o niečo také mali tajné služby zaujímať, a takisto vyjadrili skepticizmus nad tým, či na to dozrela doba a či požiadavka nie je zo sfér sci-fi.

Experti z odboru systémov deep-learning však zastávajú iný názor a pokrok dosiahnutý v priebehu posledných dvoch rokov ukazuje, že to vôbec nemusí byť nesplniteľná požiadavka. Richard Socher, výskumník zo Stanfordovej univerzity pracujúci na systémoch umelej inteligencie na spracúvanie jazyka, považuje riešenie tohto problému za zvládnuteľné s vhodnými modelmi neurálnych sietí a tréningových dát. Veľké úspechy by totiž systém dosiahol už tým, že by rozpoznával veci a situácie, ktoré sa obyčajne chápu veľmi negatívne. Keby takýto prvok mal vo vete z ničoho nič pozitívny nádych, existuje veľká pravdepodobnosť, že ide o sarkazmus.

Ako príklad uviedol vety „milujem ranné vstávanie“ a „áno, samozrejme, že si užívam celodennú prácu na domácej úlohe“. Mnohé typy sarkazmu však bude nemožné detegovať, pretože celkom závisia od znalosti konkrétnej osoby. To však neplatí len pre systémy deep-learning, ale aj pre ľudí. Pri vete „milujem cestovanie v MHD cez víkend“ nemôžete zbadať sarkazmus bez toho, aby ste osobu poznali. Daný človek si môže užívať napríklad prázdnejšie spoje a vyjadruje sa pozitívne alebo, naopak, nenávidí dlhšie intervaly liniek a myslí to negatívne. V hovorenej reči veľa prezradí tón hlasu a aj mimika tváre. V texte však takáto informácia chýba.

Pre systémy deep-learning je dosiahnuteľné aj rozpoznanie metafor. Ako príklad poslúžia otázky: „Ako sa cítiš?“ a „Čo si hovoril, kam mám dať tú starú deku?“, pričom v oboch prípadoch je odpoveď: „Pod psa.“ Ak je tréningová vzorka dostatočne veľká, pre systém deep-learning nemusí byť vôbec zložité takúto spojitosť odhaliť. Metaforický význam výrazu „pod psa“ totiž zvyčajne nasleduje len v úzkom okruhu situácií hovoriacich o pocitoch alebo počasí.

Pre tajné a bezpečnostné služby je detekcia sarkazmu, metafor, humoru a všeobecnej nevážnosti žiadaná z dôvodu automatického zhodnotenia hrozieb. Príspevok „Ak neprídeš včas na ten míting, tak ťa zabijem,“ nehovorí v žiadnom prípade o chystanej vražde. No nie je to tak vždy a psychicky narušený jedinec sa môže skutočne vyhrážať a ohlasovať svoje plány pomocou sociálnych sietí (dobre známe streľby v školách v USA). Systémy deep-learning, ktoré by príspevky posudzovali, by pritom ani zďaleka nemuseli byť bezchybné. Takú rozlišovaciu schopnosť nemá ani človek.

Postačilo by, keby dokázali vyradiť tie úplne očividné prípady a zredukovať tým dáta, ktoré musia byť hlbšie preskúmané. Pokročilý systém deep-learning by mohol odhaliť eskalovanie zúfalosti v sérii príspevkov a upozorniť napríklad na to, že nejaká osoba má vysokú pravdepodobnosť spáchania samovraždy. Chápanie významov textu umelou inteligenciou má skratka veľké množstvo použití. Microsoft napríklad v októbri odkúpil za 200 miliónov dolárov novovzniknutú izraelskú spoločnosť Equivio, ktorej systém deep-learning sa zameriava na analýzu právnických dokumentov.

Plynulé rozpoznávanie reči a preklad

Hlasové ovládanie počítačov nie je žiadna novinka a experimentovanie s takouto metódou vstupu sme po prvýkrát zažili už pred desaťročiami. Cieľom však nie je len rozpoznávanie príkazov, ale aj analýza a pochopenie viet vrátane schopnosti konštruovať relevantné odpovede. Vďaka pokroku, ktorý sa v tomto smere udial v posledných rokoch, bolo možné nasadiť aj komerčne úspešné hlasové asistentky známe zo smartfónov. Tie dokážu vykonávať záznamy na požiadanie a s pomocou internetového vyhľadávača odpovedať aj na jednoduché otázky typu najvyššieho vrchu na svete, športových výsledkov či počasia. I keď pokrok v tomto odvetví je za posledné roky značný, v mnohých prípadoch to skrátka ešte nie je ono a hlasoví asistenti sú často terčom vtipov napríklad vo filmoch či situačných komédiách.

Rozpoznávať hovorenú reč, extrahovať z nej význam a adekvátne reagovať je vskutku komplexná záležitosť. Umelá inteligencia, s ktorou by sme sa mohli rozprávať tak ako s človekom, je ešte veľmi vzdialená. To však nie je jediná méta, ktorú sa snažia vývojári dosiahnuť. Moderné systémy deep-learning pre hovorené slovo tlačia dnes na pílu predovšetkým v rámci priameho prekladu z jedného jazyka do druhého. Bezchybné automatické prekladacie systémy sú mimoriadne žiadaný prvok. Stačí sa len pozrieť na nedokonalé, ale stále zlepšujúce sa on-line prekladače od Microsoftu a Googlu, ktoré používajú milióny ľudí denne.

Google-priklady.png

Najnovšie hlboké neurónové siete sa pri opise situácie na obrázku už takmer vyrovnávajú človeku. Tieto príklady ukazujú, ako to vyzerá, keď je neurálna sieť bezchybná, a ako sa prejavuje, keď je menej úspešná, respektíve celkom neúspešná

V roku 2012 sa Microsoft prezentoval veľkým pokrokom v týchto systémoch na konferencii v Číne, na ktorej svoj nový systém deep-learning používal na rozpoznanie reči prednášajúceho človeka. Systém deep-learning doplnený o ďalšie technológie rozpoznával hovorené slovo, prepisoval ho na text viditeľný na projektore, prekladal ho do mandarínskej čínštiny vrátane správneho slovosledu a následne ho len s niekoľkosekundovým oneskorením čítal syntetizátorom hlasu, ktorý bol moduláciou upravený na podobný hlasu prednášajúceho. Systém nebol dokonalý, ale vďaka novej neurálnej sieti dosiahol  zlepšenie o 30 % oproti klasickým metódam. V reči reálnych čísel to znamenalo chybu v priemere v každom siedmom až ôsmom slove, zatiaľ čo štandardom dovtedy bola chyba v každom štvrtom či piatom.

O ďalší krok bližšie k cieľu sa Microsoft posunul v roku 2014, keď predstavil demo prekladača Skype. Pri demonštrácii na konferencii At Code riaditeľ Microsoftu Satya Nadella uskutočnil videohovor prostredníctvom Skypu, pričom sa mechanizmus používal na prekladanie rozhovoru s jeho nemeckou kolegyňou v reálnom čase. Systém tentoraz síce nedisponoval moduláciou hlasu do podoby pôvodného hovoriaceho, ale vždy vyčkával až do konca súvetia a až následne vety upravil a prečítal. Stačilo teda kedykoľvek dokončiť vetu a počkať na preklad, ktorý nikomu neskákal do reči. Systém nebol dokonalý, ale ukázal už svoju značnú použiteľnosť (video na virtuálnom DVD REVUE). Microsoft následne uverejnil formulár, pomocou ktorého sa môžu dobrovoľníci prihlásiť do verejného testovania. V prípade záujmu ho nájdete na webovej stránke Skypu, pričom Microsoft zvukové dáta použije na ďalšie zlepšovanie svojej neurálnej siete. Zatiaľ však nebol zverejnený dátum, kedy sa táto funkcia objaví v programe Skype v základe.

Problematiku hlbokých neurálnych sietí, respektíve systémov deep-learning dobre zhrnul Satya Nadella pri príležitosti testovania systému v rámci Skypu. „Ak začnete neurálnu sieť učiť angličtinu, naučí sa angličtinu. Ak ju následne začnete učiť čínštinu, naučí sa čínštinu, ale zároveň sa zlepší v angličtine. Ak ju potom naučíte španielčinu, začne prekladať dobre po španielsky, ale popri tom sa z ničoho nič stane výborným v prekladaní čínštiny a angličtiny. Pravdupovediac, nikto z nás presne nevie prečo.“

Vo februárovom vydaní PC REVUE sa v pokračovaní tohto článku podrobne pozrieme na systémy umelej inteligencie ovládajúcej mechanické prvky a zameriame sa predovšetkým na aktuálny stav automobilov bez vodiča. Ako je na tom Google so svojím autom dnes a o aký čas ho budeme bežne stretávať na cestách? O tom viac nabudúce.


Nechajte si posielať prehľad najdôležitejších správ emailom

Žiadne komentáre

Vyhľadávanie

Kyocera - prve-zariadenia-formatu-a4-s-vykonom-a3

Najnovšie videá