Mycroft / Inteligentný open source hlasový asistent

0

Azda najatraktívnejšiu a zároveň najdostupnejšiu formu implementácie umelej inteligencie pre bežných používateľov predstavujú inteligentní digitálni asistenti.

Amazon Alexa, Google Assistant, Apple Siri či Microsoft Cortana prevádzkujú veľké globálne firmy. Vizuálnou technickou reprezentáciou týchto asistentov sú najčastejšie reproduktory umožňujúce prijímať hlasové povely. Niektoré z asistentiek majú aj virtuálnu podobu, typický príklad je Cortana, vizualizáciou Siri sú zvukové vlny vnútri priesvitnej gule. Ako určitá protiváha komerčných hlasových asistentov sú k dispozícii aj open source riešenia. Prvý projekt dotiahnutý do použiteľného štádia je Mycroft.

Mycroft bol starší brat populárnej literárnej postavy, detektíva Sherlocka Holmesa, ktorý pri riešení prípadov spolupracoval s doktorom Watsonom a v obzvlášť ťažkých prípadoch sa s ním radil. Hoci Mycroft svojou inteligenciou aj schopnosťou dedukcie prevyšoval svojho známejšieho brata Sherlocka, nebol schopný živiť sa ako detektív, pretože nerád pracoval v teréne. Sherlock sa na Mycrofta veľakrát obrátil s nejakým problémom a dostal vysvetlenie, ktoré sa neskôr ukázalo správne. Mycroft Holmes pracoval pre britskú vládu, oficiálne ako účtovný audítor a neoficiálne ako akýsi ľudský počítač, na ktorý sa možno obrátiť aj s tými najťažšími otázkami.

Mycroft je multiplatformové riešenie, ktoré môže fungovať buď na reproduktore Mark 1, alebo na Linuxe, Androide, dokonca aj na mikropočítačovej prototypovej doske Raspberry Pi. Verzie pre Windows a Mac OS sú zatiaľ v štádiu vývoja. Open source v praxi znamená, že ktokoľvek z komunity vývojárov ho môže zlepšiť, prípadne doplniť o nové funkcie. Môže byť použitý v akejkoľvek oblasti – od vedeckého projektu až po podnikový softvér. Možno najdôležitejšia vlastnosť je transparentnosť. V úvode spomenuté najpopulárnejšie komerčné implementácie hlasových asistentov v závislosti od konštrukčnej formy zachytávajú buď len otázky a povely, alebo monitorujú zvuk vo svojom okolí neustále. Implementácie inteligentných asistentov v smartfónoch, tabletoch či počítačoch zaznamenávajú a posielajú do cloudovej služby zvuky zachytené mikrofónom zariadenia iba vtedy, ak hlasového asistenta aktivujeme. Alebo si aspoň myslíme, že to takto funguje. Naproti tomu inteligentné reproduktory alebo implementácie hlasových asistentov v domácich spotrebičoch a iných zariadeniach musia monitorovať zvuk okolo seba neustále, aby dokázali identifikovať otázku alebo hlasový povel, ktorý je určený asistentovi. Prevádzkovatelia služieb hlasových asistentov tieto zvuky analyzujú, spracúvajú a ukladajú na prípadnú ďalšiu komunikáciu.

Naproti tomu používatelia platformy Mycroft sa môžu rozhodnúť, či chcú svoje údaje o interakciách s hlasovým asistentom zdieľať s vývojármi, ktorí ich môžu použiť na získanie ďalších podkladov na strojové učenie rozpoznávania reči, prípadne informácií o demografii a podobne, alebo chcú uchovávať svoje údaje ako súkromné. Na rozpoznávanie reči sa využíva open source model DeepSpeech. Možno namietnete, že Google dal k dispozícii vývojárom aplikácií využívajúcich AI a strojové učenie svoju platformu TensorFlow, rozdiel je v tom, že nemohli poskytnúť údaje, na ktorých sa inteligentné systémy ­Googlu učili.

Primárnou fyzickou reprezentáciou hlasového asistenta Mycroft je inteligentný reproduktor Mycroft Mark II. Má štvorjadrový procesor, 6 mikrofónov s technológiou na hardvérové akustické potlačenie ozveny (AEC) a technológiou na tvarovanie lúča a redukciu šumu. Pokiaľ chcú používatelia pracovať priamo s Mycroftom, môžu si stiahnuť Mycroft pre počítač s operačným systémom Linux, smartfón, alebo tablet platformy Android, prípadne implementáciu pre populárnu vývojovú mikrokontrolérovú dosku Raspberry Pi 3. De facto implementácia pre Raspberry Pi je popri reproduktore Mark I, ktorý sa dá kúpiť v e-shopoch, najdostupnejší variant. Navyše srdcom tohto reproduktora je takisto doska Raspberry Pi. Verzie pre Windows a Mac OS sú zatiaľ v štádiu vývoja a pre Android ešte nie je k dispozícii „oficiálna“ aplikácia v Google Play, môžete si stiahnuť len zdrojovky, z ktorých vo vývojovom prostredí Android Studio vytvoríte vlastnú aplikáciu.

Implementácia pre obľúbenú hobby platformu Raspberry Pi sa nazýva Picroft. Môžete ju nainštalovať na dosku Raspberry Pi 3 B+ alebo na starší model Raspbery Pi 3. Na predchádzajúcich doskách Raspberry Pi 2 bude Mycroft fungovať neakceptovateľne pomaly, takže to radšej ani neskúšajte.

Pokyny na inštaláciu aj odkaz na stiahnutie obrazu disku so systémom Picroft nájdete na https://mycroft.ai/documentation/picroft/. K doske Raspberry budete počas inštalácie potrebovať pripojiť klávesnicu, myš a takisto monitor cez rozhranie HDMI. Na fungovanie Picroftu budete potrebovať mikrofón a reproduktor. Reproduktor môžete pripojiť cez 3,5 mm konektor jack alebo cez jeden zo štyroch portov USB. Odporúčaný typ reproduktora je napríklad Logitech Z50. My sme použili reproduktor Sony, ktorý bol poruke, a k Raspberry Pi sme ho pripojili cez káblik s 3,5 mm konektormi. Mikrofón sa dá pripojiť len cez USB. Na pokusy vám stačí akýkoľvek model pripojiteľný cez USB, ideálny je, samozrejme, mikrofón s priestorovou smerovou charakteristikou, napríklad Blue Snowball, a reproduktor, ktorý pripojíte cez 3,5 mm konektor jack. Prípadne môžete použiť zariadenie obsahujúce mikrofón aj reproduktor v jednom, napríklad Jabra Speak 410, primárne určený na konferenčné hovory. Zaujímavá alternatíva je Google AIY Voice HAT – modul, ktorý sa nasunie na konektor zbernice dosky Raspberry Pi a súčasťami balenia modulu, ktorý je primárne určený na postavenie hobby konštrukcie inteligentného reproduktora pre hlasového asistenta Google, sú aj reproduktor a slúchadlá. V balení je aj kartónová skladačka skrinky.

Najskôr skopírujte obraz operačného systému s predinštalovanou aplikáciou Picroft na kartu SD. Na prekopírovanie obrazu OS na kartu odporúčame aplikáciu balenaEtcher. Súčasťou prvého spustenia operačného systému je konfigurácia, odporúčame z ponúkaných možností vybrať interaktívneho sprievodcu. V prvom kroku konfigurácie zadáte typ reproduktora a spôsob jeho pripojenia. Potom nakonfigurujete nastavenie hlasitosti a pokračujete konfiguráciou mikrofónu. Napriek tomu, že sme nemali žiadny z odporúčaných typov a tvorcovia konfiguračného skriptu nám pri voľbe Other skepticky popriali veľa šťastia, nebol s mikrofónom nijaký problém. Použili sme USB mikrofón Trust, ktorý používame na komentovanie videa, a fungoval bez problémov. Aby sme boli úplne presní, fungoval v režime, na ktorý bol konštruovaný, teda na hovorenie zblízka. Na otestovanie to stačilo, pri konštrukcii reálneho zariadenia, ktoré by prijímalo povely z celej miestnosti, by bol potrebný mikrofón s inou charakteristikou. Súčasťou konfigurácie je aj test tandemu mikrofón – reproduktor. Nahráte 10-sekundový zvukový záznam, ktorý sa následne prehrá z reproduktora. Po ukončení konfigurácie systému na doske Raspberry môžete povelom „Hey Mycroft“ aktivovať inteligentného hlasového asistenta. Po rozpoznaní inicializačného povelu sa ozve písknutie. Na ďalšie povely však bude Mycroft reagovať až po spárovaní implementácie na zariadení s cloudovou službou. Mycroft na Raspberry vám bude približne v dvojminútových intervaloch diktovať šesťmiestny alfanumerický kód na spárovanie. Aby sme boli úprimní, kvalita hlasovej syntézy nie je veľmi vysoká, a tak vám asi viac pomôže zobrazenie ladiacej konzoly, na ktorej sa priebežne zobrazujú vaše hlasové povely a odpovede asistenta Mycroft. Konzolu zobrazíte príkazom mycroft-cli-client zadaným z klávesnice. Po vytvorení účtu na portáli mycroft.ai zadáte kód na spárovanie, zvolíte si typ hlasu a inicializačnú frázu. Po spárovaní môžete zadávať hlasové povely do mikrofónu pripojenému k Raspberry Pi.  Pri porovnávaní s komerčnými asistentmi Amazon Alexa či Google Assistant Mycroft na Raspberry trochu zaostáva kvalitou hlasu a v niektorých prípadoch si vyloží zmysel otázky po svojom. Napríklad otázku, kto bol piatym prezidentom USA, ktorú Alexa zvládla bez problémov, si Mycroft vyložil tak, že sa pýtame na piaty článok ústavy. Väčšinu povelov a otázok však Mycroft pochopil správne a odpovedal na ne.

Aby sme mohli inteligentného hlasového asistenta kategorizovať, pripomenieme pojmy slabá a silná umelá inteligencia. Slabá AI môže plniť určité úlohy a riešiť isté problémy, ale nemôže iniciovať činnosť samostatne alebo viesť zmysluplnú konverzáciu so vzdelaným dospelým človekom. Naproti tomu silná AI je schopná komunikovať so vzdelanými dospelými ľuďmi spôsobom, ktorý je nerozoznateľný od komunikácie s inou ľudskou bytosťou. Cieľom komunity tvorcov asistenta Mycroft je premeniť ho na silnú AI. Ako zistíme, že sa im to podarilo? Na rozlíšenie slabej a silnej AI predsa máme známy Turingov test, v ktorom ľudia posudzujú počítač alebo inú formu umelej inteligencie na základe neformálnej konverzácie. Ak ľudia nedokážu určiť, či komunikujú s človekom, alebo s počítačovým programom, považuje sa takýto počítačový program za silnú umelú inteligenciu.

Podľa tejto definície je Mycroft v súčasnej podobe slabá AI. Môže interpretovať prirodzený jazyk, iniciovať vyhľadávanie a udržiavať kontext otázky, ale každý, kto s ním spolupracuje viac ako minútu alebo dve, bude vedieť, že je to počítač. Dlhodobá tvorcov Mycroftu je rozšíriť jeho schopnosti do tej miery, že interakcia s ním bude nerozoznateľná od interakcie s ľudskou bytosťou. Na dosiahnutie tohto štádia budú potrebné roky. Zatiaľ je zrejmé, že Mycroft ešte nedosiahol úroveň konkurenčných hlasových asistentov, ale funguje dobre a dá sa predpokladať, že ho komunita vývojárov bude priebežne zlepšovať.

 

» Ľuboslav Lacko

 

Zobrazit Galériu

Ľuboslav Lacko

Všetky autorove články
Mycroft Open source

Pridať komentár

Mohlo by vás zaujímať

Mohlo by vás zaujímať