Image
5.5.2016 0 Comments

Hadoop - overená súčasť riešení na big data

Pomaly už nebude nijaké prekvapenie, že podniky a organizácie čoraz jasnejšie začínajú vidieť príležitosti a možnosti vo využití väčšieho množstva dát pri svojich podnikových analýzach. Ich analytické tímy pridávajú Hadoop k aktuálnym technológiám na business intelligence a dátové sklady.

Business intelligence (BI) je tradičná a dobre zavedená analytická doména, ktorá pomáha vytvoriť retrospektívny pohľad na podnikové dáta zo známych systémov. Cieľom BI bolo a je v prvom rade hľadať súhrnné obchodné trendy z rôznych aspektov alebo dimenzií. Typicky sú to čas, produktové rady, výrobné jednotky a prevádzkové alebo geografické oblasti. BI sa primárne snaží nájsť odpoveď na otázku, čo sa stalo a aké trendy nastupujú v podnikaní. Tento pohľad je založený najmä na historických dátach. Známe prípady použitia BI sú analýzy predaja, obchodné analýzy a prognózy, reporty a kľúčové ukazovatele výkonnosti (KPI) a pod. Historicky má väčšina organizácií vytvorené svoje dátové sklady na štruktúrované relačné dáta. Nová úloha BI je získať hodnotu („ťažiť“) aj z neštruktúrovaných či čiastočne štruktúrovaných dát. Pritom nejde len o analýzu dát prichádzajúcich z webového prostredia, ale aj o analýzu veľkého množstva dát, ktoré prichádzajú napríklad zo snímačov zariadení v spracovateľskom či výrobnom priemysle, z RFID v maloobchode alebo zo snímačov stavu inžinierskych sietí. Práve Hadoop vhodne dopĺňa dátové sklady o manipuláciu s multištruktúrovanými dátovými typmi. Okrem toho Hadoop pomáha obohatiť architektúru dátových skladov o vytvorenie rozsiahleho dátového zásobníka, o aktívny archív s detailnými dátami a aj o vytvorenie analytického pracoviska, ktoré je zamerané na skúmanie dát. Týmto spojením tak v mnohých nasadeniach vzniká ucelená analytická platforma.

Ukazuje sa, že riešenie dátových analýz podniku s využitím či rozšírením o Hadoop dokáže spracovať veľké dátové sety efektívnejšie a hospodárnejšie. Práve pre nákladovú efektívnosť pridávajú či dokonca uprednostňujú podniky a organizácie pri svojich dátových analýzach využitie prostredia Hadoopu dokonca v spojení s cloud computingom a službami úložísk dát.

Analýza dát z veľkého portfólia interných podnikových aplikácií a externých zdrojov je výzva. Je to však nevyhnutný postup na nájdenie práve tých najcennejších pohľadov na dáta. Pri riešení tejto výzvy si mnoho podnikov pomáha tvorbou tzv. dátového jazera či zásobníka, nazývaného aj Data Lake. Data Lake je akási obdoba dátového skladu, ktorá je väčšinou vytvorená s použitím Hadoopu namiesto tradičných technológií dátových skladov. Pre väčšinu firiem je dátové jazero menej formálne ako dátový sklad. Často sa tu používajú ad hoc dopyty a objavujú sa nové poznatky zo štruktúrovaných a neštruktúrovaných dát. Tieto poznatky sa po ďalšej formalizácii následne presunú do tradičného dátového skladu.

Tradičné BI bolo najmä o vytváraní reportov a o vykresľovaní grafov spolu s historickými analýzami obchodnej alebo podnikovej výkonnosti. V snahe získať čo najviac zo svojich všetkých dát musia podniky využívať pokročilejšie analytické nástroje. Ako príklady možno spomenúť strojové učenie, vytváranie prediktívnych modelov, textové analýzy na analyzovanie neštruktúrovaných dát a analýzy zachyteného toku dát v reálnom čase. Prediktívne analýzy a vyhľadávanie informácií z veľkých objemov dát naberajú na popularite. Kým v predchádzajúcom období bola táto oblasť technologicky pokrytá najmä spracovaním v dávkovo orientovanom režim, v súčasnosti sa dôraz kladie na vykonávanie komplexného spracovania so strednou alebo len nízkou latenciou. V niektorých prípadoch ide dokonca o spracovanie takmer v reálnom čase. Spracovanie veľkých objemov dát sa pôvodne zaoberalo najmä identifikáciou, zberom a širokou správou dát. Dnes je to najmä o extrahovaní bohatších výsledkov zo získaných dát. Cieľom je pomôcť podnikom lepšie nastaviť služby pre svojich zákazníkov. Z profesijného hľadiska sa tak dátová analýza či dátová veda stáva interdisciplinárnym priestorom. Sčasti ide obchodnú stratégiu, sčasti o programovanie, sčasti o štatistiku a dokonca aj o obchodnú analýzu.

Hadoop, ktorý pozostáva z viac ako tridsať projektov, tvorí väčšinou základňu pre akékoľvek nové iniciatívy súvisiace s analýzou dát. Zrýchlenie spracovania napomohli jeho nedávne architektonické zmeny. Umožnili vytvoriť celú paletu aplikácií aj v inom programovacom modeli, ako je MapReduce. Principiálnou zmenou bolo zavedenie novej vrstvy správy zdrojov a plánovania úloh, ktorá sa označuje YARN. Otvorili sa tak dvere pre nové programovacie rámce a aplikácie, medzi ktorými výkonnostne vyniká Spark. Zlepšenia sa podpísali aj pod lepšiu správu a bezpečnosť súčasne bežiacich aplikácií. Rozšírili a zrýchlili sa aj ďalšie spôsoby analýz a triedenia dát. Efektívne sa dnes používajú na nájdenie vzorcov správania zákazníkov, vyhľadávanie podnikateľských rizík, analýzy porušovania počítačovej bezpečnosti, vyhľadávanie podvodov a odchytávanie porušenia predpisov, pravidiel a iných dátových anomálií.

Záujem BI profesionálov o Hadoop v poslednom období vzrastá z toho dôvodu, že potvrdzuje svoju užitočnosť pri rôznych typoch dátových analýz. Ponúka extrémnu škálovateľnosť a rýchlosť na vytvorenie a obohatenie existujúcich dátových analýz o nové možnosti.

Mikuláš Strelecký
Presales and Architecture Consultant, InterWay, a. s.


 

Zobrazit Galériu

Nechajte si posielať prehľad najdôležitejších správ emailom

Mohlo by Vás zaujímať

ITPro 1

Rozšírená realita pomôže školám

17.12.2016 00:05

Raz vidieť je lepšie ako stokrát počuť a v školstve to platí ešte mnohonásobne viac. Čo však v prípade, ak si študenti majú pozrieť, ako v reálnom čase pracuje jadrový reaktor? Alebo by chceli vidieť, ...

ITPro

Linux súkromne i pracovne v2.0 (15. časť): SIP (Session Initiation Protocol)

13.12.2016 11:58

Je priam neuveriteľné, aké množstvo užitočných informácií a faktov súvisiacich s IP telefóniou (VoIP) sa skrýva za takou jednoduchou skratkou, ako je SIP. Nejde pritom iba o protokol, ale o mnoho ďalš ...

ITPro

Výzvy a perspektívy mobilných sietí

13.12.2016 11:52

Dostupnosť kvalitného mobilného pripojenia vrátane dostatočnej kapacity na prenos dát považujeme v súčasnosti za samozrejmosť.  O niektorých špecifikách a  perspektívach služieb mobilných operátorov v ...

Žiadne komentáre

Vyhľadávanie

Kyocer TASK

Najnovšie videá