Image
30.1.2019 1 Comments

Umelá inteligencia AlphaStar dokáže poraziť špičkového profesionálneho hráča v strategickej hre StarCraft II

Hry sa už desaťročia používajú ako dôležitý spôsob testovania a hodnotenia výkonnosti systémov umelej inteligencie (artificial intelligence – AI). Keďže schopnosti AI sa neustále zvyšujú, výskumníci hľadajú čoraz zložitejšie hry, ktoré vyskúšajú rôzne prvky AI, ktoré sú potrebné na riešenie vedeckých a reálnych problémov. V poslednom čase sa StarCraft považuje za jednu z najnáročnejších hier RTS (Real-Time Strategy) a jeden z najdlhšie hrávaných e-športov všetkých čias. Preto sa táto hra stala najväčšou výzvou pre výskum AI.

Teraz je tu program StarCraft II AlphaStar, prvá umelá inteligencia, ktorá porazí špičkového profesionálneho hráča. V sérii testovacích zápasov, ktoré sa konali 19. decembra, AlphaStar porazil Grzegorza "MaNa" Kominca, jedného z najúspešnejších profesionálnych hráčov StarCraftu, v pomere 5:0.

Hoci vo videohrách ako Atari, Mario, Quake III Arena Capture the Flag a Dota 2 systémy AI zaznamenali významné úspechy, doteraz sa márne snažili vyrovnať so zložitosťou StarCraftu. Žiadny z nich sa ani nepriblížil k súperovi v podobe profesionálnych hráčov. AlphaStar však hrá StarCraft II pomocou hlbokej neurónovej siete, ktorá je vyškolená priamo zo surových herných údajov prostredníctvom metód supervised learning a reinforcement learning.

StarCraft II, vytvorený spoločnosťou Blizzard Entertainment, je zasadený do fiktívneho sci-fi vesmíru a ponúka bohatú, viacvrstvovú hru, ktorá je určená ako výzva pre ľudský intelekt. Existuje niekoľko rôznych spôsobov, ako hrať hru, ale na e-športových turnajoch sa najčastejšie hrá 5 hier systémom 1v1 (jeden proti jednému). Na začiatok si hráč musí zvoliť jednu z troch „rás“ (Zerg, Protoss alebo Terran), za ktorú bude hrať. Každý hráč začína s množstvom pracovných jednotiek, ktoré zbierajú základné zdroje na vybudovanie ďalších jednotiek a štruktúr a vytváranie nových technológií. Tie zase umožňujú hráčovi získať ďalšie zdroje, vybudovať sofistikovanejšie základne a štruktúry a vyvinúť nové schopnosti, ktoré sa dajú použiť na prekonanie súpera.

Ak chce hráč vyhrať, musí starostlivo vyvážiť správu ekonomiky (makro) a kontrolu jednotiek (mikro). Vyvážiť treba aj krátkodobé a dlhodobé ciele a prispôsobiť sa neočakávaným situáciám, čo je problém pre systémy AI. V StarCrafte totiž podobne ako v hre kameň-papier-nožnice neexistuje žiadna najlepšia stratégia. Počas výcviku AI musí neustále skúmať a rozširovať hranice strategických poznatkov. Na rozdiel od hier, ako sú šach alebo go, kde hráči vidia všetko, pre hráča StarCraftu sú dôležité informácie skryté a musí ich aktívne objavovať „preskúmavaním“ (scouting).

Navyše rovnako ako v reálnom svete príčina a následok nie sú okamžité. Môžu sa prejaviť hoci o hodinu, čo znamená, že akcie, ktoré boli vykonané na začiatku hry, sa nemusia dlhodobo vyplácať. Pritom herný priestor je veľký. V reálnom čase treba naraz riadiť stovky rozličných jednotiek a budov. Okrem toho sú akcie hierarchické a môžu sa upravovať a rozširovať. Práve pre tieto charakteristiky sa hra stala veľkou výzvou pre výskum AI.

Laboratórium DeepMind už v rokoch 2016 a 2017 spolupracovalo s Blizzardom na vydaní súboru open source nástrojov známych pod názvom PySC2 vrátane najväčšieho súboru anonymizovaných hier. Teraz bola na tejto práci postavená kombinácia pokročilých techník a algoritmov na vybudovanie programu AlphaStar.

Vizualizácia agenta AlphaStar počas hry dvoch zápasov proti MaNa. Toto zobrazuje hru z pohľadu agentov: surový vstup pozorovania do neurónovej siete, vnútorné aktivácie neurónovej siete, niektoré z posúdených úkonov, ktoré môže agent robiť, ako napríklad miesto, kde sa má kliknúť a čo sa má stavať a predpokladaný výsledok. Pozerá sa tiež na hru MaNa, hoci agent nie je prístupný.

Správanie AlphaStar generuje hlboká neurónová sieť, ktorá prijíma vstupné surové dáta z rozhrania hry, pričom výstupom je séria inštrukcií, ktoré predstavujú akcie v rámci hry. Sieť bola trénovaná metódou supervised learning pomocou anonymizovaných hier ľudských hráčov, ktoré vydal Blizzard. Tak sa naučila imitovať základné mikro- a makrostratégie, ktoré používajú hráči. Táto prvotná verzia agenta dokázala vyhrať v 95 % hier.

Tieto metódy sa potom použili v procese reinforcement learningu viacerých agentov. Výskumníci následne vytvorili ligu, v ktorej hralo viacero agentov – súťažiacich – proti sebe navzájom hry podobne, ako hrajú StarCraft ľudia. Do ligy sa potom dynamicky pridávali noví konkurenti a každý agent sa učil z hier proti iným súťažiacim. Postupne sa v lige objavujú noví konkurenti, ktorí dokážu poraziť predchádzajúce stratégie. Niektoré nové stratégie sú len zdokonalením tých predchádzajúcich, iné sú výrazne odlišné, pozostávajú z úplne nových spôsobov budovania a plánov mikroriadenia.

Na podporu rozmanitosti ligy má každý agent určený vlastný vzdelávací cieľ. Jeden agent môže mať za cieľ poraziť jedného konkrétneho súťažiaceho, iný má zasa poraziť množstvo konkurentov, ale urobiť to tak, že vybuduje viac konkrétnych herných jednotiek. Tieto vzdelávacie ciele sa počas tréningu prispôsobujú.

Na výcvik AlphaStar boli použité TPU v3 od Googlu, ktoré podporujú populáciu agentov učiacich sa z mnohých tisícok paralelných inštancií StarCraft II. AlphaStar bol v prevádzke 14 dní a pre každého agenta bolo použitých 16 TPU. Počas tréningu každý agent okúsil až 200 rokov hry StarCraft v reálnom čase.

Zatiaľ čo profesionálni hráči StarCraftu, ako je MaNa, zvládnu v priemere stovky akcií za minútu (APM), väčšina existujúcich robotov môže vykonať tisícky alebo dokonca desiatky tisíc APM. V hre, kde bol súperom MaNa, mal AlphaStar priemernú hodnotu APM 280, čo je menej, ako zvládnu špičkoví profesionálni hráči. Čiastočne to možno pripísať tomu, že AlphaStar začal svoj výcvik opakovaním zápasov ľudských hráčov, a tak napodobňoval spôsob, ako hrajú ľudia. Okrem toho AlphaStar reaguje s oneskorením medzi pozorovaním a činnosťou na úrovni 350 ms v priemere.

V zápasoch, kde bol súperom MaNa, AlphaStar interagoval s herným enginom StarCraft priamo cez svoje rozhranie. Mohol teda pozorovať atribúty vlastných aj súperových jednotiek viditeľných na mape priamo bez toho, aby musel pohybovať kamerou. Naproti tomu ľudskí hráči sa musia rozhodovať, kam sa má kamera zamerať. Analýza hier AlphaStar však naznačuje, že agent „prepínal kontext“ asi 30-krát za minútu, teda podobne ako MaNa.

Výsledky naznačujú, že úspech AlphaStar proti ľudským hráčom bol v skutočnosti spôsobený skôr vynikajúcim makro- a mikrostrategickým rozhodovaním než rýchlejším klikaním a kratším reakčným časom.

AlphaStar by však mohol byť užitočný aj pri riešení ďalších problémov. Napríklad architektúra neurónovej siete dokáže modelovať veľmi dlhé sekvencie pravdepodobných akcií na základe nedokonalých informácií. Použiť by sa tak dala napríklad pri predpovediach počasia, modelovaní klímy, pochopení jazyka a pod.

Zdroj: deepmind.com

Zobrazit Galériu
Autor: redakcia

Nechajte si posielať prehľad najdôležitejších správ emailom

Mohlo by Vás zaujímať

Inovácie

Microsoft vám odteraz už automaticky nainštaluje najnovšiu aktualizáciu Windows 10

19.07.2019 00:10

Microsoft v týchto dňoch spustil automatizované aktualizácie Windows 10 pre tých používateľov, ktorí z rôznych dôvodov neaktualizovali svoj systém a používajú verziu, ktorej podpora sa blíži ku koncu. ...

Inovácie

Xiaomi Mi A3 má AMOLED displej, Snapdragon 665 a cenovku 250 eur

19.07.2019 00:00

Čínsky výrobca smartfónov Xiaomi predstavil svoj nový model Mi A3, čo je vlastne prerobený model Mi CC9e, ibaže s čistým Androidom One. Má 6,1-palcový displej AMOLED s rozlíšením 720 × 1560 px, čo zna ...

Inovácie

Robotická ruka Eva nestojí veľa a naprogramovať ju môže ktokoľvek za 15 minút

18.07.2019 00:10

Odvetvie priemyselných robotov nie je v žiadnom prípade malé. Podľa údajov  Medzinárodnej federácie robotiky  (International Federation of Robotics) bolo v roku 2017 na celom svete dodaných 387 000 ro ...

q

1 Comments

  1. sposob vyhry reakcia na: Umelá inteligencia AlphaStar dokáže poraziť špičkového profesionálneho hráča v strategickej hre StarCraft II
    30.1.2019 14:01
    Ale malo bysa hodnotit aj akou strategiou to vie docielit.
    Ak je to iba na zaklade toho ze vie robit viac veci naraz alebo strasne rychlo reagovat tak to nieje o umelej inteligencii ale o tom ze luskeho hraca vie rozhasit hocijaky stroj ked sa obtiaznost nastavi troska agresivnejsie. Napr budes s sa jednotkami drzat vo vzdialenosti dostrelu tvojich jednotiek a zakazdym ked vystrelis tak sa zase stiahnes z dostrelu nepriatela alebo dokazes bojovat na dvoch frontoch naraz alebo stavat a pritom bojovat. Vsetko to co robi pocitac pocitacom a vie to dosiahnut tym ze nemusi pouzivat mys a mat focus (aktivne vidiet oblast kde operuje) na oblasti kde zrovna robi. Pekne to vidiet na hrach UI a trhavych pohyboch jednotiek a hit & run taktike ktoru clovek dost tazko dokaze napodobnit v takom rozsahu a s takou presnostou.
    Reagovať

Vyhľadávanie

Najnovšie videá