まず、AlphaStarはゲームのプレイ方法を模倣学習(イミテーションラーニング)、つまり「人間のゲームを観戦する」ことによって学んだ。教材は、スタークラフトの開発元であるブリザード・エンターテイメントが匿名にして提供した膨大な数のリプレイ動画だ。この際にDeepMindは一部のトッププレイヤーの対戦だけでなく、上位約40パーセントのリプレイ動画をすべて見せている。その数、約50万だ。
観戦のあとは実践だ。DeepMindはAIエージェント同士を戦わせることによって、AIを強化した。このときエージェントたちには「このユニットを使って勝つこと」「この敵に特化して戦うこと」といった異なる学習目標が与えられた。
エージェントは互いに戦うことによって新しい戦法に出合い、やがてそれに対抗する戦術が生まれる。複数のエージェントを並行して学ばせるこの手法を約1週間続けた。その結果、いちばん「経験豊富」なエージェントは合計200年分の試合をプレイしたという。