AlphaGo Zeroでこの学習を行なった結果、最初はランダムな振る舞いをしていたが人が手を加えることなく3日で学習が完了した。490万回の試合を自己学習し、1回のモンテカルロ木探索では1600回のシミューションを行った。1手を考えるのに0.4秒かかった。学習はスムーズに進み、36時間で過去のAlphaGoの性能を超えた。これは驚くべきことで、過去のAlphaGoは学習に数ヶ月以上かかっている。またAlphaGo Zeroは4つのテンソルプロセッシングユニット(TPU)しか使っておらず、過去のAlphaGoは48個のTPUを使っていたことを考えるととても省力化されている。100試合させたところ、AlphaGo Zeroは過去のAlphaGoに100-0で完勝した

更新情報知らせます はい 不要