AlphaZero是DeepMind所开发的人工智能软件。
AlphaZero使用与AlphaGo Zero类似但更一般性的算法,在不做太多改变的前提下,并将算法从围棋延伸到将棋与国际象棋上。AlphaZero与AlphaGo Zero不同之处在于:
AlphaZero基于蒙特卡洛树搜索,每秒只能搜索8万步(国际象棋)与4万步(将棋),相较于Stockfish每秒可以7000万步,以及elmo(日语:elmo (コンピュータ将棋ソフト))每秒可以3500万步,AlphaZero则是利用了人工神經网络提升了搜索的质量。
AlphaZero使用了5,000颗第一代的TPU进行训练。
在4小时的训练后(约自我训练4400万局:Table S3),AlphaZero以28胜72和0败的成绩打败Stockfish:Table 1。
在12小时的训练后(约自我训练2400万局:Table S3),AlphaZero以90胜2和8败的成绩打败elmo(日语:elmo (コンピュータ将棋ソフト)):Table 1。
在34小时的训练后(约自我训练2100万局:Table S3),AlphaZero以60胜40败的成绩打败AlphaGo Zero:Table 1。