蒙特卡洛树搜索

✍ dations ◷ 2024-12-23 04:39:29 #组合博弈论,蒙地卡罗方法,人工智能,搜寻算法

蒙特卡洛树搜索(英语:Monte Carlo tree search;简称:MCTS)是一种用于某些决策过程的启发式搜索算法,最引人注目的是在游戏中的使用。一个主要例子是电脑围棋程序,它也用于其他棋盘游戏、即时电子游戏以及不确定性游戏。

基于随机抽样的蒙特卡洛方法可以追溯到20世纪40年代。布鲁斯·艾布拉姆森(Bruce Abramson)在他1987年的博士论文中探索了这一想法,称它“展示出了准确、精密、易估、有效可计算以及域独立的特性“。他深入试验了井字棋,然后试验了黑白棋和国际象棋的机器生成的评估函数。1992年,B·布鲁格曼(B. Brügmann)首次将其应用于对弈程序,但他的想法未获得重视。2006年堪称围棋领域蒙特卡洛革命的一年,雷米·库洛姆(Remi Coulom)描述了蒙特卡洛方法在游戏树搜索的应用并命名为蒙特卡洛树搜索。列文特·科奇什(Levente Kocsis)和乔鲍·塞派什瓦里(Csaba Szepesvári)开发了UCT算法,西尔万·热利(Sylvain Gelly)等人在他们的程序MoGo中实现了UCT。2008年,MoGo在九路围棋中达到段位水平,Fuego程序开始在九路围棋中战胜实力强劲的业余棋手。2012年1月,Zen程序在19路围棋上以3:1击败二段棋手约翰·特朗普(John Tromp)。

蒙特卡洛树搜索也被用于其他棋盘游戏程序,如六贯棋、三宝棋、亚马逊棋和印度斗兽棋;即时电子游戏,如《吃豆小姐(英语:Ms. Pac-Man)》、《神鬼寓言:传奇(英语:Fable Legends)》、《罗马II:全面战争》;不确定性游戏,如斯卡特、扑克、万智牌、卡坦岛。

蒙特卡洛树搜索的每个循环包括四个步骤:

每一个节点的内容代表

选择子结点的主要困难是:在较高平均胜率的移动后,在对深层次变型的利用和对少数模拟移动的探索,这二者中保持某种平衡。第一个在游戏中平衡利用与探索的公式被称为UCT(Upper Confidence Bounds to Trees,上限置信区间算法 ),由匈牙利国家科学院计算机与自动化研究所高级研究员列文特·科奇什与阿尔伯塔大学全职教授乔鲍·塞派什瓦里提出。UCT基于奥尔(Auer)、西萨-比安奇(Cesa-Bianchi)和费舍尔(Fischer)提出的UCB1公式,并首次由马库斯等人应用于多级决策模型(具体为马尔可夫决策过程)。科奇什和塞派什瓦里建议选择游戏树中的每个结点移动,从而使表达式 w i n i + c ln t n i {\displaystyle {\frac {w_{i}}{n_{i}}}+c{\sqrt {\frac {\ln t}{n_{i}}}}} 具有最大值。在该式中:

大多数当代蒙特卡洛树搜索的实现都是基于UCT的一些变形。

相关

  • 乔治·纳波利塔诺乔治·纳波利塔诺(意大利语:Giorgio Napolitano,1925年6月29日-),出生于意大利那不勒斯,意大利政治人物,现任终身参议员,前总统。2005年,纳波利塔诺成为终身参议员。2006年5月,他当选为
  • 意大利银行意大利银行(意大利语:Banca d'Italia),位于罗马,为意大利的中央银行,为欧洲央行系统的成员。现任行长Ignazio Visco,2011年11月1日上任。
  • 延迟股DNA复制是指DNA双链在细胞分裂分裂间期进行的以一个亲代DNA分子为模板合成子代DNA链的过程。复制的结果是一条双链变成两条一样的双链(如果复制过程正常的话),每条双链都与原来
  • 葡萄糖醇山梨糖醇(Sorbitol),是一种己六醇,是一种能缓慢代谢的糖醇。山梨糖醇分子式C6H14 O6,与单糖的结构相似,可通过还原葡萄糖上的醛基为羟基来获得。山梨醇最早是从花楸树(学名Sorbus p
  • 张 龙张龙可以指:
  • 蛋糕天王蛋糕天王(英语:Cake Boss),美国电视真人实境秀节目,在有线电视旅游生活频道(TLC)中播出。节目主要在位于美国新泽西州霍博肯的一间百年糕饼烘培坊-卡洛斯烘培坊拍摄,节目主要的内容在
  • 兔子罗杰 (电子游戏)《兔子罗杰》(日语:ロジャー·ラビット,英语:Roger Rabbit),是日本Kotobuki System(日语:コトブキシステム)所开发的动作方块(日语:アクションパズル)类型电玩游戏,于1989年2月16日在日本
  • 昭拍耶河昭拍耶河(泰语:แม่น้ำเจ้าพระยา,音素:Mæ̀n̂ả cêāphrayā,皇家转写:Maenam Chao Phraya)是泰国最主要的河流,在中文界曾被误称为“湄南河”。无论在水量抑或长
  • 伊特鲁里亚王国伊特鲁里亚王国 (意大利语:Regno di Etruria)是1801年至1807年在现意大利共和国托斯卡纳大区大部分地区建立的一个王国。其国名取自古罗马时期伊特鲁里亚文明存在时该地区的
  • 葛拉兹亚迪奥商学院葛拉兹亚迪奥商学院(英语:Graziadio Business School),是佩珀代因大学的研究生商科项目。拥有超过14万4千位校友,是南加州最大的商学院之一,也被国际商管学院促进协会(AACSB)认可。