蒙特卡洛树搜索

✍ dations ◷ 2025-06-08 13:07:12 #组合博弈论,蒙地卡罗方法,人工智能,搜寻算法

蒙特卡洛树搜索(英语:Monte Carlo tree search;简称:MCTS)是一种用于某些决策过程的启发式搜索算法,最引人注目的是在游戏中的使用。一个主要例子是电脑围棋程序,它也用于其他棋盘游戏、即时电子游戏以及不确定性游戏。

基于随机抽样的蒙特卡洛方法可以追溯到20世纪40年代。布鲁斯·艾布拉姆森(Bruce Abramson)在他1987年的博士论文中探索了这一想法,称它“展示出了准确、精密、易估、有效可计算以及域独立的特性“。他深入试验了井字棋,然后试验了黑白棋和国际象棋的机器生成的评估函数。1992年,B·布鲁格曼(B. Brügmann)首次将其应用于对弈程序,但他的想法未获得重视。2006年堪称围棋领域蒙特卡洛革命的一年,雷米·库洛姆(Remi Coulom)描述了蒙特卡洛方法在游戏树搜索的应用并命名为蒙特卡洛树搜索。列文特·科奇什(Levente Kocsis)和乔鲍·塞派什瓦里(Csaba Szepesvári)开发了UCT算法,西尔万·热利(Sylvain Gelly)等人在他们的程序MoGo中实现了UCT。2008年,MoGo在九路围棋中达到段位水平,Fuego程序开始在九路围棋中战胜实力强劲的业余棋手。2012年1月,Zen程序在19路围棋上以3:1击败二段棋手约翰·特朗普(John Tromp)。

蒙特卡洛树搜索也被用于其他棋盘游戏程序,如六贯棋、三宝棋、亚马逊棋和印度斗兽棋;即时电子游戏,如《吃豆小姐(英语:Ms. Pac-Man)》、《神鬼寓言:传奇(英语:Fable Legends)》、《罗马II:全面战争》;不确定性游戏,如斯卡特、扑克、万智牌、卡坦岛。

蒙特卡洛树搜索的每个循环包括四个步骤:

每一个节点的内容代表

选择子结点的主要困难是:在较高平均胜率的移动后,在对深层次变型的利用和对少数模拟移动的探索,这二者中保持某种平衡。第一个在游戏中平衡利用与探索的公式被称为UCT(Upper Confidence Bounds to Trees,上限置信区间算法 ),由匈牙利国家科学院计算机与自动化研究所高级研究员列文特·科奇什与阿尔伯塔大学全职教授乔鲍·塞派什瓦里提出。UCT基于奥尔(Auer)、西萨-比安奇(Cesa-Bianchi)和费舍尔(Fischer)提出的UCB1公式,并首次由马库斯等人应用于多级决策模型(具体为马尔可夫决策过程)。科奇什和塞派什瓦里建议选择游戏树中的每个结点移动,从而使表达式 w i n i + c ln t n i {\displaystyle {\frac {w_{i}}{n_{i}}}+c{\sqrt {\frac {\ln t}{n_{i}}}}} 具有最大值。在该式中:

大多数当代蒙特卡洛树搜索的实现都是基于UCT的一些变形。

相关

  • 希舒美11–14 h (single dose) 68 h (multiple dosing)阿奇霉素(Azithromycin, /əˌzɪθroʊˈmaɪsᵻn/ )是一种属于大环内酯的抗生素,于1980年被发现,1981年推出。又翻译作阿红霉
  • 失败主义失败主义是一种思想,认定未来注定失败而放弃一切改变现状的行动。这个词源自第一次世界大战的法国。在日常用途中“失败主义”一词带有负面涵义,通常与叛国和悲观主义连结在一
  • 莫纽什科斯坦尼斯拉夫·莫纽什科*(波兰语:Stanisław Moniuszko,1819年5月5日-1872年6月4日),波兰作曲家、指挥家。1819年生于明斯克附近的乌贝尔庄园。1837年到柏林学习音乐,回国后在维尔
  • 鳐鱼见内文鳐总目(学名:Rajomorphii、Batoidea),又名
  • 单花小檗单花小檗(学名:Berberis candidula)是小檗科小檗属的植物,为中国的特有植物。分布于中国大陆的四川、湖北等地,生长于海拔1,200米至3,000米的地区,多生于山地路旁以及灌丛中,目前尚
  • 十三行广州十三行(英语:Thirteen Factories或Thirteen Hongs of Canton),又称广东十三行、十三洋行,是指清朝沿用明朝之习惯称呼广州对外贸易特区内的十三家牙行商人。后来,这地区称为“
  • 来福士广场深圳来福士广场是一座位于中国广东省深圳市南山区的商业设施,由凯德集团和恒裕集团投资开发。功能包括商务写字楼、SOHO公寓(由凯德集团旗下雅诗阁管理)及大型购物中心。2016年
  • 温菲尔德·汉考克美墨战争南北战争温菲尔德·斯科特·汉考克(英语:Winfield Scott Hancock,1824年2月14日-1886年2月9日),美国陆军职业军官,1880年美国总统大选的民主党总统候选人。他在陆军服役长
  • 上高县上高县位于中国江西省西北部,是宜春市下辖的一个县。东汉中平年间汝南上蔡百姓迁到此地,故析建成县置上蔡县。西晋太康元年(280年)改为望蔡县。隋开皇九年(589年)并入建城县。唐中
  • 3%车费回赠优惠每程3%车费回赠(英语:3% rebate for every fare-paying trip)为港铁公司因应可加可减机制随着2017年有所修订,此优惠将作为票价调整机制中固定的票价优惠项目,港铁需适时提供此优