蒙特卡洛树搜索

✍ dations ◷ 2024-10-19 13:32:55 #组合博弈论,蒙地卡罗方法,人工智能,搜寻算法

蒙特卡洛树搜索(英语:Monte Carlo tree search;简称:MCTS)是一种用于某些决策过程的启发式搜索算法,最引人注目的是在游戏中的使用。一个主要例子是电脑围棋程序,它也用于其他棋盘游戏、即时电子游戏以及不确定性游戏。

基于随机抽样的蒙特卡洛方法可以追溯到20世纪40年代。布鲁斯·艾布拉姆森(Bruce Abramson)在他1987年的博士论文中探索了这一想法,称它“展示出了准确、精密、易估、有效可计算以及域独立的特性“。他深入试验了井字棋,然后试验了黑白棋和国际象棋的机器生成的评估函数。1992年,B·布鲁格曼(B. Brügmann)首次将其应用于对弈程序,但他的想法未获得重视。2006年堪称围棋领域蒙特卡洛革命的一年,雷米·库洛姆(Remi Coulom)描述了蒙特卡洛方法在游戏树搜索的应用并命名为蒙特卡洛树搜索。列文特·科奇什(Levente Kocsis)和乔鲍·塞派什瓦里(Csaba Szepesvári)开发了UCT算法,西尔万·热利(Sylvain Gelly)等人在他们的程序MoGo中实现了UCT。2008年,MoGo在九路围棋中达到段位水平,Fuego程序开始在九路围棋中战胜实力强劲的业余棋手。2012年1月,Zen程序在19路围棋上以3:1击败二段棋手约翰·特朗普(John Tromp)。

蒙特卡洛树搜索也被用于其他棋盘游戏程序,如六贯棋、三宝棋、亚马逊棋和印度斗兽棋;即时电子游戏,如《吃豆小姐(英语:Ms. Pac-Man)》、《神鬼寓言:传奇(英语:Fable Legends)》、《罗马II:全面战争》;不确定性游戏,如斯卡特、扑克、万智牌、卡坦岛。

蒙特卡洛树搜索的每个循环包括四个步骤:

每一个节点的内容代表

选择子结点的主要困难是:在较高平均胜率的移动后,在对深层次变型的利用和对少数模拟移动的探索,这二者中保持某种平衡。第一个在游戏中平衡利用与探索的公式被称为UCT(Upper Confidence Bounds to Trees,上限置信区间算法 ),由匈牙利国家科学院计算机与自动化研究所高级研究员列文特·科奇什与阿尔伯塔大学全职教授乔鲍·塞派什瓦里提出。UCT基于奥尔(Auer)、西萨-比安奇(Cesa-Bianchi)和费舍尔(Fischer)提出的UCB1公式,并首次由马库斯等人应用于多级决策模型(具体为马尔可夫决策过程)。科奇什和塞派什瓦里建议选择游戏树中的每个结点移动,从而使表达式 w i n i + c ln t n i {\displaystyle {\frac {w_{i}}{n_{i}}}+c{\sqrt {\frac {\ln t}{n_{i}}}}} 具有最大值。在该式中:

大多数当代蒙特卡洛树搜索的实现都是基于UCT的一些变形。

相关

  • 西吉贝尔特二世西吉贝尔特二世(Sigebert II)是墨洛温王朝的法兰克国王。父亲是奥斯特拉西亚及勃艮第国王提乌德里克二世,他是提乌德里克二世四名庶子之中的长子。西吉贝尔特二世出生于601年。
  • 金海国际机场金海国际机场(朝鲜语:김해국제공항/金海國際空港 Gimhae Gukje Gonghang */?,IATA代码:PUS;ICAO代码:RKPK)是韩国第二大国际机场,位处韩国东南部的釜山广域市,是釜山航空的枢纽机场,
  • 美景市贝洛奥里藏特(葡萄牙语:Belo Horizonte),也称作美景市、比路贺利桑特,位于巴西东南部,是巴西第四大城市,人口约210万,面积334平方公里,米纳斯吉拉斯州政府所在地,是该州的政治、经济、
  • 中情局对舆论的影响在各种情况下,美国中央情报局都可依据其自身权利或遵从总统或国家安全委员会成员的指令,试图对国内外舆论甚至执法活动施加影响。本文讨论的内容不包括涉嫌违法的国内监视活动
  • 南陈陈(557年-589年)是中国历史上南北朝时期南朝最后一个朝代,由陈霸先代梁所建立,以建康(今南京)为首都,国号陈。陈朝名称来自陈霸先即位前被封的陈公、陈王,但陈王的封号来源又有二说,一
  • 艺术与建筑索引典艺术与建筑索引典(英语:Art & Architecture Thesaurus,AAT)是一个用来描述关于艺术、建筑和物质文化项目的受控词表。AAT收录各种通用术语,如“大教堂”,但不收录专有名词,如“圣母
  • 丘达诺维察乡坐标:45°09′N 21°47′E / 45.150°N 21.783°E / 45.150; 21.783丘达诺维察乡(罗马尼亚语:Comuna Ciudanovița, Caraș-Severin),是罗马尼亚的乡份,位于该国西南部,由卡拉什-塞
  • 延斯·诺沃特尼延斯·诺沃特尼(德语:Jens Nowotny,1974年1月11日-),德国足球运动员,司职后卫,自1996年起长期效力于德甲勒沃库森,至2007年退役。诺沃特尼早年出身于德国小型球会卡尔斯鲁厄。1992年5
  • 吉泽检校吉泽检校(吉沢検校、よしざわ・けんぎょう) (1800年-1872年)是日本近代著名的盲人音乐家。在地歌三味线、日本筝曲、胡弓、平家琵琶等乐器的演奏,作曲方面均有很大成就。
  • 菲里科斯·厄马克拉菲里科斯·厄马克拉(英语:Felix Ermacora,1923年10月13日-1995年2月24日)奥地利知名人权活动家和奥地利人民党成员之一。1956年,厄马克拉在因斯布鲁克大学国际法律学系当一名教授