策略 (博弈论)

✍ dations ◷ 2025-11-11 00:32:48 #策略 (博弈论)

在博弈论里,玩家在博弈中的策略是指在所有可能发生情况下的一套完整行动计划;这完全决定了玩家的行为。玩家的策略会决定玩家在博弈的任一阶段所采取的行动,不论这一阶段之前是如何演变而来的。

策略组合是每个玩家都完全选定他们在博弈中所有行动的一套策略。一个策略组合对每个玩家都必须包括一个且只能一个的策略。

策略有时会和移动搞混。移动是指玩家在博弈中某一点所采取的行动;策略则是完整的算法,告诉玩家在博弈中的每一个可能情况下要如何动作。

策略集合是个由玩家所能采取的策略所组成的集合。

若玩家有有限个具体的策略可供选择,则称其有个有限策略集合。例如,在单一次剪刀、石头、布里,每一个玩家都有一个有限策略集合 {剪刀, 石头, 布} 。若有无限个具体的策略可供选择,则称其有个无限策略集合。例如,有规范出价增额的拍卖会有个无限策略集合 {$10, $20, $30, ...} 。另外,在分蛋糕问题里则有个连续的策略集合 {在蛋糕的百分之零至百分之百间的任一处切分} 。

在动态博弈里,策略集合是由玩家能够给定机器人如何进行博弈的规则所组成的。例如,在最后通牒博弈里,第二位玩家的策略集合应该是由要接受及要拒绝的各种规则所组成的。

在贝叶斯博弈里,其策略集合和动态博弈的相似,由任何私有情报所会采取的行动规则所组成。

在应用博弈论里,策略集合的定义是使博弈能同时可解及有意义的重要一部分;利用对整个问题的了解来限制策略空间,以简化问题。

例如,严格来说,在最后通牒博弈里,玩家可以有策略如下:“拒绝 ($1, $3, $5, ..., $19),而接受 ($0, $2, $4, ...,$20) ”。包括所有的策略会使得策略空间变得很大,并且得到一个稍难的问题;但对这博弈的理解,相信是可以限制其策略集合为 {拒绝所有不大于 的钱,而接受所有大于 的钱;这里的 等于 ($0, $1, $2, ..., $20) 的其中一个} 。

策略集合是由玩家能够施行的纯策略所组成的集合。例如“剪刀、石头、布”中,玩家只有剪刀、石头和布这三个策略。纯策略就是只使用策略集合中其中一条策略。

混合策略是对每个纯策略分配一个几率而形容的策略。混合策略允许玩家随机选择一个纯策略。因为几率是连续的,所以即使策略集合是有限的,也会有无限多个混合策略。

当然,严格来说,每个纯策略都是一个“退化”的混合策略,某一特定纯策略的几率为 ,其他的则为 。

完全混合策略是个混合策略,其对每个纯策略都分配了一个不为零的几率。(完全混合策略对如颤手完全均衡之类的均衡精细很重要。)

假设一收益矩阵表示如右(为一协调博弈)。这里,一个玩家选择行(Row),另一个玩家选择列(Column)。行玩家得到第一个收益,列玩家则得到第二个。若行玩家偏向百分之百选择 ,则称他在玩纯策略。若列玩家偏向以掷硬币来决定,若头朝上则选择 ,若字朝上则选择 ,则称他在玩混合策略,而非纯策略。

在约翰·福布斯·纳什的一篇著名的论文里,他证明出对每个有限博弈,都存在一个均衡。纳什均衡可以分成两类:“纯策略纳什均衡”,之中的所有玩家都玩纯策略;和“混合策略纳什均衡”,之中至少有一位玩家玩混合策略。并不是每个博弈都会有纯策略纳什均衡,例如赌便士就只有混合策略纳什均衡,而没有纯策略纳什均衡。不过,还是有许多博弈有纯策略纳什均衡(如协调博弈、囚徒困境和猎鹿博弈)。甚至,有些博弈能同时有纯策略和混合策略均衡。

在1980年代时,混合策略的概念曾遭受很严重的攻击,被认为是“直觉地有问题”。混合策略的核心-随机缺乏行为的支持,人们很少会凭运气做决定。此一行为问题在认知的难题上显得更加严重,因为没有人能够在没有随机数发生器的帮助之下做出随机的决定来。

在阿里尔·鲁宾斯坦的一篇论文中,他描述了另一个了解此一概念的方法。首先,基于纯化理论,并假设混合策略的解释只是反应了对玩家信息和决策过程认识的缺乏。明显地,随机决定被认为是不明确、利益无关的外部因素的结果。然而,一个由不明确的因素决定的结果很难令人感到满意。

第二个解释是,想像有许多组玩家在进行博弈,每组玩家都选择一个纯策略,且利益是依赖玩家们选择策略的百分比来决定的。因此,混合策略便表示是每一组玩家所选择的纯策略的分布。然而,这对玩家都是单独的一组时,提不出什么合理的解释。

之后,奥曼和布兰登柏格)重新将纳什均衡解释成是一种“信念”的均衡,而不是行动的。例如,在剪刀、石头、布里,信念的均衡即每个玩家都“相信”对方会平均地施行每一个策略。然而,此一解释弱化了纳什均衡的预测能力,因为在此均衡里,“确实”地施行石头的纯策略也是可能的。

直至今日,学者们对混合策略的结果依然是很矛盾的。混合策略依然广泛地被应用不存在纯策略均衡的博弈中,以提供其一个纳什均衡,但这些模型都无法说清楚为何且如何玩家能够随机化他们的决定。

相关

  • 丝状病毒丝状病毒科(学名:Filoviridae),单股反链病毒目,是一种感染脊椎动物的病毒,包含的属有埃博拉病毒和马尔堡病毒。病毒粒(Virion)具有复杂构造,具外套膜(envelope),核鞘(nucleocapsid),聚合酶
  • 时间序列时间序列(英语:time series)是一组按照时间发生先后顺序进行排列的数据点序列。通常一组时间序列的时间间隔为一恒定值(如1秒,5分钟,12小时,7天,1年),因此时间序列可以作为离散时间数
  • 健那绿染液健那绿B(英语:Janus Green B),又名詹纳斯绿B,简称健那绿或詹纳斯绿,是一种对线粒体专一的活体染料,具有脂溶性,能跨过细胞膜,有染色能力的基团带正电,结合在负电性性的线粒体内膜上,内
  • 弗里茨·塞尔尼克弗里茨·塞尔尼克(荷兰语:Frits Zernike,1888年7月16日-1966年3月10日),荷兰物理学家,1953年因相衬显微技术而获诺贝尔物理学奖。1901年:伦琴 / 1902年:洛伦兹、塞曼 / 1903年:贝克
  • 西兰花西兰花(学名:Brassica oleracea var. italica,英语:Broccoli),又称青花菜、绿花菜、绿花椰菜、百加利(一些海外的中国餐馆所用音译),是一种蔬菜。西兰花源于意大利,和花椰菜、结球甘蓝
  • 推倒这堵墙!“推倒这堵墙!”(Tear down this wall!)是美国总统罗纳德·里根在1987年6月12日的演说中,对苏联共产党中央委员会总书记米哈伊尔·戈尔巴乔夫的呼吁。里根在当时处于东西柏林交
  • 三文鱼鲑鱼(英语:salmon),其中大西洋鲑又音译为三文鱼,是数种鲑科鱼的通称。它们大部分为洄游性辐鳍鱼,是常见的可食用鱼类之一。共有300多个属种的鲑科鱼类生活在大西洋及太平洋,在非原
  • 徐南平徐南平(1961年4月-),安徽桐城人,中国化工专家、政治人物,中国工程院院士。1985年4月参加工作,1988年5月加入中国共产党。合肥工业大学无机化工专业毕业,上海化工研究院无机化工专业
  • 小珊瑚岛小珊瑚岛(泰语:เกาะล้าน)是一个位于暹罗湾附属海湾曼谷湾中的岛屿。小珊瑚岛是泰国近岛群岛中最大的岛屿,其位于芭达雅的南方、曼谷湾的东南方、暹罗湾的东部。在行政区
  • 郑州商城遗址郑州商城遗址位于中国河南省郑州市,是商代都城的遗址,年代距今3500年左右。1955年发现并开始发掘,1961年国务院列为中国全国重点文物保护单位。郑州商城平面为长方形,城墙周长69