随机博弈

✍ dations ◷ 2025-11-04 19:06:03 #随机博弈

随机博弈(英语:stochastic game),或称随机赛局、随机对局,在博弈论中是一类由一个或多个参与者所进行的、具有状态概率转移的动态博弈,由劳埃德·夏普利(Lloyd Shapley)于20世纪50年代初期提出。

这类博弈由一系列阶段组成。在博弈中每一阶段的起始,博弈处于某种特定状态。每一参与者选择某种行动,然后会获得取决于当前状态和所选择行动的收益。之后,博弈发展到下一阶段,处于一个新的随机状态,这一随机状态的分布取决于先前状态和各位参与者选择的行动。在新状态中重复上述过程,然后博弈继续进行有限或无限个数的阶段。一个参与者得到的总收益常用各阶段收益的贴现和,或是各阶段收益平均值的下极限来计算。

随机博弈的组成部分有:有限参与者集 I {\displaystyle I} ;状态空间 M {\displaystyle M} (可以是有限集,也可以是可测空间 ( M , A ) {\displaystyle (M,{\mathcal {A}})} );对于每一参与者 i I {\displaystyle i\in I} ,存在行动集 S i {\displaystyle S^{i}\,} (可以是有限集,也可以是可测空间 ( S i , S i ) {\displaystyle (S^{i},{\mathcal {S}}^{i})} ); P {\displaystyle P} M × S {\displaystyle M\times S} M {\displaystyle M} 的转移概率,其中 S = × i I S i {\displaystyle S=\times _{i\in I}S^{i}} 是行动组合, P ( A m , s ) {\displaystyle P(A\mid m,s)} 是下一状态处于 A {\displaystyle A} 中的概率,而 A {\displaystyle A} 给定了当前状态 m {\displaystyle m} 和当前行动组合 s {\displaystyle s} ;从 M × S {\displaystyle M\times S} R I {\displaystyle R^{I}\,} 的收益函数 g {\displaystyle g} ,其中 g {\displaystyle g} 的第 i {\displaystyle i} 个坐标 g i {\displaystyle g^{i}\,} 是参与者 i {\displaystyle i} 的收益,而 g i {\displaystyle g^{i}\,} 是状态 m {\displaystyle m} 和行动组合 s {\displaystyle s} 的函数。

博弈以某个初始状态 m 1 {\displaystyle m_{1}} 开始。在阶段 t {\displaystyle t} 中,参与者最先观测到 m t {\displaystyle m_{t}} ,同时选择行动 s t i S i {\displaystyle s_{t}^{i}\in S^{i}} ,然后观测到行动组合 s t = ( s t i ) i {\displaystyle s_{t}=(s_{t}^{i})_{i}} ,然后以概率 P ( m t , s t ) {\displaystyle P(\cdot \mid m_{t},s_{t})} 自然选择 m t + 1 {\displaystyle m_{t+1}} 。一次随机博弈 m 1 , s 1 , , m t , s t , {\displaystyle m_{1},s_{1},\ldots ,m_{t},s_{t},\ldots } 定义了一个收益流 g 1 , g 2 , {\displaystyle g_{1},g_{2},\ldots } ,其中 g t = g ( m t , s t ) {\displaystyle g_{t}=g(m_{t},s_{t})\,}

下面给出随机博弈的一个例子:

当前有任意个装着球的桶,每个桶中球的数目也是任意的,两位参与者轮流从中取出球,且需要遵守如下规则:

贴现因子为 λ {\displaystyle \lambda } 0 < λ 1 {\displaystyle 0<\lambda \leq 1} )的贴现博弈 Γ λ {\displaystyle \Gamma _{\lambda }} 中,参与者 i {\displaystyle i} 的收益是 λ t = 1 ( 1 λ ) t 1 g t i {\displaystyle \lambda \sum _{t=1}^{\infty }(1-\lambda )^{t-1}g_{t}^{i}} n {\displaystyle n} 阶段博弈中,参与者 i {\displaystyle i} 的收益是 g ¯ n i := 1 n t = 1 n g t i {\displaystyle {\bar {g}}_{n}^{i}:={\frac {1}{n}}\sum _{t=1}^{n}g_{t}^{i}}

若存在有限多个状态和行动的二人零和博弈 Γ n {\displaystyle \Gamma _{n}} (各自是 Γ λ {\displaystyle \Gamma _{\lambda }} )的值为 v n ( m 1 ) {\displaystyle v_{n}(m_{1})} (各自是 v λ ( m 1 ) {\displaystyle v_{\lambda }(m_{1})} ),则 v n ( m 1 ) {\displaystyle v_{n}(m_{1})} n {\displaystyle n} 趋于无穷时收敛到一个极限,且 v λ ( m 1 ) {\displaystyle v_{\lambda }(m_{1})} λ {\displaystyle \lambda } 趋于 0 {\displaystyle 0} 时收敛到相同的极限。这一结论已被杜鲁门·彪利(Truman Bewley)和艾朗·克尔伯格(Elon Kohlberg)于1976年证明。

非贴现博弈 Γ {\displaystyle \Gamma _{\infty }} 中,参与者 i {\displaystyle i} 的收益是各阶段收益平均值的极限。在定义二人零和博弈 Γ {\displaystyle \Gamma _{\infty }} 的值与非零和博弈 Γ {\displaystyle \Gamma _{\infty }} 的均衡收益之前需要注意一些事情:若对于每一 ε > 0 {\displaystyle \varepsilon >0} 都有正整数 N {\displaystyle N} 、参与者1的策略 σ ε {\displaystyle \sigma _{\varepsilon }} 和参与者2的策略 τ ε {\displaystyle \tau _{\varepsilon }} ,二人零和随机博弈 Γ {\displaystyle \Gamma _{\infty }} 的一致值(uniform value) v {\displaystyle v_{\infty }} 存在,这样对于每一 σ {\displaystyle \sigma } τ {\displaystyle \tau } 和每一 n N {\displaystyle n\geq N} ,博弈中由 σ ε {\displaystyle \sigma _{\varepsilon }} τ {\displaystyle \tau } 定义的概率的 g ¯ n i {\displaystyle {\bar {g}}_{n}^{i}} 期望至少为 v ε {\displaystyle v_{\infty }-\varepsilon } ,由 σ {\displaystyle \sigma } τ ε {\displaystyle \tau _{\varepsilon }} 定义的概率的 g ¯ n i {\displaystyle {\bar {g}}_{n}^{i}} 期望至多为 v + ε {\displaystyle v_{\infty }+\varepsilon } 。让·弗朗索瓦·梅顿斯(Jean Francois Mertens)和亚伯拉罕·奈曼(Abraham Neyman)于1981年证明二人零和随机博弈具有一致值。

若参与者数量有限且行动集和状态集有限,则有限阶段随机博弈总有纳什均衡,对于总收益是贴现和的无限多阶段随机博弈也是如此。尼古拉斯·维勒(Nicolas Vieille)已经证明当总收益是各阶段收益平均值的下极限时,所有具有有限状态和行动空间的二人随机博弈都有近似纳什均衡。不过,当参与者多于2名时,随机博弈是否存在这类均衡仍是一个极具挑战性的开放性问题。

随机博弈在经济学、演化生物学和计算机网络中都有应用。事实上,随机博弈是重复博弈这类每一阶段都处于相同状态的博弈的一般化形式。

有关随机博弈的最全面的参考书籍是奈曼和索林编著的文集。菲拉尔和乌瑞兹所著的书籍更为基础,书中提供了马尔可夫决策过程(MDP)和二人随机博弈理论的严密的统一处理方法。他们创造了Competitive MDPs这一术语来概括一人和二人随机博弈。

相关

  • 三聚甲醛多聚甲醛(IUPAC命名Polyoxymethylene,POM)(或称聚甲醛;聚缩醛),为甲醛的聚合物(高分子量聚甲醛),一般结构长度有八到一百个单位。长链多聚甲醛常用制作于耐热塑胶, 又称聚甲醛塑胶(POE,杜
  • 肌卫星细胞肌卫星细胞(Myosatellite cell)是一种位于骨骼肌中的细胞。肌卫星细胞呈扁平形,有突起,通常附着在肌纤维表面。当肌纤维受损伤后,肌卫星细胞可增殖分化,参与肌纤维的修复,具有干细
  • 图特摩斯二世图特摩斯二世 (英语文献中一般写作:Thutmose II,?—约公元前1479年)古埃及第十八王朝法老(约公元前1492年—约公元前1479年在位)。图特摩斯二世是法老图特摩斯一世与其庶妻姆特诺弗
  • 技嘉技嘉科技股份有限公司(英语:GIGABYTE Technology;简称技嘉、技嘉科技、GIGABYTE)是一家发迹于台湾,以制造及售卖电子科技硬件为主的国际企业。技嘉科技提供最小自电脑周边零件、
  • 阿尔贝·勒布伦阿尔贝·弗朗索瓦·勒布伦(法语:Albert François Lebrun,法语发音:.mw-parser-output .IPA{font-family:"Charis SIL","Doulos SIL","Linux Libertine","Segoe UI","Lucida San
  • 焦循焦循(1763年-1820年),字理堂,一字里堂,扬州府甘泉县(今扬州邗江黄玨镇)人。以《孟子》及《周易》研究见著。焦循生于乾隆二十八年(1763年),自幼师承祖父之学,幼年好《易》,还对“密云不雨
  • 俄克拉何马县俄克拉荷马县(Oklahoma County, Oklahoma)是美国俄克拉荷马州中部的一个县。面积1,860 平方公里。根据美国2000年人口普查,共有人口660,448。县治俄克拉荷马城也是州的首府。成
  • 馒头蟹总科馒头蟹科黎明蟹科馒头蟹总科(Calappoidea) 是短尾下目下的一个超科,下分馒头蟹科和黎明蟹科。 其化石记录最早可追溯到阿普第阶。
  • 青岛小片青岛话是通行于中国青岛市市域范围内的一种北方现代汉语方言。系属胶辽官话青莱片。广义的青岛话,按照不同特点,可以分为7种方言:青岛老街里方言、崂山-李沧方言、城阳方言、即
  • 嵩阳书院嵩阳书院,是宋代四大书院之一,在河南嵩山南麓,今登封市北约三公里处,北依嵩山主峰峻极峰,南对双溪河。是河南省省级重点文物。最早为佛教、道教庙宇,宋代成为儒家书院。儒家理学大