贝尔曼方程

✍ dations ◷ 2025-03-07 11:19:00 #数学最佳化,方程,动态规划,控制理论


“贝尔曼方程(Bellman Equation)”也被称作“动态规划方程(Dynamic Programming Equation)”,由理查·贝尔曼(Richard Bellman)发现。贝尔曼方程是动态规划(Dynamic Programming)这种数学最佳化方法能够达到最佳化的必要条件。此方程将“决策问题在特定时间点的值”以“来自初始选择的报酬 及 由初始选择衍生的决策问题的值”的形式表示。藉这个方式将动态最佳化问题变成较简单的子问题,而这些子问题遵守由贝尔曼所提出的“最佳化原理”。

贝尔曼方程最早应用在工程领域的控制理论及其他应用数学领域,而后成为经济学上的重要工具。

几乎所有可以用最佳控制理论(Optimal Control Theory)解决的问题也可以透过分析合适的贝尔曼方程得到解决。然而,“贝尔曼方程”通常指离散时间(discrete-time)最佳化问题的动态规划方程。处理连续时间(continuous-time)最佳化问题上,也有类似的偏微分方程,称作汉弥尔顿-雅各比-贝尔曼方程(Hamilton–Jacobi–Bellman Equation, HJB Equation)。

想了解贝尔曼方程,要先了解许多相关概念。首先,任何最佳化问题都有目标:旅行时间最小化、成本最小化、利润最大化、效用最大化等。用来描述目标的数学函数就称为目标函数。

动态规划将多期规划问题转为不同时间点上较简单的步骤,因此,它需要追踪决策背景情况随时间的变化。作正确决策所需要当前情况的资讯被称作是“状态(State)”(贝尔曼,1957,Ch. III.2)。例如,为了决定每个时间要花多少钱,人们必须要知道他们初始财富的量,此例中财富就是一种“状态变数(State Variables)”,或简称“状态(State)”,当然也可能还有其他的种类。

从任意时点上所挑选以操作的变数通常称为“控制变数(Control Variables)”,或简称“控制(Control)”(控制理论中描述输入的变数)。例如给定现在所具有的财富(状态),人们便可以用以决定当下的消费(控制变数)。挑选当下的控制变数可被视为挑选下个状态,广义而言,下个状态受到当下控制变数及其他因子的影响。举个简单的例子:今天的财富(状态)及消费(控制变数)会决定明天的财富(新的状态),虽然通常也还有其他的因素可以影响明天的财富(例如获得意外之财)。

动态规划方法中利用“找寻某种规则告诉我们各可能状态下的(最佳)控制为何”来达成目标函数最佳化。例如:假设消费(c)只与财富(W)相关,我们想要找到一套规则 c ( W ) {\displaystyle c(W)} 来以财富描述消费。这些“将控制(Controls)表示成状态(States)的函数”的规则被称为策略函数(Policy Function)。

从定义可知,最佳化目标函数的策略乃是所有可能的策略函数中,其对应到目标函数值最佳者。沿用上述的例子,若某人利用给定的财富来消费以最大化快乐的感觉(这里假定“快乐的感觉”可以被数学函数描述,像是效用函数等),那么各种初始的财富便会对应到一个可能的最大快乐,表示成 H ( W ) {\displaystyle H(W)} 。这个最大的可能目标函数值(快乐的感觉),即是价值函数(Value Function)。

相关

  • 3d6 4s22, 8, 14, 2蒸气压第一:762.5 kJ·mol−1 第二:1561.9 kJ·mol−1 第三:2957 kJ·mol−1 (主条目:铁的同位素铁(Iron)是一个化学元素,化学符号是Fe (源自拉丁语 ferrum),原
  • 加洛林王朝加洛林王朝(法语:les Carolingiens,旧称Carlovingiens,中世纪拉丁语:Karolingi,又译卡洛林王朝)是自公元751年后统治法兰克王国的王朝。在此之前,其王朝成员以“宫相”的身份涉理王
  • 交叉验证交叉验证,有时亦称循环估计 , 是一种统计学上将数据样本切割成较小子集的实用方法。于是可以先在一个子集上做分析,而其它子集则用来做后续对此分析的确认及验证。一开始的子
  • 皮马县皮马县(英语:Pima County /ˈpiːmə/)是位于美国亚利桑那州南部的一个县,县治为图森。根据2010年人口普查,皮马县共有人口980,263人,而大部分人口居住于县治图森(根据2011年人口估
  • 圣昆廷监狱圣昆丁州立监狱(英语:San Quentin State Prison)是一座加利福尼亚州矫正与康复部(英语:California Department of Corrections and Rehabilitation)建立的男子州立监狱(英语:state
  • 安吉拉·索莫-波登伯格安吉拉·索莫-波登伯格(Angela Sommer-Bodenburg,1948年12月18日—),德国著名儿童文学作家。她出生于德国北部石勒苏益格-荷尔斯泰因州的Reinbek市。早年大学本科就读社会学,心理
  • 2006年世界杯足球赛参赛名单 (F组)以下条目列出于6月9日至7月9日举行的2006年德国世界杯决赛周已证实国家队的球员名单。在5月15日前,部分国家队公布出决赛周的临或正式的时球员名单。当中,国家队所公布的球员
  • 老友记 (第九季)《老友记》第九季,是由David Crane(英语:David Crane (writer/producer))和Marta Kauffman(英语:Marta Kauffman)制作的美国情景喜剧。它由Bright/Kauffman/Crane Productions(英语:B
  • 燕赵文化燕赵文化是指以今中国境内的京津冀三地为中心形成和发展的一种汉族地域文化。燕赵文化分为燕文化与赵文化两部分,燕文化以汉文化为主体,也受到漠北草原文化的影响,在地理上西部
  • 梦占梦占,又称梦卜或解梦,是一种以梦境解释作其依据的占卜术。在中国大陆,历代都有人编撰占梦书,且据出土甲骨文等文献记载商朝已确定经常有人占梦。商朝的卜官在占梦时会参考典籍资