贝尔曼方程

✍ dations ◷ 2025-10-06 20:42:30 #数学最佳化,方程,动态规划,控制理论


“贝尔曼方程(Bellman Equation)”也被称作“动态规划方程(Dynamic Programming Equation)”,由理查·贝尔曼(Richard Bellman)发现。贝尔曼方程是动态规划(Dynamic Programming)这种数学最佳化方法能够达到最佳化的必要条件。此方程将“决策问题在特定时间点的值”以“来自初始选择的报酬 及 由初始选择衍生的决策问题的值”的形式表示。藉这个方式将动态最佳化问题变成较简单的子问题,而这些子问题遵守由贝尔曼所提出的“最佳化原理”。

贝尔曼方程最早应用在工程领域的控制理论及其他应用数学领域,而后成为经济学上的重要工具。

几乎所有可以用最佳控制理论(Optimal Control Theory)解决的问题也可以透过分析合适的贝尔曼方程得到解决。然而,“贝尔曼方程”通常指离散时间(discrete-time)最佳化问题的动态规划方程。处理连续时间(continuous-time)最佳化问题上,也有类似的偏微分方程,称作汉弥尔顿-雅各比-贝尔曼方程(Hamilton–Jacobi–Bellman Equation, HJB Equation)。

想了解贝尔曼方程,要先了解许多相关概念。首先,任何最佳化问题都有目标:旅行时间最小化、成本最小化、利润最大化、效用最大化等。用来描述目标的数学函数就称为目标函数。

动态规划将多期规划问题转为不同时间点上较简单的步骤,因此,它需要追踪决策背景情况随时间的变化。作正确决策所需要当前情况的资讯被称作是“状态(State)”(贝尔曼,1957,Ch. III.2)。例如,为了决定每个时间要花多少钱,人们必须要知道他们初始财富的量,此例中财富就是一种“状态变数(State Variables)”,或简称“状态(State)”,当然也可能还有其他的种类。

从任意时点上所挑选以操作的变数通常称为“控制变数(Control Variables)”,或简称“控制(Control)”(控制理论中描述输入的变数)。例如给定现在所具有的财富(状态),人们便可以用以决定当下的消费(控制变数)。挑选当下的控制变数可被视为挑选下个状态,广义而言,下个状态受到当下控制变数及其他因子的影响。举个简单的例子:今天的财富(状态)及消费(控制变数)会决定明天的财富(新的状态),虽然通常也还有其他的因素可以影响明天的财富(例如获得意外之财)。

动态规划方法中利用“找寻某种规则告诉我们各可能状态下的(最佳)控制为何”来达成目标函数最佳化。例如:假设消费(c)只与财富(W)相关,我们想要找到一套规则 c ( W ) {\displaystyle c(W)} 来以财富描述消费。这些“将控制(Controls)表示成状态(States)的函数”的规则被称为策略函数(Policy Function)。

从定义可知,最佳化目标函数的策略乃是所有可能的策略函数中,其对应到目标函数值最佳者。沿用上述的例子,若某人利用给定的财富来消费以最大化快乐的感觉(这里假定“快乐的感觉”可以被数学函数描述,像是效用函数等),那么各种初始的财富便会对应到一个可能的最大快乐,表示成 H ( W ) {\displaystyle H(W)} 。这个最大的可能目标函数值(快乐的感觉),即是价值函数(Value Function)。

相关

  • 性强迫症性强迫症(英语:Sexual obsessions)是一种与性相关的强迫症,患者会不自觉的非常渴望进行性行为。性强迫症在强迫症患者当中非常普遍,约在两成的患者身上出现。基于这种成瘾症与性
  • 碎石碎石(英语:Rubble),破碎的小块岩石,它的大小、形状、及纹理都呈现不规则形状。它可能是由于天然因素,或是人为加以破坏后产生。
  • 满州满州,隋唐时中国的州。隋朝开皇十六年(596年)置,治所在高阳县(今河北省高阳县东旧城)。辖境相当今河北省高阳县一带。大业初年,废。唐朝武德四年(621年)复置。贞观元年(627年)又废。
  • 第五舰队第五舰队(日语:第五艦隊/だいごかんたい Daigo Kantai ?)是旧日本海军的一支舰队编制。1938年初,日本海军第一次组建第五舰队,1939年底改称第二遣支舰队。1941年年中,日本海军再
  • 希波克拉底面容希波克拉底面容 (拉丁语:facies Hippocratica)是指由于濒临死亡或长期患病、过度排泄、过度饥饿以及类似原因导致的面容改变。"容貌可以被描述如下:鼻子变尖,眼窝深陷,太阳穴下
  • 四溴化碳四溴化碳是溴取代甲烷上所有氢的产物,化学式为CBr4。四溴化碳有两种晶型,在46.9°C以下的晶型II(或β)和在46.9°C之上的I(或α)。单晶有空间群,晶胞参数为 = 20.9, = 12.1, = 21
  • 海旋板海旋板(helicoplacoids)是一类已灭绝的棘皮动物,生存于寒武纪早期。身体覆有骨板,骨板间能够相对运动而使身体能够膨胀或收缩。食物沟呈螺旋形环绕身体并向下延伸。
  • 埃利·雅布罗诺维奇埃利·雅布罗诺维奇(英语:Eli Yablonovitch,1946年12月15日-),美国应用物理学家,他与萨耶夫·约翰一起是光子晶体领域的两个开创者。他和他的团队首先创建一个3维结构,呈现一个完整
  • 赤井秀一 (足球员)赤井秀一(赤井 秀一/あかい しゅういち,Akai Shūichi,1981年9月2日-)是日本前职业足球员,司职中场,曾经效力过爱媛FC以及FC今治。现在是爱媛FC的总教练。赤井秀一生于1981年的北海
  • 木村亚希子木村亚希子(1971年6月28日-)是日本女性声优,福井县吉田郡永平寺町出身。已婚。1998年1999年2000年2001年2003年2004年2005年2006年2007年2012年2013年2015年2016年2017年2018年