贝尔曼方程

✍ dations ◷ 2025-11-13 13:56:15 #数学最佳化,方程,动态规划,控制理论


“贝尔曼方程(Bellman Equation)”也被称作“动态规划方程(Dynamic Programming Equation)”,由理查·贝尔曼(Richard Bellman)发现。贝尔曼方程是动态规划(Dynamic Programming)这种数学最佳化方法能够达到最佳化的必要条件。此方程将“决策问题在特定时间点的值”以“来自初始选择的报酬 及 由初始选择衍生的决策问题的值”的形式表示。藉这个方式将动态最佳化问题变成较简单的子问题,而这些子问题遵守由贝尔曼所提出的“最佳化原理”。

贝尔曼方程最早应用在工程领域的控制理论及其他应用数学领域,而后成为经济学上的重要工具。

几乎所有可以用最佳控制理论(Optimal Control Theory)解决的问题也可以透过分析合适的贝尔曼方程得到解决。然而,“贝尔曼方程”通常指离散时间(discrete-time)最佳化问题的动态规划方程。处理连续时间(continuous-time)最佳化问题上,也有类似的偏微分方程,称作汉弥尔顿-雅各比-贝尔曼方程(Hamilton–Jacobi–Bellman Equation, HJB Equation)。

想了解贝尔曼方程,要先了解许多相关概念。首先,任何最佳化问题都有目标:旅行时间最小化、成本最小化、利润最大化、效用最大化等。用来描述目标的数学函数就称为目标函数。

动态规划将多期规划问题转为不同时间点上较简单的步骤,因此,它需要追踪决策背景情况随时间的变化。作正确决策所需要当前情况的资讯被称作是“状态(State)”(贝尔曼,1957,Ch. III.2)。例如,为了决定每个时间要花多少钱,人们必须要知道他们初始财富的量,此例中财富就是一种“状态变数(State Variables)”,或简称“状态(State)”,当然也可能还有其他的种类。

从任意时点上所挑选以操作的变数通常称为“控制变数(Control Variables)”,或简称“控制(Control)”(控制理论中描述输入的变数)。例如给定现在所具有的财富(状态),人们便可以用以决定当下的消费(控制变数)。挑选当下的控制变数可被视为挑选下个状态,广义而言,下个状态受到当下控制变数及其他因子的影响。举个简单的例子:今天的财富(状态)及消费(控制变数)会决定明天的财富(新的状态),虽然通常也还有其他的因素可以影响明天的财富(例如获得意外之财)。

动态规划方法中利用“找寻某种规则告诉我们各可能状态下的(最佳)控制为何”来达成目标函数最佳化。例如:假设消费(c)只与财富(W)相关,我们想要找到一套规则 c ( W ) {\displaystyle c(W)} 来以财富描述消费。这些“将控制(Controls)表示成状态(States)的函数”的规则被称为策略函数(Policy Function)。

从定义可知,最佳化目标函数的策略乃是所有可能的策略函数中,其对应到目标函数值最佳者。沿用上述的例子,若某人利用给定的财富来消费以最大化快乐的感觉(这里假定“快乐的感觉”可以被数学函数描述,像是效用函数等),那么各种初始的财富便会对应到一个可能的最大快乐,表示成 H ( W ) {\displaystyle H(W)} 。这个最大的可能目标函数值(快乐的感觉),即是价值函数(Value Function)。

相关

  • 王阳明《新建伯赠侯王文成公像》,明·沈俊绘现藏于绍兴博物馆王守仁,世称王阳明(1472年10月31日-1529年1月9日),幼名云,字伯安,号阳明子,谥文成。浙江绍兴府余姚县(今浙江省宁波余姚市)人。明
  • 狻猊座像狻猊,一种中国神话中的生物。狻猊是类似麒麟一样的神兽,龙生九子,狻猊便是其中之一,狻猊形象如狮子,喜烟好坐,所以形像一般出现在香炉上,随之吞烟吐雾。因其好坐,亦作座狮。后来狻猊
  • 恩戈罗恩戈罗保护区恩戈罗恩戈罗保护区是坦桑尼亚火山口高地(英语:Crater Highlands)的一个保护区,在阿鲁沙西部约180千米处。保护区由恩戈罗恩戈罗保护区管理局主管,1979年列入联合国教科文组织世
  • 第五大道第五大道(英语:Fifth Avenue),是美国纽约市曼哈顿一条重要的南北向干道,南起华盛顿广场公园,北抵第138街。由于第五大道位于曼哈顿岛的中心地带,因此曼哈顿岛上东西走向的街道有时
  • 巴达维人巴达维人(拉丁语:Batavi)是古罗马时代生活在莱茵河三角洲的一支日耳曼人部落。他们的名字可能是来自日耳曼语的batawjō,意为“好岛屿”。可分解为:bat-,“好”; awjō “岛屿,靠近
  • 表面能表面能是创造物质表面时,破坏分子间作用力所需消耗的能量。在固体物理理论中,表面原子比物质内部的原子具有更多的能量,因此,根据能量最低原理,原子会自发的趋于物质内部而不是表
  • 波罗的海国家理事会波罗的海国家理事会(英语:Council of the Baltic Sea States,缩写:CBSS)是由北欧波罗的海国家政府所组成的合作组织,于苏联解体后成立。理事会特别针对经济发展、能源、教育与文化
  • 中国人民解放军东部战区海军训练基地中国人民解放军军徽中国人民解放军东部战区海军训练基地,位于浙江省江山市,是中国人民解放军东部战区海军的训练基地。1983年7月,中国人民解放军海军东海舰队训练基地成立。该
  • 凯赫特纳乡坐标:58°55′49″N 24°52′41″E / 58.93028°N 24.87806°E / 58.93028; 24.87806凯赫特纳乡(爱沙尼亚语:Kehtna vald),是爱沙尼亚的一个乡,位于该国西部,由拉普拉县负责管辖,首
  • 埃瓦兹埃瓦兹是伊朗的城市,位于该国南部,由法尔斯省负责管辖,距离设拉子370公里,海拔高度970米,每年平均降雨量750毫米,2006年人口14,315,居民主要信奉逊尼派。