贝尔曼方程

✍ dations ◷ 2025-12-02 10:07:36 #数学最佳化,方程,动态规划,控制理论


“贝尔曼方程(Bellman Equation)”也被称作“动态规划方程(Dynamic Programming Equation)”,由理查·贝尔曼(Richard Bellman)发现。贝尔曼方程是动态规划(Dynamic Programming)这种数学最佳化方法能够达到最佳化的必要条件。此方程将“决策问题在特定时间点的值”以“来自初始选择的报酬 及 由初始选择衍生的决策问题的值”的形式表示。藉这个方式将动态最佳化问题变成较简单的子问题,而这些子问题遵守由贝尔曼所提出的“最佳化原理”。

贝尔曼方程最早应用在工程领域的控制理论及其他应用数学领域,而后成为经济学上的重要工具。

几乎所有可以用最佳控制理论(Optimal Control Theory)解决的问题也可以透过分析合适的贝尔曼方程得到解决。然而,“贝尔曼方程”通常指离散时间(discrete-time)最佳化问题的动态规划方程。处理连续时间(continuous-time)最佳化问题上,也有类似的偏微分方程,称作汉弥尔顿-雅各比-贝尔曼方程(Hamilton–Jacobi–Bellman Equation, HJB Equation)。

想了解贝尔曼方程,要先了解许多相关概念。首先,任何最佳化问题都有目标:旅行时间最小化、成本最小化、利润最大化、效用最大化等。用来描述目标的数学函数就称为目标函数。

动态规划将多期规划问题转为不同时间点上较简单的步骤,因此,它需要追踪决策背景情况随时间的变化。作正确决策所需要当前情况的资讯被称作是“状态(State)”(贝尔曼,1957,Ch. III.2)。例如,为了决定每个时间要花多少钱,人们必须要知道他们初始财富的量,此例中财富就是一种“状态变数(State Variables)”,或简称“状态(State)”,当然也可能还有其他的种类。

从任意时点上所挑选以操作的变数通常称为“控制变数(Control Variables)”,或简称“控制(Control)”(控制理论中描述输入的变数)。例如给定现在所具有的财富(状态),人们便可以用以决定当下的消费(控制变数)。挑选当下的控制变数可被视为挑选下个状态,广义而言,下个状态受到当下控制变数及其他因子的影响。举个简单的例子:今天的财富(状态)及消费(控制变数)会决定明天的财富(新的状态),虽然通常也还有其他的因素可以影响明天的财富(例如获得意外之财)。

动态规划方法中利用“找寻某种规则告诉我们各可能状态下的(最佳)控制为何”来达成目标函数最佳化。例如:假设消费(c)只与财富(W)相关,我们想要找到一套规则 c ( W ) {\displaystyle c(W)} 来以财富描述消费。这些“将控制(Controls)表示成状态(States)的函数”的规则被称为策略函数(Policy Function)。

从定义可知,最佳化目标函数的策略乃是所有可能的策略函数中,其对应到目标函数值最佳者。沿用上述的例子,若某人利用给定的财富来消费以最大化快乐的感觉(这里假定“快乐的感觉”可以被数学函数描述,像是效用函数等),那么各种初始的财富便会对应到一个可能的最大快乐,表示成 H ( W ) {\displaystyle H(W)} 。这个最大的可能目标函数值(快乐的感觉),即是价值函数(Value Function)。

相关

  • 假底物底物(英语:substrate)在生物化学领域指参与生化反应的物质,可为化学元素、分子或化合物,经酶作用可形成产物。一个生化反应的底物往往同时也是另一个化学反应的产物。
  • 碎片大厦碎片大厦(英语:The Shard),又称夏德塔、摘星塔。是位于英国伦敦的伦敦桥站西南侧的摩天大楼。高309.6米,为英国最高建筑物,欧洲第二高建筑物(不计电视发射塔)。耗资15亿英镑(包括收购
  • 獭灵猫属獭狸猫(Cynogale bennettii),又名獭灵猫,是栖息在马来半岛、苏门塔腊及婆罗洲森林、低地近河流及沼泽的麝猫。在越南北部亦有发现它们,不过只有一个标本。獭狸猫的口阔,脚有蹼及长
  • 黄海北道黄海北道(朝鲜语:황해북도/黃海北道 Hwanghaebuk do */?),是朝鲜民主主义人民共和国西南部的地方行政区。面积8,154平方公里。人口2,113,672人(2008年统计)。人口密度260人/平方
  • 爱德华氏综合征参数所指定的目标页面不存在,建议更正成存在页面或直接建立下列一个页面(建立前请先搜寻是否有合适的存在页面可以取代):]]爱德华氏综合征(亦称18-三体综合征)是一种遗传疾病,是(所
  • 普林斯顿大学出版社普林斯顿大学出版社(英语:Princeton University Press)是与普林斯顿大学关系密切的独立出版社。它的使命是对学术界和社会大众传播学术成果。1905年,出版社在Charles Scribner I
  • 槽齿龙属槽齿龙属(属名:)是种草食性恐龙,生存于晚三叠世瑞提阶。槽齿龙的化石大部分发现于南英格兰与威尔士的三叠纪地层。这个时期的地球气候较为温暖、干燥。晚三叠世的优势肉食性动物
  • 乔丹·贝尔乔丹·贝尔(英语:Jordan Bell,1995年1月7日-),出生于美国加利福尼亚州的洛杉矶,为现役美国职业篮球运动员,目前为自由球员。场上主要位置为大前锋或中锋。他在2017年NBA选秀大会中于
  • 鲁格冲锋者手枪鲁格22“冲锋者”手枪(英语:Ruger 22 Charger pistol),简称鲁格“冲锋者”,是美国枪械制造商斯特姆-鲁格公司在2007年底推出的一款使用.22 LR子弹的凸缘底火半自动手枪。曾一度停
  • 查令十字路84号《查令十字路84号》(英语:),是美国作家海伦·汉芙(Helene Hanff)于1970年撰写的一本书籍,书中集结了二十余年来,作者本人同英国伦敦的一名古书销售商法兰克·铎尔(Frank Doel)之间的书