贝尔曼方程

✍ dations ◷ 2025-12-04 02:03:17 #数学最佳化,方程,动态规划,控制理论


“贝尔曼方程(Bellman Equation)”也被称作“动态规划方程(Dynamic Programming Equation)”,由理查·贝尔曼(Richard Bellman)发现。贝尔曼方程是动态规划(Dynamic Programming)这种数学最佳化方法能够达到最佳化的必要条件。此方程将“决策问题在特定时间点的值”以“来自初始选择的报酬 及 由初始选择衍生的决策问题的值”的形式表示。藉这个方式将动态最佳化问题变成较简单的子问题,而这些子问题遵守由贝尔曼所提出的“最佳化原理”。

贝尔曼方程最早应用在工程领域的控制理论及其他应用数学领域,而后成为经济学上的重要工具。

几乎所有可以用最佳控制理论(Optimal Control Theory)解决的问题也可以透过分析合适的贝尔曼方程得到解决。然而,“贝尔曼方程”通常指离散时间(discrete-time)最佳化问题的动态规划方程。处理连续时间(continuous-time)最佳化问题上,也有类似的偏微分方程,称作汉弥尔顿-雅各比-贝尔曼方程(Hamilton–Jacobi–Bellman Equation, HJB Equation)。

想了解贝尔曼方程,要先了解许多相关概念。首先,任何最佳化问题都有目标:旅行时间最小化、成本最小化、利润最大化、效用最大化等。用来描述目标的数学函数就称为目标函数。

动态规划将多期规划问题转为不同时间点上较简单的步骤,因此,它需要追踪决策背景情况随时间的变化。作正确决策所需要当前情况的资讯被称作是“状态(State)”(贝尔曼,1957,Ch. III.2)。例如,为了决定每个时间要花多少钱,人们必须要知道他们初始财富的量,此例中财富就是一种“状态变数(State Variables)”,或简称“状态(State)”,当然也可能还有其他的种类。

从任意时点上所挑选以操作的变数通常称为“控制变数(Control Variables)”,或简称“控制(Control)”(控制理论中描述输入的变数)。例如给定现在所具有的财富(状态),人们便可以用以决定当下的消费(控制变数)。挑选当下的控制变数可被视为挑选下个状态,广义而言,下个状态受到当下控制变数及其他因子的影响。举个简单的例子:今天的财富(状态)及消费(控制变数)会决定明天的财富(新的状态),虽然通常也还有其他的因素可以影响明天的财富(例如获得意外之财)。

动态规划方法中利用“找寻某种规则告诉我们各可能状态下的(最佳)控制为何”来达成目标函数最佳化。例如:假设消费(c)只与财富(W)相关,我们想要找到一套规则 c ( W ) {\displaystyle c(W)} 来以财富描述消费。这些“将控制(Controls)表示成状态(States)的函数”的规则被称为策略函数(Policy Function)。

从定义可知,最佳化目标函数的策略乃是所有可能的策略函数中,其对应到目标函数值最佳者。沿用上述的例子,若某人利用给定的财富来消费以最大化快乐的感觉(这里假定“快乐的感觉”可以被数学函数描述,像是效用函数等),那么各种初始的财富便会对应到一个可能的最大快乐,表示成 H ( W ) {\displaystyle H(W)} 。这个最大的可能目标函数值(快乐的感觉),即是价值函数(Value Function)。

相关

  • 观音洞文化观音洞可以指供奉观音的寺庙(多位于洞窟内),还有以此为名的地名及设施:
  • 三韩县三韩县是辽代、金代的一个县。所谓三韩,是辰韩、弁韩、马韩。辽人认为辰韩为扶馀,弁韩为新罗(与北史记载不同),马韩为高丽。开泰年间,辽圣宗攻打高丽,将高丽俘虏安置于此,设立三韩县
  • 斑点鬣狗斑鬣狗(学名:Crocuta crocuta),又名斑点鬣狗、斑点土狼,是食肉目下的哺乳动物,为斑鬣狗属下唯一的现存种。它们体形中等偏大,是陆地上的肉食性动物,栖息地位于撒哈拉以南非洲。由于
  • 出租车司机出租车司机,粤语又称作“的士佬”、“的哥”、“出租车狗”,但带有贬义,是一种职业,以驾驶出租车为业的司机,按付车资的顾客指示,载送乘客到目的地,又或者包车、游车河等。出租车司
  • 乙酸氯乙酸氯是一种化合物,化学式为CH3COOCl,可由氯气的乙酸溶液和干燥的乙酸汞反应得到。它可用于在有机化合物中引入乙酸酯基(CH3C(=O)O-),如和2-氯-4-甲基苯甲醇反应,得到乙酸(2-氯-4
  • 食品科学与工程食品科学与工程属于工学,其门类为轻工纺织食品类 。其培养目标为培养具有化学、生物学、食品工程和食品技术知识,能在食品领域内从事食品生产技术管理、品质控制、产品开发、
  • 艾萨克·巴罗艾萨克·巴罗(Isaac Barrow,1630年10月-1677年5月4日),英国伦敦人,知名数学家。1643年进入剑桥大学三一学院,1648年获学士学位,1649年当选为三一学院院委,1662年任伦敦格雷沙姆几何教
  • 帕兹·维嘉帕兹·维嘉(Paz Vega .mw-parser-output .IPA{font-family:"Charis SIL","Doulos SIL","Linux Libertine","Segoe UI","Lucida Sans Unicode","Code2000","Gentium","Gentium
  • 严岛坐标:34°16′24.2″N 132°18′30.06″E / 34.273389°N 132.3083500°E / 34.273389; 132.3083500严岛(日语:厳島/いつくしま  */?)是位于日本濑户内海广岛湾(日语:広島湾)西部
  • 山下俊一山下俊一(罗马字:Shunichi Yamashita, 1952年~)是日本医学者。他担任长崎大学大学院医歯薬学総合研究科长,永井隆纪念国际被爆者医疗中心所长。2011年7月以后,他还担任福岛医科大