贝尔曼方程

✍ dations ◷ 2025-12-01 09:31:13 #数学最佳化,方程,动态规划,控制理论


“贝尔曼方程(Bellman Equation)”也被称作“动态规划方程(Dynamic Programming Equation)”,由理查·贝尔曼(Richard Bellman)发现。贝尔曼方程是动态规划(Dynamic Programming)这种数学最佳化方法能够达到最佳化的必要条件。此方程将“决策问题在特定时间点的值”以“来自初始选择的报酬 及 由初始选择衍生的决策问题的值”的形式表示。藉这个方式将动态最佳化问题变成较简单的子问题,而这些子问题遵守由贝尔曼所提出的“最佳化原理”。

贝尔曼方程最早应用在工程领域的控制理论及其他应用数学领域,而后成为经济学上的重要工具。

几乎所有可以用最佳控制理论(Optimal Control Theory)解决的问题也可以透过分析合适的贝尔曼方程得到解决。然而,“贝尔曼方程”通常指离散时间(discrete-time)最佳化问题的动态规划方程。处理连续时间(continuous-time)最佳化问题上,也有类似的偏微分方程,称作汉弥尔顿-雅各比-贝尔曼方程(Hamilton–Jacobi–Bellman Equation, HJB Equation)。

想了解贝尔曼方程,要先了解许多相关概念。首先,任何最佳化问题都有目标:旅行时间最小化、成本最小化、利润最大化、效用最大化等。用来描述目标的数学函数就称为目标函数。

动态规划将多期规划问题转为不同时间点上较简单的步骤,因此,它需要追踪决策背景情况随时间的变化。作正确决策所需要当前情况的资讯被称作是“状态(State)”(贝尔曼,1957,Ch. III.2)。例如,为了决定每个时间要花多少钱,人们必须要知道他们初始财富的量,此例中财富就是一种“状态变数(State Variables)”,或简称“状态(State)”,当然也可能还有其他的种类。

从任意时点上所挑选以操作的变数通常称为“控制变数(Control Variables)”,或简称“控制(Control)”(控制理论中描述输入的变数)。例如给定现在所具有的财富(状态),人们便可以用以决定当下的消费(控制变数)。挑选当下的控制变数可被视为挑选下个状态,广义而言,下个状态受到当下控制变数及其他因子的影响。举个简单的例子:今天的财富(状态)及消费(控制变数)会决定明天的财富(新的状态),虽然通常也还有其他的因素可以影响明天的财富(例如获得意外之财)。

动态规划方法中利用“找寻某种规则告诉我们各可能状态下的(最佳)控制为何”来达成目标函数最佳化。例如:假设消费(c)只与财富(W)相关,我们想要找到一套规则 c ( W ) {\displaystyle c(W)} 来以财富描述消费。这些“将控制(Controls)表示成状态(States)的函数”的规则被称为策略函数(Policy Function)。

从定义可知,最佳化目标函数的策略乃是所有可能的策略函数中,其对应到目标函数值最佳者。沿用上述的例子,若某人利用给定的财富来消费以最大化快乐的感觉(这里假定“快乐的感觉”可以被数学函数描述,像是效用函数等),那么各种初始的财富便会对应到一个可能的最大快乐,表示成 H ( W ) {\displaystyle H(W)} 。这个最大的可能目标函数值(快乐的感觉),即是价值函数(Value Function)。

相关

  • Am5f7 7s22, 8, 18, 32, 25, 8, 2主条目:镅的同位素镅(Americium,台湾译作鋂)是一种放射性超铀元素,符号为Am,原子序为95。镅属于锕系元素,在元素周期表中位于镧系元素铕之下。镅是以
  • 凯恩斯主义凯恩斯经济学(英语:Keynesian economics),或凯恩斯主义(英语:Keynesianism),凯恩斯理论(英语:Keynesian theory),是根据英国经济学家约翰·梅纳德·凯恩斯的著作《就业、利息和货币通论
  • 白氏树蛙白氏树蛙(学名:Litoria caerulea),别称老爷树蛙、绿雨滨蛙,是一种原产于澳大利亚和新几内亚岛的树蛙,后被引入至美国和新西兰。白氏树蛙属雨滨蛙属(Litoria),它在生理学分类上很接近
  • 马克斯·冯·劳厄马克斯·冯·劳厄(德语:Max von Laue,1879年10月9日-1960年4月24日),德国物理学家,因发现晶体中X射线的衍射现象而获得1914年诺贝尔物理学奖。1879年10月9日,马克斯·劳厄出生于科布
  • 廖正良廖正良(1961年6月-),湖南宁乡人,汉族,中国共产党党员‎。中华人民共和国政治人物、第十三届全国人民代表大会解放军和武警部队代表。2018年,廖正良被选为解放军和武警部队出席第十
  • 溜,也称熘,是一种烹调方法,常见于中国北方。溜一般是将主料炸(有的时候为炒)过后,另起锅,放入主料,加上勾芡的调味汁(称为卤汁)而成。卤汁主要分红汁和白汁两大类。红汁为鲜醇的复合味
  • 硬水软化硬水软化是降低水硬度的操作,可以将硬水软化为软水。硬水软化可以提高水使用的安全性。常见硬水软化主要方法有煮沸、蒸馏等,工业上也有用药剂软化。将水煮沸,可将部分钙镁离子
  • 刘邦友血案刘邦友血案发生于1996年11月21日早晨,桃园县县长官邸的一起震惊台湾社会的枪击杀人案件,造成八死一重伤,其中包括桃园县长刘邦友本人。刘邦友也因而成为台湾地方自治史上第一位
  • 澳大利亚LGBT权益澳大利亚的LGBT人群免受歧视并享有与其他人相同的权利和责任。1975年至1997年间,各州和地区逐步废除可追溯到大英帝国时代的反同性恋法律。澳大利亚于2017年12月9日将同性婚
  • 卢耀如卢耀如(1931年5月1日-),中国水文地质学家及工程地质学家,同济大学教授,中国工程院院士。出生于福建省福州市。1950年考入清华大学地质系,1952年院校调整入北京地质学院,1953年提前毕