贝尔曼方程

✍ dations ◷ 2025-12-04 14:09:36 #数学最佳化,方程,动态规划,控制理论


“贝尔曼方程(Bellman Equation)”也被称作“动态规划方程(Dynamic Programming Equation)”,由理查·贝尔曼(Richard Bellman)发现。贝尔曼方程是动态规划(Dynamic Programming)这种数学最佳化方法能够达到最佳化的必要条件。此方程将“决策问题在特定时间点的值”以“来自初始选择的报酬 及 由初始选择衍生的决策问题的值”的形式表示。藉这个方式将动态最佳化问题变成较简单的子问题,而这些子问题遵守由贝尔曼所提出的“最佳化原理”。

贝尔曼方程最早应用在工程领域的控制理论及其他应用数学领域,而后成为经济学上的重要工具。

几乎所有可以用最佳控制理论(Optimal Control Theory)解决的问题也可以透过分析合适的贝尔曼方程得到解决。然而,“贝尔曼方程”通常指离散时间(discrete-time)最佳化问题的动态规划方程。处理连续时间(continuous-time)最佳化问题上,也有类似的偏微分方程,称作汉弥尔顿-雅各比-贝尔曼方程(Hamilton–Jacobi–Bellman Equation, HJB Equation)。

想了解贝尔曼方程,要先了解许多相关概念。首先,任何最佳化问题都有目标:旅行时间最小化、成本最小化、利润最大化、效用最大化等。用来描述目标的数学函数就称为目标函数。

动态规划将多期规划问题转为不同时间点上较简单的步骤,因此,它需要追踪决策背景情况随时间的变化。作正确决策所需要当前情况的资讯被称作是“状态(State)”(贝尔曼,1957,Ch. III.2)。例如,为了决定每个时间要花多少钱,人们必须要知道他们初始财富的量,此例中财富就是一种“状态变数(State Variables)”,或简称“状态(State)”,当然也可能还有其他的种类。

从任意时点上所挑选以操作的变数通常称为“控制变数(Control Variables)”,或简称“控制(Control)”(控制理论中描述输入的变数)。例如给定现在所具有的财富(状态),人们便可以用以决定当下的消费(控制变数)。挑选当下的控制变数可被视为挑选下个状态,广义而言,下个状态受到当下控制变数及其他因子的影响。举个简单的例子:今天的财富(状态)及消费(控制变数)会决定明天的财富(新的状态),虽然通常也还有其他的因素可以影响明天的财富(例如获得意外之财)。

动态规划方法中利用“找寻某种规则告诉我们各可能状态下的(最佳)控制为何”来达成目标函数最佳化。例如:假设消费(c)只与财富(W)相关,我们想要找到一套规则 c ( W ) {\displaystyle c(W)} 来以财富描述消费。这些“将控制(Controls)表示成状态(States)的函数”的规则被称为策略函数(Policy Function)。

从定义可知,最佳化目标函数的策略乃是所有可能的策略函数中,其对应到目标函数值最佳者。沿用上述的例子,若某人利用给定的财富来消费以最大化快乐的感觉(这里假定“快乐的感觉”可以被数学函数描述,像是效用函数等),那么各种初始的财富便会对应到一个可能的最大快乐,表示成 H ( W ) {\displaystyle H(W)} 。这个最大的可能目标函数值(快乐的感觉),即是价值函数(Value Function)。

相关

  • 历史性火灾列表该列表主要包含被人类所记载的、对人类破坏较为严重的火灾,许多规模庞大的森林大火都没有包含在内。
  • 霍勒斯·格里利霍勒斯·格里利(Horace Greeley,1811年2月3日-1872年11月29日),美国著名报人,编辑。《纽约论坛报》的创办者。自由共和党的资助人之一,政治改革家。1840年代到1870年代论坛报在其主
  • 上海菜上海菜,简称沪菜,而本帮菜狭义即指上海菜(菜系又称“帮菜”,若以上海人为视角,自然称上海菜为“本帮菜”),为发源于上海本地的一种菜系,广义的上海菜是以“本帮菜”为主吸收各派之长
  • 城子河组城子河组是位于中国黑龙江省的下白垩世地层,1963年由陈广雅命名。该地层以灰白色中细粒砂岩、粉砂岩为主,间夹灰黑色泥岩、凝灰岩以及煤层等。
  • 雅库布·希尔基古斯雅库布·希尔基古斯(斯洛伐克语:;1989年2月2日-)是一位斯洛伐克足球运动员。在场上的位置是前锋。他现在效力于德国足球甲级联赛球队纽伦堡足球俱乐部。他也代表斯洛伐克国家足球
  • 阿贝·阿希提卡阿贝·瓦桑特·阿希提卡(英语:Abhay Vasant Ashtekar,1949年7月5日-)是一名印度理论物理学家。他是宾州州立大学引力与宇宙研究所的领导者,同时也是一名物理教授。作为阿希提卡变
  • MS-07系列机动战士 MS-07系列机动战士,代号老虎(拉丁字母:Gouf/日语:グフ)是使用UC纪元世界观的动画高达系列作品中出现的一种虚构兵器。在一年战争初期,地球联邦军并没有机动战
  • 伊野波雅彦伊野波雅彦(1985年8月28日-),日本足球运动员,现效力横滨FC,司职中场及后卫,前日本国家足球队成员。中学时代,伊野波雅彦已经加入为生目台中学(日语:宮崎市立生目台中学校)足球队成员,并
  • 郝尔拜奖郝尔拜奖(挪威语:Holbergprisen)是挪威政府于2003年创立的学术奖,表彰在人文、艺术、社会科学、法学和神学等领域有贡献的个人。奖项以挪威十八世纪伟大的文学家、哲学家、历史
  • 锦织惠美锦织惠美(日语:錦織 えみ/にしこおり えみ ,1993年1月9日-),岛根县出生,日本女子曲棍球运动员,亦为日本国家女子曲棍球队成员。毕业于岛根県立横田高校。2011年4月1日起加入可口可乐