贝尔曼方程

✍ dations ◷ 2025-11-29 04:36:41 #数学最佳化,方程,动态规划,控制理论


“贝尔曼方程(Bellman Equation)”也被称作“动态规划方程(Dynamic Programming Equation)”,由理查·贝尔曼(Richard Bellman)发现。贝尔曼方程是动态规划(Dynamic Programming)这种数学最佳化方法能够达到最佳化的必要条件。此方程将“决策问题在特定时间点的值”以“来自初始选择的报酬 及 由初始选择衍生的决策问题的值”的形式表示。藉这个方式将动态最佳化问题变成较简单的子问题,而这些子问题遵守由贝尔曼所提出的“最佳化原理”。

贝尔曼方程最早应用在工程领域的控制理论及其他应用数学领域,而后成为经济学上的重要工具。

几乎所有可以用最佳控制理论(Optimal Control Theory)解决的问题也可以透过分析合适的贝尔曼方程得到解决。然而,“贝尔曼方程”通常指离散时间(discrete-time)最佳化问题的动态规划方程。处理连续时间(continuous-time)最佳化问题上,也有类似的偏微分方程,称作汉弥尔顿-雅各比-贝尔曼方程(Hamilton–Jacobi–Bellman Equation, HJB Equation)。

想了解贝尔曼方程,要先了解许多相关概念。首先,任何最佳化问题都有目标:旅行时间最小化、成本最小化、利润最大化、效用最大化等。用来描述目标的数学函数就称为目标函数。

动态规划将多期规划问题转为不同时间点上较简单的步骤,因此,它需要追踪决策背景情况随时间的变化。作正确决策所需要当前情况的资讯被称作是“状态(State)”(贝尔曼,1957,Ch. III.2)。例如,为了决定每个时间要花多少钱,人们必须要知道他们初始财富的量,此例中财富就是一种“状态变数(State Variables)”,或简称“状态(State)”,当然也可能还有其他的种类。

从任意时点上所挑选以操作的变数通常称为“控制变数(Control Variables)”,或简称“控制(Control)”(控制理论中描述输入的变数)。例如给定现在所具有的财富(状态),人们便可以用以决定当下的消费(控制变数)。挑选当下的控制变数可被视为挑选下个状态,广义而言,下个状态受到当下控制变数及其他因子的影响。举个简单的例子:今天的财富(状态)及消费(控制变数)会决定明天的财富(新的状态),虽然通常也还有其他的因素可以影响明天的财富(例如获得意外之财)。

动态规划方法中利用“找寻某种规则告诉我们各可能状态下的(最佳)控制为何”来达成目标函数最佳化。例如:假设消费(c)只与财富(W)相关,我们想要找到一套规则 c ( W ) {\displaystyle c(W)} 来以财富描述消费。这些“将控制(Controls)表示成状态(States)的函数”的规则被称为策略函数(Policy Function)。

从定义可知,最佳化目标函数的策略乃是所有可能的策略函数中,其对应到目标函数值最佳者。沿用上述的例子,若某人利用给定的财富来消费以最大化快乐的感觉(这里假定“快乐的感觉”可以被数学函数描述,像是效用函数等),那么各种初始的财富便会对应到一个可能的最大快乐,表示成 H ( W ) {\displaystyle H(W)} 。这个最大的可能目标函数值(快乐的感觉),即是价值函数(Value Function)。

相关

  • 系统命名法IUPAC命名法(英语:International Union of Pure and Applied Chemistry chemical nomenclature)包括国际纯化学和应用化学联合会(IUPAC)规定的一系列的命名法,它规定从有机到无机
  • 天庭天堂,有时也称为天国,字面意思即天上的殿堂、国度,很多宗教和心灵哲学认为人死后的生命形式将存在的处所。一般认为,天堂通常是出于人对于生死无常的恐惧和因果报应观念的产物,但
  • 政治大学化南新村政治大学化南新村,为早期国立政治大学于1960年代初期所兴建之教职员宿舍,现为台北市文化局登录之台北市文化资产,属于聚落建筑群,位于台北市文山区万兴里。同一时期,政大亦兴建其
  • 菲律宾自由邦菲律宾自由邦(英语:Commonwealth of the Philippines)是一个已不存在的政治实体。成立于1935年。在此之前为美属菲律宾(1898年-1935年),曾是美国的一个未合并领土;直至1946年菲律宾
  • 欢乐时空欢乐时空,全称欢乐时空文化传播有限公司,是一家与韩国合作成立的游戏公司,于2005年创立,于2008年关闭。2006年,欢乐时空与韩国游戏公司NDOORS签约,代理NDOORS开发的网络游戏《欢乐
  • 柴油引擎柴油引擎(英语:Diesel Engine)又名压燃式发动机,是内燃机的一种。其主要特征为使用压缩产生高压及高温点燃气化燃料,而毋须另外提供点火。柴油引擎使用的原理称为狄塞尔循环,为德
  • 迪拜购物中心酒店迪拜购物中心酒店(阿拉伯语:العنوان دبي مول‎)是一座位于阿拉伯联合酋长国迪拜的37层酒店。2009年9月9日正式开业。
  • 铯钟铯钟,又叫原子铯钟,是一种使用铯的精密的计时仪器。其发明者是美国人N·F·拉姆齐(Norman Foster Ramsey),他也因发明原子铯钟以及提出氢微波激射技术获得了1989年的诺贝尔物理学
  • 大周后周娥皇,即大周后(936年-965年),乃南唐司徒周宗长女,南唐后主李煜第一任皇后,与妹妹小周后都是钱塘美女。她十九岁时,与李煜成婚,生育清源郡公李仲寓、岐怀献王李仲宣与高阳公主。周娥
  • 总督 (古波斯)总督(波斯语:ساتراپ;英语:Satrap)指阿契美尼德(波斯)帝国和他们的继任者如萨珊帝国和希腊化帝国的总督职位。Satrap可能源自阿维斯陀语,类似于梵语Kshatrapa。古波斯语: ��������xša