贝尔曼方程

✍ dations ◷ 2025-09-14 14:38:51 #数学最佳化,方程,动态规划,控制理论


“贝尔曼方程(Bellman Equation)”也被称作“动态规划方程(Dynamic Programming Equation)”,由理查·贝尔曼(Richard Bellman)发现。贝尔曼方程是动态规划(Dynamic Programming)这种数学最佳化方法能够达到最佳化的必要条件。此方程将“决策问题在特定时间点的值”以“来自初始选择的报酬 及 由初始选择衍生的决策问题的值”的形式表示。藉这个方式将动态最佳化问题变成较简单的子问题,而这些子问题遵守由贝尔曼所提出的“最佳化原理”。

贝尔曼方程最早应用在工程领域的控制理论及其他应用数学领域,而后成为经济学上的重要工具。

几乎所有可以用最佳控制理论(Optimal Control Theory)解决的问题也可以透过分析合适的贝尔曼方程得到解决。然而,“贝尔曼方程”通常指离散时间(discrete-time)最佳化问题的动态规划方程。处理连续时间(continuous-time)最佳化问题上,也有类似的偏微分方程,称作汉弥尔顿-雅各比-贝尔曼方程(Hamilton–Jacobi–Bellman Equation, HJB Equation)。

想了解贝尔曼方程,要先了解许多相关概念。首先,任何最佳化问题都有目标:旅行时间最小化、成本最小化、利润最大化、效用最大化等。用来描述目标的数学函数就称为目标函数。

动态规划将多期规划问题转为不同时间点上较简单的步骤,因此,它需要追踪决策背景情况随时间的变化。作正确决策所需要当前情况的资讯被称作是“状态(State)”(贝尔曼,1957,Ch. III.2)。例如,为了决定每个时间要花多少钱,人们必须要知道他们初始财富的量,此例中财富就是一种“状态变数(State Variables)”,或简称“状态(State)”,当然也可能还有其他的种类。

从任意时点上所挑选以操作的变数通常称为“控制变数(Control Variables)”,或简称“控制(Control)”(控制理论中描述输入的变数)。例如给定现在所具有的财富(状态),人们便可以用以决定当下的消费(控制变数)。挑选当下的控制变数可被视为挑选下个状态,广义而言,下个状态受到当下控制变数及其他因子的影响。举个简单的例子:今天的财富(状态)及消费(控制变数)会决定明天的财富(新的状态),虽然通常也还有其他的因素可以影响明天的财富(例如获得意外之财)。

动态规划方法中利用“找寻某种规则告诉我们各可能状态下的(最佳)控制为何”来达成目标函数最佳化。例如:假设消费(c)只与财富(W)相关,我们想要找到一套规则 c ( W ) {\displaystyle c(W)} 来以财富描述消费。这些“将控制(Controls)表示成状态(States)的函数”的规则被称为策略函数(Policy Function)。

从定义可知,最佳化目标函数的策略乃是所有可能的策略函数中,其对应到目标函数值最佳者。沿用上述的例子,若某人利用给定的财富来消费以最大化快乐的感觉(这里假定“快乐的感觉”可以被数学函数描述,像是效用函数等),那么各种初始的财富便会对应到一个可能的最大快乐,表示成 H ( W ) {\displaystyle H(W)} 。这个最大的可能目标函数值(快乐的感觉),即是价值函数(Value Function)。

相关

  • 冰雹雹或冰雹(英语:Hail)属于突发性天然灾害,是一种固态降水物,是圆形或圆锥形的冰块,由透明层和不透明层相间组成;直径一般为 5~50毫米,大的则可达到10厘米以上。冰雹是在对流云所形成的
  • 明史《明史》是二十四史中的最后一部,是一部纪传体的史书。清朝明史馆官修,张廷玉等主撰,全书共三百三十二卷,计本纪二十四卷、志七十五卷、表十三卷、列传二百二十卷;记明代史事,起自
  • 莱昂内尔·彭罗斯莱昂内尔·彭罗斯(英语:Lionel Penrose,1898年6月11日-1972年5月12日),英国精神病学家、遗传学家、数学家、国际象棋理论家。彭罗斯毕业于剑桥大学圣约翰学院,是剑桥使徒的一员。他
  • 中国秘密宗教传统宗教仪式:神明秘密社会:中国秘密宗教,系统庞杂,多数为三教合流,融合佛教与儒家、道教信仰。以明朝罗思孚开创的罗教影响最大,几乎影响了所有教派。秘密宗教信仰中,常借由扶乩、
  • 加利福尼亚大学洛杉矶分校粉蓝色和金色加利福尼亚大学洛杉矶分校(英语:University of California, Los Angeles),简称加州大学洛杉矶分校(UCLA),是一所位于美国加利福尼亚州洛杉矶的公立研究型大学,创办于191
  • 阿布米奈教堂阿布米那(阿拉伯语:أبو مينا‎),又译作阿布米奈,是埃及的一座基督教圣城,位于亚历山大港西南部约45公里。1979年列入联合国教科文组织世界遗产名录,登录名称为阿布米那基督
  • 学习曲线学习曲线是对某种活动或工具的学习速率(平均情况)的图形化表示。一般来说,刚开始时掌握信息的速率曲线最为陡峭,之后则逐渐变得平缓,这表明之后的学习过程中对新信息的掌握速率会
  • 反阿拉伯情绪反阿拉伯主义,或称阿拉伯恐惧症,是指对阿拉伯人的偏见或敌视。反阿拉伯主义常与伊斯兰恐惧症(Islamophobia)混淆,其实阿拉伯人当中也存在非伊斯兰宗教团体和非主流伊斯兰教派,特别
  • 万拉峇鲁县万拉峇鲁县(马来语:Daerah Bandar Baharu),是马来西亚吉打州东南部的一个县。其面积为271.27平方公里,人口于2010年为42,341。该县北临居林县,西临槟城州威南县,东临霹雳州拉律峇登
  • 东海北陆自动车道 */?)是日本由起点爱知县一宫市经岐阜县至富山县砺波市,纵断东海地方与北陆地方的高速公路(高速自动车国道)。略称东海北陆道(TOKAI-HOKURIKU EXPWAY)。国土开发干线自动车道预定