贝尔曼方程

✍ dations ◷ 2025-09-11 07:32:15 #数学最佳化,方程,动态规划,控制理论


“贝尔曼方程(Bellman Equation)”也被称作“动态规划方程(Dynamic Programming Equation)”,由理查·贝尔曼(Richard Bellman)发现。贝尔曼方程是动态规划(Dynamic Programming)这种数学最佳化方法能够达到最佳化的必要条件。此方程将“决策问题在特定时间点的值”以“来自初始选择的报酬 及 由初始选择衍生的决策问题的值”的形式表示。藉这个方式将动态最佳化问题变成较简单的子问题,而这些子问题遵守由贝尔曼所提出的“最佳化原理”。

贝尔曼方程最早应用在工程领域的控制理论及其他应用数学领域,而后成为经济学上的重要工具。

几乎所有可以用最佳控制理论(Optimal Control Theory)解决的问题也可以透过分析合适的贝尔曼方程得到解决。然而,“贝尔曼方程”通常指离散时间(discrete-time)最佳化问题的动态规划方程。处理连续时间(continuous-time)最佳化问题上,也有类似的偏微分方程,称作汉弥尔顿-雅各比-贝尔曼方程(Hamilton–Jacobi–Bellman Equation, HJB Equation)。

想了解贝尔曼方程,要先了解许多相关概念。首先,任何最佳化问题都有目标:旅行时间最小化、成本最小化、利润最大化、效用最大化等。用来描述目标的数学函数就称为目标函数。

动态规划将多期规划问题转为不同时间点上较简单的步骤,因此,它需要追踪决策背景情况随时间的变化。作正确决策所需要当前情况的资讯被称作是“状态(State)”(贝尔曼,1957,Ch. III.2)。例如,为了决定每个时间要花多少钱,人们必须要知道他们初始财富的量,此例中财富就是一种“状态变数(State Variables)”,或简称“状态(State)”,当然也可能还有其他的种类。

从任意时点上所挑选以操作的变数通常称为“控制变数(Control Variables)”,或简称“控制(Control)”(控制理论中描述输入的变数)。例如给定现在所具有的财富(状态),人们便可以用以决定当下的消费(控制变数)。挑选当下的控制变数可被视为挑选下个状态,广义而言,下个状态受到当下控制变数及其他因子的影响。举个简单的例子:今天的财富(状态)及消费(控制变数)会决定明天的财富(新的状态),虽然通常也还有其他的因素可以影响明天的财富(例如获得意外之财)。

动态规划方法中利用“找寻某种规则告诉我们各可能状态下的(最佳)控制为何”来达成目标函数最佳化。例如:假设消费(c)只与财富(W)相关,我们想要找到一套规则 c ( W ) {\displaystyle c(W)} 来以财富描述消费。这些“将控制(Controls)表示成状态(States)的函数”的规则被称为策略函数(Policy Function)。

从定义可知,最佳化目标函数的策略乃是所有可能的策略函数中,其对应到目标函数值最佳者。沿用上述的例子,若某人利用给定的财富来消费以最大化快乐的感觉(这里假定“快乐的感觉”可以被数学函数描述,像是效用函数等),那么各种初始的财富便会对应到一个可能的最大快乐,表示成 H ( W ) {\displaystyle H(W)} 。这个最大的可能目标函数值(快乐的感觉),即是价值函数(Value Function)。

相关

  • 血液循环循环系统(英语:circulatory system),也称为心血管系统(英语:cardiovascular system)或血管系统(英语:vascular system)是负责血液循环,在细胞间传送养分(如氨基酸及电解质)、氧气、二氧化
  • 维京时代北方日耳曼人从公元790年开始扩张,直到公元1066年丹麦人的后裔征服英格兰,一般称之为“维京时代”,是欧洲古典时代和中世纪之间的过渡时期。维京人是著名的航海家,他们在昔德兰
  • 乙酸铀酰乙酸铀酰(UO2(CH3COO)2·2H2O)是铀的乙酸盐,是由黄绿色斜方晶体组成的黄绿色结晶固体,带有轻微的醋酸气味。乙酸铀酰有轻微的放射性,其放射性的精确数值取决于所含铀的同位素。
  • 北方七年战争丹麦-挪威 吕贝克第一次北方战争,又称北方七年战争,1563年至1570年期间,发生在瑞典与丹麦、吕贝克、波兰立陶宛联邦之间的战争。战争的主角是瑞典和丹麦,战争的动因是争夺波罗
  • 异涡虫见内文异涡虫(学名:Xenoturbella) 是一类生活在海底极简单的两侧对称动物,现在仅知1属8种,分布于波罗的海和太平洋东部。第一个物种于1915年首次被发现。这种生物早在1949年就被
  • 恒安石恒安石(Arthur W. Hummel Jr.,1920年6月1日-2001年2月6日),美国著名外交官。林登·约翰逊吉米·卡特恒安石出生在中国山西省汾阳,父亲恒慕义是一位公理会传教士,也是一位汉学家,担任
  • 无线电话无线电话可以指:
  • 脑穹窿脑穹窿(英文:Fornix of the brain),是起自海马内侧的连合纤维,弓形向后上至胼胝体下方,在中线两侧合成穹窿体,再向前分开形成两侧的穹窿柱,分别止于乳头体。穹窿破坏术是颞叶癫痫手
  • 高地德语高地德语(德语:Hochdeutsche Sprachen)泛指今日的标准德语及各种德语方言,包括:卢森堡语及意第绪语,以及各种在德国中、南部和奥地利、列支敦士登、瑞士、卢森堡等地、邻近德国的
  • 巴拉巴鞑靼人巴拉巴鞑靼人是西伯利亚鞑靼人中的一支。他们说鞑靼语东部方言。因分布在巴拉巴草原,被称为巴拉宾斯克鞑靼人。他们曾被准噶尔与俄国勒索而上缴毛皮税。1990年,全族大约有1500