贝尔曼方程

✍ dations ◷ 2025-11-30 20:07:10 #数学最佳化,方程,动态规划,控制理论


“贝尔曼方程(Bellman Equation)”也被称作“动态规划方程(Dynamic Programming Equation)”,由理查·贝尔曼(Richard Bellman)发现。贝尔曼方程是动态规划(Dynamic Programming)这种数学最佳化方法能够达到最佳化的必要条件。此方程将“决策问题在特定时间点的值”以“来自初始选择的报酬 及 由初始选择衍生的决策问题的值”的形式表示。藉这个方式将动态最佳化问题变成较简单的子问题,而这些子问题遵守由贝尔曼所提出的“最佳化原理”。

贝尔曼方程最早应用在工程领域的控制理论及其他应用数学领域,而后成为经济学上的重要工具。

几乎所有可以用最佳控制理论(Optimal Control Theory)解决的问题也可以透过分析合适的贝尔曼方程得到解决。然而,“贝尔曼方程”通常指离散时间(discrete-time)最佳化问题的动态规划方程。处理连续时间(continuous-time)最佳化问题上,也有类似的偏微分方程,称作汉弥尔顿-雅各比-贝尔曼方程(Hamilton–Jacobi–Bellman Equation, HJB Equation)。

想了解贝尔曼方程,要先了解许多相关概念。首先,任何最佳化问题都有目标:旅行时间最小化、成本最小化、利润最大化、效用最大化等。用来描述目标的数学函数就称为目标函数。

动态规划将多期规划问题转为不同时间点上较简单的步骤,因此,它需要追踪决策背景情况随时间的变化。作正确决策所需要当前情况的资讯被称作是“状态(State)”(贝尔曼,1957,Ch. III.2)。例如,为了决定每个时间要花多少钱,人们必须要知道他们初始财富的量,此例中财富就是一种“状态变数(State Variables)”,或简称“状态(State)”,当然也可能还有其他的种类。

从任意时点上所挑选以操作的变数通常称为“控制变数(Control Variables)”,或简称“控制(Control)”(控制理论中描述输入的变数)。例如给定现在所具有的财富(状态),人们便可以用以决定当下的消费(控制变数)。挑选当下的控制变数可被视为挑选下个状态,广义而言,下个状态受到当下控制变数及其他因子的影响。举个简单的例子:今天的财富(状态)及消费(控制变数)会决定明天的财富(新的状态),虽然通常也还有其他的因素可以影响明天的财富(例如获得意外之财)。

动态规划方法中利用“找寻某种规则告诉我们各可能状态下的(最佳)控制为何”来达成目标函数最佳化。例如:假设消费(c)只与财富(W)相关,我们想要找到一套规则 c ( W ) {\displaystyle c(W)} 来以财富描述消费。这些“将控制(Controls)表示成状态(States)的函数”的规则被称为策略函数(Policy Function)。

从定义可知,最佳化目标函数的策略乃是所有可能的策略函数中,其对应到目标函数值最佳者。沿用上述的例子,若某人利用给定的财富来消费以最大化快乐的感觉(这里假定“快乐的感觉”可以被数学函数描述,像是效用函数等),那么各种初始的财富便会对应到一个可能的最大快乐,表示成 H ( W ) {\displaystyle H(W)} 。这个最大的可能目标函数值(快乐的感觉),即是价值函数(Value Function)。

相关

  • 风险因子风险因子(Risk Factor),在流行病学中是与疾病或感染风险增加相关的变量。风险因子或决是因数是相关的,由相关不蕴涵因果可知,它们不一定是因果关系。例如,“年轻不能说是引起麻疹
  • IL31JLI3562n/aENSG00000164399n/aP08700n/aNM_000588n/aNP_000579n/a白细胞介素3(英语:Interleukin 3,IL-3)是一种蛋白质,在人体中由IL 3 基因编码。白细胞介素3是白介素,一个类生
  • 台北荣总坐标:25°07′16″N 121°31′08″E / 25.12119°N 121.51892°E / 25.12119; 121.51892台北荣民总医院(简称台北荣总、北荣)(英语:Taipei Veterans General Hospital)是一家位于
  • 闭锁式循环循环系统(英语:circulatory system),也称为心血管系统(英语:cardiovascular system)或血管系统(英语:vascular system)是负责血液循环,在细胞间传送养分(如氨基酸及电解质)、氧气、二氧化
  • 叛舰喋血记 (1935年电影)《叛舰喋血记》(英语:)是一部1935年上映的美国电影,由弗兰克·洛伊德执导,改编自查尔斯·诺德霍夫(英语:Charles Nordhoff)和詹姆斯·诺曼·霍尔(英语:James Norman Hall)的小说《》。
  • 愒人愒人或凯特人(俄语:Кеты,英语:Kets),是居住在西伯利亚的一支操愒语的民族。在沙皇俄国时期,被称作“奥斯蒂亚克人(汉特人)”,并未从其它西伯利亚民族中区分出来。随后,又被称作“叶
  • 克利福德代数克利福德代数(Clifford algebra),又称几何代数(Geometric algebra),是综合了内积和外积两种运算,在几何和物理中在很多应用的一门数学学科。克利福德代数是复数、四元数和外代数的
  • 水密隔舱水密隔舱(Watertight compartments),亦作水密舱室或防水舱,是船舱(英语:Cabin (ship))的安全结构设计,其位于船体内,是船身内部经水密舱壁所区隔划出的多间独立舱室(英语:Compartment (
  • 花鹿花鹿,别名斑鹿,白斑鹿(),是属于鹿科的一种,生活在斯里兰卡,尼泊尔,孟加拉国,和印度的森林地带。是印度森林中最常见的鹿种。背面浅红褐色,具斑点,腹面白色。雄鹿生角,分三叉,可长大75厘米
  • 大步小步算法在群论中,大步小步算法(英语:baby-step giant-step)是丹尼尔·尚克斯(英语:Daniel Shanks)发明的一种中途相遇算法,用于计算离散对数或者有限阿贝尔群的阶。其中离散对数问题在公钥