贝尔曼方程

✍ dations ◷ 2025-11-17 15:14:46 #数学最佳化,方程,动态规划,控制理论


“贝尔曼方程(Bellman Equation)”也被称作“动态规划方程(Dynamic Programming Equation)”,由理查·贝尔曼(Richard Bellman)发现。贝尔曼方程是动态规划(Dynamic Programming)这种数学最佳化方法能够达到最佳化的必要条件。此方程将“决策问题在特定时间点的值”以“来自初始选择的报酬 及 由初始选择衍生的决策问题的值”的形式表示。藉这个方式将动态最佳化问题变成较简单的子问题,而这些子问题遵守由贝尔曼所提出的“最佳化原理”。

贝尔曼方程最早应用在工程领域的控制理论及其他应用数学领域,而后成为经济学上的重要工具。

几乎所有可以用最佳控制理论(Optimal Control Theory)解决的问题也可以透过分析合适的贝尔曼方程得到解决。然而,“贝尔曼方程”通常指离散时间(discrete-time)最佳化问题的动态规划方程。处理连续时间(continuous-time)最佳化问题上,也有类似的偏微分方程,称作汉弥尔顿-雅各比-贝尔曼方程(Hamilton–Jacobi–Bellman Equation, HJB Equation)。

想了解贝尔曼方程,要先了解许多相关概念。首先,任何最佳化问题都有目标:旅行时间最小化、成本最小化、利润最大化、效用最大化等。用来描述目标的数学函数就称为目标函数。

动态规划将多期规划问题转为不同时间点上较简单的步骤,因此,它需要追踪决策背景情况随时间的变化。作正确决策所需要当前情况的资讯被称作是“状态(State)”(贝尔曼,1957,Ch. III.2)。例如,为了决定每个时间要花多少钱,人们必须要知道他们初始财富的量,此例中财富就是一种“状态变数(State Variables)”,或简称“状态(State)”,当然也可能还有其他的种类。

从任意时点上所挑选以操作的变数通常称为“控制变数(Control Variables)”,或简称“控制(Control)”(控制理论中描述输入的变数)。例如给定现在所具有的财富(状态),人们便可以用以决定当下的消费(控制变数)。挑选当下的控制变数可被视为挑选下个状态,广义而言,下个状态受到当下控制变数及其他因子的影响。举个简单的例子:今天的财富(状态)及消费(控制变数)会决定明天的财富(新的状态),虽然通常也还有其他的因素可以影响明天的财富(例如获得意外之财)。

动态规划方法中利用“找寻某种规则告诉我们各可能状态下的(最佳)控制为何”来达成目标函数最佳化。例如:假设消费(c)只与财富(W)相关,我们想要找到一套规则 c ( W ) {\displaystyle c(W)} 来以财富描述消费。这些“将控制(Controls)表示成状态(States)的函数”的规则被称为策略函数(Policy Function)。

从定义可知,最佳化目标函数的策略乃是所有可能的策略函数中,其对应到目标函数值最佳者。沿用上述的例子,若某人利用给定的财富来消费以最大化快乐的感觉(这里假定“快乐的感觉”可以被数学函数描述,像是效用函数等),那么各种初始的财富便会对应到一个可能的最大快乐,表示成 H ( W ) {\displaystyle H(W)} 。这个最大的可能目标函数值(快乐的感觉),即是价值函数(Value Function)。

相关

  • 红酒葡萄酒是古希腊人日常生活中最常饮用的饮料之一。古希腊时代已经出现了啤酒,但当时人认为这是下等人才喝的。最早关于葡萄酒的记载出现于《荷马史诗》中,当攻陷特洛伊的英雄奥
  • 国际基础药理学与临床药理学联合会国际基础药理学与临床药理学联合会(International Union of Basic Pharmacology and Clinical Pharmacology)是一个国际性的、自发非盈利组织。该组织的前身是国际药理学联合
  • 胡戈·科万塔伊胡戈·斯图姆伯格·科万塔伊(波兰语:Hugo Stumberg Kołłątaj,1750年4月1日-1812年2月24日)是一位波兰罗马天主教神父、社会活动家、政治活动家、政治思想家、历史学家和哲学家
  • 惨案重庆隧道惨案,又称大隧道惨案和六五大轰炸,发生于中日战争期间,当时重庆国民政府为躲避日军飞机的轰炸,挖掘了多条防空洞,大隧道是其中之一,位于市中心稍偏西的十八梯。1941年6月5
  • 卡普雷塞米开朗基罗卡普雷塞米开朗基罗,(意大利语:Caprese Michelangelo),旧称卡普雷塞(意大利语:Caprese),是意大利托斯卡纳大区阿雷佐省的一个市镇。卡普雷塞米开朗基罗在佛罗伦萨西约100公里处。这里
  • 外寄生物感染外寄生物感染是指主要由外寄生物引起的寄生虫病。外寄生物即暂时或永久寄生于宿主体表的寄生物。例如:治疗外寄生物感染常使用杀外寄生虫药(英语:ectoparasiticide),以杀死外寄生
  • 肉穗花序肉穗花序(英语:spadix)是植物学中的术语,为无限花序的一种。其结构类似于穗状花序,许多无梗单性小花密生于花轴之上。但与穗状花序不同的是,肉穗花序的花轴肥厚、多肉质。肉穗花序
  • Alexander Schleicher滑翔机制造公司Alexander Schleicher 滑翔机制造公司是一家德国的滑翔机制造商,位于德国黑森州的瓦瑟山麓波彭豪森。企业有105名员工,每年生产90到100架滑翔机,其中65%出口到其他国家。该公司
  • 八所口岸八所口岸是中国海南省对越南边界贸易的主要口岸,位于东方市。因越南热带雨林气候,该口岸的检疫工作对于防止有害生物入境有十分重要的作用。海关的业务管辖区域为东方市、昌江
  • 野上恒野上恒(日语:野上 恒/のがみ ひさし ,1971年-)是日本任天堂公司的一名电子游戏设计师、导演和制作人。野上恒因参与制作动物森友会系列、Splatoon系列等游戏而知名。1971年出生于