贝尔曼方程

✍ dations ◷ 2025-12-11 17:10:18 #数学最佳化,方程,动态规划,控制理论


“贝尔曼方程(Bellman Equation)”也被称作“动态规划方程(Dynamic Programming Equation)”,由理查·贝尔曼(Richard Bellman)发现。贝尔曼方程是动态规划(Dynamic Programming)这种数学最佳化方法能够达到最佳化的必要条件。此方程将“决策问题在特定时间点的值”以“来自初始选择的报酬 及 由初始选择衍生的决策问题的值”的形式表示。藉这个方式将动态最佳化问题变成较简单的子问题,而这些子问题遵守由贝尔曼所提出的“最佳化原理”。

贝尔曼方程最早应用在工程领域的控制理论及其他应用数学领域,而后成为经济学上的重要工具。

几乎所有可以用最佳控制理论(Optimal Control Theory)解决的问题也可以透过分析合适的贝尔曼方程得到解决。然而,“贝尔曼方程”通常指离散时间(discrete-time)最佳化问题的动态规划方程。处理连续时间(continuous-time)最佳化问题上,也有类似的偏微分方程,称作汉弥尔顿-雅各比-贝尔曼方程(Hamilton–Jacobi–Bellman Equation, HJB Equation)。

想了解贝尔曼方程,要先了解许多相关概念。首先,任何最佳化问题都有目标:旅行时间最小化、成本最小化、利润最大化、效用最大化等。用来描述目标的数学函数就称为目标函数。

动态规划将多期规划问题转为不同时间点上较简单的步骤,因此,它需要追踪决策背景情况随时间的变化。作正确决策所需要当前情况的资讯被称作是“状态(State)”(贝尔曼,1957,Ch. III.2)。例如,为了决定每个时间要花多少钱,人们必须要知道他们初始财富的量,此例中财富就是一种“状态变数(State Variables)”,或简称“状态(State)”,当然也可能还有其他的种类。

从任意时点上所挑选以操作的变数通常称为“控制变数(Control Variables)”,或简称“控制(Control)”(控制理论中描述输入的变数)。例如给定现在所具有的财富(状态),人们便可以用以决定当下的消费(控制变数)。挑选当下的控制变数可被视为挑选下个状态,广义而言,下个状态受到当下控制变数及其他因子的影响。举个简单的例子:今天的财富(状态)及消费(控制变数)会决定明天的财富(新的状态),虽然通常也还有其他的因素可以影响明天的财富(例如获得意外之财)。

动态规划方法中利用“找寻某种规则告诉我们各可能状态下的(最佳)控制为何”来达成目标函数最佳化。例如:假设消费(c)只与财富(W)相关,我们想要找到一套规则 c ( W ) {\displaystyle c(W)} 来以财富描述消费。这些“将控制(Controls)表示成状态(States)的函数”的规则被称为策略函数(Policy Function)。

从定义可知,最佳化目标函数的策略乃是所有可能的策略函数中,其对应到目标函数值最佳者。沿用上述的例子,若某人利用给定的财富来消费以最大化快乐的感觉(这里假定“快乐的感觉”可以被数学函数描述,像是效用函数等),那么各种初始的财富便会对应到一个可能的最大快乐,表示成 H ( W ) {\displaystyle H(W)} 。这个最大的可能目标函数值(快乐的感觉),即是价值函数(Value Function)。

相关

  • 颈部僵硬颈部僵硬(英文:Neck Stiffness),又名落枕(“落”,拼音:lào,中医学病名)、失枕、瞓捩颈,西医上称作急性颈椎关节周围炎(Acute fibrositis)或颈部肌肉扭伤,伤者会感到头部转动困难,轻微扭动
  • 巴斯德研究所巴斯德研究院(法语:Institut Pasteur)总部位于巴黎,是法国的一个私立的非营利研究中心,致力于生物学、微生物学、疾病和疫苗的相关研究,其创建者路易·巴斯德于1885年研发出第一剂
  • A04A·B·C·D·G·H·QI·J·L·M·N·P·R·S·VATC代码A04(镇吐药和止呕药)是解剖学治疗学及化学分类系统的一个药物分组,这是由世界卫生组织药物统计方法整合中心(The WHO Coll
  • 非洲猪瘟病毒非洲猪瘟病毒科(学名:Asfarviridae)是双链DNA病毒中的一个科。非洲猪瘟病毒属(Asfivirus)是本科唯一的一个属,而与本科相关的Faustovirus(英语:Faustovirus)至今仍未分类。该类病毒主
  • 安守廉威廉·P·奥尔福德(英语:William P. Alford,1948 - ),汉名安守廉,是哈佛大学法学院教授,哈佛大学东亚法律研究中心主任,中国法专家。安守廉是他取的中文名字。安守廉1970年自阿默斯
  • 马岛隼马岛隼()是细小的猛禽。其学名是为纪念英国鸟类学家爱德华·纽顿(Edward Newton)。马岛隼有两个亚种,分别在马达加斯加及阿尔达布拉群岛。它们的最近亲是塞舌尔隼,曾一度被认为是
  • 叶时秀叶时秀,是中国清朝官员,于1815年上任台湾府经历,隶属于台湾道台湾府,为台湾清治时期的地方官员,官职品等则为正七品以下,该官职主要从事台湾府府内典簿奏章的收发与校注,也分掌章奏
  • 史蒂夫·乔布斯传《史蒂夫·乔布斯传》(英语:,ISBN 978-1-4516-4853-9)是沃尔特·艾萨克森撰写的苹果公司共同创办人史提夫·乔布斯生平传记,英文版由西蒙与舒斯特出版社出版。此书获得乔布斯本人
  • 春熙路街道春熙路街道,是中华人民共和国四川省成都市锦江区下辖的一个乡镇级行政单位。春熙路街道下辖以下地区:总府路社区、华兴街社区和岳府街社区。
  • 青山草太青山草太(1979年9月17日-),日本男演员。“青山草太”只是艺名,他并没有公开自己的原名。出身于日本岛根县的出云市。隶属 Newcome Inc. 公司。青山草太于2001年正式从模特儿转型