贝尔曼方程

✍ dations ◷ 2025-11-05 16:39:08 #数学最佳化,方程,动态规划,控制理论


“贝尔曼方程(Bellman Equation)”也被称作“动态规划方程(Dynamic Programming Equation)”,由理查·贝尔曼(Richard Bellman)发现。贝尔曼方程是动态规划(Dynamic Programming)这种数学最佳化方法能够达到最佳化的必要条件。此方程将“决策问题在特定时间点的值”以“来自初始选择的报酬 及 由初始选择衍生的决策问题的值”的形式表示。藉这个方式将动态最佳化问题变成较简单的子问题,而这些子问题遵守由贝尔曼所提出的“最佳化原理”。

贝尔曼方程最早应用在工程领域的控制理论及其他应用数学领域,而后成为经济学上的重要工具。

几乎所有可以用最佳控制理论(Optimal Control Theory)解决的问题也可以透过分析合适的贝尔曼方程得到解决。然而,“贝尔曼方程”通常指离散时间(discrete-time)最佳化问题的动态规划方程。处理连续时间(continuous-time)最佳化问题上,也有类似的偏微分方程,称作汉弥尔顿-雅各比-贝尔曼方程(Hamilton–Jacobi–Bellman Equation, HJB Equation)。

想了解贝尔曼方程,要先了解许多相关概念。首先,任何最佳化问题都有目标:旅行时间最小化、成本最小化、利润最大化、效用最大化等。用来描述目标的数学函数就称为目标函数。

动态规划将多期规划问题转为不同时间点上较简单的步骤,因此,它需要追踪决策背景情况随时间的变化。作正确决策所需要当前情况的资讯被称作是“状态(State)”(贝尔曼,1957,Ch. III.2)。例如,为了决定每个时间要花多少钱,人们必须要知道他们初始财富的量,此例中财富就是一种“状态变数(State Variables)”,或简称“状态(State)”,当然也可能还有其他的种类。

从任意时点上所挑选以操作的变数通常称为“控制变数(Control Variables)”,或简称“控制(Control)”(控制理论中描述输入的变数)。例如给定现在所具有的财富(状态),人们便可以用以决定当下的消费(控制变数)。挑选当下的控制变数可被视为挑选下个状态,广义而言,下个状态受到当下控制变数及其他因子的影响。举个简单的例子:今天的财富(状态)及消费(控制变数)会决定明天的财富(新的状态),虽然通常也还有其他的因素可以影响明天的财富(例如获得意外之财)。

动态规划方法中利用“找寻某种规则告诉我们各可能状态下的(最佳)控制为何”来达成目标函数最佳化。例如:假设消费(c)只与财富(W)相关,我们想要找到一套规则 c ( W ) {\displaystyle c(W)} 来以财富描述消费。这些“将控制(Controls)表示成状态(States)的函数”的规则被称为策略函数(Policy Function)。

从定义可知,最佳化目标函数的策略乃是所有可能的策略函数中,其对应到目标函数值最佳者。沿用上述的例子,若某人利用给定的财富来消费以最大化快乐的感觉(这里假定“快乐的感觉”可以被数学函数描述,像是效用函数等),那么各种初始的财富便会对应到一个可能的最大快乐,表示成 H ( W ) {\displaystyle H(W)} 。这个最大的可能目标函数值(快乐的感觉),即是价值函数(Value Function)。

相关

  • 妮娜大陆妮娜大陆(Nena)是一个远古的较小规模超大陆,由北极大陆、波罗地大陆和东南极克拉通的多个克拉通组成。妮娜大陆大约在18亿年前组成,后来成为全球性超大陆哥伦比亚大陆的一部分。
  • 褐藻门褐藻(学名:Phaeophyceae)是属较高等的多细胞藻类,属真核细胞生物,有1,500种左右,主要分布于大陆附近的水域,则淡水种罕见。褐藻纲外表从暗褐色的橄榄绿都有,其取决于褐藻素与叶绿素
  • 名古屋港名古屋港(日语:名古屋港/なごやこう Nagoya-kō)是横跨日本爱知县名古屋市、东海市、知多市、弥富市、海部郡飞岛村的一个港湾。又被当地人简称为名港(名港/めいこう Mei-kō)。
  • 奖励奖励是给予个人、团体、组织的精神或物质方面的激励,以表彰他们在某个领域的卓越表现。正式的奖通常会在一个颁奖典礼中举行,由颁奖人将奖项授予得奖者,并伴随着各种奖品,例如奖
  • 碟盘存储碟盘存储(英语:Disk storage,或 Disc storage),一种存储数据的机制,它将模拟数据或数字数据存放在一个或多个经过特殊处理的圆盘表面,通过旋转圆盘的方式,来取出数据。根据它的存储
  • HD 60532 cHD 60532 c是一颗距离地球约84光年的系外行星,位于船尾座,母恒星是HD 60532。该行星的真实质量是木星的7.46倍,距离母恒星1.58天文单位,轨道周期607日。该行星于2008年9月22日在
  • 连新路连新路是广东省广州市越秀区的一条南北走向的道路,在观音山脚中山纪念堂侧边,位于应元路以南,中山五路以北。全长943米,宽15米。清代时北段为九龙街,南段为连新街。1920年,市政府
  • 堀川氏烟管蜗牛堀川氏烟管蜗牛(学名:)为烟管蜗牛科冲绳烟管蜗牛属下的一个种。
  • 彼得·诺尔彼得·诺尔(英语:Peter Naur,1928年10月25日-2016年1月3日),生于丹麦腓特烈斯贝,天文学家与计算机科学家,曾任哥本哈根大学教授。他协作开发了BNF范式,改进了编程语言。也曾投入 ALGO
  • 理查德·拉什理查德·拉什(Richard Rush,1780年8月29日-1859年7月30日),美国政治家,曾任美国司法部长(1814年-1817年)和美国财政部长(1825年-1829年)。