贝尔曼方程

✍ dations ◷ 2025-12-08 15:42:23 #数学最佳化,方程,动态规划,控制理论


“贝尔曼方程(Bellman Equation)”也被称作“动态规划方程(Dynamic Programming Equation)”,由理查·贝尔曼(Richard Bellman)发现。贝尔曼方程是动态规划(Dynamic Programming)这种数学最佳化方法能够达到最佳化的必要条件。此方程将“决策问题在特定时间点的值”以“来自初始选择的报酬 及 由初始选择衍生的决策问题的值”的形式表示。藉这个方式将动态最佳化问题变成较简单的子问题,而这些子问题遵守由贝尔曼所提出的“最佳化原理”。

贝尔曼方程最早应用在工程领域的控制理论及其他应用数学领域,而后成为经济学上的重要工具。

几乎所有可以用最佳控制理论(Optimal Control Theory)解决的问题也可以透过分析合适的贝尔曼方程得到解决。然而,“贝尔曼方程”通常指离散时间(discrete-time)最佳化问题的动态规划方程。处理连续时间(continuous-time)最佳化问题上,也有类似的偏微分方程,称作汉弥尔顿-雅各比-贝尔曼方程(Hamilton–Jacobi–Bellman Equation, HJB Equation)。

想了解贝尔曼方程,要先了解许多相关概念。首先,任何最佳化问题都有目标:旅行时间最小化、成本最小化、利润最大化、效用最大化等。用来描述目标的数学函数就称为目标函数。

动态规划将多期规划问题转为不同时间点上较简单的步骤,因此,它需要追踪决策背景情况随时间的变化。作正确决策所需要当前情况的资讯被称作是“状态(State)”(贝尔曼,1957,Ch. III.2)。例如,为了决定每个时间要花多少钱,人们必须要知道他们初始财富的量,此例中财富就是一种“状态变数(State Variables)”,或简称“状态(State)”,当然也可能还有其他的种类。

从任意时点上所挑选以操作的变数通常称为“控制变数(Control Variables)”,或简称“控制(Control)”(控制理论中描述输入的变数)。例如给定现在所具有的财富(状态),人们便可以用以决定当下的消费(控制变数)。挑选当下的控制变数可被视为挑选下个状态,广义而言,下个状态受到当下控制变数及其他因子的影响。举个简单的例子:今天的财富(状态)及消费(控制变数)会决定明天的财富(新的状态),虽然通常也还有其他的因素可以影响明天的财富(例如获得意外之财)。

动态规划方法中利用“找寻某种规则告诉我们各可能状态下的(最佳)控制为何”来达成目标函数最佳化。例如:假设消费(c)只与财富(W)相关,我们想要找到一套规则 c ( W ) {\displaystyle c(W)} 来以财富描述消费。这些“将控制(Controls)表示成状态(States)的函数”的规则被称为策略函数(Policy Function)。

从定义可知,最佳化目标函数的策略乃是所有可能的策略函数中,其对应到目标函数值最佳者。沿用上述的例子,若某人利用给定的财富来消费以最大化快乐的感觉(这里假定“快乐的感觉”可以被数学函数描述,像是效用函数等),那么各种初始的财富便会对应到一个可能的最大快乐,表示成 H ( W ) {\displaystyle H(W)} 。这个最大的可能目标函数值(快乐的感觉),即是价值函数(Value Function)。

相关

  • 恶性疟原虫Oscillaria malariae Laveran, 1881 Plasmodium malariae Marchiafava and Celli, 1885 Laverania malariae Feletti and Grassi, 1890 Ematozoo falciforme Antolisei and
  • 猴总科猴科(学名:Cercopithecidae),即旧世界猴,灵长目的一科,是与猿类最接近的猴,也是我们最为熟悉的一类灵长目动物。今天主要分布在非洲和亚洲的广大地区,也分布于欧洲极少部分地区。猴
  • 索烃索烃是一个机械互锁分子,包含有两个或两个以上互锁的大环分子。除非环分子内部的共价键断裂,否则互锁的环不能够分开。索烃的英文名(Catenane)源自拉丁文的Catena,意思是“链”。
  • 育乐台纬来育乐台,前称纬来洋片台,是纬来电视网旗下结合运动赛事转播及欧美电影与影集于一台的综合性频道。2005年,由于纬来电视网在中华职棒该季季中接手全部的赛事,将当时的纬来洋片
  • 与门与门(英语:AND gate)是数字逻辑中实现逻辑与的逻辑门,功能见右侧真值表。仅当输入均为高电压(1)时,输出才为高电压(1)时;若输入中至多有一个高电压时,则输出为低电压。换句话说,与门的功
  • 亨格莱斯魏尔湖坐标:47°40′30″N 10°4′32″E / 47.67500°N 10.07556°E / 47.67500; 10.07556亨格莱斯魏尔湖(德语:Hengelesweiher),是德国的湖泊,位于该国西南部,由巴登-符腾堡州负责管辖,处
  • 尔苏语群尔苏语群,或被归类为尔苏语组、尔苏语支(Ersu languages),为藏缅语族羌语群南羌语支下语言属系,分布在四川凉山州汉源县、冕宁县等多个县,有2000余多续藏族使用,主要有尔苏话、多续
  • 和庚吉和庚吉(1864年-1950年),字星白,号松樵,晚年号退仙,云南省丽江府丽江县人,清朝政治人物、同进士出身。光绪十五年(1889年)举人,光绪十八年(1892年)壬辰科三甲148名进士。同年五月,以主事分
  • 萨佳·阿里萨佳·阿里(英语:Sajal Aly,乌尔都语:سجل علی‎‎,1994年1月17日-)是巴基斯坦女演员,主要出现在巴基斯坦电视连续剧及电影。她较为人所知的电影是印度宝莱坞电影《Mom》(2017),饰
  • 泰勒·洛特纳泰勒·丹尼尔·洛特纳(Taylor Daniel Lautner,pronounced /ˈlaʊtnər/, ,1992年2月11日-),是一名美国男演员、武术演员、声优演员、模特儿。年少时于密歇根州及荷兰当武术演员,