贝尔曼方程

✍ dations ◷ 2025-04-26 12:57:55 #数学最佳化,方程,动态规划,控制理论


“贝尔曼方程(Bellman Equation)”也被称作“动态规划方程(Dynamic Programming Equation)”,由理查·贝尔曼(Richard Bellman)发现。贝尔曼方程是动态规划(Dynamic Programming)这种数学最佳化方法能够达到最佳化的必要条件。此方程将“决策问题在特定时间点的值”以“来自初始选择的报酬 及 由初始选择衍生的决策问题的值”的形式表示。藉这个方式将动态最佳化问题变成较简单的子问题,而这些子问题遵守由贝尔曼所提出的“最佳化原理”。

贝尔曼方程最早应用在工程领域的控制理论及其他应用数学领域,而后成为经济学上的重要工具。

几乎所有可以用最佳控制理论(Optimal Control Theory)解决的问题也可以透过分析合适的贝尔曼方程得到解决。然而,“贝尔曼方程”通常指离散时间(discrete-time)最佳化问题的动态规划方程。处理连续时间(continuous-time)最佳化问题上,也有类似的偏微分方程,称作汉弥尔顿-雅各比-贝尔曼方程(Hamilton–Jacobi–Bellman Equation, HJB Equation)。

想了解贝尔曼方程,要先了解许多相关概念。首先,任何最佳化问题都有目标:旅行时间最小化、成本最小化、利润最大化、效用最大化等。用来描述目标的数学函数就称为目标函数。

动态规划将多期规划问题转为不同时间点上较简单的步骤,因此,它需要追踪决策背景情况随时间的变化。作正确决策所需要当前情况的资讯被称作是“状态(State)”(贝尔曼,1957,Ch. III.2)。例如,为了决定每个时间要花多少钱,人们必须要知道他们初始财富的量,此例中财富就是一种“状态变数(State Variables)”,或简称“状态(State)”,当然也可能还有其他的种类。

从任意时点上所挑选以操作的变数通常称为“控制变数(Control Variables)”,或简称“控制(Control)”(控制理论中描述输入的变数)。例如给定现在所具有的财富(状态),人们便可以用以决定当下的消费(控制变数)。挑选当下的控制变数可被视为挑选下个状态,广义而言,下个状态受到当下控制变数及其他因子的影响。举个简单的例子:今天的财富(状态)及消费(控制变数)会决定明天的财富(新的状态),虽然通常也还有其他的因素可以影响明天的财富(例如获得意外之财)。

动态规划方法中利用“找寻某种规则告诉我们各可能状态下的(最佳)控制为何”来达成目标函数最佳化。例如:假设消费(c)只与财富(W)相关,我们想要找到一套规则 c ( W ) {\displaystyle c(W)} 来以财富描述消费。这些“将控制(Controls)表示成状态(States)的函数”的规则被称为策略函数(Policy Function)。

从定义可知,最佳化目标函数的策略乃是所有可能的策略函数中,其对应到目标函数值最佳者。沿用上述的例子,若某人利用给定的财富来消费以最大化快乐的感觉(这里假定“快乐的感觉”可以被数学函数描述,像是效用函数等),那么各种初始的财富便会对应到一个可能的最大快乐,表示成 H ( W ) {\displaystyle H(W)} 。这个最大的可能目标函数值(快乐的感觉),即是价值函数(Value Function)。

相关

  • 非特异性免疫先天免疫系统(英语:Innate immunity)又称为非特异性免疫、固有免疫、非专一性防御,包括一系列的细胞及相关机制,可以以非特异性的方式抵御外来感染。先天免疫系统的细胞会非特异
  • 帕特里克·布莱克特帕特里克·布莱克特,布莱克特男爵,OM,CH,FRS(英语:Patrick Blackett, Baron Blackett,1897年11月18日-1974年7月13日),英国物理学家,曾任英国皇家学会会长,1948年诺贝尔物理学奖获得者。
  • 市场市场起源于古时人类对于固定时段或地点进行交易的场所的称呼,而此交易场所是那些需要经常进行物品交换的人,为了减少搜寻成本所自发形成的。词中的“市”指的并非“城市”,而是
  • 各种牙齿类型的排列齿列(亦作牙列、齿系、牙系)指的是动物口腔中全套牙齿的发育和排列模式。除单孔目、贫齿目、穿山甲属和鲸目以外,所有哺乳动物都具备四种类型的牙齿,而且每一类型的牙齿,与物种相
  • 尼斯条约尼斯条约(Treaty of Nice),全称修改欧洲联盟条约、建立欧洲各共同体诸条约和某些附件的尼斯条约(Treaty of Nice amending the Treaty on European Union, the Treaties establi
  • 综合教学馆综合教学馆,为国立台湾大学的教学大楼,位于图书资讯馆旁、水杉道、小椰林道路口,主要供大一大二共同科目课程及通识课程的教学空间。原名综合教室,后随博雅教学馆命名改为现名。
  • 勒内-罗贝尔·卡弗利耶·德·拉萨勒勒内-罗贝尔·卡弗利耶·德·拉萨勒(法语:René-Robert Cavelier, Sieur de La Salle),或称罗伯特·德·拉萨勒(1643年11月22日-1687年3月19日)是一个法国探险家。他探索了五大湖地
  • 财富杂志(2011)《财富》(英语:Fortune)是一本美国商业杂志,由亨利·路思义创办于1930年,拥有专业财经分析和报道,以经典的案例分析见长,是世界上最有影响力的商业杂志之一。现属时代公司。
  • 最终幻想IV《最终幻想IV》(日语:ファイナルファンタジーIV,英语:Final Fantasy IV,台旧译“太空战士IV”)是由史克威尔(今史克威尔艾尼克斯)开发,并于1991年发行的电子角色扮演游戏,游戏是最终幻
  • 昆明小檗昆明小檗(学名:)为小檗科小檗属的植物,为中国的特有植物。分布在中国大陆的云南等地,一般生长在山坡灌丛中和林缘,目前尚未由人工引种栽培。