贝尔曼方程

✍ dations ◷ 2025-12-03 01:26:14 #数学最佳化,方程,动态规划,控制理论


“贝尔曼方程(Bellman Equation)”也被称作“动态规划方程(Dynamic Programming Equation)”,由理查·贝尔曼(Richard Bellman)发现。贝尔曼方程是动态规划(Dynamic Programming)这种数学最佳化方法能够达到最佳化的必要条件。此方程将“决策问题在特定时间点的值”以“来自初始选择的报酬 及 由初始选择衍生的决策问题的值”的形式表示。藉这个方式将动态最佳化问题变成较简单的子问题,而这些子问题遵守由贝尔曼所提出的“最佳化原理”。

贝尔曼方程最早应用在工程领域的控制理论及其他应用数学领域,而后成为经济学上的重要工具。

几乎所有可以用最佳控制理论(Optimal Control Theory)解决的问题也可以透过分析合适的贝尔曼方程得到解决。然而,“贝尔曼方程”通常指离散时间(discrete-time)最佳化问题的动态规划方程。处理连续时间(continuous-time)最佳化问题上,也有类似的偏微分方程,称作汉弥尔顿-雅各比-贝尔曼方程(Hamilton–Jacobi–Bellman Equation, HJB Equation)。

想了解贝尔曼方程,要先了解许多相关概念。首先,任何最佳化问题都有目标:旅行时间最小化、成本最小化、利润最大化、效用最大化等。用来描述目标的数学函数就称为目标函数。

动态规划将多期规划问题转为不同时间点上较简单的步骤,因此,它需要追踪决策背景情况随时间的变化。作正确决策所需要当前情况的资讯被称作是“状态(State)”(贝尔曼,1957,Ch. III.2)。例如,为了决定每个时间要花多少钱,人们必须要知道他们初始财富的量,此例中财富就是一种“状态变数(State Variables)”,或简称“状态(State)”,当然也可能还有其他的种类。

从任意时点上所挑选以操作的变数通常称为“控制变数(Control Variables)”,或简称“控制(Control)”(控制理论中描述输入的变数)。例如给定现在所具有的财富(状态),人们便可以用以决定当下的消费(控制变数)。挑选当下的控制变数可被视为挑选下个状态,广义而言,下个状态受到当下控制变数及其他因子的影响。举个简单的例子:今天的财富(状态)及消费(控制变数)会决定明天的财富(新的状态),虽然通常也还有其他的因素可以影响明天的财富(例如获得意外之财)。

动态规划方法中利用“找寻某种规则告诉我们各可能状态下的(最佳)控制为何”来达成目标函数最佳化。例如:假设消费(c)只与财富(W)相关,我们想要找到一套规则 c ( W ) {\displaystyle c(W)} 来以财富描述消费。这些“将控制(Controls)表示成状态(States)的函数”的规则被称为策略函数(Policy Function)。

从定义可知,最佳化目标函数的策略乃是所有可能的策略函数中,其对应到目标函数值最佳者。沿用上述的例子,若某人利用给定的财富来消费以最大化快乐的感觉(这里假定“快乐的感觉”可以被数学函数描述,像是效用函数等),那么各种初始的财富便会对应到一个可能的最大快乐,表示成 H ( W ) {\displaystyle H(W)} 。这个最大的可能目标函数值(快乐的感觉),即是价值函数(Value Function)。

相关

  • 精神分析精神分析学(英文:Psychoanalysis)或称心理分析学,是于19世纪末期由奥地利神经学家西格蒙德·弗洛伊德的创立的一门学科。当时精神病学普遍受生物学的影响,对于心理现象的构成、发
  • 英美资源集团股份英美资源集团股份有限公司,简称英美资源集团股份、英美资源集团,以及英美资源(英语:Anglo American plc,LSE:AAL、OTCBB:AAUKY)是一家跨国矿业公司。现时由约翰·裴克强爵士为董事长
  • 鹳形目small/small鹳科(学名:Ciconiidae)在鸟类全基因组测序分类系统中是鸟纲鹳形目(Ciconiiformes)的唯一一个科。在西方又俗称送子鸟,因为在当地童话中,鹳常会带来新生儿。鹳形目在2014年的鸟类分
  • 鲱属鲱属(学名:Clupea)是生活在北太平洋和北大西洋(包括波罗的海)温带浅水中的一个多油的鱼属。这个属有两个种:大西洋鲱和太平洋鲱。这两个种又可以各分数个亚种。鲱鱼是成群的鱼,它们
  • 拉廊府拉廊府(泰语:จังหวัดระนอง,皇家转写:Changwat Ranong,泰语发音:)在泰国南部,她座落在安达曼海滂。西面是缅甸德林达依省的高当(Kawthaung),东到南分别是泰国的春蓬府、素叻
  • 路易五世 (西法兰克)(懒王)路易五世(法语:Louis V le Fainéant,967年-987年5月22日)是加洛林王朝西法兰克王国支系的末代国王(979年—987年在位,其中979年—986年与其父王洛泰尔一世共治,986年—987年单
  • 化学工程师化学工程师(英文:Chemical engineer),亦称制程化学工程师或化工研究员。在工程领域中,大部分化学工程师从事于化工产业,主要工作内容为化工产品制造程序的研究与开发,以及厂房与厂
  • 贝尔维尤广场贝尔维尤广场(德语:Bellevueplatz)是瑞士苏黎世的一个广场,开辟于1856年,以其北侧原贝尔维尤大酒店命名。贝尔维尤广场是该市一处交通枢纽,2路、4路、5路、8路、9路、11路和15路电
  • 士普拉格Šiprage(塞尔维亚语:Шипраге),波斯尼亚和黑塞哥维那, 波黑塞族共和国城镇。总面积20平方公里,总人口788(2013年)。在波斯尼亚(1992 - 95年)的战争期间,科托尔沃罗斯市的18个波
  • 西安煤气公司液化气管理所爆炸事故西安煤气公司液化气管理所爆炸事故,又称西安市“3·5”液化气爆炸事故,是1998年3月5日发生在中华人民共和国陕西省西安市煤气公司液化气管理所的一系列爆炸事故,事故因为管理所