贝尔曼方程

✍ dations ◷ 2025-10-15 01:05:25 #数学最佳化,方程,动态规划,控制理论


“贝尔曼方程(Bellman Equation)”也被称作“动态规划方程(Dynamic Programming Equation)”,由理查·贝尔曼(Richard Bellman)发现。贝尔曼方程是动态规划(Dynamic Programming)这种数学最佳化方法能够达到最佳化的必要条件。此方程将“决策问题在特定时间点的值”以“来自初始选择的报酬 及 由初始选择衍生的决策问题的值”的形式表示。藉这个方式将动态最佳化问题变成较简单的子问题,而这些子问题遵守由贝尔曼所提出的“最佳化原理”。

贝尔曼方程最早应用在工程领域的控制理论及其他应用数学领域,而后成为经济学上的重要工具。

几乎所有可以用最佳控制理论(Optimal Control Theory)解决的问题也可以透过分析合适的贝尔曼方程得到解决。然而,“贝尔曼方程”通常指离散时间(discrete-time)最佳化问题的动态规划方程。处理连续时间(continuous-time)最佳化问题上,也有类似的偏微分方程,称作汉弥尔顿-雅各比-贝尔曼方程(Hamilton–Jacobi–Bellman Equation, HJB Equation)。

想了解贝尔曼方程,要先了解许多相关概念。首先,任何最佳化问题都有目标:旅行时间最小化、成本最小化、利润最大化、效用最大化等。用来描述目标的数学函数就称为目标函数。

动态规划将多期规划问题转为不同时间点上较简单的步骤,因此,它需要追踪决策背景情况随时间的变化。作正确决策所需要当前情况的资讯被称作是“状态(State)”(贝尔曼,1957,Ch. III.2)。例如,为了决定每个时间要花多少钱,人们必须要知道他们初始财富的量,此例中财富就是一种“状态变数(State Variables)”,或简称“状态(State)”,当然也可能还有其他的种类。

从任意时点上所挑选以操作的变数通常称为“控制变数(Control Variables)”,或简称“控制(Control)”(控制理论中描述输入的变数)。例如给定现在所具有的财富(状态),人们便可以用以决定当下的消费(控制变数)。挑选当下的控制变数可被视为挑选下个状态,广义而言,下个状态受到当下控制变数及其他因子的影响。举个简单的例子:今天的财富(状态)及消费(控制变数)会决定明天的财富(新的状态),虽然通常也还有其他的因素可以影响明天的财富(例如获得意外之财)。

动态规划方法中利用“找寻某种规则告诉我们各可能状态下的(最佳)控制为何”来达成目标函数最佳化。例如:假设消费(c)只与财富(W)相关,我们想要找到一套规则 c ( W ) {\displaystyle c(W)} 来以财富描述消费。这些“将控制(Controls)表示成状态(States)的函数”的规则被称为策略函数(Policy Function)。

从定义可知,最佳化目标函数的策略乃是所有可能的策略函数中,其对应到目标函数值最佳者。沿用上述的例子,若某人利用给定的财富来消费以最大化快乐的感觉(这里假定“快乐的感觉”可以被数学函数描述,像是效用函数等),那么各种初始的财富便会对应到一个可能的最大快乐,表示成 H ( W ) {\displaystyle H(W)} 。这个最大的可能目标函数值(快乐的感觉),即是价值函数(Value Function)。

相关

  • 大麻素大麻素(英语:Cannabinoids),又称大麻类物质,是从大麻里发现的一组萜酚类化合物,也自然地存在于动物神经和免疫系统里。大麻素的外延包括结构上与四氢大麻酚(Tetrahydrocannabinol,TH
  • 克雷格·文特尔约翰·克雷格·文特尔(英语:John Craig Venter,又译奎格·文特,常写成J. Craig Venter,1946年10月14日-),出生于美国盐湖城,美国生物学家及企业家。时代杂志在2000年7月将文特尔与人
  • 一致性历史一致性历史(英语:Consistent histories)是一种量子力学诠释,其推广了传统的哥本哈根诠释,为量子宇宙学提供了自然诠释。这一诠释基于一致性准则,允许系统的概率有多种演化历史,而不
  • 劳动力市场劳动力市场,又称劳动市场、劳工市场、职业市场、就业市场、求职市场、招聘市场、人力市场等,是指劳工(工人)供应劳力让企业购买的市场。
  • 王志东王志东(1967年6月28日-),生于广东省东莞市,中国互联网先驱创业者,新浪网的创始人之一,毕业于北京大学。他与丁磊、张朝阳并称为"网络三剑客"。1988年,王志东毕业于北京大学无线电电
  • 社会民主社会民主主义(Social democracy)是一种支持通过在自由民主体制和资本主义经济体系下,通过经济干预和社会干预的手段促进社会正义的意识形态。社会民主主义支持代议制和参与民主
  • 机能性饮料机能性饮料,又称功能饮料,是含有非酒精类成分并具有一些特殊配方,其中或许包括咖啡因、草本成分、维他命、矿物质、氨基酸或者额外的果蔬汁液。其作用为让人体在短时间内拥有更
  • 夏威夷银行股份夏威夷银行股份有限公司,简称夏威夷银行(英语:Bank of Hawaii,NYSE:BOH),是在1897年成立,属于美国夏威夷最大金融机构地区,现任董事长及首席执行官何彼德(英语:Peter S. Ho)。总部位于檀
  • 宋李瑞芳宋李瑞芳(英语:Betty Lee Sung,1924年10月3日-),美籍华裔学者,祖籍台山,是美国华人问题研究的先驱、纽约市立大学荣休教授。宋李瑞芳出生于美国巴尔的摩。9岁时,她随全家回到故乡中国
  • 长野久义长野久义(ちょうの ひさよし、Chono Hisayoshi)1984年12月6日出身于佐贺县三养基郡, 日本职棒选手,目前效力于广岛东洋鲤鱼。小学一年级开始于少年棒球队练习棒球。中学时代为少