贝尔曼方程

✍ dations ◷ 2024-12-23 04:57:50 #数学最佳化,方程,动态规划,控制理论


“贝尔曼方程(Bellman Equation)”也被称作“动态规划方程(Dynamic Programming Equation)”,由理查·贝尔曼(Richard Bellman)发现。贝尔曼方程是动态规划(Dynamic Programming)这种数学最佳化方法能够达到最佳化的必要条件。此方程将“决策问题在特定时间点的值”以“来自初始选择的报酬 及 由初始选择衍生的决策问题的值”的形式表示。藉这个方式将动态最佳化问题变成较简单的子问题,而这些子问题遵守由贝尔曼所提出的“最佳化原理”。

贝尔曼方程最早应用在工程领域的控制理论及其他应用数学领域,而后成为经济学上的重要工具。

几乎所有可以用最佳控制理论(Optimal Control Theory)解决的问题也可以透过分析合适的贝尔曼方程得到解决。然而,“贝尔曼方程”通常指离散时间(discrete-time)最佳化问题的动态规划方程。处理连续时间(continuous-time)最佳化问题上,也有类似的偏微分方程,称作汉弥尔顿-雅各比-贝尔曼方程(Hamilton–Jacobi–Bellman Equation, HJB Equation)。

想了解贝尔曼方程,要先了解许多相关概念。首先,任何最佳化问题都有目标:旅行时间最小化、成本最小化、利润最大化、效用最大化等。用来描述目标的数学函数就称为目标函数。

动态规划将多期规划问题转为不同时间点上较简单的步骤,因此,它需要追踪决策背景情况随时间的变化。作正确决策所需要当前情况的资讯被称作是“状态(State)”(贝尔曼,1957,Ch. III.2)。例如,为了决定每个时间要花多少钱,人们必须要知道他们初始财富的量,此例中财富就是一种“状态变数(State Variables)”,或简称“状态(State)”,当然也可能还有其他的种类。

从任意时点上所挑选以操作的变数通常称为“控制变数(Control Variables)”,或简称“控制(Control)”(控制理论中描述输入的变数)。例如给定现在所具有的财富(状态),人们便可以用以决定当下的消费(控制变数)。挑选当下的控制变数可被视为挑选下个状态,广义而言,下个状态受到当下控制变数及其他因子的影响。举个简单的例子:今天的财富(状态)及消费(控制变数)会决定明天的财富(新的状态),虽然通常也还有其他的因素可以影响明天的财富(例如获得意外之财)。

动态规划方法中利用“找寻某种规则告诉我们各可能状态下的(最佳)控制为何”来达成目标函数最佳化。例如:假设消费(c)只与财富(W)相关,我们想要找到一套规则 c ( W ) {\displaystyle c(W)} 来以财富描述消费。这些“将控制(Controls)表示成状态(States)的函数”的规则被称为策略函数(Policy Function)。

从定义可知,最佳化目标函数的策略乃是所有可能的策略函数中,其对应到目标函数值最佳者。沿用上述的例子,若某人利用给定的财富来消费以最大化快乐的感觉(这里假定“快乐的感觉”可以被数学函数描述,像是效用函数等),那么各种初始的财富便会对应到一个可能的最大快乐,表示成 H ( W ) {\displaystyle H(W)} 。这个最大的可能目标函数值(快乐的感觉),即是价值函数(Value Function)。

相关

  • 光能辐射能是指电磁辐射所具有的能量。它的大小可以通过计算辐射通量关于时间的积分得到。和所有形式的能量一样,辐射能的SI制单位是焦耳。这个术语常被用于描述电磁辐射被发射到
  • Holliday交叉Holliday交叉(Holliday junction)是四股DNA所形成的交叉结构,名称来自此于1964年提出此概念者Robin Holliday,用以解释发现于酵母菌的遗传资讯交换,也就是同源重组。目前遗传学上
  • 膝关节膝,俗称膝盖,为位于大小腿之间的连接部位。膝的主要内部组成结构为半月板以及四条韧带。半月板为膝内部股骨下端和胫骨上端之间的接连处所垫的一块新月形的纤维软骨组织,作用是
  • 甲龙亚目甲龙亚目(学名:Ankylosauria,意为“僵硬蜥蜴”)是属于鸟臀目的一个演化支。甲龙亚目包含了大部分有着骨鳞片形式装甲的恐龙。甲龙亚目都是有着短而壮的腿的笨重四足动物。甲龙亚
  • 片种电影类型(英语:Film Genre),也叫做“片种”,指的是基于电影的叙事元素和情感反应进行相似分类的电影类别。绝大部分电影类型的理论源自文学批评。电影的基本类别包括“虚构片”和
  • 英属缅甸殖民时期:现代:英属缅甸,是大英帝国在中南半岛上的一个殖民地,存在于1824年至1948年。原先是英属印度的一部分,1937年成为独立的殖民地。第二次世界大战期间被日本占领,改为缅甸国
  • 右京区右京区(日语:右京区/うきょうく  */?)是构成京都市的11区之一,为京都市内面积最大的区。南部是过去皇族与公家别庄的所在、现在主要为住宅区;西部和北部是山区,北部被称为“京北
  • 基准化分析法基准化分析法(英语:Benchmarking)又称标竿测试、标竿管理,是指将自己企业的表现指标与业界最佳指标做比较。常见的指标包括品质、时间、花费等。标竿测试通过找出业界中最佳的几
  • 应答机应答机(英语:Transponder),又称询答机,有时简称XPDR、XPNDR、TPDR或TP,是一部能在收到无线电询问信号时自动做出回应的电子设备。在航空领域中,应答机主要作为协助识别航空交通管制
  • 辻横由佳辻横由佳(日语:辻横 由佳,旧姓马场),日本女性游戏音乐家,京都府宇治市人,毕业于大阪电气通信大学。曾就职于任天堂第二方开发商Intelligent Systems,2000年辞职成为自由作曲家。主要