贝尔曼方程

✍ dations ◷ 2025-04-02 16:30:07 #数学最佳化,方程,动态规划,控制理论


“贝尔曼方程(Bellman Equation)”也被称作“动态规划方程(Dynamic Programming Equation)”,由理查·贝尔曼(Richard Bellman)发现。贝尔曼方程是动态规划(Dynamic Programming)这种数学最佳化方法能够达到最佳化的必要条件。此方程将“决策问题在特定时间点的值”以“来自初始选择的报酬 及 由初始选择衍生的决策问题的值”的形式表示。藉这个方式将动态最佳化问题变成较简单的子问题,而这些子问题遵守由贝尔曼所提出的“最佳化原理”。

贝尔曼方程最早应用在工程领域的控制理论及其他应用数学领域,而后成为经济学上的重要工具。

几乎所有可以用最佳控制理论(Optimal Control Theory)解决的问题也可以透过分析合适的贝尔曼方程得到解决。然而,“贝尔曼方程”通常指离散时间(discrete-time)最佳化问题的动态规划方程。处理连续时间(continuous-time)最佳化问题上,也有类似的偏微分方程,称作汉弥尔顿-雅各比-贝尔曼方程(Hamilton–Jacobi–Bellman Equation, HJB Equation)。

想了解贝尔曼方程,要先了解许多相关概念。首先,任何最佳化问题都有目标:旅行时间最小化、成本最小化、利润最大化、效用最大化等。用来描述目标的数学函数就称为目标函数。

动态规划将多期规划问题转为不同时间点上较简单的步骤,因此,它需要追踪决策背景情况随时间的变化。作正确决策所需要当前情况的资讯被称作是“状态(State)”(贝尔曼,1957,Ch. III.2)。例如,为了决定每个时间要花多少钱,人们必须要知道他们初始财富的量,此例中财富就是一种“状态变数(State Variables)”,或简称“状态(State)”,当然也可能还有其他的种类。

从任意时点上所挑选以操作的变数通常称为“控制变数(Control Variables)”,或简称“控制(Control)”(控制理论中描述输入的变数)。例如给定现在所具有的财富(状态),人们便可以用以决定当下的消费(控制变数)。挑选当下的控制变数可被视为挑选下个状态,广义而言,下个状态受到当下控制变数及其他因子的影响。举个简单的例子:今天的财富(状态)及消费(控制变数)会决定明天的财富(新的状态),虽然通常也还有其他的因素可以影响明天的财富(例如获得意外之财)。

动态规划方法中利用“找寻某种规则告诉我们各可能状态下的(最佳)控制为何”来达成目标函数最佳化。例如:假设消费(c)只与财富(W)相关,我们想要找到一套规则 c ( W ) {\displaystyle c(W)} 来以财富描述消费。这些“将控制(Controls)表示成状态(States)的函数”的规则被称为策略函数(Policy Function)。

从定义可知,最佳化目标函数的策略乃是所有可能的策略函数中,其对应到目标函数值最佳者。沿用上述的例子,若某人利用给定的财富来消费以最大化快乐的感觉(这里假定“快乐的感觉”可以被数学函数描述,像是效用函数等),那么各种初始的财富便会对应到一个可能的最大快乐,表示成 H ( W ) {\displaystyle H(W)} 。这个最大的可能目标函数值(快乐的感觉),即是价值函数(Value Function)。

相关

  • 种子种子是种子植物的胚珠经受精后长成的结构,一般有种皮、胚和胚乳等组成。胚是种子中最主要的部分,萌发后长成新的个体。胚乳含有营养物质。种子是裸子植物、被子植物特有的繁殖
  • 松弛素松弛素(Relaxin)是一种分子量约为6000Da的蛋白质激素 在1926年由弗雷德里克·海撒(Frederick Hisaw)发现。似松弛素胜肽家族(relaxin-like peptide family)属于胰岛素超家族,
  • 米塞林米塞林或盐酸米塞林(Mianserin),又译米安色林,是一种用于中枢神经系统的四环系抗郁药,属于一种抗组织胺药,有催眠作用,但抗胆碱作用(反副交感神经作用)几乎没有。米塞林是一种弱
  • 万应公孤魂信仰,或称孤魂祭祀,古代称厉祭,为东亚儒教及民间信仰,祭祀因天灾、战争、屠杀、械斗、疾疫、冤屈、罪行、车祸等意外枉死,或无后、夭折死者的信仰,避免无嗣、横死、冤死者之魂
  • 何仙姑何仙姑,原名何琼,盛唐时永州零陵人,一说广州增城人。道教八仙之一,原型为一个容貌非凡的美女,经常手持荷花。其身世有多种说法,最早可见于戴孚《广异记·何二娘》,《太平广记》卷六
  • 埃塞俄比亚和厄立特里亚联邦埃塞俄比亚和厄立特里亚联邦或埃塞俄比亚–厄立特里亚联邦(英语:Federation of Ethiopia and Eritrea或Ethiopian–Eritrean Federation)是1952年9月15日由埃塞俄比亚帝国和厄
  • 信息化服务信息化服务(informationization service)是一个以信息技术与高科技手段为生产和生活中出现的问题提供优质解决方案,或对有可能出现的问题进行评估、预测与防范的行业,信息化服务
  • 杜香果科杜香果科共有3属12种,都生长在南美洲的安第斯山区一带。本科植物为小灌木,单叶或复叶对生,无托叶;花的花瓣5数;果实为蒴果。1981年的克朗奎斯特分类法将其列在牻牛儿苗科中,1998年
  • 刘应明刘应明(1940年10月8日-2016年7月15日),福建福州人,中国数学家。主要从事拓扑学与不确定性(主要是模糊性)数学处理等方面的教学与科学研究。1995年当选为中国科学院院士,同年加入九三
  • 伊迪特·索德格朗伊迪特·伊蕾内·索德格朗(瑞典语:Edith Irene Södergran,1892年4月4日-1923年6月24日),是芬兰瑞典语女诗人。她是瑞典语文学史上最早的现代主义作家之一。她深受法国象征主义、