贝尔曼方程

✍ dations ◷ 2025-04-04 20:03:55 #数学最佳化,方程,动态规划,控制理论


“贝尔曼方程(Bellman Equation)”也被称作“动态规划方程(Dynamic Programming Equation)”,由理查·贝尔曼(Richard Bellman)发现。贝尔曼方程是动态规划(Dynamic Programming)这种数学最佳化方法能够达到最佳化的必要条件。此方程将“决策问题在特定时间点的值”以“来自初始选择的报酬 及 由初始选择衍生的决策问题的值”的形式表示。藉这个方式将动态最佳化问题变成较简单的子问题,而这些子问题遵守由贝尔曼所提出的“最佳化原理”。

贝尔曼方程最早应用在工程领域的控制理论及其他应用数学领域,而后成为经济学上的重要工具。

几乎所有可以用最佳控制理论(Optimal Control Theory)解决的问题也可以透过分析合适的贝尔曼方程得到解决。然而,“贝尔曼方程”通常指离散时间(discrete-time)最佳化问题的动态规划方程。处理连续时间(continuous-time)最佳化问题上,也有类似的偏微分方程,称作汉弥尔顿-雅各比-贝尔曼方程(Hamilton–Jacobi–Bellman Equation, HJB Equation)。

想了解贝尔曼方程,要先了解许多相关概念。首先,任何最佳化问题都有目标:旅行时间最小化、成本最小化、利润最大化、效用最大化等。用来描述目标的数学函数就称为目标函数。

动态规划将多期规划问题转为不同时间点上较简单的步骤,因此,它需要追踪决策背景情况随时间的变化。作正确决策所需要当前情况的资讯被称作是“状态(State)”(贝尔曼,1957,Ch. III.2)。例如,为了决定每个时间要花多少钱,人们必须要知道他们初始财富的量,此例中财富就是一种“状态变数(State Variables)”,或简称“状态(State)”,当然也可能还有其他的种类。

从任意时点上所挑选以操作的变数通常称为“控制变数(Control Variables)”,或简称“控制(Control)”(控制理论中描述输入的变数)。例如给定现在所具有的财富(状态),人们便可以用以决定当下的消费(控制变数)。挑选当下的控制变数可被视为挑选下个状态,广义而言,下个状态受到当下控制变数及其他因子的影响。举个简单的例子:今天的财富(状态)及消费(控制变数)会决定明天的财富(新的状态),虽然通常也还有其他的因素可以影响明天的财富(例如获得意外之财)。

动态规划方法中利用“找寻某种规则告诉我们各可能状态下的(最佳)控制为何”来达成目标函数最佳化。例如:假设消费(c)只与财富(W)相关,我们想要找到一套规则 c ( W ) {\displaystyle c(W)} 来以财富描述消费。这些“将控制(Controls)表示成状态(States)的函数”的规则被称为策略函数(Policy Function)。

从定义可知,最佳化目标函数的策略乃是所有可能的策略函数中,其对应到目标函数值最佳者。沿用上述的例子,若某人利用给定的财富来消费以最大化快乐的感觉(这里假定“快乐的感觉”可以被数学函数描述,像是效用函数等),那么各种初始的财富便会对应到一个可能的最大快乐,表示成 H ( W ) {\displaystyle H(W)} 。这个最大的可能目标函数值(快乐的感觉),即是价值函数(Value Function)。

相关

  • 氰化钠氰化钠,俗称山奈、山埃、山奈钠,是氰化物的一种,为白色结晶粉末或大块固体,毒性极强,化学式为NaCN。易吸湿而带有苦杏仁味,能否嗅出与个人的基因有关。氰化钠容易水解生成氰化氢,水
  • 单细胞生物可以根据构成的细胞数目分为单细胞生物和多细胞生物。单细胞生物只由单个细胞组成,而且经常会聚集成为细胞集落。单细胞生物能独立完成新陈代谢及繁殖等活动。地球上最早
  • 膝跃反射膝跃反射,或称膝跳反射(英:Knee jerk reflex)是一种反射动作,当膝关节半屈和小腿自由下垂时,轻敲一下膝盖骨下方,引起股四头肌收缩,小腿就会往前踢的反应。反射弧的传入和传出途径
  • 后记,也称跋、书后、后序、后题等,是一种文体的名称,写在作品或书籍之后的序文,用以介绍写作经过,或对作品进行评价。和前言不同,后记篇幅往往较小,内容不如前言全面,所涉者多为“评
  • 施奠邦施奠邦(1924年9月5日-2005年12月6日),上海崇明人,中华人民共和国中医学家,第七届全国政协委员,第八届全国政协常委。1952年考入北京大学医学院医疗系学习。1957年毕业后分配到中国
  • 马一浮马福田 大清光绪九年二月廿五马一浮(1883年4月2日-1967年6月2日),原名浮,字一佛,幼名福田,号谌翁、被揭,晚号蠲叟、蠲戏老人,浙江绍兴(今浙江绍兴上虞)人。中国国学家、书法家、篆刻家
  • 让-安托万·德巴伊夫让-安托万·德巴伊夫(英语:Jean-Antoine de Baïf, 1532年-1589年),文艺复兴时期欧洲诗人。他出生于威尼斯,父亲为法国人,母亲是威尼斯人。他成为了一位著名诗人。他是七星诗社的成
  • 医院骑士团治下的马耳他历史马耳他斯库多(英语:Maltese scudo)医院骑士团治下的马耳他(意大利语:Ordine di San Giovanni di Gerusalemme,马耳他语:Ordni ta' San Ġwann ta' Ġerusalemm,1530年 - 1798年6月11
  • 假如爱有天意《假如爱有天意》(朝鲜语:클래식 ,英语:)是在2003年1月30日首映的韩国电影,带着浓厚的纯爱风格。梓希是就读大学的单亲家庭女生,父亲在小时候就过世了。她透过好友秀景认识了秀景
  • 王绍美王绍美(?-17世纪),字子舆,一作子玙,浙江绍兴府山阴县人,一作会稽县人,明朝、南明政治人物。王绍美相貌英俊,崇祯六年(1633年)中举人,崇祯十三年(1640年)成进士,授广东肇庆府推官,在当地施行仁