贝尔曼方程

✍ dations ◷ 2025-05-20 11:29:31 #数学最佳化,方程,动态规划,控制理论


“贝尔曼方程(Bellman Equation)”也被称作“动态规划方程(Dynamic Programming Equation)”,由理查·贝尔曼(Richard Bellman)发现。贝尔曼方程是动态规划(Dynamic Programming)这种数学最佳化方法能够达到最佳化的必要条件。此方程将“决策问题在特定时间点的值”以“来自初始选择的报酬 及 由初始选择衍生的决策问题的值”的形式表示。藉这个方式将动态最佳化问题变成较简单的子问题,而这些子问题遵守由贝尔曼所提出的“最佳化原理”。

贝尔曼方程最早应用在工程领域的控制理论及其他应用数学领域,而后成为经济学上的重要工具。

几乎所有可以用最佳控制理论(Optimal Control Theory)解决的问题也可以透过分析合适的贝尔曼方程得到解决。然而,“贝尔曼方程”通常指离散时间(discrete-time)最佳化问题的动态规划方程。处理连续时间(continuous-time)最佳化问题上,也有类似的偏微分方程,称作汉弥尔顿-雅各比-贝尔曼方程(Hamilton–Jacobi–Bellman Equation, HJB Equation)。

想了解贝尔曼方程,要先了解许多相关概念。首先,任何最佳化问题都有目标:旅行时间最小化、成本最小化、利润最大化、效用最大化等。用来描述目标的数学函数就称为目标函数。

动态规划将多期规划问题转为不同时间点上较简单的步骤,因此,它需要追踪决策背景情况随时间的变化。作正确决策所需要当前情况的资讯被称作是“状态(State)”(贝尔曼,1957,Ch. III.2)。例如,为了决定每个时间要花多少钱,人们必须要知道他们初始财富的量,此例中财富就是一种“状态变数(State Variables)”,或简称“状态(State)”,当然也可能还有其他的种类。

从任意时点上所挑选以操作的变数通常称为“控制变数(Control Variables)”,或简称“控制(Control)”(控制理论中描述输入的变数)。例如给定现在所具有的财富(状态),人们便可以用以决定当下的消费(控制变数)。挑选当下的控制变数可被视为挑选下个状态,广义而言,下个状态受到当下控制变数及其他因子的影响。举个简单的例子:今天的财富(状态)及消费(控制变数)会决定明天的财富(新的状态),虽然通常也还有其他的因素可以影响明天的财富(例如获得意外之财)。

动态规划方法中利用“找寻某种规则告诉我们各可能状态下的(最佳)控制为何”来达成目标函数最佳化。例如:假设消费(c)只与财富(W)相关,我们想要找到一套规则 c ( W ) {\displaystyle c(W)} 来以财富描述消费。这些“将控制(Controls)表示成状态(States)的函数”的规则被称为策略函数(Policy Function)。

从定义可知,最佳化目标函数的策略乃是所有可能的策略函数中,其对应到目标函数值最佳者。沿用上述的例子,若某人利用给定的财富来消费以最大化快乐的感觉(这里假定“快乐的感觉”可以被数学函数描述,像是效用函数等),那么各种初始的财富便会对应到一个可能的最大快乐,表示成 H ( W ) {\displaystyle H(W)} 。这个最大的可能目标函数值(快乐的感觉),即是价值函数(Value Function)。

相关

  • 细胞遗传学细胞遗传学(英语:Cytogenetics)是遗传学下的一个分支,主要研究的是染色体与细胞表现之间的关系(尤其是在有丝分裂和减数分裂期间)。与之相关的技术包括核型、G显带染色体分析、其
  • 太监太监是中国古代官名,文言文书写时亦可写作大监。最早出现于北魏,为女官称号。唐代时为外朝官职大监的别称。宋代为高级女官职称,辽代是政府高级职位的名称。至明朝时,由于太监职
  • 檀君朝鲜/《桓檀古记》是一部有关东北亚及朝鲜半岛传说时代的书籍。此书由太白教教徒桂延寿和李沂于日韩合并后第二年的1911年编写,1979年出版印刷,主要描述帝释桓因之子桓雄降临和檀君
  • 蛋白质生物合成蛋白质生物合成是指在生物细胞内制造新的蛋白质,它是通过蛋白酶解或蛋白质导向(英语:Protein targeting)细胞蛋白的损耗被平衡。蛋白质的生物合成也称为翻译,它是基因表达的最后
  • 2015年墨西哥城羽毛球大奖赛2015年墨西哥城羽毛球大奖赛为第1届的墨西哥城羽毛球大奖赛,是2015年世界羽联大奖赛的其中一站。本届赛事于2015年12月15日至12月20日在墨西哥的首都墨西哥城内的 Centro Dep
  • 康斯坦丁·斯捷潘诺维奇·格鲁谢沃伊康斯坦丁·斯捷潘诺维奇·格鲁谢沃伊(俄语:Константи́н Степа́нович Грушево́й,1906年10月25日(11月7日)-1982年2月10日),乌克兰人,苏联军事指挥官,亦
  • 安德热·帕努夫尼克安德热·帕努夫尼克爵士(波兰语:Sir Andrzej Panufnik,1914年9月24日-1991年10月27日),英籍波兰作曲家,指挥家。帕努夫尼克早年在华沙音乐学院学习,后到维也纳从魏因加特纳学指挥。
  • 谏山春树谏山春树(1894年2月11日-1990年6月12日),大日本帝国陆军军官,曾任第十七任台湾军参谋长、第十方面军参谋长(大将军衔)。福冈县出身。1915年(大正4年)5月25日,从日本陆军士官学校毕业,陆
  • 阿道夫·弗雷德里克阿道夫·弗雷德里克(瑞典语:Adolf Fredrik、德语:Adolph Friedrich,1710年5月14日-1771年2月12日)是1751年至1771年间的瑞典国王。他是荷尔斯泰因-戈托普的克里斯蒂安·奥古斯特(吕
  • 上水径站† 路线图不按真实比例,仅供参考.上水径站是深圳地铁5号线一个使用中的车站,于2011年6月22日随5号线开通而启用。上水径站位于龙岗区吉华路北部上水径村附近一处山坡上,周边有