贝尔曼方程

✍ dations ◷ 2025-11-06 13:59:42 #数学最佳化,方程,动态规划,控制理论


“贝尔曼方程(Bellman Equation)”也被称作“动态规划方程(Dynamic Programming Equation)”,由理查·贝尔曼(Richard Bellman)发现。贝尔曼方程是动态规划(Dynamic Programming)这种数学最佳化方法能够达到最佳化的必要条件。此方程将“决策问题在特定时间点的值”以“来自初始选择的报酬 及 由初始选择衍生的决策问题的值”的形式表示。藉这个方式将动态最佳化问题变成较简单的子问题,而这些子问题遵守由贝尔曼所提出的“最佳化原理”。

贝尔曼方程最早应用在工程领域的控制理论及其他应用数学领域,而后成为经济学上的重要工具。

几乎所有可以用最佳控制理论(Optimal Control Theory)解决的问题也可以透过分析合适的贝尔曼方程得到解决。然而,“贝尔曼方程”通常指离散时间(discrete-time)最佳化问题的动态规划方程。处理连续时间(continuous-time)最佳化问题上,也有类似的偏微分方程,称作汉弥尔顿-雅各比-贝尔曼方程(Hamilton–Jacobi–Bellman Equation, HJB Equation)。

想了解贝尔曼方程,要先了解许多相关概念。首先,任何最佳化问题都有目标:旅行时间最小化、成本最小化、利润最大化、效用最大化等。用来描述目标的数学函数就称为目标函数。

动态规划将多期规划问题转为不同时间点上较简单的步骤,因此,它需要追踪决策背景情况随时间的变化。作正确决策所需要当前情况的资讯被称作是“状态(State)”(贝尔曼,1957,Ch. III.2)。例如,为了决定每个时间要花多少钱,人们必须要知道他们初始财富的量,此例中财富就是一种“状态变数(State Variables)”,或简称“状态(State)”,当然也可能还有其他的种类。

从任意时点上所挑选以操作的变数通常称为“控制变数(Control Variables)”,或简称“控制(Control)”(控制理论中描述输入的变数)。例如给定现在所具有的财富(状态),人们便可以用以决定当下的消费(控制变数)。挑选当下的控制变数可被视为挑选下个状态,广义而言,下个状态受到当下控制变数及其他因子的影响。举个简单的例子:今天的财富(状态)及消费(控制变数)会决定明天的财富(新的状态),虽然通常也还有其他的因素可以影响明天的财富(例如获得意外之财)。

动态规划方法中利用“找寻某种规则告诉我们各可能状态下的(最佳)控制为何”来达成目标函数最佳化。例如:假设消费(c)只与财富(W)相关,我们想要找到一套规则 c ( W ) {\displaystyle c(W)} 来以财富描述消费。这些“将控制(Controls)表示成状态(States)的函数”的规则被称为策略函数(Policy Function)。

从定义可知,最佳化目标函数的策略乃是所有可能的策略函数中,其对应到目标函数值最佳者。沿用上述的例子,若某人利用给定的财富来消费以最大化快乐的感觉(这里假定“快乐的感觉”可以被数学函数描述,像是效用函数等),那么各种初始的财富便会对应到一个可能的最大快乐,表示成 H ( W ) {\displaystyle H(W)} 。这个最大的可能目标函数值(快乐的感觉),即是价值函数(Value Function)。

相关

  • 博物志《博物志》是晋朝张华所著的一部奇书,共十卷:136。内容包罗万象,有山川地理知识,有历史人物传说,有奇异草木虫鱼、飞禽走兽,也有神仙方术,可谓集神话、古史、博物、杂说于一炉。据
  • 李安民李安民(1946年9月-),生于重庆,籍贯四川大竹县,中国数学家,四川大学教授。1969年毕业于北京大学数学力学系,1981年获该校硕士学位,1991年获德国柏林技术大学博士学位。
  • 736年晋国曲沃之乱开始,前745年晋昭侯把曲沃(在今中国山西省曲沃县)封给其叔成师。前739年晋大臣潘父弑杀了晋昭侯,迎立曲沃桓叔。晋人发兵攻桓叔,桓叔退回曲沃。晋人共立昭侯子公子平
  • 沙立·他那叻沙立·他那叻陆军元帅,(泰语:สฤษดิ์ ธนะรัชต์,皇家转写:Sarit Thanarat;IPA:;1908年6月16日-1963年12月8日),泰国职业军人,独裁者。1957年发动政变夺权,其后担任泰国总理,直
  • 法律系北京大学法学院(Peking University Law School、PKU LAW、PKULS),原为北京大学法律系,前身是京师大学堂于1904年成立的法律学科,是中国历史最悠久的正规法律教育机构(其后为1909年
  • The New York Review of Books(2011)《纽约书评》(The New York Review of Books,缩写为NYRB)是一本在美国纽约市发行的半月刊(确切地说是每年二十期,学期段每月两期,寒暑假每月一期,显然是为了配合高校师生的生
  • I spy with my little eye我是小间谍(I spy)是一种猜谜游戏。游戏玩法是:一个参与者在心里选定一件事物名称,然后说:“我是小间谍,我发现某某东西的第一个大写字母是...”("I spy with my little eye somet
  • 池广一夫池广一夫(池広一夫,1929年10月25日-)日本的电影导演。出生于东京,父亲池广利夫原本就在大映公司里担任要职,因此对电影导演的职业产生兴趣,但遭到父亲拒绝,加藤泰被解雇之后,他决定去
  • 尼古拉·特罗菲莫维奇·安德烈耶夫尼古拉·特罗菲莫维奇·安德烈耶夫(俄语:Николай Трофимович Андреев;1905年-1974年)是参加过苏德战争的苏联将领、苏军上校,拥有苏联英雄(1945年授予)称
  • 乔治·马司培罗乔治·马司培罗(法语:Georges Maspéro,1872年-1942年),另译马斯伯乐、马伯乐等,法国东方学家,殖民官员。乔治·马司培罗于巴黎出生,父亲是埃及学家加斯东·马伯乐。曾在法国殖民地学