哈密顿-雅可比-贝尔曼方程

✍ dations ◷ 2025-11-28 18:06:27 #偏微分方程,动态规划

哈密顿-雅可比-贝尔曼方程(Hamilton-Jacobi-Bellman equation,简称HJB方程)是一个偏微分方程,是最佳控制的中心。HJB方程式的解是针对特定动态系统及相关成本函数下,可以有最小成本的控制实值函数。

若只在某一个区域求解,HJB方程是一个必要条件,若是在整个状态空间下求解,HJB方程是充份必要条件。其解是针对开回路的系统,但也允许针对闭回路系统求解。HJB方程也可以扩展到随机系统。

一些经典的变分问题,例如最速降线问题,可以用此方法求解。

HJB方程的基础是以1950年代由理查德·贝尔曼及其同仁提出的动态规划。对应的离散系统方程式一般称为贝尔曼方程。在连续时间的结果可以视为由卡尔·雅可比及威廉·哈密顿提出,经典力学中哈密顿-雅可比方程的延伸。

考虑在时间 {\displaystyle } 为标量成本函数,为计算其最终状态时效力时或经济值的函数,()为系统状态向量,(0)假设已知,及()是想要求得的控制向量,在 0 ≤  ≤ 。

此系统也需满足下式:

其中可以根据状态向量决定向量后续的变化。

针对上述简单的系统,哈密顿-雅可比-贝尔曼微分方程如下:

需符合以下条件

其中 a b {\displaystyle a\cdot b} 到 + ,可得:

注意最后一项的泰勒展开式如下:

其中o()是泰勒展开式中的高阶项,若在等式两侧删除((), ),除以,并取趋近为零的极限,可得上述定义的HJB方程。

HJB方程一般会用逆向归纳法(英语:Backward induction)求解,也就是从 t = T {\displaystyle t=T} 往前求解到 t = 0 {\displaystyle t=0}

若对整个状态空间求解,HJB方程是最佳解的充份必要条件。若可以求解 V {\displaystyle V} ,就可以找到达到最小成本的控制 u {\displaystyle u}

一般而言,HJB方程不会有一个传统光滑函数的解。为了这些情形发展了许多广义解的表示方式,包括皮埃尔-路易·利翁及迈克尔·克兰德尔(英语:Michael Crandall)的粘性解,Andrei Izmailovich Subbotin的极小化极大算法等。

上述的作法主要是应用贝尔曼的最优化原理,以及在时间上由最终时间倒推求解,针对随机控制问题也可以用类似的作法求最佳解。考虑以下的问题

此时 ( X t ) t {\displaystyle (X_{t})_{t\in }\,\!} 为随机过程,而 ( u t ) t {\displaystyle (u_{t})_{t\in }\,\!} 为控制变数。首先使用贝尔曼方程,再用伊藤引理将 V ( X t , t ) {\displaystyle V(X_{t},t)} 展开,可以得到以下的随机HJB方程。

其中 A {\displaystyle {\mathcal {A}}} 为随机微分运算子,以下是最终时间的限制条件。

注意此时已没有随机性了。此例中后者的 V {\displaystyle V\,\!} 不一定是原来方程式的解,它只是可能解之一,需要再作验证。此技巧常用在财务数学中,决定在市场中的最佳投资策略(例如像默顿的投资组合问题(英语:Merton's portfolio problem))。

下例是一个有线性随机动态特性的系统,有二次式的成本。若系统动态为

而成本以以下的速度累积 C ( x t , u t ) = r ( t ) u t 2 / 2 + q ( t ) x t 2 / 2 {\displaystyle C(x_{t},u_{t})=r(t)u_{t}^{2}/2+q(t)x_{t}^{2}/2} ,则HJB方程为

假设价值函数是二次式,可以将一般的Riccati方程用在价值函数的海森矩阵中,即为线性二次高斯控制(LQG控制)。

相关

  • 虾夷葱北葱(学名:Allium schoenoprasum),又称细香葱、虾夷葱,是葱属植物的一员。其细长管状叶常同葱一样用为调味料,为常用辛香料,也可用作草药。北葱和洋葱或大蒜相比气味较淡。其英文名
  • 马歇尔太空飞行中心马歇尔太空飞行中心(George C. Marshall Space Flight Center)是美国国家航空航天局原本的根据地,为航天飞机推进、太空飞行器推进、训练人员、酬载、设计及建设国际太空站与资
  • 峇冬加里屠杀惨案1950年1951年1954年1956年峇冬加里大屠杀(英语:Batang Kali Massacre),是马来亚紧急状态时,马来西亚所发生英国军队涉嫌屠杀村民的事件。1948年12月1日至2日之间,英军指控村民为马
  • 音高集合音高集合(英语:pitch class)是一个集合,其中所有的音高都刚好差整数倍的八度音,举例来说,音高集合C包含了所有八度音中的C。若以科学音高记法表示,则音高集合C如下其中,C2比C1高八度
  • 塞兰海塞兰海是印度尼西亚的一个海,位于太平洋海域,北临马鲁古海和哈马黑拉海,东毗新畿内亚,南接斯兰岛和斯兰岛,西邻萨纳纳岛和敏莪里岛,面积约12,000平方公里,最大水深5,318米。是印度
  • 白雪 (演员)白雪(1992年3月19日-)是一位中国演员。2011年在校期间的白雪被导演张艺谋选中,出演抗日战争电影金陵十三钗,白雪在片中饰演十三钗之一的香兰,是十三钗中命运最悲惨的角色之一。12
  • 张天复张天复(1513年-1578年),字复亨,号内山,浙江绍兴府山阴县(今属绍兴市)人,民籍,明朝政治人物、地理学家。嘉靖丁未进士,官至云南副使。浙江乡试第七十五名,嘉靖二十六年(1547年)丁未科进士。
  • 巴里·赫尔佐格詹姆斯·巴里·蒙尼克·赫尔佐格(英语:James Barry Munnik Hertzog;1866年4月6日-1942年11月21日),通常称作巴里·赫尔佐格(Barry Hertzog)(1866年-1942年),南非政治人物,南非国民党创建
  • 段和誉文治:1110年-1121年 永嘉:1122年-1128年 保天:1129年-1137年 广运:1138年-1147年 大理宪宗段和誉(1083年-1176年),又名段正严,白族,生卒年不详,是北宋时期大理国的君主。1108年,段和誉父亲段
  • 出合正幸出合正幸(1981年1月21日-)是日本的男性演员,出身自日本大阪府,属于Kart promotion 旗下的艺人。身高175cm,血型为A型。于2003年超级战队系列第27作《爆龙战队暴连者》的伯亚凌驾(暴