时序差分学习

✍ dations ◷ 2025-07-06 15:54:47 #时序差分学习

时序差分学习(英语:Temporal difference learning,TD learning)是一类无模型强化学习方法的统称,这种方法强调通过从当前价值函数的估值中自举的方式进行学习。这一方法需要像蒙特卡罗方法那样对环境进行取样,并根据当前估值对价值函数进行更新,宛如动态规划算法。

和蒙特卡罗法所不同的是,时序差分学习可以在最终结果出来前对其参数进行不断地调整,使其预测更为准确,而蒙特卡罗法只能在最终结果产生后进行调整。这是一种自举式的算法,具体的例子如下:

假设你需要预测星期六的天气,并且手头上正好有相关的模型。按照一般的方法,你只有到星期六才能根据结果对你的模型进行调整。然而,当到了星期五时,你应该对星期六的天气有很好的判断。因此在星期六到来之前,你就能够调整你的模型以预测星期六的天气。

时序差分学习与动物学领域中的动物认知存在一定的关联。

T D ( 0 ) {displaystyle TD(0)} 表格法是最简单的时序差分学习法之一,为随即近似法的一个特例。这种方法用于估计在策略 π {displaystyle pi } 之下有限状态马尔可夫决策过程的状态价值函数。现用 V π {displaystyle V^{pi }} 表示马尔可夫决策过程的状态价值函数,其中涉及到状态 ( s t ) t N {displaystyle (s_{t})_{tin mathbb {N} }} 、奖励 ( r t ) t N {displaystyle (r_{t})_{tin mathbb {N} }} 、学习折扣率 γ {displaystyle gamma } 以及策略 π {displaystyle pi }

为了方便起见,我们将上述表达式中表示动作的符号去掉,所得 V π {displaystyle V^{pi }} 满足哈密顿-雅可比-贝尔曼方程:

因此 r 0 + γ V π ( s 1 ) {displaystyle r_{0}+gamma V^{pi }(s_{1})} 乃是 V π ( s ) {displaystyle V^{pi }(s)} 的无偏估计,基于这一观察结果可以设计用于估计 V π {displaystyle V^{pi }} 的算法。在这一算法中,首先用任意值对表格 V ( s ) {displaystyle V(s)} 进行初始化,使马尔可夫决策过程中的每个状态都有一个对应值,并选择一个正的学习率 α {displaystyle alpha } 。我们接下来要做的便是反复对策略 π {displaystyle pi } 进行评估,并根据所获得的奖励 r {displaystyle r} 按照如下方式对旧状态下的价值函数进行更新:

其中 s {displaystyle s} s {displaystyle s'} 分别表示新旧状态,而 r + γ V ( s ) {displaystyle r+gamma V(s')} 便是所谓的TD目标(TD target)。

TD-λ算法是理查德·S·萨顿基于亚瑟·李·塞谬尔的时序差分学习早期研究成果而创立的算法,这一算法最著名的应用是杰拉尔德·特索罗开发的TD-Gammon程序。该程序可以用于学习双陆棋对弈,甚至能够到达人类专家水准。这一算法中的 λ {displaystyle lambda } 值为迹线衰减参数,介于0和1之间。当 λ {displaystyle lambda } 越大时,很久之后的奖励将越被重视。当 λ = 1 {displaystyle lambda =1} 时,将会变成与蒙特卡罗强化学习算法并行的学习算法。

时序差分学习算法在神经科学领域亦得到了重视。研究人员发现腹侧被盖区与黑质中多巴胺神经元的放电率和时序差分学习算法中的误差函数具有相似之处,该函数将会回传任何给定状态或时间步长的估计奖励与实际收到奖励之间的差异。当误差函数越大时,这意味着预期奖励与实际奖励之间的差异也就越大。

多巴胺细胞的行为也和时序差分学习存在相似之处。在一次实验中,研究人员训练一只猴子将刺激与果汁奖励联系起来,并对多巴胺细胞的表现进行了测量。一开始猴子接受果汁时,其多巴胺细胞的放电率会增加,这一结果表明预期奖励和实际奖励存在差异。不过随着训练次数的增加,预期奖励也会发生变化,导致其巴胺细胞的放电率不再显著增加。而当没有获得预期奖励时,其多巴胺细胞的放电率会降低。由此可以看出,这一特征与时序差分学习中的误差函数有着相似之处。

目前很多关于神经功能的研究都是建立在时序差分学习的基础之上的,这一方法还被用于对精神分裂症的治疗及研究多巴胺的药理学作用。

相关

  • 圣卡尔洛剧院圣卡洛剧院(Teatro di San Carlo)是意大利那不勒斯的一座歌剧院,位于市中心的的里雅斯特与特伦托广场,是欧洲现存最古老的持续使用的歌剧院,被列为世界遗产。剧院得名于波旁王朝
  • 磷的含氧酸3s2 3p32, 8, 5蒸气压((白磷))第一:1011.8 kJ·mol−1 第二:1907 kJ·mol−1 第三:2914.1 kJ·mol−1 (主条目:磷的同位素磷(拉丁语:Phosphorum,化学符号:P)是一种化学元素,它的原子
  • 索尼音乐娱乐索尼音乐娱乐(英语:Sony Music Entertainment),简称索尼音乐(Sony Music)或SME,是索尼公司旗下音乐事业群,总部位于美国纽约市,为全球第二大唱片公司,也是全球三大唱片公司之一。2019
  • 阿尔佛雷德·艾侯阿尔佛雷德·艾侯(英语:Alfred Aho,1941年8月9日-),生于加拿大安大略省提明斯(Timmins),是一位计算机科学家。担任哥伦比亚大学的劳伦斯科斯曼计算机科学教授。他同时也是哥伦比亚大
  • 在熟年,在荒年《在熟年,在荒年》(英语:In Plenty and In Time of Need)是巴巴多斯的国歌。由厄文·伯吉(英语:Lord Burgess)作词,冯·罗兰·爱德华作曲。采用于1966年。 When this fair land was
  • 泡点泡点(英语:bubble point,又称起泡点)在热力学中,是于固定压力下加热一含有双成分或多成分液体的过程中,形成第一个气泡时的温度。此时,气相与液相之组成不同,因此在不同组成下之泡点
  • 毛里西奥·富内斯毛里西奥·富内斯(西班牙语:Carlos Mauricio Funes Cartagena,1959年10月18日-),前萨尔瓦多总统。富内斯出生于1959年10月18日的萨尔瓦多首都圣萨尔瓦多,曾在圣萨尔瓦多何塞·西蒙·卡尼亚斯中美洲大学就读并获得文学学位。1986年开始,富内斯任职萨尔瓦多国家电视台的报道员和CNN驻萨尔瓦多的记者。2007年11月11日,富内斯宣布代表左翼反对党法拉本多·马蒂民族解放阵线参于2009年举行的萨尔瓦多总统选举。2009年3月15日,富内斯赢得当天举行的萨尔瓦多总统选举,
  • 亨利七世 (巴伐利亚)亨利七世(德语:Heinrich II. von Luxemburg;约1005年-1047年10月14日),卢森堡王朝成员,卢森堡伯爵(为亨利二世,1026年—1047年在位)及巴伐利亚公爵(1042年—1047年在位)。亚尔丁伯爵齐格飞(英语:Sigfried, Count of the Ardennes)与其妻子诺高的海德薇(英语:Hedwig of Nordgau)的第三子卢森堡的腓特烈(英语:Frederick of Luxembourg)的长子。卢森堡伯爵亨利一世和神圣罗马皇后库妮根德的侄儿。
  • 罗定江 (天体测量学家)罗定江(1926年-),男,广东南海人,中国天体测量学家,中国科学院北京天文台研究员,曾任中国天文学会理事。
  • AyinAyin是许多闪米特字母表的第十六个字母,包括腓尼基字母、亚兰字母、希伯来字母ע‎以及阿拉伯字母ع(ʿayn)。在波斯字母表中,则是第二十一个字母。其发音为/ʕ/。腓尼基字母还演变为了希腊字母Ο、拉丁字母O以及西里尔字母О。这些字母的发音都是元音,而不是闪米特语言中的辅音。ʾbgdhwzḥṭyklmnsʿpṣqršt