时序差分学习

✍ dations ◷ 2025-06-07 17:57:07 #时序差分学习

时序差分学习(英语:Temporal difference learning,TD learning)是一类无模型强化学习方法的统称,这种方法强调通过从当前价值函数的估值中自举的方式进行学习。这一方法需要像蒙特卡罗方法那样对环境进行取样,并根据当前估值对价值函数进行更新,宛如动态规划算法。

和蒙特卡罗法所不同的是,时序差分学习可以在最终结果出来前对其参数进行不断地调整,使其预测更为准确,而蒙特卡罗法只能在最终结果产生后进行调整。这是一种自举式的算法,具体的例子如下:

假设你需要预测星期六的天气,并且手头上正好有相关的模型。按照一般的方法,你只有到星期六才能根据结果对你的模型进行调整。然而,当到了星期五时,你应该对星期六的天气有很好的判断。因此在星期六到来之前,你就能够调整你的模型以预测星期六的天气。

时序差分学习与动物学领域中的动物认知存在一定的关联。

T D ( 0 ) {displaystyle TD(0)} 表格法是最简单的时序差分学习法之一,为随即近似法的一个特例。这种方法用于估计在策略 π {displaystyle pi } 之下有限状态马尔可夫决策过程的状态价值函数。现用 V π {displaystyle V^{pi }} 表示马尔可夫决策过程的状态价值函数,其中涉及到状态 ( s t ) t N {displaystyle (s_{t})_{tin mathbb {N} }} 、奖励 ( r t ) t N {displaystyle (r_{t})_{tin mathbb {N} }} 、学习折扣率 γ {displaystyle gamma } 以及策略 π {displaystyle pi }

为了方便起见,我们将上述表达式中表示动作的符号去掉,所得 V π {displaystyle V^{pi }} 满足哈密顿-雅可比-贝尔曼方程:

因此 r 0 + γ V π ( s 1 ) {displaystyle r_{0}+gamma V^{pi }(s_{1})} 乃是 V π ( s ) {displaystyle V^{pi }(s)} 的无偏估计,基于这一观察结果可以设计用于估计 V π {displaystyle V^{pi }} 的算法。在这一算法中,首先用任意值对表格 V ( s ) {displaystyle V(s)} 进行初始化,使马尔可夫决策过程中的每个状态都有一个对应值,并选择一个正的学习率 α {displaystyle alpha } 。我们接下来要做的便是反复对策略 π {displaystyle pi } 进行评估,并根据所获得的奖励 r {displaystyle r} 按照如下方式对旧状态下的价值函数进行更新:

其中 s {displaystyle s} s {displaystyle s'} 分别表示新旧状态,而 r + γ V ( s ) {displaystyle r+gamma V(s')} 便是所谓的TD目标(TD target)。

TD-λ算法是理查德·S·萨顿基于亚瑟·李·塞谬尔的时序差分学习早期研究成果而创立的算法,这一算法最著名的应用是杰拉尔德·特索罗开发的TD-Gammon程序。该程序可以用于学习双陆棋对弈,甚至能够到达人类专家水准。这一算法中的 λ {displaystyle lambda } 值为迹线衰减参数,介于0和1之间。当 λ {displaystyle lambda } 越大时,很久之后的奖励将越被重视。当 λ = 1 {displaystyle lambda =1} 时,将会变成与蒙特卡罗强化学习算法并行的学习算法。

时序差分学习算法在神经科学领域亦得到了重视。研究人员发现腹侧被盖区与黑质中多巴胺神经元的放电率和时序差分学习算法中的误差函数具有相似之处,该函数将会回传任何给定状态或时间步长的估计奖励与实际收到奖励之间的差异。当误差函数越大时,这意味着预期奖励与实际奖励之间的差异也就越大。

多巴胺细胞的行为也和时序差分学习存在相似之处。在一次实验中,研究人员训练一只猴子将刺激与果汁奖励联系起来,并对多巴胺细胞的表现进行了测量。一开始猴子接受果汁时,其多巴胺细胞的放电率会增加,这一结果表明预期奖励和实际奖励存在差异。不过随着训练次数的增加,预期奖励也会发生变化,导致其巴胺细胞的放电率不再显著增加。而当没有获得预期奖励时,其多巴胺细胞的放电率会降低。由此可以看出,这一特征与时序差分学习中的误差函数有着相似之处。

目前很多关于神经功能的研究都是建立在时序差分学习的基础之上的,这一方法还被用于对精神分裂症的治疗及研究多巴胺的药理学作用。

相关

  • 沟齿鼠非洲沟齿鼠属(Mylomys),哺乳纲、啮齿目、鼠科的一属,而与非洲沟齿鼠属(非洲沟齿鼠)同科的动物尚有软毛鼠属(肯尼亚软毛鼠)、短尾水鼠属(短尾水鼠)、小家鼠属(台湾小家鼠)、棱背鼠属(棱背
  • 杰克·肯普杰克·肯普 (Jack French Kemp,1935年7月13日 – 2009年5月2日) ,美国足球员,政治人物。肯普与妻子育有两子两女,他的儿子都是美国足球员。1971年-1989年曾任纽约州众议员、1989
  • 哈里·哈蒙德·赫斯约翰·图佐·威尔逊 哈里·哈蒙德·赫斯(Harry Hammond Hess,1906年5月24日-1969年8月25日),或翻译为海斯,是一位美国地质学家,生于纽约市。他在第二次世界大战期间担任美国海军军
  • 二项式变换在组合数学中,二项式变换是一种序列变换(英语:sequence transformation),可计算一个计算序列的有限差分。二项式变换和欧拉变换有关,欧拉变换是有关二项式变换前后的序列其普通母
  • 火车怪客《火车怪客》(英语:)是英国导演阿尔弗雷德·希区柯克所执导的一部美国犯罪惊悚电影,于1951年上映,为希区柯克生涯的代表作之一。改编自美国女作家派翠西亚·海史密斯所著的1950年
  • 2001年匈牙利大奖赛2001年匈牙利大奖赛(英语:2001 Hungarian Grand Prix),是一级方程式赛车在2001年8月19日举办的赛事。比赛总计77圈,将在匈牙利布达佩斯的匈牙利赛道举行。这是2001年世界一级方程
  • 培田村坐标:25°38′31″N 116°38′05″E / 25.64194°N 116.63472°E / 25.64194; 116.63472培田村位于中国福建省连城县宣和乡(1956年前属长汀县),是一个客家古村落,居民多为吴姓。
  • 允堪允堪(?-1061年),浙江钱塘人,宋朝律学高僧。他从小从慧思出家,后学习南山律,先后于杭州大昭庆寺、苏州开元寺、秀州精严寺等寺庙建立戒坛,宣传南山律宗。撰有《四分律行事钞会正记》、《四分律戒本疏发挥记》、《四分律羯磨疏正源记》。其律学上见解有绕佛方向、衣制长短等,其著作《四分律行事钞会正记》与当时灵芝寺元照律师所著《四分律行事钞资持记》分析迥然不同。当时人们称允堪为会正宗,而元照则被为资持家。宋嘉祐六年圆寂。
  • 约瑟夫·腓特烈·恩斯特约瑟夫·腓特烈·恩斯特(德语:Joseph Friedrich Ernst,1702年5月24日-1769年12月8日),霍亨索伦-锡格马林根亲王,1715年至1769年在位。1722年,他与厄廷根-斯皮尔堡的玛丽·法兰西丝卡(Marie Franziska)结婚,两人共有2子2女:
  • 伍铠伍铠(?年-?年),字文卫,号鸿山,福建泉州府晋江县人,军籍。明朝进士、官员。正德十四年(1519年)己卯科福建乡试举人,嘉靖五年(1526年)丙戌科第三甲第三十八名进士。授高淳县知县,历官户部郎中、南京光禄寺少卿,嘉靖二十四年四月以考察去职。