时序差分学习

✍ dations ◷ 2025-08-23 03:37:40 #时序差分学习

时序差分学习（英语：Temporal difference learning，TD learning）是一类无模型强化学习方法的统称，这种方法强调通过从当前价值函数的估值中自举的方式进行学习。这一方法需要像蒙特卡罗方法那样对环境进行取样，并根据当前估值对价值函数进行更新，宛如动态规划算法。

和蒙特卡罗法所不同的是，时序差分学习可以在最终结果出来前对其参数进行不断地调整，使其预测更为准确，而蒙特卡罗法只能在最终结果产生后进行调整。这是一种自举式的算法，具体的例子如下：

假设你需要预测星期六的天气，并且手头上正好有相关的模型。按照一般的方法，你只有到星期六才能根据结果对你的模型进行调整。然而，当到了星期五时，你应该对星期六的天气有很好的判断。因此在星期六到来之前，你就能够调整你的模型以预测星期六的天气。

时序差分学习与动物学领域中的动物认知存在一定的关联。

${displaystyle TD(0)}$ ${displaystyle TD(0)}$ 表格法是最简单的时序差分学习法之一，为随即近似法的一个特例。这种方法用于估计在策略 ${displaystyle pi }$ $pi$ 之下有限状态马尔可夫决策过程的状态价值函数。现用 ${displaystyle V^{pi }}$ ${displaystyle V^{pi }}$ 表示马尔可夫决策过程的状态价值函数，其中涉及到状态 ${displaystyle (s_{t})_{tin mathbb {N} }}$ ${displaystyle (s_{t})_{tin mathbb {N} }}$ 、奖励 ${displaystyle (r_{t})_{tin mathbb {N} }}$ ${displaystyle (r_{t})_{tin mathbb {N} }}$ 、学习折扣率 ${displaystyle gamma }$ $gamma$ 以及策略 ${displaystyle pi }$ $pi$ ：

为了方便起见，我们将上述表达式中表示动作的符号去掉，所得 ${displaystyle V^{pi }}$ ${displaystyle V^{pi }}$ 满足哈密顿-雅可比-贝尔曼方程：

因此 ${displaystyle r_{0}+gamma V^{pi }(s_{1})}$ ${displaystyle r_{0}+gamma V^{pi }(s_{1})}$ 乃是 ${displaystyle V^{pi }(s)}$ ${displaystyle V^{pi }(s)}$ 的无偏估计，基于这一观察结果可以设计用于估计 ${displaystyle V^{pi }}$ ${displaystyle V^{pi }}$ 的算法。在这一算法中，首先用任意值对表格 ${displaystyle V(s)}$ ${displaystyle V(s)}$ 进行初始化，使马尔可夫决策过程中的每个状态都有一个对应值，并选择一个正的学习率 ${displaystyle alpha }$ $alpha$ 。我们接下来要做的便是反复对策略 ${displaystyle pi }$ $pi$ 进行评估，并根据所获得的奖励 ${displaystyle r}$ $r$ 按照如下方式对旧状态下的价值函数进行更新：

其中 ${displaystyle s}$ $s$ 和 ${displaystyle s'}$ $s'$ 分别表示新旧状态，而 ${displaystyle r+gamma V(s')}$ ${displaystyle r+gamma V(s')}$ 便是所谓的TD目标（TD target）。

TD-λ算法是理查德·S·萨顿基于亚瑟·李·塞谬尔的时序差分学习早期研究成果而创立的算法，这一算法最著名的应用是杰拉尔德·特索罗开发的TD-Gammon程序。该程序可以用于学习双陆棋对弈，甚至能够到达人类专家水准。这一算法中的 ${displaystyle lambda }$ $lambda$ 值为迹线衰减参数，介于0和1之间。当 ${displaystyle lambda }$ $lambda$ 越大时，很久之后的奖励将越被重视。当 ${displaystyle lambda =1}$ $lambda=1$ 时，将会变成与蒙特卡罗强化学习算法并行的学习算法。

时序差分学习算法在神经科学领域亦得到了重视。研究人员发现腹侧被盖区与黑质中多巴胺神经元的放电率和时序差分学习算法中的误差函数具有相似之处，该函数将会回传任何给定状态或时间步长的估计奖励与实际收到奖励之间的差异。当误差函数越大时，这意味着预期奖励与实际奖励之间的差异也就越大。

多巴胺细胞的行为也和时序差分学习存在相似之处。在一次实验中，研究人员训练一只猴子将刺激与果汁奖励联系起来，并对多巴胺细胞的表现进行了测量。一开始猴子接受果汁时，其多巴胺细胞的放电率会增加，这一结果表明预期奖励和实际奖励存在差异。不过随着训练次数的增加，预期奖励也会发生变化，导致其巴胺细胞的放电率不再显著增加。而当没有获得预期奖励时，其多巴胺细胞的放电率会降低。由此可以看出，这一特征与时序差分学习中的误差函数有着相似之处。

目前很多关于神经功能的研究都是建立在时序差分学习的基础之上的，这一方法还被用于对精神分裂症的治疗及研究多巴胺的药理学作用。

相关

西伯利亚暗色岩西伯利亚暗色岩（俄语：Сибирские траппы，英文：Siberian Traps）又译西伯利亚玄武岩，是个巨大火成岩区，位于俄罗斯西伯利亚。西伯利亚玄武岩的形成时间，介于二叠纪与三
娱美德娱美德娱乐有限公司（Wemade Entertainment Co., Ltd）是一个网络游戏开发和服务提供商，公司总部位于韩国首尔，成立于2000年2月10日。娱美德开发了数款网络游戏，其中最成功的两个当
谢苗·克里沃舍因谢苗·莫伊谢耶维奇·克里沃舍因（俄语：Семён Моисеевич Кривошеин，1899年11月28日－1978年9月16日）苏联装甲兵指挥官，生于俄罗斯帝国沃罗涅日，曾在谢苗·米
白晓红白晓红（1968年－），台湾彰化县人，记者，1991年定居英国，以卧底报导英国非法移民生活闻名，以《Chinese Whispers: The True Story Behind Britain's Hidden Army of Labour》，2009年入选
基斯·梵·邓肯基斯·梵·邓肯（Kees van Dongen，1877年1月26日－1968年5月28日）是荷兰的野兽派画家。1877年，生于荷兰鹿特丹郊外的酿酒人家庭。一边帮忙酿酒，一边学习美术。1899年，转居巴黎。1905
徐政徐政（？－1409年），南京扬州府仪真县（今江苏省仪征县）人，明朝军事将领。建文年间，其为扬州卫副千户，以城降朱棣，累升至都指挥同知。之后跟从张辅征交阯，夺船于三带江以济明军。此后攻占西都
弗雷迪·巴雷罗弗雷迪·巴雷罗（西班牙语：Fredy Bareiro，1982年3月27日－），巴拉圭男子足球运动员，司职前锋。他曾代表巴拉圭国奥队参加2004年夏季奥林匹克运动会足球比赛，获得一枚银牌。Template:2004年美洲杯足球赛巴拉圭队阵容
臼井仪人臼井仪人（日语：うすいよしと，1958年4月21日－2009年9月11日），本名臼井义人（うすいよしひと），是日本的男性漫画家、作词家，代表作为《蜡笔小新》。出生于静冈县静冈市，成长并住于埼玉县春日部市，身高174公分，育有二个女儿。2009年9月11日，臼井于登山时失足跌落山谷不幸罹难，享年51岁。臼井仪人就读于埼玉县立春日部工业高等学校（日语：埼玉県立春日部工業高等学校），1977年毕业。1987年以《不良百货公司物语》（双叶社《漫画ACTION》上连载）得到“新人赏”佳作。1990年，32岁的臼
迈阿密-戴德县迈阿密-戴德县（英语：Miami-Dade County, Florida），是位于美国佛罗里达州东南部的一个县。面积6,297平方公里。根据美国人口调查局2000年统计，共有人口2,253,362人，是该州人口最多的一个县。2019年估计人口达2,716,940，跃居全美第七大县。县治迈阿密。成立于1836年2月4日。旧称戴德县，纪念在第二次塞米诺尔战争中被杀的法兰西斯·L·戴德（英语：Francis L. Dade）（Francis Langhorne Dade）。现县名在1997年7月22日以公民投
刘生和刘生和（1569年－1619年），字仲协，别号环江，直隶河间府沧州王寺镇人，灶籍，明朝政治人物。生于隆庆三年己巳十二月初七日，万历十九年（1591年）辛卯科同伯兄刘生中同中顺天府乡试举人，登三十五年（1607年）丁未科进士，刑部观政，三十六年正月授蔚州知州，三十七年分校山西，四十年升户部员外郎，次年差崇文门税课，四十二年母亲去世丁忧，四十四年补户部江西司员外，四十六年榷江西九江钞关，四十七年升宝庆府知府，至澧州以病乞休归，四十七年己未十一月廿五日卒于南阳博望驿站，享年五十一。所著有《喁于草》、《唐诗律选》