深度强化学习

✍ dations ◷ 2025-11-07 23:39:08 #深度强化学习

深度强化学习（英语：Deep reinforcement learning，简称 Deep RL 或 DRL）是机器学习的一个子领域，结合了强化学习和深度学习。强化学习探讨如何在尝试错误的过程中让智能代理人学习做更好的决策。深度强化学习采用了深度学习的方法，让智能代理人可以直接基于非结构化资料来做决策，而不需要人为设计的状态空间。深度强化学习算法可以读取非常大的输入资料（像是电玩画面上的每个像素），来判断哪个动作可以达到最好的目标（像是最高的游戏分数）。深度强化学习已经有了广泛的应用，包括机器人学、电动游戏、自然语言处理、电脑视觉、教育、交通运输、金融、医疗卫生等等。

深度学习是机器学习的一种，训练人工神经网络来将一组输入转换成一组特定的输出。深度学习常常以监督式学习的形式，用带有标签的资料集来做训练。深度学习的方法可以直接处理高维度、复杂的原始输入资料，相较于之前的方法更不需要人为的特征工程（英语：Feature_engineering）从输入资料中提取特征。因此，深度学习已经在电脑视觉、自然语言处理等领域上带来突破性的进展。

强化学习是让智能代理人和环境互动，从中尝试错误以学习做出更好的决策。这类的问题在数学上常常用马可夫决策过程表示：在每个时间点，代理人处在环境的一个状态 ${displaystyle s}$ $s$ ，在代理人采取了一个动作 ${displaystyle a}$ $a$ 之后，会收到一个奖励 ${displaystyle r}$ $r$ ，并根据环境的状态转移函数 ${displaystyle p(s'|s,a)}$ ${displaystyle p(s'|s,a)}$ 转移到下一个状态 ${displaystyle s'}$ $s'$ 。代理人的目标是学习一组策略 ${displaystyle pi (a|s)}$ ${displaystyle pi (a|s)}$ （也就是一组从当前的状态到所要采取的动作之间的对应关系），使得获得到的总奖励最大。与最佳控制不同，强化学习的算法只能透过抽样的方式来探测状态转移函数 ${displaystyle p(s'|s,a)}$ ${displaystyle p(s'|s,a)}$ 。

在很多现实中的决策问题里，马可夫决策过程的状态 ${displaystyle s}$ $s$ 的维度很高（例如：相机拍下的照片、机器人感测器的串流），限制了传统强化学习方法的可行性。深度强化学习就是利用深度学习的技术来解决强化学习中的决策问题，训练人工神经网络来表示策略 ${displaystyle pi (a|s)}$ ${displaystyle pi (a|s)}$ ，并针对这样的训练场景开发特化的算法。

如今已经有不少深度强化学习算法来训练决策模型，不同的算法之间各有优劣。粗略来说，深度强化学习算法可以依照是否需要建立环境动态模型分为两类：

相关

大清皇帝功德碑坐标：37°30′38″N 127°6′6″E / 37.51056°N 127.10167°E / 37.51056; 127.10167大清皇帝功德碑（满语：ᡩᠠᡳᠴᡳᠩ ᡤᡠᡵᡠᠨ ᡳ ᡝᠨᡩᡠᡵᡳᠩᡤᡝ ᡥᠠᠨ ᡳ ᡤᡠ
石高石高是日本幕府时代用以表示土地生产力的一种制度，又称石高制，举凡税贡、劳务、军役等对政府的义务皆依据石高的多寡来课征。此制度始自1582年羽柴秀吉所实施的太阁检地，直到明
电路学对偶现象电路学中的对偶现象（duality）是指电路学互相对应的一些词语，是由亚历山大·罗素在1904年出版其理论时开始使用。以下是一些电路学中的对偶：
九二式防卫机枪九二式防卫机枪（九二式七粍七機銃）是日本帝国海军航空队的轰炸机、攻击机和侦察机上使用的后方防卫机枪，为英国路易士机枪（空用型）的仿制品，就连发射的九二式子弹都是英式.303弹的
可读性可读性（）不等于易认性（），特指某种写作风格的产物。多方面的研究显示，容易阅读的文本可以增进理解程度，强化阅读印象，提高阅读速度，并让人坚持阅读。文本可读性的检测，可以为特定的读者
拜占庭百官志《拜占庭百官志》，曾由加拿大籍希腊裔拜占庭学家尼古拉斯·依科诺米狄斯编修，罗列了970年代（971至975年或975至979年）君士坦丁堡的拜占庭官职、身份、头衔。列表内容还包括了许
艾利泽·本-耶胡达艾利泽·本-耶胡达（希伯来语：.mw-parser-output .script-hebrew,.mw-parser-output .script-Hebr{font-size:1.15em;font-family:"Ezra SIL","Ezra SIL SR","Keter Aram Tsova
法坎法坎（Fachen），又名吉里赫，居住于苏格兰高地的妖精。为塞尔特神话中弗摩尔族的后代，遗传他们巨大的基因。独眼独角独臂，手臂长在胸前。头顶光秃，下巴长有浓密而细长的胡须，身上缠着鹿皮以做衣服遮蔽。
菲利普·埃伦伯格菲利普·埃伦伯格（英语：Philip Erenberg，1909年3月16日－1992年2月2日），美国男子竞技体操运动员。他曾代表美国获得1932年夏季奥运会体操比赛男子瓶状棒操银牌。他于1992年在西好莱坞去世。
美世生活質素调查美世生活質素调查（英文：Mercer Quality of Living Survey）是根据美世咨询每年4月公布的调查结果来评定。分析是美世咨询每年对环球生活质数调查的一部分，调查覆盖221个城市。根据每个城市的39个准则来评估，包括政治、社会、环境因素、个人安全、健康、教育、就业情况、交通运输、基础建设及其他公共服务等。以纽约被定为100分作为其他城市评分指引。在2006年，前5位依序是苏黎世、日内瓦、温哥华、维也纳及奥克兰。每年的前30位几乎超过一半是西欧城市，包括：美国、德国、澳大利亚及加拿大。