深度强化学习(英语:Deep reinforcement learning,简称 Deep RL 或 DRL)是机器学习的一个子领域,结合了强化学习和深度学习。强化学习探讨如何在尝试错误的过程中让智能代理人学习做更好的决策。深度强化学习采用了深度学习的方法,让智能代理人可以直接基于非结构化资料来做决策,而不需要人为设计的状态空间。深度强化学习算法可以读取非常大的输入资料(像是电玩画面上的每个像素),来判断哪个动作可以达到最好的目标(像是最高的游戏分数)。深度强化学习已经有了广泛的应用,包括机器人学、电动游戏、自然语言处理、电脑视觉、教育、交通运输、金融、医疗卫生等等。
深度学习是机器学习的一种,训练人工神经网络来将一组输入转换成一组特定的输出。深度学习常常以监督式学习的形式,用带有标签的资料集来做训练。深度学习的方法可以直接处理高维度、复杂的原始输入资料,相较于之前的方法更不需要人为的特征工程(英语:Feature_engineering)从输入资料中提取特征。因此,深度学习已经在电脑视觉、自然语言处理等领域上带来突破性的进展。
强化学习是让智能代理人和环境互动,从中尝试错误以学习做出更好的决策。这类的问题在数学上常常用马可夫决策过程表示:在每个时间点,代理人处在环境的一个状态 ,在代理人采取了一个动作 之后,会收到一个奖励 ,并根据环境的状态转移函数 转移到下一个状态 。代理人的目标是学习一组策略 (也就是一组从当前的状态到所要采取的动作之间的对应关系),使得获得到的总奖励最大。与最佳控制不同,强化学习的算法只能透过抽样的方式来探测状态转移函数 。
在很多现实中的决策问题里,马可夫决策过程的状态 的维度很高(例如:相机拍下的照片、机器人感测器的串流),限制了传统强化学习方法的可行性。深度强化学习就是利用深度学习的技术来解决强化学习中的决策问题,训练人工神经网络来表示策略 ,并针对这样的训练场景开发特化的算法。
如今已经有不少深度强化学习算法来训练决策模型,不同的算法之间各有优劣。粗略来说,深度强化学习算法可以依照是否需要建立环境动态模型分为两类:
