首页 >
强化学习
✍ dations ◷ 2025-07-18 18:05:35 #强化学习
强化学习(英语:Reinforcement learning,简称RL)是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。其灵感来源于心理学中的行为主义理论,即有机体如何在环境给予的奖励或惩罚的刺激下,逐步形成对刺激的预期,产生能获得最大利益的习惯性行为。这个方法具有普适性,因此在其他许多领域都有研究,例如博弈论、控制论、运筹学、信息论、仿真优化、多主体系统学习、群体智能、统计学以及遗传算法。在运筹学和控制理论研究的语境下,强化学习被称作“近似动态规划”(approximate dynamic programming,ADP)。在最优控制理论中也有研究这个问题,虽然大部分的研究是关于最优解的存在和特性,并非是学习或者近似方面。在经济学和博弈论中,强化学习被用来解释在有限理性的条件下如何出现平衡。在机器学习问题中,环境通常被规范为马尔可夫决策过程(Markov decision processes,MDP),所以许多强化学习算法在这种情况下使用动态规划技巧。传统的技术和强化学习算法的主要区别是,后者不需要关于MDP的知识,而且针对无法找到确切方法的大规模MDP。强化学习和标准的监督式学习之间的区别在于,它并不需要出现正确的输入/输出对,也不需要精确校正次优化的行为。强化学习更加专注于在线规划,需要在探索(在未知的领域)和遵从(现有知识)之间找到平衡。强化学习中的“探索-遵从”的交换,在多臂老虎机(英语:multi-armed bandit)问题和有限MDP中研究得最多。基本的强化学习模型包括:规则通常是随机的。主体通常可以观察即时奖励和最后一次转换。在许多模型中,主体被假设为可以观察现有的环境状态,这种情况称为“完全可观测”(full observability),反之则称为“部分可观测”(partial observability)。通常,主体被允许的动作是有限的,例如,在棋盘中棋子只能上、下、左、右移动,或是使用的钱不能多于所拥有的。强化学习的主体与环境基于离散的时间步作用。在每一个时间
t
{displaystyle t}
,主体接收到一个观测
o
t
{displaystyle o_{t}}
,通常其中包含奖励
r
t
{displaystyle r_{t}}
。然后,它从允许的集合中选择一个动作
a
t
{displaystyle a_{t}}
,然后送出到环境中去。环境则变化到一个新的状态
s
t
+
1
{displaystyle s_{t+1}}
,然后决定了和这个变化
(
s
t
,
a
t
,
s
t
+
1
)
{displaystyle (s_{t},a_{t},s_{t+1})}
相关联的奖励
r
t
+
1
{displaystyle r_{t+1}}
。强化学习主体的目标,是得到尽可能多的奖励。主体选择的动作是其历史的函数,它也可以选择随机的动作。将这个主体的表现和自始自终以最优方式行动的主体相比较,它们之间的行动差异产生了“悔过”的概念。如果要接近最优的方案来行动,主体必须根据它的长时间行动序列进行推理:例如,要最大化我的未来收入,我最好现在去上学,虽然这样行动的即时货币奖励为负值。因此,强化学习对于包含长期反馈的问题比短期反馈的表现更好。它在许多问题上得到应用,包括机器人控制、电梯调度、电信通讯、双陆棋和西洋跳棋。强化学习的强大能来源于两个方面:使用样本来优化行为,使用函数近似来描述复杂的环境。它们使得强化学习可以使用在以下的复杂环境中:强化学习需要比较聪明的探索机制,直接随机的对动作进行采样的方法性能比较差。虽然小规模的马氏过程已经被认识的比较清楚,这些性质很难在状态空间规模比较大的时候适用,这个时候相对简单的探索机制是更加现实的。其中的一种方法就是
ϵ
{displaystyle epsilon }
-贪婪算法,这种方法会以比较大的概率(1-
ϵ
{displaystyle epsilon }
)去选择现在最好的动作。如果没有选择最优动作,就在剩下的动作中随机选择一个。
ϵ
{displaystyle epsilon }
在这里是一个可调节的参数,更小的
ϵ
{displaystyle epsilon }
意味着算法会更加贪心。
相关
- 纵隔纵膈(mediastinum)是描述胸腔中心为疏松结缔组织所包围的构造,并无一个明显的界限。本区域包含许多解剖构造,包含心脏及其周围血管系统、食道、气管、膈神经(英语:phrenic nerve)、
- 水解水解是一种化工单元过程,是物质与水反应,利用水形成新的物质的过程。通常是指盐类的水解平衡。无机物在水中分解通常是双分解过程,属于复分解反应。水分子也被分解成氢离子和氢
- 中大西洋区中大西洋州份(英语:Mid-Atlantic), 通常是指美国境内的在新英格兰和美国南大西洋地区之间的地区。根据不同来源,有不同的定义,它一般包括纽约州、新泽西州、宾夕法尼亚州、特拉华
- 工业灾难工业灾难是指由工业企业的疏忽、玩忽职守等造成的灾难。其中比较著名的有:
- 有机化合物列表在有机化合物列表中,按官能团进行排序。本表仅列出常见的有机化合物,详细信息参见各官能团的页面(如烷烃)。CH4,甲烷C2H6,乙烷C3H8,丙烷C4H10,正丁烷C4H10,异丁烷C5H12,正戊烷C5H12,异
- 正四面体正四面体是由四个等边三角形组成的正多面体,是一种锥体,有4个顶点、6条边和4个正三角形面。将立方体的其中四个顶点两两相连,而这四个顶点任何两条都没有落在立方体同一条的边
- 查尔斯·索耶斯查尔斯·L·索耶斯(英语:Charles L. Sawyers,1959年1月26日-),霍华德·休斯医学研究所研究员、纪念斯隆-凯特琳癌症中心的医学家。他的实验工作在对癌症作分子定位的药物取得成功的
- 卡塔尔埃米尔卡达国埃米尔是卡塔尔的君主,由阿勒萨尼家族统治。
- 上网本上网本(netbook)这个名词由加拿大ATIC公司于1996年6月提出,当时作为“可上网”的笔记本在北美市场销售。后来这个商标出售给加美(多伦多、加州)的一家笔记本电脑公司继续作为笔记
- Nasub2/subSsub2/sub二硫化钠是一种无机化合物,化学式为Na2S2。二硫化钠可由硫化钠和硫反应,或者金属钠和硫在液氨中反应得到。二硫化钠是浅黄色固体,具有潮解性。加热时,它的颜色变深,并在400 °C变