强化学习

✍ dations ◷ 2025-04-04 07:59:29 #强化学习
强化学习(英语:Reinforcement learning,简称RL)是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。其灵感来源于心理学中的行为主义理论,即有机体如何在环境给予的奖励或惩罚的刺激下,逐步形成对刺激的预期,产生能获得最大利益的习惯性行为。这个方法具有普适性,因此在其他许多领域都有研究,例如博弈论、控制论、运筹学、信息论、仿真优化、多主体系统学习、群体智能、统计学以及遗传算法。在运筹学和控制理论研究的语境下,强化学习被称作“近似动态规划”(approximate dynamic programming,ADP)。在最优控制理论中也有研究这个问题,虽然大部分的研究是关于最优解的存在和特性,并非是学习或者近似方面。在经济学和博弈论中,强化学习被用来解释在有限理性的条件下如何出现平衡。在机器学习问题中,环境通常被规范为马尔可夫决策过程(Markov decision processes,MDP),所以许多强化学习算法在这种情况下使用动态规划技巧。传统的技术和强化学习算法的主要区别是,后者不需要关于MDP的知识,而且针对无法找到确切方法的大规模MDP。强化学习和标准的监督式学习之间的区别在于,它并不需要出现正确的输入/输出对,也不需要精确校正次优化的行为。强化学习更加专注于在线规划,需要在探索(在未知的领域)和遵从(现有知识)之间找到平衡。强化学习中的“探索-遵从”的交换,在多臂老虎机(英语:multi-armed bandit)问题和有限MDP中研究得最多。基本的强化学习模型包括:规则通常是随机的。主体通常可以观察即时奖励和最后一次转换。在许多模型中,主体被假设为可以观察现有的环境状态,这种情况称为“完全可观测”(full observability),反之则称为“部分可观测”(partial observability)。通常,主体被允许的动作是有限的,例如,在棋盘中棋子只能上、下、左、右移动,或是使用的钱不能多于所拥有的。强化学习的主体与环境基于离散的时间步作用。在每一个时间 t {displaystyle t} ,主体接收到一个观测 o t {displaystyle o_{t}} ,通常其中包含奖励 r t {displaystyle r_{t}} 。然后,它从允许的集合中选择一个动作 a t {displaystyle a_{t}} ,然后送出到环境中去。环境则变化到一个新的状态 s t + 1 {displaystyle s_{t+1}} ,然后决定了和这个变化 ( s t , a t , s t + 1 ) {displaystyle (s_{t},a_{t},s_{t+1})} 相关联的奖励 r t + 1 {displaystyle r_{t+1}} 。强化学习主体的目标,是得到尽可能多的奖励。主体选择的动作是其历史的函数,它也可以选择随机的动作。将这个主体的表现和自始自终以最优方式行动的主体相比较,它们之间的行动差异产生了“悔过”的概念。如果要接近最优的方案来行动,主体必须根据它的长时间行动序列进行推理:例如,要最大化我的未来收入,我最好现在去上学,虽然这样行动的即时货币奖励为负值。因此,强化学习对于包含长期反馈的问题比短期反馈的表现更好。它在许多问题上得到应用,包括机器人控制、电梯调度、电信通讯、双陆棋和西洋跳棋。强化学习的强大能来源于两个方面:使用样本来优化行为,使用函数近似来描述复杂的环境。它们使得强化学习可以使用在以下的复杂环境中:强化学习需要比较聪明的探索机制,直接随机的对动作进行采样的方法性能比较差。虽然小规模的马氏过程已经被认识的比较清楚,这些性质很难在状态空间规模比较大的时候适用,这个时候相对简单的探索机制是更加现实的。其中的一种方法就是 ϵ {displaystyle epsilon } -贪婪算法,这种方法会以比较大的概率(1- ϵ {displaystyle epsilon } )去选择现在最好的动作。如果没有选择最优动作,就在剩下的动作中随机选择一个。 ϵ {displaystyle epsilon } 在这里是一个可调节的参数,更小的 ϵ {displaystyle epsilon } 意味着算法会更加贪心。

相关

  • 内外肋间肌肋间肌即连接相邻两肋骨骨弓的肌肉。在呼吸过程中,每对肋骨间的肋间肌收缩,使肋骨向外并向上摇动。肋间肌与横膈一起运作,以将空气吸入肺中。如果做激烈的运动,则颈部和腹部的肌
  • 浊度本词条中浊度专指水质浊度(Turbidity),是指水样中因为大量肉眼可见悬浮物质而造成的混浊情形,类似空气中的烟。浊度量测是水污染的重要测试项目之一。其他浊度可能有尿液浊度。
  • 担子担子(basidium,复数basidia)是担子菌门真菌子实层上的产孢构造,为该门真菌的主要特征之一,一个担子上面通常会长有四个有性孢子,这些有性孢子称为担孢子 (basidiospore),不过有时候
  • 梅格洛玻利斯梅格洛玻利斯(希腊语:Μεγαλόπολη)是希腊南部阿卡迪亚州西南部的一个城镇。该城始建于公元前371年,是当时该地区最早实现城市化的地方。著名历史学家波利比乌斯即生于
  • 妊娠型高血压妊娠型高血压(英语:Gestational hypertension,或pregnancy-induced hypertension),指孕妇在怀孕二十周之后,出现的高血压症状。如果孕妇怀有多胞胎,或是水泡状胎(葡萄胎),可能在二十周
  • 身体穿洞身体穿洞指在身上穿洞,常见有耳洞、鼻洞、脐洞等,再戴上饰物如耳环、鼻环、脐环等,在一些民族传统中,穿洞或穿环是代表身份,亦有些是因为宗教或趋吉避凶而穿环。现代人则多为了美
  • 卡旺托约瑟夫·比埃奈默·卡旺图(Joseph Bienaime Caventou)是一位法国药剂师。1795年,他出生于圣奥梅尔,曾就读于巴黎药学院(École de Pharmacie)和巴黎科学学院。1816年进入圣安托瓦
  • 茶黄素茶黄素(英语:Theaflavin)是存在于红茶中的一种金黄色色素,为茶叶发酵的产物。在生物化学上,茶黄素是一类多酚羟基具茶骈酚酮结构的物质。因红茶加工烘焙的方法不同,茶黄素的比例可
  • 93号州际公路93号州际公路(Interstate 93,简称I-93)是美国州际公路系统的一部分。西北始于佛蒙特州的圣约翰伯里(与I-91相连),东南至马萨诸塞州坎顿以南与95号州际公路、美国国道1和马萨诸塞州
  • 伊里奥特弗一世因提夫一世(Intef I)是古埃及第一中间期第十一王朝的一位法老,他是该王朝最早使用法老这个头衔的统治者。他的统治时间是从约公元前2115年至约公元前2103年。他的荷鲁斯式是塞