强化学习

✍ dations ◷ 2024-11-06 03:35:24 #强化学习
强化学习(英语:Reinforcement learning,简称RL)是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。其灵感来源于心理学中的行为主义理论,即有机体如何在环境给予的奖励或惩罚的刺激下,逐步形成对刺激的预期,产生能获得最大利益的习惯性行为。这个方法具有普适性,因此在其他许多领域都有研究,例如博弈论、控制论、运筹学、信息论、仿真优化、多主体系统学习、群体智能、统计学以及遗传算法。在运筹学和控制理论研究的语境下,强化学习被称作“近似动态规划”(approximate dynamic programming,ADP)。在最优控制理论中也有研究这个问题,虽然大部分的研究是关于最优解的存在和特性,并非是学习或者近似方面。在经济学和博弈论中,强化学习被用来解释在有限理性的条件下如何出现平衡。在机器学习问题中,环境通常被规范为马尔可夫决策过程(Markov decision processes,MDP),所以许多强化学习算法在这种情况下使用动态规划技巧。传统的技术和强化学习算法的主要区别是,后者不需要关于MDP的知识,而且针对无法找到确切方法的大规模MDP。强化学习和标准的监督式学习之间的区别在于,它并不需要出现正确的输入/输出对,也不需要精确校正次优化的行为。强化学习更加专注于在线规划,需要在探索(在未知的领域)和遵从(现有知识)之间找到平衡。强化学习中的“探索-遵从”的交换,在多臂老虎机(英语:multi-armed bandit)问题和有限MDP中研究得最多。基本的强化学习模型包括:规则通常是随机的。主体通常可以观察即时奖励和最后一次转换。在许多模型中,主体被假设为可以观察现有的环境状态,这种情况称为“完全可观测”(full observability),反之则称为“部分可观测”(partial observability)。通常,主体被允许的动作是有限的,例如,在棋盘中棋子只能上、下、左、右移动,或是使用的钱不能多于所拥有的。强化学习的主体与环境基于离散的时间步作用。在每一个时间 t {displaystyle t} ,主体接收到一个观测 o t {displaystyle o_{t}} ,通常其中包含奖励 r t {displaystyle r_{t}} 。然后,它从允许的集合中选择一个动作 a t {displaystyle a_{t}} ,然后送出到环境中去。环境则变化到一个新的状态 s t + 1 {displaystyle s_{t+1}} ,然后决定了和这个变化 ( s t , a t , s t + 1 ) {displaystyle (s_{t},a_{t},s_{t+1})} 相关联的奖励 r t + 1 {displaystyle r_{t+1}} 。强化学习主体的目标,是得到尽可能多的奖励。主体选择的动作是其历史的函数,它也可以选择随机的动作。将这个主体的表现和自始自终以最优方式行动的主体相比较,它们之间的行动差异产生了“悔过”的概念。如果要接近最优的方案来行动,主体必须根据它的长时间行动序列进行推理:例如,要最大化我的未来收入,我最好现在去上学,虽然这样行动的即时货币奖励为负值。因此,强化学习对于包含长期反馈的问题比短期反馈的表现更好。它在许多问题上得到应用,包括机器人控制、电梯调度、电信通讯、双陆棋和西洋跳棋。强化学习的强大能来源于两个方面:使用样本来优化行为,使用函数近似来描述复杂的环境。它们使得强化学习可以使用在以下的复杂环境中:强化学习需要比较聪明的探索机制,直接随机的对动作进行采样的方法性能比较差。虽然小规模的马氏过程已经被认识的比较清楚,这些性质很难在状态空间规模比较大的时候适用,这个时候相对简单的探索机制是更加现实的。其中的一种方法就是 ϵ {displaystyle epsilon } -贪婪算法,这种方法会以比较大的概率(1- ϵ {displaystyle epsilon } )去选择现在最好的动作。如果没有选择最优动作,就在剩下的动作中随机选择一个。 ϵ {displaystyle epsilon } 在这里是一个可调节的参数,更小的 ϵ {displaystyle epsilon } 意味着算法会更加贪心。

相关

  • 喷他佐辛喷他佐辛(Pentazocine)是第一个临床应用的阿片受体激动/拮抗型镇痛剂,能提供包括吗啡、杜冷丁等阿片样药物相接近的镇痛作用;胃肠外给药产生快速强烈的镇痛作用,起作用时间比吗啡
  • 丁基东莨菪碱丁基东莨菪碱(Hyoscine butylbromide),商品名补斯可胖(Buscopan),是一种用于治疗腹部绞痛、食道痉挛(英语:esophageal spasm)、肾绞痛,以及膀胱过动症的药物。本品也可用于临终(英语:End
  • 狭br /带br /纪狭带纪(Stenian,符号MP3)是地质时代中的一个纪,开始于同位素年龄1200±0百万年(Ma),结束于1000±0Ma。狭带纪期间的叠层岩达到高峰,真核藻类继续发展。狭带纪属于前寒武纪元古宙中
  • 演化树系统发生树(英语:phylogenetic tree)又称演化树或进化树(evolutionary tree),是表明被认为具有共同祖先的各物种间演化关系的树状图。是一种亲缘分支分类方法(cladogram)。在图中,每
  • 造纸造纸业(英文:Pulp and paper industry)是指以木材为主要原料,进行生产纸浆、纸、纸板以及其他纤维基体产品的公司或企业。目前,全世界造纸业的生产基地以北美洲(美国与加拿大)、北
  • 威廉二世威廉二世(William II,1056年-1100年8月2日),绰号“红脸威廉”或“威廉·鲁夫斯”。他是征服者威廉的三子,自1087年成为英格兰国王直到1100年。其势力也覆盖诺曼底,在苏格兰也具有
  • 陆熙炎陆熙炎(1928年8月29日-),生于江苏苏州。1951年毕业于浙江大学化学系。中国科学院上海有机化学研究所研究员。曾任《中国化学》主编。1991年当选为中国科学院学部委员(院士)。
  • 王之江王之江(1930年11月21日-),中国物理学家。1930年生于浙江杭州,原籍江苏常州。1952年毕业于大连大学工学院物理系。中国科学院上海光学精密机械研究所研究员。1991当选为中国科学院
  • 以马内利以马内利(希伯来语:.mw-parser-output .script-hebrew,.mw-parser-output .script-Hebr{font-size:1.15em;font-family:"Ezra SIL","Ezra SIL SR","Keter Aram Tsova","Taamey
  • 法兰克福机场法兰克福机场(德语:Flughafen Frankfurt am Main或者Rhein-Main-Flughafen;IATA代码:FRA;ICAO代码:EDDF),一般也称作“莱茵-美因机场”,是位于德国黑森州法兰克福的一座民用机场。位