强化学习

✍ dations ◷ 2025-11-30 16:42:33 #强化学习

强化学习（英语：Reinforcement learning，简称RL）是机器学习中的一个领域，强调如何基于环境而行动，以取得最大化的预期利益。其灵感来源于心理学中的行为主义理论，即有机体如何在环境给予的奖励或惩罚的刺激下，逐步形成对刺激的预期，产生能获得最大利益的习惯性行为。这个方法具有普适性，因此在其他许多领域都有研究，例如博弈论、控制论、运筹学、信息论、仿真优化、多主体系统学习、群体智能、统计学以及遗传算法。在运筹学和控制理论研究的语境下，强化学习被称作“近似动态规划”（approximate dynamic programming，ADP）。在最优控制理论中也有研究这个问题，虽然大部分的研究是关于最优解的存在和特性，并非是学习或者近似方面。在经济学和博弈论中，强化学习被用来解释在有限理性的条件下如何出现平衡。在机器学习问题中，环境通常被规范为马尔可夫决策过程（Markov decision processes，MDP），所以许多强化学习算法在这种情况下使用动态规划技巧。传统的技术和强化学习算法的主要区别是，后者不需要关于MDP的知识，而且针对无法找到确切方法的大规模MDP。强化学习和标准的监督式学习之间的区别在于，它并不需要出现正确的输入/输出对，也不需要精确校正次优化的行为。强化学习更加专注于在线规划，需要在探索（在未知的领域）和遵从（现有知识）之间找到平衡。强化学习中的“探索-遵从”的交换，在多臂老虎机（英语：multi-armed bandit）问题和有限MDP中研究得最多。基本的强化学习模型包括：规则通常是随机的。主体通常可以观察即时奖励和最后一次转换。在许多模型中，主体被假设为可以观察现有的环境状态，这种情况称为“完全可观测”（full observability），反之则称为“部分可观测”（partial observability）。通常，主体被允许的动作是有限的，例如，在棋盘中棋子只能上、下、左、右移动，或是使用的钱不能多于所拥有的。强化学习的主体与环境基于离散的时间步作用。在每一个时间 t {displaystyle t} ，主体接收到一个观测 o t {displaystyle o_{t}} ，通常其中包含奖励 r t {displaystyle r_{t}} 。然后，它从允许的集合中选择一个动作 a t {displaystyle a_{t}} ，然后送出到环境中去。环境则变化到一个新的状态 s t + 1 {displaystyle s_{t+1}} ，然后决定了和这个变化 ( s t , a t , s t + 1 ) {displaystyle (s_{t},a_{t},s_{t+1})} 相关联的奖励 r t + 1 {displaystyle r_{t+1}} 。强化学习主体的目标，是得到尽可能多的奖励。主体选择的动作是其历史的函数，它也可以选择随机的动作。将这个主体的表现和自始自终以最优方式行动的主体相比较，它们之间的行动差异产生了“悔过”的概念。如果要接近最优的方案来行动，主体必须根据它的长时间行动序列进行推理：例如，要最大化我的未来收入，我最好现在去上学，虽然这样行动的即时货币奖励为负值。因此，强化学习对于包含长期反馈的问题比短期反馈的表现更好。它在许多问题上得到应用，包括机器人控制、电梯调度、电信通讯、双陆棋和西洋跳棋。强化学习的强大能来源于两个方面：使用样本来优化行为，使用函数近似来描述复杂的环境。它们使得强化学习可以使用在以下的复杂环境中：强化学习需要比较聪明的探索机制，直接随机的对动作进行采样的方法性能比较差。虽然小规模的马氏过程已经被认识的比较清楚，这些性质很难在状态空间规模比较大的时候适用，这个时候相对简单的探索机制是更加现实的。其中的一种方法就是 ϵ {displaystyle epsilon } -贪婪算法，这种方法会以比较大的概率(1- ϵ {displaystyle epsilon } )去选择现在最好的动作。如果没有选择最优动作，就在剩下的动作中随机选择一个。 ϵ {displaystyle epsilon } 在这里是一个可调节的参数，更小的 ϵ {displaystyle epsilon } 意味着算法会更加贪心。

相关

翻译翻译（英语：Translation），是蛋白质生物合成（基因表达中的一部分，基因表达还包括转录）过程中的第一步。翻译是根据遗传密码的中心法则，将成熟的信使RNA分子（由DNA通过转录而生成）中“碱
白细胞减少症白细胞减少症是指外周血液中白细胞数持续低于4×109/升时的症状。嗜中性粒细胞减少症是白细胞减少症的一种。顾名思义，这种病的表现是嗜中性粒细胞（白细胞中最常见的种类）的数
生物合成蛋白质生物合成是指在生物细胞内制造新的蛋白质，它是通过蛋白酶解或蛋白质导向（英语：Protein targeting）细胞蛋白的损耗被平衡。蛋白质的生物合成也称为翻译，它是基因表达的最后
人事管理人事管理，人力资源管理发展的第一阶段（有时也作为广义的“人力资源管理”的代称），限于纯人事管理——工资和薪水的计算、人员档案管理。人力只是作为一种手段、而非目的，是通过企
维尔纳·冯·西门子恩斯特·维尔纳·冯·西门子（德语：Ernst Werner von Siemens，1816年12月13日－1892年12月6日），德国发明家、企业家、物理学家，西门子公司创始人之一。国际单位制中导纳的单位西门子
皮埃尔·保罗·帕索里尼皮埃尔·保罗·帕索里尼（Pier Paolo Pasolini，1922年3月5日－1975年11月2日），意大利作家、诗人、后新现实主义时代导演。他的父亲是一名狂热的法西斯军官，母亲是一位墨索里尼的反对
CO碳－氧键是指碳原子和氧原子之间形成的共价键，这是有机化学和生物化学中最常见的化学键之一。氧原子具有6个价电子，倾向于与碳原子共用两个电子形成化学键，剩下的四个非键电子形
石台石台县是池州市辖县，位于安徽省南部，皖南山区西部。东与黄山区交界，南与黟县、祁门县相连，西与东至县接壤，北与贵池区、青阳县为邻。地理坐标为北纬29°59′至30°24′，东经117°1
奥德修斯奥德修斯（奥德赛斯，希腊语：Ὀδυσσεύς，转写：Odysseus）也作“尤利西斯”（拉丁语：Ulixes，转写：Ulysses），是传说中希腊西部伊萨卡岛之王，拉厄耳忒斯子，阿尔克修斯孙。曾参加特洛伊战争
安大略省议会大楼安大略省议会大楼（英语：Ontario Legislative Building，法语：L'édifice de l'Assemblée législative de l'Ontario）是多伦多市中心的一座历史建筑，位于皇后公园内，卫斯理街南侧，是