Q学习

✍ dations ◷ 2025-02-24 00:49:08 #机器学习算法

Q-学习是强化学习的一种方法。Q-学习就是要记录下学习过的政策,因而告诉智能体什么情况下采取什么行动会有最大的奖励值。Q-学习不需要对环境进行建模,即使是对带有随机因素的转移函数或者奖励函数也不需要进行特别的改动就可以进行。

对于任何有限的马可夫决策过程(FMDP),Q-学习可以找到一个可以最大化所有步骤的奖励期望的策略。,在给定一个部分随机的策略和无限的探索时间,Q-学习可以给出一个最佳的动作选择策略。

“Q”这个字母在强化学习中表示一个动作的品质(quality)。

强化学习涉及一个智能代理人(agent),一组“状态” S {\displaystyle S} -学习最简单的实现方式就是将奖励值存储在一个表格(Q-table)中,但是这种方式受限于状态和动作空间的数目。

-学习可以结合函数逼近。 这使得在更大的状态空间中使用 Q-学习,即使状态空间是连续的。

一个解决方案是以使用人工神经网络来进行函数逼近。。函数逼近的方法在一些问题中会有很好的加速效果,某些时候算法可以通过早期经验的总结可以在一些未出现的状态中依然可以有很好的效果。

这是一个由DeepMind公司开发的利用深度卷积神经网络来进行Q-学习的算法。在使用非线性函数逼近的时候,强化学习经常会有不稳定性或者发散性:这种不稳定性来于当前的观测中有比较强的自相关。DeepMind 通过使用经历回放,也就是每次学习的时候并不直接从最近的经历中学习,而是从之前的经历中随机采样来进行训练。

相关

  • 人口金字塔人口金字塔(Population pyramid),是用于表现某时间点上的年龄直方图,能反映一地区人口男女比例与年龄构成。这种表示方式显示了年龄和性别资料,为一种可直接且清晰知晓人口组成的
  • 四天工作制四天工作制是一种工作场所或学校使其雇员或学生每星期上班或上学四天而非传统的五天的一种安排。这种安排既有可能是因为弹性工作制,亦有可能是为了减少成本。2008年,美国犹他
  • 人际关系人际关系是指社会人群中因交往而构成的相互依存和相互联系的社会关系,又称为人缘,属于社会学的范畴,也被称为“人际交往”,包括朋友关系、同学关系、师生关系、雇佣关系、战友关
  • 四环类抗抑郁药四环抗抑郁药(英语:tetracyclic antidepressants,缩写作 TeCAs)是一种在1907s被引入的抗抑郁药。他们是因其化学结构含有四个原子环而命名,与三环抗抑郁药紧密相关,即含有三个原子
  • 冖部,就汉字索引来说,是为部首之一,,康熙字典214个部首中的第十四个(两划的则为第八个)。冖部归于二划部首,通常是从上方为部字,且无其他部首可用者将部首归为冖部。用布巾覆盖物体,
  • 锌电池锌电池可能指:
  • 沈保根沈保根(1952年9月1日-),中国磁学和磁性材料专家。中国科学院物理研究所研究员。生于浙江平湖。1976年毕业于中国科学技术大学物理系。现任中国科学院磁学国家重点实验室主任,中国
  • 爬行纲爬行纲(学名:Reptilia)动物通称爬行动物、爬行类、爬虫类,是一类脊椎动物,属于四足总纲的羊膜动物,是包括了龟、蛇、蜥蜴、鳄、鸟类及史前恐龙等物种的通称。本分类过去传统上包含
  • 黄锷黄锷(1937年12月13日-),出生于湖北,中华民国流体力学家,中央研究院院士,现任国立中央大学台积电讲座教授、数据分析方法研究中心主任。黄锷博士在1956年于省立新竹高中毕业,1960年毕
  • 执法悍将参数所指定的目标页面不存在,建议更正成存在页面或直接建立下列一个页面(建立前请先搜寻是否有合适的存在页面可以取代):《执法悍将》(JAG),原意为美国海军执法署(Judge Advocate Ge