Q学习

✍ dations ◷ 2024-09-20 10:34:38 #机器学习算法

Q-学习是强化学习的一种方法。Q-学习就是要记录下学习过的政策,因而告诉智能体什么情况下采取什么行动会有最大的奖励值。Q-学习不需要对环境进行建模,即使是对带有随机因素的转移函数或者奖励函数也不需要进行特别的改动就可以进行。

对于任何有限的马可夫决策过程(FMDP),Q-学习可以找到一个可以最大化所有步骤的奖励期望的策略。,在给定一个部分随机的策略和无限的探索时间,Q-学习可以给出一个最佳的动作选择策略。

“Q”这个字母在强化学习中表示一个动作的品质(quality)。

强化学习涉及一个智能代理人(agent),一组“状态” S {\displaystyle S} -学习最简单的实现方式就是将奖励值存储在一个表格(Q-table)中,但是这种方式受限于状态和动作空间的数目。

-学习可以结合函数逼近。 这使得在更大的状态空间中使用 Q-学习,即使状态空间是连续的。

一个解决方案是以使用人工神经网络来进行函数逼近。。函数逼近的方法在一些问题中会有很好的加速效果,某些时候算法可以通过早期经验的总结可以在一些未出现的状态中依然可以有很好的效果。

这是一个由DeepMind公司开发的利用深度卷积神经网络来进行Q-学习的算法。在使用非线性函数逼近的时候,强化学习经常会有不稳定性或者发散性:这种不稳定性来于当前的观测中有比较强的自相关。DeepMind 通过使用经历回放,也就是每次学习的时候并不直接从最近的经历中学习,而是从之前的经历中随机采样来进行训练。

相关

  • 假根假根是植物和真菌的一种结构,和根一样用做支撑或吸收等用途。在真菌里,假根是由固定真菌的匍匐枝向下长的小小分歧菌丝。假根会释放出消化酶并吸收消化后的有机物质。在陆生植
  • NADP烟.mw-parser-output ruby>rt,.mw-parser-output ruby>rtc{font-feature-settings:"ruby"1}.mw-parser-output ruby.large{font-size:250%}.mw-parser-output ruby.larger{f
  • 存储器计算机存储器(英语:Computer memory)是一种利用半导体、磁性介质等技术制成的存储数据的电子设备。其电子电路中的数据以二进制方式存储,不同存储器产品中基本单元的名称也不一
  • 河水河可以有以下多种意思:
  • 台湾闽南语常用名词自郑氏东宁王朝到大清帝国统治时期,中国闽粤一带的移民大量进入台湾,其中以福建省南部的泉州府人以及漳州府人最为多数,使得闽南语逐渐取代了台湾原住民族诸语,成为了台湾最优势
  • 耳乌贼目耳乌贼目(学名:Sepiolida)是头足纲的一个分类,跟墨鱼目的关系密切。与乌贼目的物种比较,耳乌贼目物种的外套膜比较圆,而且没有乌贼骨;体形也较其他十腕总目的物种为小(雄性的外套膜
  • 恩特雷里奥斯省恩特雷里奥斯省(Entre Ríos,意思是“两河之间”)为南美国家阿根廷二十三省之一省,位于阿根廷东北部,该省首府为巴拉那市(Paraná)。1自治市
  • 秦末民变秦末民变(前209年七月-前207年十月)指中国秦朝末年群雄起兵反秦之战争,又称秦末农民战争或秦末农民起义。秦灭楚后楚地流行“楚虽三户,亡秦必楚”之说。秦始皇死后一年,陈胜、吴广
  • 亚硝酰氟亚硝酰氟(NOF)是一种共价型的亚硝酰化合物。NOF是一种十分活泼的氟化剂,能将多种金属转化为它们的氟化物,并释放出一氧化氮:NOF也能与路易斯酸反应产生类似于盐的加合物,例如NOBF4
  • 十恶 (佛教)十恶,在佛教中指十种严重程度之恶行。包括:一杀生。二不与取。三欲邪行。四虚诳语。五离间语。六麁恶语。七杂秽语。八贪欲。九瞋恚。十邪见。行此十种恶行所造之业称十恶业,会