工具学习

✍ dations ◷ 2025-09-02 07:17:00 #工具学习
操作性条件反射(英语:operant conditioning)是一种由刺激引起的行为改变的过程与方法,又称为工具性条件反射(instrumental conditioning)或工具学习。操作性条件反射与经典条件反射(classic conditioning)有所不同,操作性条件反射的行为是个体“自愿”进行的行为,当行为得到奖励或惩罚时出现刺激,反过来控制这种行为;而经典条件反射则是使个体产生非自愿反应的作用。20世纪对动物学习的研究由这两种学习的分析主导,它们仍然是行为分析的核心。操作性条件反射的第一位研究者是爱德华·桑代克(1874-1949),桑代克观察他的猫试图逃出他所设计的迷箱(puzzle box)的行为。第一次猫花了很长时间才从箱子里逃出。有了经验之后,无效的行为出现频率逐渐减少,而成功的行为出现频率则逐渐增加,此外猫成功逃出迷箱所用的时间也越来越少。在桑代克的效果律中解释,成功的行为产生满足的结果,而这种结果经由经验被“印入”(stamped in),使得成功行为的出现增加。失败的行为则产生厌恶结果,因而被剔除(stamped out),造成失败行为的出现频率减少。简单的说,某些结果能够强化行为,而某些结果能够减弱行为。透过绘制逃脱与试验的曲线,他也画出了知名动物学习曲线。通过卓有成效的研究,桑代克总结了“试误说”的三大定律:伯尔赫斯·弗雷德里克·斯金纳(1904-1990)被称为操作性条件反射之父,他的作品在相关主题中被频繁引用。他1938年的著作《有机体的行为:一种实验分析》(The Behavior of Organisms: An Experimental Analysis),开启了他对操作性条件反射及其在人类和动物行为中应用的终身研究。斯金纳跟随恩斯特·马赫的观点,拒绝了桑代克提到的不可观察的心理状态,如满足,并在可观察行为及其同样可观察的后果的基础上进行分析。斯金纳认为,经典条件反射过于简单化,无法用来描述像人类行为一样复杂的东西。他认为,操作性条件反射能更好地描述人类行为,因为它检验了有意的行为的原因和影响。为了实施他的实证研究法,斯金纳发明了操作性条件反射室(operant conditioning chamber),或“斯金纳箱”,将鸽子和大鼠等受试者在隔离在内,并令其接受精密控制的刺激。与桑代克的谜箱不同,这种设计允许受试者做出一两个简单、可重复的反应,这种反应的比率成为斯金纳的主要行为测量。另一项发明,累积记录器,能产生图形记录,从中可以估计出其反应比率。这些记录是斯金纳和他的同事用来探讨各种强化程序反应比率的主要数据。强化时间表可以定义为“根据某些明确规则向生物体提供强化的任何程序”。反过来,时间表的影响成为了斯金纳发展他对操作性条件反射的基本发现。 他还利用了许多不太正式的人类和动物行为观察。斯金纳的许多著作都致力于将操作性条件反射应用于人类行为。1948年,他出版了《桃源二村(英语:Walden Two)》,这是一个围绕他的条件反射原则组织的一个和平、快乐、高效生产的社区的想象。1957年, 斯金纳出版了《言语行为(英语:Verbal Behavior (book))》,将操作性条件反射的原则扩展到语言,这种人类行为的形式在以前一直是由语言学家等人以完全不同的方式分析的。斯金纳定义了新的功能关系,如“mands”和“tacts”来捕捉语言的一些实质,但他没有引入任何新的原则,而是将言语行为视为和其他行为一样的,由其结果控制的行为,其中结果包括听众的反应。斯金纳(1904-1990)以桑代克的理论作为基础,建立了关于强化、惩罚与消弱的详细的操作性条件反射理论,并发明了operant conditioning chamber(英语:operant conditioning chamber),一个实验箱来高度控制目标动物的学习行为。强化(reinforcement)和惩罚(punishment)两种刺激是操作性条件反射的核心思想,另外消弱(extinction)指的是没有产生作用的刺激。强化、惩罚或是消弱不但能够使用在实验室中,也能够用来形容包括人类以外其他动物的自然环境。斯金纳所建构的操作性条件反射理论,与诺贝尔奖得主康拉德·劳伦兹所提出的固定行为型态(fixed action patterns,FAPs)或本能行为有所对比。这些斯金纳所说的行为,存在外在的操作性条件反射变数,在进行行为的广泛深入分析时是需要仔细思考的。在狗的训练中,利用觅食的欲望来对工作犬和侦查犬等进行训练。这种来自于狩猎本能的固定行为型态的刺激,是产生非常困难但一致的行为的钥匙刺激,且在大多数的例子里,并不包括操作、古典或其他条件反射。在固定行为型态的演化塑造过程中,这些型态在长久的时间由于生存机制而维持稳定,也就是操作性条件反射。根据操作性条件反射的规律,任何一个在一段时间内一致回馈的行为,将会在间歇性的对反应强化,并导致更稳定的反应速率,且对消弱有较大的抵抗力的行为更快的被消除。因此,以一只侦查犬来说,任何对寻找指令作出的正确的行为,必须总是被以玩具或球的回馈来对反应作初始的获取。之后则是衰减的过程,强化会被"减小",也就是并非每次的反应都被强化,使狗进入间歇性强化的行程,使它对没有强化的情况有更强的抵抗力。然而,有些训练者现在只利用狩猎欲望来训练宠物狗,并发现效果狗对训练的反应比只根据斯金纳的操作性条件反射更好。显示本能在游戏时的支配。消弱发生时,在不间断的执行动作之后,会导致欲消除行为确实的减少,但在短期内对象可能会产生消弱突然爆发(extinction burst),这种情形经常发生在消弱刚开始的时候。消弱突然爆发会使行为的出现频率在短时间内暂时性的增加,之后欲消除的行为会开始减少。举例而言,某实验中利用食物强化一只鸽子敲啄按钮的行为,每当它敲啄按钮,将会出现一些能吃的种子作为强化物,因此鸽子饥饿时,便会敲琢按钮以获得食物。然而当某一次敲啄按钮之后食物不再出现,这只鸽子将会再试着敲啄一次按钮,若是食物仍未出现,它将会一次、一次又一次的敲啄...。当这种疯狂的行为依然无效的时候,鸽子就会减少敲啄的频率。这种消弱突然爆发(extinction burst)行为拥有演化上的优势,因为在自然界中,动物的行为并非绝对的附带强化刺激,一次失败之后,它们有可能在多试一次之后确实得到强化。因此这些动物比起其他轻易放弃的动物更有生存优势。消弱-诱导变异(Extinction-induced variability)扮演类似的角色。当消弱开始,改变的并非只有行为的频率增加,行为的改变也会反映在反应形(response topography、反应的型式)上。对象会一步一步的稍微改变他们的表现,这些改变可以包括特殊的动作、力道的大小、和行为作用时间的小小改变等等。成功的行为变化将会被保留,失败的行为变化则会渐渐减少。在正态分布中,水平线方向表示某行为可能的变异,垂直线方向表示某状态下的行为出现频率。当一个行为出现在分布图的中央(出现频率最高)时,表示在此动物的经验中,这种行为变异最能有效的产生强化刺激。回避训练属于一种负向强化的安排。对象经由所厌恶的刺激而终结或阻止某些反应。Solomon和 Wynne使用Shuttle Box来实验。Shuttle Box是一个实验箱子分成两个房间,其中一间地面会通电,目标要学会离开 (shuttling) 原本房间来避免电击这个理论来自于对辨别回避学习的解释,并假设有两种过程发生。辨别回避学习 (discriminated avoidance learning) - 新的刺激(如光线或声音)出现之后,发生某个令人厌恶的刺激如惊吓或电击,两者类似经典条件反射中的条件反射刺激(CS)和非条件反射刺激(US)。当动物表现操作反应时,各个带有CS的US被移除。在第一次试验(称作逃脱试验)中,动物会经常经验到CS和US,表现出操作性行为以终结令人厌恶的US。同时动物将学习到在CS发生的时候表现某些行为能够使US的出现被阻止。例如Miller一个黑白双房间实验箱中,老鼠学懂要按制及推轮子来开启白房间的门来逃脱至黑房间,这种学习被称为辨别回避学习。一个有关训练动物的操作性条件反射训练观点是使用塑型(shaping),强化近似成功的行为,就像连锁一样。两种重要的时间间隔决定回避学习的速率,因为持续不能离开该环境,而目标降低学习其他方法的能力。影响因素有:避免习得性无助,可以透过:罗斯提·理查生(Rusty Richardson)和马龙·德伦(Mahlon deLong)首先找出关于条件反射刺激反应的神经元。他们发现将乙酰胆碱释放到大脑皮质的基底核神经元,能够在条件反射刺激或是条件反射刺激消失的回馈之后被短暂活化。这些神经元在正向和负向强化时被活化,并且在一些皮质区域产生突触可塑性。证据并显示多巴胺(dopamine)也同时被活化。多巴胺通道只有正向回馈,非造成厌恶的强化,且在额叶皮质区域有较高的浓度。有所不同的胆碱(cholinergic)投射(projections)则在后叶,如视觉皮质区,也有作用浓度。

相关

  • 布若卡氏区布洛卡区(英文:Broca's area)也译为布罗卡区是大脑的一区,它主管语言讯息的处理、话语的产生。与韦尼克区共同形成语言系统。布若卡氏区与韦尼克区通常位于脑部的优势半脑(通常位
  • 电子作战电子作战(以下简称电战)泛指利用各种装备与手段来控制与使用电磁波段(包含无线电、可见光、红外线与紫外线波段)而进行的军事行动,这些行动包含维持我方使用与控制的能力,与抵挡敌
  • 同化激素蛋白同化甾类(英语:Anabolic steroid)是一种能够促进细胞的生长与分化,使肌肉扩增,甚至是骨头的强度与大小的甾体激素。同化激素是由天然来源的雄性激素经结构改造,降低雄激素活性
  • 食物安全食品安全是一门跨学科领域,专门探讨在食品加工、存储及销售等步骤中,各方能如何保障食品卫生与食用安全、降低疾病隐患及防范食物中毒。探讨者透过科学方法对于可能造成消费者
  • 华沙大学坐标:52°14′25″N 21°1′9″E / 52.24028°N 21.01917°E / 52.24028; 21.01917华沙大学(波兰语:Uniwersytet Warszawski),波兰最大的大学,被《泰晤士高等教育》于2006年评为世
  • 威格夫威格夫(Khutawyre Wegaf或者Ugaf)是埃及第十二王朝的最后一位法老。Kim Ryholt认为Sekhemre Khutawy是阿蒙涅姆赫特四世之子,约公元前1802年——约公元前1786年在位。
  • 英国治理埃及英治时期,指1882年至1952年间,埃及在英埃战争之后,七月革命之前,由英国管治的时期。19世纪80年代末,随着反对西方影响的风潮越来越盛行,埃及上流人士之间的矛盾也越来越明显。
  • 泛性别非二元性别(英语:Non-binary gender)、性别酷儿(英语:genderqueer)和X性别(日语:Xジェンダー)是指一系列不完全是男性或女性的性别认同,这些身份在男性或女性的分类以外。非二元性别可
  • 软件架构软件架构是有关软件整体结构与组件的抽象描述,用于指导大型软件系统各个方面的设计。软件体系结构是构建计算机软件实践的基础。与建筑师设定建筑项目的设计原则和目标,作为绘
  • span class=nowrapAcClsub3/sub/span氯化锕是一种无机化合物,化学式为AcCl3,有强放射性。氯化锕有三氯化铀(UCl3)的结构,空间群P 63/m,晶胞参数a =7.63 Å,c = 4.56 Å。锕的Wyckoff位置为2c,氯为6h (avec y ~ 0.29)。