操作性条件反射(英语:operant conditioning)是一种由刺激引起的行为改变的过程与方法,又称为工具性条件反射(instrumental conditioning)或工具学习。操作性条件反射与经典条件反射(classic conditioning)有所不同,操作性条件反射的行为是个体“自愿”进行的行为,当行为得到奖励或惩罚时出现刺激,反过来控制这种行为;而经典条件反射则是使个体产生非自愿反应的作用。
20世纪对动物学习的研究由这两种学习的分析主导,它们仍然是行为分析的核心。
操作性条件反射的第一位研究者是爱德华·桑代克(1874-1949),桑代克观察他的猫试图逃出他所设计的迷箱(puzzle box)的行为。第一次猫花了很长时间才从箱子里逃出。有了经验之后,无效的行为出现频率逐渐减少,而成功的行为出现频率则逐渐增加,此外猫成功逃出迷箱所用的时间也越来越少。在桑代克的效果律中解释,成功的行为产生满足的结果,而这种结果经由经验被“印入”(stamped in),使得成功行为的出现增加。失败的行为则产生厌恶结果,因而被剔除(stamped out),造成失败行为的出现频率减少。简单的说,某些结果能够强化行为,而某些结果能够减弱行为。透过绘制逃脱与试验的曲线,他也画出了知名动物学习曲线。
通过卓有成效的研究,桑代克总结了“试误说”的三大定律:
伯尔赫斯·弗雷德里克·斯金纳(1904-1990)被称为操作性条件反射之父,他的作品在相关主题中被频繁引用。他1938年的著作《有机体的行为:一种实验分析》(The Behavior of Organisms: An Experimental Analysis),开启了他对操作性条件反射及其在人类和动物行为中应用的终身研究。斯金纳跟随恩斯特·马赫的观点,拒绝了桑代克提到的不可观察的心理状态,如满足,并在可观察行为及其同样可观察的后果的基础上进行分析。
斯金纳认为,经典条件反射过于简单化,无法用来描述像人类行为一样复杂的东西。他认为,操作性条件反射能更好地描述人类行为,因为它检验了有意的行为的原因和影响。
为了实施他的实证研究法,斯金纳发明了操作性条件反射室(operant conditioning chamber),或“斯金纳箱”,将鸽子和大鼠等受试者在隔离在内,并令其接受精密控制的刺激。与桑代克的谜箱不同,这种设计允许受试者做出一两个简单、可重复的反应,这种反应的比率成为斯金纳的主要行为测量。另一项发明,累积记录器,能产生图形记录,从中可以估计出其反应比率。这些记录是斯金纳和他的同事用来探讨各种强化程序反应比率的主要数据。强化时间表可以定义为“根据某些明确规则向生物体提供强化的任何程序”。反过来,时间表的影响成为了斯金纳发展他对操作性条件反射的基本发现。 他还利用了许多不太正式的人类和动物行为观察。
斯金纳的许多著作都致力于将操作性条件反射应用于人类行为。1948年,他出版了《桃源二村(英语:Walden Two)》,这是一个围绕他的条件反射原则组织的一个和平、快乐、高效生产的社区的想象。1957年, 斯金纳出版了《言语行为(英语:Verbal Behavior (book))》,将操作性条件反射的原则扩展到语言,这种人类行为的形式在以前一直是由语言学家等人以完全不同的方式分析的。斯金纳定义了新的功能关系,如“mands”和“tacts”来捕捉语言的一些实质,但他没有引入任何新的原则,而是将言语行为视为和其他行为一样的,由其结果控制的行为,其中结果包括听众的反应。
斯金纳(1904-1990)以桑代克的理论作为基础,建立了关于强化、惩罚与消弱的详细的操作性条件反射理论,并发明了operant conditioning chamber(英语:operant conditioning chamber),一个实验箱来高度控制目标动物的学习行为。强化(reinforcement)和惩罚(punishment)两种刺激是操作性条件反射的核心思想,另外消弱(extinction)指的是没有产生作用的刺激。强化、惩罚或是消弱不但能够使用在实验室中,也能够用来形容包括人类以外其他动物的自然环境。
斯金纳所建构的操作性条件反射理论,与诺贝尔奖得主康拉德·劳伦兹所提出的固定行为型态(fixed action patterns,FAPs)或本能行为有所对比。这些斯金纳所说的行为,存在外在的操作性条件反射变数,在进行行为的广泛深入分析时是需要仔细思考的。
在狗的训练中,利用觅食的欲望来对工作犬和侦查犬等进行训练。这种来自于狩猎本能的固定行为型态的刺激,是产生非常困难但一致的行为的钥匙刺激,且在大多数的例子里,并不包括操作、古典或其他条件反射。在固定行为型态的演化塑造过程中,这些型态在长久的时间由于生存机制而维持稳定,也就是操作性条件反射。
根据操作性条件反射的规律,任何一个在一段时间内一致回馈的行为,将会在间歇性的对反应强化,并导致更稳定的反应速率,且对消弱有较大的抵抗力的行为更快的被消除。因此,以一只侦查犬来说,任何对寻找指令作出的正确的行为,必须总是被以玩具或球的回馈来对反应作初始的获取。之后则是衰减的过程,强化会被"减小",也就是并非每次的反应都被强化,使狗进入间歇性强化的行程,使它对没有强化的情况有更强的抵抗力。
然而,有些训练者现在只利用狩猎欲望来训练宠物狗,并发现效果狗对训练的反应比只根据斯金纳的操作性条件反射更好。显示本能在游戏时的支配。
消弱发生时,在不间断的执行动作之后,会导致欲消除行为确实的减少,但在短期内对象可能会产生消弱突然爆发(extinction burst),这种情形经常发生在消弱刚开始的时候。消弱突然爆发会使行为的出现频率在短时间内暂时性的增加,之后欲消除的行为会开始减少。
举例而言,某实验中利用食物强化一只鸽子敲啄按钮的行为,每当它敲啄按钮,将会出现一些能吃的种子作为强化物,因此鸽子饥饿时,便会敲琢按钮以获得食物。然而当某一次敲啄按钮之后食物不再出现,这只鸽子将会再试着敲啄一次按钮,若是食物仍未出现,它将会一次、一次又一次的敲啄...。当这种疯狂的行为依然无效的时候,鸽子就会减少敲啄的频率。这种消弱突然爆发(extinction burst)行为拥有演化上的优势,因为在自然界中,动物的行为并非绝对的附带强化刺激,一次失败之后,它们有可能在多试一次之后确实得到强化。因此这些动物比起其他轻易放弃的动物更有生存优势。
消弱-诱导变异(Extinction-induced variability)扮演类似的角色。当消弱开始,改变的并非只有行为的频率增加,行为的改变也会反映在反应形(response topography、反应的型式)上。对象会一步一步的稍微改变他们的表现,这些改变可以包括特殊的动作、力道的大小、和行为作用时间的小小改变等等。成功的行为变化将会被保留,失败的行为变化则会渐渐减少。在正态分布中,水平线方向表示某行为可能的变异,垂直线方向表示某状态下的行为出现频率。当一个行为出现在分布图的中央(出现频率最高)时,表示在此动物的经验中,这种行为变异最能有效的产生强化刺激。
回避训练属于一种负向强化的安排。对象经由所厌恶的刺激而终结或阻止某些反应。
Solomon和 Wynne使用Shuttle Box来实验。Shuttle Box是一个实验箱子分成两个房间,其中一间地面会通电,目标要学会离开 (shuttling) 原本房间来避免电击
这个理论来自于对辨别回避学习的解释,并假设有两种过程发生。辨别回避学习 (discriminated avoidance learning) - 新的刺激(如光线或声音)出现之后,发生某个令人厌恶的刺激如惊吓或电击,两者类似经典条件反射中的条件反射刺激(CS)和非条件反射刺激(US)。当动物表现操作反应时,各个带有CS的US被移除。在第一次试验(称作逃脱试验)中,动物会经常经验到CS和US,表现出操作性行为以终结令人厌恶的US。同时动物将学习到在CS发生的时候表现某些行为能够使US的出现被阻止。例如Miller一个黑白双房间实验箱中,老鼠学懂要按制及推轮子来开启白房间的门来逃脱至黑房间,这种学习被称为辨别回避学习。
一个有关训练动物的操作性条件反射训练观点是使用塑型(shaping),强化近似成功的行为,就像连锁一样。
两种重要的时间间隔决定回避学习的速率,
因为持续不能离开该环境,而目标降低学习其他方法的能力。影响因素有:
避免习得性无助,可以透过:
罗斯提·理查生(Rusty Richardson)和马龙·德伦(Mahlon deLong)首先找出关于条件反射刺激反应的神经元。他们发现将乙酰胆碱释放到大脑皮质的基底核神经元,能够在条件反射刺激或是条件反射刺激消失的回馈之后被短暂活化。这些神经元在正向和负向强化时被活化,并且在一些皮质区域产生突触可塑性。
证据并显示多巴胺(dopamine)也同时被活化。多巴胺通道只有正向回馈,非造成厌恶的强化,且在额叶皮质区域有较高的浓度。有所不同的胆碱(cholinergic)投射(projections)则在后叶,如视觉皮质区,也有作用浓度。