|
斯金纳的操作性条件反射学习理论
一、斯金纳的生平
B•F•斯金纳(Burrhus Frederic Skinner,1904~1990)
美国行为主义心理学家,1904年3月20日出生在美国宾夕法尼亚州的萨斯奎汉纳镇上。像许多心理学先驱者一样,斯金纳在1922年进汉密尔顿学院读书时,并未打算成为一名心理学家,而是专修英文,打算成为一名作家。在毕业后的两年内,从事于写作,结果感到没有什么可写的,于是攻读生物学。在这个过程中,他读了华生和巴甫洛夫的著作,从而开始对人类和动物的行为感兴趣,就进了哈佛大学攻读心理学。1930年获心理学硕士学位,1931年获哲学博士学位。接着留校从事研究工作。1936年至1944年在明尼苏达大学任讲师和副教授,1945年任印第安纳大学心理系教授和系主任,1948年返回哈佛大学任心理学教授,直到1974年退休。在这期间,他于1958年获美国心理学会授予的杰出科学奖;1968年获美国政府颁发的最高科学奖——国家科学奖;1971年获美国心理学会基金会颁发的金质奖章。
二、斯金纳的学习实验研究
斯金纳在特制的实验箱(斯金纳箱)内研究了白鼠的学习。斯金纳箱(如图)是一大约0.3米见方的箱子,箱内装有一个杠杆,杠杆与传递食物的机械装置相连,只要杠杆一被压动,一颗食丸便滚进食盘。白鼠被放进箱内,自由活动,当它踏上杠杆时,有食丸放出,于是吃到食物。它一旦再按压杠杆,食丸又滚出,反复几次,白鼠就学会了按压杠杆来取食物的条件反射。斯金纳将这种条件反射叫做操作性条件反射。
三、斯金纳学习理论的基本观点
(一)把一切行为分为应答性和操作性两种
斯金纳提出要注意区分“引发反应”与“自发反应”,并根据这两种反应提出了两种行为:应答性行为和操作性行为。前者是指由特定的、可观察的刺激所引起的行为,如在巴甫洛夫实验室里,狗看见食物或听到铃声就流唾液,食物或铃声是引起流唾液反应的明确的刺激,后者是指在没有任何能观察的外部刺激的情境下的有机体行为,它似乎是自发的,如白鼠在斯金纳箱中的按压杠杆行为就找不到明显的刺激物。应答性行为比较被动,由刺激控制,操作性行为代表着有机体对环境的主动适应,由行为的结果所控制。人类的大多数行为都是操作性行为,如游泳、写字、读书等等。
据此,斯金纳进一步提出两种学习形式:一种是经典式条件反射学习,这种条件反射是反应发生必然有刺激存在,即刺激先于反应并自动诱发行为。经典式条件反射学习,用以塑造有机体的应答行为;
另一种是操作式条件反射学习,是反应发生时看不到刺激的行为反应,即开始的刺激总是不知道的,有机体自发的反应被紧随其后的刺激(即强化)所控制。操作式条件反射学习,用以塑造有机体的操作行为。西方学者认为,这两种反射是两种不同的联结过程:经典性条件反射是S—R的联结过程;操作性条件反射是R—S的联结过程。这便补充和丰富了原来行为主义的公式。
斯金纳认为条件反射有两种,即巴甫洛夫的经典性条件反射和操作性条件反射。巴甫洛夫的经典条件反射是应答性条件反射,斯金纳的操作性条件反射是如果一种反应,不管有没有引起这种反应的刺激,之后伴随一种强化物,那么,在类似环境里发生这种反应的概率就增加。因此,强化物与实施强化的环境,都是一种刺激。通过控制刺激和环境,人们可以对反应进行控制。这样,任何作为强化的结果而习得的行为,都可以被看作是操作性条件反射的例子。
斯金纳更重视操作学习,他认为操作学习更能代表人在实际中的学习情况,认为人的学习几乎都是操作学习。斯金纳认为操作性行为形成的重要手段是强化。强化在斯金纳学习理论中占有极其重要的地位,是他学习理论的基石和核心,所以他的理论被称为强化理论或强化说。
(二)斯金纳的强化理论
1、强化和强化物
强化是指在行为发生频率或持续时间上的增加。
强化物指使反应发生概率增加或维持某种反应水平的刺激。如上述实验的食物。强化在课堂里经常发生,当学生得到表扬、奖励或好分数时,就会产生对学习行为的强化。
斯金纳通过研究,提出有四种类型的强化物。
(1)正强化物
当在环境中增加某种刺激,个体做出反应的概率就增加,这种刺激就是正强化物。也就是给学生呈现他们所想要的东西。例如,当一名小学生想得到老师的表扬而上课好好表现时,如果老师对他进行了表扬,此时,表扬就是正强化物。下次他还会在课堂上好好表现。
(2)负强化物
当在环境中减少或消除某种刺激,个体做出反应的概率就增加,这种刺激就是负强化物。
负强化物即厌恶性刺激,是个体力图避开的那种刺激。例如,在学校中,老师布置作业,学生按时完成,老师予以表扬,表扬就是正强化物。相反对不按时完成作业的学生,老师罚其抄写作业两遍,学生为了避免抄写两遍作业而及时完成作业,那么罚抄写两遍作业即称为负强化物。如减少在大庭广众面前批评学生,学生就会表现的比较好。由此可见,无论是正强化物还是负强化物,其结果都是增强反应概率,即努力完成作业。因此,决定一种刺激是否是一种强化物,主要看刺激引起反应的结果,而不是刺激本身的性质。
(3)一级强化物
是指一切没有任何学习发生的情况下也起强化作用的刺激。例如,食物、水等满足基本生理需要的东西。
(4)二级强化物
指那些在开始时不起强化作用,但后来作为与一级强化物配对而起强化作用的刺激。
如金钱,对婴儿它不是强化物,但当小孩知道钱能换糖时,它就能对儿童的行为产生效果。金钱由于它与衣、食、住、行等皆相联系、匹配,因而具有广泛的强化作用。再如分数,也是在受到教师的注意后才具有强化性质的。
在人类来说,二级强化物包括对大量行为起强化作用的许多刺激,诸如特权、社会地位、财富、名誉等,这些大都是由社会文化所决定的,它们构成了决定人类行为的极有利的强化物。二级强化可分为社会强化(社会接纳、微笑)、信物(钱、级别、奖品等)和活动(自由地玩、听音乐、旅游等)。
在强化时,可以使用这样一个原则——普雷马克原理(Premack
Principle),即用高频的活动作为低频活动的强化物,或者说用学生喜爱的活动去强化学生参与不喜爱的活动。如“你吃完这些青菜,就可以去玩。”如果一个儿童喜爱做航空模型而不喜欢阅读,可以让学生完成一定的阅读之后去做模型,等等。普雷马克原理也被称为“奶奶的规则”,即“先吃了你的蔬菜,然后就可以吃甜点”
在实际教育中,人们对各种不同的强化做出反应。有的学生能因在班上受口头表扬而受到激励,但有的学生则不然。一个强化事件本身并不必然有效。因此,在教学中要注意:
① 教师要针对班上不同的学生提供不同的强化物系列。教师要注意观察和了解学生对什么强化物感兴趣。在一个30多人的班级中,可以事先让学生填写一个问卷。如“在课堂里你喜欢干什么或玩什么东西?
在课堂上你最喜爱干的三件事是什么? 如果你去商店,你将买哪三件喜爱的玩具?
”这些问题还可针对不同的年级加以修改。
② 教师选择强化物时应考虑年龄因素。有些活动如帮助老师、做谜语题,对小学生可能是更合适的强化物。因此,必须对不同年龄的学生提供相应的有力的强化刺激和事件。
2、强化的类型
斯金纳把强化区分成了正强化和负强化两种类型。
(1)正强化
也叫积极强化,是指当某一刺激出现时所产生的行为增强的效果。这时所呈现的刺激也就是正强化物。它们通常是一些人们所喜爱的或有价值的刺激,当这些刺激伴随在某一行为之后出现时,就会使行为发生的频率或持续的时间增加。
在斯金纳的强化原理中,运用正强化就是要呈现对学生有益的刺激,而增加学生合乎要求的反应行为的过程。如儿童做了好事,教师及时给予表扬,以促进儿童这种行为的保持和发扬,表扬就是正强化。
(2)负强化
负强化也叫消极强化,是指当某一种刺激消除或避免时所产生的行为增强的效果。这一被消除或避免的刺激叫负强化物。当这些刺激在某一行为之后,立即被除去时,就会使该行为发生频率或持续时间增加。例如教师告诉学生们:“同学们,这周大家的家庭作业做得很好,交作业也很按时,因此,这个周末就不给你们布置家庭作业了,我们把它留到下周一在做。”该教师是想通过周末不留作业使学生在下一周更好地完成每天的家庭作业。需要特别注意的是,负强化仍然是使某一行为出现的频率增加而不是减少。
3、负强化与惩罚
在当今许多心理学与教育学著作中,往往都混用负强化与惩罚这两个概念。而在斯金纳看来,这二者是有本质区别的。同强化一样,惩罚也是根据其结果来定义的,惩罚是抑制反应的概率,而负强化则是增强反应的概率。惩罚可分为给予厌恶性刺激惩罚和不给奖励性刺激惩罚。
负强化常常适于在所期待的学生行为没有表现出来之前使用。负强化是指消除伤害性和讨厌的刺激,而增强人的预期反应的过程。如对待一个不爱写作业的学生,为了让他完成课堂作业,可以告诉他说:“如果课堂作业写对了可以不写家庭作业。”这样他会为了避免再写家庭作业而积极地完成课堂作业。这就是一种通过负强化达到预期效果的过程。
对惩罚的理解,斯金纳认为,惩罚有时在改变行为方面是一种有效的方法。但不是一种理想的方法。虽说惩罚会导致反应的减少,但它只是间接起作用的,它只是抑制而不是消除这种行为。与此同时,惩罚还可能引起负效应,如攻击行为和逆反心理等。所以,斯金纳认为,与其给予厌恶性刺激惩罚,还不如不给奖励性刺激惩罚。
在现实教育中,怎样使用惩罚的确是一个令人思索的问题,什么时候惩罚、方式的运用等都是值得教育者深思的问题。惩罚运用的不恰当,不仅不会抑制不良行为,还可能引发过激行为,甚至出现教育失误,由于受到惩罚而引发各种学生轻生事件很多。
“错一字罚写三千遍,四个字逼死小学生” (《扬子晚报》2001年5 月9日沈阳电)
沈阳市铁西区光明二校六年级一班13 岁的女孩魏某8
日晚被发现在家中服药自杀。在她身旁放着临终前写下的纸条:"妈,你回来叫我,因为我要写作业!!!!!!!!!!!"(十个感叹号)。死者的母亲说,孩子是承受不了学习的压力才服毒自杀的。死者家住铁西区光明路1-54
号的一处平房。记者在现场看到,小女孩仰面躺在床上,旁边的桌子上放着厚厚一叠纸和笔,纸上"夫、斗、庙、程"每个字都写了满满三页。据她妈妈讲,这是老师前几天留的作业,因为孩子前几天写错了这几个字,便要求她每个字写3000遍。
8日一早,孩子装病不想上学,父母因为有急事,早上5
点多就离开家去了辽中,晚上7点多回来时发现家中门插着,父亲爬窗一看,见孩子一动不动地躺在床上,叫了几声也没有反应。父亲发觉不妙,急忙把窗子踹开,见孩子身体僵硬,口吐白沫,已没有了呼吸。铁西公安分局于洪派出所接到报警后立即赶到现场,据法医初步签定,孩子已死去三个小时以上,是服药自尽。
斯金纳认为,在必须给予惩罚时,一定要注意两点。第一,要注意利用惩罚后的反应抑制期。也就是说,要尽量通过强化来加强其他的反应行为。第二,惩罚一定要在不良反应发生后立即给予,延迟的惩罚可能是无效的。
4、强化的安排
从某种意义上说,斯金纳在强化安排方面的实验,是他对心理学的最大贡献。对于学生的学习,并不是给予一次强化就万事大吉。事实上,在学生学习过程中,为了激发并维持他们的学习行为,常常需要多次强化,这就涉及到强化的安排。斯金纳提出,通过控制强化,就能操纵儿童行为的动机。如何控制强化呢?斯金纳提出了安排强化的方式如下。
连续强化,即每一次正确反应之后给予强化;也叫全部强化。例如,在课堂上,只要小学生举手回答对问题,老师就当众表扬他。(2)间歇强化,即并不是每一次正确反应之后都给予强化,强化的次数可以按一定的比例或时间间隔进行安排。也叫部分强化。例如教师只对真正圆满的回答给予表扬。连续强化能够迅速建立起某种学习行为,但强化一旦停止,原有的学习行为就很容易消退,缺乏坚持性。间歇强化正相反,学习行为建立的速度较慢,但强化停止后,学习行为消退的也慢。因此连续强化适用某种新的学习刚刚开始阶段使用,而后就要尽可能转入间歇强化。
比例强化:根据一定比例对正确反应进行强化。学生必须做一定量的正确反应才能得到强化。例如每5次正确反应给予一次强化。例如在小学班集体里,学生连续五天不迟到就获得一个小红旗。在日常生活中,当一个人工作越努力,他获得报酬的机会越多,就属于这种强化。
间隔强化:根据一定的时间对正确反应进行强化。例如,每5分钟正确反应给予一次强化。
根据强化与反应次数之间的关系,可将比例强化分为固定比例强化和变化比例强化。
固定比例强化:固定比例强化是学习者达到一个可以预知的、固定的反应次数后,即可得到强化。例如每5次正确反应给予一次强化。比如,每做完10道练习题就可以得到10分钟的自由活动时间。这种强化程序的效果是可以维持相当高的学习行为发生率,但每次强化过后,学生往往稍许懈怠,很快便又开始努力学习,直到得到下一次强化。
变化比例强化:变化比例强化是学习者在达到一个不可预知的、不固定的反应次数后,可以得到一次强化。例如在20次正确反应期间给予4次强化,至于强化何时给予,那是随机的。比如,在变化比例强化中,学生做出的反应越多,得到的强化也就越多。
从强化的时间间隔上,可将间隔强化分为固定间隔强化和变化间隔强化。
固定间隔强化:固定时间间隔强化是学习者在一个可以预知的固定时间间隔内受到强化。例如,每隔正确反应5分钟给予一次强化。又如,每年学校规定在七月份举行升学考试,学生在快考试时“发疯似”地学习,这种行为就是典型的固定间隔强化。这种强化程序的效果是,学生掌握了强化出现的时间间隔,平时不用功,只是在强化快要出现时才想到要努力,考试过后,故态复萌,只等下次考试前再拼命一搏。
变化时间间隔强化是学习者在一个不可预知的、任意变化的时间间隔内受到强化。例如在正确反应的20分钟间给予4次强化,至于强化何时出现,那是随机的。例如,老师对学生正确行为进行表扬,有可能在第一次表扬后,马上给予第二次表扬;有可能很长一段时间内不给予表扬。其效果是,学生不知道何时出现强化,无法“临时抱佛脚”只能把功夫用在平时。
下面是一些强化程式原则:
① 教新任务时,进行即时强化,不要进行延缓强化。在行为主义学习理论中有一条重要的原理就是,后果紧跟行为比后果延续要有效得多。即时反馈有两个作用:首先是使行为和后果之间的联系更为明确,其次它增加了反馈的信息价值。
② 在任务的早期阶段,强化每一个正确的反应,随着学习的发生,对比较正确的反应优先强化,逐渐地转到间隔式强化。
③ 强化要保证做到朝正确方向促进或引导。不要坚持一开始就做到完美。不要强化不希望的行为。
5、强化原理在教育中的应用
斯金纳的强化原理被重视的原因,不仅在于实验情境中取得了成功,而且在于应用于广泛的社会情境中,在于促进有机体行为变化所采用的两种技术——塑造与矫正在教育领域中的应用。
(1)塑造行为
斯金纳认为“教育就是塑造行为”,教育就是要塑造个体对自己和他人有利的行为。塑造行为是指应用所设计的强化技术引发个体做出原来所不曾有过的复杂动作,就是通过不断强化一系列逐渐接近最终行为的反应来塑造某种行为。
如何通过强化去塑造行为,斯金纳采用连续接近(successive appoximation)的方法,对趋向于所要塑造的反应的方向不断地给予强化,直到引出所需要的新行为。例如,训练鸽子或老鼠头抬到一定的高度,只有当其头朝着实验所需的方向抬起来时才强化,下一次要求再多一点,直到全部达到所需的方向和高度。这时,新的行为就塑造成了。
在课堂教学中,塑造是一个重要的工具。假设我们想让学生写一段含有一个主题句和一句总结的英文段落,那么,这一任务包括许多部分:能识别并能写出主题句、佐证材料和总括句;能写出一个完整的句子;能正确使用大小写、标点符号和语法;能正确拼写。如果教师在一节课里教所有这些技能,要求学生写出一段文字,并且根据他们的内容、语法、标点和拼写而评分,那么大多数学生将会失败,学生从练习中将学不到什么。
反之,老师可以一步一步地教这些技能,逐步塑造出最终的技能。学生可以先学如何写主题句,然后写佐证材料,然后写总括句,在此之前可能专门谈论过如何选题立意。然后,对段落和标点也提出要求。最后,拼写也作为一条标准。在每一阶段,学生都有机会获得强化,因为强化的标准都是他们可能达到的。塑造就是通过小步反馈帮助学生达到目标行为。
在塑造行为时要注意这样一条原则:学生必须在他们能力所及的行为范围内得到强化,同时这些行为又必须能向新的行为延伸。
实际上,塑造过程也就是个体对各种行为反应做出辨别的过程,个体正是在不断辨别出哪种反应会得到强化的过程中,逐渐习得了最终所期望的行为习惯。因此,教师成功地使用塑造技术的一个关键要素就是必须控制环境刺激,以便促使学生产生所期望的行为反应。
(2)行为矫正
行为矫正也是运用强化原理,改变或消除不良行为,以建立新的适应行为的过程。行为矫正可以帮助儿童解决语言失调,破坏性行为及自控力差等问题。
实施行为矫正要明确三点:
① 学生哪一种行为是不适当的,是需要减少的?
② 什么环境可能支持学生这种行为?
③ 什么环境可以改变学生的行为?
第一步是确定要矫正的行为,而且是可观测的具体行为。如,“某中学男生这个星期每天都迟到”。
第二步要明确不适当行为产生的动机。也许某男生迟到的原因是为了让老师关注他。如果老师因此而关心他,能使他迟到的行为消失,那么老师对他的关心就是一种正强化。
行为矫正的主要方法有:
① 正强化法,即在一种行为之后,继之以个体满意的刺激(正强化)来增加这种行为的发生,建立符合要求的行为。
实施正强化要注意以下几点:
(1)实施前,先制定计划,并告知被矫正的儿童和家长,以取得积极配合。
(2)目标行为出现时,必须立即强化,不能拖延时间。
(3)给学生强化物时,应当向其讲明那个被强化的具体行为,使之明确今后怎么做。
(4)强化时,还可以结合其他奖励。如口头表扬、微笑等。
(5)为了防止出现对强化物的饱厌情况。每次强化,只给少量强化物。
(6)当达到行为目标时,逐渐脱离正强化程序。可逐步消除可见的强化物,而以社会性强化物继续维持这个行为。
② 负强化法,是指个体一旦出现良好行为时,立即给他减少或消除原有的厌恶刺激,以提高良好行为的出现率。
③ 消退法,即用漠视、不理睬等方法来减少和消除个体不良行为。
④ 代币制,即当个体的目标行为出现时,给予一种“标记”或代币,去换取种种优待,作为强化目标行为的强化物,以改进个体行为。一般来说,只要是可以积累并用于交换的东西均可以作为代币。如塑料片、五角星、小红旗、小纸花等。
资料来源:1、王希华.《现代学习理论》.开明出版社.
2、网络 |