0%

对训狗核心概念的研究--负反馈强化

爱的教育是行不通的,特别是对于聪明的狗。

它们心里想的是,你让我坐/停/过来/定点上厕所/不要叫,我为什么要听你的?

太长不看版

  1. 负反馈训练指在犯错之后进行惩罚。
  2. 惩罚的力度要超过狗的容忍限度,来达到产生恐惧情绪的目的。
  3. 恐惧情绪超过对掌控自己行为的欲望是就会遵守规则。
  4. 负反馈的效果是长期的。

梗概

刚开始养狗的时候就是一筹莫展,狗娃刚到家什么都不懂,每天到处给屋子施肥,就导致天天不停地擦地板拖地还有冲洗院子。最开始的时候不会定点上厕所是最让人头大的问题,而且它刚到家的两个周是睡放在卧室的航空箱,晚上它会在三点到五点之间想要上厕所,再加上不会定点就要很麻烦的清扫。天天休息不好真是很让人头大。

于是就四处看各种各样论坛上的贴子,用了很多种办法效果都不好。于是就进行过不同的尝试,以至于用上了控制变量对狗的训练进行了实验。经过了一段时间的训练和血腥(2333)惩罚之后,狗的训练结果还是不错的,现在它百分之九十的情况下都是可以在它的狗厕所里面大小便,百分之八十的情况下是不会吃掉它的粑粑的。

在研究狗定点上厕所的过程中对狗的服从命令(遵循正确生活方式)进行了思考,发现网上各种贴子写的东西大概上都很笼统,而且大差不差,说明了方法但是没有解释清楚原理。而且每个品种的狗,乃至每一条狗的性格和智力水平都有差异,所以这样的方法论虽然有一定的参考价值,但是对增强狗主人对自己的狗的理解是远远不够的。在对狗的观察里,我试着从狗的角度去理解人给予的命令,同时把人对狗的奖励和惩罚进行了分类,然后把不同的情景和反馈进行了分类对比,总结出了人狗交互的核心概念,给狗的正反馈和负反馈。

本文会讲解训狗的过程,分类讨论实验结果,总结训狗的核心思想。

材料

在这个实验中的对象是我家的狗娃,SUMMER。两个月大(文章写下时三个月),品种是阿拉斯加马拉缪特犬,小母狗。

场所是我家,一共有两层,一层是客厅厨房(木地板),二楼是两个卧室(地毯,包括楼梯),正门外有一个院子,里面有一个2 x 4米的小花圃和两个移动式花圃。

狗厕所用的是一个铁笼,ebay买的尿垫和一个普通号航空箱。清理地面使用urine off除味喷雾,滴露消毒湿巾和消毒喷雾。铁笼子最初是买给她睡觉用的,然而在一段时间之后就变成了它的狗厕所…

方法和过程

从狗娃进家门开始算起。

最初的两个星期过得很煎熬,因为狗会在任何地方上厕所,不分大小号。都说狗到家的第一次上厕所非常重要,这样说的原因是第一次会留下非常深的印象。但是大多数人都是做不到的,太困难了。小狗不喜欢也不会(原因后面会讲)憋尿,在那一段时间里天天神经紧绷随时准备清理它制造的水洼和屎坨坨。

最初的时候晚上睡觉把她放在笼子,笼子隔出适合它睡的地方。这种方法会出现很多的问题。第一狗娃晚上要上厕所,它会憋尿但是憋不了一晚上。所以每天晚上三点到五点之间它就会拼命叫。我就会像要死了一样起床带它下楼,去院子里解决问题。院子里是水泥地面,前两个星期它的便便有些软,会粘在地面上,就要用喷头冲洗,比较麻烦。就算凌晨带它出去了,然而有的时候它就是想耍耍,并不会上厕所,这让我很崩溃。

第一段时间的定点训练是想让它在院子里解决问题,因为院子里有花圃,在那里面比较容易清理。因为当时参考了一些贴子说上厕所需要用口头奖励,不能给零食,所以第一阶段的训练是没有零食奖励的。当然这样训练就比较容易失败。它出去院子就会想要玩,玩累了就回屋里面上厕所。我们把这种行为叫做“反向操作”。同时我们把它的睡觉笼子放在了楼下,正式转换成狗厕所(当时为了她睡觉买了贵的笼子,然而…),睡觉就在航空箱里面。

因为这样的反向操作和晚上狗娃确实影响睡眠质量,我们决定晚上让狗娃睡在楼下。当时的狗娃还很小,腿短没有办法上楼梯,所以楼梯没有进行任何的阻挡。因为狗很馋,所以猫的饭盆是放在楼上卧室的。自从第一次狗娃上楼梯把整碗(它当时喂食量的五倍)猫粮之后,就买了安全门把楼梯关起来了。同时,我们放弃了口头奖励的训练方式,转为零食奖励。

零食奖励的结果很奏效,而且晚上在楼下睡显著提高了我们的睡眠质量。在进行零食奖励的一段时间内,正确率达到了接近75%(凭记忆)。同时我们不再让它进行反向操作,而是立即在正确上厕所之后给予一块零食。这样的奖励正确行为的方式,我定义为正反馈。

在经历了一段时间(两周左右)的正反馈训练之后,在有人在楼下或没吃饱的情况下,会在厕所解决,但是在夜里它是不会拉尿在厕所里的。这段时间里因为睡眠质量提高很多,而且白天大部分时间都是在厕所里面解决(只有早晨起床下来会在外面),我们就没有改变训练方法。

让我有了改变训练方法念头的事情是这样的。经过观察发现,狗娃会因为想要吃零食(贪吃得很)而遵守规则,但是只要在不想吃零食的时候就不会,主要表现在饭后。于是我产生了进行一些负反馈训练的念头。

负反馈和正反馈的区别在于,正反馈是立刻奖励正确行为,负反馈是立刻惩罚错误行为。及时性是正负反馈都必须的,因为在过了一会之后没有办法把反馈和事情联系起来。大多数的教学都不提倡进行打骂这样的负反馈,而且在我经过了几次暴怒和痛揍狗娃之后,我发现皮糙肉厚的阿拉斯加并不能记住疼。但是它非常害怕关禁闭(SIN BIN)。禁闭室可以理解为一个很小很黑看无法看到和接触到人的地方,并且不理会狗的哭闹。我在当地的一个兽医院的册子里面看到的这个概念。

进行负反馈训练的起因是它会很“任性的”在错误的地方拉尿,而且会“趾高气昂”(给我的感受),让我很是恼火。而且有几次正大光明尿在地摊(沙发前面的一块)上。进行的负反馈训练是,在犯错后立即关进航空箱(之前睡觉的,闲置了),放进没有光源的洗衣间,根据错误程度关十分钟到十五分钟。在关禁闭的过程中狗娃会发出类似于呜咽一般的声音,穿透力极强。为了不让它养成有事就哭闹的习惯,在哭闹的时候是不会把它放出来的。

狗和人一样,都想掌控自己的生活,也就是说拥有控制欲。它会表现出对于自己做事情的控制欲,在自己想去的地方上厕所或者想上楼都是控制欲旺盛的表现。负反馈在这种时候的作用就是让狗因为恐惧心理而放弃控制欲;不理会哭闹也是为了让它放弃控制欲。

负反馈训练的结果非常让人满意,关禁闭给了狗娃很大的恐惧感,所以它选择在不想吃零食的时候(极其少)也在正确的地方上厕所。

在关了几次禁闭之后狗娃拉尿的正确率提高了非常多,除了偶尔对不准之外都是正确的操作了。在这之后我们选择了停止正反馈,也就是正确拉尿之后的零食奖励,因为不能无止境的奖励它进行上厕所这一项。对于奖励上厕所这个正反馈,狗娃衍生出了一个负面的结果,就是一泡尿分为好几次,来得到更多的零食。因为当时的正反馈训练规划的就是每一次都要有奖励来强化这种行为,所以她“骗吃骗喝”的行为很猖狂。在停止了正反馈之后的几天,它还是会用少量的尿来骗吃骗喝,但是大多数时间都是解决完,看我们一眼,然后去玩自己的。有过一次犯错,关了禁闭,然后就没有错误的操作了。

到现在它白天的上厕所行为已经变得规范了,而且不会在上厕所之后有零食喂给它。在停掉正反馈奖励之后它也只会在想嘘嘘的时候解决,不会再一泡尿分几次骗吃骗喝了。在我们看来,这个训练是很成功的。

但是没有解决的问题还是存在。狗厕所笼子里铺了尿垫,尿垫上有超过一半有尿的时候它就不会在里面拉粑粑。如果早上没有在九点半之前起床,狗娃就会在外面解决自己的问题。而且它还有吃屎的爱好。现在我们的解决方法就是尽量早起床,避免它憋不住。

结果

我把训练的过程分为几个阶段,每个阶段有不同的结果。

  1. 口头正反馈 + 无负反馈阶段

结果:不能定点在厕所,也不能定点在花圃,上厕所的位置随心情而定。

  1. 零食正反馈 + 无负反馈

结果:大多数时间在厕所里解决,小部分在错误位置解决;有小便次数多的现象。

  1. 零食正反馈 + 禁闭负反馈

结果:定点在厕所,极少数时间在错误位置;有小便次数多的现象。

  1. 口头/无正反馈 + 无负反馈

结果:多数时间定点在厕所,少数时间在错误位置;少量次数多的现象。

  1. 口头/无正反馈 + 禁闭负反馈

结果:定点在厕所,极少数在错误位置;无小便次数多的现象。

讨论

在训练狗娃的过程中我从狗的角度找到了它们大概的思考逻辑,根据这个逻辑我们修改了对狗娃定点上厕所的训练,达到了不错的效果。

正负反馈训练法都是有效果的,对于不同的狗来说要“因材施教”。比如说在训练初期(结果2.),第二阶段使用了零食正反馈的方法,从不会定点立刻转变为大多数定点,这就是正反馈的效果。在狗的认知里面,吃永远是第一位的(以后的文章会讲),所以它愿意为了吃的东西去做你想让它做的事情。如果没有足够的回报,它是不愿意“委屈”自己遵守规则,这样很麻烦又没有回报,所以会出现狗不听话,教不会的结果。这个时候正反馈就发挥了效果,一定程度上规范了狗的行为。

但是正反馈法,多数的训狗教程里也说过,不能用零食奖励正确上厕所。这样说是因为,上厕所是一个每天都需要做的事情,甚至说一天要好多次(在不能在户外上厕所的阶段),每次都给零食是不现实的。而且在正反馈的过程中可能会出现其它副产物(尿尿次数多)。

根据训练狗娃的结果来看,从正反馈奖励到无奖励的过程中确实出现了停止零食奖励后错误次数变多的情况(阶段4.),这种情况在后来加入负反馈之后被消除了。也就是说负反馈的效果很明显,而且具有持续性。

然后讲讲负反馈的持续性。恐惧这种情绪不论在什么物种里面都是非常重要的,比如说人类害怕高、害怕锋利的东西,这些情绪让人得以避免接触能够伤害到自己的东西。狗也一样,恐惧心理是它们主动规范自己行为的源动力,这种源动力很稳定,一直存在(不像食欲有时会消失)。所以通过强化负反馈来规范上厕所这类行为比正反馈有效的多。

当然针对不同的犬种不同的狗,不同的情况,反馈的方式也有区别。比如小狗咬人,比较缓和的负反馈是甩手走人,不理狗。如果缓和的方式行不通,再使用SIN BIN,关禁闭。这就是一个根据狗的反应来修改反馈方式的例子。不同的狗对于恐惧的承受程度不同,所以要找到戳中它痛点的方式来进行负反馈。当然要建立在不伤害狗的情况下,因为本来惩罚是为了让它以后更好的生活。

恐惧情绪是很容易被记住的,而且持续性长,分量重。恐惧情绪能更好的规范日常的一些行为,比如上厕所、咬人、趴桌子这种。

最后讨论一下打狗这个问题和为什么打骂在多数情况下无效。有的狗比较耐打(Emmm),被打产生的疼痛对它来说会比较轻,再加上被打的时候它可以反抗和逃跑,更多情况下产生的可能是逆反情绪多余恐惧情绪,或者是通过哭闹吸引其他人的注意。对于我家的阿拉斯加来说,它对挨打的恐惧是远远低于关禁闭的。因为禁闭室是一个普通号航空箱,它在里面不能挪动,而且黑又没有人理她,所以会比挨打产生更多的恐惧情绪。根据我家狗娃的情况来说,疼痛的影响很短,一会就忘了,但是关禁闭影响会很长。

结论

本文通过对定点上厕所训练过程的分析对比,阐述了负反馈在训练过程中的重要性和原理。

根据对阿拉斯加马拉缪特犬的研究,负反馈训练法可以产生比正反馈训练更有效而且持续时间长的训练结果。

后记

其实不论是什么动物,相处的时间长了总会产生一定的默契。

狗娃刚到家的时候给了我们的生活很大的影响,在第一个周时常会产生把狗送走的念头。但是经过了一段时间的磨合之后这种情绪就慢慢消退了。

我家另一只猫娃,养了快两年了,在第一年的时候也是经常犯错挨打,到现在也感觉不出什么不和谐的地方了(除了有的时候莫名的乱叫)。这只高冷的猫,有的时候都会表现出想要和人亲热的需求。晚上上楼也会出现交互的感觉。

狗养的时间一长,怎样也都会相互习惯了吧,毕竟这是一个十多年的过程,狗也要有儿童时期和青春期嘛。