Types de concept de renforcement et indices de renforcement
Skinner, lorsqu’il s’agit de réponses opérantes, dira: "Un opérant est une partie identifiable du comportement à partir duquel on peut le dire, non pas qu’il soit impossible de trouver un stimulus qui le provoque (...), mais dans les cas où on le constate , aucun stimulus corrélé ne peut être détecté.
Le formulateur de la loi d'effet était E. L. Thorndike (1874-1949). Thorndike soutient que dans les situations où la disparition d’une stimulation aversive produit un état "satisfaisant", les effets de renforcement de ce type de situation doivent être interprétés comme la première formulation du droit des effets; c’est-à-dire ceux dans lesquels la disparition de la stimulation aversive est enrichissante doit être interprétée comme une recherche de la disparition de cette stimulation.
Vous pouvez également être intéressé par: Index des concepts et théories de la motivation- Introduction au problème du renforcement
- Concepts de base, types de ferraillage
- Indices de renforcement
- Relations empiriques avec renforcement positif
Introduction au problème du renforcement
Au prochain fait, nous appellerons cela le loi empirique d'effet: de manière empirique, la conséquence qu'une réponse entraîne avec elle est un facteur déterminant pour déterminer si la réponse sera fixe ou non B.F. Skinner (1904) C’est celui qui s’efforce le plus systématiquement de tirer le meilleur parti de la formulation empirique de la loi d’effet depuis la fin des années 1930 avec une position théorique parfois décrite comme "empirisme descriptif systématique". Comportement face "intimé" (contrôlé par un conditionnement classique), Skinner propose le "opérant", émis par l'organisme spontanément. L’approche de Skinner au problème du renforcement n’est pas théorique au sens traditionnel mais empirique-descriptif.
Au niveau descriptif, certains événements qui suivent les réponses ont pour effet d’augmenter la probabilité que ces réponses se répètent. Ces événements sont définis et identifiés comme renforçateurs ou renforçateurs, en fonction de leurs effets observables et non en fonction de l'effet qu'ils peuvent avoir sur les mécanismes et processus "internes" de l'organisme, qu'ils soient neuronaux ou non. Ces événements, appelés renforçateurs ou renforçateurs, peuvent être de deux types:
- Renforcement positif: "Celui dont la présence renforce ou augmente la probabilité qu'une action apparaisse dans le futur".
- Renforcement négatif: "Celui dont la disparition renforce ou augmente la probabilité qu'une action apparaisse dans le futur (uniquement celle qui a été liée à la disparition de la stimulation aversive ou qui y est liée)".
Tant chez Skinner que chez Thorndike, l’action de renforcement est automatique et, en principe, en dehors de l’activité consciente et / ou consciente de l’organisme. Le renfort agit automatiquement.
Concepts de base, types de ferraillage
Il est étudié comme un événement apparaissant spontanément à une fréquence donnée. "Les réponses opérantes peuvent être divisées en instrumentale et consommé:
- Réponse instrumentale: "Quand il est effectué par une organisation et vise à atteindre un objectif".
- Réponses consommables: "Les réponses qu'un organisme juste fait dans la réalisation de l'objectif (manger, copuler, boire, etc.)".
Pour mener à bien l'analyse des réponses, nous souhaitons distinguer deux concepts:
- Taux: Il s’agit du nombre de réponses données par unité de temps et est généralement présenté par des gradients d’acquisition ou d’extinction (on dit qu’une réponse a un taux ou un gradient plus accéléré ou plus prononcé qu’une autre)..
- Niveau de réponse asynchrone: C’est le niveau d’acquisition maximum et cela n’augmente pas avec les tentatives suivantes.
Une autre division que nous pouvons faire au sujet des renforts est la suivante:
- Renforts primaires: Ceux qui ont une valeur de renforcement déterminée biologiquement et non par apprentissage, comme cela arrive dans le cas de l'air, de la nourriture et des boissons.
- Renforts secondaires: Ceux qui ont acquis leur valeur en apprenant tels que récompense sociale (louange) ou argent.
Conditionnement instrumental Il existe quatre types de conditionnement instrumental (un positif et trois négatif).
La formation de récompense: Le renforcement utilisé est positif et n'est pas présent avant la réalisation de la réponse souhaitée. Dès que la réponse apparaît, le ferraillage est appliqué. Par exemple: chaque fois qu'un rat appuyait sur un levier, une pilule ou un grain de nourriture était présenté dans une canule..
Formation de punition: Le renforcement (stimulus punitif) n'est pas présent. Si le sujet effectue une action préfixée, le renforcement négatif apparaît (stimulus punitif). P. ejem: Un fils de cinq ans casse un vase précieux pour la mère et elle le gifle.
Les modèles d'évitement: Le renforcement aversif est absent avant l'exécution du comportement, la réalisation de la réponse appropriée implique que le renforcement ne se produise pas. P. ejem: conception d'évitement de Sidman dans laquelle l'application d'un choc électrique est programmée dans une boîte à Skinner toutes les 5 secondes, à moins que l'animal (généralement un rat) serre un levier. La réponse en appuyant sur le levier déconnecte le circuit et l'animal ne reçoit pas le choc.
Les designs d'évasion: Le renforcement aversif est présent avant la réalisation de la réponse, la réalisation de cette réponse entraîne la disparition de la stimulation aversive. P. ejem: Dans une boîte à navettes, l'animal se trouve dans un compartiment doté d'une grille électrifiée, un choc électrique se produit et la réponse de l'animal (en sautant par-dessus la barrière qui sépare les deux compartiments) implique l'élimination de la stimulation aversive..
Indices de renforcement
Indices de renforcement Les indices de renforcement font référence aux manières de présenter ces renforcements au sein d'une expérience. Nous pouvons les diviser en:
Indices non intermittents: application continue de renforts pour chaque réponse apparue (qu'elle soit acquise ou éteinte).
- Renfort continu: Chaque réponse émise par un organisme est renforcée.
- Extinction: Aucune réponse n'est renforcée et il s'agit d'un processus similaire à celui de l'extinction expérimentale dans le conditionnement classique.
Indices intermittents: application d'un volume ou d'un nombre de renforcements inférieur au nombre de réponses fournies. Pour des raisons d'espace, nous ne commenterons que les indices intermittents simples; Ce sont des indices relationnels entre les réponses et le renforcement ou entre le temps et le renforcement. Dans le cas de la prise en compte du nombre de réponses, on parle d'un indice de ratio et, si une période temporaire est prise en compte, on parle d'un index d'intervalle.
- Indice de ratio fixe (RF): La réponse correcte donnée par l’organisme est renforcée, après qu’il en ait fait un certain nombre.
- Indice de rapport variable (RV): Contrairement au cas précédent, le rapport réponse / renforcement est une série aléatoire autour d’une valeur centrale et avec une faible plage de variation..
- Indices d'intervalle fixe (IF): La première réponse correcte qui apparaît après un intervalle de temps donné est renforcée (généralement en minutes).
- Indice d'intervalle variable (IV): Les renforts sont présentés selon une série aléatoire d'intervalles de temps et seul l'intervalle moyen est explicité.
Relations empiriques avec renforcement positif
L'une des principales théories sur l'extinction est celle de l'extinction en tant qu'interférence de réponses. Dans ces théories, l'idée de base est que "le extinction cela ne se produit pas en raison d'une inhibition et / ou d'une suppression de réponses mais parce que le sujet apprend réponse alternative qui interfère avec le précédent ou entre en concurrence avec celui-ci. "L’alternative théorique la plus courante est la prétendue hypothèse de frustration..
L'idée centrale est que pendant la période d'acquisition, le sujet apprenne la réponse appropriée et attend de plus la récompense qui suit la réponse. Dans le processus d'extinction, l'expérience de ne pas recevoir la récompense est ce qui produit la frustration. Cette frustration serait responsable de l'engagement du sujet dans la réalisation d'autres réponses. A travers plusieurs démonstrations expérimentales, il a été vérifié que:
- La frustration résultant de réponses non positives agit positivement comme un stimulant du comportement.
- Il y a un relation directe entre le degré de frustration (mesuré selon des critères tels que la vitesse de course) et la réduction de récompense correspondant à cette tentative.
- Il existe une relation entre l'intensité de la frustration, le délai dans la réception de la récompense et le nombre de tentatives d'acquisition.
- La frustration a des composants aversifs de sorte que certains auteurs l'ont assimilé à dessins de punition.