Wissen: Konditionierung

Klassische Konditionierung (Signallernen) (Pawlow)
Instrumentelle und operante Konditionierung

(Lernen durch Versuch und Irrtum / Lernen am Erfolg)  (Thorndike / Skinner)

Lernen durch Verstärkung (Skinner)

 

Einleitung

Konditionierung ist ein Begriff aus der Lernpsychologie. Als Konditionierung bezeichnet man im Allgemeinen den Vorgang, bei dem sich ein Mensch eine bestimmte Verhaltensweise durch einen Lernprozess aneignet.

 

Speziell versteht man man unter Konditionierung Formen des Lernens durch Reiz-Reiz-Assoziationen bzw. Reiz-Reaktions-Assoziationen (Stimulus-Response-Lernen) durch wiederholte Koppelung von Reizen.

 

Es werden zwei Arten von Konditionierungen unterschieden, die klassische und die instrumentelle und operante Konditionierung.

 

Klassische Konditionierung / Klassisches Konditionieren  

(Ivan P. Pawlow 1849-1936)

Die Klassische Konditionierung nach Iwan Petrowitsch Pawlow, Begründer der behavioristischen Lerntheorie, spielt in der Lernpsychologie - und damit auch in der Werbung und in der Psychotherapie - eine besondere Rolle. Die Theorie besagt, dass einem natürlichen Reflex durch Lernen ein neuer, bedingter Reflex hinzugefügt werden kann.

 

Klassisches Konditionieren ist ein Lernprozess, der auf zeitlicher Assoziation beruht. Theoretisch verschmelzen zwei Ereignisse, die wiederholt zeitlich dicht beieinander auftreten, im Bewusstsein einer Person, und nach kurzer Zeit reagiert die Person auf beide Ereignisse in gleicher Weise.

 

Bei der klassischen Konditionierung, die auch als Signallernen bezeichnet wird, werden ein unbedingter und ein bedingter Stimulus miteinander gekoppelt. Dabei löst nach der Konditionierung der bedingte Stimulus die gleiche Reaktion aus, wie zuvor nur der unbedingte Stimulus. Es kommt zu einer Reizgeneralisierung. Als Reizgeneralisierung bezeichnet man in der Verhaltensforschung die Reaktion eines Tieres oder einer Person auf einen Reiz, die in genau gleicher Weise erfolgt wie die zuvor erlernte Reaktion auf einen anderen, ähnlichen Reiz.

 

Zusammenhänge

Menschen und Tiere reagieren auf Reize. Die Reaktion auf Reize ist ein angeborener Reflex. Ein Reflex ist eine natürliche (angeborene, nicht erlernte) Reaktion auf einen Reiz. Reflexe sind z.B. Pupillenkontraktion, Lidschlussreflex, Patellarsehnenreflex, Hormonausschüttung und Speichelfluss.

 

Beispiel:

Wenn wir hungrig sind und in der Stadt etwas Leckeres zu Essen sehen oder riechen, wird als Reaktion auf diese Wahrnehmung unsere Speichelproduktion angeregt. Sobald unser Speichel fließt, wird unser Verdauungssystem angeregt. In Erwartung der in scheinbar anstehenden Mahlzeit bekommen wir noch mehr Hunger und streben nach Befriedigung unseres Bedürfnisses z.B. durch Kauf des wahrgenommenen bzw. des gesehenen oder gerochenen Produktes hinter der Ladentheke.

 

Reiz & Reaktion

Da sich die Klassische Konditionierung mit Reizen auseinandersetzt und Reize zu Reaktionen führen, bezeichnet man sie (im Behaviorismus) auch als S-R-Psychologie, wobei "S" für Reiz und "R" für Reflex bzw. Reaktion steht. Bei der klassischen Konditionierung werden zwei Reize so miteinander verknüpft, dass beide dieselbe Reaktion auslösen. In der Neurolinguistischen Programmierung (NLP) spricht man von sogenannten Reiz-Reaktions-Ketten.

 

Reiz-Reaktions-Ketten

Es entsteht ein Bild und Gefühl, dass mit dem vorausgegangenen Input von außen in keiner direkten Beziehung steht. Vielmehr ist die eigene Gefühlswelt betroffen. Sie entscheidet nun darüber, wie der eingegangene Reiz bzw. die empfangene Information gesehen und bewertet wird - und das unabhängig von jeglicher Logik und jeglichem Sachverstand.

 

Beispiel:

Wenn wir z.B. in der Mittagspause häufig ein bestimmtes Essen kaufen, wobei allein bei der Wahrnehmung der bevorstehenden Mahlzeit (Reiz) eine erhöhte Speichelproduktion (Reaktion) ausgelöst wird - und wir zur selben Zeit eine bestimmte Melodie hören, reicht irgendwann allein diese Melodie aus, um die Speichelproduktion - und damit die Kaufentscheidung auszulösen.

 

Pawlows Theorie

Wenn zwei Reize wiederholt zusammen auftreten, kann auch ein völlig unbeteiligter Reiz die selbe Reaktion auslösen, wobei die Reaktion auf den unbeteiligten, neutralen Reiz erlernt wurde. Das Phänomen der Verknüpfung zweier Reize hat Pawlow an Hunden erforscht bzw. entdeckt.

 

Sehr bekannt geworden ist das Beispiel vom Pawlowschen Hund, bei dem in den Experimenten die Gabe von Futter stets mit einem Glockenton verbunden wurde. Nach mehreren Wiederholungen war allein auf den Glockenton hin ein Speichelfluss des Hundes zu beobachten. Statt des Futters wurde der Glockenton zum Reiz und führte zu Reaktionen (z.B. Ohren spitzen, Speichelfluss). Pawlows Theorien wurden von J. B. Watson aufgegriffen und auf den Menschen übertragen.

 

Nutzen

Während der Effekt der Klassischen Konditionierung in der Werbung genutzt wird, um Menschen zu einem bestimmten Kaufverhalten zu bewegen, kann er in der Psychotherapie genutzt werden, um z.B. Angst- und Zwangsstörungen zu behandeln z.B. mit Hilfe der Technik der Gegenkonditionierung, der Aversionstherapie, der systematischen Desensibilisierung, der Extinktion und des Floodings.

 

Klassische Konditionierung in der Neurolinguistischen Programmierung (NLP)

Im NLP wird Sprache als wirkungsvolles Instrument dazu benutzt, Filterprozesse im Gehirn zu offenbaren und zu lenken bzw. zu programmieren, die auf dem Prinzip der Klassischen Konditionierung basieren. Dadurch ist es möglich, Reiz-Reaktions-Ketten neu zu gestalten, Denkstrukturen aufzubrechen und diese zu verändern. Im Ergebnis führt dies zu einem bestimmten bzw. positiv geänderten Verhalten.

 

Klassische Konditionierung in der Werbung

In der Werbung werden ursprünglich neutrale Reize (Produkt) mit einer emotionalen Reaktion verknüpft. Dem Konsumenten wird ein Zusatznutzen suggeriert bzw. eine Zusatzerfahrung (Erlebnis) geboten. Das führt nicht nur dazu, dass das Produkt von anderen ähnlichen Produkten besser unterschieden werden kann, sondern auch zur Herbeiführung von Kaufentscheidungen z.B. wenn ein Produkt mit bestimmten Gefühlen oder Vorstellungen verknüpft wird.

 

Beispiel:

Beim Betrachten schöner und/oder anregender (z.B. erotischer) Abbildungen wird automatisch und unbewusst eine angenehme Reaktion ausgelöst. Wird dieses Gefühl nun (z.B. über eine attraktive Person auf einem Werbefoto) mit einem bestimmten Produkt in Verbindung gebracht, wird das Produkt automatisch mit diesem positiven Gefühl verknüpft und zugleich ein Wunsch ausgelöst, in den Genuss des schönen Gefühls zu gelangen.

 

Wenn z.B. Kaffee mit Bildern oder Szenen einer glücklichen und harmonischen Familie beworben wird, wird dem Konsumenten suggeriert, dass er mit dem Erwerb dieses Kaffees auch sein Familienleben harmonischer gestalten kann.

 

Hat der Konsument selbst keine Familie oder gestaltet sich sein Familienleben selbst weniger harmonisch, so wird doch der Wunsch bzw. die tiefe Sehnsucht angesprochen, sich selbst mit dem Genuss (bzw. allein bereits mit dem Erwerb dieses Produktes) der Vision des angestrebten glücklichen Zustandes ein Stückchen näher zu bringen.

 

Als weiteres Beispiel für die Klassische Konditionierung bei Menschen können die Bombenangriffe des Zweiten Weltkrieges genannt werden: Bei vielen Menschen, die diese nervenaufreibenden Fliegerangriffe erlebt haben, verursacht nachfolgend allein der Heulton von Sirenen Angst, selbst wenn es sich nur um einen Probealarm handelt.

 

Wie auch immer: Stets verbindet der Mensch eine Sache mit einer anderen.

 

 

Instrumentelle und operante Konditionierung

Lernen durch Versuch und Irrtum / Lernen am Erfolg (Edward Thorndike 1874-1949) 

Neben der klassischen Konditionierung kennt man auch die operante Konditionierung. Hier geht es allerdings um spontanes Verhalten. Instrumentelle und operante Konditionierung wird auch "Lernen durch Versuch und Irrtum" oder "Lernen am Erfolg" genannt. Sie entstammen der behavioristischen Lernpsychologie und betreffen das Erlernen von Reiz-Reaktions-Mustern (Stimulus-Response) aus ursprünglich spontanem Verhalten.

 

Es geht darum, dass ein Mensch oder ein Tier eine bestimmte Verhaltensweise häufiger oder seltener zeigt, indem man es dafür belohnt oder bestraft. Hat eine Verhaltensweise eine angenehme Konsequenz, wird sie öfter gezeigt. Wenn sie aber eine unangenehme Konsequenz hat, wird sie seltener gezeigt. Das funktioniert auch, wenn durch eine Verhaltensweise eine unangenehme Konsequenz ausbleibt (Belohnung) oder eine angenehme Konsequenz wegfällt (Bestrafung).

 

Bei der Instrumentellen und operanten Konditionierung wird die Häufigkeit eines Verhaltens durch angenehme (appetitive) oder unangenehme (aversive) Konsequenzen dauerhaft verändert. Das bedeutet, dass erwünschtes Verhalten durch Belohnung verstärkt und unerwünschtes Verhalten durch Bestrafung unterdrückt wird.

 

Es wird Einfluss auf die Auftrittshäufigkeit einer Verhaltensweise genommen. Erwünschte Verhaltensweisen werden durch angenehme Konsequenzen (Positive Verstärkung) bzw. durch das Ausbleiben unangenehmer Konsequenzen (Negative Verstärkung) belohnt. Unerwünschte Verhaltensweisen werden durch unangenehme Konsequenzen (Positive Bestrafung) bzw. durch das Ausbleiben angenehmer Konsequenzen (Negative Bestrafung) unterdrückt. 

 

Man unterscheidet diese Art des Lernens von der klassischen Konditionierung. Die klassische Konditionierung, die ausgelöstes Verhalten betrifft, unterscheidet sich von der instrumentellen und operanten Konditionierung dadurch, das der Lernende bzw. der Konditionierte bei der klassischen Konditionierung keine Kontrolle über den Reiz und / oder oder seine Reaktion hat.

 

Thorndikes Modell

Die Erforschung der instrumentellen Konditionierung begann mit den Tierversuchen, die Edward Lee Thorndike im Rahmen seiner 1898 publizierten Dissertation an der Columbia University durchführte. Er setzte Hühner, Katzen und Hunde in von ihm gebaute Rätselkäfige mit verschiedenen Schwierigkeitsgraden und maß die Zeit, die die Versuchstiere zu ihrer Befreiung benötigten.

 

Als Anreiz legte er Futter neben den Käfig, das für die Tiere sichtbar war. Nachdem das Tier erfolgreich gewesen und mit Futter belohnt worden war, setzte er es wieder in den Käfig und maß erneut die Zeit bis zu dessen Öffnung. Eine Katze benötigte bei einer einfachen puzzle box im Durchschnitt anfangs 160 Sekunden, wurde immer schneller und schaffte es nach 24 Versuchen, den Käfig innerhalb von nur noch 7 Sekunden zu öffnen. Die Ergebnisse seiner Versuche fasste Thorndike in seinem „Gesetz der Wirkung“ (law of effect) zusammen:

 

„Von mehreren Reaktionen auf dieselbe Situation werden unter im übrigen gleichen Umständen jene Reaktionen, die von einer Befriedigung des Tieres begleitet sind oder denen eine solche rasch folgt, stärker mit der Situation verbunden, sodass sie, wenn die Situation erneut eintritt, mit größerer Wahrscheinlichkeit wiederkehren; diejenigen Reaktionen, die von einem Unbehagen des Tieres begleitet sind oder denen ein solches rasch folgt, erfahren unter im übrigen gleichen Umständen eine Abschwächung ihrer Verbindung mit dieser Situation, sodass sie, wenn die Situation erneut auftritt, mit geringerer Wahrscheinlichkeit wiederkehren.“

 

Edward Lee Thorndikes „Gesetz der Wirkung“ (Law of Effect), Diss., 1898

Thorndikes Reiz-Reaktions-Modell bildete zusammen mit Pawlows Experimenten zur Klassischen Konditionierung die Grundlage für den von John B. Watson begründeten Behaviorismus, welcher jahrzehntelang die psychologische Forschung beherrschen sollte. Geprägt wurde die behavioristische Forschung von niemandem so sehr wie von Burrhus Frederic Skinner, der Thorndikes (und Watsons) Arbeit fortsetzte und weiterentwickelte. Seine Käfige, die Skinner-Boxen, bieten die Möglichkeit, das Zielverhalten (z. B. das Drücken eines Hebels) jederzeit auszuführen. Nach einem festgelegten Verstärkerplan hat dieses Verhalten für das Tier bestimmte Konsequenzen.

 

Unterschied zwischen instrumenteller und operanter Konditionierung

Bei der instrumentellen Konditionierung wird die Verstärkung oder Abschwächung von instrumentellem Verhalten betrachtet. Das Verhalten wird also als Instrument (= Mittel, Werkzeug) eingesetzt, um etwas herbeizuführen. Damit bezweckt dann ein Lebewesen, ein bestimmtes Ziel zu erreichen, und hat entweder Erfolg oder nicht. Je nach entsprechendem Resultat wird es beim nächsten Mal wieder dasselbe oder eher ein anderes Verhalten zeigen.

 

Bei der operanten Konditionierung wird beliebiges spontanes Verhalten betrachtet, das von einem Lebewesen auch unbeabsichtigt oder rein zufällig gezeigt werden kann und ohne weitere Bedingungen (wie z. B. das Vorhandensein eines Problems) wiederholt werden kann.

 

 

Lernen durch Verstärkung

Burrhus F. Skinner (1904 - 1990)

 

Lernen durch Verstärkung ist eine Methode, die maßgeblich auf den Forschungsergebnissen des amerikanischen Psychologen Burrhus Frederic Skinner beruht. Skinner zählt zu den bedeutendsten Psychologen und gilt als Begründer des sogenannten Radikalen Behaviorismus.

 

Beim Lernen durch Verstärkung wird der Lerneffekt durch die Konsequenzen, die das jeweilige Verhalten hervorruft, unterstützt. Unterschieden wird dabei zwischen den appetitiven und den aversiven Konsequenzen. Im Gegensatz zu früher wird heute die positive Verstärkung mithilfe appetitiver, also angenehmer Konsequenzen bevorzugt angewandt.

 

Wurden Kinder früher nicht selten für unerwünschtes Verhalten bestraft, versuchen es viele Eltern heute andersherum: Durch Belohnung des gewünschten Verhaltens, wobei eine positive Verstärkung alles Mögliche sein kann: Zuwendung, Anerkennung, Lob, kleine Geschenke usw). Das Gleiche gilt heute für die die Erziehung bzw. das Training von Tieren z.B. von Hunden. Für das Lernen durch Verstärkung wichtig ist, dass die entsprechende Konsequenz unverzüglich erfolgt, was fanz besonders bei er Erziehung kleiner Kinder oder von Tieren gilt, die sonst die entsprechende Verstärkung gar nicht mehr zuordnen bzw. mit ihrem konkreten Verhalten in Verbindung bringen können.

 

Rufen man einen Hund und folgt dieser unverzüglich dem Ruf, ist es also wichtig ihn umgehend zu loben oder sonst wie zu belohnen. Dies ist zugleich ein Beispiel für das Lernen durch positive Verstärkung. Ein Beispiel für das Lernen durch Verstärkung mit aversiven Konsequenzen wäre z.B. ein Stromzaun. Wer damit in Berührung kommt und dann einen Stromschlag bekommt, wird die Grenze anschließend entsprechend beachten und respektieren.

 

Blackbox - Stimuli - Response  positive oder negative Verstärkung oder Bestrafung

Da Behavioristen sich auf Beobachtbares beschränken, fassen sie alle inneren Zustände – zum Beispiel Wahrnehmungen, Emotionen und Gedanken – in einer sogenannten Black Box zusammen. Auf diese Black Box wirken der behavioristischen Theorie zufolge Umweltreize („Stimuli“) dergestalt ein, dass sie ein Verhalten (Response) hervorrufen.

 

Das Verhalten wird als eine Antwort auf Reize aufgefasst. Diese Antwort hat eine Konsequenz. Wenn in einem bestimmten Kontext (Stimulus) ein beliebiges Verhalten gezeigt wird, dann ist es möglich, dass dieses Verhalten künftig (unter gleichen Umständen) häufiger oder seltener ausgeführt wird.

 

Wird das Verhalten häufiger ausgeführt, lässt sich daraus schließen, dass die Konsequenz „angenehm“ war. Wird das Verhalten seltener ausgeführt, lässt sich daraus schließen, dass die Konsequenz „unangenehm“ war. Im ersten Fall spricht man von „Verstärkung“, im zweiten Fall von „Bestrafung“.

 

Die Zuordnungen „angenehm/unangenehm“ bzw. „appetitiv/aversiv“ sind nicht als subjektiv erlebte Zustände zu verstehen – als solche hätten sie in einer behavioristischen Theorie keinen Platz. Sie versehen sich vielmehr als Ausdruck dafür, ob diese Zustände gesucht oder gemieden werden.

 

Thorndike definierte wie folgt: „Mit einem angenehmen Zustand ist ein solcher gemeint, den das Tier nicht meidet, oft sogar aufsucht und aufrechterhält. Mit einem unangenehmen Zustand ist ein solcher gemeint, den das Tier für gewöhnlich meidet oder verlässt.“

 

Positive Verstärkung ist die Erhöhung der Auftretenswahrscheinlichkeit eines Verhaltens, wenn das Verhalten eine angenehme (appetitive) unmittelbare Konsequenz bewirkt (z. B. Anerkennung, Achtung, Nahrung, Geld).

 

Negative Verstärkung ist die Erhöhung der Auftretenswahrscheinlichkeit eines Verhaltens, wenn das Verhalten eine unangenehme (aversive) unmittelbare Konsequenz verhindert oder beendet (z. B. jeweils das Entfernen von Lärm, grellem Licht, Hitze oder Kälte).

 

Positive Bestrafung ist die Senkung der Auftretenswahrscheinlichkeit eines Verhaltens, wenn das Verhalten eine unangenehme (aversive) unmittelbare Konsequenz bewirkt (z. B. Lärm, grelles Licht, Hitze oder Kälte, Stromschlag).

 

Negative Bestrafung ist die Senkung der Auftretenswahrscheinlichkeit eines Verhaltens, wenn das Verhalten eine angenehme (appetitive) unmittelbare Konsequenz verhindert oder beendet (z. B. die Entziehung von Futter, Wärme, Zuneigung, Weihnachtsgeld).

 

Negative Verstärkung und Bestrafung werden häufig miteinander verwechselt. Das Wort negativ bezeichnet nur die Entfernung einer Konsequenz, nicht deren Beschaffenheit.

 

Wenn weder positiv noch negativ verstärkt wird, kommt es zu einer Löschung des Verhaltens. Die Löschung ist nicht mit dem Entzug eines positiven Verstärkers (negativer Bestrafung) zu verwechseln.

 

Unterschied zwischen Thorndikes Puzzle Box und der Skinner Box

Thorndikes Puzzle Box und Skinners Box sind beide Apparate, die in der Verhaltensforschung verwendet werden, aber sie haben unterschiedliche Zwecke und Designs.

 

Thorndikes Puzzle Box wurde von Edward Thorndike entwickelt, um das Lernen durch Versuch und Irrtum zu untersuchen.

Ein Tier, oft eine Katze, wird in eine Kiste gesetzt, die nur durch eine bestimmte Handlung (z.B. einen Hebel drücken) geöffnet werden kann. Das Tier muss die richtige Handlung herausfinden, um zu entkommen und eine Belohnung zu erhalten. Der Fokus auf dem o.g. Konzept des "Law of Effect", das besagt, dass Verhaltensweisen, die zu positiven Ergebnissen führen, eher wiederholt werden.

 

Die Skinners Box wurde von von B.F. Skinner entwickelt und verwendet, um operantes Konditionieren zu untersuchen.

Ein Tier, oft eine Ratte oder Taube, wird in eine Kiste gesetzt, die verschiedene Hebel oder Tasten enthält. Das Drücken eines Hebels oder einer Taste führt zu einer Belohnung (z.B. Futter) oder einer Bestrafung (z.B. ein leichter Stromschlag). Die Skinners Box ermöglicht die systematische Untersuchung der Beziehung zwischen Verhalten und seinen Konsequenzen.

 

Zusammengefasst kann man sagen, dass sich Thorndikes Puzzle Box auf das Lernen durch Versuch und Irrtum und das "Law of Effect" konzentriert, während die Skinners Box das operante Konditionieren untersucht, indem sie die Beziehung zwischen Verhalten und seinen Konsequenzen systematisch analysiert.