Warum gleiche Leistung nicht immer gleiche Note bedeutet

Vorschaubild: Pexels / cottonbro studio

Wie fair sind Schulnoten wirklich? Eine neue Studie der Bildungsforschenden Chantal Oggenfuss und Stefan Wolter zeigt: Lehrpersonen bewerten Schülerinnen und Schüler nicht immer nur nach Leistung. Geschlecht, Sprachhintergrund und sogar das Leistungsniveau der Klasse können die Note beeinflussen und haben teils weitreichende Folgen für Bildungswege. Chantal Oggenfuss erklärt im Interview, welche Ergebnisse besonders ins Auge stechen.

In Kürze:

Systematische Verzerrungen: Lehrpersonen vergeben Noten, die von den Ergebnissen standardisierter Tests abweichen, das heisst vergleichbare Leistungen werden unterschiedlich bewertet.
In Deutsch profitieren Mädchen und nichtfremdsprachige Jugendliche, während insbesondere fremdsprachige Knaben benachteiligt werden. im Durchschnitt bis zu 0,6 Notenpunkte.
Schülerinnen und Schüler in leistungsstarken Klassen erhalten tiefere Noten als gleich starke Jugendliche in leistungsschwächeren Klassen.
Verzerrte Noten wirken sich auf Bildungsentscheidungen und -verläufe aus und können wie selbsterfüllende Prophezeiungen wirken.

Lic. phil. Chantal Oggenfuss ist wissenschaftliche Mitarbeiterin bei der Schweizerischen Koordinationsstelle für Bildungsfragen. (Bild: zVg)

Chantal Oggenfuss, Sie und Ihr Kollege Stefan Wolter haben untersucht, wie Lehrpersonen Noten vergeben – Was sind die wichtigsten Ergebnisse ihrer Studie?

Unsere Untersuchung zeigt, dass es bei der Notenvergabe durch Lehrpersonen zu systematischen Verzerrungen kommt. Schülerinnen und Schüler erhalten unterschiedliche Noten, obwohl sie in einem extern durchgeführten, standardisierten Test vergleichbare Leistungen erbringen.

Bereits frühere Studien, unter anderem eine Untersuchung der Universitäten Bern und Zürich mit Daten aus Deutschland, lieferten Hinweise auf solche Benotungsverzerrungen. Unsere Analysen basieren auf Daten von Schülerinnen und Schülern der zweiten Klasse der Sekundarstufe I eines gesamten Kantons und umfassen drei vollständige Kohorten (Jahrgänge). Die Verzerrungen hängen nicht nur mit individuellen Merkmalen wie Geschlecht oder Sprachhintergrund zusammen, sondern treten auch in Abhängigkeit vom Leistungsniveau der Klasse auf. Auffällig ist: Die Verzerrungen bleiben bestehen, auch nachdem die Lehrpersonen Einsicht in die Ergebnisse der standardisierten Tests erhalten haben.

«Unsere Untersuchung zeigt, dass es bei der Notenvergabe durch Lehrpersonen zu systematischen Verzerrungen kommt.»

In welchen Fächern und bei welchen Lernenden-Gruppen treten diese Notenverzerrungen besonders stark auf?

Wir haben die Noten in den Fächern Deutsch und Mathematik untersucht. Im Fach Deutsch können wir Verzerrungen zugunsten von Mädchen und von nichtfremdsprachig Jugendlichen (die zu Hause die Schulsprache sprechen) beobachten. In Mathematik zeigen sich keine vergleichbaren Effekte bei fremdsprachigen Jugendlichen und die geschlechtsspezifischen Unterschiede sind weniger deutlich. Ein weiteres Ergebnis betrifft beide Fächer: Schülerinnen und Schüler in leistungsstarken Klassen werden schlechter benotet als die in leistungsschwächeren Klassen – obwohl sie im extern durchgeführten Test vergleichbare Resultate erzielt haben.

Fremdsprachige Jungen in der Schweiz erhalten im Fach Deutsch bei gleicher Leistung schlechtere Noten als deutschsprachige Mädchen. Die Benachteiligung kann bis zu 0,6 Notenpunkte ausmachen, zeigt die Studie. (Bild: Pexels / Max Fischer)

Sie vergleichen die Noten, die Lehrpersonen vergeben haben mit standardisierten Tests. Was sind das für Tests?

Es handelt sich um standardisierte Leistungstests, die seit vielen Jahren in vier Schweizer Kantonen eingesetzt werden und auf die Ziele des Lehrplans abgestimmt sind. Da sie unabhängig durchgeführt und von externen Personen korrigiert werden – ich habe selbst während des Studiums an solchen Korrekturen mitgearbeitet – gelten sie als «blinde» Bewertung, anonymisiert und unabhängig vom Unterricht und der Lehrperson.

Da die Testergebnisse nicht in die Benotung einfliessen, könnte man vermuten, dass sich die Jugendliche vielleicht weniger anstrengen. Sie haben aber eine hohe praktische Relevanz. Die Tests finden in der Mitte der Sekundarstufe I statt, wenn zentrale Bildungsentscheide bevorstehen, und bieten den Jugendlichen und ihren Eltern ein unabhängiges Feedback zum individuellen Lernstand.

Für die Studie besonders relevant: Die Noten des ersten Semesters wurden vor der Testdurchführung vergeben, jene des zweiten Semesters danach – so konnten wir untersuchen, ob die Einsicht in die Testergebnisse das Bewertungsverhalten der Lehrpersonen verändert hat (Anm. der Redaktion: Das Bewertungsverhalten hat sich nicht verändert – siehe Antwort zu Frage 1).

Wie gross sind die Abweichungen der Noten der Lehrpersonen im Vergleich zu den standardisierten Tests konkret?

Zunächst ist wichtig zu erwähnen, dass Schulnote und Testergebnis im Einzelfall unterschiedlich stark abweichen können. Unsere Studie zeigt Durchschnittswerte – das heisst: Wir analysieren die durchschnittliche Abweichung innerhalb bestimmter Gruppen, etwa bei allen Mädchen oder fremdsprachigen Schülerinnen und Schülern mit gleicher Testleistung. Je nach Kombination mehrerer Merkmale – wie Geschlecht, Sprachhintergrund und Leistungsniveau der Klasse – kann der Unterschied mehr als eine halbe Note betragen. In Deutsch haben nichtfremdsprachige Mädchen in Klassen mit tiefer, durchschnittlicher Klassenleistung im Durchschnitt eine 4.9. Die durchschnittliche Note der fremdsprachigen Knaben, mit vergleichbarer Testleistung, in Klassen mit hohem Klassendurchschnitt beträgt 4.3 und liegt 0.6 tiefer.

«In Deutsch haben nichtfremdsprachige Mädchen in Klassen mit tiefer, durchschnittlicher Klassenleistung im Durchschnitt eine 4.9. Die durchschnittliche Note der fremdsprachigen Knaben, mit vergleichbarer Testleistung, in Klassen mit hohem Klassendurchschnitt beträgt 4.3 und liegt 0.6 tiefer.»

Was könnten die Gründe dafür sein, dass Lehrpersonen bestimmte Gruppen systematisch anders bewerten – zum Beispiel nach Geschlecht oder Migrationshintergrund? Und passiert das bewusst oder unbewusst?

Die Ursachen dieser Verzerrungen haben wir in unserer Studie nicht direkt untersucht, doch es gibt umfangreiche Forschung zu Stereotypen und Erwartungshaltungen. Die Wahrnehmung der Lehrperson kann durch Vorwissen, Erfahrungen oder gesellschaftlich geprägte Stereotypen unbewusst beeinflusst werden. Diese impliziten Annahmen fliessen unbewusst in Wahrnehmungs- und Beurteilungsprozesse ein.

Solche Effekte wurden wiederholt in Experiment-Studien nachgewiesen: Lehrpersonen erhielten identische Prüfungen oder Texte zur Korrektur, versehen mit erfundenen Namen, die entweder auf eine deutschsprachige oder fremdsprachige Herkunft schliessen liessen. Die Bewertungen fielen systematisch unterschiedlich aus, obwohl der Inhalt identisch war.

Der Vergleich von Noten mit Testergebnissen wird mitunter kritisch hinterfragt – etwa mit dem Verweis darauf, dass Lehrpersonen allenfalls zusätzliche Aspekte wie die mündliche Beteiligung berücksichtigen könnten. Die bereits erwähnten experimentellen Studien sprechen jedoch gegen diese Annahme. Auch unsere Befunde zu systematischen Verzerrungen im Zusammenhang mit der durchschnittlichen Klassenleistung lassen sich nicht mit alternativen Erklärungen wie mündliche Beteiligung oder Testmotivation (siehe Frage 3) plausibel erklären.

Was haben diese Verzerrungen für Auswirkungen auf die benachteiligten Personen?

Die beschriebenen unbewussten Mechanismen kommen in ganz unterschiedlichen Lebenssituationen vor. In der Schule sind sie deshalb besonders relevant, weil wichtige Bildungsentscheidungen und weitere Bildungsverläufe von der Bewertung der Lehrperson abhängen. Das bedeutet konkret, dass Jugendliche unter anderem keinen Zugang zum Gymnasium haben (weil sie die verlangte Vornote nicht erreichen) oder von der Lehrperson keine Empfehlung fürs Gymnasium erhalten.

Internationale Forschung zeigt auf, dass Schülerinnen und Schüler, deren Noten – im Vergleich zu externen, sogenannten «blinden» Bewertungen – zu ihren Gunsten verzerrt waren, später häufiger anspruchsvollere Ausbildungen absolvieren oder bessere schulische Leistungen erzielen, selbst bei vergleichbaren Voraussetzungen. Umgekehrt zeigen Schülerinnen und Schüler, deren Noten systematisch zu ihrem Nachteil verzerrt waren, später geringere Leistungen oder wählen seltener eine Ausbildung auf Tertiärstufe. Solche Effekte lassen sich unter anderem dadurch erklären, dass verzerrte Bewertungen wie eine selbsterfüllende Prophezeiung wirken können.

Verzerrte Lehrpersonen-Bewertungen können Bildungswege entscheidend beeinflussen und wie selbsterfüllende Prophezeiungen wirken. (Bild: Pexels / RDNE Stock project)

Was können Lehrpersonen konkret tun, um sich dieser Verzerrungen bewusster zu werden und fairer zu benoten?

Studien zeigen, dass sich Verzerrungen in der Notengebung reduzieren lassen, wenn Lehrpersonen gezielt auf systematische Unterschiede in ihrer Bewertung aufmerksam gemacht werden (u.a. eine Studie der PH FHNW). Entscheidend ist dabei eine individuelle Rückmeldung zum eigenen Beurteilungsverhalten.

Mit unseren Daten konnten wir untersuchen, ob die eher allgemeinen Rückmeldung von Testresultaten – ohne expliziten Hinweis auf individuelle Verzerrungen – das Beurteilungsverhalten der Lehrpersonen bereits verändert. Das war nicht der Fall – die Verzerrungen blieben bestehen.

«Studien zeigen, dass sich Verzerrungen in der Notengebung reduzieren lassen, wenn Lehrpersonen gezielt auf systematische Unterschiede in ihrer Bewertung aufmerksam gemacht werden.»

Was könnte auf Ebene der Bildungspolitik verändert werden, um diese Verzerrungen abzuschwächen oder gar zu eliminieren?

Wenn standardisierte Leistungstests eingesetzt werden, könnten deren Auswertung so gestaltet werden, dass Lehrpersonen systematische Abweichungen erkennen können – etwa zwischen den vergebenen Noten und den Testergebnissen einzelner Gruppen. Solche Vergleichsmöglichkeiten bleiben häufig ungenutzt. Möglicherweise kann auch die Durchführung gemeinsam im Schulteam erstellter Lernzielkontrollen, die anschliessend anonymisiert korrigiert werden, dazu beitragen, Verzerrungen zu verringern. Wesentlich ist: Verzerrungen in der Leistungsbeurteilung hängen nicht von der Art der Bewertung ab. Auch alternative Beurteilungsformen zur Note können durch unbewusste Wahrnehmungsprozesse beeinflusst sein.

Weiterlesen:

Studie: Warum gleiche Leistung nicht immer gleiche Note bedeutet