We use cookies to provide you with the best possible website experience. This includes cookies that are necessary for the operation of the site, as well as cookies used for anonymous statistics, comfort settings, or displaying personalized content. You can decide which categories you want to allow. Please note that depending on your settings, some features of the website may not be available.

Cookie settings

These necessary cookies are required to enable the core functionality of the website. Opting out of these cookies is not possible.

cb-enable
This cookie stores the user's cookie consent status for the current domain. Expiry: 1 year.
laravel_session
Stores the session ID to recognize the user when the page reloads and to restore their login session. Expiry: 2 hours.
XSRF-TOKEN
Provides CSRF protection for forms. Expiry: 2 hours.
KI als Prüfer: Sind Algorithmen bei der Bewertung genauso großzügig wie wir?

KI als Prüfer: Sind Algorithmen bei der Bewertung genauso großzügig wie wir?

IZA@LISER Network | May 12, 2026
Eine neue Studie zeigt: Während KI bei subjektiven Bewertungen unsere menschliche Tendenz zur Milde nachahmt, ist sie uns bei der Auswertung objektiver Daten deutlich überlegen.

Künstliche Intelligenz gilt oft als völlig objektiv. Doch eine aktuelle Studie von Rainer Michael Rilke und Dirk Sliwka liefert erstmals systematische Beweise dafür, wie große Sprachmodelle (LLMs) bei der Bewertung von Personal abschneiden – und ob sie typische Fehlbeurteilungen und Tendenzen menschlicher Bewerter reproduzieren oder reduzieren.

Warum KI vor schlechten Noten zurückschreckt

Die Autoren zeigen: Wenn Leistungsinformationen subjektiv oder mehrdeutig sind, verhalten sich LLMs sehr ähnlich wie menschliche Prüfer. Sie vermeiden die schlechtesten Bewertungskategorien, drängen sich stark in der Mitte der Skala und zeigen eine deutliche Tendenz zur Milde. Besonders sichtbar wird dies, wenn das Modell die CEOs von S&P 500-Unternehmen bewerten soll.

Selbst bei der klaren Anweisung, genau 20 Prozent der CEOs in jede Bewertungskategorie einzuordnen, nutzt die KI die niedrigste Kategorie fast nie.

Darin spiegelt sich die typische Zurückhaltung menschlicher Evaluatoren wider, sehr negative Beurteilungen abzugeben.

Gruppen- vs. Einzelbewertung

Die Studie untersuchte auch, ob LLMs kritischer werden, wenn sie mehrere Personen gleichzeitig statt einzeln bewerten. Die Ergebnisse bestätigen jahrzehntelange psychologische Forschung zu menschlichen Prüfern: Das Modell differenziert stärker, wenn es Gruppen von drei oder fünf CEOs gleichzeitig beurteilt. Die Bewertungen fächern sich weiter auf und relative Unterschiede werden klarer. Dennoch bleibt die grundsätzliche Nachsichtigkeit bestehen. Das deutet darauf hin, dass die erlernten Muster des Modells – geprägt durch überwiegend positive oder neutrale von Menschen geschriebene Texte – immer dann dominieren, wenn objektive Maßstäbe fehlen.

Der Bewerbungs-Test

Um klarere Maßstäbe anzulegen, testeten die Forscher die KI auch an Bewerbungsunterlagen, deren Qualitätsprofile künstlich erstellt wurden. Ein LLM bewertete diese Bewerbungen, ohne deren wahre Qualität zu kennen. Auch hier zeigten Einzelbewertungen eine auffällige Großzügigkeit und kaum Nutzung der unteren Kategorien. Vergleichende Bewertungen führten hingegen zu mehr Variation und passten sich der vorgesehenen Verteilung besser an – vor allem, wenn die Bewertungsskala jeden Wert ausdrücklich an einen Prozentbereich knüpfte. Dennoch zögerte das Modell weiterhin, eine Bewerbung in die untersten 20 Prozent einzustufen, selbst wenn es explizit dazu aufgefordert wurde.

Die Stärke objektiver Daten

Die eindeutigsten Ergebnisse liefert ein kontrolliertes Experiment, in dem menschliche Prüfer Beschäftigte auf Basis ungenauer, aber objektiver Leistungssignale bewerteten. Die KI erhielt hier exakt dieselben Informationen wie die menschlichen Bewerter. In diesem Szenario schnitt das Modell bemerkenswert gut ab: Es lieferte deutlich präzisere Bewertungen als die Menschen, zeigte keine Scheu vor schlechten Bewertungen und näherte sich stark dem mathematischen Ideal an, das die bestmögliche Nutzung der verfügbaren Daten darstellt. Im Gegensatz zu Menschen lässt sich das LLM auch nicht davon beeinflussen, ob seine Bewertung Auswirkungen auf den Bonus eines Mitarbeiters hat. Es zeigt also keine sozialen Bedenken oder persönliche Bevorzugung, die menschliche Urteile allzu oft verzerren.

Was das für das Management bedeutet

Insgesamt offenbaren die Ergebnisse ein klares Muster: Wenn Leistung subjektiv ist und Bewerter sich auf allgemeine Eindrücke verlassen müssen, reproduzieren LLMs bekannte menschliche Tendenzen und Fehlbeurteilungen. Sind die Leistungsinformationen jedoch strukturiert, vergleichbar und zumindest teilweise objektiv, können LLMs menschliche Prüfer deutlich übertreffen. Sie verarbeiten Informationen konsistenter und ohne soziale oder emotionale Verzerrungen. Die Ergebnisse verdeutlichen somit sowohl das Potenzial als auch die Grenzen des Einsatzes von LLMs im Leistungsmanagement von Unternehmen. Sie sind kein Allheilmittel für die Tücken subjektiver Bewertungen, können aber die Genauigkeit dort deutlich verbessern, wo es objektive Signale gibt, die sich systematisch auswerten lassen.

Related news

Kommunikation
Mark Fallak
mark.fallak@liser.lu
+352 585-855-526
World of Labour
Olga Nottmeyer
olga.nottmeyer-ext@liser.lu
+352 585-855-501
Netzwerkkoordination
Christina Gathmann
christina.gathmann@liser.lu

Das IZA@LISER-Netzwerk ist eine weltweite Gemeinschaft für exzellente Forschung in der Arbeitsmarktökonomie und angrenzenden Fachgebieten. Nach dem Wechsel von Bonn wird das Netzwerk nun am Luxembourg Institute of Socio-Economic Research (LISER) koordiniert.

Über das IZA@LISER Network
Contact
IZA@LISER NETWORK (Current Site Operator):

Luxembourg Institute of Socio-Economic Research (LISER)
11, Porte des Sciences
Maison des Sciences Humaines
L-4366 Esch-sur-Alzette / Belval, Luxembourg

IZA Institute (In Liquidation):

Forschungsinstitut zur Zukunft der Arbeit GmbH i. L.
Schaumburg-Lippe-Str. 5-9, 53113 Bonn. Germany
Phone: +49 228 3894-0 | Fax: +49 228 3894-510
E-Mail: info@iza.org | Web: www.iza.org
Represented by: Martin T. Clemens (Liquidator)