IZA@LISER Network

We use cookies to provide you with the best possible website experience. This includes cookies that are necessary for the operation of the site, as well as cookies used for anonymous statistics, comfort settings, or displaying personalized content. You can decide which categories you want to allow. Please note that depending on your settings, some features of the website may not be available.

Cookie settings

Necessary

These necessary cookies are required to enable the core functionality of the website. Opting out of these cookies is not possible.

cb-enable

This cookie stores the user's cookie consent status for the current domain. Expiry: 1 year.

laravel_session

Stores the session ID to recognize the user when the page reloads and to restore their login session. Expiry: 2 hours.

XSRF-TOKEN

Provides CSRF protection for forms. Expiry: 2 hours.

IZA@LISER Network | 3. Juni 2026

Eine neue Studie zeigt: Während KI bei subjektiven Bewertungen unsere menschliche Tendenz zur Milde nachahmt, ist sie uns bei der Auswertung objektiver Daten deutlich überlegen.

Künstliche Intelligenz gilt oft als völlig objektiv. Doch ein aktuelles IZA Discussion Paper von Rainer Michael Rilke und Dirk Sliwka liefert erstmals systematische Beweise dafür, wie große Sprachmodelle (LLMs) bei der Bewertung von Personal abschneiden – und ob sie typische Fehlbeurteilungen und Tendenzen menschlicher Bewerter reproduzieren oder reduzieren.

Warum KI vor schlechten Noten zurückschreckt

Die Autoren zeigen: Wenn Leistungsinformationen subjektiv oder mehrdeutig sind, verhalten sich LLMs sehr ähnlich wie menschliche Prüfer. Sie vermeiden die schlechtesten Bewertungskategorien, drängen sich stark in der Mitte der Skala und zeigen eine deutliche Tendenz zur Milde. Besonders sichtbar wird dies, wenn das Modell die CEOs von S&P 500-Unternehmen bewerten soll. Selbst bei der klaren Anweisung, genau 20 Prozent der CEOs in jede Bewertungskategorie einzuordnen, nutzt die KI die niedrigste Kategorie fast nie. Darin spiegelt sich die typische Zurückhaltung menschlicher Evaluatoren wider, sehr negative Beurteilungen abzugeben.

Gruppen- vs. Einzelbewertung

Die Studie untersuchte auch, ob LLMs kritischer werden, wenn sie mehrere Personen gleichzeitig statt einzeln bewerten. Die Ergebnisse bestätigen jahrzehntelange psychologische Forschung zu menschlichen Prüfern: Das Modell differenziert stärker, wenn es Gruppen von drei oder fünf CEOs gleichzeitig beurteilt. Die Bewertungen fächern sich weiter auf und relative Unterschiede werden klarer. Dennoch bleibt die grundsätzliche Nachsichtigkeit bestehen. Das deutet darauf hin, dass die erlernten Muster des Modells – geprägt durch überwiegend positive oder neutrale von Menschen geschriebene Texte – immer dann dominieren, wenn objektive Maßstäbe fehlen.

Der Bewerbungs-Test

Um klarere Maßstäbe anzulegen, testeten die Forscher die KI auch an Bewerbungsunterlagen, deren Qualitätsprofile künstlich erstellt wurden. Ein LLM bewertete diese Bewerbungen, ohne deren wahre Qualität zu kennen. Auch hier zeigten Einzelbewertungen eine auffällige Großzügigkeit und kaum Nutzung der unteren Kategorien. Vergleichende Bewertungen führten hingegen zu mehr Variation und passten sich der vorgesehenen Verteilung besser an – vor allem, wenn die Bewertungsskala jeden Wert ausdrücklich an einen Prozentbereich knüpfte. Dennoch zögerte das Modell weiterhin, eine Bewerbung in die untersten 20 Prozent einzustufen, selbst wenn es explizit dazu aufgefordert wurde.

Die Stärke objektiver Daten

Die eindeutigsten Ergebnisse liefert ein kontrolliertes Experiment, in dem menschliche Prüfer Beschäftigte auf Basis ungenauer, aber objektiver Leistungssignale bewerteten. Die KI erhielt hier exakt dieselben Informationen wie die menschlichen Bewerter. In diesem Szenario schnitt das Modell bemerkenswert gut ab: Es lieferte deutlich präzisere Bewertungen als die Menschen, zeigte keine Scheu vor schlechten Bewertungen und näherte sich stark dem mathematischen Ideal an, das die bestmögliche Nutzung der verfügbaren Daten darstellt. Im Gegensatz zu Menschen lässt sich das LLM auch nicht davon beeinflussen, ob seine Bewertung Auswirkungen auf den Bonus eines Mitarbeiters hat. Es zeigt also keine sozialen Bedenken oder persönliche Bevorzugung, die menschliche Urteile allzu oft verzerren.

Was das für das Management bedeutet

Insgesamt offenbaren die Ergebnisse ein klares Muster: Wenn Leistung subjektiv ist und Bewerter sich auf allgemeine Eindrücke verlassen müssen, reproduzieren LLMs bekannte menschliche Tendenzen und Fehlbeurteilungen. Sind die Leistungsinformationen jedoch strukturiert, vergleichbar und zumindest teilweise objektiv, können LLMs menschliche Prüfer deutlich übertreffen. Sie verarbeiten Informationen konsistenter und ohne soziale oder emotionale Verzerrungen. Die Ergebnisse verdeutlichen somit sowohl das Potenzial als auch die Grenzen des Einsatzes von LLMs im Leistungsmanagement von Unternehmen. Sie sind kein Allheilmittel für die Tücken subjektiver Bewertungen, können aber die Genauigkeit dort deutlich verbessern, wo es objektive Signale gibt, die sich systematisch auswerten lassen.

Lesen Sie die englischsprachige Studie hier im Volltext.

Related news

Browse all news

IZA@LISER Network | 21. Juli 2026

Premiere in Luxemburg: IZA@LISER lädt zur ersten internationalen Fachkonferenz

Beiträge zu aktuellen Arbeitsmarktthemen können bis zum 31. August online eingereicht werden.

IZA@LISER Network | 20. Juli 2026

Mehr als eine Frage der Schulreife: Wie Stichtage den Lebenslauf prägen

Neue Forschung aus dem IZA@LISER-Netzwerk zeigt, wie sich das Einschulungsalter auf den späteren Karriereweg auswirkt

IZA@LISER Network | 10. Juli 2026

Wie sich die Hitzeverteilung in Städten auf die Sterblichkeit auswirkt

Steigende Temperaturen verringern die Bedeutung lokaler Hitzeinseln und machen koordinierte, stadtweite Strategien überlebenswichtig.

Kommunikation

Mark Fallak

mark.fallak@liser.lu

+352 585-855-526

World of Labour

Olga Nottmeyer

olga.nottmeyer-ext@liser.lu

+352 585-855-501

Netzwerkkoordination

Christina Gathmann

christina.gathmann@liser.lu

Das IZA@LISER-Netzwerk ist eine weltweite Gemeinschaft für exzellente Forschung in der Arbeitsmarktökonomie und angrenzenden Fachgebieten. Nach dem Wechsel von Bonn wird das Netzwerk nun am Luxembourg Institute of Socio-Economic Research (LISER) koordiniert.

Über das IZA@LISER Network

Contact

IZA@LISER NETWORK (Current Site Operator):

Luxembourg Institute of Socio-Economic Research (LISER)
11, Porte des Sciences
Maison des Sciences Humaines
L-4366 Esch-sur-Alzette / Belval, Luxembourg

IZA Institute (In Liquidation):

Forschungsinstitut zur Zukunft der Arbeit GmbH i. L.
Schaumburg-Lippe-Str. 5-9, 53113 Bonn. Germany
Phone: +49 228 3894-0 | Fax: +49 228 3894-510
E-Mail: info@iza.org | Web: www.iza.org
Represented by: Martin T. Clemens (Liquidator)