KI als Prüfer: Sind Algorithmen bei der Bewertung genauso großzügig wie wir?
Künstliche Intelligenz gilt oft als völlig objektiv. Doch eine aktuelle Studie von Rainer Michael Rilke und Dirk Sliwka liefert erstmals systematische Beweise dafür, wie große Sprachmodelle (LLMs) bei der Bewertung von Personal abschneiden – und ob sie typische Fehlbeurteilungen und Tendenzen menschlicher Bewerter reproduzieren oder reduzieren.
Warum KI vor schlechten Noten zurückschreckt
Die Autoren zeigen: Wenn Leistungsinformationen subjektiv oder mehrdeutig sind, verhalten sich LLMs sehr ähnlich wie menschliche Prüfer. Sie vermeiden die schlechtesten Bewertungskategorien, drängen sich stark in der Mitte der Skala und zeigen eine deutliche Tendenz zur Milde. Besonders sichtbar wird dies, wenn das Modell die CEOs von S&P 500-Unternehmen bewerten soll.
Selbst bei der klaren Anweisung, genau 20 Prozent der CEOs in jede Bewertungskategorie einzuordnen, nutzt die KI die niedrigste Kategorie fast nie.
Darin spiegelt sich die typische Zurückhaltung menschlicher Evaluatoren wider, sehr negative Beurteilungen abzugeben.
Gruppen- vs. Einzelbewertung
Die Studie untersuchte auch, ob LLMs kritischer werden, wenn sie mehrere Personen gleichzeitig statt einzeln bewerten. Die Ergebnisse bestätigen jahrzehntelange psychologische Forschung zu menschlichen Prüfern: Das Modell differenziert stärker, wenn es Gruppen von drei oder fünf CEOs gleichzeitig beurteilt. Die Bewertungen fächern sich weiter auf und relative Unterschiede werden klarer. Dennoch bleibt die grundsätzliche Nachsichtigkeit bestehen. Das deutet darauf hin, dass die erlernten Muster des Modells – geprägt durch überwiegend positive oder neutrale von Menschen geschriebene Texte – immer dann dominieren, wenn objektive Maßstäbe fehlen.
Der Bewerbungs-Test
Um klarere Maßstäbe anzulegen, testeten die Forscher die KI auch an Bewerbungsunterlagen, deren Qualitätsprofile künstlich erstellt wurden. Ein LLM bewertete diese Bewerbungen, ohne deren wahre Qualität zu kennen. Auch hier zeigten Einzelbewertungen eine auffällige Großzügigkeit und kaum Nutzung der unteren Kategorien. Vergleichende Bewertungen führten hingegen zu mehr Variation und passten sich der vorgesehenen Verteilung besser an – vor allem, wenn die Bewertungsskala jeden Wert ausdrücklich an einen Prozentbereich knüpfte. Dennoch zögerte das Modell weiterhin, eine Bewerbung in die untersten 20 Prozent einzustufen, selbst wenn es explizit dazu aufgefordert wurde.
Die Stärke objektiver Daten
Die eindeutigsten Ergebnisse liefert ein kontrolliertes Experiment, in dem menschliche Prüfer Beschäftigte auf Basis ungenauer, aber objektiver Leistungssignale bewerteten. Die KI erhielt hier exakt dieselben Informationen wie die menschlichen Bewerter. In diesem Szenario schnitt das Modell bemerkenswert gut ab: Es lieferte deutlich präzisere Bewertungen als die Menschen, zeigte keine Scheu vor schlechten Bewertungen und näherte sich stark dem mathematischen Ideal an, das die bestmögliche Nutzung der verfügbaren Daten darstellt. Im Gegensatz zu Menschen lässt sich das LLM auch nicht davon beeinflussen, ob seine Bewertung Auswirkungen auf den Bonus eines Mitarbeiters hat. Es zeigt also keine sozialen Bedenken oder persönliche Bevorzugung, die menschliche Urteile allzu oft verzerren.
Was das für das Management bedeutet
Insgesamt offenbaren die Ergebnisse ein klares Muster: Wenn Leistung subjektiv ist und Bewerter sich auf allgemeine Eindrücke verlassen müssen, reproduzieren LLMs bekannte menschliche Tendenzen und Fehlbeurteilungen. Sind die Leistungsinformationen jedoch strukturiert, vergleichbar und zumindest teilweise objektiv, können LLMs menschliche Prüfer deutlich übertreffen. Sie verarbeiten Informationen konsistenter und ohne soziale oder emotionale Verzerrungen. Die Ergebnisse verdeutlichen somit sowohl das Potenzial als auch die Grenzen des Einsatzes von LLMs im Leistungsmanagement von Unternehmen. Sie sind kein Allheilmittel für die Tücken subjektiver Bewertungen, können aber die Genauigkeit dort deutlich verbessern, wo es objektive Signale gibt, die sich systematisch auswerten lassen.
Related news