Vorsicht mit Persönlichkeitstest im Beruf

In diesem Blog beschreibe ich die wissenschaftliche Problematik des Persönlichkeitsbegriffs und ihrer Messmethoden. Ich zeige, was dass in der beruflichen Auswahlpraxis von Bewerbern (w/m) heisst.

Darauf aufbauend zeige ich dann in einem Folgeblog, dass der Einsatz der Künstlichen Intelligenz (KI) in der Personaldiagnostik diese grundsätzliche Problematik der Persönlichkeitskdiagnostik und ihrer Messmethoden nicht lösen, sondern erheblich komplizierter machen können. Für diese KI-Anwendungen kann gelten: Bullshit in is Bullshit out.

Durch den Einsatz der KI bei Personalentscheidungen kommen auf  die Entscheider (w/m) in Unternehmen und Organisationen neue Herausforderungen zu, die es unbedingt zu beachten gilt (siehe unten).  Zunächst kläre ich in diesem Blog die Herausforderungen psychologischer Persönlichkeitsdiagnostik für die Berufspraxis.

Herausforderungen und Problematiken der Persönlichkeitsdiagnostik

Ob die Messung der Persönlickkeit durch ein Computer überhaupt möglich ist, ist erstmal keine Frage der KI, sondern erstmal eine Frage, ob sich die Persönlichkeit eines Menschen zuverlässig messen und diagnostisieren lässt. Diese Frage ist von zentraler Bedeutung für eine zuverlässige Vorhersagbarkeit von persönlichen Verhalten und damit für die Qualität von Personalentscheidungen insbesondere im Zusammenhang des Einsatzes einer KI. KI-Anwendungen sind letztlich die Übertragung einer mathematischen Methodik auf die Rechner.

Zunächst sind drei Fragen zu klären:

  • Was ist eigentlich eine Persönlichkeit?
  • Wie misst die Psychologie die Persönlichkeit und
  • welche Konsequenz haben diese Methoden für die Personalentscheidungen?

Was ist eigentlich eine Persönlichkeit?

Die Persönlichkeit eines Menschen ist nicht direkt beobachtbar wie z.B. seine Körpermerkmale. Der Persönlichkeitsbegriff ist ein theoretischer Begriff, der in der akademischen Psychologie seit über 100 Jahren umstritten ist.  Es gibt fast so viele unterschiedliche Auffassungen und Begriffe über die Persönlichkeit, wie es Forschungsansätze gibt. Die Herausforderungen sind die Komplexität der Persönlichkeit und ihre sozio-kulturelle Formung. Eine Persönlichkeit in Europa kann sich z.B. von einer Persönlichkeit aus Vietnam sehr unterscheiden.

In der akademischen Psychologie wird Persönlichkeit häufig mit Individualität, Charakter, Temprament o.ä. erklärt. Typisch ist hier, dass ein unbestimmter Begriff durch andere unbestimmte Begriffe erklärt wird. Das verbessert die Erkenntnislage nicht unbedingt.

In der Praxis hat sich das sog. Big-Five-Modell durchgesetzt.  Ihm zufolge existieren fünf Hauptdimensionen der Persönlichkeit und jeder Mensch (Universalanspruch!) lässt sich auf folgenden Skalen einordnen:

Die Entwicklung der Big Five begann bereits in den 1930er Jahren mit dem lexikalischen Ansatz, den Louis Thurstone, Gordon Allport und Henry Sebastian Odbert verfolgten. Diesem liegt die Auffassung zugrunde, dass sich Persönlichkeitsmerkmale in der Sprache niederschlagen; d. h. es wird angenommen, dass alle wesentlichen Unterschiede zwischen Personen bereits im Wörterbuch durch entsprechende Begriffe repräsentiert sind. Auf der Basis von Listen mit über 18.000 Begriffen wurden durch Faktorenanalyse fünf sehr stabile, unabhängige und weitgehend kulturstabile Faktoren gefunden: die Big Five. Die Big Five gelten heute international als das universelle Standardmodell in der Persönlichkeitsforschung

Was wurde hier gemacht: Hier wurde ein sprachliches Alltagskonzept durch ein statistisches Verfahren der Faktorenanalyse in fünf Persönlichkeitsdimensionen transformiert. Das ist genaus wenig wissenschaftlich, wie die Annahme, dass die Erde eine Scheibe sei, nur weil kein Mensch einen Planten als Kugel sieht. Die alltagssprachliche Verwendung oder Umschreibung des Begriffs Persönlichkeit rechtfertigt noch lange nicht ihre Verallgemeinerung. Wenn dem so wäre, bräuchten wir keine Wissenschaften.

mentales Gefängnis

Wie misst die akademische Psychologie die Persönlichkeit und welche praktischen Probleme entstehen dadurch bei Personalentscheidungen?

Alle Persönlichkeitsbegriffe der Psychologie gehen davon aus, dass die Persönlichkeit in ihrer Einheitlichkeit zeitlich mehr oder minder stabil ist. Damit findet eine „So-Seins-Zusschreibung“ statt. Mit dieser Zuschreibung ist die Vorhersagbarkeit des Verhaltens aufgrund von Momentaufnahmen wie Interviews oder anderer Auswahlverfahren überhaupt erst möglich. So-Seins-Zuschreibung sind z.B.: So bist du als Mann. So bist du als Frau. Es sind also keine Momentaufnahmen, sondern eine Verallgemeinerung und ein Anspruch, dass die Persönlichkeit sich unabhängig von der Zeit und vom Kontext immer so verhält.

Dieser Universalanspruch der Erklärung von Persönlichkeit stösst auf praktische Probleme. In einem früheren Blogbeitrag habe ich schon dargelegt, dass die Annahme von stabilen Persönlichkeitsmerkmalen sehr umstritten ist (siehe Blogbeitrag).

Persönlichkeitsmerkmale und Dimensionen der Persönlichkeit wie z.B. Verträglichkeit, Extraversion in der Lebenspraxis kommen in reiner Form nicht vor. Sie sind Beschreibungen eines individuellen Verhaltens in komplexen sozialen Kontexten. Diese werden nicht berücksichtigt. Stattdessen werden die Bewerber (m/w) mit sozial definierten Gruppen verglichen. Persönlichkeitstests sind also im Kern soziale Vergleiche mit einer wie auch immer konstruierten Gruppennorm.

Der Gruppenvergleich sagt aber nichts über das variantenreiche und komplexe Verhalten eines Menschen in einem sich dynamisch wandelnden Berufskontext aus. Es stellt sich hier schon generell die Frage der Gültigkeit und Übertragbarkeit von Persönlichkeitstests auf die vielfältige und dynamische Berufspraxis und damit die Frage, ob der universelle Erklärungsanspruch realistisch ist.

Diese „So-Seins-Aussagen“ aus psychologischen Testverfahren der Persönlichkeit sind noch aus folgenden wissenschaftlichen Gründen problematisch:

  • Ein Persönlichkeitstest kann das in ihm zugrundlegende Verständnis von Persönlichkeit weder belegen noch widerlegen, weil die grundbegriffliche Auffassung von Persönlickkeit in die Testfragen eingebaut ist.
  • Persönlichkeitstests können aus grundsätzlich wissenschaftlichen Erwägungen nur beschreibene Verfahren sein. D.h. sie sagen nur aus, dass eine Übereinstimmung oder Abweichung eines Testswerts der Bewerber (w/m) mit einer Vergleichsgruppe besteht. Sie können aber nicht erklären, was die Gründe für die Abweichungen oder Übereinstimmung sind.
  • Sie können auch keine exakten Angaben über die Gültigkeit und Genauigkeit ihrer Zusammenhangsannahme z.B. darüber machen, dass die Ausprägung einen gewissen Erfolg in der Berufslaufbahn bringt, weil es beschreibene und keine erklärenden Statistiken sind, die hier zur Anwendung kommen. Des wegen wird hier mit dem Surrogat von sog. Irrtumswahrscheinlichkeiten gearbeitet. Das sind aber reine statistische Konstruktionen und keine reale Aussagen, die mit konkret beobachtbaren Daten hinterlegt werden.
  • Die Motive, Absichten oder Hintergründe, warum jemand eine Frage so oder anders auf einer Skala von z.B. 1- 4 beanwortet, sind durch das mündliche oder schriftliche Antwortverhalten der Testpersonen nicht klärbar.
  • Die Gleichsetzung vom Antwortverhalten und dem generellen Verhalten eines Menschen in verschiedenen Kontexten ist reine Spekulation und durch den im Test ausgewiesenen Gültigkeitsbereich häufig nicht seriös hinterlegt.
  • Beim Vergleich von mir als Testperson zu einer sog. Kontrollgruppe stellt sich die Frage nach der praktischen Gültigkeit der Testgruppe für das Testergebnis. Hier sind viele Persönlichkeitsstest selten für den jeweiligen beruflichen Anwendungsbereich geeignet. Es gibt wenig Sinn, z.B. mein Antwortverhalten mit einer Testgruppe von Senioren in Minnesotta, USA, zu vergleichen, wenn es darum geht, meine persönlichen Fähigkeiten als Mitarbeiter (w/m) in einem Maschinenbauunternehmen in Sachsen vorherzusagen.

Die durch die Psychologie angestrebte Messung der Persönlichkeit ist also der Versuch, Alltagstheorien der Persönlichkeit methodisch auf einem höheren Grad dingfest zu machen, also den Anschein einer Verwissenschaftlichung zu erwecken. So versucht das Big Five Modelle durch das statistische Verfahren der Faktorenanalyse, eine Faktorenstruktur aufzubauen, die eine Einheitlichkeit der Person differenziert faßbar und beurteilbar macht.

Bei diesen Faktorenanalysen bleiben die Begrifflichkeit über die Persönlichkeit und die wesentliche Frage, ob die Persönlichkeit so überhaupt statistisch erfassbar und erklärbar ist, unflektiert. Im Gegenteil: Die begrifflichen Bestimmungen und ihre statistischen Verfahren wie auch ihre Prüfaktivitäten werden unhinterfragt vorausgesetzt.

Damit erfüllt die traditionelle Persönlichkeitsdiagnostik keines ihrer selbst aufgestellten Kritieren für die Gültigkeit (Validität) und inhaltliche Aussagekraft ihrer diagnostischen Urteile. Denn dies setzt voraus, dass sie eine wissenschaftlich haltbare und keine je nach Wissenschaftler beliebige Grundbegriffsdefinition der Persönlichkeit ausweist, die der Test angeblich misst. Die meisten Persönlichkeitstest kommen nicht über das Niveau wissenschaftlich stilisierte Alltagstheorien hinaus.

Allerdings sind die in den Tests häufig vorliegenden Alltagstheorien sogar noch schlechter als der gesunde Menschenverstand. Diese zusätzliche Erkenntnisbeschränkung von Persönlichkeitstest liegt in ihrer mathematischen Methode. Zur Erhebung von Persönlichkeitsvariablen werden häufig Fragen und Skalen benutzt. Es sind sogenannte Ordinalskalen, d.h. beschreibene Skalen mit Ausprägungsgraden. Die Ausprägungsgrade sind willkürlich defniert und nicht wissenschaftlich geeicht. In der Persönlichkeitsdiagnostik gibt es keine geeichten Intervallskalen. Geeichte Intervallskalen gibt es z.B. bei einem Thermometer. Da sind zwei Grad Celsius unter bestimmten Gravitationsbedingungen doppelt so viel wie ein Grad Celsius.

Um z.B. die Vielfalt einer Ausprägung von Persönlichkeitsvariablen mathematisch in den Griff zu kriegen, wird eine sog. Varianzaufklärung gemacht. Dazu werden häufig unabhängige Variablen oder Moderatorvariablen eingeführt, z.B. bei der Frage, unterscheiden sich Introvertierte und Extravertierte im Verkaufserfolg?

Mit solchem Vorgehen springt man unbemerkt aus strengen experimentellen Forschung raus, im dem man Variablen einführt, die der wissenschaftlichen Aufklärung entzogen sind. Damit sind sie genau genommen gar nicht interpretierbar. D.h. die o.g. Frage: Unterscheiden sich Introvertierte und Extravertierte im Verkaufserfolg, ist durch den Test nicht seriös beantwortbar.

Ein anderer Umstand, der dazu führen kann, dass die Aussagekraft psychologischer Testverfahren unterhalb des gesunden Menschenverstands landen kann, ist in der Problematik begründet, dass Menschen einen Test nach sozialer Erwünschtheit ausfüllen können. Sie beantworten die Fragen danach, was sie glauben, welches Antwortverhalten gut bewertet wird. Die Antworttendenz der sozialen Erwünschtheit ist in Bewerbungsverfahren ein alltägliches Problem, weil Bewerber (w/m) ein berechtigtes Interesse daran haben, im Verfahren gut auszusehen.

Dieser Umstand verweist auf ein grundsätzliches Problem von schriftlichen Testverfahren der Persönlichkeit. Durch die Ausklammerung der menschlichen Kommunikation entsteht ein Erklärungsvakuum über die tatsächlichen Motive des Antwortverhalten eines Bewerbers. Damit der oder die Bewerber eine Frage in ihrer Sinnhaftigkeit einschätzen können, müssen sie immer Hypothesen über die Absicht oder den Inhalt der Frage stellen, sonst gibt die Frage für die Betroffenen keinen Sinn. Diese Hypothesenbildung, also das Motiv, warum ein Bewerber die Frage so und nicht anders beantwortet, bleibt ungeklärt.

Wie versucht nun die Testdiagnostik diesen Umstand methodisch in den Griff zu bekommen? Sie konstruiert  Testfragen zu Lasten der eigentlichen Aussagekraft, in der Hoffnung, dass der Bewerber (w/m) keine eindeutige Zuordnung treffen kann und somit seine Antworttendenz der soziale Erwünschtheit unterlässt. Oder es werden Kontrollfragen eingeführt, um die Bewerber in ihrem konsistenten Antwortverhalten zu überprüfen. Wenn einer die Frage A so beantwortet, dann muss die Kontrollfrage G so beantwortet werden oder der Bewerber ist nicht ehrlich. Dabei kann ein Testauswerter nicht tatsächlich oder faktisch überprüfen, ob die Bewerber sich sozial erwünscht verhalten haben.

Neben der sinkenden Aussagekraft von Items, die so allgemein sind, dass ihre Messgenauigkeit und inhatliche Gültigkeit darunter leidet, wird im Fragepool unter der Hand den Bewerbern etwas zugeschrieben, was messmethodisch mit dem Persönlichkeitsbegriff nichts zu tun hat. Diese methodischen Kniffs fließen unter der Hand jedoch in die So-Seins-Botschaften über die Bewerber (w/m) mit ein.

Trotz ihres geringen Erkenntniswertes werden die Persönlichkeitstests immer weiter ausgebaut und perfektioniert. Die KI transport diese Verfahren in Form von nicht offen dargelegter Algorithmen in eine Art Black Box. Damit werden die methodischen Mängel der Testdiagnostik in eine Scheinobjektivität von Maschinen versteckt. Im nächsten Blog zeige ich ein Beispiel einer Anwendung von KI, die eine Persönlichkeitsdiagnostik noch abenteuerlicher macht, als sie ohnehin schon sein kann.

Bestimmten Testdiagnostiken geht es nicht um einen Erkenntnisgewinn, sondern sie wollen den Anschein der Objektivität, der Zuverlässigkeit, Richtigkeit und damit der Wirtschaftlichkeit von Personalentscheidungen erwecken. Die meisten Entscheidungsträger in der Wirtschaft, Politik und im öffentlichen Dienst, die Personalentscheidungen treffen, sind diagnostische Laien. Sie müssen dennoch die Verantwortung für ihre Personalentscheidungen übernehmen. Hier bietet die Scheinobjektivität von mathematischen Verfahren oder die KI eine mögliche Entlastung. Wenn Personalentscheidungen schief gehen, war es im Zweifel das Testverfahren oder die KI.

Jede Einschätzung oder Beurteilung eines Menschen durch andere ist im Kern ein Selbstbild-Fremdbild-Abgleich, die mehr über den Beurteiler aussagen kann als über den Beurteilten. Bewertungen sind niemals eindeutig und müssen schon gar nicht von anderen geteilt werden. Eine Übereinstimmung zwischen Selbstbild und Fremdbild gilt es erst mal herzustellen.

Im praktischen Leben der Bewerberauswahl heisst das, dass ich in eine aufwendige Kommunikation mit den Betroffenen gehen müsste, ob er oder sie selber mit dem Fremdbild des Tests übereinstimmt oder ob es in seinen oder ihrem Selbstbild deutlich Abweichungen gibt. Gute diagnostische Verfahren und Beurteilungssysteme berücksichtigen dies.

Selbstbild Fremdbild klappt ganz gut, wenn man sich ähnlich ist.

Psychologische Testverfahren schließen das nicht aus, weil ich als Diagnostiker die Testergebnisse mit dem Bewerber (m/w) kommunizieren kann. Das wird auch von seriösen  Personaldiagnostikern empfohlen. Test ersetzen in keinem Fall die Kommunikation, sondern können im günstigsten Fall Anlass für eine Kommunikation sein.

Dieses ist im Zusammenhang mit dem Einsatz von KI bedeutungsvoll. Denn aktuell bieten viele Anbieter auf dem Software-Markt eine KI-Lösung mit dem Argument an, dass sie durch weniger Aufwand in der Kommunikation von Mensch zu Mensch wirtschaftlicher sei und Maschinen keine Fehler machen. Auch dieses Argument schaue ich mir im nächsten Blog genauer an.

Insgesamt ändert das erst mal nichts an der Frage, ob das über den Test erstellte Fremdbild eines Bewerbers überhaupt zuverlässig seine oder ihre Persönlichkeit wieder gibt. Wie gesagt für die KI gilt: Bullshit in is Bullshit out!

Nehmen Sie gerne Kontakt zu uns auf.

 

Ein Kommentar

Kommentar verfassen

Trage deine Daten unten ein oder klicke ein Icon um dich einzuloggen:

WordPress.com-Logo

Du kommentierst mit deinem WordPress.com-Konto. Abmelden /  Ändern )

Facebook-Foto

Du kommentierst mit deinem Facebook-Konto. Abmelden /  Ändern )

Verbinde mit %s