13. August 2010

NZZ: «Neugierige Frauen werden später Mütter»

Die NZZ hat in ihrer Online-Ausgabe vom 8.8.2010 über einer Studie berichtet, welche der Frage nachgeht, wodurch beeinflusst wird, wann Frauen ihr erstes Kind gebären.
Die Studie ist an und für sich interessant - die NZZ-Berichterstattung dazu aber ein Beispiel für völlig unverhältnismässige Gewichtung einer einzelnen Studie.

Die anfängliche Schwierigkeit des NZZ-Artikels ist eine altbekannte: Es wird eine Studie besprochen, ohne konnkrete Angaben zu dieser zu machen. In diesem Fall ist diese Orientierungslosigkeit gänzlich unnötig, da die Studie kostenlos verfügbar ist: «Who delays childbearing?»
Die Resultate der Studie werden in genanntem NZZ-Artikel u.a. folgendermassen beschrieben:
Demnach begünstigen hohe Werte von Extraversion, Verträglichkeit und Neurotizismus statistisch gesehen eine frühe Mutterschaft. Mit anderen Worten: Frauen, die gesellig sind, eher ängstlich und gerne anderen helfen, haben tendenziell früher Kinder. Frauen mit hohen Werten für Gewissenhaftigkeit und Offenheit hingegen bekommen im Durchschnitt später Kinder. Vor allem unter den gut gebildeten Frauen hatte der Charakterzug der Offenheit einen stark verzögernden Einfluss.
Das klingt spannend. Vor allem ist interessant, dass diese Studie offenbar den Zusammenhang zwischen Mutterschaft und beruflicher Karriere als «Scheinkorrelation» (ein dummer Begriff, weil damit einfach gemeint ist, dass die vorhandene Korrelation nicht kausaler Natur ist) entlarvt: Nicht Karrierestreben hemmt direkt Mutterschaft, sondern die Charaktereigenschaften «Offenheit» und «Gewissenhaftigkeit» begünstigen Karrierestreben und verzögern Mutterschaft. So weit, so interessant; wie so oft lohnt sich aber ein Blick in die besprochene Studie.

Auf Seite 14 der Studie ist in Tabelle 1 festgehalten, aus welchen sogenannten Frageitems der verwendeten Befragungs-Daten die «Big Five»-Charaktereigenschaften zusammengesetzt werden:
Bereits hier fällt Einiges auf. Zunächst stellt sich die Frage, ob derart abstrakte Charaktereigenschaften mit nur drei Items befriedigend gemessen werden können. Für die verwendeten Items werden statistische Gütemasse angegeben («Alpha», «AIC»), wobei deren Werte nicht sonderlich hoch sind. Warum dies aber nicht wichtig sei, erklärt die Autorin folgendermassen:
Even though in the BHPS the internal consistency of personality trait scales obtained from the BFI-S questions - as measured by the values of the Cronbach’s alpha10 - is not impressive, this should not be of great concern because it results from the small number of items used to assess each trait.11 In fact some researchers argue that alphas are misleading when calculated on scales with a small number of items (Gosling, 2004). Short instruments like the BFI-S are meant to optimize validity and not reliability.
Will heissen: Anything goes. Es ist zu erwarten, dass, wären die Werte höher ausgefallen, dies als Merkmal für die Güte der Messkonstrukte für die Charaktereigenschaften gedeutet würde, die Nachteile des Berechnungsverfahrens entsprechend kein Thema wären.
Abgesehen von den üblichen Statistik-Spielereien drängen sich inhaltliche Fragen auf. So ist z.B. nicht einleuchtend, was genau «Effizienz» (gemessen mit dem Item «Does things efficiently») mit «Conscientousness» («Gewissenhaftigkeit») zu tun haben soll. Warum, im Weiteren, das Item «Values artistic, aesthetic experiences» für «Openness» (im Sinne von «Neugier») gemessen wird, aber nicht die Einstellung gegenüber, z.B., sachlich-wissenschaftlichen Erfahrungen, ist unklar - ist, wer z.B. Belletristik liest etwa automatisch «neugieriger» als Menschen, welche eher Sachbücher lesen?

Nun gut, der Einfachheit halber lasse ich weitere inhaltliche Fragen aus und widme mich kurz den Resultaten. Auf Seite 20, in Tabelle 3 werden die detaillierten Resultate, getrennt für weniger und mehr gebildete Frauen, festgehalten:
Die Spalten (1) und (2) meinen zwei Berechnungen: Für (1) werden nur die «Big Five»-Charaktereigenschaften gemessen, für (2) zusätzlich bestimmte sozio-demografische Variablen. Einige Dinge, welche aus dieser Tabelle herausgelesen werden können, sind:
  • Wie im NZZ-Artikel beschrieben, haben nicht alle Variablen den gleichen Einfluss auf höher und tiefer gebildete Frauen (erkennbar an den Signifikanzniveaus).
  • Die Vorzeichen der Variablen zeigen, wie im NZZ-Artikel beschrieben, die Richtung des Einflusses, welche diese auf den Zeitpunkt des Gebärens des ersten Kindes haben.
  • Die Effekte sind insgesamt schwach. Das wird im NZZ-Artikel nicht beschrieben.
Tabelle 3 fasst also die durchaus interessanten Resultate zusammen; in den NZZ-Artikel schafft es aber nur der «spektakuläre» Teil.

Tabelle 4 auf Seite 21 der Studie zeigt, welchen Teil der «Varianz der abhängigen Variable»  die gemachten Messungen erklären (d.h., welcher Teil des Zeitpunktes des Gebärens des ersten Kindes durch die in Tabelle 3 aufgelisteten Merkmale erklärt wird):
Anhand des grössten Wertes in dieser Tabelle (0.0594) lässt sich anschaulich beschreiben, was diese Zahlen bedeuten: Werden alle Variablen aus Tabelle 3 berücksichtigt, wird damit maximal nur knapp 6% der abhängigen Variable (Zeitpunkt der Mutterschaft) erklärt.
Tabellen 3 und 4 zeichnen also folgendes Bild: Es gibt Effekte, diese sind aber schwach und üben insgesamt verhältnismässig geringen Einfluss aus. Die Autorin freilich sieht das nicht ganz so und interpretiert die Resultate anders:
These figures may come across as quite small and one could be tempted to say that, in the end, personality traits are unimportant in explaining timing of motherhood. Two remarks are in order here. First, even though the R-squared gives us some idea about the explained variation in the models, it cannot be interpreted as a proper explained variation measure; and then, the R-squared of the model with personality traits only is not much smaller than the one with just the traditional background variables (4.3% and 2.0%, for the more and less educated groups respectively) - and yet, the literature unanimously recognize family background as an important factor in explaining fertility timing. It would very interesting to contrast the R-squared of family background reported here with the R-squared of other studies on timing of childbearing but unfortunately that is not possible as they are never reported. So, it is not possible to ascertain whether such R-squared is standard, or if it is unusually small.
Wieder das bekannte Muster: Die Werte sind gering, was bedeuten muss, dass das diese Werte hervorbringende Berechnungsverfahren nicht so gut ist. Leider hinterfragt die Autorin hier die Ergebnisse nicht: Meine obigen Bemerkungen zu Tabelle 1 wären z.B. ein möglicher Grund für die unerwartet schwachen Ergebnisse (die besten statistischen Berechnungen nützen wenig, wenn die Grundlage für das Rechnen auf wackeligen Beinen steht).

Zusammenfassung
Es handelt sich hier um eine grundsätzlich interessante, aber bisweilen leider durch «confirmation bias» gezeichnete Studie, welche (schwache) Auswirkungen bestimmter Charaktereigenschaften auf den Zeitpunkt der Mutterschaft findet. Der NZZ-Artikel verzerrt die Ergebnisse dieser Studie und geht nicht auf deren Negativpunkte ein.

Solche Rosinenpickerei ist leider Alltag im Mediengeschehen: Ähnlich, wie einzelne aussergewöhnliche politisch-gesellschaftliche Ereignisse eher mediale Resonanz erhalten als Tagesgeschäft, haben auch vermeintlich «bahnbrechende» wissenschaftliche Studien bessere Verwertungschancen. Nicht zuletzt aufgrund solcher medienlogischer Mechanismen basieren, um nur ein Beispiel zu nennen, öffentliche Meinungen zu menschenverursachtem Klimawandel teils nicht auf dem eigentlichen Stand der Klimaforschung, sondern gründen in verzerrenden Einzelereignissen (ein aktuelles Beispiel: «Climategate»).

0 Kommentare:

Kommentar veröffentlichen