Die fabelhafte Welt der Mathematik: Gegen jede Intuition

Die fabelhafte Welt der Mathematik: Gegen jede Intuition. Für die italienische Gesamtbevölkerung ist Corona fast doppelt so tödlich wie in China, obwohl sowohl jüngere als auch ältere Italiener eine höhere Überlebenschance haben. Das Simpson-Paradox führt vor, wie kontraintuitiv Statistik sein kann.

»Traue keiner Statistik, die du nicht selbst gefälscht hast« – dieses Sprichwort wird häufig herangezogen, wenn man mit Ergebnissen konfrontiert wird, die der eigenen Vorstellung widersprechen. Doch tatsächlich können auch reale Studien zu Resultaten führen, die kaum zu glauben sind: Zum Beispiel erwies sich auf die Gesamtbevölkerung gesehen Covid-19 in Italien tödlicher als in China, obwohl jede einzelne italienische Altersgruppe eine höhere Überlebenschance hatte.

Um die Gefahr einer Krankheit abzuschätzen, ziehen Epidemiologen unter anderem die so genannte Fallsterblichkeit heran. Dabei handelt es sich um den Anteil der Infizierten, die an der Krankheit versterben. Bereits am 17. Februar 2020 veröffentlichte China eine Statistik zur Fallsterblichkeit von Covid-19 im eigenen Land, und etwa drei Wochen später lieferte auch Italien Daten dazu. Insgesamt gab es in China eine Fallsterblichkeit von 2,3 Prozent, während sie in Italien 4,3 Prozent betrug – also fast doppelt so hoch war.

Viele Menschen denken, Mathematik sei kompliziert und öde. In dieser Serie möchten wir das widerlegen – und stellen unsere liebsten Gegenbeispiele vor: von schlechtem Wetter über magische Verdopplungen hin zu Steuertricks.

Genauer betrachtet sorgten die Daten allerdings für eine Überraschung: Schlüsselte man die Fallsterblichkeit nach dem Alter der Infizierten auf, fiel sie für jede einzelne Altersgruppe in Italien niedriger aus als in China. Wie kann es sein, dass Covid-19 in Italien weniger tödlich für Personen jedes Alters ist als in China – aber tödlicher für die italienische Gesamtbevölkerung?

Diese kontraintuitive Feststellung ist eine Folge des so genannten Simpson-Paradoxes, eines in der Statistik inzwischen weithin bekannten Phänomens. Erstmals fiel es dem Mathematiker Karl Pearson im Jahr 1899 auf, der es in einer Arbeit beschrieb; vier Jahre später wurde es von dessen Kollegen George Udny Yule wiederentdeckt. Doch wie so häufig in der Wissenschaft gerieten die Aufsätze in Vergessenheit – bis Edward Simpson dem Thema 1951 eine Veröffentlichung widmete. Demnach können Bewertungen verschiedener Gruppen unterschiedlich ausfallen, je nachdem, ob man sie in Untergruppen aufteilt oder nicht. In diesem Fall entspricht die Bewertung einer höheren beziehungsweise geringeren Fallsterblichkeit und die Untergruppen sind durch das Alter der Erkrankten bestimmt.

Das Simpson-Paradox taucht häufig dann auf, wenn es unentdeckte Faktoren gibt, die das Ergebnis beeinflussen. Im genannten Beispiel ist das Alter ein solcher Faktor, denn es wirkt sich auf die Genesung aus. Die Daten zur Fallsterblichkeit geben allerdings nicht die Anzahl der Erkrankten in den jeweiligen Altersgruppen preis. Wenn man den prozentualen Anteil der positiv getesteten Patienten betrachtet, sieht man, dass sich in Italien insbesondere über 70-Jährige angesteckt hatten, während es in China vermehrt jüngere Personen waren.

Innerhalb der chinesischen und der italienischen Studien gibt es also drei Größen, die sich gegenseitig beeinflussen: das Alter, das Land und die Fallsterblichkeit. Das Alter beeinflusst die Fallsterblichkeit, da Covid-19 gefährlicher für ältere Patienten ist. Das Land wirkt sich ebenfalls auf die Genesungschancen aus, da die medizinische Infrastruktur vor Ort sowie andere Faktoren wie die Luftqualität den Krankheitsverlauf beeinträchtigen. Darüber hinaus hängt aber auch das Land mit dem Alter des Patienten zusammen. In Italien ist der Median der Bevölkerung 45,4 Jahre alt, in China nur 38,4 Jahre – die chinesische Bevölkerung ist also insgesamt jünger. Zudem spielt die soziale Interaktion der Altersgruppen eine Rolle. Sind ältere Personen in der Gesellschaft eher isoliert oder leben sie in Hausgemeinschaften mit jüngeren Menschen? Gehen sie viel aus und nehmen am öffentlichen Leben teil?

Die Korrelation zwischen Land und Alter führt zu dem kontraintuitiven Ergebnis, das als Simpson-Paradox bekannt ist. Und das nicht zum ersten Mal. In den 1970er Jahren gab es an der University of California in Berkeley einen Aufsehen erregenden Fall: Die Universität musste sich wegen vermeintlicher Diskriminierung von Frauen vor Gericht stellen. Grund dafür war die Zulassungsquote in ihrem Graduiertenprogramm. Bei männlichen Studierenden betrug sie 44 Prozent, während sie bei weiblichen nur bei 35 Prozent lag. Aus diesen Zahlen schlossen die Klägerinnen und Kläger, Männer würden von der Universität bevorzugt.

Als man allerdings die Bewerbungen für einzelne Fächer aufschlüsselte, ergab sich ein völlig anderes Bild. In vier der sechs größten Fachbereiche wurden beispielsweise mehr Frauen zugelassen als Männer. Der Statistiker Peter J. Bickel fand mit seinen Kollegen heraus, dass es – wenn überhaupt – eine Bevorzugung von Studentinnen gäbe. Frauen hatten eine so niedrige Zulassungsquote im Gesamten, weil sie sich meist bei Fachbereichen mit hohen Ablehnungsquoten bewarben, während männliche Studierende zu Fächern mit vielen Plätzen und wenigen Bewerbern neigten. Weshalb das so ist, ist eine Frage, welche die Mathematik leider nicht beantworten kann.

Das Simpson-Paradox lehrt uns also, bei Statistiken genauer hinzusehen. Womöglich übersieht man sonst Korrelationen, die das Ergebnis beeinflussen. Einige Fälle lassen sich jedoch nicht so einfach aufklären wie die zwei genannten Beispiele. Das Paradox kann nämlich auch bei medizinischen Studien auftreten, die sich um die Zulassung eines Medikaments drehen: Ein Wirkstoff ist möglicherweise für alle Versuchspersonen wirksamer als ein Placebo; wenn man die Patienten jedoch in Männer und Frauen aufteilt, stellt sich das Placebo für beide Gruppen jeweils als effektiver heraus. Wie sollte man in so einer Situation weiter vorgehen? Das Medikament zulassen, weil es sich – für alle Testpersonen betrachtet – als wirksam erwiesen hat? Oder aber den Ansatz aufgeben, weil es weder für Frauen noch für Männer besser funktioniert hat als die Gabe eines Placebos?

Auf diese Frage gibt es keine allgemein gültige Antwort. Tatsächlich wäre es das Vernünftigste, weitere Untersuchungen anzustellen, um herauszufinden, inwiefern das Geschlecht die Wirksamkeit beeinflusst – und ob es womöglich noch andere Einflussfaktoren gibt. Erst wenn man die kausalen Zusammenhänge versteht, kann man zuverlässig beurteilen, ob eine Zulassung Sinn macht oder nicht.

Was ist euer Lieblingsmathetheorem? Schreibt es gerne in die Kommentare – und vielleicht ist es schon bald das Thema dieser Kolumne!

Leave a Reply

Your email address will not be published. Required fields are marked *