Darwin schlägt Kant. Frank Urbaniok
Informationen über den vorliegenden Fall verfügbar sind.
−Kausale Basisraten werden als Information über den Einzelfall behandelt und lassen sich leicht mit anderen fachspezifischen Informationen verknüpfen.« [4, S. 208–210]
6.2Methodische Probleme statistischer Modelle am Beispiel des Taxiproblems
Man kann sagen, ein Hauptproblem bestehe bei der einzelfallbezogenen menschlichen Analyse in der überbordenden Tendenz, zu generalisieren und Kausalitäten zu konstruieren, die subjektiv vertraut erscheinen, letztlich aber auf verzerrten Wahrnehmungen und Beurteilungen beruhen. Wir haben eine Menge möglicher Fehlerquellen für die damit verbundenen Prozesse zur Kenntnis genommen. Umgekehrt könnte man sagen, dass das Problem statistischer Zugänge genau im Gegenteil, im Fehlen von Kausalität, zu suchen ist. So sind statistische Zugänge häufig dann stark, wenn es um überschaubare Verhältnisse geht und wenn sie für eine grobe Orientierung zum Beispiel zum Screening eingesetzt werden. Hingegen sind sie oft nicht in der Lage, komplexe Phänomene mit der nötigen Differenziertheit abzubilden. Denn die Informationen, aus denen sich Statistiken entwickeln lassen, müssen (1) praktisch verfügbar (d. h. schon vorher bekannt) sein und sich (2) in Form von Zahlen abbilden lassen. Das führt zwingend zu einer enormen Reduktion von Information und einer hochgradigen Selektion potenzieller Einflussvariablen. Man kann das anhand des Taxibeispiels verdeutlichen.
Auf den ersten Blick scheint die auf dem Bayes-Theorem beruhende Berechnung einen entscheidenden Vorteil zu haben. Sie wirkt objektiv, weil sie anscheinend nicht durch kausale Annahmen mit ihren vielfachen Fehlerquellen beeinflusst ist. Die Berechnung geht allein von objektiven Zahlen wie der Verteilung der Taxis zwischen den Unternehmen Green und Blue aus.
Bei näherem Hinsehen versteckt sich aber auch in diesem scheinbar neutralen Zugang bereits eine kausale Annahme. Sie lautet: Das Unternehmen, das mehr Taxis besitzt, hat eine höhere Wahrscheinlichkeit, den Unfall verursacht zu haben, als das Taxiunternehmen, dem weniger Taxis gehören. Gemäß dieser kausalen Hypothese wird die prozentuale Verteilung der Taxis auf die beiden Unternehmen als Basisrate angesehen, mit der gerechnet wird. Es könnte aber sein, dass diese Verteilung die falsche Basisrate ist, weil die ihr zugrunde liegende kausale Hypothese falsch ist. Denn die Besitzverhältnisse sagen ja noch nichts über die Fahrtzeiten, die Auslastung oder die regionale Verteilung der Taxis aus. Das könnte aber entscheidend sein. Denn wir interessieren uns ja für die Basiswahrscheinlichkeit, mit der ein Taxi eines der beiden Unternehmen an einem bestimmten Ort anzutreffen ist.
Nehmen wir an, die Taxis haben räumliche Schwerpunkte. Da die Firma Blue weniger Taxis als die Konkurrenzfirma hat, konzentriert sie sich auf einige wenige Stadtteile. Die Wahrscheinlichkeit dafür, dass sie in diesen Stadtteilen herumfährt, ist deswegen deutlich höher als 15 Prozent. Dass blaue Taxis in anderen Stadtteilen auftauchen, ist dafür viel unwahrscheinlicher als 15 Prozent. Schließlich können die Taxis ja nicht gleichzeitig an zwei Orten sein. Es könnte sein, dass der Stadtteil, in dem der Unfall geschah, gerade ein solcher Schwerpunkt der Firma Blue ist. Nehmen wir an, die Präsenz der kleinen Firma ist hier sogar so groß, dass sie 80 Prozent der entsprechenden Aufträge bekommt. Die Basisrate für ihre Taxis wäre also in diesem Stadtteil nicht 15 Prozent, sondern praktisch 80 Prozent. Die theoretisch plausible Basisrate von 15 Prozent für das gesamte Stadtgebiet zugrunde zu legen, ist falsch und führt zu einer schweren Verzerrung des entsprechenden Ergebnisses. Die Zeugenaussage würde in diesem Fall durch die theoretische Basisrate in völlig unzulässiger Weise entwertet.
In der Praxis ist also die entscheidende Frage: Wusste der Statistiker, dass die Stadtgebiete ganz unterschiedlich befahren werden und es verschiedene Basisraten für einzelne Stadtteile gibt? Vielleicht haben sich die beiden Unternehmen abgesprochen und die Stadtteile untereinander aufgeteilt. Sie haben keinerlei Interesse, dass ihre Absprache publik wird. Dem Statistiker, der bemüht ist, die richtige Basisrate in Erfahrung zu bringen, könnten sich also Hindernisse in den Weg stellen, die er gar nicht kennen kann. Er wird also eine Basisrate nehmen, die ihm einerseits plausibel erscheint und die ihm andererseits überhaupt zugänglich ist.
Weil es für den Unfall keinen direkten Zeugen gab, muss es sich um eine Leerfahrt gehandelt haben. War es eine Suchfahrt, um einen Fahrgast zu finden? Es ist keineswegs sicher, dass die Firmen proportional zu ihrer Größe und nicht proportional zu ihrem Geschäftserfolg Suchfahrten durchführen. So könnte es sein, dass das erfolgreichere Unternehmen überproportional viele Suchfahrten unternimmt, um Gäste zu bekommen. Dann fährt eine der beiden Firmen sehr viel mehr in der Stadt herum, während die anderen Taxis an fixen Standorten warten. Es könnte aber genau umgekehrt sein. Die Firma, die viel mehr Aufträge bekommt, erreicht dies über mehr Mitarbeiter, größere Bekanntheit, bessere Standplätze oder irgendeinen anderen Faktor. Jedenfalls führt der Erfolg dazu, dass diese Firma für eine bezahlte Taxifahrt sehr viel weniger Suchfahrten unternehmen muss als die andere. In diesem Fall wäre nicht die erfolgreichere, sondern gerade die weniger erfolgreiche Firma überproportional häufiger auf Suchfahrten anzutreffen. Für die Basisrate wären jedenfalls die effektiven Fahrzeiten entscheidend. Vielleicht gibt es hierzu aber gar keine Zahlen.
Konstruieren wir einen weiteren Aspekt. Der entscheidende Punkt ist die Fahrerflucht. Aber warum ist der Fahrer geflüchtet? War er nicht versichert oder hat er einen cholerischen Chef? Oder war er unerlaubterweise privat unterwegs und ist nach Hause gefahren? In der Logik dieses Gedankens könnten Fahrer, die in der Nähe des Unfallortes wohnen, einen stärkeren Grund – und damit eine höhere Wahrscheinlichkeit – haben, Fahrerflucht zu begehen. Dann wäre die entscheidende Basisrate diejenige, die etwas über die Verteilung der Wohnorte von Fahrern der Firma Blue und Green im Umkreis des Unfalls aussagt.
Vielleicht sind Fahrer, die schon zwei Unfälle auf dem Konto haben, bei einem dritten Unfall stark gefährdet, ihre Arbeit zu verlieren. Sie haben Grund für eine Fahrerflucht. Trifft das zu, dann wären die Prozentzahlen für Fahrer mit zwei Unfällen im Unternehmen Blue und Green interessant.
Ich will es nicht ins Absurde steigern. Wir sehen aber, dass selbst in einem sehr einfachen und überschaubaren Beispiel der Teufel im Detail liegt. Der scheinbar so objektive statistische Ansatz führt uns – eh wir uns versehen – in ähnliche Probleme wie das freie Denken, das so anfällig für Fehler und Verzerrungen ist.
Gerade bei komplexen Phänomenen sind die Auswahl einer geeigneten Basisrate und das Erkennen der wichtigen Informationen oft ein großes Problem. Denn gemessen werden die Informationen, die zugänglich sind und die sich in Zahlen abbilden lassen. Das kann aber ein völlig falscher Ansatz sein. Sicher aber ist der Statistiker im Vorteil, der das Phänomen, das er untersucht, sehr gut durchdrungen hat. Nur so kann er überhaupt erkennen, wo mögliche praktische Probleme und Grenzen der Erfassung liegen. Nicht selten fehlt dieses Wissen aber. Dann greift der Wissenschaftler zu den Zahlen, die ihm zugänglich sind. Dieses Vorgehen kennen wir. Es entspricht der WYSIATI-Regel. Man erkennt das, was man sieht, und nicht das, was tatsächlich vorhanden ist. Das führt zu falschen Zahlen und falschen Schlussfolgerungen.
Empirische Methoden kämpfen mit den gleichen Problemen, die generell mit der menschlichen Vernunft und der menschlichen Natur verbunden sind. Oder wie Kant es bereits sagte: Die Empirie erkennt das, was sie zuvor als Struktur und Fragestellung in das Phänomen hineingelegt hat.
6.3Methode oder Versuchspersonen: Wer liegt hier falsch?
Ich habe Nassim Taleb als Vertreter eines mathematisch-empirischen Ansatzes vorgestellt, der die Grenzen und die inhärenten Verzerrungen dieses Ansatzes unterschätzt (Kap. 2.11).
Ich will das an einem weiteren Beispiel demonstrieren. Taleb schildert ein berühmtes psychologisches Experiment. Man bittet Versuchspersonen, etwas zu schätzen. Sie sollen einen Zahlenbereich so wählen, dass die zu schätzende Zahl sich mit einer Wahrscheinlichkeit von 98 Prozent im gewählten Zahlenbereich befindet. Den Zahlenbereich können sie frei wählen. Theoretisch müsste man erwarten, dass jeweils 98 Prozent der getesteten Personen einen Zahlenbereich angeben, in dem der gesuchte Wert enthalten ist. Bei einer vorgegebenen