Vielen ist die klassische Definition von Wahrscheinlichkeiten bekannt. Ein Ereignis trete zufällig auf, dann ist die Wahrscheinlichkeit des Auftretens eines Zustandes A definiert als der Quotient aus den für das Ereignis günstigen (g) und der Zahl aller möglichen Fälle (m).
Einhergehend mit der Definition einer Wahrscheinlichkeit ist der Ansatz der frequentistischen Statistik. Im Rahmen von Hypothesentests wird überprüft, ob ein Ereignis eintritt oder nicht. Es gilt das Prinzip der long run frequency. Ein Testergebnis gilt als gesichert, wenn ein Experiment unter denselben Umständen oft wiederholt wird. Dann kann eine Aussage im Sinne einer Wahrscheinlichkeit getroffen werden. Theoretisch wird dabei die Möglichkeit des unendlichen Wiederholens angenommen. Ein einfaches Beispiel ist das Werfen einer Münze, bei dem getestet werden soll, ob es sich um eine faire Münze handelt. Nur nach mehrmaligem Wiederholen wird ein Frequentist eine Aussage im Sinne einer Wahrscheinlichkeit abgeben P(Kopf) = 0.5. Sollte beispielsweise die Frage beantwortet werden, ob Trump die Wahl zum amerikanischen Präsidenten gewinnen wird, wäre das für eine frequentistische Sicht keine Fragestellung, die mit einer Wahrscheinlichkeit (er wird mit einer Wahrscheinlichkeit von 70% wiedergewählt) beantwortet werden könnte, da es kein wiederholbares Ereignis ist. Die Frage kann nur mit ja oder nein beantwortet werden.
Der Ansatz bayesianischer Wahrscheinlichkeiten erlaubt es, auch Hypothesen mit Eintrittswahrscheinlichkeiten zu beantworten, dies beruht auf dem Konzept der bedingten Wahrscheinlichkeit.
Dieses Konzept geht auf Reverend Thomas Bayes (1702 – 1761) zurück, der theoretische Ansätze einer inverse probability niederschrieb, welche jedoch erst posthum 1763 in dem Essay towards solving a problem in the doctrine of chances veröffentlicht wurde. Im weiteren Verlauf verdrängt durch die klassische statistische Modelle der linearen Regression und der einfachen Wahrscheinlichkeitsrechnung, gelangte erst zu Beginn der 1990er mit steigender Berechnungskapazität von Computern und steigendem Bekanntheitsgrad von Markov Chain Monte Carlo Methoden der bayesianische Ansatz der Inferenzstatistik wieder zu mehr Relevanz.
Bedingte Wahrscheinlichkeiten können mit Hilfe des Satzes von Bayes berechnet werden:
mit A als interessierenden Parameter (beispielsweise die Wahrscheinlichkeit der Wiederwahl Trumps) und B als (Stichproben-) Daten. Gesucht wird also eine durch Daten angereicherte, präzisere Bestimmung des interessierenden Parameters A, bedingt auf B. P(B) beschreibt die Randverteilung der Daten, die unabhängig vom interessierenden Parameter und deshalb von untergeordnetem Interesse ist. Die vorher bestehenden Annahmen über den interessierenden Parameter P(A) werden auch prior (a priori) Annahmen genannt. A priori Annahmen stammen klassischerweise aus bestehender Literatur oder aus Expertenwissen. P(B|A) beschreibt die Likelihood, also die Informationen, die aus den gesammelten Daten gewonnen werden können. Daraus ergibt sich die sogenannte posterior Verteilung des interessierenden Parameters, also eine Kombination aus vorher bestehenden Informationen und Informationen der Stichprobendaten. In der Hinzunahme des Priors, als wesentlicher Unterschied zur frequentistischen Berechnung von Wahrscheinlichkeiten, können essentielle Vorteile in der Schätzung erlangt werden.
Dies wird an einem kleinen Beispiel deutlich. Oft wird hier das Beispiel einer Krebs-Testdiagnose verwendet. Es gilt bei medizinischen Tests die Annahme, dass ein Testergebnis auch fehlerhaft sein kann. Ein positiver Test kann demnach bedeuten, dass man keinen Krebs hat, gleichermaßen kann ein negativer Test bedeuten, dass jemand trotz negativem Testergebnis Krebs hat. Es werden folgende Eckdaten betrachtet.
- 1% aller Frauen haben Brustkrebs
- 80% aller Tests entdecken, dass Brustkrebs vorhanden ist – 20% tun es nicht
- 6% aller Tests diagnostizieren Brustkrebs, wenn er nicht vorhanden ist – 90.4% geben ein korrekt negatives Ergebnis wieder
Unter der Annahme, ein positives Testergebnis zu erhalten, stellt sich das Szenario nun wie folgt dar.
Brustkrebs (1%) | Kein Brustkrebs (99%) | |
Test positiv | Wahr positiv 1% x 80% = 0.008 | Falsch positiv 99% x 9.6% = 0.095 |
Test negativ | Falsch negativ 1% x 20% = 0.002 | Wahr negativ 99% x 90.4% = 0.89 |
Werden die ganzen Informationen in Bayes Formel eingefügt, ergibt sich die Formel wie folgt Die Wahrscheinlichkeit eines wahr positiven Ereignisses liegt bei 0.008, die Wahrscheinlichkeit irgendein positives Ereignis zurück zu erhalten ist die Wahrscheinlichkeit eines wahr positiven plus die Wahrscheinlichkeit eines falsch positiven Tests, also 0.103. Demnach ist die Wahrscheinlichkeit bei einem positiven Testergebnis Krebs zu haben 0.008/0.103 = 0.0776. Ein positives Testergebnis bedeutet also, dass man nur mit einer 7.8%igen Wahrscheinlichkeit tatsächlich Krebs hat. Dies mag intuitiv falsch klingen, wenn man mit der Prämisse startet, dass 80% aller Tests wahr positiv testen. Verdeutlicht man sich das Beispiel jedoch anhand 100 Personen, wird es einleuchtender. Von 100 getesteten Personen hat nur eine Person tatsächlich Krebs, dieser wird mit einer 80%igen Wahrscheinlichkeit korrekt positiv getestet. Von den verbleibenden 99 Personen werden ungefähr 10% falsch positiv getestet, wir erhalten also von 100 ca. 11 Leute mit einem positiven Ergebnis, wovon jedoch nur eine Person tatsächlich Krebs hat. Demnach besteht eine 1/11 Wahrscheinlichkeit, tatsächlich Krebs bei einem positiven Test zu haben.
Oder aber Pr(Krebs|positiver Test) = 80% * 1% / ((80%*1%) + (9.6% * 99%)).
Durch den Einbezug zusätzlicher Informationen, nämlich der bekannten Verteilung von Brustkrebs in der Bevölkerung, ist es möglich geworden, ein Testergebnis sehr viel präziser interpretieren zu können. Dies beschreibt den wesentlichen Vorteil des Einbezugs von Prior Informationen. In den Prior Informationen versammeln sich alle verfügbaren Informationen bezüglich der interessierenden Parameter.
Im Unterschied zum eingangs genannten frequentistischen Ansatz zeigt sich also, dass bedingt auf die Information positiver Test und die dazu verfügbaren Informationen über die Gesamtverteilung von Krebs innerhalb der Bevölkerung, ein aussagekräftigeres Ergebnis errechnet werden kann, als die Informationen nur aus den vorliegenden Daten (durchgeführter Krebstest) zu ziehen.
Dieses einfache Beispiel zeigt einen wesentlichen Vorteil einer anderen Herangehensweise an statistische Fragestellungen auf. Durch das Inkorporieren von Vorinformationen ist es möglich, Ungenauigkeiten frequentistischer Herangehensweisen zu lösen und Fragen präziser zu beantworten. Eine solche Denkart ermöglicht im Kontext moderner Fragestellungen eine exakte Herangehensweise an Probleme des forecastings mit Hilfe von Zeitreihendaten, an Resampling Methoden wie Bootstrapping oder an Markov Chain Monte Carlo Verfahren zur Darstellung der Verteilung von Zufallsvariablen wie dem Gibbs Sampler oder dem Metropolis Hastings Sampler.