8 Eine kleine Welt der Unsicherheit
Starten wir mit einer übersichtlichen kleinen Welt, um das notwendige statistische Modell so einfach wie möglich zu halten. Die Welt, über die wir eine Aussage treffen wollen, besteht nur aus insgesamt 20 Personen. In Abbildung 8.1 sind die Bewohner dieser Welt einzeln zu sehen. Die Gesamtheit aller Personen (allgemein Objekte), über die wir eine Aussage treffen wollen, bezeichnen wir als die Population.
Definition 8.1 (Population) Die Gesamtheit aller Objekte/Dinge/Personen, über die eine Aussage getroffen werden soll, wird als Population oder Grundgesamtheit bezeichnet.
8.1 Ein Experiment
Wir wollen nun ein Experiment, eine Krafttrainingsstudie, durchführen, um zu überprüfen, ob ein bestimmtes Training dazu führt, dass sich die Beinkraft erhöht. Allerdings haben wir nur sehr wenige Ressourcen zur Verfügung (bzw. wir sind faul) und können daher nur sechs Messungen durchführen. Aus einem kürzlich durchgeführten Zensus haben wir die Beinkraftwerte der gesamten Population. Eine einfache Möglichkeit, die Kraft darzustellen, ist eine Tabelle (siehe Tabelle 8.1).
Selbst bei 20 Werten ist die Darstellung mittels einer Tabelle allerdings leider wenig übersichtlich. Wir müssen Zeile für Zeile die Tabelle durchgehen und uns spezifische Kennwerte notieren, um Vergleiche zwischen den Werten durchführen zu können. Beispielsweise könnten wir notieren, dass der Maximalwert der Beinkraft bei
Mittels eines Dotplots kann nun deutlich schneller abgelesen werden, welchen Wert das Minimum bzw. das Maximum annimmt. Die grafische Darstellung erlaubt weiterhin direkt abzuschätzen, in welchem Wertebereich der Großteil der Daten liegt. Allerdings wird durch diese Art der Darstellung die Information darüber, welche Person die jeweiligen Werte besitzt, nicht mehr dargestellt. Dies stellt jedoch nicht zwingend ein Problem dar, da wir in den meisten Fällen sowieso Aussagen über die Gruppe und weniger über einzelne Personen machen wollen. Ein Dotplot hat gleichzeitig den Vorteil, dass wir die Verteilung der Werte abschätzen können. In welchem Bereich liegen die meisten Datenwerte? Liegen die Werte eng beieinander oder streuen die Werte sehr stark? Gibt es einzelne Werte, die sehr unterschiedlich von den anderen Werten sind? Dies sind alles Fragen, die notwendig sind, um einen Datensatz und dessen Eigenschaften beurteilen zu können.
Kommen wir zurück zu unserem Kraftexperiment. Wir wollen den Gesundheitsstatus unserer Lummerländer verbessern und führen dazu ein Krafttraining für die Beine durch. Da wir evidenzbasiert arbeiten wollen, möchten wir überprüfen, ob das Training wirklich zu einer Verbesserung der Beinkraft geführt hat. Um das Experiment zu vereinfachen, und da es sich mehr um ein Gedankenexperiment handelt, gehen wir von einem perfekten Krafttraining aus. Das heißt, wir führen eine perfekte Intervention durch, die zu der gleichen Verbesserung bei allen Teilnehmerinnen und Teilnehmern führt (Warum ist dies eine unrealistische Annahme?).
Das Beinkrafttraining sei also perfekt und verbessert die Kraftleistung um genau
Definition 8.2 (Abhängige Variable ) Die abhängige Variable ist diejenige Variable, die in einer Studie beobachtet, gemessen oder analysiert wird. Die abhängige Variable wird oft als “Effekt” betrachtet.
Definition 8.3 (Unabhängige Variable ) Die unabhängige Variable ist die Variable, die in einer Studie oder einem Experiment manipuliert oder kontrolliert wird. Die unabhängige Variable wird oft als “Ursache” betrachtet, da sie den potenziellen Einfluss auf die abhängige Variable repräsentiert.
In unserem Experiment ist die Gruppenzugehörigkeit die unabhängige Variable und die Beinkraft die abhängige Variable. Wir untersuchen den Effekt der Gruppenzugehörigkeit auf die Beinkraft. Die Gruppe ist die Ursache für mögliche Effekte auf die Beinkraft.
Wir tun jetzt so, als ob wir die Daten aus dem Zensus nicht vorliegen hätten. Dies kommt der Durchführung eines tatsächlichen Experiments näher, da dort üblicherweise auch nicht vorher bekannt ist, welche Performance die Teilnehmerinnen und Teilnehmer vor dem Experiment haben. Es stellen sich nun zwei Fragen: 1) Wie wählen wir die sechs Personen aus unserer Population aus, und 2) wie teilen wir die sechs Personen in die beiden Gruppen auf?
Wir könnten zum Beispiel die ersten drei Personen in die Interventionsgruppe und die letzten drei in die Kontrollgruppe stecken. Allerdings, wenn die Personen in irgendeiner Form nach der Beinkraft vorsortiert sind, z.B. allgemeiner Gesundheitsstatus, Arbeitstätigkeit usw., dann würde sich diese Sortierung auf die Gruppen übertragen. Das heißt, wir hätten eine sogenannte Störvariable, die unser Ergebnis verfälschen würde.
Definition 8.4 (Störvariable) Eine Störvariable ist eine Variable, die einen Einfluss auf die abhängige Variable hat, deren Einfluss jedoch nicht kontrolliert wurde bzw. die Variable ist nicht von Hauptinteresse für die Untersuchung.
Im Zweifelsfall kann davon ausgegangen werden, dass es immer eine ganze Reihe von Störvariablen gibt. Unglücklicherweise auch Störvariablen, die zum Teil gar nicht bekannt sind. Das heißt, es wird ein Mechanismus benötigt, der Teilnehmerinnen und Teilnehmer auswählt und gleichzeitig dafür sorgt, dass Variablen, die gar nicht bekannt sind, möglichst gleichmäßig ausgewählt werden. Der Mechanismus, der dies sicherstellen kann, ist eine sogenannte Zufallsstichprobe (Warum?).
Definition 8.5 (Stichprobe) Eine Stichprobe ist eine Teilmenge der Objekte aus der Population.
Definition 8.6 (Zufallsstichprobe) Eine Zufallsstichprobe ist eine Teilmenge der Objekte aus der Population, die zufällig ausgewählt wurde.
Bei der Zufallsstichprobe haben alle Personen in der Population vor dem Experiment die gleiche Wahrscheinlichkeit, gezogen zu werden. Dadurch kann sichergestellt werden, dass in der Stichprobe unterliegende Störvariablen, ob messbar oder nicht messbar, ebenso in der Stichprobe verteilt sind.
Schauen wir uns ein einfaches Beispiel an. Sei eine Population der Größe
<- rep(c("A","B"), c(30,70))
pop <- 20
n_sam <- numeric(n_sam)
res for (i in 1:n_sam) {
<- sample(pop, 20)
sam <- mean(sam == 'A')
res[i]
} res
[1] 0.30 0.40 0.30 0.35 0.10 0.30 0.30 0.25 0.15 0.30 0.50 0.30 0.30 0.40 0.25
[16] 0.30 0.20 0.35 0.25 0.35
Wir sehen, dass tatsächlich in den meisten Fällen der Anteil von As in der Stichprobe in der Nähe der
Nachdem jetzt geklärt ist, wie die Stichprobe aus der Population ermittelt wird, ist nun die nächste Frage, wie die Objekte aus der Stichprobe auf die beiden Gruppen verteilt werden. Die gleichen Überlegungen wie diejenigen zur Ermittlung der Stichprobe führen dazu, dass die Objekte zufällig in die beiden Gruppen verteilt werden müssen. In diesem Fall der Aufteilung wird allerdings von einer sogenannten Randomisierung gesprochen.
Definition 8.7 (Randomisierung ) Mit Randomisierung wird der Prozess der zufälligen Zuweisung von Probanden oder Elementen zu verschiedenen Gruppen oder Bedingungen in einem Experiment bezeichnet. Die Randomisierung wird verwendet, um sicherzustellen, dass die Auswahl und Zuordnung der Elemente frei von systematischer Beeinflussung erfolgt.
Um jetzt für unser Experiment eine Stichprobe zu ermitteln, haben wir die Population durchnummeriert und mittels eines Zufallszahlengenerators die Zahlen
Dieser Prozess der zufälligen Ziehung und Zuteilung ist extrem wichtig, um das Ergebnis des Experiments eindeutig zuordnen zu können und eine Generalisierung über die bestehenden Objekte hinaus durchführen zu können. Leider ist der erste Schritt, die zufällige Ziehung von Objekten aus der Population, in der Realität nur sehr schwer realisierbar.
In Tabelle 8.2 ist die Stichprobe und Zuteilung in die Gruppen zu sehen.
Mit diesen sechs Personen führen wir jetzt unser Experiment durch. Die drei Personen aus der Kontrollgruppe durchlaufen im Interventionszeitraum nur ein Stretchtraining, während die Interventionsgruppe zweimal die Woche für 12 Wochen unser perfektes Krafttraining durchführt. Nach diesem Zeitraum messen wir die Beinkraft aller Personen aus beiden Gruppen. Wir erhalten das folgende Ergebnis (siehe Tabelle 8.3). Nochmal zur Erinnerung, wir nehmen an, dass wir die Werte aus dem Census nicht kennen.
Für beide Gruppen ist in Tabelle 8.3 jeweils noch der Mittelwert
Definition 8.8 (Mittelwert) Der Mittelwert
Der Mittelwert wird mit einem Strich über der Variable dargestellt.
Gleichzeitig haben wir das zentrale und namensgebende Konzept aus der Statistik kennengelernt, nämlich das der Statistik. Ein Wert, der mittels der Werte aus einer Stichprobe berechnet wird, wird als Statistik bezeichnet.
Definition 8.9 (Statistik) Ein auf einer Stichprobe berechneter Wert wird als Statistik bezeichnet.
Der Definition folgend, ist somit der Mittelwert
Um nun den Unterschied zwischen den beiden Gruppen zu untersuchen, berechnen wir die Differenz
Da der Wert D wiederum auf den Daten der Stichprobe berechnet wird, handelt es sich ebenfalls um eine Statistik.
In Abbildung 8.4 sind die Werte der beiden Gruppen, deren Mittelwerte
Der Unterschied zwischen den beiden Gruppen ist natürlich auch zum Teil auf die Unterschiede, die zwischen den beiden Gruppen vor der Intervention bestanden haben, zurückzuführen. Was wäre denn passiert, wenn wir eine andere Stichprobe gezogen hätten?
Sei
In Abbildung 8.5 sind wieder die Datenpunkte, Mittelwerte und der Unterschied in den Mittelwerten zwischen den beiden Gruppen abgetragen. In diesem Fall ist allerdings die Differenz zwischen den beiden Gruppen genau in der anderen Richtung
Es hätte aber auch sein können, dass wir noch eine andere Stichprobe gezogen hätten, z.B.
In diesem Fall haben wir zwar wieder einen positiven Unterschied zwischen den beiden Gruppen in der zu erwartenden Richtung gefunden. Der Unterschied von
Zu beachten ist, dass keines der Ergebnisse 100% korrekt ist. Entweder ist der Unterschied zwischen den beiden Gruppen deutlich zu groß, in der falschen Richtung oder deutlich zu klein. Das Ergebnis des Experiments hängt ursächlich damit zusammen, welche Zufallsstichprobe gezogen wird. Dieses Phänomen gilt generell für jedes Ergebnis eines Experiments. Das Phänomen, dass der Wert der berechneten Statistik zwischen Wiederholungen des Experiments schwankt, wird als Stichprobenvariabilität bezeichnet.
Definition 8.10 (Stichprobenvariabilität) Durch die Anwendung von Zufallsstichproben variiert eine auf den Daten berechnete Statistik. Diese Variabilität wird als Stichprobenvariabilität bezeichnet.
Streng genommen führt die Stichprobenvariabilität allein noch nicht dazu, dass sich die Statistik zwischen Wiederholungen des Experiments verändert, sondern die zu untersuchenden Werte in der Population müssen selbst auch eine Streuung aufweisen. Wenn wir eine Population untersuchen würden, bei der alle Personen die gleiche Beinkraft hätten, würden unterschiedliche Stichproben immer den gleichen Mittelwert haben und wiederholte Durchführungen des Experiments würden immer wieder zu demselben Ergebnis führen. Dieser Fall ist in der Realität jedoch praktisch nie gegeben, und sämtliche Parameter, für die wir uns interessieren, zeigen immer eine natürliche Streuung in der Population. Diese Streuung in der Population führt daher zu dem besagten Effekt, dass das gleiche Experiment mehrmals wiederholt zu unterschiedlichen Zufallsstichproben führt und dementsprechend immer zu unterschiedlichen Ergebnissen führt. Das Ergebnis ist inhärent variabel bzw. unsicher.
Daher ist eine der zentralen Aufgaben der Statistik, mit dieser Variabilität umzugehen und Forscher in die Lage zu versetzen, trotzdem rationale Entscheidungen zu treffen. Eine implizite Kernannahme dabei ist, dass wir mit Hilfe von Daten überhaupt etwas über die Welt lernen können. Das heißt, dass uns die Erhebung von Daten auch in die Lage versetzt, rationale Entscheidungen zu treffen. Entscheidungen wie ein spezialisiertes Krafttraining mit einer klinischen Population durchzuführen oder eine bestimmte taktische Variante mit meiner Mannschaft zu trainieren, um die Gegner besser auszuspielen. Alle diese Entscheidungen sollten rational vor dem Hintergrund von Variabilität und Unsicherheit getroffen werden und auch möglichst oft zu korrekten Entscheidungen führen. Wie wir sehen werden, kann uns die Statistik leider nicht garantieren, immer die korrekte Entscheidung zu treffen. Nochmals auf den Punkt gebracht nach Wild und Seber (2000, p.28):
The subject matter of statistics is the process of finding out more about the real world by collecting and then making sense of data.
Untersuchen wir jedoch zunächst das Phänomen weiter, dass Wiederholungen desselben Experiments zu unterschiedlichen Ergebnissen führen. In unserem Lummerlandbeispiel haben wir nämlich den Vorteil, dass uns die Wahrheit bekannt ist. Diesen Umstand können wir uns zunutze machen.
In Abbildung 8.6 ist die Verteilung unserer bisherigen drei
Die drei Werte liegen relativ weit auseinander. Eine Anschlussfrage könnte daher sein: “Welche weiteren Werte sind denn überhaupt mit der vorliegenden Population möglich?”.
8.2 Die Stichprobenverteilung
Wir können einfach mal das Experiment weiter wiederholen. In Abbildung 8.7 sind 15 verschiedene Stichproben abgetragen. Wir haben in jeder Zeile jeweils sechs TeilnehmerInnen gezogen. Drei für die Kontrollgruppe und drei für die Interventionsgruppe. Für jede dieser Zeilen können wir jeweils den Gruppenmittelwert berechnen und den Unterschied
Warum eigentlich bei 15 aufhören? Wir haben ja den Vorteil, dass unsere Population relativ übersichtlich ist. Vielleicht können wir uns ja noch aus unserer Schulzeit an Kombinatorik erinnern. Da haben wir den Binomialkoeffizienten kennengelernt. Die Anzahl der möglichen Kombinationen von
In unserem Fall wollen wir zunächst sechs Elemente aus
Das sind jetzt natürlich selbst bei dieser kleinen Population eine große Menge an einzelnen Experimenten, aber dafür sind Computer da: Die können all diese Experimente in kurzer Zeit durchführen. In Abbildung 8.8 ist die Verteilung aller möglichen Experimentausgänge, d.h. alle Differenzen
Auf der x-Achse sind die möglichen Differenzen
Definition 8.11 Die Stichprobenverteilung einer Statistik beschreibt die Verteilung der Statistik. Beispielsweise wenn die Statistik der Mittelwert
Abbildung 8.8 zeigt, dass die überwiegende Anzahl der Ausgänge tatsächlich auch im Bereich von
Die Darstellungsform von Abbildung 8.8 wird als Histogramm bezeichnet und eignet sich vor allem dazu, die Verteilung einer Variablen z.B.
Zum Beispiel für die Werte:
Die Form des Histogramms hängt davon ab, wie viele Intervalle verwendet werden. Die Auflösung wird mit mehr Intervallen besser, aber gleichzeitig verringert sich die Anzahl pro Intervall. Andersherum wird die Auflösung mit weniger Intervallen geringer, aber die Anzahl der Elemente pro Intervall wird größer und somit stabiler. Daher sollte in den meisten praktischen Fällen die Anzahl variiert werden, um sicherzugehen, dass nicht nur zufällig eine spezielle Darstellung gefunden wurde.
Zurück zu unserer Verteilung von
Die Verteilung in Abbildung 8.10 sieht praktisch genau gleich aus wie diejenige für
Daher bleibt die Form der Verteilung genau gleich und wird lediglich um den Wert
Als Zwischenfazit sollten wir jetzt verstanden haben, dass jede Statistik, die wir auf einer Stichprobe berechnen, inherent unsicher ist. In der Realität haben wir nicht nur die Variabilität aufgrund der Randomisierung, sondern auch viele andere Einflussgrößen, die das Ergebnis eines Experiments bei Wiederholungen beeinflussen können. Mithilfe der Statistik versuchen wir, die Unsicherheit zu quantifizieren, und lassen dies später in unsere Entscheidungsprozesse einfließen.
8.3 Unsicherheit in Lummerland
Spielen wir das Spiel mit den beiden Stichprobenverteilungen weiter. Gehen wir davon aus, dass nur eine dieser beiden Annahmen korrekt ist. Entweder ist die Intervention effektiv
In Abbildung 8.11 ist klar zu sehen, dass die beiden Graphen zu großen Teilen überlappen, und das auch noch in einem Bereich, in dem beide Ergebnisse ihre höchsten relativen Häufigkeiten haben, also auch die größte Wahrscheinlichkeit, unter den jeweiligen Annahmen aufzutreten. Unser Problem besteht darin, dass wir in der Realität nicht wissen, welchen Effekt unser Training auf die Stichprobe hat. Wenn wir dies wüssten, müssten wir das Experiment ja gar nicht durchführen. Normalerweise haben wir nur ein einziges Ergebnis, nämlich den Ausgang unseres einen Experiments.
Wenn wir jetzt unser Experiment einmal durchgeführt haben und ein einziges Ergebnis für
Die Methoden der Statistik liefern uns nun Werkzeuge an die Hand, um trotzdem rational zu entscheiden, welche der beiden Annahmen möglicherweise wahrscheinlicher ist. Gleichzeitig ermöglicht uns die Statistik, abzuschätzen bzw. zu berechnen, wie groß die Unsicherheit dieser Entscheidung ist. Die Statistik sagt dabei immer nur etwas über die beobachteten Daten aus, jedoch nichts über die zugrundeliegenden wissenschaftlichen Theorien.
8.4 Things to know
- Population
- (Zufalls-)Stichprobe
- Randomisierung
- Statistik
- Stichprobenverteilung
- Abhängige und unabhängige Variable