
24 Reliabilität
Diese Kapitel beschäftigt sich mit der Güte von Messinstrumenten. Trotzdem eigentlich ein zentrales Thema bei der Erhebung von Messdaten wird es in den meisten Fällen gar nicht betrachtet.
24.1 Genauigkeit versus Präzision
Die ersten beiden wichtigen Eigenschaften eines Messinstruments sind die Genauigkeit und die Präzision. Beide sind Eigenschaften sind zentrale zur Beurteilung der Qualität eines Messinstruments. Genauigkeit beschreibt, wie nahe eine Messung am tatsächlichen oder wahren Wert liegt. Ein Messinstrument mit hoher Genauigkeit liefert Werte, die nur eine geringe Abweichung vom realen Wert aufweisen. Präzision hingegen bezieht sich auf die Wiederholbarkeit von Messungen: Ein präzises Instrument liefert bei mehrfacher Messung ähnliche oder identische Werte, unabhängig davon, ob diese dem wahren Wert nahekommen. Ein Messinstrument kann also präzise, aber ungenau sein, wenn die Werte zwar eng beieinanderliegen, jedoch systematisch vom tatsächlichen Wert abweichen. Idealerweise sollte ein Messinstrument sowohl genau als auch präzise sein, um verlässliche Ergebnisse zu liefern.
In Abbildung 24.1 sind Präzision und Genauigkeit anhang einer Zielscheibe noch einmal verdeutlicht.

Bevor eine Messung durchgeführt werden soll, ist es daher notwendig über die Genauigkeit und die Präzision eines Messgeräts Bescheid zu wissen. In manchen Fällen kann beispielsweise eine geringere Genauigkeit eines Messgeräts weniger problematisch sein als eine geringere Präzision. Wenn zum Beispiel nur Unterschiede gemessen werden sollen, dass ist möglicherweise die absolute Genauigkeit weniger von Bedeutung da die Abweichungen vom realen Wert durch den Vergleich subtrahiert werden. Zum Beispiel wird eine Waage verwendet anhand derer die Veränderungen im Gewicht an Untersuchungspersonen über die Zeit verglichen werden sollen. Die Waage ist aber nicht korrekt geeicht und zeigt immer \(2\) Kg zu viel an. Dadurch ist natürlich der absolute, angezeigte Wert verfälscht. Werden aber die beobachteten Gewichte voneinander abgezogen, dann ist der Unterschied zwischen den Messzeitpunkten dennoch korrekt. Die Annahme ist dabei allerdings, dass sich die Genauigkeit über den Beobachtungszeitung nicht verändert. Diese Eigenschaft kann mit Hilfe der Reliabilität untersucht werden.
24.2 Reliabilität?
In Tabelle 24.1 sind EMG-Daten aus (lijequist2019?) abgetragen.
Subject | Day 1 | Day 2 | Day 3 |
---|---|---|---|
1 | 59.9 | 67.7 | 72.2 |
2 | 62.9 | 66.5 | 67.9 |
3 | 58.9 | 50.1 | 47.9 |
4 | 46.8 | 50.0 | 53.9 |
5 | 62.5 | 67.8 | 62.6 |
6 | 44.8 | 42.7 | 48.4 |
7 | 57.3 | 49.6 | 48.0 |
8 | 49.0 | 45.2 | 57.5 |
9 | 43.5 | 41.5 | 47.4 |
10 | 39.2 | 50.9 | 56.3 |
Es wurden insgesamt \(N = 10\) Personen an drei Tagen jeweils an der gleichen Stelle an der Rückenmuskulatur gemessen um abzuschätzen wie ähnlich die Messungen sind. In Abbildung 24.2 sind die Daten graphisch dargestellt.

Wie in Abbildung 24.2 zu sehen ist, schwanken die Werte über die drei Messzeitpunkte. Einmal innerhalb der Personen sind Unterschied zu erkennen, aber auch die Mittelwerte verändern sich über die Messzeitpunkte. D.h. die gewählte Messmethodik weist selbst schon Schwankungen auf. Die Schwankungen müssen aber bei der Erstellung eines Untersuchungsdesigns berücksichtigt werden. Sollen beispielsweise Unterschiede zwischen zwei Gruppen mit Hilfe dieser Messmethodik untersucht werden, die zu erwartenden Unterschiede bewegen sich in der Größenordnung der Schwankungen oder liegen vielleicht sogar darunter, dann wird es sehr schwierig bis unmöglich diese Unterschiede im Experiment nachweisen zu können. Diese ungewollten Schwankungen sind einer Funktion der Reliabilität der Messmethodik. Ohne eine Kenntnis der Reliabilität einer Methodik ist tatsächlich die Durchführung einer experimentellen Untersuchung immer ein Stück weit Kaffeesatzlesen.
24.3 Reliabilität - Modell
Um sich der Reliabilität inhaltlich zu nähern ist zunächst die Erstellung eines theoretischen Modells erforderlich. Soll ein Wert bestimmt werden, der die Eigenschaft eines Objekts beschreibt, dann ist eine plausible Annahme das es einen wahren Wert gibt. Zum Beispiel ist direkt einsichtig, dass ein gegebener Holzstab eine bestimmte Länge hat. Oder eine Hantelscheibe hat ein bestimmtes Gewicht. Solange keine Manipulation an der Scheibe durchgeführt wird, sollte sich dieses Gewicht nicht ändern. Diesen Wert soll nun als true-score bezeichnet werden und er erhält das Zeichen \(\tau\). Während \(\tau\) für eine Hantelscheibe noch relativ direkt einsichtig ist, ist dies nicht mehr ganz so einfach sobald biologische Objekte ins Spiel kommen. Soll beispielsweise die Körpergröße einer Person bestimmt werden, dann ist klar das die Körpergröße keine feststehende Größe ist, sondern im Verlauf eines Tages einer Schwankung unterliegt (Tyrrell, Reilly, und Troup 1985). In Abbildung 24.3 ist beispielsweise die Veränderung über einen Tag abgetragen.

Es soll nun aber davon ausgegangen werden das der wahre Wert \(\tau\) wohldefiniert ist. Dann besteht aber nach wie vor das Problem, selbst bei der Hantelscheibe, dass dieser Wert mit Hilfe eines Messmethodik bestimmt werden muss. Zum Beispiel im Fall der Hantelscheibe muss eine Waage verändert werden um das Gewicht zu bestimmen. Diese Waage ist aber selbst unweigerlich mit Messfehlern behaftet. Vielleicht ist bei der Eichung was schief gegangen, vielleicht ist die Feder mit Zeit ausgeleiert, oder die Umgebungstemperatur entspricht nicht den Vorgaben usw. und sofort. Das führt dazu, dass der gemessene Wert nicht gleich dem wahren Wert \(\tau\) entspricht. Um den gemessenen Wert vom wahren Wert zu unterscheiden wird ein weiteres Symbol \(Y\) verwendet. \(Y\) ist dementsprechend der beobachtete Wert. Die Messfehler werden weiterhin mit dem Symbol \(\epsilon\) bezeichnet. Dies führt insgesamt zu folgendem Modell:
\[\begin{equation} Y = \tau + \epsilon \end{equation}\]
D.h. der beobachtete Wert \(Y\) setzt sich zusammen aus dem wahren Wert \(\tau\) und dem Messfehler \(\epsilon\) der additiv wirkt. Eine weitere Annahme soll nun dahin gehend bestehen, die Messfehler zufällig sind und bei wiederholter Messung im Mittel gleich \(0\) sind. Formal ist der Erwartungswert \(E[\epsilon_0] = 0\) und es besteht keine Zusammenhang zwischen der Größe des Messfehlers und der Größe von \(\tau\). Beispielsweise bei der Messung der Körpergröße verändert sich die Größe des Messfehlers nicht mit der Größer der Probandinnen sondern bleibt konstant. Formal führt dies zu \(\text{Cov}(\epsilon,\tau) = 0\).
Werden nun mehrere bzw. \(N\) Messungen durchgeführt dann wird entsprechend nur ein einzelner Wert beobachtet sondern eine Menge von Werten. Um diese zu unterschieden wird entsprechend ein Index \(i\) eingeführt.
\[\begin{equation} Y_i = \tau_i + \epsilon_i, \quad i \in [1,\ldots,N] \end{equation}\]
Sobald nun mehrere Werte zur Verfügung stehen, kann für diese beobachteten Wert \(Y_i\) eine Varianz berechnet werden und, zumindest theoretisch, auch eine Varianz für die \(\tau_i\)s berechnet werden. Dies ermöglicht nun eine formale Definition der Reliabilität zu erhalten.
Definition 24.1 (Reliabilität - Definition) Die Reliabilität ist definiert als das Verhältnis der Varianz der True-Score-Variablen \(\sigma_{\tau}\) zur Gesamtvarianz der Testvariablen \(\sigma_{Y}\). (Moosbrugger und Kelava 2020, p.282)
\[\begin{equation} \text{Rel} = \frac{\sigma_{\tau}^2}{\sigma_{Y}^2} = \frac{\sigma_{\tau}^2}{\sigma_{\tau}^2+\sigma_{\epsilon}^2} \end{equation}\]
Der Wertebereich der Reliabilität liegt in \(\text{Rel} \in [0,1]\) wobei eine Wert \(0\) gar keine Reliabilität anzeigt, während ein Wert von \(\text{Rel} = 1\) auf eine perfekte Reliabilität hindeutet.
Für die Interpretation der Reliabilität hat sich in der Literatur eine Kategorisierung entlang der Wert in Tabelle 24.2 etabliert.
Bereich | Interpretation |
---|---|
\(<0.5\) | poor |
\(0.5-0.75\) | moderate |
\(0.75-0.9\) | good |
\(>0.9\) | excellent |
24.4 Reliabilität - Terminologie1
24.4.1 Relative reliability (Consistency)
Degree to which people maintain their position (rank)
- internal consistency reliability: within day
- stability reliability: between days
- rater reliability (objectivity): between raters
24.4.2 Absolute reliability (Agreement)
Degree to which people’s score do not change in magnitude or value
24.5 Intraclass correlation coefficient
\[\begin{equation*} ICC = \frac{\text{variance of interest}}{\text{variance of interest} + \text{unwanted variance}} \end{equation*}\]
24.6 Data model
Subject | Judge 1 | Judge 2 | \(\cdots\) | Judge k | Mean |
---|---|---|---|---|---|
1 | \(x_{11}\) | \(x_{12}\) | \(\cdots\) | \(x_{1k}\) | \(S_1\) |
2 | \(x_{21}\) | \(x_{22}\) | \(\cdots\) | \(x_{2k}\) | \(S_1\) |
\(\vdots\) | \(\vdots\) | \(\vdots\) | \(\vdots\) | \(\vdots\) | |
n | \(x_{n1}\) | \(x_{n2}\) | \(\cdots\) | \(x_{nk}\) | \(S_n\) |
Mean | \(M_1\) | \(M_2\) | \(\cdots\) | \(M_k\) | \(\bar{x}\) |
24.7 Varianzkomponenten
Ansatz: Die Gesamtvarianz in verschiedene Komponenten aufspalten (ANOVA)
Modell: \[\begin{align*} x_{ij} &= \mu + r_i + c_j + e_{ij} \\ r_i &\sim \mathcal{N}(0,\sigma_r) \\ c_j &\sim \mathcal{N}(0,\sigma_c) \\ e_{ij} &\sim \mathcal{N}(0,\sigma_e) \end{align*}\]
24.8 Berechnung der Varianzkomponenten2
SSQ | Bezeichnung | Berechnung | MSQ |
---|---|---|---|
SST | Total | \(\sum_{i=1}^n\sum_{j=1}^k (x_{ij} - \bar{x})^2\) | \(\frac{SST}{n\cdot k-1}\) |
SSBS | Between Subject | \(\sum_{i=1}^n\sum_{j=1}^k (S_i - \bar{x})^2\) | \(\frac{SSBS}{n-1}\) |
SSBM | Between Measurement | \(\sum_{i=1}^n\sum_{j=1}^k (M_j - \bar{x})^2\) | \(\frac{SSBM}{k-1}\) |
SSWS | Within Subject | \(\sum_{i=1}^n\sum_{j=1}^k (x_{ij} - S_i)^2\) | \(\frac{SSWS}{n\cdot(k-1)}\) |
SSWM | Within Measurements | \(\sum_{i=1}^n\sum_{j=1}^k (x_{ij} - M_j)^2\) | \(\frac{SST}{k\cdot (n-1)}\) |
\(SSE = SST - SSBS - SSBM\) Error \(MSE = \frac{SSE}{(n-1)\cdot (k-1)}\)
24.9 Intraclass Correlation - Modelle
24.10 Intraclass Correlation - Modelle
Bezeichnung | Modell | Expected Mean Squares |
---|---|---|
Model 1 | \(x_{ij} = \mu + \underbrace{r_i + e_{ij}}_{\text{zufällig}}\) | \(MSBM \approx \sigma_e^2\) |
Model 2 | \(x_{ij} = \mu + \underbrace{r_i + \overbrace{c_j}^{bias} + e_{ij}}_{\text{zufällig}}\) | \(MSBM \approx n\cdot \sigma_c^2 + \sigma_e^2\) |
Model 3 | \(x_{ij} = \mu + \underbrace{r_i}_{\text{zufällig}} + \overbrace{c_j}^{\text{fixed}} + \underbrace{e_{ij}}_{\text{zufällig}}\) | \(MSBM \approx n\cdot \theta_c^2 + \sigma_e^2\) |
24.11 Intraclass Correlation \(\rho_1\)
24.11.1 Model 1 ICC(1)
\[\begin{equation*} \rho_1 = \frac{\sigma_r^2}{\sigma_r^2+\sigma_e^2} \end{equation*}\]
\[\begin{equation*} ICC(1) = \frac{MSBS - MSWS}{MSBS + (k-1)MSWS} \end{equation*}\]
24.12 Intraclass Correlation \(\rho_2\) Modell 2
24.12.1 Model 2 ICC(A,1) Absolute
\[\begin{align*} \rho_{2A} &= \frac{\sigma_r^2}{\sigma_r^2+\sigma_c^2 + \sigma_e^2} \\ ICC(A,1) &= \frac{MSBS - MSE}{MSBS + (k-1)MSE + \frac{k}{n}(MSBM-MSE)} \end{align*}\]
24.12.2 Model 2 ICC(C,1) Consistency
\[\begin{align*} \rho_{2C} &= \frac{\sigma_r^2}{\sigma_r^2 + \sigma_e^2} \\ ICC(C,1) &= \frac{MSBS - MSE}{MSBS + (k-1)MSE} \end{align*}\]
24.13 Intraclass Correlation \(\rho_3\) Model 3
24.13.1 ICC(A,1) Absolute
\[\begin{align*} \rho_{3A} &= \frac{\sigma_r^2}{\sigma_r^2 + \theta_c^2 + \sigma_e^2} \\ ICC(A,1) &= \frac{MSBS - MSE}{MSBS + (k-1)MSE + \frac{k}{n}(MSBM-MSE)} \end{align*}\]
24.13.2 ICC(C,1) Consistency
\[\begin{align*} \rho_{3C} &= \frac{\sigma_r^2}{\sigma_r^2 + \sigma_e^2} \\ ICC(C,1) &= \frac{MSBS - MSE}{MSBS + (k-1)MSE} \end{align*}\]
24.14 ICC - Übersicht
24.15 Intraclass Correlation in R
<- psych::ICC(lil[,-1])
icc_hat icc_hat
Call: psych::ICC(x = lil[, -1])
Intraclass correlation coefficients
type ICC F df1 df2 p lower bound upper bound
Single_raters_absolute ICC1 0.71 8.2 9 20 5e-05 0.39 0.91
Single_random_raters ICC2 0.71 8.7 9 18 6e-05 0.39 0.91
Single_fixed_raters ICC3 0.72 8.7 9 18 6e-05 0.40 0.91
Average_raters_absolute ICC1k 0.88 8.2 9 20 5e-05 0.65 0.97
Average_random_raters ICC2k 0.88 8.7 9 18 6e-05 0.66 0.97
Average_fixed_raters ICC3k 0.89 8.7 9 18 6e-05 0.66 0.97
Number of subjects = 10 Number of Judges = 3
See the help file for a discussion of the other 4 McGraw and Wong estimates,
24.16 Spearman-Brown prophecy formula
\[ \rho_{xx'}^* = \frac{K \cdot \rho_{xx'}}{1 + (K-1) \cdot \rho_{xx'}} \]
24.17 Beispiel aus Guyatt, Walter, und Norman (1987)
subject | instrument | time_1 | time_2 | treatment | time_3 |
---|---|---|---|---|---|
s_1 | A | 8 | 9 | trt | 15 |
s_2 | A | 9 | 8 | trt | 15 |
s_3 | A | 8 | 9 | trt | 15 |
s_4 | A | 9 | 8 | trt | 15 |
s_5 | A | 8 | 9 | con | 8 |
s_6 | A | 9 | 8 | con | 9 |
s_7 | A | 8 | 9 | con | 8 |
s_8 | A | 9 | 8 | con | 9 |
s_1 | B | 5 | 5 | trt | 5 |
s_2 | B | 9 | 9 | trt | 9 |
s_3 | B | 13 | 13 | trt | 13 |
s_4 | B | 17 | 17 | trt | 17 |
s_5 | B | 5 | 5 | con | 5 |
s_6 | B | 9 | 9 | con | 9 |
s_7 | B | 13 | 13 | con | 13 |
s_8 | B | 17 | 17 | con | 17 |
24.18 Agreement versus Reliability Vet u. a. (2006)
24.18.1 Agreement
How close are repeated measurements?
24.18.2 Reliability
How good can patients be distinguished?
24.19 Standard Error of Measurement
\[\begin{align*} SEM &= \sqrt{\sigma_{error}} \\ SEM_1 &= s_y \sqrt{1 - ICC} \\ SEM_H &= \frac{s_{d_i}}{\sqrt{2}} \end{align*}\]4
24.20 Limits of Agreement \(\text{loa} = \bar{d}\pm 1.96\ s_d\) 5
24.21 Konfidenzintervalle Limits of agreement
24.21.1 Konfidenzintervall bias
\[ CI95\%_{\text{bias}} = \bar{d} \pm 1.96\frac{s_d}{\sqrt{n}} \]
24.21.2 Konfidenzintervall loa
\[\begin{align*} \text{loa} &= \bar{d}\pm 1.96\ s_d \\ Var(\bar{d}\pm1.96\ s_d) &= \left(\frac{1}{n}+\frac{1.96^2}{2(n-1)}\right)s_d^2\approx1.71^2\frac{s_d^2}{n} \\ CI95\%_{\text{loa}} &= \text{loa}\pm q_{t,\alpha,df=n-1}\times 1.71\frac{s_d}{\sqrt{n}} \end{align*}\] 6
24.22 Konfidenzintervalle Limits of agreement
24.23 Smallest Worthwhile Change (SWC)
24.24 Analytical goal
24.25 Zum Nacharbeiten
24.25.1 Übersicht
24.25.2 Limits of agreement
24.25.3 Analytical goal
Brown und O’Donoghue (2007), Atkinson und Nevill (1998), Fraser, Hyltoft Peterson, und Larsen (1990)
24.25.4 SEM
Denegar und Ball (1993)