| \(i\) | \(x_i\) |
|---|---|
| 1 | 10 |
| 2 | 20 |
| 3 | 30 |
| 4 | 35 |
| 5 | 40 |
Anhang A — Mathematische Grundlagen
A.1 Rechenregeln basics
Hier eine kurze Wiederholung der üblichen Rechenregeln, die aus der Schule bekannt sein sollten. Dies sind einmal die Klammer vor Punkt vor Strich Regel
\[\begin{align*} 1 + 3 \times 2 &= 7 \\ 7 + 12 / 4 &= 10 \\ (3 + 7) / 5 + 1 &= 3 \end{align*}\]
Und das Distributivgesetz zum ausmultiplizieren bzw. zusammenfassen von Klammern.
\[\begin{align*} a \times (b + c) &= a\times b + a\times c \\ 2 \times (3 + 4) &= 2 \times 3 + 2 \times 4 \\ 10 a + a b &= a (10 + b) \end{align*}\]
Was auch noch bekannt sein sollte, sind die Binomischen Formeln.
\[\begin{align*} (a+b)^2 &= a^2 + 2ab + b^2 \\ (a-b)^2 &= a^2 - 2ab + b^2 \\ (a+b)(a-b) &= a^2 - b^2 \end{align*}\]
Ein immer wiederkehrender Operator in der Statistik ist das Summenzeichen \(\sum\). Das Summenzeichen hat üblicherweise einen Laufindex der unter dem Summenzeichen steht zusammen mit einem Anfangswert. Über dem Summenzeichen steht der Endwert für den Laufindex. Für den Laufindex werden meistens die Buchstaben \(i,j,k\) verwendet. Dies ist aber keine feste Regel sondern, wie immer in der Mathematik ist jeder Buchstabe ist möglich da der Buchstabe nur ein Platzhalter ist. Für jeden Wert des Laufindex wird ein Summand erstellt. Zum Beispiel.
\[\begin{equation*} \sum_{i=0}^{2} i = (i=0) + (i=1) + (i=2) = 0 + 1 + 2 = 6 \end{equation*}\]
Hier ist der Laufindex \(i\) mit dem Startwert \(i=0\) und dem Endwert \(i=2\). Die Index durchläuft alle Ganzzahlen zwischen dem Start- und dem Endwert. In den meisten Fällen wird der Laufindex nicht direkt in den Summanden geschrieben sondern es wird ein bestimmte Menge von weiteren Werten damit indiziert. Sei zum Beispiel eine Menge von sechs Datenpunkte z.B. \(\{10, 20, 30, 35, 40\}\) gegeben. Dann könnten diese Datenpunkte mittels einer Variablen beispielsweise dem Buchstaben \(x\) repräsentiert werden und die einzelnen Werte mit Hilfe eines Laufindexes bestimmt werden (siehe Tabelle A.1).
Soll nun über alle Datenpunkte summiert werden dann kann dies wie folgt mittels des Zusammenzeichen dargestellt werden.
\[\begin{equation*} \sum_{i=1}^5 x_i = 10 + 20 + 30 + 35 + 40 = 135 \end{equation*}\]
Für das Summenzeichen gelten, es sich letztendlich nur um Addition handelt, die gleichen Regeln wie bei der einfachen Summation. Dementsprechend ergeben sich die folgenden Regeln:
\[\begin{align} \sum_{i=0}^{n}(a_i+b_i) &= \sum_{i=0}^{n}a_i + \sum_{i=0}^{n}b_i \\ \sum_{i=0}^{n}a \times b_i &= a\sum_{i=0}^{n}b_i \label{eqn:asum} \\ \sum_{k=1}^{n} \frac{a_k}{n} &= \frac{1}{n}\sum_{k=1}^{n} a_i = \frac{1}{n}(a_1 + a_2 + \ldots + a_n) \\ \sum_{i=1}^{n} a &= a + a + \ldots + a = n \times a \label{eqn:consum} \end{align}\]
Neben dem Summenzeichen, kommt auch immer wieder mal das Produktzeichen \(\prod\) zur Anwendung. Wie der Name schon vermuten lässt, wird bei dem Produktzeichen die Addition durch die Multiplikation ersetzt.
\[\begin{equation} \prod_{i=0}^n x_i = x_1 \times x_2 \times \cdots \times x_n \end{equation}\]
Wieder angewendet auf eine Menge von Datenpunkte \(\{1,2,3\}\) könnte das Produkt der Zahlen wie folgt dargestellt werden.
\[\begin{equation*} \prod_{i=1}^3 x_i = 1 \cdot 2 \cdot 3 = 6 \end{equation*}\]
Für das Produkt ergeben sich auch wieder ein paar Rechenregeln:
\[\begin{equation*} \prod_{i=0}^n a \cdot x_i = a \prod_{i=0}^n x_i \end{equation*}\]
A.2 Funktionen
A.2.1 Lineare Funktion
Der einfachste Typ von Funktion nach den konstanten Funktion \(f(x) = a\) ist die Gerade bzw. lineare Funktion. Die Funktion der Gerade setzt sich aus einem \(y\)-Achsenabschnitt \(a\) und einer Steigung \(b\) zusammen.
\[\begin{equation} y = a + bx \end{equation}\]
Aus der Schule dürfte dies als Punkt-Steigungsform (vielleicht in der Form \(y = mx + b\)) bekannt sein. Bei einer positiven (negativen) Steigung (\(a > 0\)) steigen (fallen) die \(y\)-Werte gegen \(\infty\) (\(-\infty\)) wenn die \(x\)-Werte gegen \(\infty\) (\(-\infty\)) gehen. In Abbildung A.1 ist der Graph der Funktion \(y = 3x + 1\) abgetragen.
In Abbildung A.1 ist zu erkennen, dass auf Grund der positiven Steigung \(b = 3\) die \(y\)-Werte größer werden, umso größer die \(x\)-Werte werden. Der Zuwachs der \(y\)-Werte ist dabei konstant. Wenn \(x\) um eine Einheit vergrößert wird, dann vergrößert sich \(y\) um \(3\) Einheiten.
Die Gerade kann als eine Funktion angesehen welche \(x\)-Werte auf \(y\)-Werte abbildet. \(y = a + bx\) kann daher auch als \(f(x) = a + bx\) interpretiert werden. Bzw. im konkreten Fall von Abbildung A.1 als \(f(x) = 3x + 1\). D.h. wenn ich einen \(x\)-Wert in die Funktion \(f(x)\) einsetzte, wird der entsprechenden \(y\)-Wert erhalten, z.B. \(f(2) = 3 \times 2 + 1 = 7\).
A.2.2 Polynome
Ein Polynom ist ein mathematischer Ausdruck, der aus einer Summe von mehreren Termen besteht, wobei jeder Term aus einer Konstanten (dem Koeffizienten) und einer oder mehreren Variablen, die mit einer Potenz versehen sind, besteht. Ein Beispiel ist die Funktion:
\[\begin{equation*} 3x^2 + 2x - 5 \end{equation*}\]
Die höchste Potenz der Variable bestimmt den Grad des Polynoms; in diesem Fall ist der Grad 2, da \(x^2\) die höchste Potenz ist. Polynome der ersten drei Grade haben eigene Bezeichnungen.
- Lineares Polynom: Ein Polynom vom Grad 1, z.B. \(2x + 3\). Der Graph ist immer eine Gerade und daher ist eine lineare Funktion auch ein Polynom 1. Grades.
- Quadratisches Polynom: Ein Polynom vom Grad 2, z.B. \(x^2 - 4x + 4\). Der Graph ist eine Parabel.
- Kubisches Polynom: Ein Polynom vom Grad 3, z.B. \(x^3 + x - 6\). Der Graph hat eine geschwungene Form mit möglichen Wendepunkten.
Mit Hilfe des Summenzeichens lässt sich ein Polynom ebenfalls kurz darstellen.
\[\begin{equation*} \prod_{i=0}^n a_i x^i = a_0 + a_1 \cdot x + a_2 \cdot x^2 + \cdots + \end{equation*}\]
Im Zusammenhang mit dem Lösen von quadratischen Gleichung sollte noch die p-q-Formel geläufig sein. Wenn eine Gleichung der Form \(x^2 + p\cdot x q = 0\), also ein Polynom zweiten Gerades gelöst werden soll, dann kann diese relativ simple über die p-q-Formel durchgeführt werden.
\[ x_{1,2} = -\frac{p}{2}\pm\sqrt{\left(\frac{p}{2}\right)^2-q} \tag{A.1}\]
Der Term unter der Wurzel wird als die Diskriminante bezeichnet und es können drei Fälle unterschieden werden.
\[ \left(\frac{p}{2}\right)^2-q = \begin{cases} > 0: \text{zwei Lösungen} \\ =0: \text{eine Lösung} \\ < 0: \text{keine reele Lösung} \end{cases} \]
Beispiel A.1 Es soll die folgende Gleichung gelöst werden:
\[ x^2 + 4x + 3 = 0 \Rightarrow p=4, q=3 \] Mit \(p = 4\) und \(q=3\) folgt durch einsetzen in Gleichung A.1:
\[ x_{1,2} = -\frac{4}{2}\pm\sqrt{\left(\frac{4}{2}\right)^2-3} = -2 \pm 1 \]
Manchmal kann auch ein Trick angewendet werden um eine Lösung mittels einer Quadratischen Ergänzung zu erhalten. Sei Beispielsweise das folgende Polynom gegeben und von Interesse ist der Scheitelpunkt des Graphen.
\[ f(x) = x^2 + 6x + 5 \]
Die ersten beiden Terme \(x^2 + 6x\) sehen in etwa so aus, wie ein Teil der binomischen Formel. Der Term \(3x\) wäre dementsprechend der Teil \(+2ab\) während \(x^2\) der Term \(a^2\) wäre woraus folgt das \(a=x\) ist. D.h. es fehlt jetzt noch der Wert für \(b\). Mit \(a=x\) folgt jedoch:
\[ 6x = 2ab = 2xb \]
Daraus lässt sich nun wieder ablesen, dass \(b = 3\) sein muss. Um nun die binomische Formel mittels quadratischer Ergänzung zu vervollständigen fehlt in der Ursprungsformel Formel \(x^2 + 6x + 5\) der Term \(b^2 = 9\). Dazu wird nun \(0\) in der Form \(+9 - 9\) zu der Formel hinzugefügt.
\[ x^2 + 6x + 9 - 9 + 5 = x^2 + 6x + 9 - 4 \]
Die ersten drei Terme können nun mittels der binomischen Formel zusammengefasst werden.
\[ x^2 + 6x + 9 - 4 = (x+3)^2-4 \] Damit liegt der Scheitelpunkt der Parabel bei \((-3,-4)\).
Die quadratische Ergänzung findet immer wieder im Zusammenhang mit der Normalverteilung eine Anwendung, wenn der Term im Exponent auf die Standardform gebracht werden muss.
A.2.3 Exponentialfunktion
Eine Exponentialfunktion ist eine mathematische Funktion der Form:
\[\begin{equation*} f(x) = a \cdot b^x \end{equation*}\]
Der Term \(a\) ist eine Konstante während \(b\) als Basis bezeichnet wird. Die Basis \(b\) ist eine positive Zahl, die größer als null ist und bestimmt, wie schnell die Funktion wächst oder abnimmt. Wenn \(b>1\) gilt, dann wächst die Funktion exponentiell, was bedeutet, dass die Funktion immer schneller ansteigt. Wenn \(0< b<1\), sinkt die Funktion exponentiell, was bedeutet, dass die Funktion immer langsamer abnimmt.
Exponentialfunktionen werden oft verwendet, um Wachstum oder Zerfall zu beschreiben, wie z. B. das Wachstum einer Bakterienkultur, das Bevölkerungswachstum oder den radioaktiven Zerfall. Ein charakteristisches Merkmal von Exponentialfunktionen ist, dass sich der Wert bei einem festen Abstand auf der x-Achse immer um den gleichen Faktor ändert, was zu einem sehr schnellen Anstieg oder Abfall führen kann. Bei Beispiel für eine exponentiellen Funktion könnte z.B. \(f(x) = 2 \cdot 4^x\) sein.
Eine zentrale Rolle in der Statistik, wie auch in der restlichen Mathematik, spielt die Exponentialfunktion zur Basis \(e\), die als natürliche Exponentialfunktion bezeichnet wird. \(e\) ist die Euler’sche Zahl und hat ungefähr den Wert \(e \approx 2,718\). In der Statistik kommt die natürliche Exponentialfunktion oft in der folgenden Form vor:
\[ f(x) = a \cdot e^{bx} \] Hierbei ist \(a\) der Wert den Funktion für \(x=0\), der y-Achsenabschnitt, einnimmt, während die Konstante \(b\) die Steigung verändert. In Abbildung A.5 sind verschiedene natürliche Exponentialfunktionen abgetragen.
Für die Exponentialfunktion gelten die folgenden Rechenregeln:
\[\begin{align*} a^m \cdot a^n &= a^{m+n} \\ \frac{a^m}{a^n} &= a^{m-n}, \quad (a \neq 0) \\ (a^m)^n &= a^{m \cdot n} \\ (a \cdot b)^n &= a^n \cdot b^n \\ \left(\frac{a}{b}\right)^n &= \frac{a^n}{b^n}, \quad (b \neq 0) \\ a^0 &= 1, \quad (a \neq 0) \\ a^{-n} &= \frac{1}{a^n}, \quad (a \neq 0) \\ a^1 &= a \end{align*}\]
Eine Exponentialfunktion \(f(x) = a \cdot b^x\) mit \(a>0\) und Basis \(b>1\) ist streng monoton wachsend.
\[ x_1 < x_2 \Rightarrow a\cdot b^{x_1} < a\cdot b^{x_2} \]
Für \(0<b<1\) ist die Funktion streng monoton fallend, während sie für \(b=1\) konstant ist.
A.2.4 Logarithmus
Die Umkehrfunktion zur Exponentialfunktion ist der Logarithmus. Die Logarithmusfunktion ist insbesondere im Zusammenhang mit dem Maximum-Likelihood Prinzip in der Statistik von großer Bedeutung.
Der Logarithmus einer positiven Zahl \(x\) zur Basis \(b>0\), \(b \neq 1\), ist diejenige Zahl \(y\), für die gilt:
\[ \log_b(x) = y \quad \Longleftrightarrow \quad b^y = x. \]
Dies bedeutet, dass der Logarithmus angibt, zu welcher Potenz die Basis \(b\) erhebt werden muss, um den Wert von \(x\) zu erhalten. In der Statistik wird meist der natürliche Logarithmus verwendet, der Logarithmus zur Basis \(e \approx 2{,}718\), der mit \(\log(x)\) oder \(\ln(x)\) bezeichnet wird. Der natürliche Logarithmus ist die Umkehrfunktion zur natürlichen Exponentialfunktion \(f(x) = e^x\). Es gilt.
\[ \log(e^x) = x \]
Der Graph des natürlichen Logarithmus \(\log(x)\) sieht wie folgt aus (siehe Abbildung A.6).
Für das Argument \(x\) der Logarithmusfunktion gilt, dass \(x>0\) sein muss, d.h. die Logarithmusfunktion ist auf \(\mathbb{R}^+\) definiert. Der Logarithmus ist ebenfalls für \(b>1\) eine streng monoton wachsende Funktion Funktion, d.h. es gilt:
\[ x_1 < x_2 \Rightarrow \log_b(x_1) < \log_b(x_2). \]
Für die Logarithmusfunktion gelten die folgenden Rechenregeln.
\[\begin{align*} \log_b (x \cdot y) &= \log_b (x) + \log_b (y) \\ \log_b \left(\frac{x}{y}\right) &= \log_b (x) - \log_b (y) \\ \log_b (x^n) &= n \cdot \log_b (x) \\ \log_b (1) &= 0 \end{align*}\]
Insbesondere die erste Rechenregel die aus einer Multiplikation eine Addition macht, wird in der Statistik als Trick zur Vereinfachungen von Berechnungen relativ oft eingesetzt.
Beispiel A.2 Sei zum Beispiel das Produkt aus drei Zahlen \(x_1\), \(x_2\) und \(x_3\) gegeben.
\[\begin{equation*} \prod_{i=1}^3 x_i = x_1 \cdot x_2 \cdot x_3 \end{equation*}\]
Dann kann aus der Multiplikation eine Addition gemacht werden, indem auf das Produkt der Logarithmus angewendet wird. .
\[ \log\left(\prod_{i=1}^3 x_i \right) = \log(x_1 \cdot x_2 \cdot x_3) \]
Unter der Anwendung der Rechenregeln folgt nämlich:
\[ \log(x_1 \cdot x_2 \cdot x_3) = \log(x_1) + \log(x_2) + \log(x_3) \]
D.h. aus der Multiplikation ist eine Addition geworden.
A.3 Ableitung
In der Schule haben Ableitungen kennengelernt. Zur Erinnerung, die Ableitung einer Funktion \(y = f(x)\) beschreibt, wie stark sich der Funktionswert \(y\) ändert, wenn der Eingabewert \(x\) um einen kleinen Betrag \(h\) verändert wird. Genauer gesagt misst die Ableitung die momentane Änderungsrate der Funktion \(f(x)\) an einer bestimmten Stelle \(x\). Formal schreibt man für die Ableitung \(f'(x)\) der Funktion \(f(x)\) an der Stelle \(x\):
\[ \frac{d f(x)}{dx} = \lim_{h \to 0} \frac{f(x+h) - f(x)}{h} \tag{A.2}\]
Für die Ableitung wird auch die Kurzschreibweise \(\frac{d f(x)}{dx} = f'(x)\). Die Ableitung \(f'(x)\) beantwortet die Frage, wie stark ändert sich \(f(x)\), wenn man ein winzig kleines Stück \(h\) weitergeht. Das Stück \(h\) lässt man immer kleiner werden \(\lim_{h to 0}\). So erhält man die Steigung der Tangente an die Kurve von \(f(x)\) im Punkt \(x\). Hier zur Erinnerung noch mal ein Übersicht über die wichtigsten Ableitungsregeln für Polynome.
| Art | Regel | Beispiel |
|---|---|---|
| Potenz von \(x\) | \(\frac{d}{dx} \left( x^n \right) = n x^{n-1}\) | \(\frac{d}{dx} \left( x^5 \right) = 5x^4\) |
| Konstante | \(\frac{d}{dx}(c) = 0\) | \(\frac{d}{dx}(7) = 0\) |
| konstanter Faktor | \(\frac{d}{dx} \left( c \cdot f(x) \right) = c \cdot f'(x)\) | \(\frac{d}{dx} \left( 3x^4 \right) = 3 \cdot 4x^3 = 12x^3\) |
| Summe | \(\frac{d}{dx} \left( f(x) + g(x) \right) = f'(x) + g'(x)\) | \(\frac{d}{dx} \left( x^3 + 2x \right) = 3x^2 + 2\) |
Allgemein folgt aus diesen Regeln für ein Polynom vom Grad \(n\):
\[ f(x) = a_n x^n + a_{n-1} x^{n-1} + \dots + a_1 x + a_0 \]
gilt:
\[ f'(x) = n a_n x^{n-1} + (n-1)a_{n-1} x^{n-2} + \dots + a_1 \]
Sei zum Beispiel die Funktion \(y = f(x) = x^2\) gegeben und es soll die Steigung der Parabel im Punkt \(x = 1\) berechnet werden. Aus der Ableitungsregel für die Potenz folgt \(f'(x) = \frac{d x^2}{dx} = 2x\). Somit ergibt sich für die Ableitung im Punkt \(x = 1\) für die Ableitung und die Steigung in \(x\) der Wert \(f'(2) = 2 \cdot 2 = 4\). In Abbildung A.7 ist die Ableitung als die Tangente an \(f(x)\) im Punkt \(x = 1\) abgetragen.
Eine Regel die in der Statistik immer wieder zur Anwendung kommt, ist die sogenannte Kettenregel, wenn zwei Funktionen ineinander verschachtelt sind. Sei zum Beispiel die Funktionen \(h(x) = x^2\) und \(g(x) = \frac{1}{x}\) gegeben. Dann kann eine neue Funktion gebildet werden, indem die Funktion \(h(g(x))\) gebildet wird. Im Beispiel würde dies bedeuten:
\[ h(g(x)) = h\left(\frac{1}{x}\right) = \left(\frac{1}{x}\right)^2 \]
Dieser Funktion kann ein neues Symbol, zum Beispiel \(f(x)\), gegeben werden:
\[ f(x) = \left(\frac{1}{x}\right)^2 \]
Wenn nun die Funktion \(f(x)\) nach \(x\) abgeleitet werden soll, dann wird dazu die Kettenregel angewendet, wörtlich aus der Schule “äußere Ableitung mal innere Ableitung”.
\[ \frac{d}{dx} , g(h(x)) = g'(h(x)) \cdot h'(x) \]
Beispiel A.3 (Ableitung von \(f(x) = (x^2 + 1)^3\)) Sei \(f(x)\) gegeben durch.
\[ f(x) = (x^2 + 1)^3 \]
Dann ist die äußere Funktion: \(g(u) = u^3\) und die innere Funktion \(h(x) = x^2 + 1\), mit den Ableitungen
\[ g'(u) = 3u^2, \quad h'(x) = 2x \]
Eingesetzt ergibt sich für für die Ableitung von \(f(x)\):
\[ \frac{d f(x)}{dx} = g'(h(x)) \cdot h'(x) = 3(x^2 + 1)^2 \cdot 2x = 6x(x^2 + 1)^2 \]
Beispiel A.4 (Ableitung von \(f(x) = \sqrt{2x + 5}\)) Sei nun \(f(x) = \sqrt{2x + 5}\) geben, mit der Wurzel als Potenz geschrieben \(f(x) = (2x+5)^{1/2}\) ergibt sich, für die äußere Funktion: \(g(u) = u^{1/2}\) und für die innere Funktion: \(h(x) = 2x+5\). Damit folgt für die Ableitung der beiden Funktionen \(g'(u) = \tfrac{1}{2}u^{-1/2}, h'(x) = 2\). Daraus resultiert für die Ableitung von \(f(x)\).
\[ f'(x) = g'(h(x)) \cdot h'(x) = \tfrac{1}{2}(2x+5)^{-1/2} \cdot 2 = \frac{1}{\sqrt{2x+5}} \]
Beispiel A.5 (Ableitung von \(f(x) (3x^2-x)^4\)) Als letztes Beispiel sei die Funktion \(f(x) = (3x^2 - x)^4\) gegeben. Daraus können die folgenden Funktionen bestimmt werden, \(g(u) = u^4\) und \(h(x) = 3x^2 - x\) und es folgt für die Ableitungen, \(g'(u) = 4u^3, h'(x) = 6x - 1\), und es ergibt sich für die Ableitung von \(f(x)\), \(f'(x) = 4(3x^2 - x)^3 (6x - 1)\).
Zwei weitere Regeln sind im Zusammenhang für die Inhalte im Skript wichtig. Dies sind einmal die Ableitung für die natürliche Exponentialfunktion, es gilt für \(f(x) = e^x\):
\[ \frac{d f(x)}{dx} = \frac{d e^x}{dx} = e^x \] Unter Anwendung der Kettenregel gilt somit für \(f(x) = a \cdot e^{bx}\)
\[ \frac{d f(x)}{dx} = \frac{d~ae^{bx}}{dx} = abe^x \]
Für den natürlichen Logarithmus \(\ln(x)\) gilt die folgende Regel für die Ableitung.
\[ \frac{d\ln(x)}{dx} = \frac{1}{x} \]
A.4 Extremwerte einer Funktion
Extremwerte sind die höchsten oder tiefsten Punkte einer Funktion. In der Mathematik wird zwischen Hochpunkten (Maxima) und Tiefpunkten (Minima) unterschieden. Um Extremwerte eine Funktion \(f(x)\) zu finden, wird zunächst die Ableitung \(\frac{d f(x)}{dx}\) der Funktion gebildet. Punkte an denen die Steigung von \(f(x)\) gleich Null ist, also die Ableitung den Wert Null annimmt \(f'(x) = 0\), können potentiell einen Extremwert darstellen. Dementsprechend wird die Ableitung \(f'(x)\) der Funktion \(f(x)\) gleich null gesetzt und die entstehende Gleichung wird nach \(x\) gelöst.
Die Lösungen dieser Gleichung sind die Kandidaten für Extremwerte. Um herauszufinden, ob die gefundenen Punkte Hoch- oder Tiefpunkte sind, muss dann die zweite Ableitung der Funktion betrachtet werden. Die folgenden Fälle können unterschieden werden:
- Wenn \(f''(x) > 0\) an einem Punkt \(x\), dann handelt es sich um ein Minimum (Tiefpunkt).
- Wenn \(f''(x) < 0\), dann ist es ein Maximum (Hochpunkt).
- Wenn \(f''(x) = 0\), ist der Test nicht eindeutig und du musst andere Methoden verwenden.
Um die Extremwerte zu bekommen müssen dann die Werte der Funktion \(f(x)\) an den gefundenen Extrempunkten berechnet werden, um herauszufinden, wo die höchsten und tiefsten Punkte liegen.
Beispiel A.6 (Extremwerte 1) Es soll der Extremwert der Funktion \(f(x) = 3x^2+2\) gefunden werden.
Dazu werden zunächst die ersten und zweite Ableitung gebildet:
\[\begin{align*} f(x) &= 3x^2 + 2 \\ f'(x) &= 6x \\ f''(x) &= 6 \end{align*}\]
Die erste Ableitung wird gleich null gesetzt und gelöst:
\[\begin{equation*} 6x = 0 \Rightarrow x = 0 \end{equation*}\]
Da die zweite Ableitung eine positive Konstante ist, haben wir bei \(x=0\) den einzigen Extremwert, ein Minimum, gefunden, wie in Abbildung A.8 auch visuell zu erkennen ist.
Bei der Bestimmung eines Extremwertes einer Funktion \(f(x)\) ist es manchmal möglich die Berechnung zu vereinfachen, indem die Funktion \(f(x)\) zunächst mit einer anderen Funktion \(g(x)\) transformiert wird und die neue Funktion \(g(f(x))\) gebildet wird. Wenn die Funktion \(g(x)\) die Eigenschaft hat streng monoton wachsend zu sein, dann ist nämlich garantiert, dass das Maximum von \(f(x)\) und Maximum von \(g(f(x))\) an der gleichen Stelle \(x\) liegen.
Für das Maximum einer Funktion \(f(x)\) gilt für eine streng monoton wachsende Funktion \(g(x)\) formal.
\[ \arg\max_{x} f(x) = \arg\max_{x} g(f(x)) \]
Beispiel A.7 Die Logarithmusfunktion ist eine streng monoton wachsende Funktion, d.h. mit \(g(x) = \log(x)\) kann eine Funktion transformiert werden um möglicherweise einen Extremwert einfacher zu erhalten. Soll nun das Maximum einer Funktion \(f(x)\) gefunden werden und die Funktion enthält die Multiplikation von Termen, dann kann unter Umständen durch die Anwendung der Logarithmusfunktion die Form der Funktion vereinfacht werden kann.
Sei zum Beispiel die Funktion \(f(p) = p^x (1-p)^{n-x}\) gegeben (\(x\) und \(n\) sind unbestimmte Konstanten) und es soll das Maximum dieser Funktion für \(p\) bestimmt werden. Wird nun die Logarithmusfunktion auf \(f(p)\) angewendet ergibt sich der folgende Ansatz:
\[\begin{align*} f(p) &= p^x(1-p)^{n-x} \\ \log(f(p)) &= \log(p^x (1-p)^{n-x}) \\ &= \log((p^x) \cdot ((1-p)^{n-x})) \\ &= \log(p^x) + \log((1-p)^{n-x}) \quad \text{Regel 1} \\ &= x\log(p) + (n-x)\log(1-p) \quad \text{Regel 3} \end{align*}\]
Nun wird die Ableitung von diesem Ausdruck berechnet unter Beachtung der Regel \(\frac{d}{dx}\log(x)=\frac{1}{x}\) und \(n\) und \(x\) und somit auch \(n-x\) Konstanten folgt:
\[\begin{align*} \frac{d}{dp} \log(f(p)) &= \frac{d}{dp}x\log(p) + (n-x)\log(1-p) \\ &= \frac{d}{dp}x\log(p) + \frac{d}{dx}(n-x)\log(1-p) \\ &= x\frac{d}{dx}\log(p) + (n-x)\frac{d}{dp}\log(1-p) \\ &= x\frac{1}{p} + (n-x)\frac{1}{(1-p)}\cdot (-1) \quad\text{(Kettenregel)} \\ &= \frac{x}{p} - \frac{n-x}{1-p} \\ \end{align*}\]
Dieser Ausdruck kann nun mit Null gleichgesetzt werden um eine Extremum zu bestimmen.
\[\begin{align*} \frac{x}{p} - \frac{n-x}{1-p} &= 0 \mid +\frac{n-x}{1-p}\\ \Leftrightarrow \frac{x}{p} &= \frac{n-x}{1-p} \mid \cdot p, \cdot (1-p)\\ \Leftrightarrow x(1-p) &= (n-x)p \\ \Leftrightarrow x-px &= np - px \mid +np \\ \Leftrightarrow x &= np \mid \frac{1}{n} \\ \Leftrightarrow p &= \frac{x}{n} \end{align*}\]
Die Funktion \(f(p) = p^x (1-p)^{n-x}\) nimmt also für den Wert \(p = \frac{x}{n}\) ein Maximum an. In Abbildung A.9 ist der Graph von \(f(p)\) für die Konstanten \(x=3\) und \(n=10\) abgetragen, einmal auf der Skala für \(f(p)\) und für \(log(f(p))\) abgetragen.
Es ist zu erkennen, dass in beiden Fällen das Maximum der Funktion an der gleichen Stelle sitzt. Insgesammt konnte daher, durch die Anwendung der Logarithmustransformation das Maximum mit einigen wenigen algebraischen Regeln ermittelt werden. Der Weg über \(f(x)\) wäre deutlich aufwendiger gewesen.
A.5 Vektoren
Ein Vektor ist eine mathematische Größe, die sowohl eine Richtung als auch eine Länge (Magnitude) hat. Man kann sich einen Vektor als einen Pfeil vorstellen, der von einem Punkt zu einem anderen zeigt. Zum Beispiel könnte ein Vektor in der Geometrie die Bewegung von einem Punkt A zu einem Punkt B darstellen.
Vektoren werden oft in der Form \(\mathbf{v} = (x, y)\) dargestellt, wobei \(x\) und \(y\) die Komponenten des Vektors sind. In einem dreidimensionalen Raum könnte ein Vektor auch so aussehen: \(\mathbf{v} = (x, y, z)\). Daraus folgt das ein Vektor eine geordnete Menge von Element ist. D.h. es gilt mit \(x\neq y\):
\[\begin{equation*} \mathbf{a} = (x,y) \neq \mathbf{b} = (y,x) \end{equation*}\]
Vektoren werden üblicherweise als Spaltenvektoren dargestellt.
\[\begin{equation*} \mathbf{a} = \begin{pmatrix}x\\y \end{pmatrix} \end{equation*}\]
Oftmals werden die Elemente mittels eines Index z.B. \(i\) gekennzeichnet. Sei zum Beispiel \(\mathbf{a}\) ein Vektor mit \(n\) Elementen, dann ist die folgende Darstellung ebenfalls üblich.
\[\begin{equation*} \mathbf{a} = \begin{pmatrix} a_1\\ a_2 \\ \vdots \\ a_n \end{pmatrix} \end{equation*}\]
Zwei Vektoren mit der gleichen Anzahl von Elementen können mit einander addiert werden. Die Addition findet Komponenteweise statt indem die entsprechenden Komponenten der beiden Vektoren miteinander addiert werden. Daraus folgt mit zwei Vektoren \(\mathbf{a} = (a_1, a_2)\) und \(\mathbf{b} = (b_1, b_2)\):
\[\begin{equation*} \mathbf{c} = \mathbf{a} + \mathbf{b} = (a_1 + b_1, a_2 + b_2) \end{equation*}\]
Die Subtraktion funktioniert ähnlich:
\[\begin{equation*} \mathbf{c} = \mathbf{a} - \mathbf{b} = (a_1 - b_1, a_2 - b_2) \end{equation*}\]
Wenn ein Vektor mit einer Zahl (einem Skalar) multiplizierst wird, dann wird jede Komponente des Vektors mit dieser Zahl multipliziert. Zum Beispiel:
\[\begin{equation*} k \cdot \mathbf{v} = k \cdot (x, y) = (k \cdot x, k \cdot y) \end{equation*}\]
Dies wird als Skalarmultiplikation bezeichnet. Die Länge eines Vektors \(\mathbf{v} = (x, y)\) kann mit dem Satz des Pythagoras berechnet werden und wird durch Betragsstriche \(||\) gekennzeichnet:
\[\begin{equation*} |\mathbf{v}| = \sqrt{x^2 + y^2} \end{equation*}\]
Allgemein gilt für einen Vektor mit \(n\) Elementen, dass die Länge wie folgt berechnet wird.
\[\begin{equation*} |\mathbf{v}| = \sqrt{\sum_{i=1}^n v_i^2} \end{equation*}\]
D.h. Elemente werden quadriert, aufsummiert und die Wurzel wird aus der Summe gezogen.
Eine weitere wichtige Operation mit Vektoren ist dass Skalarprodukt. Seien zwei Vektoren \(\mathbf{a}\) und \(\mathbf{b}\) mit \(n\) Elemente gegeben, dann ist dass Skalarprodukt wie folgt definiert.
\[\begin{equation*} \mathbf{a} \cdot \mathbf{b} = \sum_{i=1}^n a_i\cdot b_i \end{equation*}\]
Konkret mit den beiden Vektoren \(\mathbf{a} = (1,2,3)\) und \(\mathbf{b} = (11,12,13)\) folgt:
\[\begin{equation*} \mathbf{a} \cdot \mathbf{b} = 1\cdot 11 + 2\cdot 12 + 3\cdot 13 = 74 \end{equation*}\]
Mittels des Skalarprodukts lässt sich die Länge eines Vektors wie folgt definieren:
\[\begin{equation*} |\mathbf{a}| = \sqrt{a \cdot a} \end{equation*}\]
Vektoren spielen in der Statistik in der Anwendung wie auch der Theorie eine wichtige Rolle. Aus Anwendungssicht lassen sich Datenreihen als Vektoren realisieren und werden daher auch direkt als Datentyp in R unterstützt.
A.6 Matrizen
Eine Matrix ist eine rechteckige Anordnung von Zahlen die in Zeilen und Spalten angeordnet sind. Matrizen werden häufig in der Statistik, verwendet, um lineare Gleichungssysteme darzustellen, Transformationen durchzuführen oder Daten zu organisieren.
Eine Matrix mit \(m\) Zeilen und \(n\) Spalten wird als \(m \times n\)-Matrix bezeichnet. Dies wird als die Dimension der Matrix bezeichnet. Die Elemente einer Matrix werden durch zwei Indizes angegeben: der erste Index steht für die Zeile, der zweite für die Spalte. Ein Beispiel für eine \(2 \times 2\)-Matrix könnte zum Beispiel sein:
\[\begin{equation*} A = \begin{pmatrix} a_{11} & a_{12} \\ a_{21} & a_{22} \end{pmatrix} \end{equation*}\]
In dieser Darstellung können wir Vektoren auch als degenerierte Matrizen betrachten. Ein Vektor wäre in diesem Sinne eine Matrize mit nur \(n=1\) einer Spalte. Matrizen können mittels spezieller Operatoren verarbeitet werden. Den einfachste Operation stellt die Addition dar. Zwei Matrizen gleicher Dimensionen, d.h. mit der gleichen Anzahl von Zeilen und Spalten können elementweise addiert werden. Elementweise bedeutet das jedes Element in der einen Matrize mit dem Element an der gleichen Position der anderen Matrix addiert wird.
\[\begin{equation*} A + B = \begin{pmatrix} a_{11} + b_{11} & a_{12} + b_{12} \\ a_{21} + b_{21} & a_{22} + b_{22} \end{pmatrix} \end{equation*}\]
Ein weiterer Operator ist die Skalarmultiplikation. Bei der Skalarmultiplikation wird jedes Element einer Matrix wird mit einer Zahl (Skalar) multipliziert.
\[\begin{equation*} k \cdot A = \begin{pmatrix} k \cdot a_{11} & k \cdot a_{12} \\ k \cdot a_{21} & k \cdot a_{22} \end{pmatrix} \end{equation*}\]
Ein zentraler Operator ist die Matrixmultiplikation. Das Produkt zweier Matrizen entsteht durch die Multiplikation der Zeilen der ersten Matrix mit den Spalten der zweiten Matrix.
\[\begin{gather*} \begin{bmatrix} a_{11} & a_{12} & \dots & a_{1n} \\ a_{21} & a_{22} & \dots & a_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ a_{m1} & a_{m2} & \dots & a_{mn} \end{bmatrix} \times \begin{bmatrix} b_{11} & b_{12} & \dots & b_{1p} \\ b_{21} & b_{22} & \dots & b_{2p} \\ \vdots & \vdots & \ddots & \vdots \\ b_{n1} & b_{n2} & \dots & b_{np} \end{bmatrix} = \begin{bmatrix} c_{11} & c_{12} & \dots & c_{1p} \\ c_{21} & c_{22} & \dots & c_{2p} \\ \vdots & \vdots & \ddots & \vdots \\ c_{m1} & c_{m2} & \dots & c_{mp} \end{bmatrix} \\ \text{mit } c_{ij} = a_{i1}b_{1j} + a_{i2}b_{2j} + \dots + a_{in}b_{nj} \text{ für } 1 \leq i \leq m \text{ und } 1 \leq j \leq p. \end{gather*}\]
Etwas übersichtlicher mit einem einfachen Beispiel.
\[ \begin{matrix} & \begin{pmatrix} b_1 & b_2 \\ b_3 & b_4 \end{pmatrix} \\ \begin{pmatrix} a_1 & a_2 \\ a_3 & a_4 \\ \end{pmatrix} & \begin{pmatrix} a_1 \cdot b_1 + a_2 \cdot b_3 & a_1\cdot b_2 + a_2\cdot b_4 \\ a_3 \cdot b_1 + a_4 \cdot b_3 & a_3\cdot b_2 + a_4\cdot b_4 \\ \end{pmatrix} \end{matrix} \]
D.h. die Zeilen von \(A\) werden mit den Spalten von \(B\) per Skalaprodukt multipliziert. Für die Matrizenmultiplikation müssen die Matrizen \(A\) und \(B\) konform sein. Die Anzahl der Spalten von \(A\) muss gleich der Anzahl der Zeilen von \(B\) sein.
Matrizen bieten eine kompakte Darstellung von Daten und Beziehungen und spielen eine zentrale Rolle in der linearen Algebra sowie vielen angewandten Wissenschaften.