Archiv der Kategorie: Grafiken

Streudiagramme

Streudiagramme (oft auch Scatterplots genannt) sind gleichzeitig eine der einfachsten und informativsten grafischen Darstellungen von Daten. Sie sind hauptsächlich für die gleichzeitige Darstellung von zwei Variablen geeignet.

Klausuraufgaben

Ein Beispiel ist der folgende Datensatz, in dem bei einer Reihe von Autos Vollbremsungen durchgeführt wurden, und die Ausgangsgeschwindigkeit (x-Achse) und der resultierende Bremsweg (y-Achse) gemessen wurde:

zweivariablen-streudiagramm-bspDurch die Darstellung der Daten fallen hier direkt drei Dinge auf:

  1. Es wurden keine Autos gemessen, deren Geschwindigkeit zwischen 100 km/h und 130 km/h war. Das kann an der Studie liegen, oder es ist ein Fehler bei der Datenverarbeitung unterlaufen.
  2. Ein Auto hatte eine Ausgangsgeschwindigkeit von ca. 40 km/h, aber einen Bremsweg von 110 Metern. Das ist ein Ausreißer, für den nachgeforscht werden muss was da passiert ist. Hat der Fahrer geschlafen, oder vielleicht der, der die Messungen in den Computer eingegeben hat, einen Fehler gemacht?
  3. Der Zusammenhang wird hier besser durch eine Parabel als durch eine Gerade modelliert. Das macht Sinn, denn wenn man sich an die Fahrschule erinnert, ist der Bremsweg quadratisch abhängig von der Geschwindigkeit.

Eine grafische Darstellung und Exploration eines Datensatzes ist also immer ein sinnvoller erster Schritt, noch vor irgendwelchen statistischen Modellierungen.

Streudiagramme für drei Variablen sind möglich, aber meistens unübersichtlich. Als Beispiel wird hier ein Datensatz von verschiedenen Autos visualisiert, in dem drei Variablen (Gewicht, Hubraum, und Benzinverbrauch) dargestellt werden:

zweivariablen-streudiagramme-3dWie gesagt, 3d-Streudiagramme sind nicht zu empfehlen, und wären auf dem Papier auch nur schwer zu zeichnen.

Zeichnen eines Streudiagramms

Um ein Streudiagramm zu zeichnen, benötigt man eine Reihe von gepaarten Messungen x_i und y_i. Das können z.B. zwei Spalten, also zwei Variablen aus einem Datensatz sein, oder einfach die beiden gemessenen Merkmale in irgend einer Liste.

Als beispielhafte Daten schauen wir uns die Messungen x_i = Alter eines Kindes und y_i = Schugröße eines Kindes an. Wir bekommen die folgende Tabelle:

Kind i Alter x_i Schuhgröße y_i
1 3 22
2 5 26
3 3 23
4 6 25

Das erste Kind erhält nun einen Punkt der auf der x-Achse den Wert 3 hat, und auf der y-Achse den Wert 22. Genauso wird mit den übrigen drei Kindern verfahren. Das Streudiagramm für die 4 Kinder sieht wie folgt aus:

zweivariablen-streudiagramme-2d

Boxplots

Ein Boxplot ist eine grafische Zusammenfassung der folgenden fünf Punkte:

  • Minimum (= 0%-Quantil)
  • 25%-Quantil
  • Median (= 50%-Quantil)
  • 75%-Quantil
  • Maximum (= 100%-Quantil)
Klausuraufgaben

Da man das Minimum, den Median und das Maximum als 0%-, 50%- bzw. 100%-Quantil ausdrücken kann, zeigt der Boxplot eigentlich nur fünf häufig verwendete, interessante Quantile. Dabei ist die Box und ihre sogenannten "Whiskers", die Striche außerhalb der Boxen, wie folgt aufgebaut:

Die Box spannt sich vom 25%-Quantil bis zum 75%-Quantil auf, in ihr ist der Median durch einen Querstrich markiert. Außerhalb der Boxen spannen sich nach oben und unten die Whiskers zum Minimum bzw. Maximum der Datenreihe.

Es gibt eine Ausnahme, in der die Whiskers meistens nicht bis zum Minimum bzw. Maximum gezeichnet werden. "Meistens", weil dieses Vorgehen nirgends festgelegt ist, und nur eine Art Quasi-Standard ist. Falls die Whiskers länger sind als das 1.5-fache der Box (d.h. der 1.5-fache Interquartilsabstand), werden sie nicht bis zum letzten Punkt gezeichnet, sondern nur bis zum letzten Punkt der weniger als das 1.5-fache des Interquartilsabstands von der Box entfernt ist. Alle Datenpunkte, die dann ausserhalb der Whiskers liegen, werden als Ausreißer separat eingezeichnet.

Am Boxplot kann man auch zwei Streuungsmaße ablesen: Die Spannweite ist nämlich der Abstand zwischen den beiden Whiskers (bzw. zwischen den äußersten Ausreißern). Der Interquartilsabstand, der ja als x_{0.75} - x_{0.25} definiert wurde, ist genau die Breite der Box.

Beispielaufgabe

Um einen Boxplot von Hand zu zeichnen, benötigen wir nur die sogenannte Fünf-Punkte-Zusammenfassung einer Datenreihe. Diese wollen wir jetzt anhand von Beispieldaten berechnen.

Nehmen wir an, wir bekommen einen Datensatz mit n=20 befragten Autofahrern. Die Personen haben uns gesagt, wie oft sie in ihrem Leben schon geblitzt wurden. Wir bekamen von den Personen die folgenden Antworten:

1 4 3 3 7 1 0 9 2 3 1 1 2 0 5 0 0 1 0 2

Wir brauchen also als allererstes für die Box das 25%- und das 75%-Quantil sowie den Median. Dazu sortieren wir die Liste zuerst:

0 0 0 0 0 1 1 1 1 1 2 2 2 3 3 3 4 5 7 9

Der Median ist für 20 Elemente definiert als \frac{1}{2} (x_{(10)} + x_{(11)}), also 1.5. Die Quantile sind x_{0.25} = \frac{1}{2} (x_{(np)} + x_{(np+1)}) = \frac{1}{2} (x_{(5)} + x_{(6)}) = 0.5, und x_{0.75} = 3. Die Box erstreckt sich also von 0.5 zu 3, mit dem Median-strich bei 1.5.

Für die Whisker müssen wir nachsehen: Das Minimum der Daten ist 0. Der Whisker streckt sich bis zum Minimum, falls es nicht weiter als 1.5\cdot IQR von der Box (also von x_{0.25}) entfernt ist. IQR steht hier für interquartile range, also den Interquartilsabstand, oder x_{0.75}-x_{0.25}. Der ist bei uns 2.5. Und das Minimum ist nicht weiter als 1.5\cdot 2.5 von 0.5 entfernt: Daher geht der untere Whisker bis zum Minimum 0.

Das Maximum der Daten liegt bei 9. Das ist 9-3=6 von der Box entfernt. Geteilt durch die IQR ergibt das 6/2.5 = 2.4. Das bedeutet, dass das Maximum die 2.4-fache IQR als Abstand zur Box hat, und das ist mehr als das 1.5-fache. Der Whisker geht daher bis zum größten Datenpunkt, der kleiner als 1.5\cdot IQR von der Box entfernt ist. Das wäre bei uns der Punkt, der (von unten) am nähesten an 3 + 1.5\cdot 2.5, also 6.75 liegt. Das ist 5; und genau so weit geht unser oberer Whisker. Alle Werte, die darüber liegen (die sogenannten Ausreißer), werden noch als einzelne Punkte eingezeichnet.

Der dazugehörige Boxplot sieht so aus:

boxplot1

Ein Boxplot. Man sieht die Daten hier aufgeteilt in vier Viertel: Das untere Viertel der Daten geht (inklusive) von 0 bis 0.5, das zweite Viertel von 0.5 bis 1.5, das dritte Viertel von 1.5 bis 3, und das letzte Viertel von 3 bis 9.

Verteilungsfunktion

Häufigkeitstabellen kann man auf zweierlei Art visualisieren: Absolute oder relative Häufigkeiten stellt man meist durch Balkendiagramme dar. Für kumulierte Häufigkeiten ist nun eine Verteilungsfunktion angebracht. Sie zeigt auf der x-Achse die geordneten Ausprägungen für das Merkmal, und auf der y-Achse den Anteil der Daten, der kleiner oder gleich dieser Ausprägung ist.

Klausuraufgaben

Wenn wir eine Verteilungsfunktion zeichen, sollten wir immer ihr Prinzip im Hinterkopf behalten: Sie zeigt euch für jede Ausprägung den Anteil der Daten, der kleiner oder gleich dieser Ausprägung ist. Diese Verteilungsfunktion F(x) haben wir im Artikel zu Häufigkeitstabellen schon gesehen, allerdings nur in Tabellenform. Hier zeichnen wir im Prinzip nur die zu der Tabelle passende Grafik.

Beispielaufgabe

Wir haben 80 Studenten befragt, in welchem Semester sie sich befinden, und daraus eine Häufigkeitstabelle erstellt:

Semester i 1 2 3 4 5 6 7
h_i 20 4 13 9 21 5 8
f_i 0.25 0.05 0.1625 0.1125 0.2625 0.0625 0.1
F_i 0.25 0.3 0.4625 0.575 0.8475 0.9 1

Die folgende Abbildung zeigt die Verteilungsfunktion für unsere Studentenbefragung (das Semester i ist die x-Achse, und die Zeile F_i ist die y-Achse).

verteilungsfunktion

Die Verteilungsfunktion für unsere Studentenbefragung. An den "Sprüngen" der Funktion zählt der Wert, an dem der Punkt eingezeichnet ist. Vertikale Linien zwischen den Sprüngen der Funktion können, aber müssen nicht gezeichnet werden.

In dieser Grafik sind die Punkte einfach aus der Häufigkeitstabelle übernommen. Der x-Wert ist das jeweilige Semester, und der y-Wert das zugehörige F_i, also der Anteil der Studenten, die höchstens in diesem Semester sind. Die horizontalen Linien zwischen den Punkten geben nun auch für "krumme" Zahlen einen sinnvollen Prozentsatz an: Möchte man z.B. wissen, welcher Anteil der Studenten mit einer Semesterzahl von höchstens 4.3 geantwortet hat, ist das (also F(4.3)) derselbe Anteil, der mit höchstens 4.0 geantwortet hat (also F(4.0)).

Hier ist dann natürlich zwingend, dass die Verteilungsfunktion immer bei 0 beginnt, und dann kontinuierlich (mathematisch: monoton) steigt, und irgendwann bei 1 endet. Die Verteilung kommt immer von -\infty und geht immer weiter bis +\infty: Der Anteil der Studenten, die höchstens im 7. Semester sind, ist 1; der Anteil derer, die höchstens im 850. Semester sind, ist natürlich immer noch 1.

Quantilsfunktion

Übrigens kann man an der Verteilungsfunktion auch die Quantile ablesen, indem man den Graphen "andersrum" liest. Sucht man sich auf der y-Achse ein gewünschtes Quantil, z.B. das 70%-Quantil, geht man von dort auf einer Horizontalen nach rechts, bis man die Verteilungsfunktion schneidet. Der zugehörige x-Wert (in diesem Fall 5) ist das Semester, das 70% der Studenten nicht überschreiten (also das 70%-Quantil, oder x_{0.7}).

Für den Fall, dass man ein p-Quantil bestimmen will, und np gerade ist (vgl. den Artikel Quantile), landet man in der Verteilungsfunktion direkt auf einer "Stufe" der Treppe. In dem Fall kann das Quantil theoretisch jeder Wert dieser Stufe sein, wir nehmen aber meist den Mittelwert der beiden "Grenzen". Schauen wir uns die Verteilungsfunktion für die folgenden Daten an:

Person A B C D E
Ausprägung 1 2 3 5 7

verteilungsfunktion-beispiel

Das 20%-Quantil (die gepunktete Linie) in diesem Beispiel könnte jeder Wert auf der x-Achse sein, der zwischen dem ersten (1) und dem zweiten Datenpunkt (2) liegt, da alle Werte die Daten in "niedrige 20%" und "hohe 80%" teilen. Das wird durch das Plateau auf der Treppenfunktion verdeutlicht. Das Quantil kann man aber meist einfach als \frac{1}{2}(1+2), also 1.5 definieren.

Mathematisch ausgedrückt: Die Quantilsfunktion ist die Inversfunktion der Verteilungsfunktion. Die Quantilsfunktion wird daher auch mit F^{-1}(x) bezeichnet.

Balkendiagramme

Balkendiagramme sind die einfachste Variante, um diskrete Daten zu visualisieren. In einem Balkendiagramm wird für jede mögliche Ausprägung des untersuchten Merkmals ein Balken gezeichnet. Dessen Höhe ist proportional zur jeweiligen Häufigkeit des Merkmals. Es ist für die Grafik selbst egal, ob hier relative oder absolute Häufigkeiten verwendet werden, es ändert sich nur die Skala auf der y-Achse.

Kurz am Rande: Das Balkendiagramm heißt genaugenommen Säulendiagramm, da die Daten als vertikale Säule dargestellt werden. Ein Balkendiagramm hingegen hätte man, wenn die komplette Grafik um 90 Grad nach rechts gedreht wird. Das Erstellen dieses Diagramms geht aber genauso wie beim Säulendiagramm, und ich finde den Begriff "Balkendiagramm" einfach schöner 🙂

Klausuraufgaben

Beispielaufgabe

Wir benutzen die Daten aus dem Artikel zu Häufigkeitstabellen:

Semester i 1 2 3 4 5 6 7
h_i 20 4 13 9 21 5 8
f_i 0.25 0.05 0.1625 0.1125 0.2625 0.0625 0.1
F_i 0.25 0.3 0.4625 0.575 0.8475 0.9 1

Damit zeichnen wir nun ein Balkendiagramm für die absolute (die Zeile h_i) und relative (die Zeile f_i) Häufigkeit für jedes Semester.

balkendiagramm

Hier sieht man nun, dass sich nur die Skalierung der y-Achse ändert; die (relativen) Höhen der Balken bleiben gleich.