Histogramme

Histogramme sehen zunächst ähnlich aus wie Balkendiagramme, werden aber für stetige statt diskrete Daten verwendet. Um ein Histogramm zu zeichnen, muss man seine Daten zuerst klassieren, d.h. Gruppen bilden und sie ihnen zuordnen.

Klausuraufgaben

Einfacher: Histogramme für gleich breite Gruppen

Am einfachsten sind Histogramme zu zeichnen, wenn diese Gruppen gleich breit sind. Mißt man zum Beispiel die Körpergröße von 20 Personen, könnte man diese Gruppen in 10cm-Abständen bilden, also von 150-159cm, von 160-169cm, und so weiter.

Wir bauen nun ein Histogramm für die folgenden zwanzig Körpergrößen:

172 164 160 162 173 180 158 185 171 181 162 184 177 175 177 174 158 151 192 177

Zuerst müssen wir die Gruppen festlegen, in die wir die Daten zuordnen wollen. Wir zeichnen zuerst ein Histogramm für fünf gleich breite Gruppen:

Gruppe 1 2 3 4 5
Intervall [150, 160) [160, 170) [170, 180) [180, 190) [190, 200)

Die eckigen und runden Klammern beschreiben die jeweiligen Grenzen des Intervalls. In der zweiten Spalte ist z.B. die 160 enthalten, da davor eine eckige Klammer steht, aber die 170 ist nicht enthalten, da dort eine runde Klammer ist. Wenn also jemand genau 170cm groß ist, fällt er in die dritte Gruppe. Falls jemand 169.8cm groß ist, fällt er in die zweite Gruppe.

Jetzt zählen wir, wie viele Personen in jede Gruppe fallen. Es gibt z.B. drei Personen in der Gruppe von 150 (einschließlich) bis 160 (ausschließlich). Mit diesen Daten könnte man nun schon ein Histogramm mit absoluten Häufigkeiten zeichen. Das möchten wir aber nicht, da diese Art dann bei komplizierteren Histogrammen mit variablen Gruppenbreiten nicht mehr funktioniert (wer mir nicht glaubt, kann es gerne versuchen, das ist eine schöne Übung). Die Dichte, also die Höhe der einzelnen Balken, berechnen wir wie folgt:

 h_i = \frac{n_i}{N \cdot b_i}

Hier ist h_i die Höhe des i-ten Histogrammbalkens, n_i ist die Anzahl der Personen in dieser Gruppe i, N ist die Gesamtzahl an Personen (bei uns N=20), und b_i ist die Breite der i-ten Klasse (bei uns sind alle Klassen gleich breit, also b_i=10 für alle Klassen). In der ersten Klasse ist die Höhe zum Beispiel h_1 = \frac{3}{20 \cdot 10} = 0.015.

Am einfachsten erstellt man all diese Daten in einer Tabelle:

Gruppe i 1 2 3 4 5
Intervall [150, 160) [160, 170) [170, 180) [180, 190) [190, 200)
Anzahl an Personen in dieser Gruppe, n_i 3 4 8 4 1
Histogrammhöhe, h_i 0.015 0.02 0.04 0.02 0.005

Damit kann man nun ein Histogramm zeichen:
histogramm-fix

Das linke Histogramm haben wir gerade berechnet. Das rechte unterscheidet sich nur darin, dass auf der y-Achse absolute Zahlen verwendet wurden—es wurden also statt den Höhen h_i die Anzahl an Personen, n_i gezeichnet. Man sieht hier also direkt, dass in der mittleren Klasse 8 Personen liegen. Aber wie gesagt, für variable Klassenbreiten kann man das dann nicht mehr machen.

Der Anteil an Beobachtungen in jeder Gruppe entspricht nun der Fläche dieser Balken. In der ersten Gruppe ist ein Anteil von 10\cdot 0.015 = 0.15, also 15% der Daten, was bei 20 Personen genau 3 Personen entspricht. Diese Art der Interpretation wird wichtig, wenn wir uns Histogramme mit variablen Gruppenbreiten ansehen:

Komplizierter: Histogramme für variable Gruppenbreiten

Diese Art von Histogramm sieht man in der Realität so gut wie nie - zumindest ich bin noch nie einem begegnet. Ich habe aber in einer Klausur mal ein solches Histogramm zeichnen müssen, daher zeige ich hier auch, wie man diese Art erstellt.

Das einzige, was hier noch dazukommt, sind die Klassenbreiten b_i, die ja nun verschieden breit sind. Schauen wir uns ein Histogramm für die folgenden Klassen an:

Gruppe i 1 2 3 4
Intervall [140, 160) [160, 165) [165, 190) [190, 200)

Mit derselben Formel von oben, in die wir nun aber unterschiedliche Klassenbreiten eintragen, erhalten wir nun diese Werte:

Gruppe i 1 2 3 4
Intervall [140, 160) [160, 165) [165, 190) [190, 200)
Klassenbreite b_i 20 5 25 10
Anzahl an Personen in dieser Gruppe, n_i 3 4 12 1
Histogrammhöhe, h_i 0.0075 0.04 0.024 0.005

Das zugehörige Histogramm sieht wie folgt aus:

histogramm-variabel

Wie schon gesagt, diese Darstellung macht wenig Sinn, könnte aber in einer Klausur abgefragt werden, um zu prüfen ob man das Prinzip verstanden hat.

3 Gedanken zu „Histogramme

  1. kurzVormAbi

    Danke, danke! - überlege schon den ganzen Tag und länger, was es mit der Dichtefunktion der Normalverteilung auf sich hat. Mithilfe deiner Grafiken einschließlich der Formel konnte ich es mir erklären. Nebenbei natürlich Histogramme verstanden.

    Antworten
  2. Silke

    Toll, vielen Dank für die Erläuterung. Die Berechnung der Balkenhöhen bei variabler Breite fehlt in meinem Skript - jetzt verstehe ich auch, was es mit der Flächenproportionalität auf sich hat. 😊

    Viele Grüße
    Silke

    Antworten
  3. Guiseppe

    Vielen vielen Dank! Habe in 2 Tagen eine SA über u.A. Statistik, und mein Mathematik-Buch hat Histogramme, insbesondere welche mit unterschiedlicher Balken-breite, nur minder erklärt. Das ganze macht jetzt endlich Sinn für mich.

    Einen schönen Tag noch 🙂

    Antworten

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.