Häufigkeitstabellen

Häufigkeitstabellen fassen Daten in einer Tabelle zusammen, die für jede mögliche Ausprägung zeigt, wie oft diese Ausprägung vorgekommen ist. Diese Tabellen sind nur für diskrete Daten sinnvoll, da bei stetigen Daten jede Beobachtung einen anderen Wert hat, und die Tabelle dann nichts zusammenfassen würde. Bei gruppierten stetigen Daten kann aber eine Tabelle erstellt werden.

Klausuraufgaben
deskriptive_statistik_3dcoverIm eBook-Shop gibt es Klausuraufgaben zu diesem Thema!
Zu den eBooks

Häufigkeitstabellen sind meist ein erster Schritt in der Datenanalyse, da sie die Grundlage für z.B. Balkendiagramme, Lorenzkurven oder Verteilungsfunktionen bilden.

Man unterscheidet absolute und relative Häufigkeiten. Absolute Häufigkeiten bezeichnet man für die verschiedenen Ausprägungen mit \(h_i\). Sie sind einfach die ausgezählten Daten für jede Ausprägung. Relative Häufigkeiten, die wir \(f_i\) nennen, sind die Anteile, die auf jede Ausprägung fallen.

Dann gibt es noch kumulierte Häufigkeiten, die wir \(F_i\) nennen. In ihr werden die relativen Häufigkeiten aufsummiert. Die kumulierte Häufigkeitstabelle wird meist nur mit relativen Häufigkeiten gebildet—mit absoluten Häufigkeiten findet sie eigentlich nirgends Verwendung. Ein Beispiel veranschaulicht das wahrscheinlich am besten.

Wir packen einen Block und einen Bleistift ein, und machen uns auf den Weg zum Campus, um 80 Studenten zu befragen. Uns interessiert, in welchem Semester sie sich so befinden. Da gerade Wintersemester ist, erwarten wir mehr Studenten in „ungeraden“ Semestern, also im ersten, dritten, etc.

Nach einem anstrengenden Tag zählen wir die Daten aus. 20 unserer 80 befragten Studenten—also ein Viertel—sind im ersten Semester. Die restlichen Antworten sind in der folgenden Tabelle zusammengefasst. Die Zeile \(h_i\) zeigt die absolute Anzahl an Antworten für jede Semesterzahl (von 1 bis 7). In der Zeile \(f_i\) ist die relative Häufigkeit, also die Zeile \(h_i\) geteilt durch \(n=80\). In der letzten Zeile ist die kumulierte Häufigkeit \(F_i\); hier werden die Elemente der Zeile \(f_i\) schrittweise aufsummiert.

Semester \(i\) 1 2 3 4 5 6 7
\(h_i\) 20 4 13 9 21 5 8
\(f_i\) 0.25 0.05 0.1625 0.1125 0.2625 0.0625 0.1
\(F_i\) 0.25 0.3 0.4625 0.575 0.8375 0.9 1

9 Gedanken zu „Häufigkeitstabellen

  1. Iris

    Hallo,
    ich bin etwas verwirrt, da in den Statistik Büchern (welche mir vorliegen) die relative Häufigkeit immer mit hi bezeichnet wird und die absolute Häufigkeit mit fi. Du beschreibst es hier genau anders herum?
    Ist das ein Fehler oder hat das einen bestimmten Grund?

    Danke vorab und LG

    Antworten
    1. AlexAlex Beitragsautor

      Hallo,

      ich hab es bisher eigentlich nur gesehen, dass die absolute Häufigkeit \(h_i\) heißt. Ein „Fehler“ ist es aber keinesfalls. Die Buchstaben sind ja nur irgendwelche Namen, die man sich frei als Bezeichner auswählen kann. Es hält dich keiner davon ab, in deiner Rechnung stattdessen die Bezeichner \(a_i\) und \(b_i\) zu definieren und verwenden. Die Buchstaben sind nur Konventionen, keine „Gesetze“.

      VG,
      Alex

      Antworten
  2. Andy

    Hi,
    danke fuer deine tolle Arbeit hier! Hat mir sehr gegolfen!
    Da scheint mir nur bei den kumul. rel. Haeufigkeiten bei i 5 ein Fehler zu sein. Da sollte doch 0.8375 stehen, oder?

    Gruss

    Antworten
    1. Mo

      Ist im Fall diskreter Daten die kumulierte Häufigkeit Fi mit der Verteilungsfunktion Fi= P(X<=t) für stetige Daten gleich zu setzen, oder bin ich auf dem Holzweg?

      Antworten
      1. AlexAlex Beitragsautor

        Nicht ganz. Stell dir die Verteilungsfunktion für einen normalen Würfel vor: eine einfache Treppenfunktion die bei 1, 2, 3, etc. jeweils um 1/6 nach oben springt.

        Wenn du den Würfel aber 100 mal wirfst, und davon die Verteilungsfunktion bildest, wird sie *ziemlich* sicher nicht exakt so sein wie erwartet.

        Die Verteilungsfunktion einer Stichprobe nennt man *empirische* Verteilungsfunktion. Die nach der Wahrscheinlichkeit erwartete Verteilungsfunktion nennt man *stochastische* Verteilungsfunktion. Wenn du schon Daten gesammelt hast, bildet man meist die empirische. Wenn du „im Vorab“ etwas über die erwarteten Ergebnisse aussagen willst, dann rechnet man mit der stochastischen.

        Antworten

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.

Diese Website verwendet Akismet, um Spam zu reduzieren. Erfahre mehr darüber, wie deine Kommentardaten verarbeitet werden.