Kreuztabellen / Kontingenztafeln

Kreuztabellen sind Häufigkeitstabellen für zwei Merkmale. Sie sind also dazu da, die gemeinsame Verteilung von zwei Merkmalen zu visualisieren.

Klausuraufgaben

Kreuztabellen für absolute Häufigkeiten

Die einfachste Tabelle besteht aus absoluten Häufigkeiten, also einfach der Anzahl an untersuchten Einheiten in jeder Gruppe. Befragt man zum Beispiel 200 Personen nach ihrem Geschlecht und der letzten gewählten Partei, könnte sich eine Tabelle wie folgt ergeben:

SPD CDU/CSU FDP Grüne Sonstige Summe
Männer 26 22 8 12 16 84
Frauen 36 28 14 14 24 116
Summe 62 50 22 26 40 200

Allgemein notieren kann man eine Tabelle zum Beispiel so:

b_1 b_2 \dots b_J Summe
a_1 h_{11} h_{12} \dots h_{1J} h_{1\cdot}
a_2 h_{21} h_{22} \dots h_{2J} h_{2\cdot}
\vdots \vdots \vdots \ddots \vdots \vdots
a_I h_{I1} h_{I2} \dots h_{IJ} h_{I\cdot}
Summe h_{\cdot 1} h_{\cdot 2} \dots h_{\cdot J} n

Das Merkmal X ist in den Zeilen dargestellt und kann I verschiedene Ausprägungen haben, a_1 bis a_I. Im oberen Beispiel war X das Geschlecht, I=2 und a_1 war "männlich", a_2 war "weiblich". Das zweite Merkmal, Y läuft über die Spalten und hat J verschiedene Ausprägungen b_1, \ldots, b_J (oben waren das die fünf Parteien).

Die einzelnen Häufigkeiten werden nun durch h_{ij} dargestellt, wobei die erste Zahl, i, immer die Zeile angibt, und die zweite Zahl, jimmer die Spalte. h_{13} ist also der Eintrag in der ersten Zeile, dritte Spalte. In unserer Parteientabelle ist h_{13}=8.

Die Randhäufigkeiten sind die gebildeten Summen über eine ganze Zeile (z.B. h_{2\cdot} für die zweite Zeile) oder eine ganze Spalte (z.B. h_{\cdot 1} für Spalte 1). Der Punkt deutet an, dass an dieser Position summiert wird; steht er an erster Stelle, wird eine feste Spalte über alle Zeilen summiert. Für eine beliebige Zeile i stellt man die Zeilensumme durch die Formel h_{i\cdot} = \sum_{j=1}^J h_{ij} dar, und eine Spaltensumme für eine beliebige Spalte j bildet man mit h_{\cdot j} = \sum_{i=1}^I h_{ij}.

Ganz unten rechts steht noch n, die gesamte Anzahl an untersuchten Einheiten. In unserem Beispiel war n=200.

Als kleine Verständniskontrolle kann man sich überlegen, wofür die folgenden Bezeichnungen in unserer Beispieltabelle der Wahldaten stehen:

  • I
  • h_{12}
  • h_{\cdot 2}
  • a_2
  • n
Lösung (klick)

Kreuztabellen für relative Häufigkeiten

Eine Tabelle für absolute Häufigkeiten wandelt man ganz einfach in eine Tabelle relativer Häufigkeiten um: Man dividiert jede Zelle (egal ob es eine Datenzelle oder eine Randhäufigkeit ist) durch n, und ist fertig. Hier ist unsere Beispieltabelle von oben in relativen Häufigkeiten, indem wir jede Zelle durch 200 teilen:

SPD CDU/CSU FDP Grüne Sonstige Summe
Männer 0.13 0.11 0.04 0.06 0.08 0.42
Frauen 0.18 0.14 0.07 0.07 0.12 0.58
Summe 0.31 0.25 0.11 0.13 0.20 1

Relative Häufigkeiten sollte man anders bezeichnen als absolute Häufigkeiten. Daher nennen wir absolute Häufigkeiten h_{ij}, und relative Häufigkeiten f_{ij}. Das kann aber natürlich in jedem Kurs anders heißen.

Exkurs: Bedingte Häufigkeiten

Mit bedingten Häufigkeiten drücken wir die Verteilung eines Merkmals aus, gegeben ein zweites Merkmal hat eine bestimmte Ausprägung. In einer Formel deutet der vertikale Balken an, dass es sich um eine bedingte Häufigkeit handelt. So bedeutet f(Grüne|Mann) die relative Häufigkeit der Grünen-Wähler bedingt auf die Männer.

Wenn man auf die Männer bedingt, interessiert einen in der folgenden Tabelle nur die erste Zeile:

SPD CDU/CSU FDP Grüne Sonstige Summe
Männer 26 22 8 12 16 84
Frauen 36 28 14 14 24 116
Summe 62 50 22 26 40 200

Der Anteil der Grünen-Wähler an den Männern ist also 12 von 84 Männern, d.h. 14%.

Um eine bedingte Häufigkeit zu erhalten, teilen wir also nicht durch die Gesamtzahl an Personen n, sondern nur durch die Personen, auf die bedingt wurde. Im Beispiel oben teilen wir die absolute Anzahl an Männern, die die Grünen gewählt haben (=12) durch die Anzahl an befragten Männern (also durch h_{1\cdot} = 84 statt durch n).

Mit unseren Bezeichnungen von oben ("Grüne" sind b_4 usw.) berechnen wir diese bedingte Häufigkeit wie folgt:

 f(b_4 | a_1) = \frac{h_{14}}{h_{1\cdot}} = 12/84 = 0.14

In Formeln ausgedrückt berechnet man die auf eine Spalte bedingte Häufigkeit durch

 f(a_i | b_j) = \frac{h_{ij}}{h_{\cdot j}},

und die auf eine Zeile bedingte Häufigkeit durch

 f(b_j | a_i) = \frac{h_{ij}}{h_{i \cdot}}.

3 Gedanken zu „Kreuztabellen / Kontingenztafeln

  1. Sabine

    Hallo Alex,

    vielen Dank für Dein supertolles Tutorium. Endlich verstehe ich mal etwas 🙂

    Hier oben bei der bedingten Häufigkeit hast Du angegeben, dass die Grünen "b3" sind.
    Dabei stehen sie an der vierten Stelle.
    Die dritte Stelle hast Du dann auch in der Formel noch einmal angegeben.

    Jetzt hoffe ich, dass ich nicht einen Denkfehler habe.

    Viele Grüße und noch einmal vielen Dank.

    Sabine

    Antworten
    1. AlexAlex Beitragsautor

      Hallo Sabine,

      vielen Dank für das Lob - und auch für die Korrektur. Ich habe die beiden Stellen berichtigt 🙂

      Grüße,
      Alex

      Antworten

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind markiert *