Der \(\phi\)-Koeffizient ist ein Zusammenhangsmaß für zwei binäre (oder dichotome) Variablen, das heißt zwei Variablen, die jeweils nur zwei mögliche Ausprägungen haben. Die resultierenden Daten kann man in einer 2×2-Kreuztabelle zusammenfassen. (Für größere Tabellen muss man auf den Chi-Quadrat- oder den Kontingenzkoeffizienten ausweichen)
Als Beispiel sehen wir uns eine andere Darstellung der Daten aus dem Artikel zum \(\chi^2\)-Koeffizienten an: Wir betrachten für 180 Züge nur, ob sie (a) unter der Woche oder am Wochenende abfahren, und (b) ob sie pünktlich oder mit Verspätung abfahren. Wir fassen also die letzten beiden Spalten der Tabelle aus dem obigen Artikel zusammen, und erhalten diese Tabelle:
pünktlich | verspätet | Summe | |
---|---|---|---|
Mo-Fr | 58 | 62 | 120 |
Wochenende | 32 | 28 | 60 |
Summe | 90 | 90 | 180 |
Mit dem \(\phi\)-Koeffizienten beantworten wir nun die Frage, wie stark der Zusammenhang dieser beiden Variablen ist, ob es also am Wochenende unterschiedlich viele Verspätungen gibt wie unter der Woche.
Allgemein sieht eine 2×2-Kreuztabelle (siehe Artikel) wie folgt aus:
\(b_1\) | \(b_2\) | Summe | |
---|---|---|---|
\(a_1\) | \(h_{11}\) | \(h_{12}\) | \(h_{1 \cdot}\) |
\(a_2\) | \(h_{21}\) | \(h_{22}\) | \(h_{2 \cdot}\) |
Summe | \(h_{\cdot 1}\) | \(h_{\cdot 2}\) | \(n\) |
Der \(\phi\)-Koeffizient berechnet sich nun wie folgt:
\[ \phi = \frac{h_{11}\cdot h_{22} – h_{12}\cdot h_{21}}{\sqrt{h_{1 \cdot} \cdot h_{2 \cdot} \cdot h_{\cdot 1} \cdot h_{\cdot 2} }} \]
Er kann (im Gegensatz zum \(\chi^2\)-Koeffizienten und dem Kontingenzkoeffizienten \(K\)) Werte von -1 bis 1 annehmen, nicht nur von 0 bis 1. Auch hier bedeutet ein Wert von \(\phi=0\), dass kein Zusammenhang vorliegt. Je näher der Wert an -1 oder 1 rückt, desto stärker ist der Zusammenhang zwischen den beiden Variablen.
In unserem Beispiel setzen wir also ein:
\[ \phi = \frac{58 \cdot 28 – 62 \cdot 32}{\sqrt{120 \cdot 60 \cdot 90 \cdot 90}} = -0.0471 \]
Wir erhalten einen Wert, der fast Null ist, können also sagen, dass wir hier keinen großartigen Zusammenhang gefunden haben.
Hallo Alex,
erstmal danke für die hervorragende Erklärung, du rettest mir möglicherweise die Statistikklausur. Ich habe noch eine Frage bzgl. der Kreuztabelle: Kann man auch mit Tabellen rechnen, die größer als 2×2 sind? Also beispielsweise eine Tabelle mit Haarfarben X Geschlecht oder sowas in der Art? Und wenn ja, wie?
Liebe Grüße
Dazu gibt es den Chi-Quadrat-Koeffizienten, den findest du hier:
http://www.crashkurs-statistik.de/chi-quadrat-koeffizient-und-kontingenzkoeffizient-k/
VG,
Alex
Guten Tag,
zunächst vielen Dank für die gut verständlichen Erklärungen.
Ich habe jedoch zum Phi-Koeffizienten eine Frage: In anderer Literatur lese ich immer, dass der Phi-Koeffizient nur Werte zwischen 0 und 1 annehmen kann (z.B. Field 2011, S. 698). Hier im Artikel steht nun geschrieben, dass er Werte zwischen -1 und 1 annehmen könne. Ist dies ein Fehler oder handelt es sich um ein Missverständnis meinerseits?
Viele Grüße
Der Phi-Koeffizient kann zwischen -1 und 1 liegen. Im Beispiel in diesem Artikel ist er ja z.B. kleiner als Null.
Die Referenz bräuchte ich in ausgeschriebener Form, um das Buch(?) finden zu können 🙂
Evtl. ging es dort um den quadrierten Wert \(\phi^2\) ?. Der wird z.B. hier erwähnt, und liegt dann natürlich zwischen 0 und 1:
https://de.wikipedia.org/wiki/Kontingenzkoeffizient#Phi-Koeffizient_.CF.95
oder:
http://www.fernuni-hagen.de/ksw/neuestatistik/content/MOD_23094/html/comp_23136.html
Hallo Alex, danke für die rasche Klarstellung. Dann habe ich es offenbar mit ϕ2 verwechselt.
Das Buch auf das ich mich beziehe ist Field, Andy (2011): Discovering statistics using SPSS, 3. Aufl., Sage Verlag, Los Angeles.
Auf S. 695 schreibt er: „If one of the two categorical variables contains more than
two categories then Cramer’s V is preferred to phi because phi fails to reach its *minimum value of 0* (indicating no association) in these circumstances.“
Und auf S. 698: „However, for tables with greater than two dimensions the value of phi may not lie *between 0 and 1* because the chi-square value can exceed the sample size.“
Vielleicht liegt es einfach daran, dass Field eine andere Formel als üblich für phi verwendet.
Oh, ja, das hat er. In der Box 16.1 (in der *zweiten* Auflage auf S. 689) steht dass er Phi als \(\sqrt{\chi^2 / n}\) berechnet. Das ist gleich dem *absoluten* Wert von \(\phi\). Ich weiß leider nicht auswendig welche Variante SPSS verwendet…