Das Wichtigste in Kürze
Die Unterscheidungen diskret–stetig bzw. nominal–ordinal–intervallskaliert–verhältnisskaliert sind zwei verschiedene Möglichkeiten, ein Merkmal zu beschreiben. Meistens benutzt man allerdings nur die Bezeichnungen „nominal“, „ordinal“ und „stetig“, bzw. „diskret“ für verhältnisskalierte Zähldaten.
Merkmals-/Skalentyp | Beispiele |
---|---|
Diskret | Kinderzahl, Studiendauer in Semestern |
Stetig | Körpergröße, Nettoeinkommen |
Nominalskaliert | Geschlecht, Religionszugehörigkeit |
Ordinalskaliert | Letzte Englischnote, Testantwort auf einer Skala gut–mittel–schlecht |
Intervallskaliert | Temperatur in Celsius, Intelligenzquotient |
Verhältnisskaliert | Geschwindigkeit, Einkommen |
Bei der Erhebung, Auswertung und Interpretation von Merkmalen gibt es viele Methoden, die oft nur bei bestimmten Merkmalstypen möglich oder sinnvoll sind. Wir werten zum Beispiel die Größe einer Person anders aus als die Religionszugehörigkeit oder den Vornamen.
Merkmalstypen: Diskrete und stetige Merkmale
Für den praktischen Umgang mit Daten ist meist nur interessant, ob es sich um diskrete oder stetige Daten handelt, da diese Unterscheidung bestimmt, mit welchen Methoden man vorgeht. Diskrete Daten sind definiert als Daten, die endlich oder abzählbar unendlich viele Ausprägungen haben. Abzählbar unendlich heißt hier, dass es sich meist um Zähldaten handelt, die theoretisch ins Unendliche gehen können, wie z.B. die Anzahl der Kinder einer Person.
Stetige Daten, wie z.B. die Körpergröße, sind dadurch charakterisiert, dass theoretisch unendlich viele verschiedene Werte innerhalb eines Intervalls als Ausprägung vorkommen können. Bei der Körpergröße ist dieses Intervall das der reellen Zahlen (obwohl man es wohl auf das Intervall von 0cm bis 300cm beschränken kann)–in diesem Intervall kann jede denkbare Zahl mit beliebig vielen Nachkommastellen als Ausprägung vorkommen – zum Beispiel 178,42525342…cm.
Einen Sonderfall bilden sogenannte quasi-stetige Daten, die zwar theoretisch stetig sind, aber nur gerundet gemessen werden, wie z.B. das Nettoeinkommen, das auf Cent gerundet wird. Sie werden aber in fast allen Fällen genauso wie stetige Daten behandelt.
Außerdem trifft man ab und zu auf stetig klassierte Daten, also Daten, die in Rohform eigentlich stetig sind, aber in Gruppen zusammengefasst wurden. Das kann z.B. aus Anonymitätsgründen passieren – In Fragebögen wird etwa fast nie nach dem genauen Einkommen in Euro gefragt, sondern immer eine Auswahlliste gegeben, die z.B. so aussieht:
- bis 800 Euro
- 801 bis 1500 Euro
- 1501 bis 2500 Euro
- über 2500 Euro
Die Klassen müssen nicht gleich breit sein, aber sie dürfen sich natürlich nicht überlappen.
Skalentypen
Eine weitere Möglichkeit der Unterscheidung kann man anhand der Skala vornehmen. Dabei unterscheidet man die Art und Anzahl der Werte, die eine Variable annehmen kann.
Nominalskalierte Merkmale haben nur eine endliche Menge von Ausprägungen und können nicht nach irgendeiner Rangfolge geordnet werden. Ein Beispiel ist bei einer Prüfung von Autos das Merkmal „Farbe“. Statistische Software wie SPSS ordnet den einzelnen Ausprägungen zwar Zahlen zu, aber man kann nicht sagen, dass die Zahl 2 (also etwa die Farbe „blau“) besser sei als die Zahl 1 (etwa „rot“).
Ordinalskalierte Daten haben–wie Nominaldaten auch–nur eine endliche Zahl von möglichen Ausprägungen. Allerdings können sie in eine natürliche Rangfolge gebracht werden. Meistens sind dies Antworten in einem Test, die auf einer Skala wie etwa trifft sehr zu / trifft eher zu / trifft eher nicht zu / trifft nicht zu gegeben werden. Man kann hier allerdings keine Abstände zwischen den einzelnen Ausprägungen interpretieren, sondern nur sagen, dass eine Ausprägung größer als die andere ist.
Intervallskalierte Daten können unendlich viele Ausprägungen annehmen. Meist handelt es sich um die reellen Zahlen. Auf einer Intervallskala kann man Abstände, also Differenzen bilden, allerdings hat diese Skala keinen Nullpunkt. Und ohne Nullpunkt kann man keine Verhältnisse bilden. Typisches Beispiel für diese Skala ist unsere Temperaturskala in Grad Celsius. Man kann Differenzen bilden („morgen wird es 10 Grad kälter als heute“), aber keine Verhältnisse („morgen wird es doppelt so kalt wie heute“). Wenn es heute null Grad hat, wie kalt ist dann „doppelt so kalt“?
Verhältnisskalierte Daten haben im Unterschied zur Intervallskala einen absoluten Nullpunkt. Diesen Nullpunkt gibt es bei der Temperatur in Celsius oder dem Intelligenzquotienten nämlich nicht, daher kann man dort nicht sinnvoll sagen, es sei „doppelt so heiß“ wie gestern, oder jemand ist „doppelt so klug“ wie jemand anderes.
Bei der Verhältnisskala gibt es nun so einen Nullpunkt. Die meisten stetigen Daten sind verhältnisskaliert, da es dort eine Null gibt. Beispiele hierfür sind das Einkommen, Zeiten, Längen bzw. Größen, uvm. Mit solchen Daten kann man nun wirkliche Verhältnisse bilden, also „doppelt so lang“ oder „ein doppelt so hohes Einkommen“ sagen.
Beispielaufgabe
Entscheide für die folgenden Merkmale, ob sie stetig oder diskret sind, und ordne sie der entsprechenden Skala (Nominal-, ordinal-, intervall- oder verhältnisskaliert) zu.
a) Buchbewertungen auf einer Webseite, 0 bis 5 Sterne
b) Intelligenzquotient
c) Farbe eines Autos
d) Alter in Jahren
e) Anteil schwarzer Autos (in %), die an einem Tag über eine Kreuzung fahren
f) Blutgruppe (A, B, AB, oder 0)
g) Kleidergröße (S, M, L, XL)
h) Jahreszahlen auf einem Kalender
i) Produzierte Menge Kaffee in Südamerika pro Jahr
Vielen lieben Dank für diese tolle Erklärung, die sogar noch mit einer Aufgabe verbunden ist!
Ich hätte aber noch eine Frage zu dem Intelligenzquotienten. Als Lösung wird stetig und intervallskaliert angegeben. Dass das intervallskaliert ist, ist klar. Immerhin bedeutet 150 IQ nicht doppelt so schlau wie 75 IQ. Aber warum ist das stetig? IQ-Werte werden nur in ganzen Zahlen angegeben und auch wenn es jetzt keinen maximalen Wert gibt (es wird trotzdem keinen Menschen mit einem IQ von 500 geben), so sind die Werte zumindest abzählbar unendlich. Ich würde sagen, das ist diskret. Die Werte befinden sich schließlich zwischen 0 und, sagen wir mal, 300. das sind also 300 môgliche Werte.
Salut, auch ich finde den Artikel sehr aufschlussreich. Danke dafür. Nur bei der Standardabweichung des IQs weiß ich, dass diese nicht 10 sondern 15 beträgt.
Herzlichst!
Hallo Alex,
selten habe ich eine so gute Erklärung zu Skalenniveaus gefunden!
Leider haben viele Studenten Probleme damit, wobei es doch recht simpel ist.
Deine Übersicht eignet sich bestens, um den Stoff zu vermitteln – vielen Dank dafür!
Viele Grüße –
Gert W.
Hallo,
ich habe bei einer Umfrage viele nominalskalierte Daten. Kann ich hier eine Normalverteilung darstellen? Mein Prof meinte, ich solle erstmal eine Prüfung auf Normalverteilung machen und dann bräuchte ich nur die Mittwlwerte. Wie soll ich die bei Nominaldaten bilden?
Hi,
bei nominalskalierten Daten gehen keine Mittelwerte. Man kann sie auch nicht als Normalverteilung darstellen. Ich glaube, da hat dein Prof was anderes gemeint 🙂
Hallo Alex,
die Erklärungen auf deiner Seite sind wirklich absolut klasse! Danke dafür.
Ich habe aber dennoch eine Frage. In der Sozialwissenschaft werden häufig Fragen gestellt, die mit „stimme voll zu“, „stimme eher zu“, „unentschlossen“, „stimme eher nicht zu“ und „stimme gar nicht zu“ beantwortet werden müssen. Eigentlich wäre dies ordinalskaliert. Ist es aber nicht so, dass man dies für Berechnungen (in dem man die Bewertung in Zahlen umwandelt) auch als intervallskaliert ansehen kann, weil man davon ausgehen kann, dass die Abstände innerhalb der Antwort gleich sind?
Danke vorab!!
Ganz streng gesehen darf man das nicht, aber es wird regelmäßig trotzdem gemacht, damit man z.B. Mittelwerte zwischen Gruppen vergleichen kann.
VG,
Alex
Hallo Alex,
hierzu habe ich eine weiterführende Frage: bedeutet deine Antwort dann ebenfalls, dass ich mit meinen (eigentlich ordinalskalierten) Daten auch Auswertungsmethoden für kardinale Datensätze benutzen darf wie Bestimmtheitsmaß oder den Korrelationskoeffizient nach Pearson und nicht nur den Rangkorrelationskoeffizienten nach Spearman?
Ich habe meinen ordinalskalierten Datensatz (n=44) (wie der urspr. Fragesteller), aber schon mit einer zahlenmäßigen Bewertung versehen für Mittelwert, Standardabweichungen etc.
Danke wieder mal vorab.
Grüße Theo
Ich denke, solche Methoden auf kardinalen Daten sind in Ordnung, ja. Es geht allerdings oft Information verloren, da man die Daten „besser“ verwerten kann wenn man Methoden verwendet, die ausnutzen dass die Daten ordinalskaliert sind.
VG
Alex
Hallo,
mir ist absolut nicht klar, warum qualitative Merkmale (z.B. Farbe eines Autos) diskret sein können? Kann es nicht sein, dass ein Merkmal weder diskret noch stetig ist?
Hallo,
was genau ist dir nicht klar? Diskret bedeutet ja grob gesagt „begrenzt viele Auswahlmöglichkeiten“. Das ist wohl bei allen qualitativen Merkmalen so.
Hast du ein Beispiel für ein Merkmal das weder diskret noch stetig sein soll?
Hallo Alex!
Das ist wirklich eine super Seite!!! Sie hat mir schon sehr weitergeholfen. Total spannend und sehr verständlich beschrieben!
Eine Frage habe ich allerdings: Es gibt Testmethoden für die Evaluation therapeutischer Interventionen. Z.B. Ein Test, der die Gleichgewichtsfunktion abbildet. Er hat mehrere Subtests wo der Proband jeweils zwischen 1 und 4 Punkten (je nach Fähigkeit) erreichen kann. Ich würde jetzt denken das die Merkmale diskret und das Skalenniveau Ordinal ist und folgern dass ich laut deinen Erklärungen theoretisch kein arithmetisches Mittel berechnen darf. In der Praxis wird das jedoch häufig getan (Studienergebnisse). Deshalb bin ich irritiert…
Was würdest du dazu sagen?
Viele Grüße
Anne
Hallo Anne,
das ist richtig. Aber in der Praxis wird es trotzdem häufig gemacht. Stell dir einen Notenschnitt aus der Schule vor, das ist im Prinzip dasselbe. Ganz korrekt ist das nicht, aber es ist trotzdem hilfreich, daher wird über diesen kleinen formalen Fehler meistens hinweggesehen 🙂
Viele Grüße,
Alex
Hallo Alex,
erstmal vielen lieben Dank für deinen Blog! Die Infos sind super hilfreich und klasse erklärt. Ich habe mir soeben die Klausurübung angesehen und verstehe nicht ganz warum h) stetig ist. Müssten Jahreszahlen nicht abzählbar unendlich und ohne Nachkommastellen sein?
Vielen lieben Dank für deine Hilfe!
Beste Grüße
Hallo Sabrina,
du hast Recht, das ist wohl doch eher eine diskrete Variable. Ich habs gerade geändert – danke für den Hinweis 🙂
Viele Grüße,
Alex
Hallo!
Wenn man sich jetzt auf die Religionszugehörigkeit bezieht: Da ist es mir schon klar, dass es nominalskaliert ist bei katholisch, islamisch, evangelisch, etc.
Wenn da jetzt die Möglichkeit „ohne Religionszugehörigkeit“ dazu kommt, ist es dann trotzdem noch nominalskaliert?
Klar, immernoch nominal skaliert. Alle anderen Skalen machen immernoch keinen Sinn 🙂
Erste Frage: Und zwar, warum ist bei d, die Antwort „Diskret“? Es müsste doch eigentlich „Stetig“ sein.
Du schreibst ja: „Stetige Daten, wie z.B. die Körpergröße, sind dadurch charakterisiert, dass alle Werte innerhalb eines Intervalls als Ausprägung vorkommen können“
Wenn man von der Minute an rechnet wo ein Baby den Mutterleib verlässt, kann der Mensch kann nur zwischen 0 und maximal 120 Jahren alt werden. Das ist ein eindeutig eingerenzter Bereich – alle Werte können innerhalb dieses Intervalls vorkommen, genau wie bei der Körpergröße, die genau wie das Alter eingegrenzt ist. Wo ist mein Denkfehler?
2. Frage und zwar: Ich finde deine Beschreibung der diskreten Daten auch etwas verwirrend: „Diskrete Daten sind definiert als Daten, die endlich oder abzählbar unendlich viele Ausprägungen haben. Abzählbar unendlich heißt hier, dass es sich meist um Zähldaten handelt, die theoretisch ins Unendliche gehen können, wie z.B. die Anzahl der Kinder einer Person.“ – Also ein Mann könnte natürlich unendlich viele Kinder haben, aber bei einer Frau kann man doch berechnen, ab dem Punkt ihrer Geschlechtsreife bis zu ihren Wechseljahren, wie viele Kinder sie theoretisch bekommen könnte. Dieses Beispiel wäre aus meiner (nicht bewanderten) Sichtweise auch nicht eindeutig. Verhältnisskaliert ( also absoluter Nullpunkt vorhanden) und „Diskret“(weil endlich?) für Frauen? ;für Männer ( weil abzählbar unendlich)?
Danke schon mal im Voraus. Bin ein schwieriger Fall, deswegen nehm dir die Kritik nicht zu herzen 😉 Deine Seite hilft mir übrigens sehr, trotz einiger Unklarheiten.
Hello!
Zu 1): Ich habe den Artikel im Abschnitt „Stetige Daten“ gerade aktualisiert – ich hoffe das klärt die Unklarheiten 🙂
Zu 2): So ganz eindeutig ist die Sache nie. Ein Einkommen wird meistens als stetig angesehen, hat aber doch nur auf Cent genaue Beträge – also diskrete Ausprägungen. Ich würde sagen, bei diesen Aufgabentypen darf man nicht zu weit in diese Probleme reindenken, und im Fall „Kinderzahl“ einfach alles von 0 bis \(\infty\) als möglich ansehen 🙂
Hey,
wie ist es, wenn die ZV bspw X: Anzahl der nicht mehr einsatzbereiten Fahrzeuge in % ist?
Hi Robert,
ich würde sagen, stetig und verhältnisskaliert. Ich hab die Aufgabe unten im Artikel entsprechend ergänzt, das ist hoffentlich hilfreich.
Gruß,
Alex
Hey Alex, Danke erstmal für die schnelle Antwort.
„Beim Autoverleiher Hans fällt unfallbedingt jedes dritte Fahrzeug aus.
Die Wahrscheinlichkeit, dass ein Fahrzeug bei Rückgabe nicht vollgetankt wurde, liegt bei 15 %.
Die Wahrscheinlichkeit, dass das Fahrzeug unfallbedingt ausfällt und nicht vollgetankt wurde, beträgt 5 %.
Die Standardabweichung für unfallbedingten Ausfall ist 17 % und die für nicht vollgetankte Rückgabe 4 %.“
Für obige Aufgabe würde ich die ZV’s folgendermaßen definieren:
Xquer: Anzahl der durchschnittl. nicht mehr einsatzbereiten Fahrzeuge in %
V: Anzahl der nicht vollgetankten nicht mehr einsatzbereiten Fahrzeuge in %
U: Anzahl der unfallbedingt nicht mehr einsatzbereiten Fahrzeuge in %
Handelt es sich hier also um stetige ZV’s da Anzahl in% stetig oder ist Anzahl in% in diesem Fall diskret?
Danke für deine Hilfe!
Dumme Frage zu den Intervallskalierte Daten: Warum hat die Temperaturskala keinen Nullpunkt? Kälter wie -273,xx°C sollte es nicht werden. Ist das nicht nur eine Definitionssache?
Hi Florian,
es gibt auf der Skala in Grad Celisius zwar eine kleinstmögliche Temperatur, aber der Nullpunkt hat keine „sinnvolle“ Bedeutung, sondern wurde willkürlich gewählt.
Auf der Kelvin-Skala hätte man so einen natürlichen Nullpunkt. Man kann sagen dass 200K zweimal so heiß ist wie 100K, auch wenn das für uns nicht viel wert ist. Auf der Celsius-Skala kann man das nicht sagen. Es gibt z.B. kein „doppelt so heiß wie 20°C“.
Wenn du Körpergrößen misst, und eine Person ist doppelt so groß wie eine andere, macht es keinen Unterschied ob du in Zoll, Fuß, oder Meter misst: Die zweite Person hat immer den doppelten Wert der ersten. Bei Temperaturskalen (Celsius, Fahrenheit, Kelvin) ist das aber nicht der Fall.
Gruß,
Alex
Hallo,
ich verstehe nicht genau warum Buchbewertungen von 0-5 Sterne nicht Intervallskaliert sind, man kann doch Abstände bilden z.B. zwischen 5 Sternen und 1 Stern. Und bei den Schulnoten von 1-6 wäre das doch theoretisch genauso oder was verstehe ich da falsch ? 😀
Danke im Voraus schonmal!
Man könnte Abstände bilden, aber sie sind nicht sinnvoll. Also, 2 Sterne sind nicht doppelt so gut wie 1 Stern, und 4 Sterne sind nicht doppelt so gut wie 2 Sterne. Es ist einfach nur eine Reihenfolge ohne interpretierbare Abstände.
VG,
Alex