Merkmals- und Skalentypen

Das Wichtigste in Kürze

Die Unterscheidungen diskret–stetig bzw. nominal–ordinal–intervallskaliert–verhältnisskaliert sind zwei verschiedene Möglichkeiten, ein Merkmal zu beschreiben.  Meistens benutzt man allerdings nur die Bezeichnungen "nominal", "ordinal" und "stetig", bzw. "diskret" für verhältnisskalierte Zähldaten.

Merkmals-/Skalentyp Beispiele
Diskret Kinderzahl, Studiendauer in Semestern
Stetig Körpergröße, Nettoeinkommen
Nominalskaliert Geschlecht, Religionszugehörigkeit
Ordinalskaliert Letzte Englischnote, Testantwort auf einer Skala gut–mittel–schlecht
Intervallskaliert Temperatur in Celsius, Intelligenzquotient
Verhältnisskaliert Geschwindigkeit, Einkommen

Bei der Erhebung, Auswertung und Interpretation von Merkmalen gibt es viele Methoden, die oft nur bei bestimmten Merkmalstypen möglich oder sinnvoll sind. Wir werten zum Beispiel die Größe einer Person anders aus als die Religionszugehörigkeit oder den Vornamen.

Merkmalstypen: Diskrete und stetige Merkmale

Für den praktischen Umgang mit Daten ist meist nur interessant, ob es sich um diskrete oder stetige Daten handelt, da diese Unterscheidung bestimmt, mit welchen Methoden man vorgeht. Diskrete Daten sind definiert als Daten, die endlich oder abzählbar unendlich viele Ausprägungen haben. Abzählbar unendlich heißt hier, dass es sich meist um Zähldaten handelt, die theoretisch ins Unendliche gehen können, wie z.B. die Anzahl der Kinder einer Person.

Stetige Daten, wie z.B. die Körpergröße, sind dadurch charakterisiert, dass theoretisch unendlich viele verschiedene Werte innerhalb eines Intervalls als Ausprägung vorkommen können. Bei der Körpergröße ist dieses Intervall das der reellen Zahlen (obwohl man es wohl auf das Intervall von 0cm bis 300cm beschränken kann)–in diesem Intervall kann jede denkbare Zahl mit beliebig vielen Nachkommastellen als Ausprägung vorkommen - zum Beispiel 178,42525342...cm.

Einen Sonderfall bilden sogenannte quasi-stetige Daten, die zwar theoretisch stetig sind, aber nur gerundet gemessen werden, wie z.B. das Nettoeinkommen, das auf Cent gerundet wird. Sie werden aber in fast allen Fällen genauso wie stetige Daten behandelt.

Außerdem trifft man ab und zu auf stetig klassierte Daten, also Daten, die in Rohform eigentlich stetig sind, aber in Gruppen zusammengefasst wurden. Das kann z.B. aus Anonymitätsgründen passieren - In Fragebögen wird etwa fast nie nach dem genauen Einkommen in Euro gefragt, sondern immer eine Auswahlliste gegeben, die z.B. so aussieht:

  • bis 800 Euro
  • 801 bis 1500 Euro
  • 1501 bis 2500 Euro
  • über 2500 Euro

Die Klassen müssen nicht gleich breit sein, aber sie dürfen sich natürlich nicht überlappen.

Skalentypen

Eine weitere Möglichkeit der Unterscheidung kann man anhand der Skala vornehmen. Dabei unterscheidet man die Art und Anzahl der Werte, die eine Variable annehmen kann.

Nominalskalierte Merkmale haben nur eine endliche Menge von Ausprägungen und können nicht nach irgendeiner Rangfolge geordnet werden. Ein Beispiel ist bei einer Prüfung von Autos das Merkmal "Farbe". Statistische Software wie SPSS ordnet den einzelnen Ausprägungen zwar Zahlen zu, aber man kann nicht sagen, dass die Zahl 2 (also etwa die Farbe "blau") besser sei als die Zahl 1 (etwa "rot").

Ordinalskalierte Daten haben–wie Nominaldaten auch–nur eine endliche Zahl von möglichen Ausprägungen. Allerdings können sie in eine natürliche Rangfolge gebracht werden. Meistens sind dies Antworten in einem Test, die auf einer Skala wie etwa trifft sehr zu / trifft eher zu / trifft eher nicht zu / trifft nicht zu gegeben werden. Man kann hier allerdings keine Abstände zwischen den einzelnen Ausprägungen interpretieren, sondern nur sagen, dass eine Ausprägung größer als die andere ist.

Intervallskalierte Daten können alle Ausprägungen innerhalb eines Intervalls annehmen. Meist handelt es sich um die reellen Zahlen. Auf einer Intervallskala kann man Abstände, also Differenzen bilden, allerdings hat diese Skala keinen Nullpunkt. Und ohne Nullpunkt kann man keine Verhältnisse bilden. Typisches Beispiel für diese Skala ist unsere Temperaturskala in Grad Celsius. Man kann Differenzen bilden ("morgen wird es 10 Grad kälter als heute"), aber keine Verhältnisse ("morgen wird es doppelt so kalt wie heute"). Wenn es heute null Grad hat, wie kalt ist dann "doppelt so kalt"?

Verhältnisskalierte Daten haben im Unterschied zur Intervallskala einen absoluten Nullpunkt. Diesen Nullpunkt gibt es bei der Temperatur in Celsius oder dem Intelligenzquotienten nämlich nicht, daher kann man dort nicht sinnvoll sagen, es sei "doppelt so heiß" wie gestern, oder jemand ist "doppelt so klug" wie jemand anderes.

Bei der Verhältnisskala gibt es nun so einen Nullpunkt. Die meisten stetigen Daten sind verhältnisskaliert, da es dort eine Null gibt. Beispiele hierfür sind das Einkommen, Zeiten, Längen bzw. Größen, uvm. Mit solchen Daten kann man nun wirkliche Verhältnisse bilden, also "doppelt so lang" oder "ein doppelt so hohes Einkommen" sagen.

Klausuraufgabe

Entscheide für die folgenden Merkmale, ob sie stetig oder diskret sind, und ordne sie der entsprechenden Skala (Nominal-, ordinal-, intervall- oder verhältnisskaliert) zu.

a) Buchbewertungen auf einer Webseite, 0 bis 5 Sterne
b) Intelligenzquotient
c) Farbe eines Autos
d) Alter in Jahren
e) Anteil schwarzer Autos (in %), die an einem Tag über eine Kreuzung fahren
f) Blutgruppe (A, B, AB, oder 0)
g) Kleidergröße (S, M, L, XL)
h) Jahreszahlen auf einem Kalender
i) Produzierte Menge Kaffee in Südamerika pro Jahr

Lösung (klick)

13 Gedanken zu „Merkmals- und Skalentypen

  1. Sabrina

    Hallo Alex,
    erstmal vielen lieben Dank für deinen Blog! Die Infos sind super hilfreich und klasse erklärt. Ich habe mir soeben die Klausurübung angesehen und verstehe nicht ganz warum h) stetig ist. Müssten Jahreszahlen nicht abzählbar unendlich und ohne Nachkommastellen sein?
    Vielen lieben Dank für deine Hilfe!
    Beste Grüße

    Antworten
    1. AlexAlex Beitragsautor

      Hallo Sabrina,
      du hast Recht, das ist wohl doch eher eine diskrete Variable. Ich habs gerade geändert - danke für den Hinweis 🙂
      Viele Grüße,
      Alex

      Antworten
  2. Ela

    Hallo!
    Wenn man sich jetzt auf die Religionszugehörigkeit bezieht: Da ist es mir schon klar, dass es nominalskaliert ist bei katholisch, islamisch, evangelisch, etc.
    Wenn da jetzt die Möglichkeit "ohne Religionszugehörigkeit" dazu kommt, ist es dann trotzdem noch nominalskaliert?

    Antworten
  3. wing

    Erste Frage: Und zwar, warum ist bei d, die Antwort "Diskret"? Es müsste doch eigentlich "Stetig" sein.
    Du schreibst ja: "Stetige Daten, wie z.B. die Körpergröße, sind dadurch charakterisiert, dass alle Werte innerhalb eines Intervalls als Ausprägung vorkommen können"
    Wenn man von der Minute an rechnet wo ein Baby den Mutterleib verlässt, kann der Mensch kann nur zwischen 0 und maximal 120 Jahren alt werden. Das ist ein eindeutig eingerenzter Bereich - alle Werte können innerhalb dieses Intervalls vorkommen, genau wie bei der Körpergröße, die genau wie das Alter eingegrenzt ist. Wo ist mein Denkfehler?

    2. Frage und zwar: Ich finde deine Beschreibung der diskreten Daten auch etwas verwirrend: "Diskrete Daten sind definiert als Daten, die endlich oder abzählbar unendlich viele Ausprägungen haben. Abzählbar unendlich heißt hier, dass es sich meist um Zähldaten handelt, die theoretisch ins Unendliche gehen können, wie z.B. die Anzahl der Kinder einer Person." - Also ein Mann könnte natürlich unendlich viele Kinder haben, aber bei einer Frau kann man doch berechnen, ab dem Punkt ihrer Geschlechtsreife bis zu ihren Wechseljahren, wie viele Kinder sie theoretisch bekommen könnte. Dieses Beispiel wäre aus meiner (nicht bewanderten) Sichtweise auch nicht eindeutig. Verhältnisskaliert ( also absoluter Nullpunkt vorhanden) und "Diskret"(weil endlich?) für Frauen? ;für Männer ( weil abzählbar unendlich)?

    Danke schon mal im Voraus. Bin ein schwieriger Fall, deswegen nehm dir die Kritik nicht zu herzen 😉 Deine Seite hilft mir übrigens sehr, trotz einiger Unklarheiten.

    Antworten
    1. AlexAlex Beitragsautor

      Hello!

      Zu 1): Ich habe den Artikel im Abschnitt "Stetige Daten" gerade aktualisiert - ich hoffe das klärt die Unklarheiten 🙂

      Zu 2): So ganz eindeutig ist die Sache nie. Ein Einkommen wird meistens als stetig angesehen, hat aber doch nur auf Cent genaue Beträge - also diskrete Ausprägungen. Ich würde sagen, bei diesen Aufgabentypen darf man nicht zu weit in diese Probleme reindenken, und im Fall "Kinderzahl" einfach alles von 0 bis \infty als möglich ansehen 🙂

      Antworten
    1. AlexAlex Beitragsautor

      Hi Robert,

      ich würde sagen, stetig und verhältnisskaliert. Ich hab die Aufgabe unten im Artikel entsprechend ergänzt, das ist hoffentlich hilfreich.

      Gruß,
      Alex

      Antworten
      1. Robert

        Hey Alex, Danke erstmal für die schnelle Antwort.

        "Beim Autoverleiher Hans fällt unfallbedingt jedes dritte Fahrzeug aus.
        Die Wahrscheinlichkeit, dass ein Fahrzeug bei Rückgabe nicht vollgetankt wurde, liegt bei 15 %.
        Die Wahrscheinlichkeit, dass das Fahrzeug unfallbedingt ausfällt und nicht vollgetankt wurde, beträgt 5 %.
        Die Standardabweichung für unfallbedingten Ausfall ist 17 % und die für nicht vollgetankte Rückgabe 4 %."

        Für obige Aufgabe würde ich die ZV's folgendermaßen definieren:

        Xquer: Anzahl der durchschnittl. nicht mehr einsatzbereiten Fahrzeuge in %
        V: Anzahl der nicht vollgetankten nicht mehr einsatzbereiten Fahrzeuge in %
        U: Anzahl der unfallbedingt nicht mehr einsatzbereiten Fahrzeuge in %

        Handelt es sich hier also um stetige ZV's da Anzahl in% stetig oder ist Anzahl in% in diesem Fall diskret?

        Danke für deine Hilfe!

        Antworten
  4. Florian

    Dumme Frage zu den Intervallskalierte Daten: Warum hat die Temperaturskala keinen Nullpunkt? Kälter wie -273,xx°C sollte es nicht werden. Ist das nicht nur eine Definitionssache?

    Antworten
    1. AlexAlex Beitragsautor

      Hi Florian,

      es gibt auf der Skala in Grad Celisius zwar eine kleinstmögliche Temperatur, aber der Nullpunkt hat keine "sinnvolle" Bedeutung, sondern wurde willkürlich gewählt.
      Auf der Kelvin-Skala hätte man so einen natürlichen Nullpunkt. Man kann sagen dass 200K zweimal so heiß ist wie 100K, auch wenn das für uns nicht viel wert ist. Auf der Celsius-Skala kann man das nicht sagen. Es gibt z.B. kein "doppelt so heiß wie 20°C".

      Wenn du Körpergrößen misst, und eine Person ist doppelt so groß wie eine andere, macht es keinen Unterschied ob du in Zoll, Fuß, oder Meter misst: Die zweite Person hat immer den doppelten Wert der ersten. Bei Temperaturskalen (Celsius, Fahrenheit, Kelvin) ist das aber nicht der Fall.

      Gruß,
      Alex

      Antworten
      1. David

        Hallo,
        ich verstehe nicht genau warum Buchbewertungen von 0-5 Sterne nicht Intervallskaliert sind, man kann doch Abstände bilden z.B. zwischen 5 Sternen und 1 Stern. Und bei den Schulnoten von 1-6 wäre das doch theoretisch genauso oder was verstehe ich da falsch ? 😀
        Danke im Voraus schonmal!

        Antworten
        1. AlexAlex Beitragsautor

          Man könnte Abstände bilden, aber sie sind nicht sinnvoll. Also, 2 Sterne sind nicht doppelt so gut wie 1 Stern, und 4 Sterne sind nicht doppelt so gut wie 2 Sterne. Es ist einfach nur eine Reihenfolge ohne interpretierbare Abstände.

          VG,
          Alex

          Antworten

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.