Archiv der Kategorie: Grundlagen

Das Produktzeichen und Rechenregeln

Das Pendant zum Summenzeichen \Sigma für die Multiplikation ist das Produktzeichen \Pi, ein großes Pi. Mit diesem Zeichen kann man Multiplikationen über viele Variablen zusammenfassen. Statt ausführlich 1 \cdot 2 \cdot 3 \cdot 4 \cdot 5 zu schreiben, kann man einfach eine Zählvariable i von 1 bis 5 laufen lassen, und diese Zählvariablen multiplizieren:

 \prod_{i=1}^5 i = 1 \cdot 2 \cdot 3 \cdot 4 \cdot 5

Diese Notation ist übrigens äquivalent zur Fakultät von 5. Es ist also x! = \prod_{i=1}^x i.

Wenn man nicht über Ganzzahlen, sondern z.B. gemessene Daten x_1,x_2,x_3,x_4,x_5 multiplizieren möchte, kann man auch über den Index der Variablen x laufen:

 \prod_{i=1}^5 x_i =x_1 \cdot x_2 \cdot x_3 \cdot x_4 \cdot x_5

Da sich hinter dem Produktzeichen eine ganz normale Multiplikation verbirgt, gelten dafür dieselben Rechenregeln wie für die normale Multiplikation:

  1. Nach dem Distributivgesetz kann man bei der Multiplikation die Reihenfolge der Faktoren vertauschen. Es gilt also z.B. x_1 \cdot y_1 \cdot x_2 \cdot y_2 =x_1 \cdot x_2 \cdot y_1 \cdot y_2. Genauso gilt das Distributivgesetz auch mit dem Produktzeichen:

     \prod_{i=1}^n (x_iy_i) = \prod_{i=1}^n x_i \cdot \prod_{i=1}^n y_i

    Wenn man diese Formel anhand eines kurzen Beispielfalls ausschreibt, sieht man, dass hier tatsächlich nur die Reihenfolge vertauscht wurde.
  2. Wenn man eine konstante Zahl n-mal mit sich selbst multipliziert, erhält man ihre n-te Potenz:

     \prod_{i=1}^n c = c^n

    Die Zahl c ist hier nicht vom Index i abhängig. Daher wird einfach nur c multipliziert. Es gilt also \prod_i c = c \cdot c \cdot \ldots \cdot c = c^n.
  3. Man kann ebenso eine Konstante aus einem Produkt herausziehen, wenn noch andere Faktoren mit dabei stehen. Es gilt also zum Beispiel

     \prod_{i=1}^3 c x_i = c x_1 \cdot c x_2 \cdot c x_3 = c^3 \prod_{i=1}^3 x_i

    Allgemein ausgedrückt lautet diese Formel

     \prod_{i=1}^n c x_i = c^n \prod_{i=1}^n x_i

Exponentialfunktion und Logarithmusfunktion

Potenzen

Bevor wir Polynome und Exponentialfunktionen besprechen, frischen wir die Grundlagen über Potenzen nocheinmal auf.

Potenzen sind, einfach ausgedrückt, eine Kurzschreibweise für wiederholte Multiplikation. Genauso wie man statt 4+4+4+4+4 einfach kurz 5\cdot 4 schreiben kann, so kann man 3\cdot 3\cdot 3\cdot 3\cdot 3 durch 3^5 abkürzen. Hier bezeichnet man die 3 als Basis, und die 5 als Exponent.
Der Sonderfall x^0=1 ist so definiert, da wir quasi "null" Multiplikationen vornehmen, also nur das bei der Multiplikation neutrale Element 1 übrigbleibt.

Negative Exponenten verwendet man für wiederholte Division. Es gilt also z.B.

 2^{-4} = 1 \div 2 \div 2 \div 2 \div 2 = \frac{1}{2^4}

Brüche als Exponenten bezeichnen Wurzeln. Zum Beispiel bedeutet 5^\frac{1}{2} dasselbe wie \sqrt{5}, und 2^\frac{1}{3} ist gleichbedeutend mit \sqrt[3]{2}.
Falls im Zähler des Bruches eine andere Zahl als 1 steht, ist das die Potenz der Basis unter dem Bruch:

 2^\frac{3}{4} = \sqrt[4]{2^3}

Reelle Exponenten, also zum Beispiel 3^{3.1415926\ldots}, sind nicht mehr ganz so intuitiv zu erklären. Man kann sich den Exponenten am besten als Interpolation zweier ihm nahe liegender Brüche vorstellen.

Rechenregeln für Potenzen gibt es einige. Die wichtigsten sind in der folgenden Übersicht zusammengefasst – links die allgemeine Regel, rechts ein veranschaulichendes Beispiel:

x^a \cdot x^b = x^{a+b} x^3 \cdot x^2 = x \cdot x \cdot x \cdot x \cdot x = x^5 = x^{2+3}
\frac{x^a}{x^b} = x^{a-b} \frac{x^4}{x^2} = \frac{x \cdot x \cdot x \cdot x}{x \cdot x} = x^2 = x^{4-2}
(x^r)^s = x^{r\cdot s} (x^2)^2 = x^2 \cdot x^2 = x \cdot x \cdot x \cdot x = x^{2\cdot 2}
\left(\frac{x}{y}\right)^r = \frac{x^r}{y^r} \left(\frac{x}{y}\right)^3 = \frac{x}{y}\frac{x}{y}\frac{x}{y} = \frac{x^3}{y^3}
(x\cdot y)^r = x^r \cdot y^r (x\cdot y)^2 = (x\cdot y) \cdot (x\cdot y) = x^2 y^2

Exponentialfunktion

Die Exponentialfunktion ist eine in der Statistik sehr häufig verwendete Funktion, denn sie kommt in den meisten stetigen und diskreten Dichten vor. Was es damit auf sich hat, werden wir hier besprechen.

Die meisten sind wohl vertraut mit Polynomialfunktionen wie f(x) = x^3. Hier ist die Basis (hier x) die Variable, und der Exponent (hier 3) eine konstante Zahl. Die dazugehörigen Kurven sehen beispielsweise wie folgt aus:

Beispiele für Polynomfunktionen: Die Kurven für x^a mit a=1,2,3,4,5.

Von der Polynomfunktion zur Exponentialfunktion gelangt man nun, wenn man nicht die Basis variiert, sondern den Exponenten. Wir nehmen also nicht f(x)=x^2, sondern stattdessen f(x)=2^x. Exponentialfunktionen sehen wie folgt aus:

Die Exponentialfunktionen für die Basis 1, 2, e, und 3. Die Funktion f(x)=1^x ist konstant 1, da z.B. 1^3=1 ist.

Hier fallen die folgenden DInge auf:

  • Alle Exponentialfunktionen haben an der Stelle 0 den Wert 1, da a^0=1, egal für welches a.
  • Im negativen Bereich nehmen die Funktionen Werte zwischen 0 und 1 an, da die negativen Exponenten in diesem Bereich wie oben besprochen zu einem Bruch führen, der kleiner als 1 ist.
  • Je größer die Basis ist, desto steiler steigt die Exponentialfunktion an.

Die Funktionen haben den Definitionsbereich \mathbb{R}, denn jede reelle Zahl kann im Exponenten stehen. Weil die Funktion aber nur Werte im positiven Bereich liefert, ist ihr Wertebereich \mathbb{R}^+, die reellen Zahlen größer als Null.

Eine besondere Basis ist die eulersche Zahl e. Sie ist ungefähr e \approx 2.71828 und wird in Dichtefunktionen häufig als Basis verwendet. Dargestellt wird sie häufig in Termen wie e^{-\frac{1}{2}x^2}, oder in der alternativen Schreibweise \exp (-\frac{1}{2}x^2).

Rechenregeln für die Exponentialfunktion lassen sich anhand der Rechenregeln für Potenzen ableiten. Da, wie oben besprochen, zum Beispiel x^a \cdot x^b = x^{a+b} gilt, ist genauso mit der Basis e die folgende Gleichung gültig: \exp (a) \cdot \exp (b) = \exp (a+b).

Mit dem Summenzeichen kann man diese Formel noch auf längere Summen erweitern, und es gilt:

 \prod_{i=1}^n \exp (x_i) = \exp (\sum_{i=1}^n x_i)

Logarithmusfunktion

Der Logarithmus ist die Umkehrfunktion zur Exponentialfunktion. Mit einer Umkehrfunktion kann man eine Transformation quasi rückgängig machen. Es ist zum Beispiel die Wurzelfunktion die Umkehrfunktion zur Quadratfunktion, denn mit ihr kann man eine Quadrierung wieder rückgängig machen:

 \begin{align*} 3^2 &= 9 \\ \sqrt{9} &= 3 \end{align*}

Genauso kann man mit dem Logarithmus einer Zahl, der als \log (x) dargestellt wird, eine Exponentialfunktion wieder rückgängig machen. Es ist also zum Beispiel

 \begin{align*} \exp (3) &\approx 20.086 \\ \log (20.086) &\approx 3 \end{align*}

In diesem Beispiel interpretiert man den Logarithmus so: "e hoch wieviel ist 20.086?". Der Logarithmus gibt die Antwort auf diese Frage.

asd

Auf der linken Grafik sieht man die Exponentialfunktion f(x) = \exp (x). Hier kann man ablesen, dass \exp (3) in etwa 20 ist. Auf der rechten Grafik ist die Logarithmusfunktion, f(x) = \log (x), dargestellt. Hier kann man die erhaltenen 20 wieder umkehren in \log (20) \approx 3.

Genauso wie es bei Exponentialfunktionen eine Basis gibt (wie z.B. die Basis 10 bei der Funktion f(x) = 10^x, so bezieht sich auch ein Logarithmus immer auf eine Basis. Der natürliche Logarithmus, den wir bisher betrachtet haben, bezieht sich auf die Basis e. Die verbreitetsten anderen Logarithmen ist der Zweierlogarithmus mit der Basis 2, und der Zehnerlogarithmus mit der Basis 10. Am eindeutigsten notiert man den Logarithmus, indem man die Basis unter das Log-Symbol schreibt, also z.B. \log_{10} oder \log_2. Wenn keine Zahl als Basis hinzugefügt wurde, meint ein "nacktes" \log-Symbol zumindest im statistischen Bereich immer den natürlichen Logarithmus, zur Basis e. In manchen angewandten Gebieten kann damit allerdings auch der Zehnerlogarithmus gemeint sein, dort wird dann \ln für den natürlichen Logarithmus verwendet. Wegen dieser Möglichkeit der Verwechslung ist es empfohlen, die Basis immer explizit dazuzuschreiben.

Der Zehnerlogarithmus ist besonders leicht zu interpretieren, da die Zehnerpotenzen (10, 100, 1000, usw.) eine ganze Zahl ergeben. Er findet oft in Grafiken Anwendung, wo er zur Transformation von Daten verwendet wird, die man in ihrer untransformierten Darstellung schlecht erkennen kann. Das sind meistens Daten, die eine schiefe Verteilung haben – als Beispiele kann man sich das Nettoeinkommen in einer großen Firma, oder die Einwohnerzahl aller deutschen Städte vorstellen.

asdf

Die Einwohnerzahlen aller deutschen Großstädte (>100.000 Einwohner). Oben sieht man die untransformierten Daten, und eine sehr schiefe Verteilung, in der sich fast alle Punkte zwischen 100.000 und 500.000 aufhalten. Die vier Städte rechts der 1MIo-Marke sind Berlin, Hamburg, München und Köln. In der unteren Grafik sind die Daten nur mit dem Zehnerlogarithmus transformiert. Man hat hier eine bessere Übersicht über die Streuung der Daten in den niedrigen Bereichen. Da \log_{10} (1.000.000) = 6 ist, sind die vier Millionenstädte in der unteren Grafik die, die rechts der 6.0 liegen.

Da das Ergebnis einer Exponentialfunktion nur positiv sein kann, kann man umgekehrt den Logarithmus auch nur von einer positiven Zahl nehmen. Ein Wert wie z.B. \log (-3) ist nicht definiert. Der Definitionsbereich für die Logarithmusfunktion ist also \mathbb{R}^+, die gesamten positiven reellen Zahlen. Der Wertebereich hingegen sind die gesamten reellen Zahlen \mathbb{R}.

Rechenregeln für den Logarithmus gibt es natürlich auch. Die wichtigsten sind in der folgenden Tabelle zusammengefasst, wobei links die allgemeine Regel, und rechts eine Anwendung der Regel steht:

Regel Beispiel
\log \left( \exp (x) \right) = x \log_{10}(10^8) = 8
\exp \left( \log (x) \right) = x 10^{\log_{10}(8)} = 8
\log ( x \cdot y ) = \log (x) + \log (y) \log (\prod_{i=1}^n x_i) = \sum_{i=1}^n \log (x_i)
\log ( \frac{x}{y} ) = \log (x) - \log (y) \log (\frac{1}{3}) = \log (1) - \log (3)
\log (x^r) = r \cdot \log (x) \log (\sqrt{x}) = \log (x^{\frac{1}{2}}) = \frac{1}{2} \log (x)

Fakultät und Binomialkoeffizient

Diese beiden Konstrukte werden in der Kombinatorik häufiger gebraucht. Es handelt sich im Prinzip nur um abkürzende Schreibweisen.

Die Fakultät wird durch ein nachgestelltes Ausrufezeichen dargestellt und ist eine bestimmte Art von Produkt:

 N! = 1 \cdot 2 \cdot \ldots \cdot N

So ist die Fakultät von 5 also 1\cdot 2\cdot 3\cdot 4\cdot 5 = 120. Die Fakultät von 0 ist ein Spezialfall und definiert als 0! = 1.

Ein nützlicher Fakt, mit dem man super ein erstes Date platzen lassen kann, ist dieser: Es gibt genau  10! Sekunden innerhalb eines Zeitraums von 6 Wochen. Die Herleitung geht so: Die Anzahl der Sekunden in 6 Wochen ist 6 (Wochen) \cdot 7 (Tage) \cdot 24 (Stunden) \cdot 60 (Minuten) \cdot 60 (Sekunden). Durch Aufteilen mancher Zahlen in kleinere Faktoren erhält man dann:

 6 \cdot 7 \cdot 24 \cdot 60 \cdot 60 =6\cdot 7 \cdot (8 \cdot 3) \cdot (3 \cdot 2 \cdot 10) \cdot ( 1 \cdot 3 \cdot 4 \cdot 5) = 10!

Man kann auch Produkte in dieser Kurzschreibweise ausdrücken, die nicht bei 1 beginnen. Das Produkt 8\cdot 7\cdot 6\cdot 5 kann man als \frac{8!}{4!} schreiben, weil sich die Faktoren 4, 3, 2, 1 im Nenner wieder wegkürzen:

 \frac{8!}{4!} = \frac{8\cdot 7\cdot 6\cdot 5\cdot 4\cdot 3\cdot 2\cdot 1}{4\cdot 3\cdot 2\cdot 1} = 8\cdot 7\cdot 6\cdot 5

In einem späteren Beispiel zur Lottoziehung möchten wir wissen, was 49\cdot 48\cdot 47\cdot 46\cdot 45\cdot 44 ist: \frac{49!}{43!}

Der Binomialkoeffizient ist eine verkürzende Schreibweise für eine häufig benutzte Formel in der Kombinatorik:

 {N \choose k} = \frac{N!}{k!\cdot (N-k)!}

Man spricht dieses Konstrukt als "N über k" oder "k aus N" aus.

Das Summenzeichen und Rechenregeln

Das grosse Sigma (\Sigma) wird verwendet, um längere Summen in einer kurzen Schreibweise darzustellen. Meist wird das Zeichen verwendet, wenn man Kennziffern oder Teststatistiken für eine Stichprobe ausrechnet.

Wir werden hier als Beispiel das Lebensalter von fünf ARD-Zuschauern betrachten, und daraus einen Mittelwert berechnen.

Person i i=1 i=2 i=3 i=4 i=5
Alter x_i 87 134 77 97 68

Wir messen hier das Merkmal x, welches das Alter darstellen soll. Der Index i wird benutzt, um das Alter einer einzelnen Person darzustellen, zum Beispiel steht x_3 für das Alter der dritten Person, x_3=77.

Der Mittelwert \bar{x} lässt sich nun folgendermaßen berechnen:

 \bar{x} = \frac{1}{n} (x_1 + x_2 + x_3 + x_4 + x_5) = \frac{1}{n} \sum_{i=1}^n x_i

Das bedeutet nun, dass i eine Zählvariable ist, die von 1 bis n läuft (wir haben fünf Personen, also ist n=5). Es wird für jede Zählvariable i die Teilsumme x_i gebildet, und am Ende aufsummiert. In unserem Fall ist die Summe in ausgeschriebener Form:

 \begin{align*} \frac{1}{n} \sum_{i=1}^5 x_i & = \frac{1}{n} (x_1+x_2+x_3+x_4+x_5) \\ & = \frac{1}{5} (87+134+77+97+68) \\ & = 92.6 \end{align*}

Rechenregeln mit dem Summenzeichen

Man sollte vielleicht im Hinterkopf halten, dass Summen manchmal in einer abgekürzten Schreibweise aufgeschrieben werden. Wenn klar ist, über welche Zahlen die Zählvariable i laufen soll, findet man das Summenzeichen oft in Kurzform, zum Beispiel

\sum_{i=1}^n (x_i - \mu)^2 = \sum_i (x_i-\mu)^2.

Falls hinter dem Summenzeichen keine Klammer steht, die anzeigt, "wie weit" die Summe geht, gilt im Allgemeinen diese Regel: Produkte und Potenzen gehören noch zum Summenzeichen dazu, aber ab dem ersten Plus bzw. Minus ist die Summe zu Ende:

\sum_{i=1}^3 i\cdot 2^2 + 5 = (1\cdot 2^2 + 2\cdot 2^2 + 3\cdot 2^2) + 5

Wenn man eine Summe, die durch das \Sigma dargestellt wird, in Gedanken in eine "normale" Summe zerlegt, kann man die folgenden Rechenregeln leicht nachvollziehen, da sie direkt von ausgeschriebenen Summen abgeleitet werden können:

  • \sum_i a \cdot x_i = a \cdot \sum_i x_i
  • \sum_i (x_i + y_i) = \sum_i x_i + \sum_i y_i
  • \sum_i (a x_i + b y_i) = \sum_i a x_i + \sum_i b y_i = a \sum_i x_i + b \sum_i y_i

Die erste Regel in dieser Liste ist das bekannte Ausklammern, und lässt sich nachvollziehen indem man die Summe ausschreibt:

\begin{align*}\sum_i a \cdot x_i & = & a x_1 + a x_2 + a x_3 + \ldots \\ & = & a \cdot (x_1 + x_2 + x_3 + \ldots) \\ & = & a \cdot \sum_i x_i\end{align*}

Die anderen Regeln kann man auf dieselbe Weise ausschreiben und nachvollziehen.

Aufgabe

Stellen wir uns vor, es steht eine große Torte auf dem Tisch. Nacheinander laufen nun sehr, sehr viele Leute daran vorbei, und jeder nimmt sich die Hälfte von dem, das im Moment noch übrig ist. Die erste Person nimmt sich also die halbe Torte, die zweite Person die Hälfte vom Rest, d.h. eine Viertel Torte, die nächste Person nimmt sich ein Achtel, usw.

Die Torte wird nie komplett aufgegessen, aber doch immer kleiner. Den gesamten Anteil der Torte , der nach n Personen schon gegessen wurde, kann man durch eine Summe ausdrücken:

 \sum_{i=1}^n \frac{1}{2^i}

Um den Umgang mit dem Summenzeichen zu erlernen, bestimme, welcher Anteil der Torte nach n=3 Personen aufgegessen wurde.

summenzeichen-kuchen

Wieviel wurde schon gegessen, nachdem Person 1, 2, und 3 sich nacheinander die Hälfte vom Rest abgeschnitten haben?

Lösung (klick)

Objektivität, Reliabilität, Validität

Man sollte beim Sammeln seiner Daten nicht unüberlegt handeln, sondern geschickt vorgehen. "Geschickte Datenerhebung" bedeutet, dass man sich bei der Datenerhebung bewußt sein sollte, wie seine Daten zustande kommen, also wer wie was misst.

Drei häufig verwendete Stichworte sind in diesem Zusammenhang die Objektivität (das wer), die Reliabilität (das wie) und die Validität (das was). Es handelt sich hier um drei Prinzipien, die man bei der Erhebung seiner Daten beachten sollte, um gute, verwertbare Daten zu erhalten.

Das Prinzip der Objektivität besagt, dass das Resultat dieser Messung unabhängig von der messenden Person sein soll. Fragestellungen, die dem Interviewer einen gewissen Spielraum zur Interpretation lassen, sollte man also noch einmal überarbeiten.

Mit der Reliabilität (oder Zuverlässigkeit) einer Messung ist gemeint, dass Daten so definiert bzw. erhoben werden sollen, dass bei einer eventuellen wiederholten Messung am selben Merkmal dieselbe Ausprägung entsteht. Zum Beispiel kann die Körpergröße einer Person sehr reliabel gemessen werden, eine Antwort auf die Frage "Wie geht es Ihnen heute?" (gut / okay / weniger gut / schlecht) aber nicht.

Die Validität gibt an, wie gut sich eine Variable zur Beantwortung der eigentlichen Fragestellung eignet. Ein Test bestehend aus zwanzig Grundrechenaufgaben etwa ist sehr valide, falls man sich für Mathematikkenntnisse von Grundschülern interessiert. Derselbe Test wiederum ist aber alles andere als valide für Wortschatzkenntnisse.

Griechische Buchstaben

Statistische Kennziffern werden oft mit griechischen Buchstaben
ausgedrückt. Die folgende Tabelle zeigt das große und kleine griechische Alphabet und
wie man die Buchstaben ausspricht. Für manche Buchstaben gibt es zwei
verschiedene Schreibweisen; in dem Fall sind beide Varianten abgebildet.

A \alpha Alpha N \nu Ny
B \beta Beta \Xi \xi Xi
\Gamma \gamma Gamma O o Omikron
\Delta \delta Delta \Pi \pi Pi
E \epsilon, \varepsilon Epsilon P \rho, \varrho Rho
Z \zeta Zeta \Sigma \sigma, \varsigma Sigma
H \eta Eta T \tau Tau
\Theta \theta, \vartheta Theta \Upsilon \upsilon Ypsilon
I \iota Iota \Phi \phi, \varphi Phi
K \kappa Kappa X \chi Chi
\Lambda \lambda Lambda \Psi \psi Psi
M \mu My \Omega \omega Omega

Merkmals- und Skalentypen

Das Wichtigste in Kürze

Die Unterscheidungen diskret–stetig bzw. nominal–ordinal–intervallskaliert–verhältnisskaliert sind zwei verschiedene Möglichkeiten, ein Merkmal zu beschreiben.  Meistens benutzt man allerdings nur die Bezeichnungen "nominal", "ordinal" und "stetig", bzw. "diskret" für verhältnisskalierte Zähldaten.

Merkmals-/Skalentyp Beispiele
Diskret Kinderzahl, Studiendauer in Semestern
Stetig Körpergröße, Nettoeinkommen
Nominalskaliert Geschlecht, Religionszugehörigkeit
Ordinalskaliert Letzte Englischnote, Testantwort auf einer Skala gut–mittel–schlecht
Intervallskaliert Temperatur in Celsius, Intelligenzquotient
Verhältnisskaliert Geschwindigkeit, Einkommen

Bei der Erhebung, Auswertung und Interpretation von Merkmalen gibt es viele Methoden, die oft nur bei bestimmten Merkmalstypen möglich oder sinnvoll sind. Wir werten zum Beispiel die Größe einer Person anders aus als die Religionszugehörigkeit oder den Vornamen.

Merkmalstypen: Diskrete und stetige Merkmale

Für den praktischen Umgang mit Daten ist meist nur interessant, ob es sich um diskrete oder stetige Daten handelt, da diese Unterscheidung bestimmt, mit welchen Methoden man vorgeht. Diskrete Daten sind definiert als Daten, die endlich oder abzählbar unendlich viele Ausprägungen haben. Abzählbar unendlich heißt hier, dass es sich meist um Zähldaten handelt, die theoretisch ins Unendliche gehen können, wie z.B. die Anzahl der Kinder einer Person.

Stetige Daten, wie z.B. die Körpergröße, sind dadurch charakterisiert, dass theoretisch unendlich viele verschiedene Werte innerhalb eines Intervalls als Ausprägung vorkommen können. Bei der Körpergröße ist dieses Intervall das der reellen Zahlen (obwohl man es wohl auf das Intervall von 0cm bis 300cm beschränken kann)–in diesem Intervall kann jede denkbare Zahl mit beliebig vielen Nachkommastellen als Ausprägung vorkommen - zum Beispiel 178,42525342...cm.

Einen Sonderfall bilden sogenannte quasi-stetige Daten, die zwar theoretisch stetig sind, aber nur gerundet gemessen werden, wie z.B. das Nettoeinkommen, das auf Cent gerundet wird. Sie werden aber in fast allen Fällen genauso wie stetige Daten behandelt.

Außerdem trifft man ab und zu auf stetig klassierte Daten, also Daten, die in Rohform eigentlich stetig sind, aber in Gruppen zusammengefasst wurden. Das kann z.B. aus Anonymitätsgründen passieren - In Fragebögen wird etwa fast nie nach dem genauen Einkommen in Euro gefragt, sondern immer eine Auswahlliste gegeben, die z.B. so aussieht:

  • bis 800 Euro
  • 801 bis 1500 Euro
  • 1501 bis 2500 Euro
  • über 2500 Euro

Die Klassen müssen nicht gleich breit sein, aber sie dürfen sich natürlich nicht überlappen.

Skalentypen

Eine weitere Möglichkeit der Unterscheidung kann man anhand der Skala vornehmen. Dabei unterscheidet man die Art und Anzahl der Werte, die eine Variable annehmen kann.

Nominalskalierte Merkmale haben nur eine endliche Menge von Ausprägungen und können nicht nach irgendeiner Rangfolge geordnet werden. Ein Beispiel ist bei einer Prüfung von Autos das Merkmal "Farbe". Statistische Software wie SPSS ordnet den einzelnen Ausprägungen zwar Zahlen zu, aber man kann nicht sagen, dass die Zahl 2 (also etwa die Farbe "blau") besser sei als die Zahl 1 (etwa "rot").

Ordinalskalierte Daten haben–wie Nominaldaten auch–nur eine endliche Zahl von möglichen Ausprägungen. Allerdings können sie in eine natürliche Rangfolge gebracht werden. Meistens sind dies Antworten in einem Test, die auf einer Skala wie etwa trifft sehr zu / trifft eher zu / trifft eher nicht zu / trifft nicht zu gegeben werden. Man kann hier allerdings keine Abstände zwischen den einzelnen Ausprägungen interpretieren, sondern nur sagen, dass eine Ausprägung größer als die andere ist.

Intervallskalierte Daten können alle Ausprägungen innerhalb eines Intervalls annehmen. Meist handelt es sich um die reellen Zahlen. Auf einer Intervallskala kann man Abstände, also Differenzen bilden, allerdings hat diese Skala keinen Nullpunkt. Und ohne Nullpunkt kann man keine Verhältnisse bilden. Typisches Beispiel für diese Skala ist unsere Temperaturskala in Grad Celsius. Man kann Differenzen bilden ("morgen wird es 10 Grad kälter als heute"), aber keine Verhältnisse ("morgen wird es doppelt so kalt wie heute"). Wenn es heute null Grad hat, wie kalt ist dann "doppelt so kalt"?

Verhältnisskalierte Daten haben im Unterschied zur Intervallskala einen absoluten Nullpunkt. Diesen Nullpunkt gibt es bei der Temperatur in Celsius oder dem Intelligenzquotienten nämlich nicht, daher kann man dort nicht sinnvoll sagen, es sei "doppelt so heiß" wie gestern, oder jemand ist "doppelt so klug" wie jemand anderes.

Bei der Verhältnisskala gibt es nun so einen Nullpunkt. Die meisten stetigen Daten sind verhältnisskaliert, da es dort eine Null gibt. Beispiele hierfür sind das Einkommen, Zeiten, Längen bzw. Größen, uvm. Mit solchen Daten kann man nun wirkliche Verhältnisse bilden, also "doppelt so lang" oder "ein doppelt so hohes Einkommen" sagen.

Klausuraufgabe

Entscheide für die folgenden Merkmale, ob sie stetig oder diskret sind, und ordne sie der entsprechenden Skala (Nominal-, ordinal-, intervall- oder verhältnisskaliert) zu.

a) Buchbewertungen auf einer Webseite, 0 bis 5 Sterne
b) Intelligenzquotient
c) Farbe eines Autos
d) Alter in Jahren
e) Anteil schwarzer Autos (in %), die an einem Tag über eine Kreuzung fahren
f) Blutgruppe (A, B, AB, oder 0)
g) Kleidergröße (S, M, L, XL)
h) Jahreszahlen auf einem Kalender
i) Produzierte Menge Kaffee in Südamerika pro Jahr

Lösung (klick)

Grundgesamtheit, Stichprobe, Merkmale

Das sind die drei wichtigsten Begriffe, wenn man von erhobenen Daten spricht: Grundgesamtheit, Stichprobe, Merkmale. Erklärt werden sollen die Begriffe am Beispiel eines Mathematik- und Wortschatztests bei Grundschülern in München.

Man interessiert sich also für die Mathematikkenntnisse und den Wortschatz in einer Grundgesamtheit–hier sind das alle Münchner Viertklässler. Da man jedoch (z.B. aus finanziellen Gründen) nicht alle Schüler befragen kann, zieht man eine Stichprobe von drei Klassen aus drei verschiedenen Schulen und testet nur 90 Schüler. Jeder dieser Schüler bildet eine statistische Einheit. Die interessierenden Merkmale sind Mathematikkenntnisse und Wortschatz, die z.B. durch einen Score auf einer Skala von 0 bis 100 gemessen werden. Die Merkmalsausprägung ist dann ein bestimmter Wert auf dieser Skala–für einen Schüler und ein Merkmal, z.B. den Wortschatz beim dritten befragten Schüler.

Begriff Erklärung Beispiel
Grundgesamtheit Die Menge an statistischen Einheiten, über die man Aussagen treffen möchte Viertklässler in München
Stichprobe Alle untersuchten Einheiten zusammengefasst drei zufällig ausgewählte Klassen
statistische Einheit eine einzelne zu untersuchende Einheit einer der befragten Schüler
Merkmal Die Variablen der statistischen Einheiten, die untersucht werden Wortschatz, Mathematikkenntnisse
Merkmalsausprägung Der gemessene Wert eines bestimmten Merkmals an einer Einheit der Stichprobe Wortschatz: 87%