Archiv für den Monat: Juli 2013

Das Summenzeichen und Rechenregeln

Das grosse Sigma (\(\Sigma\)) wird verwendet, um längere Summen in einer kurzen Schreibweise darzustellen. Meist wird das Zeichen verwendet, wenn man Kennziffern oder Teststatistiken für eine Stichprobe ausrechnet.

Wir werden hier als Beispiel das Lebensalter von fünf ARD-Zuschauern betrachten, und daraus einen Mittelwert berechnen.

Person \(i\) \(i=1\) \(i=2\) \(i=3\) \(i=4\) \(i=5\)
Alter \(x_i\) 87 134 77 97 68

Wir messen hier das Merkmal \(x\), welches das Alter darstellen soll. Der Index \(i\) wird benutzt, um das Alter einer einzelnen Person darzustellen, zum Beispiel steht \(x_3\) für das Alter der dritten Person, \(x_3=77\).

Der Mittelwert \(\bar{x}\) lässt sich nun folgendermaßen berechnen:

\[ \bar{x} = \frac{1}{n} (x_1 + x_2 + x_3 + x_4 + x_5) = \frac{1}{n} \sum_{i=1}^n x_i \]

Das bedeutet nun, dass \(i\) eine Zählvariable ist, die von 1 bis \(n\) läuft (wir haben fünf Personen, also ist \(n=5\)). Es wird für jede Zählvariable \(i\) die Teilsumme \(x_i\) gebildet, und am Ende aufsummiert. In unserem Fall ist die Summe in ausgeschriebener Form:

\[ \begin{align*} \frac{1}{n} \sum_{i=1}^5 x_i & = \frac{1}{n} (x_1+x_2+x_3+x_4+x_5) \\ & = \frac{1}{5} (87+134+77+97+68) \\ & = 92.6 \end{align*} \]

Rechenregeln mit dem Summenzeichen

Man sollte vielleicht im Hinterkopf halten, dass Summen manchmal in einer abgekürzten Schreibweise aufgeschrieben werden. Wenn klar ist, über welche Zahlen die Zählvariable \(i\) laufen soll, findet man das Summenzeichen oft in Kurzform, zum Beispiel
\[\sum_{i=1}^n (x_i – \mu)^2 = \sum_i (x_i-\mu)^2.\]

Falls hinter dem Summenzeichen keine Klammer steht, die anzeigt, „wie weit“ die Summe geht, gilt im Allgemeinen diese Regel: Produkte und Potenzen gehören noch zum Summenzeichen dazu, aber ab dem ersten Plus bzw. Minus ist die Summe zu Ende:
\[\sum_{i=1}^3 i\cdot 2^2 + 5 = (1\cdot 2^2 + 2\cdot 2^2 + 3\cdot 2^2) + 5\]

Wenn man eine Summe, die durch das \(\Sigma\) dargestellt wird, in Gedanken in eine „normale“ Summe zerlegt, kann man die folgenden Rechenregeln leicht nachvollziehen, da sie direkt von ausgeschriebenen Summen abgeleitet werden können:

  • \(\sum_i a \cdot x_i = a \cdot \sum_i x_i\)
  • \(\sum_i (x_i + y_i) = \sum_i x_i + \sum_i y_i\)
  • \(\sum_i (a x_i + b y_i) = \sum_i a x_i + \sum_i b y_i = a \sum_i x_i + b \sum_i y_i\)

Die erste Regel in dieser Liste ist das bekannte Ausklammern, und lässt sich nachvollziehen indem man die Summe ausschreibt:

\[\begin{align*}\sum_i a \cdot x_i & = a x_1 + a x_2 + a x_3 + \ldots \\ & = a \cdot (x_1 + x_2 + x_3 + \ldots) \\ & = a \cdot \sum_i x_i\end{align*}\]

Die anderen Regeln kann man auf dieselbe Weise ausschreiben und nachvollziehen.

Aufgabe

Stellen wir uns vor, es steht eine große Torte auf dem Tisch. Nacheinander laufen nun sehr, sehr viele Leute daran vorbei, und jeder nimmt sich die Hälfte von dem, das im Moment noch übrig ist. Die erste Person nimmt sich also die halbe Torte, die zweite Person die Hälfte vom Rest, d.h. eine Viertel Torte, die nächste Person nimmt sich ein Achtel, usw.

Die Torte wird nie komplett aufgegessen, aber doch immer kleiner. Den gesamten Anteil der Torte , der nach \(n\) Personen schon gegessen wurde, kann man durch eine Summe ausdrücken:

\[ \sum_{i=1}^n \frac{1}{2^i} \]

Um den Umgang mit dem Summenzeichen zu erlernen, bestimme, welcher Anteil der Torte nach \(n=3\) Personen aufgegessen wurde.

summenzeichen-kuchen

Wieviel wurde schon gegessen, nachdem Person 1, 2, und 3 sich nacheinander die Hälfte vom Rest abgeschnitten haben?

Lösung (klick)

Bei drei Personen sieht die Formel ausgeschrieben so aus:

\[\sum_{i=1}^3 \frac{1}{2^i}= \frac{1}{2^1} + \frac{1}{2^2} + \frac{1}{2^3}= \frac{1}{2} + \frac{1}{4} + \frac{1}{8} = \frac{7}{8} \]

Nachdem sich drei Personen bedient haben, sind also \(\frac{7}{8}\) des Kuchens schon aufgegessen.

Objektivität, Reliabilität, Validität

Drei häufig verwendete Stichworte, die man im Zusammenhang mit der Datenerhebung hört, sind die Objektivität (das wer), die Reliabilität (das wie) und die Validität (das was). Es handelt sich hier um drei Prinzipien, die man bei der Erhebung seiner Daten beachten sollte, um gute, verwertbare Daten zu erhalten.

Man sollte nämlich beim Sammeln seiner Daten nicht unüberlegt handeln, sondern geschickt vorgehen. „Geschickte Datenerhebung“ bedeutet, dass man sich bei der Datenerhebung bewußt sein sollte, wie seine Daten zustande kommen, also wer wie was misst.

Das Prinzip der Objektivität besagt, dass das Resultat dieser Messung unabhängig von der messenden Person sein soll. Fragestellungen, die dem Interviewer einen gewissen Spielraum zur Interpretation lassen, sollte man also noch einmal überarbeiten. Bei einer objektiven Messung ist es im Idealfall egal, wenn man mitten während der Datenerhebung die Person austauscht, die die Daten misst. Eine Briefwaage um das Gewicht eines Pakets zu messen, ist z.B. sehr objektiv, aber die Beurteilung der Attraktivität einer Person durch eine andere Person ist nicht sehr objektiv.

Mit der Reliabilität (oder Zuverlässigkeit) einer Messung ist gemeint, dass Daten so definiert bzw. erhoben werden sollen, dass bei einer eventuellen wiederholten Messung am selben Merkmal dieselbe Ausprägung entsteht. Zum Beispiel kann die Körpergröße einer Person sehr reliabel gemessen werden, eine Antwort auf die Frage „Wie geht es Ihnen heute?“ (gut / okay / weniger gut / schlecht) aber nicht.

Die Validität gibt an, wie gut sich eine Variable zur Beantwortung der eigentlichen Fragestellung eignet. Ein Test bestehend aus zwanzig Grundrechenaufgaben etwa ist sehr valide, falls man sich für Mathematikkenntnisse von Grundschülern interessiert. Derselbe Test wiederum ist aber alles andere als valide für Wortschatzkenntnisse.

Alle drei Begriffe sind wichtig, um eine solide Datenerhebung zu erhalten, und die drei Fragen, ob eine Datenerhebung objektiv, reliabell, und valide ist, sollten auch jedesmal separat beantwortet werden können, damit die Ergebnisse der darauf folgenden Analyse dann auch verwertbar sind.

Griechische Buchstaben

Statistische Kennziffern werden oft mit griechischen Buchstaben ausgedrückt. Statt einem \(x\) findet man dann eben z.B. ein \(\lambda\) in einer Formel, wovon man sich aber nicht verunsichern lassen sollte. Bei so vielen Kennzahlen sind uns einfach irgendwann unsere Buchstaben ausgegangen, und wir mussten auf das griechische Alphabet ausweichen 🙂

Die folgende Tabelle zeigt das große und kleine griechische Alphabet und wie man die Buchstaben ausspricht. Für manche Buchstaben gibt es zwei verschiedene Schreibweisen; in dem Fall sind beide Varianten abgebildet.

\(A\) \(\alpha\) Alpha \(N\) \(\nu\) Ny
\(B\) \(\beta\) Beta \(\Xi\) \(\xi\) Xi
\(\Gamma\) \(\gamma\) Gamma \(O\) \(o\) Omikron
\(\Delta\) \(\delta\) Delta \(\Pi\) \(\pi\) Pi
\(E\) \(\epsilon, \varepsilon\) Epsilon \(P\) \(\rho, \varrho\) Rho
\(Z\) \(\zeta\) Zeta \(\Sigma\) \(\sigma, \varsigma\) Sigma
\(H\) \(\eta\) Eta \(T\) \(\tau\) Tau
\(\Theta\) \(\theta, \vartheta\) Theta \(\Upsilon\) \(\upsilon\) Ypsilon
\(I\) \(\iota\) Iota \(\Phi\) \(\phi, \varphi\) Phi
\(K\) \(\kappa\) Kappa \(X\) \(\chi\) Chi
\(\Lambda\) \(\lambda\) Lambda \(\Psi\) \(\psi\) Psi
\(M\) \(\mu\) My \(\Omega\) \(\omega\) Omega

Merkmals- und Skalentypen

Das Wichtigste in Kürze

Die Unterscheidungen diskret–stetig bzw. nominal–ordinal–intervallskaliert–verhältnisskaliert sind zwei verschiedene Möglichkeiten, ein Merkmal zu beschreiben.  Meistens benutzt man allerdings nur die Bezeichnungen „nominal“, „ordinal“ und „stetig“, bzw. „diskret“ für verhältnisskalierte Zähldaten.

Merkmals-/Skalentyp Beispiele
Diskret Kinderzahl, Studiendauer in Semestern
Stetig Körpergröße, Nettoeinkommen
Nominalskaliert Geschlecht, Religionszugehörigkeit
Ordinalskaliert Letzte Englischnote, Testantwort auf einer Skala gut–mittel–schlecht
Intervallskaliert Temperatur in Celsius, Intelligenzquotient
Verhältnisskaliert Geschwindigkeit, Einkommen

Bei der Erhebung, Auswertung und Interpretation von Merkmalen gibt es viele Methoden, die oft nur bei bestimmten Merkmalstypen möglich oder sinnvoll sind. Wir werten zum Beispiel die Größe einer Person anders aus als die Religionszugehörigkeit oder den Vornamen.

Merkmalstypen: Diskrete und stetige Merkmale

Für den praktischen Umgang mit Daten ist meist nur interessant, ob es sich um diskrete oder stetige Daten handelt, da diese Unterscheidung bestimmt, mit welchen Methoden man vorgeht. Diskrete Daten sind definiert als Daten, die endlich oder abzählbar unendlich viele Ausprägungen haben. Abzählbar unendlich heißt hier, dass es sich meist um Zähldaten handelt, die theoretisch ins Unendliche gehen können, wie z.B. die Anzahl der Kinder einer Person.

Stetige Daten, wie z.B. die Körpergröße, sind dadurch charakterisiert, dass theoretisch unendlich viele verschiedene Werte innerhalb eines Intervalls als Ausprägung vorkommen können. Bei der Körpergröße ist dieses Intervall das der reellen Zahlen (obwohl man es wohl auf das Intervall von 0cm bis 300cm beschränken kann)–in diesem Intervall kann jede denkbare Zahl mit beliebig vielen Nachkommastellen als Ausprägung vorkommen – zum Beispiel 178,42525342…cm.

Einen Sonderfall bilden sogenannte quasi-stetige Daten, die zwar theoretisch stetig sind, aber nur gerundet gemessen werden, wie z.B. das Nettoeinkommen, das auf Cent gerundet wird. Sie werden aber in fast allen Fällen genauso wie stetige Daten behandelt.

Außerdem trifft man ab und zu auf stetig klassierte Daten, also Daten, die in Rohform eigentlich stetig sind, aber in Gruppen zusammengefasst wurden. Das kann z.B. aus Anonymitätsgründen passieren – In Fragebögen wird etwa fast nie nach dem genauen Einkommen in Euro gefragt, sondern immer eine Auswahlliste gegeben, die z.B. so aussieht:

  • bis 800 Euro
  • 801 bis 1500 Euro
  • 1501 bis 2500 Euro
  • über 2500 Euro

Die Klassen müssen nicht gleich breit sein, aber sie dürfen sich natürlich nicht überlappen.

Skalentypen

Eine weitere Möglichkeit der Unterscheidung kann man anhand der Skala vornehmen. Dabei unterscheidet man die Art und Anzahl der Werte, die eine Variable annehmen kann.

Nominalskalierte Merkmale haben nur eine endliche Menge von Ausprägungen und können nicht nach irgendeiner Rangfolge geordnet werden. Ein Beispiel ist bei einer Prüfung von Autos das Merkmal „Farbe“. Statistische Software wie SPSS ordnet den einzelnen Ausprägungen zwar Zahlen zu, aber man kann nicht sagen, dass die Zahl 2 (also etwa die Farbe „blau“) besser sei als die Zahl 1 (etwa „rot“).

Ordinalskalierte Daten haben–wie Nominaldaten auch–nur eine endliche Zahl von möglichen Ausprägungen. Allerdings können sie in eine natürliche Rangfolge gebracht werden. Meistens sind dies Antworten in einem Test, die auf einer Skala wie etwa trifft sehr zu / trifft eher zu / trifft eher nicht zu / trifft nicht zu gegeben werden. Man kann hier allerdings keine Abstände zwischen den einzelnen Ausprägungen interpretieren, sondern nur sagen, dass eine Ausprägung größer als die andere ist.

Intervallskalierte Daten können unendlich viele Ausprägungen annehmen. Meist handelt es sich um die reellen Zahlen. Auf einer Intervallskala kann man Abstände, also Differenzen bilden, allerdings hat diese Skala keinen Nullpunkt. Und ohne Nullpunkt kann man keine Verhältnisse bilden. Typisches Beispiel für diese Skala ist unsere Temperaturskala in Grad Celsius. Man kann Differenzen bilden („morgen wird es 10 Grad kälter als heute“), aber keine Verhältnisse („morgen wird es doppelt so kalt wie heute“). Wenn es heute null Grad hat, wie kalt ist dann „doppelt so kalt“?

Verhältnisskalierte Daten haben im Unterschied zur Intervallskala einen absoluten Nullpunkt. Diesen Nullpunkt gibt es bei der Temperatur in Celsius oder dem Intelligenzquotienten nämlich nicht, daher kann man dort nicht sinnvoll sagen, es sei „doppelt so heiß“ wie gestern, oder jemand ist „doppelt so klug“ wie jemand anderes.

Bei der Verhältnisskala gibt es nun so einen Nullpunkt. Die meisten stetigen Daten sind verhältnisskaliert, da es dort eine Null gibt. Beispiele hierfür sind das Einkommen, Zeiten, Längen bzw. Größen, uvm. Mit solchen Daten kann man nun wirkliche Verhältnisse bilden, also „doppelt so lang“ oder „ein doppelt so hohes Einkommen“ sagen.

Beispielaufgabe

Entscheide für die folgenden Merkmale, ob sie stetig oder diskret sind, und ordne sie der entsprechenden Skala (Nominal-, ordinal-, intervall- oder verhältnisskaliert) zu.

a) Buchbewertungen auf einer Webseite, 0 bis 5 Sterne
b) Intelligenzquotient
c) Farbe eines Autos
d) Alter in Jahren
e) Anteil schwarzer Autos (in %), die an einem Tag über eine Kreuzung fahren
f) Blutgruppe (A, B, AB, oder 0)
g) Kleidergröße (S, M, L, XL)
h) Jahreszahlen auf einem Kalender
i) Produzierte Menge Kaffee in Südamerika pro Jahr

Lösung (klick)
a) Diskret, ordinalskaliert
b) Stetig, intervallskaliert. Der IQ wurde so konstruiert, dass dessen Verteilung eine Normalverteilung mit Mittelwert 100 und Standardabweichung 10 hat. Der durchschnittliche Mensch hat also einen IQ von 100. Hier kann man auch keine Verhältnisse bilden: Eine Aussage wie „doppelt so klug“ ginge zwar mathematisch, macht aber (wie bei der Temperatur in Celsius) keinen Sinn.
c) Diskret, nominalskaliert
d) Diskret, verhältnisskaliert
e) Stetig, verhältnisskaliert. Es können zwar nur Werte zwischen 0 und 1 (bzw. 0% und 100%) angenommen werden, aber die Verhältnisskala ist trotzdem gegeben.
f) Diskret, nominalskaliert
g) Diskret, ordinalskaliert. Die Reihenfolge der Größen ist klar, aber es gibt keine klar definierten Abstände zwischen den Größen. Selbst wenn es eine „Übersetzungstabelle“ gibt, in der steht, dass eine Hose der Größe L z.B. 90cm lang ist: Man kann keinen Mittelwert aus „L“ und „M“ berechnen.
h) Diskret, intervallskaliert. Der Nullpunkt, also „Jahr null“, ist auf einem Kalender willkürlich gewählt, und unterscheidet sich ja in verschiedenen Religionen. Man könnte eventuell argumentieren, dass ein Kalender, der beim Urknall beginnt, als verhältnisskaliert angesehen werden kann, aber bei unserem Kalender ist auf jeden Fall nur eine Intervallskala gegeben. Das Jahr 1000 n. Chr. ist ja nicht „doppelt so spät“ wie das Jahr 500 n. Chr.
i) Stetig, verhältnisskaliert. Das ist eine klare, physikalisch messbare Menge mit Nullpunkt.

Grundgesamtheit, Stichprobe, Merkmale

Wenn man Daten erhebt und sie auswerten möchte, dann gibt es drei grundlegende Begriffe, deren Unterschiede man genau kennen muss: Grundgesamtheit, Stichprobe, und Merkmale. Wir schauen uns diese drei Begriffe hier genauer an, und erklären sie anhand eines Beispiels: Es soll bei ein paar ausgewählten Klassen von Grundschülern ein Test in Mathematik, und ein Wortschatztest durchgeführt werden. Ziel der Analyse ist es, Informationen über die Mathematik- und Wortschatzkenntnisse aller Grundschüler aus München zu erfahren.

Man interessiert sich also für die Mathematikkenntnisse und den Wortschatz in einer Grundgesamtheit–hier sind das alle Münchner Viertklässler. Da man jedoch (z.B. aus finanziellen Gründen) nicht alle Schüler befragen kann, zieht man eine Stichprobe von drei Klassen aus drei verschiedenen Schulen und testet nur 90 Schüler. Jeder dieser Schüler bildet eine statistische Einheit (oft auch Beobachtung genannt). Die interessierenden Merkmale sind Mathematikkenntnisse und Wortschatz, die z.B. durch einen Score auf einer Skala von 0 bis 100 gemessen werden. Die Merkmalsausprägung ist dann ein bestimmter Wert auf dieser Skala–für einen Schüler und ein Merkmal, z.B. den Wortschatz beim dritten befragten Schüler.

Die folgende Tabelle fasst die Unterschiede nocheinmal zusammen:

Begriff Erklärung Beispiel
Grundgesamtheit Die Menge an statistischen Einheiten, über die man Aussagen treffen möchte Viertklässler in München
Stichprobe Alle untersuchten Einheiten zusammengefasst drei zufällig ausgewählte Klassen
statistische Einheit eine einzelne zu untersuchende Einheit einer der befragten Schüler
Merkmal Die Variablen der statistischen Einheiten, die untersucht werden Wortschatz, Mathematikkenntnisse
Merkmalsausprägung Der gemessene Wert eines bestimmten Merkmals an einer Einheit der Stichprobe Wortschatz: 87%