3. Vergleich einer empirischen mit einer Normalverteilung
Soll die beobachtete Verteilung eines intervall- oder proportinal skalierten Merkmals mit einer Normalverteilung verglichen
werden, so ist auch dies anhand eines univariaten oder linearen -Verfahrens möglich.
Voraussetzung ist einzig, dass wir angeben können, welche absoluten Häufigkeiten in den einzelnen Ausprägungskategorien theoretisch
zu erwarten sind, wenn das Merkmal normalverteilt ist und seine Ausprägungsgrade so kategorisiert werden, wie dies für die
beobachteten Ausprägungsgrade gemacht wurde.
Das Verfahren zur Ermittlung dieser theoretischen Verteilung ist formal sehr einfach, die numerische Realisierung aber so
aufwendig, dass derartige Vergleiche in der Regel mit einem Statistikprogramm (z.B. SPSS) durchgeführt werden.
So wollen wir uns als erstes auf rein formaler Ebene das Grundprinzip derartiger Vergleiche ansehen und ein konkretes Beispiel
dann gleich mit SPSS lösen.
Zur Erläuterung des grundsätzlichen Vorgehens diene uns folgendes Beispiel:
Ein intervall-skaliertes Merkmal wurde in 7 Ausprägungskategorien kategorisiert, als Daten liegen uns die absoluten Häufigkeiten
vor, mit denen die 7 Ausprägungskategorien beobachtet wurden. Wir möchten nun prüfen, ob sich diese empirische Verteilung
als Ganzes so stark von einer Normalverteilung unterscheidet, dass ausgeschlossen werden kann, dass die Unterschiede zwischen
den beiden Verteilungen nur zufällig zustande gekommen sind.
Wollen wir die empirische Verteilung und die theoretisch erwartete Normalverteilung mit einem univariaten -Verfahren vergleichen resp. auf einen signifikanten Unterschied prüfen, so brauchen wir Angaben über die theoretisch erwartete
Normalverteilung unseres Merkmals in den gegebenen Ausprägungskategorien.
Die theoretischen Häufigkeiten finden wir über das Modell aller Normalverteilungen, über die z-Verteilung, wie folgt:
Als erstes transformieren wir die Kategoriengrenzen der beobachteten Verteilung in die z-Verteilung. Anhand einer z-Tabelle
können wir dann die Wahrscheinlichkeiten bestimmen, mit denen der Ausprägungsgrad eines normalverteilten Merkmals in den einzelnen
Ausprägungskategorien zu erwarten ist. Diese Wahrscheinlichkeiten entsprechen - Sie erinnern sich - der Fläche unter der z-Funktion
zwischen den Kategoriengrenzen.
Nun kennen wir die relativen Häufigkeiten, mit denen die einzelnen Ausprägungskategorien zu erwarten sind, wenn das Merkmal
normalverteilt ist. Für ein lineares -Verfahren brauchen wir aber die absoluten Häufigkeiten der theoretischen Verteilung. Diese bestimmen wir einfach als Produkt
der relativen Häufigkeiten der einzelnen Ausprägungskategorien und der Gesamtzahl der beobachteten Fälle n.
Nun liegt eine empirische und eine theoretisch erwartete Verteilung vor, wir können sie anhand eines linearen Chi-Quadrat-Verfahrens
vergleichen. Dazu erinnern wir uns an folgendes:
- Keine der theoretisch erwarteten absoluten Häufigkeiten darf kleiner sein als 5. Ist dies der Fall, so müssen, falls dies aus inhaltlicher Sicht vertretbar ist, benachbarte Ausprägungskategorien zusammengelegt werden. Ein numerisches Beispiel dazu kennen Sie aus der Vorbereitungslektüre.
- Der Freiheitsgrad df der Prüfverteilung ist df = k - 3. Für die theoretische Verteilung gibt es nämlich 3 Vorgaben: Die Zahl
der Fälle, den Mittelwert und die Standardabweichung. In unserem konkreten Beispiel umfasst das Merkmal k = 7 Ausprägungskategorien.
Prüfverteilung ist also eine
-Verteilung mit dem Freiheitsgrad df = 7 - 3 = 4.
Ein 'manueller' Vergleich der beiden Verteilungen mit einem linearen -Verfahren ist nun möglich, rechentechnisch aber so aufwendig, dass wir in der Praxis ein Statistikprogramm (z.B. SPSS) einsetzen.
Diese Programme realisieren den gewünschten Vergleich aber meist nicht über ein
-Verfahren, sondern anhand verwandter Tests, die andere Prüfgrössen und andere Prüfverteilungen benutzen. Eines der wichtigsten
dieser Verfahren ist der Test nach Kolmogorov-Smirnov. Unter der Rubrik "Fallbeispiele" finden Sie ein konkretes, mit SPSS
gelöstes Beispiel.