8. Voraussetzungen der Regression
Die Anwendung der Regressionsanalyse stellt einige Anforderungen an die Qualität der Daten und die Gültigkeit der getroffenen Annahmen. Die wichtigsten dieser Anforderungen werden hier kurz skizziert.
- Normalverteilung: Sowohl die X-Werte als auch die Y-Werte sollten für sich genommen annähernd normal verteilt sein. Ob das der Fall ist, lässt sich mit Histrogrammen überprüfen.
- Linearität: Die lineare univariate Regression, wie sie hier vorgestellt wurde, unterstellt die Linearität der Beziehung zwischen den Variablen, d.h. man sollte zumindest annäherungsweise von einer Linearität der Beziehung ausgehen können. Kontrollieren lässt sich das durch ein Streudiagramm.
- Homoskedastizität: Die Varianz der Verteilung der abhängigen Variablen muss für alle Werte der unabhängigen Variablen konstant sein (Annahme der sog. Homoskedastizität), d.h. mit steigenden Werten der unabhängigen Variablen sollten die Werte der abhängigen Variablen nicht weiter streuen. Ist dies der Fall, liegt eine sog, Heteroskedastizität vor. Auch dies lässt sich mit Hilfe eines Streudiagramms überprüfen.
- Unabhängigkeit der Daten und der Fehler e: Alle Daten sollten unabhängig voneinander sein, d.h. die Fälle sollten nicht untereinander korrelieren. Der Wert X4 sollte also nicht einfach von X3 abgeleitet werden können. Das gilt auch für die Fehler oder Residuen e. Ob eine sog. Autokorrelation vorliegt, kann mit dem Durbin-Watson-Koeffizienten geprüft werden, der von den meisten Statistik-Programmen berechnet wird.