les9
STATISTIEK VOOR HISTORICI

10. CORRELATIE EN REGRESSIE

10.1. Correlatie
10.2. Regressie


 BIJ LES 10 BEHORENDE:
Excelinstructies Opdrachten
1.  Regressie-coëfficiënt 22. Regressie
2.  Correlatie-coëfficiënt


10.1. Correlatie

De correlatierekening vergelijkt de variaties van twee variabelen gemeten op interval- of ratio-niveau. De correlatiecoëfficiënt (R) is een maat voor het gezamenlijk variëren van twee variabelen. Het kwadraat van de correlatiecoëfficiënt (R2) wordt de determinatiecoëfficiënt genoemd. Deze geeft aan welk gedeelte van de variatie in de ene variabele door de andere wordt ‘verklaard’. Men spreekt wel van ‘verklaarde variantie’.

*Let op* Het gaat hier om statistisch verklaren: de onderzoeker moet op inhoudelijke gronden bepalen of de statistische verklaring ook werkelijk iets betekent!

Inspectie van het spreidingsdiagram, waarin de twee te correleren variabelen tegen elkaar worden uitgezet, levert een indruk van de sterkte en de richting van het verband. R varieert tussen -1 en 1, R2 tussen 0 en 1.

*Let op* Bij correlatierekening wordt verondersteld dat het verband tussen de twee variabelen rechtlijnig is. Als het verband gekromd is, geeft de correlatiecoëfficiënt een vertekend beeld van het verband. Dit is ook het geval wanneer de datamatrix enkele uitschieters (extreme waarden) bevat. De vorm van de puntenwolk in het spreidingsdiagram geeft hierover uitsluitsel!


R

R2 (afgerond)

Verklaarde variantie

Interpretatie kracht verband

< 0,3 < 0,1 < 10% zeer zwak
0,3 - 0,5 0,1 - 0,25 10 - 25% zwak
0,5 - 0,7 0,25 - 0,5 25 - 50% matig
0,7 - 0,85 0,5 - 0,75 50 - 75% sterk
0,85 - 0,95 0,75 - 0,9 75 - 90% zeer sterk
> 0,95 > 0,9 > 90% uitzonderlijk sterk (suspect!)

Hoewel bij correlatierekening niet noodzakelijkerwijs sprake is van oorzaak en gevolg, is het bij het maken van een spreidingsdiagram gebruik om de ‘onafhankelijke’ variabele (de vermeende oorzaak) op de x-as te plaatsen en de afhankelijke variabele (het mogelijke gevolg) op de y-as.

De vorm van de puntenwolk geeft aan in hoeverre een verband aanwezig is: wanneer een toename in de ene variabele systematisch gepaard gaat met een toename in de andere, zal er sprake zijn van een positief verband. Als de beweging van de variabelen juist tegengesteld is, zal er sprake zijn van een negatief verband. Hoe sterker de systematiek, hoe krachtiger het verband: de puntenwolk zal dan naar een (rechte) lijn tenderen. Met behulp van regressie-analyse wordt de vorm van deze lijn berekend (zie par. 10.2). Hoe groter de afwijkingen van de lijn, hoe lager de correlatie zal zijn. De berekening van de correlatiecoëfficiënt is gebaseerd op dit principe: de (gekwadrateerde) verschillen van ieder punt tot de regressielijn moet zo klein mogelijk zijn. Men noemt deze berekeningswijze dan ook de methode van de kleinste kwadraten (least squares).

De coëfficiënt is afgeleid van de variantie van X en Y. De variantie was gedefinieerd als het kwadraat van de standaarddeviatie (zie par. 7.4.). In formule, resp. voor X en Y:

Variantie

Analoog hieraan definïeren we de co-variantie (‘gemeenschappelijke spreiding’) als de som van de produkten tussen kleine xi en yi gedeeld door het totaal aantal waarnemingen:

Covariantie

Om de maatstaf voor het gezamenlijk variëren onafhankelijk te maken van het aantal waarnemingen en de orde van grootte van de getalswaarden (en dus universeel vergelijkbaar te maken), wordt de co-variantie (van X en Y) gedeeld door het produkt van de standaardafwijkingen. Daarom is de relatieve co-variantie:

Relatieve Covariantie met xi = Xi - x
yi = Y - y

Dit getal is minimaal -1 en maximaal +1 en geeft aan hoe goed de regressielijn past bij de puntenwolk.

*Let op* Net als bij het chi-kwadraat kan ook bij R voor iedere steekproefomvang de bijbehorende significantie berekend worden. Wij gaan hier in deze collegereeks niet op in.


10.2. Regressie

Bij enkelvoudige regressieanalyse stelt de onderzoeker eerst vast welke variabele afhankelijk is en welke onafhankelijk. Regressieanalyse veronderstelt dus causaliteit tussen de variabelen. Bij meervoudige (multipele) regressieanalyse is er sprake van meer dan een onafhankelijke variabele (zie: Voortgezette statistiek voor historici, les 5).

Bij regressierekening omschrijven we de vorm en richting van het systematische verband tussen een afhankelijke en onafhankelijke variabelen. We gaan ervan uit dat het verband rechtlijnig (lineair) is. Deze kan algebraïsch worden weergegeven als:

Y = aX + b

Waarbij:
X = de onafhankelijke variabele ('oorzaak')
Y = de afhankelijke variabele ('gevolg')
b = de constante, die het snijpunt (intercept) met de Y-as vormt
a = de hellingscoëfficiënt (of richtingscoëfficiënt)

De regressie-coëfficiënten a en b worden ook wel de parameters van de regressievergelijking genoemd.

Een regressielijn kan grafisch worden weergegeven in een spreidingsdiagram (X-Y diagram, scattergram). Naar mate de correlatie tussen de X- en Y-variabele hoger is, zal de lijn een beter passen bij de puntenwolk in het diagram. De verticale afwijkingen van ieder punt tot de regressielijn vormen de fouttermen (error terms) of residuen. Alleen wanneer de correlatie perfect is (r = 1), liggen alle punten precies op de lijn.

De rechte die het verband tussen X en Y het beste weergeeft is die lijn, waarbij de fouttermen minimaal zijn. Omdat positieve en negatieve afwijkingen tegen elkaar weg zouden vallen, worden de fouttermen gekwadrateerd. De methode voor de berekening van de regressielijn wordt daarom ook wel de methode van de kleinste kwadraten genoemd.

Een stapsgewijs voorbeeld van de berekening van de regressievergelijking wordt gegeven in les 5 van Voortgezette statistiek voor historici.

Nadat de parameters a en b zijn berekend, is het mogelijk om voor iedere waarde van X de waarde van Y te vinden die op de regressielijn ligt. Bijvoorbeeld, stel dat een regressielijn wordt gegeven door a = 0,5 en b = 2:

Y = 0,5X + 2

Dan kunnen de waarden van Y voor iedere X berekend worden:
X = 0 ===> Y = 0 + 2 = 2
X = 1 ===> Y = 0,5 + 2 = 2,5
X = 2 ===> Y = 1 + 2 = 3
X = 3 ===> Y = 1,5 + 2 = 3,5

De regressielijn snijdt de Y-as bij het punt (X=0, Y=2): de constante 2 vormt de intercept.

De richtingscoëfficiënt is 0,5: voor iedere eenheid in de toename van X, neemt Y met 50% daarvan toe (of: de toename van Y is de helft van die van X).

Bij historisch onderzoek wordt regressieanalyse onder andere gebruikt voor:
1 trendberekening bij tijdreeksen
2 het berekenen en toetsen van causale verbanden
3 interpoleren van ontbrekende waarden
4 het doen van conditionele voorspellingen (indien de trend zich voortzet, dan...)



les9
© Instituut voor Geschiedenis, Universiteit Leiden 1998
Redactie: P.K. Doorn / M.P. Rhebergen