Voortgezette Statistiek voor Historici
STEEKPROEVEN EN STATISTISCHE TOETSEN

3.1 Steekproeven
3.2 Hoe groot moet een steekproef zijn?
3.3 Typen van steekproeven
3.4 Statistisch toetsen
3.5 Toets op gemiddelde
3.6 Toets op proporties/percentages



3.1 Steekproeven

Bij veel kwantitatief historisch onderzoek ligt een onevenredige nadruk op de dataverzameling en -invoer in verhouding tot de analyse. Het steekproefsgewijze onderzoek beoogt generaliserende uitspraken mogelijk te maken op basis van kennis van een representatief deel van de populatie. Betrouwbaarheid en nauwkeurigheid zijn hierbij uit te rekenen. Een dergelijke aanpak kan een aanzienlijke besparing in tijd opleveren.

Stel dat we beschikken over een bron met gegevens over 100.000 eenheden. Er zijn 5 minuten nodig om de gegevens over één eenheid over te nemen en in te voeren. Het invoeren in de computer van het gehele bestand kost derhalve 500.000 min. = 8.333 uur = 1.042 dagen (van 8 uur) = 208 weken (van 5 dagen) = 4,5 tot 5 jaar! Een steekproef van 1000 eenheden kost echter 5.000 minuten = 83 uur = 10 dagen = 2 weken. Het maken van dit soort afwegingen is van belang.

Tegen steekproefonderzoek worden door historici ook bezwaren geuit, bijvoorbeeld:

1. De integriteit van de bron wordt aangetast en dat leidt tot onvolledigheid. Dit bezwaar geldt vooral wanneer de doelstelling van het onderzoek is om een databank aan te leggen ter documentatie of ontsluiting van een bron.

2. De uitkomsten zijn niet 100% betrouwbaar en nauwkeurig. Daartegen kunnen we ons afvragen hoe betrouwbaar en nauwkeurig de bron zelf is? Is dat ook niet een min of meer "toevallig" overblijfsel uit het verleden?

3. Het trekken van steekproeven druist in tegen de traditionele werkwijze van de historicus. Strakke onderzoeksplanning maakt het onderzoek minder flexibel.

4. Automatische koppeling (record linkage) van gegevens uit verschillende bronnen wordt bemoeilijkt.


3.2 Hoe groot moet een steekproef zijn?

Een antwoord op deze vraag is niet eenduidig te geven. Het is afhankelijk van het beschikbare budget (werkkracht) enerzijds en anderzijds van de eisen van de onderzoeker. Wat dit laatste betreft moeten we bepalen welke nauwkeurigheid en betrouwbaarheid noodzakelijk zijn. Stel dat we uitspraken willen kunnen doen met 95% "zekerheid" (= betrouwbaarheid, confidence) en dat de afwijkingen niet groter mogen zijn dan +/- 5% (nauwkeurigheid). Bijvoorbeeld, op basis van een steekproef willen we concluderen dat het populatiegemiddelde met 95% zekerheid ligt tussen het steekproefgemiddelde +/- 5%, of dat een gevonden percentage in een steekproef niet meer dan 5 procent afwijkt van het percentage in de populatie. Er bestaan verschillende formules om de benodigde steekproefgrootte exact vast te stellen ten einde dit soort uitspraken te kunnen doen, bij de gewenste nauwkeurigheid en betrouwbaarheid. Hierin spelen mee de hoogte van het gemiddelde of percentage en de grootte van de variantie/standaarddeviatie in de populatie cq. steekproef.

In de praktijk weet men meestal niet van te voren precies over welke variabelen welke uitspraken gedaan moeten worden en weet men niets af van het gemiddelde en de standaarddeviatie in de populatie (die overigens te schatten zijn door een proef-steekproef). De orde van grootte van de benodigde steekproefomvang wordt echter al redelijk benaderd door de formule (zie ook les 8, par. 8.9 uit het Interactief Werkboek bij Inleiding Statistiek voor Historici):

n = z2/e2

waarbij:

n =

benodigde steekproefomvang;

z =

waarde van een standaardnormaal verdeelde variabele bij een bepaalde zekerheid. Bij een betrouwbaarheid van 95% behoort een Z-waarde van 1.96);

e =

nauwkeurigheid, uitgedrukt als fractie.


Indien uitspraken over deelgroepen gewenst zijn, moet de steekproef meestal groter zijn dan zojuist beschreven. Bijvoorbeeld: we hebben een steekproef van 1000 getrokken uit een populatie van 100.000 scheepsreizen over een periode van 50 jaren. We hebben gegevens over herkomst, bestemming, lading, scheepsomvang, etc., en willen daarover uitspraken doen met een betrouwbaarheid van 95% en een nauwkeurigheidsmarge van minder dan 10%. Dit is bij deze steekproefomvang alleen mogelijk als we ons beperken tot uitspraken over de gehele periode van 50 jaar.

Indien je uitspraken wilt doen per jaar, moet je je realiseren dat je per jaar gemiddeld slechts 1000/50 = 20 schepen hebt. Er zijn al 30-50 waarnemingen vereist om de theorie der waarschijnlijkheidsrekening verantwoord toe te passen. Bij 10-jaarlijkse perioden hebben we gemiddeld 200 schepen. Ook dan moet je rekening houden met een aanzienlijke breedte van het betrouwbaarheidsinterval!


3.3 Typen van steekproeven

Hoe moet de steekproef worden getrokken? De steekproefopzet is erg belangrijk. Doel bij het steekproefontwerp is om te voorkomen dat er een (onbekende) vertekening in het materiaal ontstaat. Een bekende vertekening is niet altijd een probleem. De steekproef moet een zo goed mogelijke afspiegeling vormen van de populatie. Vermijd de term "representatieve steekproef": tenzij je de populatie exact kent is principieel niet vast te stellen hoe "representatief" een steekproef is.

Er zijn verschillende soorten steekproeven:

1. Enkelvoudig versus geleed/gestratificeerd: De enkelvoudige steekproef wordt in één keer getrokken uit één steekproefkader, d.w.z. de administratieve weerspiegeling van de populatie, bijvoorbeeld een lijst, register, kaartenbak, waar alle populatie-elementen staan vermeld. De gelede/gestratificeerde steekproef wordt niet in één keer of uit één kader getrokken.

2. Aselect versus systematisch: Bij een aselecte steekproef wordt de trekking volledig door het toeval bepaald terwijl bij een systematische steekproef de trekking niet door toeval wordt bepaald, maar door een vaste regelmaat.

3. Met of zonder teruglegging: Met teruglegging betekent dat het steekproef-element na trekking wordt "teruggelegd" en dus kans heeft om nogmaals getrokken te worden. Stel dat we een bak met 100 balletjes hebben. Het eerste balletje heeft een kans van 1:100 om getrokken te worden. Zonder teruglegging heeft het tweede balletje een kans van 1 op 99 om getrokken te worden. In de praktijk wordt meestal zonder teruglegging getrokken. Bij grote populaties is het verschil in trekkingskans verwaarloosbaar.

4. Trekking met gelijke of ongelijke kansen: Bij gelijke kansen heeft ieder element dezelfde kans om in de steekproef terecht te komen. Soms zijn er redenen om hiervan bewust af te wijken. De kans moet dan echter wel bekend zijn.

De keuze van het steekproefontwerp is afhankelijk van het probleem, de beschikbare middelen, het beschikbare steekproefkader en de omvang van de te trekken steekproef. Beschrijving van de gevolgde procedure en motivatie van de keuze bij rapportage zijn dringend gewenst. Hier behandelen wij kort enkele mogelijke ontwerpen:

1. Enkelvoudige, aselecte steekproef, het meest heldere ontwerp. (Vgl. J.Th. Lindblad, Statistiek voor historici (Muiderberg 1984) 127-141).

2. Systematische steekproef (enkelvoudig): de trekking van de steekproef geschiedt niet op basis van het toeval, maar volgens een vaste systematiek. Hierbij wordt meestal gebruik gemaakt van de a-priori ordening van een bron (bijvoorbeeld een kaartenbak of register). Nadat een element is getrokken wordt een vast aantal elementen overgeslagen. De keuze van het eerste element bepaalt dus in feite de trekking. Om deze reden wordt het eerste element vaak wel aselect getrokken (systematische steekproef met aselect begin). De methode garandeert een goede spreiding van de steekproef over de populatie, hoewel men er op moet letten dat de a-priori ordening in het materiaal niet leidt tot systematische vertekening (bijvoorbeeld: een steekproef van 1 op 7 bij gegevens die zijn geordend per dag levert steeds dezelfde dag van de week op).

3. Gestratificeerde steekproef: dit is zinvol wanneer de populatie verdeeld is in afzonderlijke strata of groepen. Elk steekproef-element behoort tot één stratum. Uit elk van de strata wordt een afzonderlijke steekproef getrokken. Argumenten voor stratificatie kunnen zijn:

- er zijn verschillende steekproefkaders (bronnen);
- de methode van steekproeftrekken moet voor een deel van de populatie afwijken van de rest (bijvoorbeeld één bron, deels op kaarten in bakken, deels in klappers);
- de variantie in de populatie is zeer groot zodat stratificatie een goede spreiding garandeert;
- het doel kan zijn om over bepaalde strata in de populatie meer gedetailleerde gegevens te verkrijgen.

Het voornaamste probleem bij gestratificeerde steekproeven betreft de verdeling van de trekking over de strata. Wat is de beste manier van trekken? Er zijn twee mogelijkheden om een "optimale allocatie" (spreiding) te krijgen:

- evenredige allocatie: uit ieder stratum wordt eenzelfde percentage getrokken. Steekproeven met gelijke trekkingskansen zijn zelfwegend.
- onevenredige allocatie: uit kleine strata worden relatief meer elementen getrokken om een zo groot mogelijke nauwkeurigheid te krijgen, zodat nog uitspraken per deelgroep gedaan kunnen worden. Om uitspraken te doen over de hele populatie moet herwogen worden door te vermenigvuldigen met een weeggetal (het omgekeerde van de steekproeffractie per stratum).

Zowel aselecte als systematische steekproeven kunnen gestratificeerd worden getrokken.

4. Trossteekproef (cluster-steekproef): dit is een steekproef van samengestelde eenheden, waarvan alle elementen in het onderzoek worden opgenomen. Voorbeelden: een steekproef van fabrieken, waarvan alle werknemers worden genomen, een steekproef van huishoudens, waarvan alle leden worden opgenomen. Een trossteekproef heeft de voorkeur indien alleen een behoorlijk steekproefkader van de clusters (primaire elementen) voor handen is, en niet van de secundaire elementen. Een probleem bij dit type steekproef is, dat bij ongelijke tros-grootten de trekkingskansen ongelijk zijn. Stel, we willen een steekproef trekken uit ca. 5.000 industrie-arbeiders in een willekeurige stad in de vorige eeuw, maar we beschikken alleen over een steekproefkader van 500 fabrieken en werkplaatsen, en de grootte-verdeling ziet er als volgt uit:


Bedrijfsgrootte Aantal fabrieken Trekkingskans Aantal arbeiders Trekkingskans
1 werknemer 300 60,0% 300 6%
2-3 werknemers 100 20,0% 250 5%
4-9 werknemers 50 10,0% 300 6%
10-24 werknemers 30 6,0% 500 10%
25-99 werknemers 15 3,0% 1000 20%
100-499 werknemers 4 0,8% 1250 25%
500 en meer werknemers 1 0,2% 1400 28%
Totaal 500 100,0% 5000 100%


Uit het schema blijkt onder andere, dat de grote bedrijven een zeer kleine kans hebben om in de steekproef te vallen, terwijl hier juist de meerderheid van de werknemers werkt!

5. Getrapte steekproef: deze is vergelijkbaar met de trossteekproef, maar nu wordt uit de trossen (primaire eenheden) een nieuwe (tweede) steekproef getrokken (secundaire eenheden). Met deze methode kan het probleem van de sterk ongelijke trekkingskansen van de trossteekproef worden vermeden.


3.4 Statistisch toetsen

Bij steekproefuitkomsten dient altijd te worden getoetst of de berekeningen statistisch gezien wel hout snijden. Voor vele statistische maten bestaan toetsingsprocedures om na te gaan in hoeverre steekproefuitkomsten statistisch significant zijn.

Toets Toetsingsgrootheid
Eén of twee gemiddelden T
Eén of twee proporties/percentages Z
Associatie in kruistabel 2
Regressiemodel F
Parameters in regressievergelijking T
Variantie F


  • Toetsen op een proportie/percentage vinden plaats bij nominale of ordinale variabelen. Stel dat we een bepaald percentage vinden in een steekproef. Wijkt dit significant af van een bekend percentage in een populatie? Bijvoorbeeld een steekproef met 40% man en 60% vrouw. Wijkt dit af van de veronderstelde 50-50 verhouding? Ook kan getoetst worden of de gevonden percentages in twee steekproeven onderling significant verschillen.
  • Toetsen op een gemiddelde vinden plaats bij variabelen op interval- of ratio-niveau. Hiervoor gebruiken we de T-toets. Met de enkelvoudige T-toets wordt de afwijking van het steekproefgemiddelde ten opzichte van het populatiegemiddelde nagegaan. Bij de tweevoudige T-toets gaat het om het verschil tussen twee steekproefgemiddelden. Ook komen zgn. gepaarde waarnemingen voor, waarbij dezelfde eenheden bezien zijn op twee verschillende tijdstippen.


Bij het toetsen wordt altijd een zogenaamde toetsingsgrootheid (Engels: test-statistic) berekend, dat wil zeggen de waarde die Z of T of F of 2 (of welke andere grootheid dan ook) heeft op basis van de steekproef. Bij iedere statistische toetsingsgrootheid kan de kans worden berekend dat deze aan het toeval is toe te schrijven. Deze zogenaamde overschrijdingskans (probability, p-waarde) is doorgaans kleiner naar mate de toetsingsgrootheid groter is (en andersom).

Je dient altijd vooraf vast te stellen met welke mate van betrouwbaarheid je wilt toetsen, bijvoorbeeld bij 95% zekerheid (het significatieniveau = 0,05). De berekende overschrijdingskans kun je rechtstreeks vergelijken met de gewenste betrouwbaarheid. Indien de overschrijdingskans (p) kleiner is dan het significantieniveau (), is de toetsingsgrootheid statistisch significant bij de gestelde betrouwbaarheid. Bijvoorbeeld, een p-waarde van 0,05 betekent dat er 5% kans is dat de waarde van toetsingsgrootheid aan het toeval toe te schrijven is. Een p-waarde van kleiner dan 0,05 wil zeggen dat de uitkomst met minimaal 95% zekerheid significant is.

*LET OP* Het is verleidelijk om het significantie-niveau "aan te passen" aan de gevonden p-waarde. Een op theoretische gronden verwacht verschil kan significant "gemaakt" worden door achteraf te vergroten (b.v. van 0,05 tot 0,10); andersom kan een theoretisch onwelgevallige uitkomst onsignificant worden "gemaakt" door de betrouwbaarheidseisen op te schroeven. Het achteraf schuiven met het significantieniveau is echter hoogst laakbaar in toetsingsprocedures en valt onder de categorie "how to lie with statistics".



3.5 Toets op gemiddelde

Als voorbeeld van een toets op steekproefuitkomsten behandelen we de zogenaamde T-Toets op het verschil tussen twee steekproefgemiddelden. Hierbij dient sprake te zijn van twee onafhankelijke, aselecte steekproeven (of twee onafhankelijke groepen waarnemingen in één steekproef); als de groepen niet onafhankelijk van elkaar zijn, wordt de zogenaamde 'gepaarde T-Toets' toegepast.

Bij de T-toets wordt de toetsingsgrootheid T berekend. De verdeling van T is afgeleid van de standaardnormale verdeling of Z-verdeling, die van toepassing is bij toetsen op proporties. De T-verdeling is bedacht door de statisticus W.S. Gossett onder het pseudoniem Student; daarom wordt de verdeling ook wel Student's T genoemd). De T-verdeling wordt gebruikt als de standaarddeviatie van de populatie onbekend is. Dit heeft vooral effect bij een kleine steekproefomvang. Bij een grote steekproefomvang zijn Z en T nagenoeg identiek.



Voor de T-Toets op het verschil tussen twee gemiddelden bestaan twee berekeningswijzen, afhankelijk van de vraag of de variantie in de beide steekproeven gelijk is. Om dit na te gaan gebruiken we de F-toets:

F = S12/S22

S1 = grootste van 2 varianties

S2 = kleinste van 2 varianties

p-waarde: kans dat de twee varianties gelijk zijn

indien p < 0,05 ===> varianties zijn ongelijk bij 95% betrouwbaarheid

indien p > 0,05 ===> varianties zijn gelijk bij 95% betrouwbaarheid

Indien de varianties gelijk zijn:
x1 - x2
t = ---------------------
(s2 (1/n1 + 1/n2))½
    Waarbij s2 =    
(n1-1) s12 + (n2-1) s22
--------------------------
n1 + n2 - 2

t =
x1 - x2

--------------------
(s12/n1 + s22/n2)


De bijbehorende p-waarden worden door SPSS berekend. Indien p-waarde < 0,05 ===> gemiddelden zijn niet gelijk bij 95% betrouwbaarheid.



3.6 Toets op proporties/percentages

De berekeningswijze voor toetsen op proporties is zo eenvoudig, dat het gemakkelijker is om gebruik te maken van een spreadsheet-programma zoals Excel dan van SPSS.

Eén steekproef-probleem: Eerst de berekening van de betrouwbaarheidsmarges rond een gevonden percentage in één steekproef. Stel dat we een steekproef hebben van 200 personen en we vinden dat 60% man is. Bij = 0.05 (95% betrouwbaarheid) zijn de marges rond het gevonden percentage:
betrouwbaarheidsmarge = +/- 1,96( p(100 - p)/ n-1    p = percentage
   n = steekproefomvang


===> 1,96 {(60 x 40) / 199}½ = 1,96 (12)½ = 6,8

===> de nauwkeurigheidsmarges rond het gevonden percentage van 60% zijn +/- 6,8% bij 95% betrouwbaarheid.

Of: het percentage in de populatie ligt met 95% zekerheid tussen 53,2% en 66,8%.

Of: het betrouwbaarheidsinterval rond 60% bedraagt met 95% waarschijnlijkheid 13,2%.

Of: de veronderstelling ('nulhypothese') dat het percentage mannen in de populatie 50% is, wordt op basis van de steekproefuitkomsten verworpen met 95% zekerheid, want 50% ligt niet tussen 53,2 en 66,8%.

Twee steekproeven-probleem: Thans bezien we de toets op het verschil tussen twee percentages en de betrouwbaarheidsmarges rond dit verschil ( = 0,05), bijvoorbeeld twee onafhankelijke steekproeven van respectievelijk 100 en 200 schepen op twee tijdstippen (p = het percentage dat op het buitenland vaart, n = de steekproefomvang).

betrouwbaarheidsmarge = +/- 1,96 x ( p1(100-p1)/n1-1 + p2(100 - p2)/n2-1)½

p1 = 30% vaart op buitenland in 1850, n1 = 100

p2 = 20% vaart op buitenland in 1870, n2 = 200

verschil in percentage: |p1 - p2| = 10%

===> 1,96 x ({(30 x 70) / 99} + {(20 x 80) / 199})½ = 1,96 (29)½ = 10,6%

De betrouwbaarheidsmarges rond het verschil zijn +/- 10,6%

Aangezien het verschil tussen vaart op het binnenland en op het buitenland slechts 10% is, kan dit niet als statistisch significant worden aangemerkt.

Indien het verschil tussen beide percentages p1 en p2 groter is dan de betrouwbaarheidsmarge, is het statistisch significant.



Tekst: P.K. Doorn / Redactie: M.P. Rhebergen E-mail