les7
STATISTIEK VOOR HISTORICI
les9

8. STEEKPROEFSGEWIJZE ANALYSE

8.1. Inleiding
8.2. Binomiale en normale verdeling
8.3. De standaardnormale verdeling
8.4. Steekproeven
8.5. Procedure van steekproeftrekking
8.6. Steekproefomvang
8.7. Betrouwbaarheid
8.8. Nauwkeurigheid
8.9. Betrouwbaarheid, nauwkeurigheid en steekproefgrootte


 BIJ LES 8 BEHORENDE:
Excelinstructies Opdrachten
1.  Z-toets 18. Z-toets
2. Standaardfout 19. Betrouwbaarheid en nauwkeurigheid
3. Betrouwbaarheid


8.1. Inleiding

· In de voorgaande lessen was de beschrijvende statistiek aan de orde: het beschrijven van de populatie.
· In deze les gaan we over op de inductieve statistiek: het analyseren van steekproeven uit een populatie.

Voordat aan een steekproef conclusies kunnen worden ontleend, is enige elementaire kennis noodzakelijk van waarschijnlijkheidsrekening. Deze wordt gebruikt om vast te stellen hoe groot de kans is dat onze conclusies over een bepaalde populatie op grond van een steekproef onjuist zijn.

De waarschijnlijkheidsrekening bestudeert kansverdelingen.

Centraal in de waarschijnlijkheidsrekening is de vraag: hoe groot is de kans (P; van probability) op een bepaalde uitkomst (A)?

Voorbeeld:
Bij het opgooien van een munt is de kans op kruis 50%. Dit wil zeggen dat wanneer we het opgooien van de munt een oneindig aantal malen (n) zouden herhalen, we in 50% van de gevallen kruis zouden vinden.

De kans P(kruis) = 0,5 (of 50 %) kun je zien als een relatieve frequentie van de uitkomst. De kans op overige uitkomsten (munt) vormen samen de rest van de relatieve frequentie (dus ook 50 %). De som van alle kansen, net als de som van de relatieve frequenties, is gelijk aan 1 (of 100 %).

Waarneming = een keer gooien met een munt
Variabele = wat bovenkomt
Waarde = kruis (dus: nominaal meetniveau dus)

*Let op* In het algemeen geldt dat de kans op een gebeurtenis gelijk is aan het aantal malen dat een gebeurtenis optreedt in verhouding tot het totaal aantal malen dat die gebeurtenis zou kunnen optreden.


8.2. Binomiale en normale verdeling

· Binomiale verdeling: Geeft de kansen op de uitkomsten van een experiment dat slechts twee uitkomsten kent, maar dat oneindig maal herhaald kan worden.
· Normale verdeling: Bij een groot aantal experimenten gaat de binomiale verdeling over in de normale verdeling.

Voorbeeld:
Hoe meer tentamens en hoe meer studieresultaten, hoe meer combinaties van voldoenden en onvoldoenden er mogelijk zijn.

· Stel dat er slechts twee mogelijke uitslagen bij een tentamen zijn: Voldoende (V) en onvoldoende (O).
· Stel dat de kansen als volgt verdeeld zijn: de kans op een voldoende is 60% en op een onvoldoende 40%, of: P(V) = 0,6 en P(O) = 0.4

Bij één tentamen zijn de volgende uitkomsten mogelijk:
P(V) = 0,6
P(O) = 0,4

Bij twee tentamens zijn de volgende uitkomsten mogelijk:
P(VV) = P(V) * P(V) = 0.6 * 0.6 = 0.36
P(OV) = P(O) * P(V) = 0.4 * 0.6 = 0.24
P(VO) = P(V) * P(O) = 0.6 * 0.4 = 0.24
P(OO) = P(O) * P(O) = 0.4 * 0.4 = 0.16

Kans op voldoende bij twee tentamens (twee 'trekkingen'; n = 2):
Kans op 0 voldoenden = P(VV) = 0.36
Kans op 1 voldoende = P(OV) + P(VO) = 0.24 + 0.24 = 0.48
Kans op 2 onvoldoenden = P(OO) = 0.16

Kansen bij drie tentamens:
P(OOO) = 0,4 * 0,4 * 0,4 = 0,064
P(OOV) = 0,4 * 0,4 * 0,6 = 0,096
P(OVO) = 0,4 * 0,6 * 0,4 = 0,096
P(VOO) = 0,6 * 0,4 * 0,4 = 0,096
P(OVV) = 0,4 * 0,6 * 0,6 = 0,144
P(VOV) = 0,6 * 0,4 * 0,6 = 0,144
P(VVO) = 0,6 * 0,6 * 0,4 = 0,144
P(VVV) = 0,6 * 0,6 * 0,6 = 0,216

Kans op 0 voldoenden = P(OOO) = 0.064
Kans op 1 voldoende  = P(OOV) + P(OVO) + P(VOO) = 3 * 0,096 = 0,288
Kans op 2 voldoenden = P(OVV) + P(VOV) + P(VVO) = 3 * 0,144 = 0,432
Kans op 3 voldoenden = P(VVV) = 0,216

Kansen bij vier tentamens (n = 4):
P(VVVV) = 0,6 * 0,6 * 0,6 * 0,6 = 0,1296
P(VVVO) = 0,6 * 0,6 * 0,6 * 0,4 = 0,0864
P(VVOV) = 0,6 * 0,6 * 0,4 * 0,6 = 0,0864
P(VOVV) = 0,6 * 0,4 * 0,6 * 0,6 = 0,0864
etc., etc., tot: P(OOOO) = 0,4 * 0,4 * 0,4 * 0,4 = 0,0256

Aantal voldoendes
Kans
0 0,0256
1 0,1536
2 0,3456
3 0,3456
4 0,1296

Kansen bij vijf tentamens (n = 5):
Aantal
voldoendes
Kans
0

0,0102

1

0,0768

2

0,2304

3

0,3456

4

0,2592

5

0,0778

Kansen bij tien tentamens (n = 10):
Aantal voldoendes
Kans
0

0,0001

1

0,0016

2

0,0106

3

0,0425

4

0,1115

5

0,2007

6

0,2508

7

0,2150

8

0,1209

9

0,0403

10

0,0060

Kansen bij 100 tentamens (n = 100):

Naarmate het aantal tentamens toeneemt, benadert de kansverdeling de normale verdeling meer en meer. De grafische afbeelding van de normale verdeling is de Gauss-curve. Deze heeft de volgende eigenschappen:
1. De normaalverdeling is een theoretische verdeling, die echter door een veelheid van empirische en sommige theoretische verdelingen wordt benaderd.
2. De normaalverdeling kan - in tegenstelling tot bijvoorbeeld de binomiale verdeling, die slechts waarden tussen 0 en 1 kent - alle positieve en negatieve waarden aannemen.
3. De normaalverdeling is - in tegenstelling tot de binomiale en veel empirische verdelingen - een continue verdeling.
4. De normale verdeling is volledig symmetrisch en unimodaal, zodat gemiddelde, modus en mediaan samenvallen. Hieruit volgt dat 50 procent van de waarden boven, en 50 procent van de waarden onder het gemiddelde ligt.
5. Voor elke normale verdeling geldt dat een vast percentage van de waarden ligt tussen het gemiddelde en een bepaald getal.


De normale verdeling, behorende bij een bepaald experiment, wordt bepaald door het gemiddelde en de standaardafwijking van de uitkomsten. De getalswaarden zullen dus uiteenlopen, ondanks het feit dat de kansverdeling de normale verdeling is.


8.3. De standaardnormale verdeling

De standaardnormale verdeling neutraliseert de zuiver numerieke verschillen en geeft een algemeen overzicht van de kansverdeling, onafhankelijk van de grootte van de waarden. Deze zogenaamde z-verdeling wordt als volgt gekarakteriseerd:
a. Het gemiddelde van de standaardnormale verdeling wordt op nul gesteld door van iedere waarde het gemiddelde van de oorspronkelijke reeks af te trekken.
b. De standaardafwijking wordt op 1 gesteld door de absolute waarde van het bij (a) berekende verschil te delen door de standaardafwijking van de oorspronkelijke reeks. In formule:

Bij elke waarde van z hoort een interval onder de standaardnormale curve. De kans op een getal dat binnen dit interval ligt, kunnen we opzoeken in een tabel met de standaardnormale verdeling of berekenen met behulp van een statistisch of spreadsheetprogramma:

Tabel van de standaardnormale verdeling: de kans op een getal tussen het rekenkundig gemiddelde en z:

z

Kans P(z)

z

Kans P(z)

z

Kans P(z)

0

0,0000

1,4

0,4192

2,8

0,4974

0,1

0,0398

1,5

0,4332

2,9

0,4981

0,2

0,0793

1,6

0,4452

3

0,4987

0,3

0,1179

1,7

0,4554

3,1

0,4990

0,4

0,1554

1,8

0,4641

3,2

0,4993

0,5

0,1915

1,9

0,4713

3,3

0,4995

0,6

0,2257

2

0,4772

3,4

0,4997

0,7

0,2580

2,1

0,4821

3,5

0,4998

0,8

0,2881

2,2

0,4861

3,6

0,4998

0,9

0,3159

2,3

0,4893

3,7

0,4999

1

0,3413

2,4

0,4918

3,8

0,4999

1,1

0,3643

2,5

0,4938

3,9

0,5000

1,2

0,3849

2,6

0,4953

4

0,5000

1,3

0,4032

2,7

0,4965

   

NB: Zie ook de tabel 15 in Statistiek voor Historici, p.124; de kansen in deze tabel zijn berekend met de Excel-functie NORMSDIST(z); van de uitkomst van de functie wordt telkens 0,5 afgetrokken om de kans op een getal tussen het R.G. en z te krijgen. In Excel maak je eenvoudig je Z-waarden tabel. De Excel-functie NORMSDIST(z) heet in de NL-versie van Excel STAND.NORM.VERD(z)

*Let op* Voor negatieve waarden van z is de kansverdeling hetzelfde als voor positieve waarden.

*Tip* De waarde van z = 1,96 is bijzonder: de bijbehorende kans op een getal tussen het gemiddelde en z is 0,475. De kans op een getal tussen -z en z = P(x-z) + P(x+z) = 0,475 + 0,475 = 0,95 of 95 %. In de statistiek wordt een betrouwbaarheid van 95% algemeen aanvaard en toegepast als criterium om uitspraken te doen.

Voorbeeld 1:
Gegeven een zwangerschapsduur van gemiddeld 280 dagen met een standaarddeviatie van 10 dagen. Hoe groot is de kans dat de geboorte meer dan veertien dagen te laat plaatsvindt?

Bij z = 1,4 hoort een kans van 41,92 %. Dit is de kans op een geboorte tussen 280 en 294 dagen. De kans op een geboorte die méér dan 14 dagen te laat plaatsvindt, is dus 50 - 41,92 = 8,08 %

Voorbeeld 2:
Hoe groot is de kans dat de geboorte plaatsvindt in de periode die ligt tussen 8 dagen voor en 8 dagen na de verwachte datum?

Bij z = 0,8 hoort een kans van 28,81 procent. We hebben nu alleen nog de kans op een geboorte binnen 8 dagen na de gemiddelde datum, maar weten dat de normale verdeling symmetrisch is. De kans op een geboorte tussen tussen 8 dagen voor en 8 dagen na de verwachte datum is dus 2 x 28,8 procent = 57,62 %


8.4. Steekproeven

Bij het toepassen van steekproeven bij historisch onderzoek moeten we letten op twee aspecten:
a. De procedure van steekproeftrekking.
b. De omvang van de steekproef.


8.5. Procedure van steekproeftrekking

De selectie of trekking van de steekproefdata kan a-select (toevallig) of systematisch zijn:
Bij a-selecte steekproeven (Engels: random sample) hebben de data eenzelfde verscheidenheid (spreiding) als de data van de populatie.
systematisch verzamelde data van een steekproef: bijvoorbeeld elke 10e of elke 100e waarneming. Hierbij bestaat het risico dat onbedoeld een voorkeur of vertekening t.o.v. de populatie ontstaat. De historicus heeft veelal te maken met een gegeven steekproef. Door kritische beschouwing van zijn bron moet hij uitmaken of de toevalligheid in zijn beperkte data gewaarborgd is.

Voorbeelden van onafhankelijke, aselecte kansen:
Het werpen van een 'eerlijke dobbelsteen'. Stel dat we de eerste keer 6 gooien. De kans dat we bij een tweede worp weer 6 krijgen blijft 1/6.
Het krijgen van kinderen. Stel het eerste kind is een meisje. De kans op een meisje bij het tweede kind blijft 1/2.

Voorbeeld van afhankelijke, selecte kans (onvermoede samenhang):
Registratie van werkloze vrouwen. Op basis van statistische gegevens voor 1936 vinden we de volgende werkloosheidspercentages van de beroepsbevolking: 13,47 voor mannen en 2,27 voor vrouwen. Is de kans dat een vrouw in 1936 werkloos was 2,27%? Nee. De kans om in de jaren '30 als werkloze geregistreerd te worden was voor vrouwen kleiner dan mannen.
Verkiezingen in de VS in 1948 (strijd tussen Thomas Dewey en Harry Truman). Een telefonisch steekproefonderzoek leidde tot de conclusie dat de Republikein Dewey zou winnen en dat Truman slechts 44,5 % van de stemmen zou krijgen. Maar in werkelijkheid kreeg Truman de stem van 50% en Dewey slechts van 45,5% van de bevolking. De verklaring voor de foutieve uitkomst lag in het feit dat het telefoonbezit in die tijd onder de welgestelden veel meer verbreid was dan onder de armen.


8.6. Steekproefomvang

De omvang van de steekproef kunnen we op twee manieren onderzoeken:
1. Hoe betrouwbaar is de steekproef, als afspiegeling van de populatie?
2. Hoe nauwkeurig zijn de schattingen op basis van de steekproef?

Bij bepaling van de betrouwbaarheid (Eng: confidence) vergelijken we de steekproef met andere, theoretische steekproeven. We definiëren een interval waarbinnen de kans op een bepaald steekproef-resultaat groot is.
Bij bepaling van de nauwkeurigheid (Eng. accuracy) vergelijken we het steekproefresultaat met de hele populatie en definiëren we een marge waarbinnen een afwijking t.o.v. het populatiekenmerk aanvaardbaar is.


8.7. Betrouwbaarheid

Stel, je neemt heel veel steekproeven en van elke steekproef bepaal je het gemiddelde. Van al deze gemiddelden maak je een frequentie-verdeling.

Hier komt de waarschijnlijkheidsleer om de hoek kijken. Stel dat het gemiddelde van de hele populatie µ is, en alle steekproefgemiddelden noemen we R.G., dan vormen al die steekproefgemiddelden (bij voldoende grote steekproeven) een normale verdeling rond µ. Dit is de centrale limietstelling.

Op basis hiervan kunnen we de kans berekenen dat R.G. in een bepaald interval rond µ ligt.

De standaardafwijking van de kansverdeling van de steekproefgemiddelden R.G. wordt de standaardfout genoemd. Deze wordt berekend door de standaardafwijking (s) van de populatie te delen door de wortel van het aantal waarnemingen (n) in de steekproef. In formule:

De standaardfout geeft aan hoe goed de steekproef is. Hoe groter de standaardfout, hoe groter de kans dat het steekproefgemiddelde afwijkt van het populatiegemiddelde. De standaardfout wordt gebruikt bij de berekening van het betrouwbaarheidsinterval:

Gebruik makend van de eigenschappen van de normale verdeling geldt dat het steekproefgemiddelde ligt in het interval dat aan weerszijden wordt begrensd door het populatiegemiddelde µ plus of min z maal de standaardfout. Bij elke waarde van z hoort een betrouwbaarheidsniveau (zie les 8). De breedte van het interval wordt dus mede bepaald door de betrouwbaarheid waarmee je een uitspraak wilt doen.

Bijvoorbeeld: Als z = 1,96 dan is het betrouwbaarheidsnivo 2 * 0,4750 = 0,95. Dit betekent dat we 95 % kans hebben op een steekproefgemiddelde in het interval tussen


8.8. Nauwkeurigheid

Als we niet naar de betrouwbaarheid maar naar de nauwkeurigheidsmarge willen kijken, vragen we naar de maximale afwijking (meestal 5 of 10 procent) die we kunnen aanvaarden t.o.v. het populatiegemiddelde. Met andere woorden: hoever mag het populatie-gemiddelde afwijken van het steekproefgemiddelde?

De nauwkeurigheidsmarge waarin het steekproefgemiddelde zich hoort te bevinden, wordt bepaald door de "maximale fout", uitgedrukt als percentage e van het populatiegemiddelde µ:

In formule:


8.9. Betrouwbaarheid, nauwkeurigheid en steekproefgrootte

We hebben nu twee maten voor de kwaliteit van de steekproef: de betrouwbaarheid en de nauwkeurigheid. Deze hangen met elkaar samen:

(betrouwbaarheid)


(nauwkeurigheid)
Dus:

Voorbeeld 1:
1. Voor de populatie geldt: s = 1,71 R.G. = 3,5
2. Voor de steekproef geldt: s = 1,6 n = 100.

De standaardfout:

We berekenen eerst de nauwkeurigheidsmarge bij een betrouwbaarheid van 95 procent:

Dit levert een nauwkeurigheidsmarge van 9,5 procent.

Als we de nauwkeurigheid willen vergroten en een marge kiezen van 1 procent, dan vinden we de bijbehorende betrouwbaarheid als volgt:

Bij die waarde van z hoort een betrouwbaarheid van slechts 16,6 procent (= 2 * 0,083).

Als we uitspraken willen doen met zowel een hoge betrouwbaarheid als een hoge nauwkeurigheid, zullen we een grotere steekproef nodig hebben.

We kunnen ook van te voren de nauwkeurigheids- en betrouwbaarheidsmarges vaststellen en vervolgens de daarbij behorende steekproefomvang vaststellen.

Dit gebeurt met de volgende formule, die is afgeleid uit formule (1):

In ons voorbeeld kunnen we uitspraken doen over het steekproefgemiddelde met 95% betrouwbaarheid (z = 1,96) en een nauwkeurigheidsmarge van plus of min 5% (e = 0,05) bij een steekproefomvang n van:

De steekproef moet dus tenminste 367 waarnemingen omvatten.

In de realiteit zijn de standaardafwijking en het gemiddelde van de populatie meestal niet bekend. In de praktijk is de variatiecoëfficiënt echter zelden groter dan 1: de standaarddeviatie is bijna altijd kleiner dan het gemiddelde. Daarom kan voor het tweede gedeelte van formule (2) de waarde 1 ingevuld worden, wa erop neerkomt dat dit deel kan worden weggelaten. De steekproefomvang zou dan minimaal 1537 moeten zijn.

Voorbeeld 2:
We gaan een aselecte steekproef nemen uit de kieslijsten uit 1870 om te kijken wat het gemiddeld vermogen was van een bestuurder. Hoeveel politici zullen we selecteren?

(a) We besluiten tot een betrouwbaarheid van 95% (dan weten we dat z = 1,96) en een nauwkeurigheid tot op 5 % (m.a.w. e = 0,05).

De formule voor de steekproefgrootte luidt:

Omdat we nog geen idee hebben wat de standaardafwijking en het populatiegemiddelde zijn, stellen we de tweede breuk op 1.

(b) Dit aantal is ons te groot. We willen ons in eerste instantie beperken tot 200 mannen. We trekken dus aselect 200 mannen uit de kieslijs-ten en komen dan op een gemiddeld vermo-gen (steek-proefgemid-delde) van 10.000 gulden en een standaard-afwijking van 4000 gulden. Hoe waardevol is deze steekproef?

Als we voor onze uitspraken omtrent het gemiddelde vermogen een maximale fout willen aanhouden van 5 %, oftewel een nauwkeurigheid van 5 % (t.o.v. µ), dan geldt:

*LET OP* Met deze formule berekenen we de betrouwbaarheid bij een gege-ven nauwkeurigheid. Bij benadering nemen we i.p.v µ hier.

Bij deze z = 1,77 hoort een betrouwbaarheid van (2 * 0,46) = 92% (zie p. 124). Dit is lager dan 95%: de steekproefomvang van 200 is te laag om het gemiddelde betrouwbaar te kunnen schatten.

We kunnen nu ook een benadering van de minimale steekproef-grootte berekenen met als populatiekenmerk de resultaten van onze steek-proef (we beschouwen het steekproefgemiddelde als het populatiegemiddelde) en bij een betrouwbaarheid van 95%:

(c) Het lijkt nu alsof we een konijn uit een hoge hoed toveren dat we er eerst zelf in hebben gestopt. Maar volgens de centrale limietstelling ligt µ wel degelijk in de buurt van:

D.w.z. µ ligt tussen:

(d) Als we een nieuwe steek-proef trekken van 246 mannen, en daar-van het gemiddeld vermo-gen uitrekenen, kunnen we de berekening nog een keer doorlo-pen. Zo krijgen we geleidelijk vaste grond onder de voeten.

Stel dat we dezelfde resultaten (gemiddeld vermogen van 10.000, standaardafwijking van 4000) hadden verkregen bij een steek-proef van 400 mannen. Is dan de betrouwbaarheid bij gegeven nauwkeurigheid groter geworden?

Bij deze z = 2,5 hoort een betrouwbaarheid van (2 * 0,49) = 98 %



les7
© Instituut voor Geschiedenis, Universiteit Leiden 1998
Redactie: P.K. Doorn / M.P. Rhebergen / L.J. Touwen
les9