les3
STATISTIEK VOOR HISTORICI
les5

4. DE FREQUENTIEVERDELING

4.1. Frequentie en frequentieverdeling
4.2. Keuze van een gegroepeerde frequentieverdeling
4.3. Grafische voorstelling van de frequentieverdeling
4.4. De relatieve frequentieverdeling
4.5. De cumulatieve frequentieverdeling


 BIJ LES 4 BEHORENDE:
Excelinstructies Opdrachten
1.   Ongegroepeerd 8.   frequentieverdeling
2.   Gegroepeerd 9.   Grafiek
3.   Frequentie dichtheid 10. Frequentieverdeling: gj & Fx
4.   Relatief en Cumulatief 11. Cumulatieve frequentieverdeling


4.1. Frequentie en frequentieverdeling

a. Frequentie:
De frequentie is het aantal malen dat een bepaald verschijnsel voorkomt bij een populatie van waarnemingseenheden, ofwel: frequentie is het aantal malen dat een waarde van een variabele voorkomt.


b. Frequentieverdeling:
Een frequentieverdeling is een systematische opstelling van de waarden van een variabele met de daarbij behorende frequenties.


c. Ongegroepeerde en gegroepeerde frequentieverdeling:
ongegroepeerde frequentieverdeling; hierbij worden alle voorkomende waarden weergegeven met hun frequenties.
gegroepeerde frequentieverdeling; hierbij worden de waarden gebundeld in categorieën of klassen en wordt de frequentie van iedere klasse weergegeven.

Voorbeeld: Frequentieverdelingen van behaalde tentamencijfers
Ongegroepeerd:
Tentamencijfer (x) Frequentie (f)
1 1
2 1
3 2
4 3
5 5
6 6
7 4
8 2
9 1
Totaal 25
Gegroepeerd:
Klasse Frequentie
(f)
1-3 4
4-6 14
7-9 7
Totaal 25


Nogmaals gegroepeerd:
Klasse Frequentie
Onvoldoendes 12
Voldoendes 13
Totaal 25


4.2. Keuze van een gegroepeerde frequentieverdeling

Hoe bepaal je welke gegroepeerde frequentieverdeling je wilt maken? Het antwoord op deze vraag hangt af van de volgende factoren, die deels samenhangen met het niveau waarop we meten:
a. Het aantal klassen
Bij nominale en ordinale data wordt het aantal klassen vaak bepaald door het aantal categorieën dat in de oorspronkelijke data aanwezig is, maar deze kunnen ook verder worden samengevoegd (bijv. beroepen worden samengevoegd tot beroepsgroepen).
Bij kardinale data is zowel opsplitsing als verdere bundeling van gegevens mogelijk (bijv. inkomens tot inkomensgroepen).

*Let op* Steeds geldt: Hoe minder klassen er worden onderscheiden, hoe meer informatie over de oorspronkelijke gegevens verloren gaat.

b. De klassebreedte:
De grootte van iedere klasse wordt bepaald door de klassebreedte. Je kunt kiezen voor klassen van gelijke of ongelijke breedte. Hier geldt: hoe groter de klassebreedte, hoe meer informatie verloren gaat.


c. De klassegrenzen:
De laagste en hoogste waarden van de klasse vormen de klassegrenzen. Klassen mogen niet overlappen. Essentieel is dat voor een duidelijke afbakening van de klassen wordt gekozen, met name waar het continue variabelen betreft.


d. Het klassemidden:
Het gemiddelde van alle getallen die theoretisch in een klasse zouden kunnen voorkomen vormt het klassemidden. Dit wordt ook wel gedefinieerd als de som van de onder en bovengrenzen van een klasse, gedeeld door twee. Dit getal vervult een belangrijke functie bij berekeningen waarbij we één representatief getal nodig hebben voor de klasse.


4.3. Grafische voorstelling van de frequentieverdeling

a. Histogram en frequentiepolygoon:
Een frequentieverdeling kan grafisch worden weergegeven als een:
histogram: een staafdiagram met klassen op de x-as en frequenties op de y-as.
frequentiepolygoon: een lijndiagram (in Excel: XY of scatterdiagram) met klassemiddens op de x-as, waarbij een lijn de frequenties van iedere klasse met elkaar verbindt. Het frequentiepolygoon wordt vooral toegepast om frequentieverdelingen met ongelijke klassebreedtes grafisch weer te geven.


b. Ongelijke klassebreedtes:
Ongelijke klassebreedten worden toegepast om te voorkomen dat er overvolle of juist lege klassen ontstaan. Dit is het geval bij scheve verdelingen (zie paragraaf 6.5.), waarbij er heel veel lage en heel weinig hoge waarden voorkomen (of juist andersom), zoals bij sommige inkomensverdelingen (veel paupers, weinig superrijken) of bij indelingen naar bedrijfsgrootte (veel eenmansbedrijfjes, weinig zeer grote ondernemingen).


c. Frequentiedichtheid:
Hierbij doet zich het probleem voor dat de klassen niet meer onderling vergelijkbaar zijn! Om dit op te lossen wordt gewerkt met de frequentiedichtheid i.p.v. frequentie: dit is de frequentie gedeeld door de klassebreedte.


4.4. De relatieve frequentieverdeling

Om twee of meer frequentieverdelingen met verschillende aantallen waarnemingen onderling te vergelijken, gebruik je de relatieve frequentieverdeling. Hierbij wordt de frequentie uitgedrukt als percentage van het aantal waarnemingen:

Relatieve frequentie = (Absolute frequentie / Totaal aantal waarnemingen) * 100

a. Voor ongegroepeerde frequentieverdelingen:
In formule:

waarbij:
gi relatieve frequentie voor getalswaarde i
fi absolute frequentie voor getalswaarde i
n aantal waarnemingen


b. Voor gegroepeerde frequentieverdelingen:
De notatie van de formule is iets anders (maar het principe is hetzelfde):

waarbij:
gj relatieve frequentie voor klasse j
fj absolute frequentie voor klasse j


*Let op* De som van de frequenties van alle klassen is gelijk aan het totaal aantal waarnemingen. In plaats van de noemer met het Sigma-teken (de optelsom van de frequenties van alle klassen 1 /m k) kan dus ook n (het totaal aantal waarnemingen) worden geschreven!


gj = (fj / n) * 100


4.5. De cumulatieve frequentieverdeling

Behalve de gegroepeerde, ongegroepeerde, absolute en relatieve frequentieverdeling onderscheiden we ook nog de cumulatieve frequentieverdeling (die zowel absoluut als relatief kan zijn en zowel voor ongegroepeerde als voor gegroepeerde gegevens kan worden berekend). De cumulatieve frequentieverdeling geeft het totaal aantal frequenties weer dat zich beneden elke klassengrens bevindt.

De cumulatieve verdeling maakt de indeling in klassen minder arbitrair en kan de overzichtelijkheid (bij ordinaal niveau of hoger) aanzienlijk vergoten. Denk bijvoorbeeld aan de cumulatieve frequentieverdelingen van inkomen of leeftijd.

Het frequentiepolygoon van de cumulatieve freqentieverdeling wordt ook wel ogive genoemd.

Voorbeeld: Bedrijven in Groningen in 1819 naar de hoogte van het dagloon
van volwassenen (in centen):
Dagloon in centen
 
Absolute frequentie (fj) Relatieve frequentie (gj)
0-49 3 3,6
50-59 11 13,3
60-69 30 36,1
70-79 22 26,5
80-89 9 10,8
90-99 3 3,6
100 5 6,0
Totaal 83 100
Dagloon in centen Cumulatieve frequentie (Fj) Cumulatief relatieve frequentie (Gj)
< 50 3 3,6
< 60 3 + 11 = 14 16,9
< 70 14 + 30 = 44 53,0
< 80 44 + 22 = 66 79,5
< 90 66 + 9 = 75 90,3
< 100 75 + 3 = 78 93,9
< 200 78 + 5 = 83 100



les3
© Instituut voor Geschiedenis, Universiteit Leiden 1998
Redactie: P.K. Doorn / M.P. Rhebergen / L.J. Touwen
les5