Voortgezette Statistiek voor Historici
TIJDREEKSANALAYSE
7.1. Inleiding
  Datumvariabelen en tijdreeksen in SPSS
  Grafieken
7.2. Decompositie van tijdreeksen
7.3. Transformatie van tijdreeksen
  Trend en eerste verschillen
  Filteren
7.4. Autocorrelatie
  Auto-correlatie functie (ACF)
  Partiële autocorrelatie functie (PACF)
7.5. Kruiscorrelatie
7.6. Tijdreeksmodellen
  Residuen en de fit van tijdreeksmodellen
7.7. Spectraalanalyse



7.1. Inleiding

Tijdreeksanalyse omvat een heel complex van technieken. Welke techniek wanneer het meest geschikt is hangt af van de te beantwoorden vraag, het gezichtspunt van de onderzoeker, de vorm van de tijdreeks en de aard van beschikbare gegevens. Er is geen sprake van één vastomlijnd doel van tijdreeksanalyse. Kendall onderscheidt vijf hoofddoelen van tijdreeksonderzoek:
(a) Het (wiskundig) beschrijven van een tijdreeks. Dit kan men doen door een tijdreeks uiteen te rafelen in zijn samenstellende delen.
(b) Het verklaren van het patroon van een tijdreeks in termen van andere variabelen en het relateren van waarnemingen aan bepaalde structurele gedragsregels, met andere woorden: het opzetten van een hypothetisch model om waarnemingen te kunnen verklaren.
(c) Het voorspellen van toekomstige ontwikkeling in een tijdreeks op basis van (a) of (b). Behalve het maken van vooruitberekeningen of forecasts kan men ook interpolaties terug in de tijd maken ('backcasts').
(d) Door doelbewust wijzigingen aan te brengen in de parameters die een tijdreeksmodel beschrijven, kan men voorwaardelijke berekeningen maken (wat gebeurt er indien...).
(e) Tenslotte kan men het gezamenlijk variëren door de tijd van verschillende verschijnselen bestuderen. In statistisch opzicht grenst dit type onderzoek aan de mathematische (causale) modellenbouw.


Datumvariabelen en tijdreeksen in SPSS

Veel tijdreekstechnieken in SPSS maken gebruik van een zogenaamde automatische datumvariabele. Om bijvoorbeeld kwartaalgegevens van een automatische datumvariabele te voorzien ga je als volgt te werk: Kies Data; Define Dates. Kies vervolgens voor Years, Quarters en geef het eerste jaar en kwartaal op.

Met Transform; Create Time Series kun je nieuwe variabelen maken voor tijdreeksgegevens. Het is mogelijk om (eerste) verschillen te berekenen, maar ook bijv. (gecentreerde) voortschrijdende gemiddelden en zogenaamde lagged variabelen (zie autocorrelatie).

De meeste tijdreeksprocedures kunnen er niet tegen wanneer er missing values voorkomen in de reeks. Deze kunnen volgens verschillende methoden worden vervangen door geschatte waarden via Transform; Replace Missing Values:
Series Mean het gemiddelde van de hele reeks
Mean/Median of Nearby Points het gemiddelde of de mediaan van nabijliggende waarden
Linear interpolation interpolatie (aan te bevelen; komt bij een ontbrekende waarde neer op het gemiddelde)
Linear Trend at Point trendwaarde op basis van lineaire regressie


Grafieken

Het vinden van een model dat een tijdreeks op adequate wijze statistisch beschrijft of 'verklaart' is één van de belangrijkste doelen van tijdreeksanalyse. Bij het opstellen van een tijdreeksmodel is het een goed gebruik om te beginnen met het weergeven van de te bestuderen tijdreeks(en) in een grafiek. De grafiek geeft meestal een eerste beeld van de karakteristieken van de tijdreeks. Men kan vervolgens proberen om het gedrag van de tijdreeks kwantitatief te beschrijven of statistisch te verklaren met behulp van een tijdreeksmodel.

In SPSS zijn verschillende soorten tijdreeks-grafieken mogelijk. Met de keuze Graphs; Sequence kun je een grafiek maken met een datumvariabele op de horizontale as. Een datumvariabele moet eerst worden gemaakt met Data; Define Dates. In het menu Graphs; Time Series bevinden zich drie grafische tijdreeksanalyse-technieken die verderop aan bod komen.


7.2. Decompositie van tijdreeksen

Een van de klassieke problemen bij het kwantitatief beschrijven van een tijdreeks is het vaststellen van de samenstellende delen ervan. De componenten van een tijdreeks zijn echter niet zonder meer waarneembaar. Wie een grafiek van een tijdreeks bekijkt kan meestal niet zo maar vaststellen waardoor de patronen in de reeks worden bepaald. Vaak is er sprake van een bepaalde ontwikkeling, maar doen zich ook zekere schommelingen voor en lijken er onregelmatige afwijkingen op te treden, die het beeld verstoren. In een bron zijn de onderdelen waaruit een tijdreeks bestaat ook zelden afzonderlijk gegeven. Daarom is een systematische benadering gewenst om de reeks te ontrafelen in onderdelen. Volgens de meest gangbare opvatting wordt een tijdreeks beschouwd als een samenspel van vier componenten: trend, seizoeninvloeden, conjuncturele invloeden of cycli en onregelmatige bewegingen.
De trend (T) is de tendentie van een reeks om op de lange termijn ('seculair') te stijgen of te dalen. Een reeks toenemende waarden heeft een positieve trend en in een reeks afnemende waarden is de trend negatief.
Seizoeninvloeden (S) hebben betrekking op regelmatige fluctuaties die binnen het tijdsverloop van een jaar optreden, zoals maandelijks of per kwartaal.
Conjunctureel (C) gedrag is vergelijkbaar met seizoenbewegingen, maar heeft betrekking op golfbewegingen over langere perioden dan een jaar. De economische conjunctuur biedt het bekendste voorbeeld van een cyclische beweging.
Onregelmatige bewegingen (O of van error) zijn de fluctuaties die niet verklaard kunnen worden uit de trend, seizoen- en cyclische bewegingen. Men spreekt ook van 'toevallige' invloeden.

In mathematische vorm kunnen we de samenstelling van de tijdreeks in vier componenten als volgt weergeven:

Yt = Tt + St + Ct + Ot

Dit is een additief model, waarbij de verschillende elementen bij elkaar worden opgeteld. In Figuur 5.1 is een tijdreeks weergegeven als de optelsom van de vier componenten, die ook in afzonderlijke grafieken zijn afgebeeld. Duidelijk blijkt dat op basis van het samengestelde patroon de vier bestanddelen niet direct te herkennen zijn.

Een tijdreeks kan ook worden gedefinieerd als een multiplicatief model, waarbij de componenten met elkaar worden vermenigvuldigd:

Yt = Tt St Ct Ot

In het boek Voortgezette statistiek voor historici wordt een methode behandeld om een tijdreeks stapsgewijs te herleiden tot de vier samenstellende delen. Hoewel een additief model intuïtief duidelijker is, wordt voor decompositie vaak de voorkeur gegeven aan een multiplicatief model, waarbij de factoren St, Ct, en Ot dan worden berekend als procentuele afwijkingen of als fracties van de trend Tt. Een St-waarde van 1,25 betekent dan bijvoorbeeld een positieve seizoenafwijking ten opzichte van de trend Tt van 25% en een Ct-waarde van 0,87 betekent een negatieve cyclische invloed van 13% (op tijdstip t). Bij een additief model worden alle waarden in de zelfde (absolute) eenheden als de trend gegeven. In dit voorbeeld stellen we de tijdreeks voor als een multiplicatief model.

SPSS hanteert een variant van tijdreeks-decompositie (seasonal decomposition), die ontwikkeld is door het Amerikaanse Bureau voor de Statistiek (door Makridakis en McLaughlin) en die bekend staat als Census Method I of de 'ratio-to-moving-average method'. De methode wijkt enigszins af van de in het boek beschreven procedure en daardoor zijn ook de uitkomsten anders.

Om deze techniek toe te passen, is het noodzakelijk om eerst een datum-variabele te definiëren met Data; Define Dates. Geef op in wat voor tijdseenheden de waarnemingen zijn gegeven en vervolgens het eerste tijdstip. Aan je bestand worden u automatisch de relevante datumvariabelen toegevoegd. Vervolgens kun je met Statistics; Time Series; Seasonal Decomposition de decompositie uitvoeren. Geef op welke variabele je wilt decomponeren en of je een multiplicatief of een additief model wilt toepassen. Kies bij Moving Average Weight voor 'Endpoints weighted by .5' om het gecentreerd voortschrijdend gemiddelde te gebruiken bij de berekeningen voor even aantallen perioden. Vink het aankruishokje bij Display Casewise Listing aan om een lijst van de berekende uitkomsten in de uitvoer te krijgen (anders worden de uitkomsten alleen als variabelen aan je werkbestand toegevoegd).

Zonder hier in te gaan op de details van de berekeningswijze, levert deze techniek de volgende uitkomsten (toegepast op de tarweprijzen in Winchester College, 1713-1718; zie ook tabel 4.1 op p. 108 van Voortgezette Statistiek voor Historici):

MODEL: MOD_1.

Results of SEASON procedure for variable PRIJS.

Multiplicative Model. Equal weighted MA method. Period = 4.
DATE_ PRIJS Moving
averages
Ratios
(* 100)
Seasonal
Factors
(* 100)
Seasonally
adjusted
series
Smoothed
trend
cycle

Irregular component
Q1 1713 42,670 , , 104,871 40,688 50,296 ,809
Q2 1713 56,880 , , 96,811 58,754 48,919 1,201
Q3 1713 49,780 48,885 101,831 105,209 47,315 47,768 ,991
Q4 1713 46,210 46,218 99,984 93,108 49,630 44,040 1,127
Q1 1714 32,000 39,998 80,005 104,871 30,514 37,182 ,821
Q2 1714 32,000 35,553 90,008 96,811 33,054 33,466 ,988
Q3 1714 32,000 31,110 102,861 105,209 30,416 32,558 ,934
Q4 1714 28,440 34,663 82,048 93,108 30,545 36,119 ,846
Q1 1715 46,210 39,108 118,161 104,871 44,064 40,788 1,080
Q2 1715 49,780 41,775 119,162 96,811 51,420 43,582 1,180
Q3 1715 42,670 43,555 97,968 105,209 40,557 42,471 ,955
Q4 1715 35,560 41,777 85,118 93,108 38,192 40,230 ,949
Q1 1716 39,100 39,108 99,981 104,871 37,284 38,652 ,965
Q2 1716 39,100 38,512 101,525 96,811 40,388 38,531 1,048
Q3 1716 40,290 38,065 105,845 105,209 38,295 38,588 ,992
Q4 1716 33,770 39,250 86,038 93,108 36,270 38,050 ,953
Q1 1717 43,840 37,475 116,985 104,871 41,804 36,974 1,131
Q2 1717 32,000 35,403 90,389 96,811 33,054 34,915 ,947
Q3 1717 32,000 34,960 91,533 105,209 30,416 32,403 ,939
Q4 1717 32,000 30,223 105,881 93,108 34,369 29,882 1,150
Q1 1718 24,890 28,148 88,427 104,871 23,734 27,185 ,873
Q2 1718 23,700 26,815 88,383 96,811 24,481 25,857 ,947
Q3 1718 26,670 25,038 106,520 105,209 25,349 25,521 ,993
Q4 1718 24,890 , , 93,108 26,732 25,873 1,033

The following new variables are being created:

Name Label
ERR_1 Error for PRIJS from SEASON, MOD_1 MUL EQU 4
SAS_1 Seas adj ser for PRIJS from SEASON, MOD_1 MUL EQU 4
SAF_1 Seas factors for PRIJS from SEASON, MOD_1 MUL EQU 4
STC_1 Trend-cycle for PRIJS from SEASON, MOD_1 MUL EQU 4

Toelichting:
Date_ Automatische datumvariabele
PRIJS De te ontleden variabele
Moving averages Voortschrijdende gemiddelden
Ratios (* 100) Relatieve voortschrijdende gemiddelden (uitgedrukt als ratio ten opzichte van het gemiddelde)
Seasonal factors (* 100) Seizoenfactor (uitgedrukt als ratio ten opzichte van het gemiddelde) (SAF_1)
Seasonally adjusted series Tijdreeks gecorrigeerd voor de seizoenfactor (SAS_1)
Smoothed trend-cycle Gecombineerde trend- en cyclus-component (STC_1)
Irregular component Toevalscomponent (ERR_1)

*LET OP* In de door SPSS gebruikte methode worden trend en cyclus niet gesplitst. Het is wel mogelijk om dit te doen, door een aanvullende regressie-analyse uit te voeren op de STC-variabele met een variabele Tijd (Volgnummer) als onafhankelijke variabele. Bewaar de voorspelde trendwaarden en trek die af van de variabele STC.

De 'Seasonal index' bevat de gemiddelden van de seizoenen. Dezelfde gegevens worden repeterend gegeven in de variabele SAF.

ERR_1 Error for PRIJS from SEASON, MOD_1 ADD CEN 4 (Onregelmatig effect)
SAS_1 Seas adj ser for PRIJS from SEASON, MOD_1 ADD CEN 4 (Seizoensgecorrigeerde gegevens)
SAF_1 Seas factors for PRIJS from SEASON, MOD_1 ADD CEN 4 (Seizoenfactor)
STC_1 Trend-cycle for PRIJS from SEASON, MOD_1 ADD CEN 4 (combinatie van Trend en Cyclus)

- Wanneer je geen gecentreerd voortschrijdend gemiddelde laat uitrekenen staat er EQU in plaats van CEN.
- Wanneer je een multiplicatief model laat uitrekenen staat er MUL in plaats van ADD
- De automatische variabelen waarin de resultaten staan worden opvolgend genummerd bij het uitvoeren van meer dan een decompositie

Geef de uitkomsten weer in een grafiek met behulp van Graphs; Sequence. Geef bij Time Axis Labels de datumvariabele DATE_ op.

*TIP* Gebruik een multiplicatief model als de grootte van de seizoenschommelingen toeneemt met hogere waarden in de loop der tijd (of afneemt met lagere waarden). Gebruik anders een additief model.


7.3. Transformatie van tijdreeksen


Trend en eerste verschillen

Een tijdreeks wordt stationair genoemd wanneer er geen (positieve of negatieve) trend aanwezig is. In de praktijk kan een reeks om verschillende redenen stationair zijn, bijvoorbeeld omdat de omstandigheden die de reeks bepalen niet veranderen (constante of stabiele omgeving). Ook kan sprake zijn van een 'gecorrigeerde' of 'getransformeerde' tijdreeks, waaruit de trend bewust is verwijderd. Voorts kan de trend verwaarloosbaar of niet waarneembaar zijn als we slechts een korte periode beschouwen. Een stationair of trendloos model heeft de vorm van een horizontale lijn:

Een trendmodel wordt in de meest algemene vorm weergegeven als:

waarbij de functionele vorm van de trend Tt nader moet worden gespecificeerd, bijvoorbeeld:

Wanneer uit een grafiek de aan- of afwezigheid van een trend niet duidelijk is kan dit eenvoudig vastgesteld worden aan de hand van de zogenaamde 'eerste verschillen' (Wt = first differences). Deze worden berekend door van iedere waarneming de waarde van de vorige waarneming af te trekken (differentiëren):

Wt = Yt - Yt-1

Wanneer de eerste verschillen, afgezet tegen de tijd, een horizontale reeks met gemiddelde nul vormen, is er geen trend in de oorspronkelijke reeks aanwezig. Wanneer het gemiddelde niet gelijk is aan nul, maar de eerste verschillen een horizontale reeks vormen, is er sprake van een lineaire trend. Bij een stijgende (positieve) trend is het gemiddelde van de eerste verschillen groter dan nul en bij een dalende (negatieve) trend is het gemiddelde kleiner dan nul. Wanneer ook in de grafiek van de eerste verschillen sprake is van een stijgende of dalende tendens, dan is de trend in de oorspronkelijke reeks niet lineair maar gekromd. Wanneer dit het geval is kan men stationariteit verkrijgen door de verschillen van de eerste verschillen te nemen (dit worden de 'tweede verschillen' genoemd: Zt = Wt - Wt-1). In de praktijk zijn de tweede verschillen (vrijwel) altijd stationair.

In SPSS kan regressie-analyse worden toegepast om de lineaire trend in een tijdreeks te schatten. Voor niet-lineaire regressie-analyse kun je gebruik maken van Statistics; Regresion; Curve Estimation. Geef bij Dependent de afhankelijke variabele op, klik bij Independent op Time en klik bij Models aan welke niet-lineaire modellen je wilt laten berekenen. Het model met de hoogste verklaarde variantie (Rsq) bij het minste aantal parameters is het beste.


Filteren

Voor het correct toepassen van verscheidene tijdreekstechnieken is het een vereiste dat de tijdreeks stationair is. Om een reeks die een trend vertoont stationair te maken wordt de reeks voorbewerkt (getransformeerd). Er bestaan verschillende methoden van transformatie. Het nemen van verschillen tussen opeenvolgende waarnemingen is een veelgebruikte techniek om de trend te verwijderen. Er zijn ook andere voorbewerkingen mogelijk om de andere componenten (seizoen, conjunctuur, onregelmatigheden) uit een tijdreeks te elimineren. In het algemeen spreekt men van het filteren van de tijdreeks.

Zoals gezegd zijn ook andere vormen van voorbewerkingen mogelijk, bijvoorbeeld het gebruiken van relatieve in plaats van absolute cijfers of het nemen van logaritmen van de oorspronkelijke waarden. In vrijwel alle tijdreeksmodellen is het vereist dat de variantie van een verschijnsel in de loop der tijd stabiel is. Indien dit niet het geval is (er is bijvoorbeeld sprake van een trend en toenemende schommelingen), dan kan de variantie worden gestabiliseerd door de logaritmes van de oorspronkelijke reeks te nemen. Ook als blijkt dat het seizoeneffect toe- of afneemt in de loop der tijd biedt het berekenen van logaritmes uitkomst. Bij deze vorm van voorbewerking moet men er rekening mee houden dat ongewenste neveneffecten kunnen ontstaan, omdat logaritmische transformatie van een lineaire reeks een gekromde reeks als uitkomst heeft. Wanneer bijvoorbeeld de foutterm in de oorspronkelijke reeks constant is, zal deze in een logaritmisch getransformeerde reeks met de tijd afnemen.

Ook het berekenen van voortschrijdende gemiddelden heeft een filterende werking. Voortschrijdende gemiddelden kunnen bijvoorbeeld dienen als filters om seizoeninvloeden of onregelmatige invloeden te verwijderen. Er zijn meer ingewikkelde filters die stapsgewijs bepaalde kenmerken uit een tijdreeks kunnen wegwerken.

*TIP* Bij het maken van tijdreeksgrafieken in SPSS kun je eenvoudig aankruisen dat je van de gegevens de eerste verschillen of logaritmen wilt hebben.


7.4. Autocorrelatie

Autocorrelatie betekent letterlijk: samenhang met zichzelf. Bij tijdreeksen duidt autocorrelatie op de samenhang van waarnemingen op een bepaald tijdstip met waarnemingen van dezelfde reeks op een eerder tijdstip. Met andere woorden, indien autocorrelatie optreedt zijn opeenvolgende waarnemingen niet onafhankelijk van elkaar. Het nagaan van autocorrelatie is een belangrijk instrument bij tijdreeksanalyse.


Auto-correlatie functie (ACF)

De autocorrelatie van een reeks wordt op dezelfde manier berekend als de 'gewone' correlatie tussen twee variabelen X en Y. De autocorrelatie is positief als er steeds een aantal opeenvolgende waarnemingen hetzij positief, hetzij negatief afwijkt van de trendlijn. De autocorrelatie is negatief als positieve en negatieve afwijkingen elkaar telkens afwisselen. Wanneer de autocorrelatie wordt berekend van een variabele op twee opeenvolgende tijdstippen, spreekt men van een vertragingsfactor één (lag = 1). Uiteraard kan ook autocorrelatie voorkomen tussen waarden die meer dan één tijdseenheid uit elkaar liggen. Zo is de autocorrelatie voor ieder gewenst tijdsinterval te berekenen (lag = 2, 3, . . . , k). Het uitzetten van de autocorrelatie tegen het aantal lags in een grafiek of tabel biedt een belangrijk instrument voor de beoordeling van tijdreeksen. Dit wordt de autocorrelatie functie (ACF) genoemd . De ACF geeft ook aanwijzingen voor het al dan niet stationair zijn van een tijdreeks. Als vuistregel wordt gehanteerd dat autocorrelaties tussen 2/N1/2 en -2/N1/2 (waarbij N gelijk is aan het aantal waarnemingen) niet statistisch significant zijn.

In SPSS maak je een ACF met de procedure Graphs; Time Series; Autocorrelations. Geef de variabele op; je kunt eenvoudig aankruisen of je met eerste verschillen of logaritmen wilt werken.


Partiële autocorrelatie functie (PACF)

Behalve de 'gewone' autocorrelatie functie speelt ook de zogenaamde partiële autocorrelatie functie (PACF) een belangrijke rol in tijdreeksanalyse. De partiële autocorrelatie-coëfficiënt is een maat voor samenhang tussen Yt en Yt-k, waarbij gecorrigeerd is voor de correlatie van Yt met tussenliggende waarnemingen minder dan k lags terug in de tijd (dus: Yt-1, Yt-2, . . . , Yt-k). Grafisch wordt de PACF weergegeven als de partiële autocorrelatie-coëfficiënt uitgezet tegen het aantal lags. Ook de PACF geeft indicaties voor de karakteristieke eigenschappen van de tijdreeks en wordt gebruikt bij het opstellen van een tijdreeksmodel.


7.5. Kruiscorrelatie

Zoals autocorrelatie gebruikt wordt om de samenhang van waarnemingen van één reeks na te gaan, zo worden kruiscorrelatie-coëfficiënten gebruikt om de samenhang tussen twee reeksen Xt en Yt na te gaan. De coëfficiënten kunnen worden berekend voor de correlatie op hetzelfde tijdstip t, maar ook voor correlaties één of meer tijdstippen eerder of later, dus tussen Yt en Xt-k, . . . , Xt-2, Xt-1, Xt, Xt+1, Xt+2, . . . , Xt+k. Net als de autocorrelaties kunnen ook de kruiscorrelaties voor een aantal lags worden uitgezet in een grafiek: de kruiscorrelatie functie (Cross Correlation Function - CCF). Uit deze grafiek blijkt onmiddellijk voor welke lag de kruiscorrelatie-coëfficiënt het grootst is, een belangrijke indicatie voor de aanwezigheid van een vertraagd effect van de ene reeks op de andere.

Het berekenen van de kruiscorrelaties tussen twee tijdreeksen kan echter gemakkelijk aanleiding geven tot onjuiste interpretaties, indien de reeksen niet van te voren zijn gefilterd. Twee reeksen, die bijvoorbeeld beide een trend en/of seizoeninvloeden vertonen, zullen een geheel ander patroon van kruiscorrelaties vertonen dan twee gefilterde reeksen. Na het verwijderen van de trend en eventuele andere systematische patronen kan het patroon van kruiscorrelaties er heel anders uitzien.

In SPSS maak je een CCF met de procedure Graphs; Time Series; Cross-correlations. Geef de te correleren variabelen op; je kunt eenvoudig aankruisen of je met eerste verschillen of logaritmen wilt werken.


7.6. Tijdreeksmodellen

Men kan onderscheid maken tussen zuivere tijdreeksmodellen en causale modellen. In een zuiver tijdreeksmodel wordt een afhankelijke variabele Y slechts bepaald ('statistisch verklaard') door de tijd en/of door vorige waarden van Y, bijvoorbeeld:

Yt = ß0 + ß1t Tijd (t) is de enige bepalende factor (trendmodel)

Yt = ß1 Yt-1 + ß2 Yt-2 Vorige waarden van Y zijn de bepalende factoren (autoregressief model).

In een causaal model vormen externe factoren (andere tijdreeksen) de verklarende variabelen van de afhankelijke variabele, bijvoorbeeld:

Yt = ß1 Xt + ß2 Wt Y wordt bepaald door een functie van X en W.

Naar de vorm lijken bovenvermelde modellen op elkaar. Het moge duidelijk zijn dat een combinatie van beide typen modellen een gecombineerd tijdreeks-causaal model oplevert. Hierbij is een te verklaren variabele Y afhankelijk van een combinatie van de tijd, vorige waarden van Y en van andere variabelen. Er zijn tal van tijdreeksmodellen denkbaar, waarin combinaties van diverse factoren van invloed zijn op een verschijnsel dat zich in de loop der tijd voordoet.

Bij het bouwen van een model wordt uitgegaan van een vaste werkwijze bestaande uit een drietal stappen. Eerst moet de onderzoeker aangeven hoe hij denkt dat het model dat de tijdreeks beschrijft er globaal uit ziet. Men noemt dit de model-specificatie of identificatie.

In de tweede stap worden de parameters (in bovenstaand voorbeeld zijn de ß's de parameters) van het model berekend en moeten de uitkomsten van de zogenaamde parameter-schattingen worden gecontroleerd. Het controleren van hoe goed het model voldoet (dit wordt ook wel de fit van het model genoemd) geschiedt aan de hand van diverse diagnostische maten. Men kan bijvoorbeeld de oorspronkelijke waarden van de tijdreeks vergelijken met waarden die verkregen worden op basis van het berekende model. Een belangrijke maat voor de fit van het model is de som van de gekwadrateerde afwijkingen (error sum of squares) tussen de oorspronkelijke en de modelwaarden.

Wanneer een model na controle blijkt te voldoen kan het gebruikt worden voor het maken van voorspellingen (de derde stap: forecasting). Men kan hierbij denken aan het opstellen van een verwachting voor een toekomstige ontwikkeling, maar men kan hetzelfde doen voor een eerdere periode dan waarover men gegevens heeft (backcasting). Het is ook mogelijk om een model te gebruiken om ontbrekende gegevens in een lopende reeks te intrapoleren.

In het meeste historisch onderzoek wordt slechts een beperkte aanslag gedaan op het arsenaal aan beschikbare tijdreekstechnieken. Veel historici beperken zich in de praktijk van het onderzoek tot eenvoudige manipulaties met tijdreeksgegevens (zoals het berekenen van indexen, voortschrijdende gemiddelden en dergelijke) en het grafisch weergeven daarvan. De grafieken worden vervolgens doorgaans alleen verbaal beschreven. De trends, cycli en seizoeninvloeden moeten dan uit de grafieken blijken, maar ze worden zelden kwantitatief aangetoond. Ook de samenhang tussen verschillende verschijnselen in de tijd wordt vaak slechts globaal geschetst. In veel gevallen is dit zeker adequaat, maar in andere kan het kwantificeren van temporele ontwikkelingen en samenhangen meer inzicht bieden. In inleidende statistische handboeken, zoals in Lindblads Statistiek voor Historici, worden de meest elementaire handelingen voor het beschrijven van een tijdreeks uitgelegd. In dit hoofdstuk wordt deze basiskennis bekend verondersteld.


Residuen en de fit van tijdreeksmodellen

Er zijn verschillende manieren om te bepalen hoe goed het model 'past' op de oorspronkelijke tijdreeks. De meeste zijn gebaseerd op de verschillen tussen de feitelijke waarden en de op basis van het tijdreeksmodel berekende waarden: de residuen of fouttermen t.

Een model geeft een goede weergave van de werkelijkheid wanneer de resterende fouttermen niet statistisch significant zijn en geen systematiek vertonen: de residuen zijn dan klein en fluctueren onregelmatig rond een gemiddelde van nul. 'Onregelmatig' wil zeggen dat er geen patroon in de fluctuaties te ontdekken valt. De opeenvolgende waarden van t zijn dan onafhankelijk van elkaar, dat wil zeggen dat ze geen autocorrelatie vertonen. Indien er wel sprake is van autocorrelatie in de fouttermen, dan is dit een aanwijzing dat het berekende model de tijdreeks niet accuraat weerspiegelt. Mogelijk is bijvoorbeeld een seizoeninvloed of conjunctureel effect over het hoofd gezien.

De Durbin-Watson toets, gepresenteerd in 1951, biedt een methode om na te gaan of de residuen geautocorreleerd zijn. De toets is van toepassing op trendmodellen. De Durbin-Watson statistiek (D) wordt berekend door de som van het kwadraat van de eerste verschillen van de residuen te delen door de som van het kwadraat van de residuen zelf:

De Durbin-Watson statistiek varieert altijd tussen nul en vier. Waarden dicht bij nul wijzen op positieve autocorrelatie, waarden dicht bij vier wijzen op negatieve autocorrelatie en waarden dicht bij twee wijzen op onafhankelijke fouttermen.


7.7. Spectraalanalyse

Korte en lange golven

In plaats van alle aandacht te concentreren op variaties op de vertikale as van verschijnselen in de loop der tijd, kunnen we onze kijk op tijdreeksen ook omdraaien en de blik richten op de frequentie van voorkomen verschijnselen op de tijdsas zelf. De variaties in frequenties van voorkomen van een verschijnsel vormen tezamen het `spectrum' van het verschijnsel. De methode om het spectrum te onderzoeken wordt spectrum- of spectraalanalyse genoemd.

De resultaten van spectraalanalyse worden door aanwezigheid van trend en seizoeninvloeden sterk overheerst en dienen daarom door filtering van te voren te worden verwijderd. Spectraalanalyse is vooral toepasbaar wanneer langere reeksen beschikbaar zijn, waarin zich geen trend of seizoenvariaties voordoen: het zijn vooral cyclische of conjuncturele processen die met behulp van spectraalanalyse naspeurbaar zijn. De spectraalanalyse biedt een instrument om de frequentie en golflengte (of periode) van periodieke variaties in een tijdreeks te bepalen en de bijbehorende intensiteit te berekenen.

De vraag naar de lengte van conjuncturele golven van economische expansie afgewisseld door recessie heeft veel economisch-historisch onderzoekers beziggehouden. In de economie worden verschillende soorten cyclische bewegingen onderscheiden naar golflengte:
- 'Lange golven' in de conjunctuurbeweging met een periodiciteit van ca. 50 jaar werden genoemd naar de ontdekker Kondratieff (1926).
- Kuznetz-cycli, eveneens genoemd naar hun ontdekker, duren doorgaans 15-25 jaar.
- De gewone conjunctuurgolf of 'Juglar-golf' heeft een gemiddelde duur van ca. 10 jaar.
- De korte conjunctuurgolf of 'Kitchin-golf' duurt 3,5 tot 4 jaar.

Frequentie
- De frequentie () van een periodiek variërend verschijnsel wordt meestal gedefinieerd als het aantal radialen per tijdseenheid ( radialen = 180o; een volledige cyclus 'duurt' 2 radialen = 360o).
- Door sommige auteurs wordt de frequentie echter liever gedefinieerd als het aantal cycli per waarnemingseenheid: = /2. Deze definitie van cyclische frequentie is in de praktijk makkelijker te interpreteren.
- De golflengte of periode van een cyclus geeft aan hoe lang een golf duurt, dat wil zeggen in hoeveel tijdseenheden een golf `voorbijrolt': een cyclisch proces is na 1/ = 2/ tijdseenheden (= 2 radialen) weer op hetzelfde punt van de golf aangeland.

Een voorbeeld kan de begrippen frequentie en golflengte verduidelijken. Stel dat we maandelijkse werkloosheidscijfers beschouwen, die duidelijke seizoenfluctuaties vertonen (hoewel er uiteraard ook andere invloeden kunnen zijn). Het werkloosheidspatroon herhaalt zich iedere twaalf maanden, ofwel: de golflengte (of periode) van de seizoencomponent is twaalf maanden (of één jaar). We kunnen het ook anders uitdrukken: in één maand verstrijkt 1/12 van de seizoencomponent. Dit is de frequentie () van de seizoenbeweging van werkloosheid uitgedrukt in cycli per maand (uitgedrukt in cycli per jaar is de frequentie gelijk aan 1). De frequentie in radialen () is gelijk aan 2/12 = /6 per maand (ofwel 2 per jaar).

Stel dat zich in de reeks werkloosheidsgegevens ook een trend voordoet. Kenmerkend voor een trend is dat hij zich niet herhaalt: anders zou het geen trend zijn, maar een cyclus. De periodiciteit is daarom oneindig () en de frequentie is 1/ ofwel 0. Voor maandelijkse gegevens worden frequenties tussen 0 en 1/12 'laag' genoemd en frequenties > 1/12 'hoog'. In een tijdreeksgrafiek hebben elkaar snel opvolgende schommelingen een hoge frequentie en hebben trage en geleidelijke veranderingen een lage frequentie. In principe kan iedere tijdreeks worden opgevat als een samenspel van allerlei mogelijke frequenties: het spectrum.

Fourier-transformatie

Bij spectraalanalyse wordt de spectraaldichtheid voor iedere frequentie van een tijdreeks berekend. Met behulp van integraalrekening en trigonometrische functies (sinus- en cosinusrekening) kan iedere tijdreeks worden omgerekend tot een spectrum. Er bestaan verscheidene varianten van deze transformatie. Op de wiskundige achtergronden daarvan zullen wij hier niet ingaan. Een belangrijke omzettingsmethode is de zogenaamde Fourier-transformatie, genoemd naar een Franse wiskundige uit het begin van de vorige eeuw. Het voert te ver om hier de precieze berekeningswijze van de spectraaldichtheid te behandelen.

Spectraaldichtheid (spectrum) en periodogram

Bij spectraalanalyse wordt het spectrum in grafische vorm weergegeven. Op de horizontale as wordt meestal de frequentie weergegeven (hetzij in radialen, hetzij in cycli per tijdseenheid), op de verticale as een maat van de intensiteit van voorkomen van iedere frequentie. De meest gebruikte maat voor de intensiteit is de zogenaamde spectraaldichtheid. Naar analogie van de autocorrelatie functie wordt het spectrum ook wel de spectraal dichtheidsfunctie (SDF) genoemd. Wiskundig is aantoonbaar dat ACF en SDF uit elkaar zijn af te leiden.

Naast de spectraaldichtheid wordt ook het periodogram als intensiteitsmaat gebruikt, dat in een grafiek kan worden uitgezet tegen de golflengte of de frequentie. Overigens bestaat in de literatuur in dit opzicht weinig eenheid van terminologie en uitvoering van de methode. Men vindt ook voorbeelden waarbij de spectraaldichtheid is uitgezet tegen de golflengte. Het spectrum wordt soms ook periodogram genoemd (of andersom).

Spectraal-venster

In de praktijk blijkt het spectrum van een historische tijdreeks vaak moeilijk te interpreteren door de sterke fluctuaties van de spectraaldichtheden over de frequenties. Er zijn verschillende filtermethoden ontwikkeld om onbelangrijke fluctuaties af te zwakken en de belangrijkste frequenties beter naar voren te laten komen. In essentie komen deze methoden neer op het berekenen van een vorm van voortschrijdend gemiddelde van de spectraaldichtheden.

Spectraalanalyse in SPSS

In SPSS kun je spectraalanalyse uitvoeren via het menu Graphs; Time series; Spectral. Geef aan welke variabele je wilt analyseren. Het Spectral Window maakt de resultaten van de analyse duidelijker te interpreteren door een voortschrijdend gemiddelde van de spectraaldichtheid te berekenen. De standaard-methode in SPSS is die van Tukey-Hamming. Door de keuze op None te zetten worden de spectraaldichtheden niet gewogen.

Er kan een grafiek worden gemaakt van zowel het Periodogram als de spectraaldichtheid (Spectral density). Op de horizontale as kun je naar keuze de frequentie (By frequency) als de periode (By period) weergeven. De frequentie wordt in cycli per jaar weergegeven.



Tekst: P.K. Doorn / Redactie: M.P. Rhebergen E-mail