vorige sectie volgende sectie Inhoud van dit hoofdstuk Hoofdindex


9.3 Gevoeligheid van het gehoor

Spraakgeluiden kunnen verschillen in vele opzichten. In deze paragraaf houden we ons bezig met de vraag welke veranderingen in het fysisch signaal leiden tot welke verandering in gehoorsindruk; we bevinden ons dan op het terrein van de psychofysica, i.h.b. de psycho-akoestiek. In aansluiting op hoofdstuk 1 beginnen we daarom met een overzicht van de belangrijkste groepen van eigenschappen van spraakgeluiden, parallel gerangschikt voor de drie domeinen van de fonetiek: productie, transmissie en perceptie van spraak.

Tabel 9.1 Benaming van belangrijkste groepen van eigenschappen van spraakgeluiden in productie, akoestiek en perceptie.
Productie Akoestiek Perceptie
Herhalingsfrequentie
stembandtrilling
Grondfrequentie F0 Toonhoogte
Vocale inspanning Intensiteit,
spectrale helling
Luidheid
Configuratie supra-
glottale systeem
Formanten (F1....Fn) Klankkleur
Timing spraakorganen Fysieke tijdsduur Waargenomen duur

Tabel 9.1 suggereert dat er in de horizontale richting één-op-één relaties bestaan tussen de eigenschappen in de drie domeinen. Deze suggestie is echter maar ten dele juist. Zo is de waargenomen luidheid van een klank niet alleen afhankelijk van de intensiteit en spectrale helling, maar ook van de grondfrequentie, en zelfs van de tijdsduur. Klankkleur wordt weliswaar voornamelijk bepaald door de formantfrequenties, maar ook de grondfrequentie speelt hier een rol, en zo voort. Enige van deze complexe relaties tussen signaaleigenschappen en gehoorsindrukken behandelen we in de volgende paragrafen.

9.3.1 Absolute hoorbaarheid

vraag Niet iedere luchtdrukverstoring wordt door ons gehoor waargenomen als geluid. Als een drukverstoring te gering is, horen we niets; als de verstoring te sterk is, ervaren we geen geluid maar pijn. Evenmin kunnen we heel langzame of heel snelle verstoringen als geluid waarnemen. Het gebied van hoorbare luchtdrukverstoringen ligt tussen frequenties van 20 tot 20.000 Hz, en intensiteiten van 0 tot 120 decibel (dB), zoals aangegeven in fig. 9.4.
fig9-4.jpg
Fig. 9.4 Het gebied van hoorbare geluiden. Bij spraakgeluid ligt de intensiteit tussen 40 en 80 dB en liggen de relevante frequenties tussen 0,1 en 8 kHz (zie het groene gebied).

De notie decibel verdient toelichting. Geluidsdruk wordt gemeten in pascal. Voor een referentietoon van 1 kHz is de geringste geluidsdruk die we kunnen onderscheiden van stilte, 0,00002 Pa (zie ook § 5.1), terwijl de krachtigste geluidsdruk een miljoen keer sterker is: 20 Pa. Bij afspraak stellen we de druk van het zwakste geluid dat we kunnen horen (de spreekwoordelijke vallende speld), op 0 dB. Een vertienvoudiging van de druk is dan een toename van 2 Bel (= 20 decibel, dB). Het verschil tussen het zwakste en het luidste hoorbare geluid overbruggen we dan in zes maal een vertienvoudiging (in totaal dus een ver-miljoen-voudiging), ofwel 6 x 20 dB = 120 dB. De pijngrens ligt dan bij ruim 120 dB (voor voorbeelden zie tabel9.2).

Voor ons gehoor is elke toename van de geluidsdruk met bv. 10 dB een min of meer constante toename. Tevens blijkt 1 dB ruwweg het kleinste intensiteitsverschil dat we kunnen horen. Dit maakt de decibel tot een handige en zinvolle eenheid.

In fig. 9.4 zien we dat ons oor maximaal gevoelig is voor frequenties tussen 2 en 5 kHz (o.a. als gevolg van versterking door resonantie in de gehoorgang). Voor hogere, en vooral lagere, frequenties is ons oor een stuk minder gevoelig. Een toon van 2 kHz kunnen we bij 0 dB van stilte onderscheiden, maar om een toon van b.v. 0,1 kHz te kunnen onderscheiden van stilte, moet hij al gauw 50 dB sterker zijn.
vraag
In fig. 9.4 zijn bovendien de zgn. isophonen getrokken. Dit zijn proefondervindelijk vastgestelde curven van gelijk-klinkende geluidssterkten; zij geven de intensiteit aan van sinustonen over het hele frequentiebereik die voor het gehoor even luid klinken. De referentie-intensiteit is bepaald bij een sinus van 1 kHz: iedere toon met een luidheid van 100 phon klinkt even luid als een 1 kHz sinus met een intensiteit van 100 dB. Deze isophonen volgen i.h.a. dezelfde curve als de onderste gehoordrempel, maar worden bij hogere intensiteiten steeds vlakker.

Gelukkig liggen de frequenties die voor de spraakwaarneming belangrijk zijn, precies in het gevoeligste deel van ons gehoorbereik. Bovendien spreken wij met een intensiteit die keurig het midden houdt tussen de vallende speld en de pijngrens.

Tabel 9.2 Geluidsdruk (Pa) en intensiteitsverschil (decibel, dB) t.o.v. de onderste gehoordrempel, met voorbeelden.
Geluidsdruk
(Pa)
Hoeveel maal
sterker dan
referentie?
Intensiteitsverschil
t.o.v. referentie (dB)
Voorbeeld van
geluid met deze
intensiteit
0,00002
0,0002
0,002
0,02
0,2
2
20
1
10
100
1.000
10.000
100.000
1.000.000
0
20
40
60
80
100
120
vallende speld
stad bij nacht
fluisteren
conversatie
schreeuwen
pneumatische hamer
straalmotor op 10 m

Er is sprake van gehoorverlies wanneer ergens langs de onderste gehoordrempel in fig. 9.4 de curve een 'dip' vertoont van ten minste 10 dB. Dat betekent dan dat bij de daar aangegeven frequentie de slechthorende een sinustoon pas kan horen als deze 10 dB meer intensiteit heeft dan het geval is bij een gemiddelde niet-slechthorende. Bij sommige vormen van gehoorverlies kruipt niet alleen de onderste gehoorgrens naar boven maar daalt tegelijkertijd de pijngrens. In zulke gevallen kan niet worden volstaan met het aanmeten van een eenvoudig gehoorapparaat dat geluiden alleen maar versterkt, maar zal op zijn minst een begrenzer moeten worden ingebouwd.

Van werkelijke doofheid wordt pas gesproken wanneer er over het gehele frequentiegebied een gehoorverlies is van ten minste 90 dB. Bij patiënten met dergelijke zware verliezen aan beide oren wordt tegenwoordig wel een zgn. binnenoorprothese (Eng. cochlear implant) geïmplanteerd. Dit is een systeem van een of meerdere micro-elektroden dat door een chirurg wordt ingebracht in de cochlea, waar het contact maakt met de centrale gehoorzenuw. De elektroden geven de (door een microprocessor aangepaste) output van een microfoon door aan de centrale gehoorzenuw. Volledig spraakverstaan is hiermee nog niet mogelijk; wel wordt het spraakafzien ('liplezen') er aanzienlijk door verbeterd.

9.3.2 Hoorbaarheid van verschillen

Er is in de loop van de jaren een uitgebreide literatuur opgebouwd over de gevoeligheid van het menselijk gehoor. Van allerhande eigenschappen van geluid is bekend hoeveel verandering daarin minimaal moet worden aangebracht om te kunnen horen dat er iets veranderd is. Zo'n kleinst mogelijk, maar toch hoorbaar verschil heet een verschildrempel of JWV (Juist Waarneembaar Verschil; ook wel JND, Eng. Just Noticeable Difference). Zo zagen we al dat een verandering van de geluidsintensiteit van 1 dB net groot genoeg is om te kunnen horen dat er een verschil bestaat tussen twee geluiden. Op dezelfde manier kunnen we ons afvragen hoe groot een verschil in frequentie tussen twee tonen minstens moet zijn willen we die tonen als verschillend ervaren, of een verschil in duur, enz. We willen dan eerst weten welke eigenschappen van het geluid van belang zijn bij de spraakwaarneming, en vervolgens vaststellen hoe gevoelig ons oor is voor elk van deze eigenschappen.

In de meeste onderzoeken wordt de JND gedefinieerd als het kleinste verschil tussen twee paarsgewijs aangeboden geluiden op grond waarvan 75% van de luisteraars kan horen dat de twee geluiden niet identiek zijn. Een groter verschil wordt perfect gehoord, een kleiner verschil leidt tot luisteroordelen op toevalsbasis. De JND zit dus halverwege een perfect hoorbaar verschil (100% correct) en geen verschil (50%, kansniveau).

Kennis van de gevoeligheid van het gehoor voor allerlei geluidsverschillen hebben we nodig om ten minste twee redenen:
  • De JND legt een ondergrens aan de nauwkeurigheid waarmee een foneticus de akoestische eigenschappen van spraakklanken meet: het is vanuit communicatief standpunt zinloos eigenschappen nauwkeuriger te meten dan het menselijk oor ze kan horen.
  • We kunnen de spraakklanken uitzetten langs perceptief relevante schalen, zodat afstanden tussen klanken in een grafiek overeenkomen met de waargenomen grootte van het verschil tussen de klanken.
vraag
Spraakgeluid bestaat nooit uit een enkelvoudige toon. Spraakklanken zijn altijd complexe (samengestelde) trillingen, al dan niet met een periodieke structuur. Bovendien hebben we gezien dat de verdeling van de intensiteit over het frequentiespectrum bij spraakklanken niet uniform is. In de literatuur is het meest onderzoek beschreven naar de waarneming van eenvoudig gestructureerde geluiden, zoals enkelvoudige fluittonen en witte ruisstoten. Specifiek op spraakklanken aangelegd onderzoek is schaars; daar valt nog veel te doen. Niettemin kunnen we, met de nodige slagen om de arm, wel wat cijfers noemen.
  • Grondfrequentie. Om enigszins betrouwbaar te kunnen horen dat er een toonhoogteverschil bestaat tussen twee losse, kunstmatige spraakklanken, moet het verschil in grondfrequentie minstens 0,3 tot 2,5% bedragen ('t Hart et al., 1990: 27-35, en referenties aldaar).
  • Intensiteit. Een verschil in intensiteit tussen twee opeenvolgende, overigens identieke stationaire klinkers moet ten minste 1 dB zijn om gehoord te worden. Sorin (1981) heeft de JND voor intensiteitsverschillen bepaald van korte zinsfinale natuurlijke spraakfragmenten van 200, 400 en 600 ms. De JND-waarden bedroegen gemiddeld resp. 5, 3 en 2 dB.
  • Duur. Om te horen dat twee klanken verschillen in duur, moet er een duurverschil zijn van ten minste 10%. Er zijn aanwijzingen dat duurverschillen tussen stemloze klanken gemakkelijker te horen zijn dan tussen stemhebbende klanken. Een nog nauwelijks onderzochte vraag is hoe nauwkeurig we de duur kunnen horen van stukjes stilte tussen spraakgeluiden in (Fujisaki, Nakamura & Imoto, 1975). De JND voor spreektempo is gerelateerd is aan de JND voor segmentduren; immers, hoe korter een segment klinkt, des te sneller het waargenomen spreektempo zal zijn. Eefting & Rietveld (1989) vonden een JND van gemiddeld 4,5% voor het spreektempo van losse zinnen.
  • Formantfrequentie. Om te horen dat twee klinkers verschillen in timbre moet de frequentie van de eerste of de tweede formant ten minste 3% verschillen. Wanneer twee of meer formanten tegelijk verschillen kan het verschil voor elke formant apart kleiner zijn, maar hoeveel precies is niet bekend (zie verder Mermelstein, 1978).

Tot nu toe hebben we het gehad over eigenschappen van niet-veranderende geluiden. In spraak veranderen spraakklanken echter voortdurend van toonhoogte, timbre en sterkte. Onderzoek naar de gevoeligheid waarmee we de snelheid en richting van veranderingen binnen spraakklanken waarnemen, heeft o.a. het volgende laten zien:


vorige sectie volgende sectie Inhoud van dit hoofdstuk Hoofdindex
zeglwit.gif

Copyright © 1998 Coutinho
Alle Rechten Voorbehouden