• Shuffle
    Toggle On
    Toggle Off
  • Alphabetize
    Toggle On
    Toggle Off
  • Front First
    Toggle On
    Toggle Off
  • Both Sides
    Toggle On
    Toggle Off
  • Read
    Toggle On
    Toggle Off
Reading...
Front

Card Range To Study

through

image

Play button

image

Play button

image

Progress

1/73

Click to flip

Use LEFT and RIGHT arrow keys to navigate between flashcards;

Use UP and DOWN arrow keys to flip the card;

H to show hint;

A reads text to speech;

73 Cards in this Set

  • Front
  • Back
H11. Nabeschouwing significantietoets

Hypothesen kun je toetsen op significantie. Toch zijn er problemen rond de significantie van toetsen. Die vaak opduiken in de praktijk:

Twee problemen...
Het eerste probleem is het effect van schendingen van de aannamen van een toets op de resultaten die met de toets worden verkregen.

Hoe kun je vaststellen of aan de aannamen van een toets is voldaan? En hoe erg is het als we niet aan die aannamen voldoen?

Het tweede probleem hangt samen met het exploratieve gebruik van toetsen. Met een computer is het eenvoudig om vele honderden statistische toetsen uit te voeren, waarvan we simpelweg de meest significante er uit halen. Op die manier vind je altijd wel iets.

Maar is dat eerlijk? Is dat reëel?
11.1 Betekenis van significantie

We hebben gezien dat het resultaat van een statistische toets doorgaans als 'significant' wordt bestempeld wanneer
de toetsingsgrootheid een bepaalde grenswaarde overschrijdt,

of wanneer de overschrijdingskans van die toetsingsgrootheid (de p-waarde) kleiner is dan het vooraf ge­kozen significantieniveau 0,05 of 0,01.

In sociaal-wetenschappelijke publicaties wordt dit dikwijls omschreven als 'significant' (α: = 0,05) en
'zeer significant' (α: = 0,01).
In sociaal-wetenschappelijke publicaties wordt dit dikwijls omschreven als 'significant' (α: = 0,05) en
'zeer significant' (α: = 0,01).

Daarbij wordt in de tabellen met de resultaten, bijvoorbeeld correlaties, dikwijls gebruik gemaakt van
een markering met sterretjes: één sterretje betekent dan significant op α: = 0,05, twee sterretjes significant op α: = 0,01, en drie sterretjes significant op α: = 0,001. In de tabellen, of in de tekst, kan dan komen te staan: 'Het verband tussen de studiemotivatie en de studie prestatie blijkt significant, de correlatie is r = 0,58**.'

Informatiever is uiteraard het vermelden van
overschrijdingskans de precieze overschrijdingskans, als in: 'Het resultaat blijkt significant, de correlatie is r = 0,58 (p = 0,007)'.
Informatiever is uiteraard het vermelden van de...
overschrijdingskans


de precieze overschrijdingskans, als in: 'Het resultaat blijkt significant, de correlatie is r = 0,58 (p = 0,007)'.
Het gebruik van significantietoetsen brengt een aantal methodologische problemen met zich mee.

Zoals in hoofdstuk 10 is uiteengezet, betekent een significante uitkomst bijvoorbeeld niet noodzakelijk dat
de uitkomst ook interessant is. Het kan gaan om een heel klein verschil dat significant is omdat we een zeer grote steekproef hebben getrokken.
Betekenis van significantie.

Een geheel ander probleem is de betekenis van de term 'significantie' zelf. Statistische programma's zoals SPSS berekenen de overschrijdingskansen doorgaans in vele decimalen. In publicaties worden deze ver­volgens meestal kortheidshalve afgerond tot twee of drie decimalen. Dit alles wekt de suggestie dat
we heel exact weten hoe significant een resultaat is.
Bovendien suggereert het dat
we verschillende resultaten kunnen vergelijken en daarbij uitspraken doen als: 'De resultaten van experiment 1 zijn veel significanter dan de resultaten van experiment 2.'

Beide suggesties zijn onjuist.
Hoe significant een bepaald resultaat is, wordt uitsluitend bepaald door
de vooraf gekozen waarde van het significantieniveau α:.

Is de gevonden overschrijdingskans kleiner dan α:, en het maakt niet uit hoevéél kleiner, dan is het resultaat nog steeds significant op dat niveau α:.

Bovendien veronderstelt de suggestie van de exacte overschrijdingskansen dat volledig aan alle aannamen van de statistische toets is voldaan. Dat is vrijwel nooit het geval.
De suggestie dat we de overschrijdingskansen van twee experimenten kunnen vergelijken om te zien welke het meest significant is, berust op vergelijkbare misverstanden.

Behalve dat ook hier de waarde van α: bepaalt hoe significant het resultaat in elk experiment is, hebben we in hoofdstuk 10 gezien dat elke overschrijdingskans afhangt van:
-de nulhypothese (toetsen we eenzijdig of tweezijdig);
-het ware effect in de populatie;
-de steekproefgrootte;
-de soort toets die is gebruikt.

Daar komt nog bij dat de kansen vertekend kunnen zijn als niet aan de aannamen van de toets is voldaan.
Daar komt nog bij dat de kansen vertekend kunnen zijn als niet aan de aannamen van de toets is voldaan.

We zouden twee van zulke overschrijdingskansen op zijn hoogst mogen vergelijken als
dezelfde toets met dezelfde H0 en H1 is gebruikt bij exact even grote steekproeven en wel zo dat in beide gevallen volledig aan alle aannamen is voldaan.

Maar in dat geval hangt de overschrijdingskans alleen nog maar af van het verschil in effect tussen beide populaties.

Als we willen weten welk experiment het grootste effect heeft laten zien, dan kunnen we beter di­rect naar het verschil in effect kijken, en de significantietoets alleen ge­bruiken waarvoor hij ook is bedoeld: het trekken van een streep tussen resultaten die we als 'echt' interpreteren en resultaten die we voor reke­ning van het toeval laten komen.
Als we willen weten welk experiment het grootste effect heeft laten zien, dan kunnen we beter di­rect naar het verschil in
effect kijken, en de significantietoets alleen ge­bruiken waarvoor hij ook is bedoeld:

het trekken van een streep tussen resultaten die we als 'echt' interpreteren en resultaten die we voor reke­ning van het toeval laten komen.
Problemen rond significantie

De problemen rond significantietoetsing zijn al tientallen jaren onderwerp van discussie onder statistici en methodologen. Een aantal van de ar­tikelen waarin deze discussie speelt zijn opgeno­ men in de boeken van Kirk (1972) en Lieberman (1971).

De discussie over onderscheidingsvermogen en effectgrootte leidt in ieder geval tot de conclusie dat het niet voldoende is om alleen de significan­tie van een effect te rapporteren, maar dat ook
de grootte ervan moet worden vermeld. Zo over­weegt de American Psychological Association (APA) of bij APA-tijdschriften de sterke nadruk op p-waarden wellicht moet worden vervangen door effectschattingen en betrouwbaarheidsintervallen, daartoe onder andere aangespoord door Co­hen (1990). De verschillende maten die bij de analyse van het onderscheidingsvermogen in hoofdstuk 10 worden gebruikt kunnen worden gerapporteerd, met de vermelding of het effect 'klein', 'middelmatig' of 'groot' is.

Bij parametri­sche toetsen is het handig om te weten dat het heel eenvoudig is om bij een t-toets of F-toets te bepalen hoe groot de proportie verklaarde varian­tie is.

De formules zijn zeer eenvoudig. Bij de cor­relatie is de proportie verklaarde variantie een­voudig gelijk aan het kwadraat van de correlatie­ coëfficiënt. Bij de t-toets wordt de proportie ver­ klaarde variantie gegeven door de formule r 2 = t2 I (t2 + df). Bij de variantie-analyse wordt de ver­ klaarde variantie gegeven door de formule R2 = dfbF I (df+ dfw).
Bij parametri­sche toetsen is het handig om te weten dat het heel eenvoudig is om bij een t-toets of F-toets te bepalen hoe groot de proportie verklaarde varian­tie is.

De formules zijn zeer eenvoudig.
Bij de cor­relatie is de proportie verklaarde variantie een­voudig gelijk aan het kwadraat van de correlatie­ coëfficiënt.

Bij de t-toets wordt de proportie ver­klaarde variantie gegeven door de formule

r2 = t2 I (t2 + df).


Bij de variantie-analyse wordt de ver­klaarde variantie gegeven door de formule

R2 = dfbF I (df+ dfw).
Het gebruik van de significantietoets om een scherpe streep te trekken tussen 'significante' en 'niet-significante' resultaten heeft in de praktijk ook zijn bedenkelijke kanten.

Dat een nulhypothese niet wordt ver­ worpen en de alternatieve hypothese dus niet geaccepteerd, kan immers ook
belangrijke informatie zijn.

Als het onderzoek goed is uitgevoerd, geeft het accepteren van de nulhypothese bijvoorbeeld aan dat in die richting niet meer verder hoeft te worden gezocht, of dat de theorie waaruit de (alternatieve) hypothese afkomstig is nog eens aan een kritisch onderzoek dient te worden onderworpen.

Niettemin zijn er wetenschappelijke tijdschriften die niet-significante resultaten liever niet publiceren.
Wanneer onderzoekers nu een resultaat vinden met een overschrijdingskans van 0,051 (net niet significant dus), kan de verlei­ding groot zijn om te bekijken of
het misschien mogelijk is een overschrijdingskans van 0,049 te bereiken. Dit kan soms door de keuze van een andere toets, door alsnog eenzijdig in plaats van tweezijdig te toet­sen, of door enkele problematische respondenten te verwijderen.

Een andere strategie is de resultaten tussen de 0,05 en de 0,10 als 'bijna significant' te bestempelen en die vervolgens gewoon te interpreteren.

In strikte zin zijn we dan niet meer bezig met het toetsen van hypothesen, maar we exploreren onze gegevens met behulp van de significantietoets die we als een soort zeef gebruiken om interessante resultaten uit de ruwe gegevens te zeven.
11.2 Schendingen, robuustheld en transformaties

Verschillende aannamen

Het gebruik van statistische modellen veronderstelt dat aan de ver­schillende aannamen van het model voldaan is. Eén veronderstelling die door alle toetsen in dit boek wordt gemaakt, is ...
dat de onderzochte steekproef een aselecte steekproef uit de populatie is.
Toetsen voor onafhankelijke waarnemingen veronderstellen dat die waarnemingen ook inderdaad onafhankelijk zijn. We mogen dus niet zomaar herhaalde metingen bij een enkele persoon behandelen alsof ze onafhankelijk zijn.

Daarnaast spelen ook nog andere aannamen een rol.
Behalve de aanname van normaliteit die in vrijwel alle parametrische toetsen wordt gedaan, veronderstellen veel parametrische toetsen bijvoorbeeld ook dat eventuele verschillen in gemiddeld en niet ge­paard gaan met verschillen in spreiding.

Non-parametrische toetsen doen doorgaans niet de aanname van normaliteit, maar ook zij kennen elk hun eigen aannamen.
Sommige statistici hebben hier een heel precies standpunt over: zij zijn van mening dat
als aan de aannamen voor een statistische toets niet is voldaan, die toets ook nooit mag worden gebruikt.
Rekkelijk standpunt


Andere statistici hebben een meer
rekkelijk standpunt: zij beweren dat die toets in zo'n geval misschien toch mag worden gebruikt, maar dan wel met enige voorzichtigheid .
De rechtvaardiging die daarvoor wordt gegeven is dat
veel statistische toetsen robuust zijn.

Daarmee wordt bedoeld dat de toets niet erg gevoelig is voor een schending van de aannamen: ook wanneer de aannamen slechts ten dele juist zijn, krijgen we toch vrij­ wel correcte uitkomsten.
In de praktijk van het sociaal-wetenschappelijkjk onderzoek komen we doorgaans het rekkelijke standpunt tegen. Dat is ook begrijpelijk.


Waarom?
Wan­neer we bij de sociaal-wetenschappelijke gegevens, waarover we gewoonlijk beschikken, een zeer precies standpunt zouden innemen, dan zouden we vermoedelijk nooit aan een statistische analyse toekomen.

Bovendien bestaan er van een aantal parametrische technieken (bij­ voorbeeld multivariate analyse) nauwelijks non-parametrische tegen­ hangers.

Bij een strikte interpretatie van de statistische aannamen zou­ den we deze technieken vrij wel nooit mogen gebruiken. Dat is misschien wel veilig, maar deze veiligheid kent zijn prijs. We kunnen onze gegevens daardoor slechts zeer beperkt analyseren.

De auteurs van dit boek bepleiten een rekkelijk standpunt, maar dan wel in combinatie met een zorgvuldige controle op de mate waarin de aannamen worden geschonden en een beargumenteerde keuze van de uiteindelijk gebruikte analysetechnieken (bijvoorbeeld parametrisch versus non-para­metrisch) .
11.2.1 Aselecte steekproef

Statistische generalisatie vereist steekproeven die door toevalsprocedures (bijvoorbeeld loting) uit een populatie zijn getrokken. In de praktijk is dit lang niet altijd het geval. Instanties als het CBS (Centraal Bureau voor de Statistiek) beginnen in de regel met een echte toevalssteekproef, maar komen vervolgens het probleem tegen dat een bepaald percentage van de benaderde respondenten niet aan het onderzoek wil meedoen.

De uiteindelijk gerealiseerde steekproef is vaak
niet meer dan
80% van de oorspronkelijk benaderde groep.

Zo'n steekproef is daar­ mee niet langer een echte toevalssteekproef. De vraag of deze steek­ proef dan geen vertekend beeld oplevert van de Nederlandse bevolking hangt af van de vraag of de mensen die weigeren mee te doen wellicht verschillen van de mensen die wel meedoen.
Voor sommige variabelen kan dat worden gecontroleerd. Wanneer een steekproef ineens 60% mannen en 40% vrouwen blijkt te bevatten, dan weten we dat er een vertekening is opgetreden ten opzichte van de Nederlandse bevolking.

Ook bij andere onderzochte groepen is het soms mogelijk zulke con­troles uit te voeren. Voor die variabelen waarop we hebben kunnen controleren, kunnen we vervolgens proberen de steekproefresultaten te
wegen.

Altijd nodig is dat echter niet. Wanneer bijvoorbeeld blijkt dat er tussen mannen en vrouwen geen verschil in attitude ten opzichte van het milieu bestaat, dan is het feit dat onze steekproef vertekend is voor deze variabele niet belangrijk. Onze conclusies zouden bij een an­dere man/vrouwverhouding immers hetzelfde zijn gebleven.
Gelegenheidssteekproef


Een ander soort steekproef is de gelegenheidssteekproef (Engels: conve­nience sample).

Dit is een steekproef die
vaak slechts ten dele volgens een toevalsprocedure is getrokken, of soms zelfs helemaal niet. Een goed voorbeeld is veel psychologisch onderzoek, dat wordt uitgevoerd onder psychologiestudenten die daar in het kader van hun studie ver­ plicht worden aan mee te doen.
De steekproef bestaat dan uit een wil­lekeurige (bij voorkeur aselecte!) groep psychologiestudenten. De vraag is dan over welke populatie dit iets zegt.

Statistisch gezien is het ant­woord duidelijk;
op zijn best zegt zo'n toets iets over psychologiestu­denten. Toch heeft de psychologie als wetenschap de pretentie dat het over mensen in het algemeen gaat.

Dit valt alleen te rijmen als duide­lijk kan worden gemaakt dat het betreffende onderzoek zich richt op een eigenschap waarop psychologiestudenten niet wezenlijk verschil­len van mensen in het algemeen.
Veronderstel bijvoorbeeld dat we in een experiment willen nagaan hoeveel het reactievermogen bij jonge mensen afneemt, als de snelheid van het object waarop gereageerd moet worden toeneemt. We voeren het experiment uit met pingpong­ balletjes die we met een bepaalde snelheid op de proefpersoon afschie­ten en die deze moet proberen terug te slaan.

De onafhankelijke varia­bele is
de snelheid waarmee elk balletje wordt afgeschoten. Onderzocht wordt hoe de snelheid van een balletje samenhangt met de kans dat de proefpersoon het kan terugslaan.
Psychologiestudenten verschillen van jonge mensen in het algemeen in kenmerken als intelligentie, toekomstverwachtingen, houdingen, enzovoort. In dit geval kan echter worden verdedigd dat voor iedereen (zowel jonge mensen in het algemeen als psychologiestudenten) geldt
dat hoe sneller het balletje op iemand afkomt, hoe moeilijker het wordt om het balletje terug te slaan.

Daarom kunnen we hier zonder veel pro­blemen generaliseren.

We moeten hoogstens oppassen dat er tussen de psychologiestudenten geen beroepstafeltennisser zit, want die zou de resultaten wel eens flink kunnen beïnvloeden.
Generaliseren en wegen


Bij een experiment waarin we nagaan hoe goed mensen (cognitieve) oorzaken van foutief aflopende gebeurtenissen kunnen aangeven, dienen we daarentegen te bedenken dat psychologiestudenten daar onderwijs in hebben gehad; generaliseren naar een populatie die een vergelijkbaar onderricht niet heeft gehad , is om die reden
bedenkelijk.

Uit de voorbeelden blijkt dat aan het generaliseren van een steekproef naar een populatie meer te pas komt dan alleen maar statistiek. Voorafgaand aan het onderzoek moet worden beargumenteerd op welke populatie de uit komsten van het onderzoek betrekking hebben. Deze argumentatie is behalve statistisch ook inhoudelijk en methodologisch van aard.
Uit de voorbeelden blijkt dat aan het generaliseren van een steekproef naar een populatie meer te pas komt dan alleen maar statistiek.

Voorafgaand aan het onderzoek moet worden beargumenteerd
op welke populatie de uit komsten van het onderzoek betrekking hebben. Deze argumentatie is behalve statistisch ook inhoudelijk en methodologisch van aard.
Wanneer we van sommige variabelen in de steekproef weten wat de proporties in de populatie
zijn, kunnen we d e steekproefresultaten op deze variabelen wegen als we het populatiegemiddelde willen bepalen. Het gaat dan steeds om
achter­ grondvariabelen (we wegen niet op de atbankelijke variabelen).

Wanneer de proportie mannen in de gerealiseerde steekproef 0,60 bedraagt en de proportie vrouwen 0,40, dan gaan we bij een fifty/ fifty-populatie uit van een gewicht voor de mannen van =0,50/0,60 = 0,83 en een gewicht voor d e vrouwen van 0,50/0,40 = 1,25.

In het al­gemeen is het gewicht gelijk aa n W; = Pi/ p;. Het gewicht W van groep i is met andere woorden gelijk aan de proportie in de populatie P; gedeeld door de proportie in de steekproef p;.
Bij wegen op meer dan één variabele tegelijk worden de formules ingewikkelder, maar blijft het principe het­ zelfde. Voor weging geldt h t zelfde wat ook voor complexe steekproeven geldt: eigen lijk moet de analyseprocedure worden aangepast.

Het statistiekprogramma SPSS kent wel de gewichtvariabele (weighth genaamd ), maar kent niet de
aangepaste rekenformules. In dat geval is het verstandig om extreem grote gewichten te vermijden , bijvoorbeeld gewichten groter dan twee, waarbij elke respondent in di e groep dus dubbel telt, en het significantie niveau scherper te stellen, bijvoorbeeld α= 0,01 in plaats van het gebruikelijke niveau α = 0,05.
11.2.2 Onafhankelijkheid van de waarnemingen

Veronderstel dat we een observatieonderzoek doen bij een groep van tien kinderen, vijf jongens en vijf meisjes. Het speelgedrag wordt geobserveerd, en elke vijf minuten wordt van alle kinderen het gedrag geclassificeerd volgens een eenvoudig schema zoals 'niet agressief' versus 'agressief'. Dit houden we een uur vol, en we hebben daarna van elk kind dus twaalf metingen, in totaal dus honderdtwintig waarnemingen. We kunnen deze honderdtwintig waarnemingen vervolgens onderbrengen in een 2 x 2-tabel (sekse x soort gedrag) en daarop een chi­ kwadraattoets uit voeren.

Als we dat doen, dan maken we
een ernstige fout.

De x2-toets veronderstelt immers onafhankelijkheid van de waarnemingen, dat wil zeggen dat het plaatsen van een specifieke observatie in een van de cellen geen invloed mag hebben op de plaatsing van de andere waarnemingen. In dit geval zijn onze waarnemingen echter gegroepeerd; we hebben groepjes van twaalf waarnemingen per kind.

Die zijn zeker niet onafhankelijk. Wanneer twee jongetjes het hele uur met elkaar hebben lopen ruziën, dan hebben we al vierentwintig waar­nemingen van agressieve jongetjes. Maar het gaat wel steeds om dezelfde twee! De x2-toets behandelt onze honderdtwintig waarnemingen echter of we naar honderdtwintig verschillende kinderen hebben gekeken en die in de vier cellen van de tabel hebben ingedeeld. In feite gaat het echter om gepaarde waarnemingen, die ook als zodanig moeten worden behandeld. Een betere aanpak zou zijn per kind een score voor agressie te bepalen en de jongens en meisjes daarop te vergelijken.
Een betere aanpak zou zijn
per kind een score voor agressie te bepalen en de jongens en meisjes daarop te vergelijken.
De X2-toets veronderstelt
onafhankelijkheid van de waarnemingen
Niet robuust

Speciale statistische toetsen voor afhankelijke steekproeven en herhaal­ de waarnemingen uitgezonderd, zijn statistische procedures in het ge­heel
niet robuust voor een schending van de aanname van onafhanke­lijkheid van de waarnemingen.

Dit houdt in dat de resultaten van de toets sterk misleidend kunnen zijn als deze aanname erg wordt ge­ schonden.
Het effect is bijna altijd dat
de (verkeerd) berekende over­ schrijdingskans veel te klein is in vergelijking met de overschrijdings­ kans bij een correct uitgevoerde toetsing.

In ons voorbeeld is sprake van een ernstige schending van deze aanname; de verkregen x2-waarde is veel te groot (en de overschrijdingskans dus veel te klein).

Een lichte schending van deze aanname vinden we in onderwijskundig onder­ zoek waarbij gegevens over schoolkinderen klassikaal worden verza­meld.

Doordat kinderen uit dezelfde klas doorgaans iets met elkaar ge­meen hebben (ze komen uit dezelfde buurt, hebben dezelfde leerkrach­ ten, enzovoort), zijn deze gegevens evenmin geheel onafhankelijk. In de regel is de mate van afhankelijkheid in dit soort onderzoek echter klein, zodat we met statistische toetsen die onafhankelijkheid veron­derstellen toch tamelijk betrouwbare resultaten kunnen krijgen.
Onafhankelijkheid en multiniveaubenade­
ring

Wanneer er sprake is van onderzoek binnen be­staande groepen (schoolklassen, afdelingen bin­nen organisaties, etcetera), dan zijn de waarnemingen
niet geheel onafhankelijk.

Als bijvoorbeeld de studie-motivatie X en de leerprestatie Y bij de bepaling van de significantie van de corre­ latie berekend is over een aantal schoolklassen, dan wordt daar door SPSS geen rekening mee ge­ houden.

Onder de zogenaamde 'multiniveaubenadering' bevinden zich analysetechnieken die dat wel doen.
Multiniveautechnieken zijn vooral belangrijk wanneer we leerkrachtkenmerken (zo­ als aantal ervaringsjaren) willen koppelen aan
leerlingkenmerken (zoals leerprestatie), omdat we dan doorgaans zeer sterke afhankelijkheden krijgen. De score op de leerkrachtvariabele 'ervaring' is immers voor alle leerlingen in dezelfde klas per definitie gelijk! De multiniveaubenadering heeft dan zonder meer de voorkeur.
11.2.3 Aanname van normalltelt

Parametrische toetsen veronderstellen
normaliteit.

Dikwijls wordt dit geïnterpreteerd als de aanname dat de betrokken variabelen normaal verdeeld moeten zijn en vervolgens wordt dat onderzocht door het his­togram van de betrokken variabelen te inspecteren.

Maar dit is niet al­tijd correct, want de precieze aanname luidt vaak iets anders.
Nauw­ keuriger geformuleerd is de veronderstelling vaak dat de residuen of voorspellingsfouten normaal moeten zijn verdeeld.

Bij de variantie­ analyse betekent dit bijvoorbeeld dat
de afwijkingen ten opzichte van het groepsgemiddelde in elke groep normaal verdeeld moeten zijn.

Bij een regressievergelijking betekent dit dat de voorspellingsfouten ten opzichte van de regressielijn voor elke waarde van de onafhankelijke variabele X een normale verdeling moeten hebben.

Het onderzoeken van de normaliteit van de variabelen zonder meer geeft daarvan slechts een ruwe indicatie.
Parametrische toetsen robuust tegen schenden van normaliteit

Gelukkig zijn parametrische toetsen betrekkelijk robuust tegen
schendingen van de aanname van normaliteit.

Wanneer de steekproef niet te klein is (bijvoorbeeld groter dan 30) leidt een flinke schending van de aanname van normaliteit nog tot redelijke resultaten, dat wil zeggen tot een berekende overschrijdingskans die de correcte dicht benadert.
Tweezijdige toetsen blijken meer robuust te zijn dan
eenzijdige toetsen.

Vooral bij kleine steekproeven is dit een goede reden is om aan tweezijdige toetsen de voorkeur te verlenen, als er tenminste geen duidelijke redenen aanwezig zijn om eenzijdig te toetsen- zoals bij evaluatie-onderzoek vaak wél het geval zal zijn.

Omdat kleine afwijkingen van normaliteit niet cruciaal zijn, is het doorgaans niet nodig om de normaliteit op ingewikkelde wijze te toetsen; inspectie van de histogrammen van de betrokken variabelen is doorgaans voldoende.
Toetsen op normaliteit

H et programma SPSS kent, afhankelijk van de toe ts en van de SPSS-versie die wordt ge bruikt, verschillende mogelijkheden om te toetsen voor normaliteit. De procedure examine kan verschil­lende soorten plots maken en een formele test uitvoeren voor normaliteit.

Deze toets (de Lillie­ fors-test) heeft echter
een zeer groot onderscheidingsvermogen en geeft daarom al héél snel aan dat van de normaliteit wordt afgeweken, terwijl de meeste parametrische toetsen juist niet erg gevoelig zijn voor normaliteit.

Het programma generallinear model en de regressieprocedure regression kunnen plots maken van residuen, die vervolgens kunnen worden geïnspecteerd op af­ wijkingen ten opzichte van normaliteit.
11.2.4 Aanname van homogeniteit

Homogeniteit van residuele variantie

Veel parametrische toetsen gaan uit van de zogenaamde
homogeniteit van de residuele variantie.
Bij de t-toets (die daar overigens voor kan cor­rigeren) en de variantie-analyse betekent dit dat de varianties
in alle groepen gelijk moeten zijn.

Deze aanname kan worden gecontroleerd door te bekijken of de standaardafwijkingen of varianties van de groe­pen ongeveer even groot zijn.

Bij het berekenen van correlaties bete­kent de aanname van homogeniteit dat de grootte van de voorspel­lingsfouten niet mag afhangen van de waarde van de voorspelling, met andere woorden dat de voorspellingsfouten niet systematisch groter of kleiner mogen worden naarmate de voorspelde waarde hoger is.
Deze aanname kan worden getoetst door de voorspellingsfouten te inspecte­ren, bijvoorbeeld door het strooiingsdiagram te bekijken.

Ook bij deze aanname geldt dat de parametrische toetsen betrekkelijk robuust zijn. Bij niet al te kleine steekproeven (bijvoorbeeld groter dan 30) leiden be­trekkelijk grote afwijkingen (bijvoorbeeld een t-toets met de standaard­ afwijking in de ene groep tweemaal zo groot als die in de andere) nog steeds tot een tamelijk nauwkeurig bepaalde overschrijdingskans.

Net als bij de aanname van normaliteit geldt dat tweezijdige toetsen ro­buuster zijn dan eenzijdige. Er is echter één uitzondering! ....
Wanneer de groepsgroottes sterk verschillen en de kleinste groep de grootste sprei­ ding heeft, blijkt de t-toets gevoelig te zijn. In dat geval kan beter een andere toets worden gebruikt.
Toetsen op gelijke varianties?

Bi j de t-toets en de variantie-analyse kan SPSS een toetsing uitvoeren voor gelijkheid van varianties. Bij de t-toets is dit de toets van Levene (in eerdere versies van SPSS de F-toets op de varianties) .

Bij de variantie-analyse is dit de toets van Box, of de multivariate versie daarvan, de toets van Bartlett.

De F-toets op de varianties en de toetsen van Box en van Bartlett zijn echter buitengewoon gevoelig voor
afwijkingen van normaliteit. Wanneer er ook maar enige non-norma liteit is, leiden ze al tot zeer kleine overschrijdingskansen, ook wan­ neer de varianties niet of nauwelijks verschillen.

Gegeven de robuustheid vant-toetsen variantie­ analyse tegen ongelijke varianties zijn deze toet­sen in feite overbodig, en kan met een directe inspectie van de spreiding binnen de betrokken groepen worden volstaan .

Zolang de grootste standaard afwijking minder dan tweemaal zo groot is als de kleinste, is er weinig aan de hand, en kan de t-toets of variantie-analyse rustig worden gebruikt.
11.2.5 Aannamen van non-parametrische toetsen

Non-parametrische toetsen kennen ook
aannamen, hoewel die dikwijls minder strikt zijn dan de aannamen van parametrische toetsen.
Zo ver­ onderstellen de meeste non-parametrische toetsen, bijvoorbeeld de te­genhanger van de t-toets, de Wilcoxon-Mann-Whitney-U-toets, bij­ voorbeeld niet dat de waarnemingen in de verschillende groepen uit normale verdelingen afkomstig zijn, maar wél dat ze uit continue ver­delingen moeten komen. Ze veronderstellen daarmee feitelijk dat er geen
'ties' zijn.

Weliswaar vallen de effecten van dergelijke 'ties' wel weer mee als het er niet te veel zijn, en kunnen we er bij te grote aan­ tallen 'ties' voor corrigeren. Dat neemt echter niet weg dat de meeste ta­bellen voor kleine steekproeven dan niet meer de exacte overschrij­dingskansen geven, maar slechts benaderingen, al zijn die vaak rede­ lijk. Ook bij non-parametrische toetsen hebben schendingen van de aannamen dus consequenties. Het aantal non-parametrische toetsen is zeer groot, en het is ondoenlijk om hier alle aannamen te bespreken.
Wanneer wordt overwogen om een non-parametrische toets te gebruiken, is het aan te raden om
de aannamen daarvan op te zoeken en na te gaan of plausibel kan worden gemaakt dat eraan is voldaan. Naast dit boek kan men terecht bij Siegel en Castellan (1988), Kendali en Gib­ bons (1990), Sheskin (2000).
11.2.6 Transformaties

Wanneer niet aan de aannamen van normaliteit en gelijke varianties blijkt te zijn voldaan, is het soms mogelijk om de afhankelijke variabe­le door een niet-lineaire transformatie een verdeling te geven die wel aan deze aanname n voldoet, of in ieder geval beter dan de ongetrans­formeerde verdeling. Een aantal in aanmerking komende niet-lineaire transformaties zijn:
de inverse f(x) = 1/ x; de wortel f(x) =√x

en de na­tuurlijke logaritme f(x) = 1n (x).

Ook rangtransformaties en normalise­rende transformaties (besproken in hoofdstuk 7 van Beschrijvende Tech­nieken) zijn soms nuttig.
Bedacht moet worden dat de statistische con­clusies na een transformatie uiteraard betrekking hebben op de ge­transformeerde variabele!

Of die inhoudelijk zinvol kan worden geïn­terpreteerd is geen zaak van de statistiek, maar wordt bepaald door
de inhoud van het onderwerp waarnaar onderzoek wordt gedaan. De on­derzoeker dient daar van geval tot geval een beslissing over te nemen.
Bij toetsend onder­ zoek hypothesen vooraf
formuleren
11.3 Toetsen versus exploreren

Exploratief onderzoek

Het gebruik van statistische toetsen komen we vooral tegen in het ka­der van het zogenaamde toetsende onderzoek, dit wil zeggen onderzoek dat er specifiek op is ge richt theorieën en hypothesen te toetsen. In dat geval hebben onderzoekers uit theoretische overwegingen een of meer onderzoekshypothesen opgesteld en hierover gegevens verzameld. Ver­ volgens wordt de statistische toets gebruikt
om antwoord te krijgen op de vraag of de hypothesen houdbaar zijn, of niet.
Bij toetsend onder­ zoek is het essentieel dat de hypothesen vooraf
zijn geformuleerd, en dat zoveel mogelijk details van de toetsingsprocedure van tevoren zijn vastgelegd. Statistisch gezien houdt dit in dat van tevoren zoveel mo­ gelijk moet zijn besloten:

1 wat de H0 is en de H1 (dus of er één- dan wel tweezijdig gaat worden getoetst);
2 welk significantieniveau gaat worden gehanteerd;
3 of met afhankelijke dan wel onafhankelijke steekproeven wordt ge­werkt; en
4 welk soort toets gaat worden gebruikt.
Statistisch gezien houdt dit in dat van tevoren zoveel mo­ gelijk moet zijn besloten:
1 wat de H0 is en de H1 (dus of er één- dan wel tweezijdig gaat worden getoetst);
2 welk significantieniveau gaat worden gehanteerd;
3 of met afhankelijke dan wel onafhankelijke steekproeven wordt ge­werkt; en
4 welk soort toets gaat worden gebruikt.
Niet alles hoeft van tevoren exact vast te liggen; zo wordt de keu ze voor een parametrische of een non-parametrische toets vaak pas gemaakt nadat
de verdeling van de gegevens is onderzocht en deze zeer scheef blijkt te zijn.

Essentieel is dat er van tevoren scherpe statistische hypothesen worden opgesteld, er een duidelijk analyseplan ligt en dat de sta­tistische beslissingen zoveel mogelijk vooraf worden genomen.
Statistische toetsen worden ook gebruikt in het kader van het zoge­naamde exploratieve onderzoek. Exploratief onderzoek wordt geken­merkt door het feit dat
van tevoren niet scherp is gesteld welke hypo­thesen gaan worden getoetst.

De nadruk bij exploratief onderzoek ligt op 'de gegevens te laten spreken' en 'analyseren wat er in lijkt te zitten.' Als er al hypothesen in het spel zijn, dan zijn die nog betrekkelijk vaag.

Onderzoekers hebben bijvoorbeeld verwachtingen over variabelen die mogelijk interessant kunnen zijn, zonder daar echter al duidelijke uit­ spraken over te durven doen.
Bij exploratief onderzoek worden veel sta­tistische beslissingen daarom tijdens de analyse genomen. Zo kunnen onderzoekers besluiten om bepaalde groepen samen te nemen of juist te splitsen, of om variabelen op verschillende manieren te combineren. Bijvoorbeeld om mannen en vrouwen samen te analyseren, maar wel onderscheid te maken tussen verschillende leeftijdscategorieën.

De keuze om in een bepaalde richting verder naar verbanden te zoeken wordt dikwijls ingegeven door
eerdere analyses van dezelfde gegevens die erop wijzen dat in die richting wellicht interessante verbanden te vinden zijn.
Kortom, de onderzoekers proberen van alles uit, en laten zich bij hun analyses sterk sturen door de uitkomsten van eerdere ana­lyses.

Het doel van exploratief onderzoek is dan ook niet zozeer het toetsen, maar eerder
het vormen van hypothesen.
Zowel bij toetsend als bij exploratief onderzoek kunnen statistische hy­pothesen worden getoetst en overschrijdingskansen worden berekend.

Deze overschrijdingskansen hebben echter een verschillende status.

Bij toetsend onderzoek is de situatie eenvoudig.
In principe wordt één enkele hypothese volgens van tevoren bepaalde procedures getoetst.

Als aan de statistische aannamen is voldaan, dan kan de overschrij­dingskans op de gebruikelijke wijze worden geïnterpreteerd. Als de ge­vonden overschrijdingskans kleiner is dan het van tevoren gekozen sig­nificantieniveau a, dan wordt de nulhypothese verworpen en de alter­natieve hypothese aanvaard.
Bij exploratief onderzoek is er sprake van....
een groot aantal hypothesen
Bij exploratief onderzoek ligt de zaak aanzienlijk ingewikkelder. De kern van het probleem is
dat er niet één nulhypothese wordt getoetst, maar een groot aantal. Neem nu eens aan dat al deze nulhypothesen juist zijn, zodat er in feite geen enkel interessant verband aanwezig is.

Wij weten dit echter niet en voeren allerlei toetsingen uit in de hoop er­gens wat te vinden. Bij ieder van die toetsingen lopen wij een zeker ri­sico α op het ten onrechte verwerpen van de nulhypothese, doorgaans vastgesteld op 0,05.

Het probleem zit hem nu in de kans dat we er toe­ vallig één (of zelfs meer) verwerpen, terwijl er eigenlijk nergens ver­ band aanwezig is. Deze kans is groter dan α= 0,05.

Sterker nog, door de manier waarop de nulhypothesetoetsing is opgezet, mogen we er im­mers van uitgaan dat ongeveer vijf nulhypothesen ten onrechte zullen worden verworpen als we honderd ware nulhypothese n toetsen op een significantieniveau van 5%.
Maar hoe groot is nu de kans op één of meer 'significante' resultaten bij het toetsen van k onafhankelijke (ware) nulhypothesen op een signifi­cantieniveau α?
α = kans op ten onrechte verwerpen van H0, en dus:
1- α = kans op géén fout als we H0 niet verwerpen; kans op
(1 - α)k = géén fout bij k toetsingen; e n dus kans op één of
1- (1- α)k = meer fouten bij k toetsingen.
Wanneer we dus honderd ware nulhypothesen toetsen op α= 0,05, dan is de kans op minstens één 'significant' resultaat gelijk aan 1 - (1 - 0,05) 100 = 0,99.

Het is in deze situatie dus vrijwel zeker dat we minstens één significant resultaat vinden. Wanneer we dit resultaat zouden rap­porteren zonder daarbij te vermelden dat we honderd toetsen hebben uitgevoerd om dit ene significante resultaat te vinden, dan is de gerap­porteerde overschrijdingskans
volstrekt misleidend.
De beschikbaarheid van snelle computers is wat dit betreft een nadeel;

met een programma als SPSS kost het geen enkele moeite om van vijf­tig variabelen in één enkele opdrachtregel alle mogelijke kruistabellen of correlaties op te vragen.
Dat zijn er bij vijftig variabelen precies 1225, en wanneer we toetsen op α= 0,05 dan zal ongeveer 5% van die toet­singen een p-waarde gelijk aan of kleiner dan 0,05 opleveren.

Puur op basis van toeval kunnen we hier dus ongeveer zestig 'significante' re­sultaten verwachten!
De moraal van het verhaal is eenvoudig:

wanneer we een groot aantal toetsen uitvoeren, hebben de afzonderlijke overschrijdingskansen
wei­nig waarde.

Hetzelfde geldt wanneer we op basis van eerdere analyses alleen de meestbelovende variabelen verder analyseren. Ook dan selec­teren we immers de resultaten van een klein aantal toetsen omdat die een positief resultaat opleveren, alleen worden de overschrijdingskan ­sen van de meeste andere toetsen niet daadwerkelijk berekend.

Hoewel de overschrijdingskansen weinig waarde hebben, mogen onderzoekers ze nog steeds berekenen en gebruiken als een soort zeef om potentieel interessante verbanden uit de gegevens te peuren. De resultaten dienen echter geïnterpreteerd te worden als suggesties voor verder onderzoek, en niet als bewezen feiten.
Wanneer een van tevoren bekend aantal toetsen wordt uitgevoerd, is het mogelijk om de overschrijdingskansen te corrigeren voor het feit dat meer toetsen word en uitgevoerd. De bekendste correctie is de
Bon­ ferroni-correctie.

De Bonferroni-correctie is heel simpel. Als we k h ypo­thesen toetsen en a gelijk aan of kleiner moet zijn dan de kans dat min­stens één van die toetsen de nulhypothese ten onrechte verwerpt, dan moeten we elke afzonderlijke nulhypothese toetsen op een significan­tieniveau van a/1<.

We kunnen dat doen door in de tabel van de toet­singsgrootheid naar een kleinere waarde van a te zoeken, of door de via de computer berekende p-waarde met k te vermenigvuldigen. Het zal duidelijk zijn dat de Bonferroni -correctie het moeilijk maakt om signi­ficante resultaten te vinden als we een groot aantal hypothesen toet­sen. Daarom loont het ook bij exploratief onderzoek om niet 'all es met alles' te correleren, maar van tevoren een globaal analyseplan te beden­ ken dat het aantal uit te voeren toetsen beperkt.
Het zojuist gemaakte onderscheid tussen toetsend en exploratief on­derzoek is in de praktijk van het onderzoek wat minder scherp. Onder­zoek kan zowel toetsende als explorerende delen bevatten.

Vaak is spra­ke van een
centraal onderzoeksprobleem, waarover vooraf hypothesen kunnen worden opgesteld, en een aantal verwante vragen waarover de onderzoekers vooraf geen hypothesen hebben, maar waarover de on­derzoeksgegevens wellicht interessante informatie bevatten.

Het is dan verstandig om er in het analyseplan rekening mee te houden dat som­mige analyses dienen om hypothesen te toetsen en andere om de ver­ zamelde gegevens te exploreren. Ook in de rapportage is het verstandig om het verschil tussen beide te handhaven, bijvoorbeeld door de hypothesetoetsing en de exploratieve analyses in een verschillend hoofd­stuk onder te brengen.
Bonferroni-correctie en Holm-correctie

De Bonferr·oni-correctie wordt vooral gebruikt bij het toetsen van
een beperkt aantal vergelijkbare hypothesen.

Veronderstel bijvoorbeeld dat we de hypothese toetsen dat de politieke attitude van partners positief correleert. We kunnen dit toetsen door een enkele correlatie te berekenen. Maar wat doen we wanneer we drie verschillende attitudeschalen hebben om de politieke attitude te meten?

Eén oplossing is om de drie correlaties te berekenen en de overschrijdingskansen te corrigeren met de Bonferroni-correctie.
De Bonferroni-correctie is echter nogal fors en leidt daarom tot
toetsen met een laag onderscheidingsvermogen.
Holm (1979) heeft een vergelijkbare procedure voorgesteld die een groter onderscheidingsvermogen heeft. Zijn procedure verloopt als volgt.
Veronderstel dat we k toetsingen willen uitvoeren met een significantieniveaue x voor de hele verzameling toetsingen.

Eerst leggen we alle uitkomsten in volgorde van hun p-waarde. De kleinste p-waarde moet gelijk aan of kleiner zijn dan a/k, de volgende p-waarde gelijk aan of kleiner dan a/(k- 1), de daaropvolgende gelijk aan of kleiner dan α/(k- 2), enzovoort.

Bij de eerste niet-significante uitkomst houden we op met interpreteren. Voor een correctie van dep-waarden volgens de Halm-procedure worden de p-waarden weer op volgorde gelegd, waarna de kleinste wordt vermenigvuldigd met k, de daaropvolgende met k- 1, enzovoort.
Bijvoorbeeld, veronderstel dat we drie exploratieve toetsingen uitvoeren, en SPSS rapporteert daarvoor de p-waarden 0,0009, 0,0111, en 0,0212. Als we een alfa kiezen van 5%, zijn alle toetsen significant. Echter, we willen corrigeren voor het aantal toetsen.

De Bonferroni-correctie vermenigvuldigtalle p-waarden met het aantal toetsingen, met als uitkomstdep-waarden 0,0027, 0,0333, en 0,0636.

Na de Bonferroni-correctie besluiten we dus
dat de laatste toets niet significant is. De Halm-correctie vermenigvuldigt de kleinste p-waarde met 3, de op een na kleinste met 2, en de grootste met 1. Dat levert als uitkomsten 0,0027, 0,0222 en 0,0212. Dankzij het grotere onderscheidingsvermogen van de Halm-correctie zijn nu alle gecorrigeerde p-waarden significant.