Use LEFT and RIGHT arrow keys to navigate between flashcards;
Use UP and DOWN arrow keys to flip the card;
H to show hint;
A reads text to speech;
73 Cards in this Set
- Front
- Back
H11. Nabeschouwing significantietoets
Hypothesen kun je toetsen op significantie. Toch zijn er problemen rond de significantie van toetsen. Die vaak opduiken in de praktijk: Twee problemen... |
Het eerste probleem is het effect van schendingen van de aannamen van een toets op de resultaten die met de toets worden verkregen.
Hoe kun je vaststellen of aan de aannamen van een toets is voldaan? En hoe erg is het als we niet aan die aannamen voldoen? Het tweede probleem hangt samen met het exploratieve gebruik van toetsen. Met een computer is het eenvoudig om vele honderden statistische toetsen uit te voeren, waarvan we simpelweg de meest significante er uit halen. Op die manier vind je altijd wel iets. Maar is dat eerlijk? Is dat reëel? |
|
11.1 Betekenis van significantie
We hebben gezien dat het resultaat van een statistische toets doorgaans als 'significant' wordt bestempeld wanneer |
de toetsingsgrootheid een bepaalde grenswaarde overschrijdt,
of wanneer de overschrijdingskans van die toetsingsgrootheid (de p-waarde) kleiner is dan het vooraf gekozen significantieniveau 0,05 of 0,01. In sociaal-wetenschappelijke publicaties wordt dit dikwijls omschreven als 'significant' (α: = 0,05) en 'zeer significant' (α: = 0,01). |
|
In sociaal-wetenschappelijke publicaties wordt dit dikwijls omschreven als 'significant' (α: = 0,05) en
'zeer significant' (α: = 0,01). Daarbij wordt in de tabellen met de resultaten, bijvoorbeeld correlaties, dikwijls gebruik gemaakt van |
een markering met sterretjes: één sterretje betekent dan significant op α: = 0,05, twee sterretjes significant op α: = 0,01, en drie sterretjes significant op α: = 0,001. In de tabellen, of in de tekst, kan dan komen te staan: 'Het verband tussen de studiemotivatie en de studie prestatie blijkt significant, de correlatie is r = 0,58**.'
Informatiever is uiteraard het vermelden van overschrijdingskans de precieze overschrijdingskans, als in: 'Het resultaat blijkt significant, de correlatie is r = 0,58 (p = 0,007)'. |
|
Informatiever is uiteraard het vermelden van de...
|
overschrijdingskans
de precieze overschrijdingskans, als in: 'Het resultaat blijkt significant, de correlatie is r = 0,58 (p = 0,007)'. |
|
Het gebruik van significantietoetsen brengt een aantal methodologische problemen met zich mee.
Zoals in hoofdstuk 10 is uiteengezet, betekent een significante uitkomst bijvoorbeeld niet noodzakelijk dat |
de uitkomst ook interessant is. Het kan gaan om een heel klein verschil dat significant is omdat we een zeer grote steekproef hebben getrokken.
|
|
Betekenis van significantie.
Een geheel ander probleem is de betekenis van de term 'significantie' zelf. Statistische programma's zoals SPSS berekenen de overschrijdingskansen doorgaans in vele decimalen. In publicaties worden deze vervolgens meestal kortheidshalve afgerond tot twee of drie decimalen. Dit alles wekt de suggestie dat |
we heel exact weten hoe significant een resultaat is.
|
|
Bovendien suggereert het dat
|
we verschillende resultaten kunnen vergelijken en daarbij uitspraken doen als: 'De resultaten van experiment 1 zijn veel significanter dan de resultaten van experiment 2.'
Beide suggesties zijn onjuist. |
|
Hoe significant een bepaald resultaat is, wordt uitsluitend bepaald door
|
de vooraf gekozen waarde van het significantieniveau α:.
Is de gevonden overschrijdingskans kleiner dan α:, en het maakt niet uit hoevéél kleiner, dan is het resultaat nog steeds significant op dat niveau α:. Bovendien veronderstelt de suggestie van de exacte overschrijdingskansen dat volledig aan alle aannamen van de statistische toets is voldaan. Dat is vrijwel nooit het geval. |
|
De suggestie dat we de overschrijdingskansen van twee experimenten kunnen vergelijken om te zien welke het meest significant is, berust op vergelijkbare misverstanden.
Behalve dat ook hier de waarde van α: bepaalt hoe significant het resultaat in elk experiment is, hebben we in hoofdstuk 10 gezien dat elke overschrijdingskans afhangt van: |
-de nulhypothese (toetsen we eenzijdig of tweezijdig);
-het ware effect in de populatie; -de steekproefgrootte; -de soort toets die is gebruikt. Daar komt nog bij dat de kansen vertekend kunnen zijn als niet aan de aannamen van de toets is voldaan. |
|
Daar komt nog bij dat de kansen vertekend kunnen zijn als niet aan de aannamen van de toets is voldaan.
We zouden twee van zulke overschrijdingskansen op zijn hoogst mogen vergelijken als |
dezelfde toets met dezelfde H0 en H1 is gebruikt bij exact even grote steekproeven en wel zo dat in beide gevallen volledig aan alle aannamen is voldaan.
Maar in dat geval hangt de overschrijdingskans alleen nog maar af van het verschil in effect tussen beide populaties. Als we willen weten welk experiment het grootste effect heeft laten zien, dan kunnen we beter direct naar het verschil in effect kijken, en de significantietoets alleen gebruiken waarvoor hij ook is bedoeld: het trekken van een streep tussen resultaten die we als 'echt' interpreteren en resultaten die we voor rekening van het toeval laten komen. |
|
Als we willen weten welk experiment het grootste effect heeft laten zien, dan kunnen we beter direct naar het verschil in
|
effect kijken, en de significantietoets alleen gebruiken waarvoor hij ook is bedoeld:
het trekken van een streep tussen resultaten die we als 'echt' interpreteren en resultaten die we voor rekening van het toeval laten komen. |
|
Problemen rond significantie
De problemen rond significantietoetsing zijn al tientallen jaren onderwerp van discussie onder statistici en methodologen. Een aantal van de artikelen waarin deze discussie speelt zijn opgeno men in de boeken van Kirk (1972) en Lieberman (1971). De discussie over onderscheidingsvermogen en effectgrootte leidt in ieder geval tot de conclusie dat het niet voldoende is om alleen de significantie van een effect te rapporteren, maar dat ook |
de grootte ervan moet worden vermeld. Zo overweegt de American Psychological Association (APA) of bij APA-tijdschriften de sterke nadruk op p-waarden wellicht moet worden vervangen door effectschattingen en betrouwbaarheidsintervallen, daartoe onder andere aangespoord door Cohen (1990). De verschillende maten die bij de analyse van het onderscheidingsvermogen in hoofdstuk 10 worden gebruikt kunnen worden gerapporteerd, met de vermelding of het effect 'klein', 'middelmatig' of 'groot' is.
Bij parametrische toetsen is het handig om te weten dat het heel eenvoudig is om bij een t-toets of F-toets te bepalen hoe groot de proportie verklaarde variantie is. De formules zijn zeer eenvoudig. Bij de correlatie is de proportie verklaarde variantie eenvoudig gelijk aan het kwadraat van de correlatie coëfficiënt. Bij de t-toets wordt de proportie ver klaarde variantie gegeven door de formule r 2 = t2 I (t2 + df). Bij de variantie-analyse wordt de ver klaarde variantie gegeven door de formule R2 = dfbF I (df+ dfw). |
|
Bij parametrische toetsen is het handig om te weten dat het heel eenvoudig is om bij een t-toets of F-toets te bepalen hoe groot de proportie verklaarde variantie is.
De formules zijn zeer eenvoudig. |
Bij de correlatie is de proportie verklaarde variantie eenvoudig gelijk aan het kwadraat van de correlatie coëfficiënt.
Bij de t-toets wordt de proportie verklaarde variantie gegeven door de formule r2 = t2 I (t2 + df). Bij de variantie-analyse wordt de verklaarde variantie gegeven door de formule R2 = dfbF I (df+ dfw). |
|
Het gebruik van de significantietoets om een scherpe streep te trekken tussen 'significante' en 'niet-significante' resultaten heeft in de praktijk ook zijn bedenkelijke kanten.
Dat een nulhypothese niet wordt ver worpen en de alternatieve hypothese dus niet geaccepteerd, kan immers ook |
belangrijke informatie zijn.
Als het onderzoek goed is uitgevoerd, geeft het accepteren van de nulhypothese bijvoorbeeld aan dat in die richting niet meer verder hoeft te worden gezocht, of dat de theorie waaruit de (alternatieve) hypothese afkomstig is nog eens aan een kritisch onderzoek dient te worden onderworpen. Niettemin zijn er wetenschappelijke tijdschriften die niet-significante resultaten liever niet publiceren. |
|
Wanneer onderzoekers nu een resultaat vinden met een overschrijdingskans van 0,051 (net niet significant dus), kan de verleiding groot zijn om te bekijken of
|
het misschien mogelijk is een overschrijdingskans van 0,049 te bereiken. Dit kan soms door de keuze van een andere toets, door alsnog eenzijdig in plaats van tweezijdig te toetsen, of door enkele problematische respondenten te verwijderen.
Een andere strategie is de resultaten tussen de 0,05 en de 0,10 als 'bijna significant' te bestempelen en die vervolgens gewoon te interpreteren. In strikte zin zijn we dan niet meer bezig met het toetsen van hypothesen, maar we exploreren onze gegevens met behulp van de significantietoets die we als een soort zeef gebruiken om interessante resultaten uit de ruwe gegevens te zeven. |
|
11.2 Schendingen, robuustheld en transformaties
Verschillende aannamen Het gebruik van statistische modellen veronderstelt dat aan de verschillende aannamen van het model voldaan is. Eén veronderstelling die door alle toetsen in dit boek wordt gemaakt, is ... |
dat de onderzochte steekproef een aselecte steekproef uit de populatie is.
|
|
Toetsen voor onafhankelijke waarnemingen veronderstellen dat die waarnemingen ook inderdaad onafhankelijk zijn. We mogen dus niet zomaar herhaalde metingen bij een enkele persoon behandelen alsof ze onafhankelijk zijn.
Daarnaast spelen ook nog andere aannamen een rol. |
Behalve de aanname van normaliteit die in vrijwel alle parametrische toetsen wordt gedaan, veronderstellen veel parametrische toetsen bijvoorbeeld ook dat eventuele verschillen in gemiddeld en niet gepaard gaan met verschillen in spreiding.
Non-parametrische toetsen doen doorgaans niet de aanname van normaliteit, maar ook zij kennen elk hun eigen aannamen. |
|
Sommige statistici hebben hier een heel precies standpunt over: zij zijn van mening dat
|
als aan de aannamen voor een statistische toets niet is voldaan, die toets ook nooit mag worden gebruikt.
|
|
Rekkelijk standpunt
Andere statistici hebben een meer |
rekkelijk standpunt: zij beweren dat die toets in zo'n geval misschien toch mag worden gebruikt, maar dan wel met enige voorzichtigheid .
|
|
De rechtvaardiging die daarvoor wordt gegeven is dat
|
veel statistische toetsen robuust zijn.
Daarmee wordt bedoeld dat de toets niet erg gevoelig is voor een schending van de aannamen: ook wanneer de aannamen slechts ten dele juist zijn, krijgen we toch vrij wel correcte uitkomsten. |
|
In de praktijk van het sociaal-wetenschappelijkjk onderzoek komen we doorgaans het rekkelijke standpunt tegen. Dat is ook begrijpelijk.
Waarom? |
Wanneer we bij de sociaal-wetenschappelijke gegevens, waarover we gewoonlijk beschikken, een zeer precies standpunt zouden innemen, dan zouden we vermoedelijk nooit aan een statistische analyse toekomen.
Bovendien bestaan er van een aantal parametrische technieken (bij voorbeeld multivariate analyse) nauwelijks non-parametrische tegen hangers. Bij een strikte interpretatie van de statistische aannamen zou den we deze technieken vrij wel nooit mogen gebruiken. Dat is misschien wel veilig, maar deze veiligheid kent zijn prijs. We kunnen onze gegevens daardoor slechts zeer beperkt analyseren. De auteurs van dit boek bepleiten een rekkelijk standpunt, maar dan wel in combinatie met een zorgvuldige controle op de mate waarin de aannamen worden geschonden en een beargumenteerde keuze van de uiteindelijk gebruikte analysetechnieken (bijvoorbeeld parametrisch versus non-parametrisch) . |
|
11.2.1 Aselecte steekproef
Statistische generalisatie vereist steekproeven die door toevalsprocedures (bijvoorbeeld loting) uit een populatie zijn getrokken. In de praktijk is dit lang niet altijd het geval. Instanties als het CBS (Centraal Bureau voor de Statistiek) beginnen in de regel met een echte toevalssteekproef, maar komen vervolgens het probleem tegen dat een bepaald percentage van de benaderde respondenten niet aan het onderzoek wil meedoen. De uiteindelijk gerealiseerde steekproef is vaak |
niet meer dan
80% van de oorspronkelijk benaderde groep. Zo'n steekproef is daar mee niet langer een echte toevalssteekproef. De vraag of deze steek proef dan geen vertekend beeld oplevert van de Nederlandse bevolking hangt af van de vraag of de mensen die weigeren mee te doen wellicht verschillen van de mensen die wel meedoen. |
|
Voor sommige variabelen kan dat worden gecontroleerd. Wanneer een steekproef ineens 60% mannen en 40% vrouwen blijkt te bevatten, dan weten we dat er een vertekening is opgetreden ten opzichte van de Nederlandse bevolking.
Ook bij andere onderzochte groepen is het soms mogelijk zulke controles uit te voeren. Voor die variabelen waarop we hebben kunnen controleren, kunnen we vervolgens proberen de steekproefresultaten te |
wegen.
Altijd nodig is dat echter niet. Wanneer bijvoorbeeld blijkt dat er tussen mannen en vrouwen geen verschil in attitude ten opzichte van het milieu bestaat, dan is het feit dat onze steekproef vertekend is voor deze variabele niet belangrijk. Onze conclusies zouden bij een andere man/vrouwverhouding immers hetzelfde zijn gebleven. |
|
Gelegenheidssteekproef
Een ander soort steekproef is de gelegenheidssteekproef (Engels: convenience sample). Dit is een steekproef die |
vaak slechts ten dele volgens een toevalsprocedure is getrokken, of soms zelfs helemaal niet. Een goed voorbeeld is veel psychologisch onderzoek, dat wordt uitgevoerd onder psychologiestudenten die daar in het kader van hun studie ver plicht worden aan mee te doen.
|
|
De steekproef bestaat dan uit een willekeurige (bij voorkeur aselecte!) groep psychologiestudenten. De vraag is dan over welke populatie dit iets zegt.
Statistisch gezien is het antwoord duidelijk; |
op zijn best zegt zo'n toets iets over psychologiestudenten. Toch heeft de psychologie als wetenschap de pretentie dat het over mensen in het algemeen gaat.
Dit valt alleen te rijmen als duidelijk kan worden gemaakt dat het betreffende onderzoek zich richt op een eigenschap waarop psychologiestudenten niet wezenlijk verschillen van mensen in het algemeen. |
|
Veronderstel bijvoorbeeld dat we in een experiment willen nagaan hoeveel het reactievermogen bij jonge mensen afneemt, als de snelheid van het object waarop gereageerd moet worden toeneemt. We voeren het experiment uit met pingpong balletjes die we met een bepaalde snelheid op de proefpersoon afschieten en die deze moet proberen terug te slaan.
De onafhankelijke variabele is |
de snelheid waarmee elk balletje wordt afgeschoten. Onderzocht wordt hoe de snelheid van een balletje samenhangt met de kans dat de proefpersoon het kan terugslaan.
|
|
Psychologiestudenten verschillen van jonge mensen in het algemeen in kenmerken als intelligentie, toekomstverwachtingen, houdingen, enzovoort. In dit geval kan echter worden verdedigd dat voor iedereen (zowel jonge mensen in het algemeen als psychologiestudenten) geldt
|
dat hoe sneller het balletje op iemand afkomt, hoe moeilijker het wordt om het balletje terug te slaan.
Daarom kunnen we hier zonder veel problemen generaliseren. We moeten hoogstens oppassen dat er tussen de psychologiestudenten geen beroepstafeltennisser zit, want die zou de resultaten wel eens flink kunnen beïnvloeden. |
|
Generaliseren en wegen
Bij een experiment waarin we nagaan hoe goed mensen (cognitieve) oorzaken van foutief aflopende gebeurtenissen kunnen aangeven, dienen we daarentegen te bedenken dat psychologiestudenten daar onderwijs in hebben gehad; generaliseren naar een populatie die een vergelijkbaar onderricht niet heeft gehad , is om die reden |
bedenkelijk.
Uit de voorbeelden blijkt dat aan het generaliseren van een steekproef naar een populatie meer te pas komt dan alleen maar statistiek. Voorafgaand aan het onderzoek moet worden beargumenteerd op welke populatie de uit komsten van het onderzoek betrekking hebben. Deze argumentatie is behalve statistisch ook inhoudelijk en methodologisch van aard. |
|
Uit de voorbeelden blijkt dat aan het generaliseren van een steekproef naar een populatie meer te pas komt dan alleen maar statistiek.
Voorafgaand aan het onderzoek moet worden beargumenteerd |
op welke populatie de uit komsten van het onderzoek betrekking hebben. Deze argumentatie is behalve statistisch ook inhoudelijk en methodologisch van aard.
|
|
Wanneer we van sommige variabelen in de steekproef weten wat de proporties in de populatie
zijn, kunnen we d e steekproefresultaten op deze variabelen wegen als we het populatiegemiddelde willen bepalen. Het gaat dan steeds om |
achter grondvariabelen (we wegen niet op de atbankelijke variabelen).
Wanneer de proportie mannen in de gerealiseerde steekproef 0,60 bedraagt en de proportie vrouwen 0,40, dan gaan we bij een fifty/ fifty-populatie uit van een gewicht voor de mannen van =0,50/0,60 = 0,83 en een gewicht voor d e vrouwen van 0,50/0,40 = 1,25. In het algemeen is het gewicht gelijk aa n W; = Pi/ p;. Het gewicht W van groep i is met andere woorden gelijk aan de proportie in de populatie P; gedeeld door de proportie in de steekproef p;. |
|
Bij wegen op meer dan één variabele tegelijk worden de formules ingewikkelder, maar blijft het principe het zelfde. Voor weging geldt h t zelfde wat ook voor complexe steekproeven geldt: eigen lijk moet de analyseprocedure worden aangepast.
Het statistiekprogramma SPSS kent wel de gewichtvariabele (weighth genaamd ), maar kent niet de |
aangepaste rekenformules. In dat geval is het verstandig om extreem grote gewichten te vermijden , bijvoorbeeld gewichten groter dan twee, waarbij elke respondent in di e groep dus dubbel telt, en het significantie niveau scherper te stellen, bijvoorbeeld α= 0,01 in plaats van het gebruikelijke niveau α = 0,05.
|
|
11.2.2 Onafhankelijkheid van de waarnemingen
Veronderstel dat we een observatieonderzoek doen bij een groep van tien kinderen, vijf jongens en vijf meisjes. Het speelgedrag wordt geobserveerd, en elke vijf minuten wordt van alle kinderen het gedrag geclassificeerd volgens een eenvoudig schema zoals 'niet agressief' versus 'agressief'. Dit houden we een uur vol, en we hebben daarna van elk kind dus twaalf metingen, in totaal dus honderdtwintig waarnemingen. We kunnen deze honderdtwintig waarnemingen vervolgens onderbrengen in een 2 x 2-tabel (sekse x soort gedrag) en daarop een chi kwadraattoets uit voeren. Als we dat doen, dan maken we |
een ernstige fout.
De x2-toets veronderstelt immers onafhankelijkheid van de waarnemingen, dat wil zeggen dat het plaatsen van een specifieke observatie in een van de cellen geen invloed mag hebben op de plaatsing van de andere waarnemingen. In dit geval zijn onze waarnemingen echter gegroepeerd; we hebben groepjes van twaalf waarnemingen per kind. Die zijn zeker niet onafhankelijk. Wanneer twee jongetjes het hele uur met elkaar hebben lopen ruziën, dan hebben we al vierentwintig waarnemingen van agressieve jongetjes. Maar het gaat wel steeds om dezelfde twee! De x2-toets behandelt onze honderdtwintig waarnemingen echter of we naar honderdtwintig verschillende kinderen hebben gekeken en die in de vier cellen van de tabel hebben ingedeeld. In feite gaat het echter om gepaarde waarnemingen, die ook als zodanig moeten worden behandeld. Een betere aanpak zou zijn per kind een score voor agressie te bepalen en de jongens en meisjes daarop te vergelijken. |
|
Een betere aanpak zou zijn
|
per kind een score voor agressie te bepalen en de jongens en meisjes daarop te vergelijken.
|
|
De X2-toets veronderstelt
|
onafhankelijkheid van de waarnemingen
|
|
Niet robuust
Speciale statistische toetsen voor afhankelijke steekproeven en herhaal de waarnemingen uitgezonderd, zijn statistische procedures in het geheel |
niet robuust voor een schending van de aanname van onafhankelijkheid van de waarnemingen.
Dit houdt in dat de resultaten van de toets sterk misleidend kunnen zijn als deze aanname erg wordt ge schonden. |
|
Het effect is bijna altijd dat
|
de (verkeerd) berekende over schrijdingskans veel te klein is in vergelijking met de overschrijdings kans bij een correct uitgevoerde toetsing.
In ons voorbeeld is sprake van een ernstige schending van deze aanname; de verkregen x2-waarde is veel te groot (en de overschrijdingskans dus veel te klein). Een lichte schending van deze aanname vinden we in onderwijskundig onder zoek waarbij gegevens over schoolkinderen klassikaal worden verzameld. Doordat kinderen uit dezelfde klas doorgaans iets met elkaar gemeen hebben (ze komen uit dezelfde buurt, hebben dezelfde leerkrach ten, enzovoort), zijn deze gegevens evenmin geheel onafhankelijk. In de regel is de mate van afhankelijkheid in dit soort onderzoek echter klein, zodat we met statistische toetsen die onafhankelijkheid veronderstellen toch tamelijk betrouwbare resultaten kunnen krijgen. |
|
Onafhankelijkheid en multiniveaubenade
ring Wanneer er sprake is van onderzoek binnen bestaande groepen (schoolklassen, afdelingen binnen organisaties, etcetera), dan zijn de waarnemingen |
niet geheel onafhankelijk.
Als bijvoorbeeld de studie-motivatie X en de leerprestatie Y bij de bepaling van de significantie van de corre latie berekend is over een aantal schoolklassen, dan wordt daar door SPSS geen rekening mee ge houden. Onder de zogenaamde 'multiniveaubenadering' bevinden zich analysetechnieken die dat wel doen. |
|
Multiniveautechnieken zijn vooral belangrijk wanneer we leerkrachtkenmerken (zo als aantal ervaringsjaren) willen koppelen aan
|
leerlingkenmerken (zoals leerprestatie), omdat we dan doorgaans zeer sterke afhankelijkheden krijgen. De score op de leerkrachtvariabele 'ervaring' is immers voor alle leerlingen in dezelfde klas per definitie gelijk! De multiniveaubenadering heeft dan zonder meer de voorkeur.
|
|
11.2.3 Aanname van normalltelt
Parametrische toetsen veronderstellen |
normaliteit.
Dikwijls wordt dit geïnterpreteerd als de aanname dat de betrokken variabelen normaal verdeeld moeten zijn en vervolgens wordt dat onderzocht door het histogram van de betrokken variabelen te inspecteren. Maar dit is niet altijd correct, want de precieze aanname luidt vaak iets anders. |
|
Nauw keuriger geformuleerd is de veronderstelling vaak dat de residuen of voorspellingsfouten normaal moeten zijn verdeeld.
Bij de variantie analyse betekent dit bijvoorbeeld dat |
de afwijkingen ten opzichte van het groepsgemiddelde in elke groep normaal verdeeld moeten zijn.
Bij een regressievergelijking betekent dit dat de voorspellingsfouten ten opzichte van de regressielijn voor elke waarde van de onafhankelijke variabele X een normale verdeling moeten hebben. Het onderzoeken van de normaliteit van de variabelen zonder meer geeft daarvan slechts een ruwe indicatie. |
|
Parametrische toetsen robuust tegen schenden van normaliteit
Gelukkig zijn parametrische toetsen betrekkelijk robuust tegen |
schendingen van de aanname van normaliteit.
Wanneer de steekproef niet te klein is (bijvoorbeeld groter dan 30) leidt een flinke schending van de aanname van normaliteit nog tot redelijke resultaten, dat wil zeggen tot een berekende overschrijdingskans die de correcte dicht benadert. |
|
Tweezijdige toetsen blijken meer robuust te zijn dan
|
eenzijdige toetsen.
Vooral bij kleine steekproeven is dit een goede reden is om aan tweezijdige toetsen de voorkeur te verlenen, als er tenminste geen duidelijke redenen aanwezig zijn om eenzijdig te toetsen- zoals bij evaluatie-onderzoek vaak wél het geval zal zijn. Omdat kleine afwijkingen van normaliteit niet cruciaal zijn, is het doorgaans niet nodig om de normaliteit op ingewikkelde wijze te toetsen; inspectie van de histogrammen van de betrokken variabelen is doorgaans voldoende. |
|
Toetsen op normaliteit
H et programma SPSS kent, afhankelijk van de toe ts en van de SPSS-versie die wordt ge bruikt, verschillende mogelijkheden om te toetsen voor normaliteit. De procedure examine kan verschillende soorten plots maken en een formele test uitvoeren voor normaliteit. Deze toets (de Lillie fors-test) heeft echter |
een zeer groot onderscheidingsvermogen en geeft daarom al héél snel aan dat van de normaliteit wordt afgeweken, terwijl de meeste parametrische toetsen juist niet erg gevoelig zijn voor normaliteit.
Het programma generallinear model en de regressieprocedure regression kunnen plots maken van residuen, die vervolgens kunnen worden geïnspecteerd op af wijkingen ten opzichte van normaliteit. |
|
11.2.4 Aanname van homogeniteit
Homogeniteit van residuele variantie Veel parametrische toetsen gaan uit van de zogenaamde |
homogeniteit van de residuele variantie.
|
|
Bij de t-toets (die daar overigens voor kan corrigeren) en de variantie-analyse betekent dit dat de varianties
|
in alle groepen gelijk moeten zijn.
Deze aanname kan worden gecontroleerd door te bekijken of de standaardafwijkingen of varianties van de groepen ongeveer even groot zijn. Bij het berekenen van correlaties betekent de aanname van homogeniteit dat de grootte van de voorspellingsfouten niet mag afhangen van de waarde van de voorspelling, met andere woorden dat de voorspellingsfouten niet systematisch groter of kleiner mogen worden naarmate de voorspelde waarde hoger is. |
|
Deze aanname kan worden getoetst door de voorspellingsfouten te inspecteren, bijvoorbeeld door het strooiingsdiagram te bekijken.
Ook bij deze aanname geldt dat de parametrische toetsen betrekkelijk robuust zijn. Bij niet al te kleine steekproeven (bijvoorbeeld groter dan 30) leiden betrekkelijk grote afwijkingen (bijvoorbeeld een t-toets met de standaard afwijking in de ene groep tweemaal zo groot als die in de andere) nog steeds tot een tamelijk nauwkeurig bepaalde overschrijdingskans. Net als bij de aanname van normaliteit geldt dat tweezijdige toetsen robuuster zijn dan eenzijdige. Er is echter één uitzondering! .... |
Wanneer de groepsgroottes sterk verschillen en de kleinste groep de grootste sprei ding heeft, blijkt de t-toets gevoelig te zijn. In dat geval kan beter een andere toets worden gebruikt.
|
|
Toetsen op gelijke varianties?
Bi j de t-toets en de variantie-analyse kan SPSS een toetsing uitvoeren voor gelijkheid van varianties. Bij de t-toets is dit de toets van Levene (in eerdere versies van SPSS de F-toets op de varianties) . Bij de variantie-analyse is dit de toets van Box, of de multivariate versie daarvan, de toets van Bartlett. De F-toets op de varianties en de toetsen van Box en van Bartlett zijn echter buitengewoon gevoelig voor |
afwijkingen van normaliteit. Wanneer er ook maar enige non-norma liteit is, leiden ze al tot zeer kleine overschrijdingskansen, ook wan neer de varianties niet of nauwelijks verschillen.
Gegeven de robuustheid vant-toetsen variantie analyse tegen ongelijke varianties zijn deze toetsen in feite overbodig, en kan met een directe inspectie van de spreiding binnen de betrokken groepen worden volstaan . Zolang de grootste standaard afwijking minder dan tweemaal zo groot is als de kleinste, is er weinig aan de hand, en kan de t-toets of variantie-analyse rustig worden gebruikt. |
|
11.2.5 Aannamen van non-parametrische toetsen
Non-parametrische toetsen kennen ook |
aannamen, hoewel die dikwijls minder strikt zijn dan de aannamen van parametrische toetsen.
|
|
Zo ver onderstellen de meeste non-parametrische toetsen, bijvoorbeeld de tegenhanger van de t-toets, de Wilcoxon-Mann-Whitney-U-toets, bij voorbeeld niet dat de waarnemingen in de verschillende groepen uit normale verdelingen afkomstig zijn, maar wél dat ze uit continue verdelingen moeten komen. Ze veronderstellen daarmee feitelijk dat er geen
|
'ties' zijn.
Weliswaar vallen de effecten van dergelijke 'ties' wel weer mee als het er niet te veel zijn, en kunnen we er bij te grote aan tallen 'ties' voor corrigeren. Dat neemt echter niet weg dat de meeste tabellen voor kleine steekproeven dan niet meer de exacte overschrijdingskansen geven, maar slechts benaderingen, al zijn die vaak rede lijk. Ook bij non-parametrische toetsen hebben schendingen van de aannamen dus consequenties. Het aantal non-parametrische toetsen is zeer groot, en het is ondoenlijk om hier alle aannamen te bespreken. |
|
Wanneer wordt overwogen om een non-parametrische toets te gebruiken, is het aan te raden om
|
de aannamen daarvan op te zoeken en na te gaan of plausibel kan worden gemaakt dat eraan is voldaan. Naast dit boek kan men terecht bij Siegel en Castellan (1988), Kendali en Gib bons (1990), Sheskin (2000).
|
|
11.2.6 Transformaties
Wanneer niet aan de aannamen van normaliteit en gelijke varianties blijkt te zijn voldaan, is het soms mogelijk om de afhankelijke variabele door een niet-lineaire transformatie een verdeling te geven die wel aan deze aanname n voldoet, of in ieder geval beter dan de ongetransformeerde verdeling. Een aantal in aanmerking komende niet-lineaire transformaties zijn: |
de inverse f(x) = 1/ x; de wortel f(x) =√x
en de natuurlijke logaritme f(x) = 1n (x). Ook rangtransformaties en normaliserende transformaties (besproken in hoofdstuk 7 van Beschrijvende Technieken) zijn soms nuttig. |
|
Bedacht moet worden dat de statistische conclusies na een transformatie uiteraard betrekking hebben op de getransformeerde variabele!
Of die inhoudelijk zinvol kan worden geïnterpreteerd is geen zaak van de statistiek, maar wordt bepaald door |
de inhoud van het onderwerp waarnaar onderzoek wordt gedaan. De onderzoeker dient daar van geval tot geval een beslissing over te nemen.
|
|
Bij toetsend onder zoek hypothesen vooraf
|
formuleren
|
|
11.3 Toetsen versus exploreren
Exploratief onderzoek Het gebruik van statistische toetsen komen we vooral tegen in het kader van het zogenaamde toetsende onderzoek, dit wil zeggen onderzoek dat er specifiek op is ge richt theorieën en hypothesen te toetsen. In dat geval hebben onderzoekers uit theoretische overwegingen een of meer onderzoekshypothesen opgesteld en hierover gegevens verzameld. Ver volgens wordt de statistische toets gebruikt |
om antwoord te krijgen op de vraag of de hypothesen houdbaar zijn, of niet.
|
|
Bij toetsend onder zoek is het essentieel dat de hypothesen vooraf
|
zijn geformuleerd, en dat zoveel mogelijk details van de toetsingsprocedure van tevoren zijn vastgelegd. Statistisch gezien houdt dit in dat van tevoren zoveel mo gelijk moet zijn besloten:
1 wat de H0 is en de H1 (dus of er één- dan wel tweezijdig gaat worden getoetst); 2 welk significantieniveau gaat worden gehanteerd; 3 of met afhankelijke dan wel onafhankelijke steekproeven wordt gewerkt; en 4 welk soort toets gaat worden gebruikt. |
|
Statistisch gezien houdt dit in dat van tevoren zoveel mo gelijk moet zijn besloten:
|
1 wat de H0 is en de H1 (dus of er één- dan wel tweezijdig gaat worden getoetst);
2 welk significantieniveau gaat worden gehanteerd; 3 of met afhankelijke dan wel onafhankelijke steekproeven wordt gewerkt; en 4 welk soort toets gaat worden gebruikt. |
|
Niet alles hoeft van tevoren exact vast te liggen; zo wordt de keu ze voor een parametrische of een non-parametrische toets vaak pas gemaakt nadat
|
de verdeling van de gegevens is onderzocht en deze zeer scheef blijkt te zijn.
Essentieel is dat er van tevoren scherpe statistische hypothesen worden opgesteld, er een duidelijk analyseplan ligt en dat de statistische beslissingen zoveel mogelijk vooraf worden genomen. |
|
Statistische toetsen worden ook gebruikt in het kader van het zogenaamde exploratieve onderzoek. Exploratief onderzoek wordt gekenmerkt door het feit dat
|
van tevoren niet scherp is gesteld welke hypothesen gaan worden getoetst.
De nadruk bij exploratief onderzoek ligt op 'de gegevens te laten spreken' en 'analyseren wat er in lijkt te zitten.' Als er al hypothesen in het spel zijn, dan zijn die nog betrekkelijk vaag. Onderzoekers hebben bijvoorbeeld verwachtingen over variabelen die mogelijk interessant kunnen zijn, zonder daar echter al duidelijke uit spraken over te durven doen. |
|
Bij exploratief onderzoek worden veel statistische beslissingen daarom tijdens de analyse genomen. Zo kunnen onderzoekers besluiten om bepaalde groepen samen te nemen of juist te splitsen, of om variabelen op verschillende manieren te combineren. Bijvoorbeeld om mannen en vrouwen samen te analyseren, maar wel onderscheid te maken tussen verschillende leeftijdscategorieën.
De keuze om in een bepaalde richting verder naar verbanden te zoeken wordt dikwijls ingegeven door |
eerdere analyses van dezelfde gegevens die erop wijzen dat in die richting wellicht interessante verbanden te vinden zijn.
|
|
Kortom, de onderzoekers proberen van alles uit, en laten zich bij hun analyses sterk sturen door de uitkomsten van eerdere analyses.
Het doel van exploratief onderzoek is dan ook niet zozeer het toetsen, maar eerder |
het vormen van hypothesen.
|
|
Zowel bij toetsend als bij exploratief onderzoek kunnen statistische hypothesen worden getoetst en overschrijdingskansen worden berekend.
Deze overschrijdingskansen hebben echter een verschillende status. Bij toetsend onderzoek is de situatie eenvoudig. |
In principe wordt één enkele hypothese volgens van tevoren bepaalde procedures getoetst.
Als aan de statistische aannamen is voldaan, dan kan de overschrijdingskans op de gebruikelijke wijze worden geïnterpreteerd. Als de gevonden overschrijdingskans kleiner is dan het van tevoren gekozen significantieniveau a, dan wordt de nulhypothese verworpen en de alternatieve hypothese aanvaard. |
|
Bij exploratief onderzoek is er sprake van....
|
een groot aantal hypothesen
|
|
Bij exploratief onderzoek ligt de zaak aanzienlijk ingewikkelder. De kern van het probleem is
|
dat er niet één nulhypothese wordt getoetst, maar een groot aantal. Neem nu eens aan dat al deze nulhypothesen juist zijn, zodat er in feite geen enkel interessant verband aanwezig is.
Wij weten dit echter niet en voeren allerlei toetsingen uit in de hoop ergens wat te vinden. Bij ieder van die toetsingen lopen wij een zeker risico α op het ten onrechte verwerpen van de nulhypothese, doorgaans vastgesteld op 0,05. Het probleem zit hem nu in de kans dat we er toe vallig één (of zelfs meer) verwerpen, terwijl er eigenlijk nergens ver band aanwezig is. Deze kans is groter dan α= 0,05. Sterker nog, door de manier waarop de nulhypothesetoetsing is opgezet, mogen we er immers van uitgaan dat ongeveer vijf nulhypothesen ten onrechte zullen worden verworpen als we honderd ware nulhypothese n toetsen op een significantieniveau van 5%. |
|
Maar hoe groot is nu de kans op één of meer 'significante' resultaten bij het toetsen van k onafhankelijke (ware) nulhypothesen op een significantieniveau α?
|
α = kans op ten onrechte verwerpen van H0, en dus:
1- α = kans op géén fout als we H0 niet verwerpen; kans op (1 - α)k = géén fout bij k toetsingen; e n dus kans op één of 1- (1- α)k = meer fouten bij k toetsingen. |
|
Wanneer we dus honderd ware nulhypothesen toetsen op α= 0,05, dan is de kans op minstens één 'significant' resultaat gelijk aan 1 - (1 - 0,05) 100 = 0,99.
Het is in deze situatie dus vrijwel zeker dat we minstens één significant resultaat vinden. Wanneer we dit resultaat zouden rapporteren zonder daarbij te vermelden dat we honderd toetsen hebben uitgevoerd om dit ene significante resultaat te vinden, dan is de gerapporteerde overschrijdingskans |
volstrekt misleidend.
|
|
De beschikbaarheid van snelle computers is wat dit betreft een nadeel;
met een programma als SPSS kost het geen enkele moeite om van vijftig variabelen in één enkele opdrachtregel alle mogelijke kruistabellen of correlaties op te vragen. |
Dat zijn er bij vijftig variabelen precies 1225, en wanneer we toetsen op α= 0,05 dan zal ongeveer 5% van die toetsingen een p-waarde gelijk aan of kleiner dan 0,05 opleveren.
Puur op basis van toeval kunnen we hier dus ongeveer zestig 'significante' resultaten verwachten! |
|
De moraal van het verhaal is eenvoudig:
wanneer we een groot aantal toetsen uitvoeren, hebben de afzonderlijke overschrijdingskansen |
weinig waarde.
Hetzelfde geldt wanneer we op basis van eerdere analyses alleen de meestbelovende variabelen verder analyseren. Ook dan selecteren we immers de resultaten van een klein aantal toetsen omdat die een positief resultaat opleveren, alleen worden de overschrijdingskan sen van de meeste andere toetsen niet daadwerkelijk berekend. Hoewel de overschrijdingskansen weinig waarde hebben, mogen onderzoekers ze nog steeds berekenen en gebruiken als een soort zeef om potentieel interessante verbanden uit de gegevens te peuren. De resultaten dienen echter geïnterpreteerd te worden als suggesties voor verder onderzoek, en niet als bewezen feiten. |
|
Wanneer een van tevoren bekend aantal toetsen wordt uitgevoerd, is het mogelijk om de overschrijdingskansen te corrigeren voor het feit dat meer toetsen word en uitgevoerd. De bekendste correctie is de
|
Bon ferroni-correctie.
De Bonferroni-correctie is heel simpel. Als we k h ypothesen toetsen en a gelijk aan of kleiner moet zijn dan de kans dat minstens één van die toetsen de nulhypothese ten onrechte verwerpt, dan moeten we elke afzonderlijke nulhypothese toetsen op een significantieniveau van a/1<. We kunnen dat doen door in de tabel van de toetsingsgrootheid naar een kleinere waarde van a te zoeken, of door de via de computer berekende p-waarde met k te vermenigvuldigen. Het zal duidelijk zijn dat de Bonferroni -correctie het moeilijk maakt om significante resultaten te vinden als we een groot aantal hypothesen toetsen. Daarom loont het ook bij exploratief onderzoek om niet 'all es met alles' te correleren, maar van tevoren een globaal analyseplan te beden ken dat het aantal uit te voeren toetsen beperkt. |
|
Het zojuist gemaakte onderscheid tussen toetsend en exploratief onderzoek is in de praktijk van het onderzoek wat minder scherp. Onderzoek kan zowel toetsende als explorerende delen bevatten.
Vaak is sprake van een |
centraal onderzoeksprobleem, waarover vooraf hypothesen kunnen worden opgesteld, en een aantal verwante vragen waarover de onderzoekers vooraf geen hypothesen hebben, maar waarover de onderzoeksgegevens wellicht interessante informatie bevatten.
Het is dan verstandig om er in het analyseplan rekening mee te houden dat sommige analyses dienen om hypothesen te toetsen en andere om de ver zamelde gegevens te exploreren. Ook in de rapportage is het verstandig om het verschil tussen beide te handhaven, bijvoorbeeld door de hypothesetoetsing en de exploratieve analyses in een verschillend hoofdstuk onder te brengen. |
|
Bonferroni-correctie en Holm-correctie
De Bonferr·oni-correctie wordt vooral gebruikt bij het toetsen van |
een beperkt aantal vergelijkbare hypothesen.
Veronderstel bijvoorbeeld dat we de hypothese toetsen dat de politieke attitude van partners positief correleert. We kunnen dit toetsen door een enkele correlatie te berekenen. Maar wat doen we wanneer we drie verschillende attitudeschalen hebben om de politieke attitude te meten? Eén oplossing is om de drie correlaties te berekenen en de overschrijdingskansen te corrigeren met de Bonferroni-correctie. |
|
De Bonferroni-correctie is echter nogal fors en leidt daarom tot
|
toetsen met een laag onderscheidingsvermogen.
|
|
Holm (1979) heeft een vergelijkbare procedure voorgesteld die een groter onderscheidingsvermogen heeft. Zijn procedure verloopt als volgt.
|
Veronderstel dat we k toetsingen willen uitvoeren met een significantieniveaue x voor de hele verzameling toetsingen.
Eerst leggen we alle uitkomsten in volgorde van hun p-waarde. De kleinste p-waarde moet gelijk aan of kleiner zijn dan a/k, de volgende p-waarde gelijk aan of kleiner dan a/(k- 1), de daaropvolgende gelijk aan of kleiner dan α/(k- 2), enzovoort. Bij de eerste niet-significante uitkomst houden we op met interpreteren. Voor een correctie van dep-waarden volgens de Halm-procedure worden de p-waarden weer op volgorde gelegd, waarna de kleinste wordt vermenigvuldigd met k, de daaropvolgende met k- 1, enzovoort. |
|
Bijvoorbeeld, veronderstel dat we drie exploratieve toetsingen uitvoeren, en SPSS rapporteert daarvoor de p-waarden 0,0009, 0,0111, en 0,0212. Als we een alfa kiezen van 5%, zijn alle toetsen significant. Echter, we willen corrigeren voor het aantal toetsen.
De Bonferroni-correctie vermenigvuldigtalle p-waarden met het aantal toetsingen, met als uitkomstdep-waarden 0,0027, 0,0333, en 0,0636. Na de Bonferroni-correctie besluiten we dus |
dat de laatste toets niet significant is. De Halm-correctie vermenigvuldigt de kleinste p-waarde met 3, de op een na kleinste met 2, en de grootste met 1. Dat levert als uitkomsten 0,0027, 0,0222 en 0,0212. Dankzij het grotere onderscheidingsvermogen van de Halm-correctie zijn nu alle gecorrigeerde p-waarden significant.
|