Toetsen van hypothesen
1 Vooraf
Bij toetsen van hypothesen doe je uiteindelijk een uitspraak over de populatie. Die uitspraak baseer je op je kennis van kansmodellen samen met vooraf opgestelde criteria. Bij die criteria ontmoet je termen zoals “extreem” en “staartgebieden”.
1.1 Wat is extreem?
Wanneer je zegt dat het gaat over uitkomsten “die je niet had verwacht” of “die weinig kans hebben dat je die ziet” of “die extreem groot of extreem klein zijn”, wat bedoel je dan?
Een voorbeeld.
Wat denk je van een spel dat men op het internet aanbiedt met de bewering dat het een eerlijk spel is: de kans om te winnen is exact dezelfde als de kans om te verliezen. Als je wint krijg je een euro, als je verliest betaal je een euro. Het spel ziet er plezant uit en je wil dat wel spelen.
De eerste keer verlies je en je betaalt een euro. De tweede keer verlies je ook en dus betaal je weer een euro. De derde keer verlies je terug en moet je terug betalen. De vierde keer heb je weer pech en ben je een euro armer. Ook de vijfde keer loopt het mis. Het spel is helemaal niet meer plezant, je stopt en je voelt je bedrogen.
Soortgelijke experimenten werden bij heel wat mensen gedaan. Na 4 of 5 mislukkingen op een rij hadden de meesten een sterk vermoeden dat er iets niet klopte. Dat was een reactie gewoon op het gevoel, maar je kan ook de kans berekenen dat zoiets gebeurt. Noteer dat spel als \(X\) waarbij \(X=1\) als je wint en \(X=0\) als je verliest. Als dat spel echt eerlijk is, dan is de kans dat je de eerste keer verliest gelijk aan \(P\left( {{X}_{1}}=0 \right)=\frac{1}{2}\). Verder gebruik je onafhankelijkheid: het resultaat van een volgend spel heeft niets te maken met wat je voordien gevonden hebt.
De kans om 2 keer op rij te verliezen is
\(P\left( {{X}_{1}}=0\,\,en\,{{X}_{2}}=0 \right)=P\left( {{X}_{1}}=0 \right)\cdot P\left( {{X}_{2}}=0 \right)=\frac{1}{2}\cdot \frac{1}{2}=\frac{1}{4}=25\,\%\)
en \(\frac{1}{2}\cdot \frac{1}{2}\cdot \frac{1}{2}=\frac{1}{8}=12.5\,\%\) is de kans om 3 keer op rij te verliezen. Met kans 6.25 % verlies je 4 keer op rij en met kans 3.125 % verlies je 5 keer op rij.
De meeste mensen beschouwen een gebeurtenis als “onverwacht” wanneer ze een kleine kans heeft om op te treden. Dat onverwachte kadert natuurlijk binnen de context van het verhaal. Hier gelooft men dat het spel “eerlijk” is. Binnen die context is een start met 4 à 5 mislukkingen op een rij “uitzonderlijk”. De kans dat zoiets gebeurt ligt in de buurt van 5 %.
In de statistiek gebruikt men al lang een 5 % criterium om over “onverwachte” gebeurtenissen te spreken. Je kan dat ook bekijken “in the long run”. Als 100 mensen dit spel spelen en als het een eerlijk spel is, dan gebeurt het slechts bij (ongeveer) 5 mensen dat ze starten met 4 à 5 mislukkingen op een rij terwijl dat bij die andere 95 mensen niet gebeurt (en zij binnen de eerste 4 à 5 pogingen toch al minstens één keer – of meerdere keren – winnen en een euro krijgen).
1.2 Waarde of gebied?
Hoe verder de “afstand tot het centrum”, hoe kleiner de “kans”: is dat waar?
Een voorbeeld.
Een bedrijf gebruikt een softwarepakket om een ingewikkelde machine te monitoren. Die software is uitgetest op goed functionerende machines en dan levert dat testprogramma resultaten die meestal kleiner dan 16 zijn.
Codes vanaf 16 en hoger komen niet veel voor en misschien is er dan wel iets mis met die machine.
In de tabel hiernaast zie je de drie hoogste scores die door dat testprogramma worden gegenereerd samen met hun kansen.
Een score van 25 is de hoogst mogelijke score en als de machine toch nog goed zou werken zie je zo’n score slechts met kans 4 %. Volgens “het 5 % criterium” heb je dan te maken met een “uitzonderlijke gebeurtenis” en dus speel je op veilig en laat je de machine stilleggen voor onderhoud.
Ook een score van 16 is uitzonderlijk want die zie je ook maar met een kans van 4 %. Je beslist ook hier dat volgens “het 5 % criterium”, de machine aan een onderhoud toe is.
Je hebt nu een probleem. Als je bij een score van 16 de machine stillegt, dan is het logisch dat je bij een nog hogere score die machine ook stillegt. Maar bij een score van 20 doe je dat niet als je het “5 % criterium” gebruikt (de score 20 heeft 8 % kans om op te treden).
Kijken of bepaalde “waarden” optreden met een grote of kleine kans is blijkbaar niet de juiste manier om resultaten al dan niet “extreem” te noemen.
Als je overstapt van “waarde” op “gebied”, dan heb je die moeilijkheid niet (en dan kan je ook met continue uitkomsten werken - waar elke specifieke waarde kans nul heeft).
Voor het testprogramma van het voorbeeld krijg je (hogere waarden wijzen op een mogelijk defect):
score = 16 ⟶ de kans dat je “16 of meer” ziet = 0.04 + 0.08 + 0.04 = 0.16
score = 20 ⟶ de kans dat je “20 of meer” ziet = 0.08 + 0.04 = 0.12
score = 25 ⟶ de kans dat je “25 of meer” ziet = 0.04
Inderdaad, meer extreme gebieden (meer extreme rechterstaarten) treden op met kleinere en kleinere kansen. Hier heb je niet meer de tegenspraak die je ontmoette toen je niet naar gebieden maar naar waarden keek.
Een concreet voorbeeld van een kansmodel dat zich gedraagt zoals dat testprogramma zie je in de appendix (zie 6.1).
2 Basisbegrippen
2.1 Hypothesen
2.1.1 Een hypothese is…
Als je bijvoorbeeld te maken hebt met een continue populatie (zoals de lengte van 17‑jarige Vlaamse meisjes) dan zou je iets kunnen zeggen over de gemiddelde lengte. Jij hebt ergens gelezen dat die meisjes gemiddeld 166 cm groot zijn. Zelf denk je dat meisjes van 17 gemiddeld groter zijn. Jouw opinie kan je formuleren als \(\mu>166\) . Hierbij is \(\mu\) de notatie voor het populatiegemiddelde dat in dit voorbeeld de gemiddelde lengte is van alle 17-jarige Vlaamse meisjes.
Bij een 0–1 populatie (zoals het geslacht van baby’s, met 0 = meisje en 1 = jongen) kan je een bewering formuleren over de proportie jongens die in Vlaanderen worden geboren. Je kan er bijvoorbeeld van overtuigd zijn dat er evenveel jongens als meisjes geboren worden. In dat geval zeg je dat volgens jou \(p=0.5\) . Hierbij is \(p\) de notatie voor de populatieproportie die in dit voorbeeld de proportie jongens is bij alle baby’s die in Vlaanderen geboren worden.
2.1.2 Nulhypothese en alternatieve hypothese
Een nulhypothese is de hypothese waarmee men start. Het is een bewering dat een populatieparameter een welbepaalde waarde heeft. De notatie voor een nulhypothese is een hoofdletter \(H\) met index nul: \({{H}_{0}}\).
Soms reflecteert de nulhypothese “de gangbare mening” of “de klassieke standaard” of “informatie uit betrouwbare bron” of…
Als men start met de bewering dat momenteel in Vlaanderen 40 % van de smartphones van het merk Samsung is, dan kan je die bewering schrijven als \({{H}_{0}}:p=0.40\). Hierbij is \(p\) de notatie voor de proportie Samsungs in de totale populatie van alle smartphones in Vlaanderen.
Een alternatieve hypothese is een bewering over dezelfde populatieparameter waarbij je iets anders zegt dan wat er in de nulhypothese staat. De notatie voor een alternatieve hypothese is een hoofdletter \(H\) met index één: \({{H}_{1}}\).
In veel studies fixeert men de alternatieve hypothese niet op een welbepaalde waarde maar zegt men dat de populatieparameter in een bepaald gebied ligt.
Als je leest dat Vlaamse meisjes van 17 gemiddeld 166 cm groot zijn dan is dat “de huidige standaard”. Maar jij hoeft dat niet te geloven en je kan er vast van overtuigd zijn dat ze groter zijn. In deze context is de nulhypothese \({{H}_{0}}:\mu =166\) en de alternatieve hypothese is \({{H}_{1}}:\mu >166\) . Als je integendeel denkt dat die meisjes gemiddeld kleiner zijn dan is je alternatieve hypothese \({{H}_{1}}:\mu <166\) . Je kan ook zeggen dat 166 cm ongeloofwaardig overkomt maar dat je zelf niet weet of ze nu groter of kleiner zijn. In zo’n situatie werk je met \({{H}_{1}}:\mu \ne 166\) . In de drie gevallen heb je als alternatieve hypothese een gebied aangegeven waarin jij denkt dat de populatieparameter \(\mu\) ligt.
Een hypothese van de vorm \({{H}_{1}}:\mu >166\) of \({{H}_{1}}:\mu <166\) noemt men een éénzijdige alternatieve hypothese. Zij wijst in één richting naar alleen maar grotere waarden of naar alleen maar kleinere waarden. Een hypothese van de vorm \({{H}_{1}}:\mu \ne 166\) noemt men een tweezijdige alternatieve hypothese. Zij wijst gelijktijdig naar waarden die groter of kleiner zijn.
1 Oefening (opl 1)
In 2022 was bij Vlaamse leerlingen van de derde graad de gemiddelde eindscore op wiskunde gelijk aan 57 (op een maximum van 100). Jij twijfelt eraan of dat vorig schooljaar ook het geval was. Dat wil je nu, met behulp van toetsen van hypothesen, onderzoeken.
- Wat is hier de populatie?
- Welke populatieparameter (in woorden en met de juiste notatie) bestudeer je?
- Formuleer de nulhypothese (in woorden en met de juiste notatie).
- Formuleer de alternatieve hypothese (in woorden en met de juiste notatie).
- Is de alternatieve hypothese één– of tweezijdig?
2 Oefening (opl 2)
Astrologen geloven dat de positie van maan en planeten op het ogenblik van je geboorte je persoonlijkheidskenmerken bepalen. Zij gebruiken tijdstip en plaats van geboorte om jouw astrologisch profiel op te stellen. Maar eigenlijk denken mensen dat dit niet werkt (tenminste bij Amerikaanse astrologen waar men volgend experiment deed).
Van 3 personen werden de persoonlijkheidskenmerken in een rapport beschreven. Die 3 rapporten werden dan aan de astroloog gegeven, samen met tijdstip en plaats van de geboorte van één van die 3 personen. De vraag was om het juiste rapport (dus de juiste persoon) te identificeren.
- Wat is hier de populatie?
- Welke populatieparameter (in woorden en met de juiste notatie) bestudeer je?
- Formuleer de nulhypothese (in woorden en met de juiste notatie).
- Formuleer de alternatieve hypothese (in woorden en met de juiste notatie).
- Is de alternatieve hypothese één– of tweezijdig?
2.2 Toetsen
2.2.1 Wat je (niet) bewijst
Een voorbeeld.
Een “gewoon” kaartspel bestaat uit 52 speelkaarten: 26 rode (13 harten en 13 ruiten) en 26 zwarte (13 schoppen en 13 klaveren). Men vertelt je dat er ook een getrukeerd kaartspel is waar een aantal schoppen vervangen zijn door harten. In dat spel zitten nog altijd 52 kaarten, maar er zijn minder zwarte dan rode.
Van die twee pakken geeft men je er één en men zegt dat dit het “gewone” kaartspel is (evenveel zwarte als rode). Jij mag die kaarten niet bekijken. Je mag alleen lukraak een kaart trekken en die aan iemand anders tonen. Die persoon zegt dan welke kleur je getrokken hebt. De getrokken kaart wordt teruggelegd en het pak wordt geschud. Nu mag je terug lukraak een kaart trekken en kom je terug te weten welke kleur het was. Dat mag je 20 keer doen. Daarna moet je beslissen: heeft men je echt het gewone kaartspel gegeven of was het toch het getrukeerde?
Het voorbeeld met de kaarten kan je vertalen naar een algemeen kader dat je al kent: een 0-1 populatie. Je kiest een kleur die je “succes” noemt (bijvoorbeeld zwart). De populatie is dan een kaartspel waarbij alleen de kleur een rol speelt. Zwart noteer je als 1 (succes) en “niet zwart” (rood) als 0 (mislukking).
3 Oefening (opl 3)
Gebruik het voorbeeld van het kaartspel om de vragen te beantwoorden.
- Wat is hier de populatie?
- Welke populatieparameter (in woorden en met de juiste notatie) bestudeer je?
- Formuleer de nulhypothese (in woorden, met de juiste notatie en motiveer).
- Formuleer de alternatieve hypothese (in woorden, met de juiste notatie en motiveer).
- Is de alternatieve hypothese één– of tweezijdig? (motiveer)
Bij toetsen van hypothesen start je met de nulhypothese: jij gelooft dat \({{H}_{0}}\) waar is.
Jij gelooft dus ook dat je een steekproef trekt uit een populatie waarvan je de populatieproportie \(p\) kent (die staat in \({{H}_{0}}\) en is in dit voorbeeld gelijk aan 0.5).
Je trekt nu een steekproef en berekent de gevonden steekproefproportie \(\hat p\) (= de succesproportie in je steekproef = het aantal zwarte kaarten gedeeld door het totaal aantal getrokken kaarten).
Bij toetsen van hypothesen kijk je niet naar “extreme uitkomsten” maar naar “extreme gebieden” (= staarten). En je kijkt niet zomaar naar extreme gebieden.
Als je “uitzonderlijk veel” zwarte kaarten in je steekproef gevonden hebt (en dus naar een extreme rechterstaart zou kijken), dan ga je toch niet overstappen van de uitspraak “ik speel met het gewone kaartspel” naar de uitspraak “men heeft mij het kaartspel met minder zwarte kaarten gegeven”.
In het voorbeeld van het kaartspel wijst de alternatieve hypothese naar een linkerstaart. Je gaat dus op zoek naar de kans dat de steekproefproportie \(\hat P\) hoogstens gelijk is aan je gevonden steekproefproportie \(\hat p\) terwijl je gelooft dat de nulhypothese waar is.
Vroeger heb je het kansmodel van de steekproefproportie \(\hat P\) bestudeerd bij het trekken uit een 0-1 populatie met gekende succeskans \(p\). Bij grote steekproeven kan je werken met de normale benadering maar in dit voorbeeld kan je rechtstreeks de binomiale verdeling gebruiken om kansen te berekenen van “\(x\) successen bij \(n\) herhalingen”. Je stapt daarbij over van \(\hat p\) = gevonden succesproportie in je steekproef naar \(x\) = gevonden aantal successen in je steekproef. In plaats van \(P\left(\hat{P}\le \hat{p} \right)\) zoek je dan \(P\left( X\le x \right)\) waarbij \(X\) = aantal successen bij n herhalingen en \(x\) = gevonden aantal successen.
Om de kans van die linkerstaarten te vinden gebruik je onderstaande code chunk. Met kopiëren en plakken (zie) breng je de code chunk over naar “mijnwerkblad.qmd”.
```{r}
# dit programma geeft de kans op HOOGSTENS x successen bij n=20 trekkingen
# uit een 0-1 populatie met succeskans p=0.5
# x is het gevonden aantal zwarte kaarten (successen)
# Pas hieronder de waarde van x aan en klik dan op de groene pijl
x <- 8
# de commando's die hieronder staan moet je niet wijzigen
if(x %in% 0:20){options(scipen = 999)
lstkans <- round(pbinom(x, 20, 0.5) , 7)
cat(paste("de kans op", as.character(x), "of minder zwarte kaarten is", as.character(lstkans)))
} else {
cat("geef het juiste aantal zwarte kaarten \npas x aan (geheel getal tussen 0 en 20)" ) }
```
4 Oefening (opl 4)
Bij de volgende vragen over het kaartspel gebruik je de code chunk in je werkblad.
- Wat is de kans om bij 20 keer trekken hoogstens 8 zwarte kaarten te zien?
- Experimenteer met enkele waarden van \(x\) om te ontdekken vanaf wanneer je de nulhypothese niet meer gelooft (gebruik het 5 % criterium). Motiveer je antwoord.
Toetsen van hypothesen is een zeer asymmetrische procedure waarbij je heel lang aan de nulhypothese vasthoudt. Pas bij extreme uitkomsten in de richting van de alternatieve laat je de nulhypothese los. Je hebt dan zolang gewacht dat je mag zeggen dat er nu een statistisch bewijs is dat de alternatieve hypothese waar is.
Over de nulhypothese kan je zo’n uitspraak niet doen. Je start met een nulhypothese en je blijft er mee zitten zolang je ze niet kan verwerpen. Maar of ze juist is, dat vertellen de steekproefresultaten je niet.
5 Oefening (opl 5)
Jij bent ervan overtuigd dat je een dieet met weinig koolhydraten moet volgen als je gewicht wil verliezen: “eet weinig of geen brood, pasta, zoetigheid… en trek je voor de rest niets aan van het aantal calorieën op je bord”.
Je wil bewijzen dat dit echt helpt en daarom noteer je, over een periode van 3 maanden, het gewichtsverlies van personen die zo’n dieet volgen.
- Wat is hier de populatie en welke populatieparameter bestudeer je?
- Welke uitspraak zet je in de alternatieve hypothese (motiveer).
- Formuleer de nulhypothese (met de juiste notatie en motiveer).
- Formuleer de alternatieve hypothese (met de juiste notatie).
6 Oefening (opl 6)
Je bent verdacht van een misdaad en wordt aangehouden. Ofwel ben je schuldig en dan wacht je de gevangenis. Ofwel ben je onschuldig en dan word je vrijgelaten.
- Wat zijn de gevolgen als men start met de nulhypothese dat je onschuldig bent? Wat is de taak van de aanklager en wat is jouw taak? Als je wordt vrijgelaten, ben je dan onschuldig? Motiveer je antwoord.
- Wat zijn de gevolgen als men start met de nulhypothese dat je schuldig bent? Wat is de taak van de aanklager en wat is jouw taak? Als je in de gevangenis blijft, ben je dan schuldig? Motiveer je antwoord.
2.2.2 Soorten fouten
Denk terug aan het kaartspel. Er is een “eerlijk” pak kaarten (evenveel zwarte als rode) en er is een “getrukeerd” pak kaarten (minder zwarte dan rode).
Je hebt het pak gekregen waarvan men zegt dat het “eerlijk” is. Dat betekent dat bij lukraak trekken de kans op succes (kans op een zwarte kaart) gelijk is aan \(p = 0.5\) . Als nulhypothese start je met \({{H}_{0}} :\ p = 0.5\).
Als de nulhypothese waar is en je echt met een eerlijk pak kaarten werkt, dan is het toch mogelijk dat jij daaruit een “extreme steekproef” trekt. Je besluit dan dat het pak kaarten niet eerlijk is en je verwerpt de nulhypothese. In dat geval maak je een fout. Zo’n fout wordt een type I fout genoemd.
Het kan ook zijn dat je het pak met minder zwarte dan rode kaarten hebt gekregen zodat de nulhypothese \({{H}_{0}} :\ p = 0.5\) niet waar is. Als je dat pak gebruikt voor je steekproef dan kan het gebeuren dat je een resultaat vindt dat helemaal niet onverwacht is wanneer je met een “eerlijk” pak kaarten had gewerkt. Je ziet dus geen reden om \({H}_{0}\) te verwerpen. De fout die je nu maakt is een type II fout.
De onderstaande tabel geeft een samenvatting van alles wat er kan gebeuren:
- wat de populatie betreft: zij gedraagt zich zoals beweerd in de nulhypothese of niet
- wat jouw beslissing betreft: jij verwerpt de nulhypothese of niet.
7 Oefening (opl 7)
In onze rechtspraak start men met de nulhypothese dat je onschuldig bent. Wanneer wordt hier een type I fout gemaakt? Wanneer een type II fout? Wat vind je het ergste?
2.2.3 Significantieniveau
Bij toetsen van hypothesen zorg je ervoor dat de kans op een type I fout klein is.
Gewoonlijk neemt men 5 % zodat \(P(type\ I\ fout)= 5\ \%\) .
Deze kans wordt het significantieniveau genoemd, genoteerd met \(\alpha\) (Griekse alpha).
8 Oefening (opl 8)
Een type I fout maken kan zeer erge gevolgen hebben. Dat zag je in oef 7. Waarom werk je eigenlijk met een procedure waarbij je kans hebt om een fout te maken zoals \(P(type\ I\ fout)= 5\ \%\) ? Waarom stel je niet \(P(type\ I\ fout)= 0\) ? Wat zou dat betekenen in de rechtspraak?
2.3 Algemeen schema
Om te begrijpen hoe je vanuit steekproeven uitspraken kan doen over de totale populatie heb je inzicht nodig in het gedrag van steekproeven die je uit die populatie trekt.
Het model dat je vooraf opstelt, bouw je (in grote lijnen) als volgt.
Je specifieert de populatie en je bepaalt welke karakteristiek van die populatie je wil onderzoeken.
Je formuleert een onderzoeksvraag over die karakteristiek.
Je bepaalt met welke steekproefgrootheid je de onderzoeksvraag aanpakt en je transformeert deze steekproefgrootheid naar een observeerbare teststatistiek .
Je controleert de voorwaarden waaronder je een specifiek kansmodel voor de teststatistiek kan gebruiken.
Het gekozen kansmodel samen met criteria (voor “extreem” of voor “betrouwbaar”) leidt tot een regel die vooraf bepaalt welke beslissing je zal nemen bij steekproefresultaten die je zal vinden.
3 Toets voor een gemiddelde
Note 4 geeft aan dat je in 2 stappen tewerk gaat:
een toets opstellen :dit is de procedure waarin je vooraf vastlegt hoe de toets moet uitgevoerd worden en welke besluiten je dan zal kunnen trekken.
Bij een gegeven onderzoek stelt elke leerling vooraf dezelfde procedure op.een toets uitvoeren : hier trek je de steekproef en je vult de gevonden waarden in. Elke leerling trekt een eigen steekproef en heeft eigen waarden die dan ingevuld worden in de “unieke” vooraf opgestelde procedure. Dit betekent dat leerlingen achteraf tot verschillende conclusies kunnen komen.
3.1 Uitgewerkt voorbeeld
Om te leren hoe toetsen van hypothesen werkt, start je met een voorbeeld.
Als populatie bestudeer je het geboortegewicht (genoteerd in gram) in Vlaanderen.
Men zegt je dat men in de 20ste eeuw dacht dat een typisch geboortegewicht 3100 g was. Jij denkt dat het geboortegewicht is toegenomen en dat het in het begin van deze eeuw gemiddeld meer dan 3100 g was.
Om deze bewering te staven plan je om een steekproef van grootte 50 te trekken uit de populatie van alle baby’s die in Vlaanderen tussen 2000 en 2008 geboren zijn (daarvoor zal je trekken uit de “databank geboorten”).
Motiveer je bewering met een hypothesetoets op significantieniveau \(\alpha = 5\%\).
3.1.1 De toets opstellen
De bestudeerde populatie \(X\) is het geboortegewicht van baby’s geboren in Vlaanderen tussen 2000 en 2008. De karakteristiek die onderzocht wordt is het gemiddeld geboortegewicht \(\mu\) (het populatiegemiddelde)
De onderzoeksvraag gaat over de waarde van het populatiegemiddelde.
Bij toetsen formuleer je die vraag in de vorm van een hypothese:
nulhypothese over \(\mu\):
het gemiddeld geboortegewicht tussen 2000 en 2008 is hetzelfde zoals vroeger (namelijk 3100 g) zodat \({{H}_{0}} :\ \mu = 3100\).
alternatieve hypothese over \(\mu\):
jij denkt dat het gemiddeld geboortegewicht tussen 2000 en 2008 groter was en dus stel je als alternatieve hypothese \({{H}_{1}} :\ \mu > 3100\).
Als start begin je met de steekproefgrootheid \(\bar{X}\) (het steekproefgemiddelde) bij een vraag over \(\mu\) (het populatiegemiddelde).
Onder de nulhypothese \({{H}_{0}}:\mu ={{\mu }_{0}}\) (waarbij \({{\mu }_{0}}\) de algemene notatie is voor de waarde van \(\mu\) onder de nulhypothese) standaardiseer je naar \(Z=\dfrac{\bar{X}-{\mu }_{0} }{\sigma /\sqrt{n}}\) om dan over te stappen op de observeerbare teststatistiek \(T=\dfrac{\bar{X}-{\mu }_{0} }{S/\sqrt{n}}\). Hoe dit juist werkt, lees je in de appendix (zie 6.2).
De (geplande) steekproef is groot (\(n\)=50) en dus (zie 6.4) kan je voor de T‑statistiek een t‑verdeling met 49 vrijheidsgraden (zie 6.3) gebruiken: \(T\sim t(49)\).
De alternatieve hypothese \({{H}_{1}} :\ \mu > 3100\) zegt dat je eenzijdig rechts toetst. Als “extreem gebied” kijk je naar een rechterstaart waarin je (onder \({{H}_{0}}\) ) slechts met kans 5 % terechtkomt (significantieniveau \(\alpha = 5\%\)).
Bij een t‑verdeling met 49 vrijheidsgraden zoek je het kritisch punt \(t\) waarvoor \(P\left(T \ge t \right)=0.05\) . Dat punt is gelijk aan 1.677.
De gezochte rechterstaart is [ 1.677 , +∞ ) . Dat is het verwerpingsgebied.
- Beslissingsregel.
Als na het trekken van de steekproef jouw gevonden t‑waarde in het verwerpingsgebied valt, dan verwerp je de nulhypothese op het 5% significantieniveau . Je besluit dan “dat er een statistisch bewijs is” dat het gemiddeld geboortegewicht in Vlaanderen tussen 2000 en 2008 groter was dan 3100 g.
Als jouw gevonden t‑waarde in het aanvaardingsgebied ( -∞ , 1.677) terechtkomt, dan kan je de nulhypothese niet verwerpen. Dit is geen bewijs dat de nulhypothese juist is. Dat weet je ( Note 3).
Nota. Eigenlijk zou men beter het woord “aanvaardingsgebied” vervangen door “niet-verwerpingsgebied” maar dat is niet gebruikelijk in teksten over statistiek.
Het model dat je vooraf opstelt zie je in fig 1 . Bekijk deze figuur aandachtig en zorg ervoor dat je alle informatie die daar staat goed begrijpt. Realiseer je dat je “een model vooraf” opstelt, ZONDER DATA. Zo’n model stel je nu zelf op in oef 9.
9 Oefening (opl 9)
De gemiddelde leeftijd van vrouwen bij de geboorte van hun (eerste of tweede of derde…) kind is 31 jaar. Dat lees je op de website van StatBel voor de geboorten in 2020 in België. Jij denkt dat vrouwen vroeger niet zo lang wachtten om kinderen te krijgen. Je vermoedt dat de gemiddelde leeftijd van vrouwen die in Vlaanderen in 2000 een baby kregen kleiner was dan 31 jaar. Dat vermoeden wil je toetsen op het 5 % significantieniveau met een steekproef van grootte \(n=40\) .
Stel het model op voor deze toets en formuleer de regel die zegt welke beslissing je zal nemen nadat je de steekproef zal getrokken hebben. Bij je antwoord ga je stapsgewijs tewerk zoals in het voorbeeld over het geboortegewicht.
Gebruik th_gem.qmd met codes: mu_nul <- 31, alternatieve <- 2,
alpha <- 0.05, n_stkp <- 40, datatype <- 0, mijndatakolom <- NULL,
gem_stkp <- NULL, stafw_stkp <- NULL en toon <- 0.
3.1.2 De toets uitvoeren
Nadat je het model voor de toets hebt opgesteld, gebruik je data om de toets uit te voeren. Die data moeten binnen de context van het onderzoek op een correcte manier verzameld zijn. Dat is de enige garantie om, na een goed opgesteld model, tot een verantwoorde statistische conclusie te komen.
Bij het onderzoek naar het gemiddeld geboortegewicht van baby’s trekt men een steekproef uit de “databank geboorten” (lees de handleiding Een steekproef trekken).
Het programma trek_stkp.qmd met codesgebj <- 9 , sx <- 9 , n_stkp <- 50 en bewaar <- 1levert een steekproef van grootte \(n=50\) . De eerste 10 rijen van de steekproef die hier gevonden werd, staan hieronder, zowel als html-output als in een Excel bestand. Van dat Excel bestand is ook een kopie gemaakt met naam mijndata.xlsx.
De data van de steekproef staan in kolom B van mijndata.xlsx.
Om de t-waarde te berekenen gebruik je th_gem.qmd met codes: mu_nul <- 3100,
alternatieve <- 1, alpha <- 0.05, n_stkp <- 50, datatype <- 1,
mijndatakolom <- "B", gem_stkp <- NULL, stafw_stkp <- NULL en toon <- 1.
Bij deze steekproef is de t-waarde gelijk aan 1.771 (fig 2).
Besluit
Aangezien de t-waarde (1.771) in het verwerpingsgebied [ 1.677 , +∞ ) terechtkomt, wordt de nulhypothese verworpen op het 5 % significantieniveau. De data leveren een statistisch bewijs dat het gemiddeld geboortegewicht in Vlaanderen tussen 2000 en 2008 groter was dan 3100 g.
10 Oefening (opl 10)
Je hebt een model opgesteld om met toetsen van hypothesen de onderzoeksvraag in oef 9 aan te pakken. Voer dit onderzoek nu ook effectief uit en neem een beslissing. Laat je inspireren door wat je zopas geleerd hebt bij “De toets uitvoeren”.
- Gebruik trek_stkp.qmd met de juiste codes om de gewenste steekproef te vinden die je ook als een Excel bestand wegschrijft.
- Ga op je laptop naar de xcl-folder en maak daar een kopie van het gecreëerde Excel bestand (te herkennen aan een cijfercombinatie die het huidige tijdstip aangeeft gevolgd door de extensie .xlsx) en noem die kopie mijndata.xlsx (waarbij je eventueel een oude “mijndata.xlsx” overschrijft). Kijk ook in welke kolom de steekproefgegevens staan die je nodig hebt voor dit onderzoek.
- Om de t-waarde te vinden gebruik je th_gem.qmd met aangepaste codes.
- Trek het juiste besluit (en motiveer).
3.2 De p-waarde
Bij het onderzoek naar het geboortegewicht werd een model opgesteld voor het toetsen van de nulhypothese \({{H}_{0}} :\ \mu = 3100\) tegenover de alternatieve hypothese \({{H}_{1}} :\ \mu > 3100\) . Voor een steekproef van grootte \(n=50\) is toen gevonden dat het verwerpingsgebied gelijk is aan [ 1.677 , +∞ ) wanneer je toetst op een 5 % significantieniveau.
Na het opstellen van dit model is een steekproef getrokken die een t-waarde \(t=1.771\) opleverde. Die steekproef werd getrokken door Mila en zij besloot: ik verwerp de nulhypothese op het 5 % significantieniveau. Dat is een terecht besluit want de t-waarde van Mila is in het verwerpingsgebied terechtgekomen.
Ook Matteo had uit dezelfde populatie een steekproef van grootte \(n=50\) getrokken en hij vond als t-waarde \(t=3.203\) . Aangezien \(3.203>1.677\) is ook deze t-waarde in het verwerpingsgebied terechtgekomen. Matteo besluit: ik verwerp de nulhypothese op het 5 % significantieniveau. Dat is een terecht besluit.
In fig 3 zie je grafisch wat er gebeurd is.
Als de nulhypothese waar is en wanneer je met het 5 % criterium werkt om over “extreem” of “onverwacht” te spreken, dan is het resultaat van Matteo nog veel meer onverwacht dan dat van Mila. Dat zie je aan hun t‑waarde, maar kan je dat ook formuleren in een “kansuitspraak”?
Als je een poging zou doen om met een kans aan te geven hoe extreem de gevonden t‑waarden van Mila en Matteo zijn, dan zit je er goed naast. Dat heb je geleerd in Note 2. De t‑verdeling is continu en de kans om eender welk specifiek getal uit te komen is gelijk aan nul. Dat helpt dus niet.
Stap over van “extreme waarden” op “extreme gebieden”. Je ziet dan dat de t‑waarde van Matteo een veel extremere rechterstaart definieert [ 3.237 , +∞ ) dan de rechterstaart [ 1.771 , +∞ ) die start vanaf de t‑waarde van Mila.
Staarten zijn “gebieden” en daarbij horen kansen. De kans van een staart die op deze manier verkregen is, heet de p‑waarde.
Nota. p‑waarde is in het Engels p‑value = probability value. Het is deze waarde die je in de output van de meeste statistische software vindt.
In het voorbeeld ben je gestart met de onderstelling dat de nulhypothese \({{H}_{0}} :\ \mu = 3100\) waar is zodat \(T=\dfrac{\bar{X}-3100 }{S/\sqrt{50}}\sim t(49)\) . Bij een rechts éénzijdige toets kijk je voor “extreem” naar de rechterstaart. Zo vind je:
p‑waarde van Mila =
de kans dat Mila 1.771 ziet of nog meer extreem = \(P\left( T\ge 1.771 \right)=0.041\).
p‑waarde van Matteo =
de kans dat Matteo 3.237 ziet of nog meer extreem = \(P\left( T\ge 3.237 \right)=0.001\).
11 Oefening (opl 11)
- “Een grotere p-waarde wijst op een meer extreme t-waarde.” Is deze uitspraak juist? Motiveer je antwoord.
- Zoals Mila en Matteo heeft ook Manon een steekproef van grootte \(n=50\) uit die populatie getrokken. Zij wil dezelfde onderzoeksvraag beantwoorden maar zij heeft vooraf geen model opgesteld. Zij weet dus niet waar het verwerpingsgebied ligt. Haar statistisch pakket zegt alleen dat haar p‑waarde gelijk is aan 0.214. Kan Manon, zonder haar t-waarde te kennen en zonder te weten waar het verwerpingsgebied ligt, de onderzoeksvraag beantwoorden? Wat zou haar besluit dan zijn? Motiveer je antwoord.
- Bevestig het antwoord over Manon dat je zopas gegeven hebt. Haar steekproef staat op je laptop in kolom A van het Excel bestand steekproef_th&bi.xlsx in de xcl-folder. Maak eerst een kopie van dat Excel bestand en geef die kopie de naam mijndata.xlsx. Om de t-waarde te vinden gebruik je th_gem.qmd met aangepaste codes. Waar is Manon terechtgekomen? Bevestigt dit je antwoord van vorig punt?
De figuren hieronder heb je al ontmoet. Bekijk ze nu eens aandachtig als een illustratie van Note 6 voor de situatie van rechts éénzijdig toetsen (in dat geval is het kritisch punt het beginpunt van “de rechterstaart” = “het verwerpingsgebied”).
Dataset C is de steekproef van Mila:
- is haar p-waarde groter of kleiner dan het significantieniveau? In welk gebied komt haar t-waarde terecht en wat betekent dat voor haar conclusie?
- is haar t-waarde groter of kleiner dan het kritisch punt? Wat volgt daaruit voor haar p-waarde en voor haar conclusie?
Dataset A is de steekproef van Manon:
antwoord nu op dezelfde vragen als bij Mila.
3.3 Tweezijdig toetsen
Voorbeeld
In onze maatschappij, met goede geneeskundige zorgen, kan men nauwkeurig bepalen wanneer een baby voldragen is en men laat de zwangerschap dan ook niet te veel over tijd gaan. Op te korte zwangerschappen heeft de geneeskunde veel minder vat en het gebeurt nog regelmatig dat kinderen te vroeg geboren worden.
Voor een zwangerschap hanteert men nogal eens een duurtijd van 40 weken maar dat hangt ook wat af van de manier van tellen. Jij denkt dat men misschien beter met een gemiddelde duurtijd van 39 weken werkt. Je wil weten of dit een goed criterium zou geweest zijn voor de geboorten in 2005. Misschien heb je wel gelijk, maar eigenlijk heb je geen idee of de gemiddelde zwangerschapsduur toen korter of langer dan 39 weken was.
Voor dit onderzoek ga je een steekproef van grootte 70 trekken uit alle geboorten van het jaar 2005. Met die data zal je een hypothesetoets op het klassieke 5 % significantieniveau uitvoeren.
3.3.1 De toets opstellen
De populatie \(X\) is de zwangerschapsduur en de onderzochte karakteristiek is de gemiddelde zwangerschapsduur (\(\mu\)) voor baby’s geboren in 2005.
De vraag gaat over de waarde van de gemiddelde zwangerschapsduur waarbij:
nulhypothese over \(\mu\):
de gemiddelde zwangerschapsduur in 2005 was 39 weken zodat \({{H}_{0}} :\ \mu = 39\).
alternatieve hypothese over \(\mu\):
de nulhypothese is niet waar zodat \({{H}_{1}} :\ \mu \ne 39\).
Aangezien \(\sigma\) (de standaardafwijking van de populatie) niet gekend is, gebruik je de T‑statistiek. Als start onderstel je dat de nulhypothese \({{H}_{0}} :\ \mu = 39\) waar is en dus werk je met \(T=\dfrac{\bar{X}-39 }{S/\sqrt{70}}\).
De steekproef is groot (\(n\)=70) en dus kan je voor de T‑statistiek een t‑verdeling met 69 vrijheidsgraden gebruiken: \(T\sim t(69)\).
De alternatieve hypothese \({{H}_{1}} :\ \mu \ne 3100\) zegt dat je tweezijdig moet toetsen.
Als “extreem gebied” kijk je zowel naar “extreem groter” als naar “extreem kleiner”. Het extreem gebied bestaat nu uit twee staarten die je symmetrisch kiest zodanig dat, onder \({{H}_{0}}\) , de teststatistiek \(T\) in het totale extreme gebied slechts met kans 5 % terechtkomt (significantieniveau \(\alpha = 5\%\)).
Bij een t‑verdeling met 69 vrijheidsgraden zoek je een eerste kritisch punt \(t\) waarvoor \(P\left( T\le t \right)=0.025\). Dat punt is -1.995 want \(P\left( T\le -1.995 \right)=0.025\). Wegens symmetrie is \(P\left( T\ge 1.995 \right)=0.025\). zodat het tweede kritisch punt gelijk is aan 1.995.
Het verwerpingsgebied bestaat nu uit ( -∞ , -1.995 ] samen met [ 1.995 , +∞ ).
fig 4 Beslissingsregel.
Als na het trekken van de steekproef de gevonden t‑waarde in het verwerpingsgebied valt, dan verwerp je de nulhypothese op het 5% significantieniveau . Je besluit dan “dat er een statistisch bewijs is” dat de gemiddelde zwangerschapsduur in 2005 niet gelijk was aan 39 weken.
Als de t‑waarde in het aanvaardingsgebied terechtkomt, dan kan je de nulhypothese niet verwerpen. Dat is geen bewijs dat in 2005 de gemiddelde zwangerschapsduur gelijk was aan 39 weken.
3.3.2 De toets uitvoeren
Zoals bij vorig onderzoek over het geboortegewicht trekt men ook hier een steekproef uit de “databank geboorten”.
Het programma trek_stkp.qmd met codesgebj <- 2005 , sx <- 9 , n_stkp <- 70 en bewaar <- 1levert een steekproef van grootte \(n=70\) . De eerste 10 rijen van die steekproef zie je hieronder, zowel als html-output als in een Excel bestand. Van dat Excel bestand wordt een kopie gemaakt met naam mijndata.xlsx.
De data van de steekproef leveren de t-waarde en de p-waarde (fig 5).
De t-waarde
Bij deze steekproef is \(t=\dfrac{\bar{x}-39}{s/\sqrt{70}}=-\,0.815\)
De p-waarde
De toets is tweezijdig zodat “de kans dat je ziet wat je ziet of nog meer extreem” nu vertaald wordt naar “de kans dat de teststatistiek \(T\) minstens zoveel afwijkt van het centrum als de afwijking die je ziet”, of, in dit geval:
\(P\left( \left| T \right|\ge \left| t \right| \right)=P\left( T\le -0.815 \right)+P\left( T\ge +0.815 \right)=0.418= 41.8\ \%\).
De data staan in kolom A van mijndata.xlsx.
Gebruik th_gem.qmd met codes: mu_nul <- 39, alternatieve <- 3,
alpha <- 0.05, n_stkp <- 70, datatype <- 1, mijndatakolom <- "A",
gem_stkp <- NULL, stafw_stkp <- NULL en toon <- 1.
Besluit
Aangezien de t-waarde (-0.815) in het aanvaardingsgebied ( -1.995 , 1.995 ) terechtkomt, kan de nulhypothese niet verworpen worden op het 5 % significantieniveau.
Dezelfde conclusie vind je ook door op te merken dat de p-waarde (41.8 %) groter is dan het significantieniveau (5 %) - zie Note 6.
12 Oefening (opl 12)
Lucas heeft horen zeggen dat een kleine friet bij McDonald’s 80 g weegt. Hij wil weten of dat waar is bij de McDonald’s in zijn straat. Op willekeurige dagen en willekeurige uren gaat hij naar die McDonald’s, koopt een kleine friet en weegt die. Dat doet hij 36 keer. Het resultaat (in gram) staat in kolom F van het Excel bestand steekproef_th&bi.xlsx. Dat bestand staat op je laptop in de folder xcl. Maak eerst een kopie van steekproef_th&bi.xlsx en geef die kopie de naam mijndata.xlsx.
Specifieer het onderzoek dat Lucas met een hypothesetoets zal uitvoeren (op het 5 % significantieniveau). Begin met het kader van het onderzoek duidelijk aan te geven.
Volg het voorbeeld van de zwangerschapsduur en doorloop de puntjes 1 tot 4. Bij puntje 5 gebruik je th_gem.qmd met de data van Lucas en je motiveert (zowel met de gevonden t-waarde als op basis van de p-waarde) welke conclusie Lucas moet trekken.
3.4 Data snooping
Bij de start van zijn onderzoek wou Lucas weten of de kleine friet bij zijn McDonald’s 80 g woog. Hij had geen oordeel vooraf over het gemiddeld gewicht (meer of minder) en dus besloot hij om tweezijdig te toetsen. Dat was terecht.
Op basis van zijn steekproef kon hij de nulhypothese \({{H}_{0}} :\ \mu = 80\) niet verwerpen. Hij ontdekte ook dat zijn 36 zakjes een gemiddeld gewicht van slechts 78 g hadden. Dat vond hij niet eerlijk en hij wou bewijzen, “met data”, dat de zakjes kleine friet bij die McDonald’s gemiddeld minder dan 80 g wegen.
13 Oefening (opl 13)
In opl 12 heb je de studie van Lucas uitgevoerd. Geef aan wat je bij het opstellen van die toets moet veranderen om de nieuwe vraag van Lucas te beantwoorden (hij wil tonen dat hij te weinig friet krijgt). Voer daarna die toets ook uit met zijn data (\(n=36\)). Gebruik th_gem.qmd met aangepaste codes. Wat is het besluit van deze toets?
Je kan werken met een goede steekproef en je kan een toets correct opstellen en daarna ook juist uitvoeren en toch kom je tot een tegenspraak als je opl 12 vergelijkt met opl 13. Hoe komt dat?
Het probleem dat je hier ontmoet heeft te maken met het opstellen van een onderzoek. Een statistisch onderzoek is veel meer dan steekproeven, kansmodellen , berekeningen en conclusies. Elk onderzoekt kadert in een brede context met vragen zoals: “wanneer verzamel je data en wanneer specifieer je de onderzoeksvraag?”.
Bij het eerste onderzoek van Lucas heeft hij vooraf de onderzoeksvraag gesteld: \({{H}_{0}} :\ \mu = 80\) tegenover \({{H}_{1}} :\ \mu \ne 80\) . Als Lucas toen al overtuigd was dat hij te weinig friet kreeg, dan zou hij vooraf gewerkt hebben met \({{H}_{0}} :\ \mu = 80\) tegenover \({{H}_{1}} :\ \mu < 80\) (en terecht).
Het tweede onderzoek van Lucas zit helemaal anders in elkaar. Hij start met \({{H}_{0}} :\ \mu = 80\) tegenover \({{H}_{1}} :\ \mu \ne 80\) . Dan trekt hij een steekproef waarbij hij (toevallig) \(\bar {x} =78\) vindt. Die data brengen hem op het idee om achteraf zijn onderzoeksvraag te veranderen in \({{H}_{0}} :\ \mu = 80\) tegenover \({{H}_{1}} :\ \mu < 80\) . Dezelfde data, die hem op het idee brachten om de alternatieve te wijzigen in \({{H}_{1}} :\ \mu < 80\), gebruikt hij daarna om die alternatieve te bewijzen.
Deze foutieve werkwijze bij het opstellen van een onderzoek heet data snooping.
Nota.
Je mag op verschillende manieren (ook met data en steekproeven) trachten om een idee te krijgen over een onbekende populatie. Je kan die kennis als basis gebruiken om een onderzoeksvraag te formuleren. En dan specifieer je de hypothesen om daarna een totaal nieuwe steekproef te trekken en de toets uit te voeren.
3.5 R-software output
Bij klassieke statistische software wordt toetsen van hypothesen niet opgebouwd met een grafische voorstelling van een “model vooraf” gevolgd door “het uitvoeren van de toets” waar je de t-waarde, de p-waarde, het verwerpings- en het aanvaardingsgebied samen op één grafiek kan bekijken.
Meestal krijg je alleen maar enkele lijnen output waar, op een samengebalde manier, de resultaten geprint staan. Die “software output” is nogal verschillend van pakket tot pakket. Hieronder leer je de output begrijpen zoals die door R gegeven wordt.
Als voorbeeld neem je de toets over de leeftijd van de vrouw bij een bevalling. Dat onderzoek heb je, met eigen data, bestudeerd in oef 9 en oef 10. Nu werk je met de data die in deze tekst gevonden werden (opl 10) (die data staan in kolom D van steekproef_th&bi.xlsx).
Gebruik th_gem.qmd met codes: mu_nul <- 31, alternatieve <- 2,
alpha <- 0.05, n_stkp <- 40, datatype <- 1, mijndatakolom <- "D",
gem_stkp <- NULL, stafw_stkp <- NULL en toon <- 2.
De eerst lijn is de functie om de t-test uit te voeren. Daaronder staat de output.
Meer in detail zie je de volgende elementen in deze output.
- De titel.
De titel verwijst naar studies over het gemiddelde van één populatie waarbij je de T‑statistiek gebruikt. In R krijg je met t.test(x, ...) resultaten zowel voor toetsen van hypothesen als voor betrouwbaarheidsintervallen.
- Info over de data.
De steekproef-data zijn opgeslagen als componenten van een vector met naam x.
Bij “schattingen met deze data” (sample estimates:) staat het steekproefgemiddelde (mean of x) waarbij (notatie ! ) \(\bar{x}=29.075\).
- Specificatie van de toets.
true mean = (notatie ! ) \(\mu\) = het populatiegemiddelde.
nulhypothese \({{H}_{0}} :\ \mu = 31\)
alternatieve hypothese \({{H}_{1}} :\ \mu < 31\)
De output 95 percent confidence interval verwijst naar een betrouwbaarheidsinterval. Bij een toets betekent dit dat je het significantieniveau \(\alpha = 5\ \%\) gebruikt.
- Resultaten op basis van de getrokken steekproef.
Het aantal vrijheidsgraden (degrees of freedom): df = 39. De steekproefgrootte is dus n = 40 wat samen met \({{\mu}_{0}}=31\) en met de data een t‑waarde t = -2.914 oplevert. De kans onder \({{H}_{0}}\) op “even extreem of nog extremer” is de p‑waarde: p-value = 0.002941.
14 Oefening (opl 14)
Gebruik th_gem.qmd met aangepaste codes om de “R software output” te tonen bij het onderzoek van Mila (geboortegewichten).De data van Mila staan in kolom C van steekproef_th&bi.xlsx (maak eerst een kopie naar mijndata.xlsx).
Als je alleen de R output hebt en:
je laat t = 1.7709 weg, kan je dan een besluit trekken? Waarom?
je laat p-value = 0.04139 weg, kan je dan een besluit trekken? Waarom?
3.6 Samengevatte data
Data kunnen tot jou komen in veel verschillende vormen en elk software pakket heeft een (zeer) uitgebreid arsenaal aan technieken om data te manipuleren zodat ze uiteindelijk in een geschikte vorm staan om door jou gebruikt te worden.
Dit is een belangrijke en gespecialiseerde topic in data analyse waar we in deze tekst niet verder op ingaan.
Tot nu toe heb je gewerkt met “ruwe” data = een verzameling getallen zoals ze zijn opgemeten en die jij in een kolom van een Excel bestand hebt geplaatst.
Soms beschik je alleen maar over data “in samengevatte vorm” (summary data). Ook met zo’n data kan je th_gem.qmd gebruiken om een toets uit te voeren. Alles wat je geleerd hebt over toetsen van hypothesen verandert hierbij uiteraard niet.
Als voorbeeld bekijk je de data van Manon (geboortegewichten) voor beide situaties.
Toets op basis van de “ruwe data” (die staan in kolom B van steekproef_th&bi.xlsx).
Gebruik th_gem.qmd met codes: mu_nul <- 3100, alternatieve <- 1,
alpha <- 0.05, n_stkp <- 50, datatype <- 1, mijndatakolom <- "B",
gem_stkp <- NULL, stafw_stkp <- NULL en toon <- 3.
de R-functie om de toets uit te voeren heeft de naam t.test(x, …..). Die naam verwijst naar een toets op basis van “ruwe data” waarbij de data de naam x hebben (een vector getallen)
in de output zie je \(\bar{x}=3327\) en \(s = 501.19\). Die getallen zijn niet door jou ingebracht. Zij zijn door R berekend op basis van de ingelezen “ruwe data”.
Toets op basis van “samengevatte data”.
Nu gebruik je th_gem.qmd als volgt:
de R-functie om de toets uit te voeren heeft de naam tsum.test( ). Die naam verwijst naar een toets op basis van “samengevatte data”.
In de R-output zie je data: Summarized x.
op de figuur zie je \(n=50\) en \(\bar{x}=3327\) en \(s = 501.19\). Die getallen zijn door jou ingebracht (en dus niet berekend door R). Dit is de informatie die R gebruikt om, voor de studie van Manon, de toets uit te voeren.
In opl 13 heb je de studie van Lucas uitgevoerd waarbij hij trachtte te bewijzen dat zijn zakjes friet gemiddeld minder dan 80 g wegen. Je hebt je toen gebaseerd op de ruwe data. Als je toen geweten had dat voor die data het steekproefgemiddelde gelijk is aan \(\bar{x}=78\) en de standaardafwijking \(s = 6.87\) dan had je th_gem.qmd kunnen gebruiken voor samengevatte data.
Je had dan kunnen werken met de codes: mu_nul <- 80, alternatieve <- 2,
alpha <- 0.05, n_stkp <- 36, datatype <- 2, mijndatakolom <- NULL,
gem_stkp <- 78, stafw_stkp <- 6.87en toon <- 1.
Dat geeft als resultaat:
Lucas was toen blij met een dode mus. De berekeningen geven inderdaad een statistisch bewijs dat die zakjes friet gemiddeld minder dan 80 g wegen (de p-waarde is kleiner dan het significantieniveau want 4.5 % < 5 %). Maar berekeningen helpen niet bij data snooping: een foutieve studie-opzet leidt tot ongeldige conclusies.
Lucas is helemaal opnieuw begonnen.
Voor zijn tweede studie formuleert hij vooraf: \({{H}_{0}} :\ \mu = 80\) tegenover \({{H}_{1}} :\ \mu < 80\) . Daarna gaat hij, op een lukrake manier, 30 keer een zakje friet kopen bij zijn McDonald’s en weegt het. Tot zijn grote vreugde ziet hij dat hij terug \(\bar{x}=78\) en \(s = 6.87\) vindt bij de data van die nieuwe steekproef. Nu kan hij echt besluiten dat die zakjes te weinig wegen. Hij heeft eindelijk een wetenschappelijk bewijs.
15 Oefening (opl 15)
Controleer de tweede studie van Lucas. Wat is je besluit?
Gebruik th_gem.qmd voor “samengevatte data”.
4 Toets voor een proportie
Bij een proportie denk je aan een 0 ‑ 1 populatie \(X\) waarbij 1 = succes = heeft de eigenschap WEL en 0 = mislukking = heeft de eigenschap NIET.
Je kan hierbij te maken hebben met een “intrinsieke” 0 ‑ 1 populatie (zoals de klassificatie van het geslacht bij de geboorte met 0 = meisje en 1 = jongen). Maar ook bij continue data (zoals leeftijd) kan de onderzoeksvraag leiden tot een dichotomie (zoals: zijn vrouwen bij een bevalling jonger dan 31 of niet?).
De succeskans \(P(X=1)\) noteer je als \(p\) en dat is ook de notatie voor de proportie successen in de populatie = de populatieproportie. Een 0 ‑ 1 populatie heb je bestudeerd in de tekst “Steekproef, gemiddelde en proportie” (zie).
Een toets voor een proportie volgt het algemeen schema {zie 2.3}. Dat zie je op onderstaand voorbeeld.
4.1 Uitgewerkt voorbeeld
Als populatie bestudeer je het geslacht zoals dat gecodeerd wordt bij een geboorte in Vlaanderen ( 0 = meisje en 1 = jongen).
Men zegt dat 51 % van de baby’s jongens zijn. Je wil weten of dat in 2003 waar was. Je zal voor je onderzoek een steekproef van grootte 60 trekken uit de “databank geboorten” en werken met een hypothesetoets op significantieniveau \(\alpha = 5\%\).
4.1.1 De toets opstellen
De bestudeerde populatie \(X\) is het geslacht (gecodeerd als: 0 = meisje en 1 = jongen) van baby’s geboren in Vlaanderen in 2003. De karakteristiek die onderzocht wordt is de proportie jongens bij al die geboorten ( \(p\) = de populatieproportie).
De onderzoeksvraag gaat over de waarde van de populatieproportie waarbij:
nulhypothese over \(p\) :
de proportie jongens in 2003 was zoals de klassieke standaard aangeeft \({{H}_{0}} :\ p = 0.51\).
alternatieve hypothese over \(p\) :
je weet niet of \({{H}_{0}}\) waar is en dus stel je als alternatieve hypothese \({{H}_{1}} :\ p \ne 0.51\).
Om de populatieproportie \(p\) te onderzoeken werk je met de steekproefproportie \(\hat{P}\). Je hebt geleerd dat \(E(\hat{P})=p\) en \(se(\hat{P})=\dfrac{\sqrt{pq} }{\sqrt{n}}\).
Als start onderstel je dat de nulhypothese \({{H}_{0}} :\ p = 0.51\) waar is en dus werk je met de gestandaardiseerde teststatistiek (waarbij \({p}_{0}\) de algemene notatie is voor de waarde van de populatieproportie \(p\) onder de nulhypothese):
\(\dfrac{\hat{P}-{p}_{0}}{\sqrt{{p}_{0}(1-{p}_{0})}/\sqrt{n}}\)=\(\dfrac{\hat{P}-0.51}{\sqrt{(0.51)(1-0.51)}/\sqrt{60}}\).
De steekproefgrootte (\(n\)=60) voldoet aan de vuistregel (zie 6.4) voor de normale benadering want \(60\cdot (0.51)=30.6\ge 15\) en \(60\cdot (1-0.51)=29.4\ge 15\). Dus werk je met \(Z=\dfrac{\hat{P}-0.51}{\sqrt{(0.51)(0.49)}/\sqrt{60}}\) waarbij \(Z\sim N(0,1)\).
De alternatieve hypothese \({{H}_{1}} :\ p \ne 0.51\) zegt dat je tweezijdig toetst. Als “extreem gebied” kijk je zowel naar een linker- als een rechterstaart waarin je (onder \({{H}_{0}}\) ) telkens met kans 2.5 % terechtkomt (significantieniveau \(\alpha = 5\%\)).
fig 6
Voor een standaard normale verdeling heb je vroeger de kritische punten bepaald. Je weet dat \(P\left(Z \le -1.96 \right)=2.5\ \%\) en dat \(P\left(Z \ge 1.96 \right)=2.5\ \%\).
Het verwerpingsgebied bestaat uit ( -∞ , -1.96 ] samen met [ 1.96 , +∞ ) (fig 6).
Beslissingsregel.
Als na het trekken van de steekproef jouw gevonden z‑waarde in het verwerpingsgebied valt, dan verwerp je de nulhypothese op het 5% significantieniveau . Je besluit dan “dat er een statistisch bewijs is” dat de proportie jongens bij de geboorten in 2003 niet gelijk is aan 51 %.
Als jouw gevonden z‑waarde in het aanvaardingsgebied ( -1.96 , 1.96) terechtkomt, dan kan je de nulhypothese niet verwerpen. Dit is geen bewijs dat ze juist is.
Een onderzoeksvraag kan een continue veranderlijke transformeren naar een 0 ‑ 1 veranderlijke. Een voorbeeld zie je hieronder.
Laag geboortegewicht.
Baby’s met een laag geboortegewicht lopen groter risico op complicaties. In de geneeskunde spreekt men van “laag geboortegewicht” wanneer bij de geboorte een baby minder dan 2.5 kg weegt.
Gegevens van de voorbije jaren tonen dat de proportie baby’s met laag geboortegewicht niet veel schommelt. Die is zo’n 6 %. Vroeger was die proportie groter. Dat heb je gehoord van een vroedvrouw. Maar was dat toen echt zo?
In de “databank geboorten” staan geboortegewichten en die data behandel je als continue numerieke veranderlijken. De huidige onderzoeksvraag zorgt ervoor dat elke observatie getransformeerd wordt naar een 0 ‑ 1 veranderlijke met:
- waarde 1 (= succes) als het geboortegewicht kleiner is dan 2500 g
- waarde 0 (= mislukking) als het geboortegewicht ten minste 2500 g is.
16 Oefening (opl 16)
De bewering van de vroedvrouw dat de proportie baby’s met een laag geboortegewicht vroeger groter was dan 6 % wil je toetsen voor het jaar 2007. Je toetst op het 5 % significantieniveau en je werkt met een zo klein mogelijke steekproef die toch nog voldoet aan de vuistregel om de normale benadering te mogen toepassen.
Gebruik th_prop.qmd met de juiste codes om het model voor deze toets op te stellen (je hebt daarvoor geen data nodig). Ga bij je antwoord stapsgewijs tewerk zoals in het voorbeeld over de proportie jongens bij de geboorte. Formuleer tenslotte de regel die zegt welke beslissing je zal nemen nadat je de data van de steekproef zal hebben.
4.1.2 De toets uitvoeren
Bij het onderzoek naar de proportie jongens bij de geboorten in 2003 trek je een steekproef uit de “databank geboorten”.
Het programma trek_stkp.qmd met codesgebj <- 2003 , sx <- 9 , n_stkp <- 60 en bewaar <- 1levert een steekproef van grootte \(n=60\) . De eerste 10 rijen van de steekproef die hier gevonden werd, staan hieronder, zowel als html-output als in een Excel bestand. Van dat Excel bestand is ook een kopie gemaakt met naam mijndata.xlsx.
Met de data van de steekproef bereken je de z-waarde. Gebruik th_prop.qmd met codes:
p_nul <- 0.51 , alternatieve <- 3 , alpha <- 0.05 , n_stkp <- 60 ,
datatype <- 1 , mijndatakolom <- "C" , prop_stkp <- NULL en toon <- 1
(de data staan in kolom C van mijndata.xlsx).
Bij deze steekproef is de z-waarde gelijk aan 1.136 (fig 7).
Besluit
De z-waarde (1.136) komt in het aanvaardingsgebied ( -1.96 , 1.96 ) terecht en dus kan de nulhypothese niet verworpen worden op het 5 % significantieniveau.
Dezelfde conclusie vind je ook door op te merken dat de p-waarde (25.58 %) groter is dan het significantieniveau (5 %) - zie Note 6.
17 Oefening (opl 17)
Je hebt een model opgesteld om met toetsen van hypothesen de onderzoeksvraag in oef 16 aan te pakken. Voer dit onderzoek nu ook effectief uit en neem een beslissing.
- Gebruik trek_stkp.qmd met de juiste codes om de gewenste steekproef te vinden die je ook als een Excel bestand wegschrijft.
- Ga op je laptop naar de xcl-folder, open het gecreëerde Excel bestand en transformeer de gewichten naar een 0 ‑ 1 veranderlijke die in kolom F terechtkomt. Volg de methode in Note 7. Maak dan een kopie met naam mijndata.xlsx.
- Om de z-waarde te vinden gebruik je th_prop.qmd met aangepaste codes.
- Trek het juiste besluit (en motiveer).
4.2 R-software output
Als je uit een populatie een steekproef trekt, dan wordt het kansmodel van het steekproefgemiddelde benaderd door een normale verdeling wanneer de steekproef groot genoeg is (centrale limietstelling).
Om te weten met welke normale verdeling je dan moet werken, moet je haar gemiddelde en standaardafwijking kennen.
Dat betekent:
- trek uit een continue populatie: \(E(\bar{X})=\mu\) en \(se(\bar{X})=\dfrac{\sigma }{\sqrt{n}}\).
Onder \({H}_{0}\) ken je \(\mu\) maar \(\sigma\) moet je schatten zodat je niet meer met de normale maar met een t-verdeling moet werken en, in R, de bijhorende functie t.test( ) moet gebruiken.
- trek uit een 0 ‑ 1 populatie: \(E(\hat{P})=p\) en \(se(\hat{P})=\dfrac{\sqrt{p \cdot(1-p)} }{\sqrt{n}}\).
Onder \({H}_{0}\) ken je \(p\) en dan ken je alles. Je kan dus met een normale verdeling werken en, in R, met de bijhorende functie z.test( ).
De z.test( ) in R geeft een output in een notatie alsof je een steekproef hebt getrokken uit een continue populatie met gekende standaardafwijking “sigma.x”. Let dus op de notatie, die zich in R niet aanpast aan de notatie voor proporties.
Als voorbeeld neem je het onderzoek over de proportie jongens bij de geboorten in 2003.
Werk met de steekproef die in deze tekst gevonden werd (de data staan in kolom G van steekproef_th&bi.xlsx).
Kopieer steekproef_th&bi.xlsx naar mijndata.xlsx.
Gebruik th_prop.qmd met codetoon <- 2.
De eerst lijn is de functie om de z-test uit te voeren. Daaronder staat de output.
Meer in detail zie je de volgende elementen in deze output.
- De titel.
De titel verwijst naar studies over het gemiddelde van een populatie (bij een 0 ‑ 1 populatie heeft dat gemiddelde de naam populatieproportie) waarbij de standaardafwijking van die populatie gekend is. Dan kan je de Z‑statistiek gebruiken met de normale verdeling. In R krijg je met z.test(x, ...) resultaten zowel voor toetsen van hypothesen als voor betrouwbaarheidsintervallen.
- Info over de data.
De steekproef-data zijn opgeslagen als componenten van een vector met naam x.
De data zijn hier van het 0 ‑ 1 type zodat het gemiddelde van deze data (mean of x) niets anders is dan de proportie successen in de steekproef of de steekproefproportie waarbij (notatie ! ) \(\hat{p}=0.5833\).
- Specificatie van de toets.
true mean = (notatie ! ) \(p\) = de populatieproportie.
nulhypothese \({{H}_{0}} :\ p = 0.51\)
alternatieve hypothese \({{H}_{1}} :\ p \ne 0.51\)
De output 95 percent confidence interval verwijst naar een betrouwbaarheidsinterval. Bij een toets betekent dit dat je het significantieniveau \(\alpha = 5\ \%\) gebruikt.
- Resultaten op basis van de getrokken steekproef.
De gevonden z‑waarde is z = 1.136. De kans onder \({{H}_{0}}\) op “even extreem of nog extremer” is de p‑waarde: p-value = 0.2558.
18 Oefening (opl 18)
Je hebt, met eigen data, een studie gemaakt van de proportie baby’s met laag geboortegewicht in het jaar 2007. Werk nu met de data die in deze tekst (opl 17) gevonden werden . Die data (al getransformeerd naar 0-1 waarden) staan in kolom H van steekproef_th&bi.xlsx (maak eerst een kopie van steekproef_th&bi.xlsx naar mijndata.xlsx).
Gebruik th_prop.qmd met aangepaste codes en met code
toon <- 3.
Zowel bij de R software output als op de figuur zie je zelfde getallen staan, zoals 0.06 of 0.088. Bij de R output staat daar een notatie bij die je niet verwacht. Zorg ervoor dat je begrijpt wat er bedoeld wordt.
De functie
z.test()bevatsigma.x = 0.237. Wat betekent hier sigma.x en welke notatie zou je hiervoor gebruiken en waar komt het getal 0.237 vandaan?
4.3 Samengevatte data
Als je werkt met een goed opgezette studie waarbij je over data beschikt die op een correcte manier verzameld zijn, dan heb je de “ruwe” data niet nodig om een toets uit te voeren. Je hebt al gezien hoe dat werkt bij toetsen voor een gemiddelde. Ook bij toetsen voor een proportie kan je een procedure gebruiken die aangepast is aan “samengevatte” data.
Als voorbeeld bekijk je het onderzoek over de proportie jongens geboren in 2003.
Voor ruwe data (bij een steekproef van grootte \(n=60\)) heb je deze studie al ontmoet, zowel op een figuur als met R-software output.
Als je voor deze studie niet de ruwe data zou hebben maar alleen zou weten dat jouw steekproefproportie \(\hat {p}\) gelijk is aan 0.583 (in je steekproef zijn er 35 jongens bij die 60 baby’s) dan gebruik je th_prop.qmd als volgt:
de R-functie om de toets uit te voeren heeft de naam zsum.test( ). Die naam verwijst naar een toets op basis van “samengevatte data”.
In de R-output zie je data: Summarized x.op de figuur zie je \(n=60\) en \(\hat{p}=0.583\) . Die getallen zijn door jou ingebracht (en dus niet berekend door R). Dit is de informatie die R gebruikt om, zonder ruwe data, de toets uit te voeren.
Onder de nulhypothese is de populatie-standaardafwijking gekend:
sigma.x= \(\sqrt{{{p}_{0}}{{q}_{0}}}=\sqrt{0.51\cdot 0.49}\cong 0.4999\)
5 OPLOSSINGEN
1 Oplossing (oef 1)
In 2022 was bij Vlaamse leerlingen van de derde graad de gemiddelde eindscore op wiskunde gelijk aan 57 (op een maximum van 100). Jij twijfelt eraan of dat vorig schooljaar ook het geval was. Dat wil je nu, met behulp van toetsen van hypothesen, onderzoeken.
- Wat is hier de populatie?
De populatie bestaat uit de eindscore op wiskunde bij de Vlaamse leerlingen die vorig schooljaar in de derde graad zaten.
- Welke populatieparameter (in woorden en met de juiste notatie) bestudeer je?
De bestudeerde populatieparameter is de gemiddelde eindscore, genoteerd als \(\mu\) (populatiegemiddelde).
- Formuleer de nulhypothese (in woorden en met de juiste notatie).
De nulhypothese is: de gemiddelde eindscore (\(\mu\)) was vorig schooljaar dezelfde als de gemiddelde eindscore in 2022, namelijk 57. De notatie hiervoor is \({{H}_{0}}\ :\ \mu =57\) .
- Formuleer de alternatieve hypothese (in woorden en met de juiste notatie).
De studie zegt niet dat jij een hoger (of lager) gemiddelde verwacht. Je twijfelt er gewoon aan of de gemiddelde score vorig jaar 57 was. Misschien was het iets anders. Daarom staat er als alternatieve hypothese dat de gemiddelde eindscore vorig jaar niet gelijk was aan 57. Als notatie schrijf je hiervoor: \({{H}_{1}}\ :\ \mu \ne 57\) .
- Is de alternatieve hypothese één– of tweezijdig?
De alternatieve hypothese is tweezijdig want zij zegt dat je ervan uitgaat dat vorig schooljaar de gemiddelde eindscore \(\mu\) evengoed groter als kleiner dan 57 kan geweest zijn.
2 Oplossing (oef 2)
Astrologen geloven dat de positie van maan en planeten op het ogenblik van je geboorte je persoonlijkheidskenmerken bepalen. Zij gebruiken tijdstip en plaats van geboorte om jouw astrologisch profiel op te stellen. Maar eigenlijk denken mensen dat dit niet werkt (tenminste bij Amerikaanse astrologen waar men volgend experiment deed).
Van 3 personen werden de persoonlijkheidskenmerken in een rapport beschreven. Die 3 rapporten werden dan aan de astroloog gegeven, samen met tijdstip en plaats van de geboorte van één van die 3 personen. De vraag was om het juiste rapport (dus de juiste persoon) te identificeren.
- Wat is hier de populatie?
Bij deze vraag denk je aan wat er zou gebeuren als alle Amerikaanse astrologen aan dit experiment zouden deelnemen. De populatie bestaat dan uit alle antwoorden van die astrologen met waarde:
0 = fout antwoord (= mislukking)
1 = juist antwoord ( = succes)
- Welke populatieparameter (in woorden en met de juiste notatie) bestudeer je?
De bestudeerde populatieparameter is de populatieproportie (= de proportie successen in de totale populatie). De populatieproportie noteer je met \(p\).
- Formuleer de nulhypothese (in woorden en met de juiste notatie).
De nulhypothese gaat ervan uit dat het niet werkt. Dat betekent dat astrologen uiteindelijk ook maar raden en dan is de kans op succes gelijk aan 1/3 zodat de proportie successen in de totale populatie gelijk is aan 1/3. Deze nulhypothese noteer je als \({{H}_{0}}\ :\ p =\dfrac{1}{3}\).
- Formuleer de alternatieve hypothese (in woorden en met de juiste notatie).
De alternatieve hypothese gaat ervan uit dat astrologie wel werkt en dat astrologen beter kunnen dan alleen maar raden. Dan is de proportie successen in de populatie groter dan 1/3 . Als notatie schrijf je dan \({{H}_{1}}\ :\ p >\dfrac{1}{3}\) .
- Is de alternatieve hypothese één– of tweezijdig?
De alternatieve hypothese is eenzijdig want zij onderstelt dat de populatieproportie groter dan 1/3 is.
3 Oplossing (oef 3)
Gebruik het voorbeeld van het kaartspel om de vragen te beantwoorden.
- Wat is hier de populatie?
De populatie is de kleur van de speelkaarten met de afspraak:
0 = rood (= mislukking)
1 = zwart ( = succes)
- Welke populatieparameter (in woorden en met de juiste notatie) bestudeer je?
De bestudeerde populatieparameter is de populatieproportie (= de proportie successen in de totale populatie = de proportie zwarte kaarten in het gekregen kaartspel). De populatieproportie noteer je met \(p\).
- Formuleer de nulhypothese (in woorden, met de juiste notatie en motiveer).
De nulhypothese zegt dat jij de gewone kaarten hebt gekregen. Dan zitten er evenveel zwarte als rode kaarten in dat pak zodat de proportie successen in de totale populatie gelijk is aan 1/2. Deze nulhypothese noteer je als \({{H}_{0}}\ :\ p =\dfrac{1}{2}\).
- Formuleer de alternatieve hypothese (in woorden, met de juiste notatie en motiveer).
Als je niet het gewone pak kaarten hebt gekregen dan werk je nu met een pak waar minder zwarte dan rode in zitten. De alternatieve hypothese is dan dat de proportie successen in de populatie kleiner is dan 1/2 . Als notatie schrijf je dan \({{H}_{1}}\ :\ p <\dfrac{1}{2}\) .
- Is de alternatieve hypothese één– of tweezijdig? (motiveer)
De alternatieve hypothese is eenzijdig. Zij zegt dat de populatieproportie van jouw pak kaarten “kleiner is dan” wat er in de nulhypothese wordt beweerd. Het getrukeerde pak kaarten bevat immers minder zwarte kaarten dan rode.
4 Oplossing (oef 4)
Bij de volgende vragen over het kaartspel gebruik je de code chunk in je werkblad.
- Wat is de kans om bij 20 keer trekken hoogstens 8 zwarte kaarten te zien?
Die kans is gelijk aan (afgerond) 25 %.
- Experimenteer met enkele waarden van \(x\) om te ontdekken vanaf wanneer je de nulhypothese niet meer gelooft (gebruik het 5 % criterium).
Motiveer je antwoord.
Je hebt zopas gevonden dat je bij ongeveer 1 op 4 spellen niet meer dan 8 zwarte kaarten te zien krijgt als je er lukraak (met terugleggen) 20 trekt uit een eerlijk kaartspel. Zo’n gebeurtenis noem je niet “uitzonderlijk” of “extreem”.
Je kan nu \(x\) aanpassen in de code chunk en de kansen berekenen voor de nieuwe linkerstaarten. De kansen die je vindt staan ook hiernaast, in de tabel van de cumulatieve binomiale verdeling.
Bij een eerlijk kaartspel heb je bij 20 keer trekken ongeveer 25 % kans dat je hoogstens 8 keer een zwarte kaart ziet, 13 % kans dat je er hoogstens 7 ziet en 5.8 % kans dat je er niet meer dan 6 ziet. Hier ben je heel dicht tegen de 5 % grens gekomen.
Inderdaad, hoogstens 5 (of 4, 3, 2, 1, 0) keer een zwarte kaart zien gebeurt met kansen die veel kleiner zijn dan 5 %. Dan geloof je niet meer dat jij het “eerlijke” pak kaarten gekregen hebt.
5 Oplossing (oef 5)
Jij bent ervan overtuigd dat je een dieet met weinig koolhydraten moet volgen als je gewicht wil verliezen: “eet weinig of geen brood, pasta, zoetigheid… en trek je voor de rest niets aan van het aantal calorieën op je bord”.
Je wil bewijzen dat dit echt helpt en daarom noteer je, over een periode van 3 maanden, het gewichtsverlies van personen die zo’n dieet volgen.
Wat is hier de populatie en welke populatieparameter bestudeer je?
De populatie is het gewichtsverlies na 3 maanden van iedereen die zo’n dieet zou volgen. De populatieparameter die je hier bestudeert is het gemiddelde gewichtsverlies, genoteerd als \(\mu\).Welke uitspraak zet je in de alternatieve hypothese (motiveer).
Wat je wil bewijzen (het dieet werkt = er is een gemiddeld gewichtsverlies) zet je in de alternatieve hypothese want toetsen van hypothesen kan alleen maar een statistisch bewijs leveren voor de uitspraak die in de alternatieve staat.Formuleer de nulhypothese (met de juiste notatie en motiveer).
De nulhypothese gaat ervan uit dat het dieet niet werkt, je kan evengoed geen dieet volgen. Gemiddeld zal er dan ook geen gewichtsverlies zijn.
Je start dus met de nulhypothese \({{H}_{0}}\ :\ \mu = 0\) .Formuleer de alternatieve hypothese (met de juiste notatie).
De alternatieve hypothese zegt dat je gewicht verliest als je het dieet volgt. Als je het gewichtsverlies berekent als (gewicht bij de start – gewicht na 3 maanden) dan moet dit getal positief zijn als deelnemers aan de studie gewicht verloren hebben.
De alternatieve hypothese is \({{H}_{1}}\ :\ \mu \gt 0\).
6 Oplossing (oef 6)
Je bent verdacht van een misdaad en wordt aangehouden. Ofwel ben je schuldig en dan wacht je de gevangenis. Ofwel ben je onschuldig en dan word je vrijgelaten.
Wat zijn de gevolgen als men start met de nulhypothese dat je onschuldig bent? Wat is de taak van de aanklager en wat is jouw taak? Als je wordt vrijgelaten, ben je dan onschuldig? Motiveer je antwoord.
Als men start met de nulhypothese dat je onschuldig bent dan is het aan de aanklager om te bewijzen dat je schuldig bent. Jij moet eigenlijk niets doen. Volgens de principes van toetsen van hypothesen start men met een nulhypothese waaraan men blijft vasthouden tenzij men “extreme” dingen ziet die “zeer onverwacht” zijn wanneer de nulhypothese waar zou zijn. Dat is precies de reden waarom het gerecht zoveel moeite doet (getuigen, DNA, reconstructie,…) om feiten te verzamelen die “zo goed als zeker” aantonen dat jij de dader bent. Als het gerecht daar niet in slaagt, dan moet men je vrijlaten. Dat wil helemaal niet zeggen dat jij het niet gedaan hebt (de nulhypothese wordt niet bewezen).Wat zijn de gevolgen als men start met de nulhypothese dat je schuldig bent? Wat is de taak van de aanklager en wat is jouw taak? Als je in de gevangenis blijft, ben je dan schuldig? Motiveer je antwoord.
Als men start met de nulhypothese dat je schuldig bent, dan moet de aanklager alleen maar zeggen dat jij de dader bent. En dan is het aan jou om je onschuld te bewijzen. Dat kan heel moeilijk zijn, ook als je de dader niet bent. Zolang je er niet in slaagt om met voldoende argumenten je onschuld te bewijzen blijf je in de gevangenis. Dat betekent niet dat je schuldig bent (de nulhypothese wordt niet bewezen).
7 Oplossing (oef 7)
In onze rechtspraak start men met de nulhypothese dat je onschuldig bent. Wanneer wordt hier een type I fout gemaakt? Wanneer een type II fout? Wat vind je het ergste?
Bij een type I fout verwerp je de nulhypothese terwijl ze toch waar is. Dat betekent hier dat je veroordeeld wordt terwijl je onschuldig bent.
Bij een type II fout wordt de nulhypothese niet verworpen terwijl ze in feite niet waar is. Dat betekent dat je vrijgesproken wordt terwijl je in feite toch schuldig bent.
Als je vindt dat een onschuldige straffen erger is dan een schuldige niet straffen dan is een type I fout de ergste.
8 Oplossing (oef 8)
Een type I fout maken kan zeer erge gevolgen hebben. Dat zag je in oef 7. Waarom werk je eigenlijk met een procedure waarbij je kans hebt om een fout te maken zoals \(P(type\ I\ fout)= 5\ \%\) ? Waarom stel je niet \(P(type\ I\ fout)= 0\) ? Wat zou dat betekenen in de rechtspraak?
Een onschuldige ten onrechte straffen is zeer erg. Als je, met zekerheid, wil dat zoiets nooit gebeurt, dan is dat simpel: straf niemand. Zo is \(P(type\ I\ fout)= 0\) . Je kan dan tegelijkertijd de rechtspraak afschaffen.
In de statistiek is elke realistische procedure zo gemaakt dat er een kans is dat je een fout maakt. Als je zeker wil zijn dat je nooit een fout zal maken, dan kom je op zinloze procedures terecht.
9 Oplossing (oef 9)
De gemiddelde leeftijd van vrouwen bij de geboorte van hun (eerste of tweede of derde…) kind is 31 jaar. Dat lees je op de website van StatBel voor de geboorten in 2020 in België. Jij denkt dat vrouwen vroeger niet zo lang wachtten om kinderen te krijgen. Je vermoedt dat de gemiddelde leeftijd van vrouwen die in Vlaanderen in 2000 een baby kregen kleiner was dan 31 jaar. Dat vermoeden wil je toetsen op het 5 % significantieniveau met een steekproef van grootte \(n=40\) .
Stel het model op voor deze toets en formuleer de regel die zegt welke beslissing je zal nemen nadat je de steekproef zal getrokken hebben. Bij je antwoord ga je stapsgewijs tewerk zoals in het voorbeeld over het geboortegewicht.
Gebruik th_gem.qmd met codes: mu_nul <- 31, alternatieve <- 2,
alpha <- 0.05, n_stkp <- 40, datatype <- 0, mijndatakolom <- NULL,
gem_stkp <- NULL, stafw_stkp <- NULL en toon <- 0.
De populatie \(X\) is de leeftijd van vrouwen die in Vlaanderen in 2000 een kind kregen en de onderzochte karakteristiek is \(\mu\) = de gemiddelde leeftijd van die vrouwen.
De onderzoeksvraag gaat over de waarde van \(\mu\) geformuleerd als hypothesen:
- de nulhypothese: in 2000 was de gemiddelde leeftijd dezelfde als in 2020, namelijk 31 jaar, zodat \({{H}_{0}}:\ \mu=31\)
- de alternatieve hypothese: die gemiddelde leeftijd in 2000 was kleiner, dus \({{H}_{1}}:\ \mu<31\)
- de nulhypothese: in 2000 was de gemiddelde leeftijd dezelfde als in 2020, namelijk 31 jaar, zodat \({{H}_{0}}:\ \mu=31\)
De standaardafwijking (\(\sigma\)) van de populatie is niet gekend zodat \(T=\dfrac{\bar{X}-31}{S/\sqrt{40}}\) de aangewezen teststatistiek is om onder de nulhypothese het populatiegemiddelde te bestuderen.
De steekproef is groot genoeg (\(n=40\)) zodat je voor de T-statistiek een t-verdeling met \(n-1 = 39\) vrijheidsgraden kan gebruiken.
De alternatieve hypothese wijst op een “éénzijdig linkse” toets en je werkt op het 5 % significantieniveau.
Bij een t‑verdeling met 39 vrijheidsgraden is het kritisch punt \(t\) waarvoor \(P\left(T \le t \right)=0.05\) gelijk aan -1.685.
De gezochte linkerstaart is ( -∞ , -1.685 ] . Dat is het verwerpingsgebied.
Beslissingsregel.
Trek de steekproef en bereken \(t=\dfrac{\bar{x}-31}{s/\sqrt{40}}\). Als deze t‑waarde in het verwerpingsgebied (- ∞, -1.685] valt, dan verwerp je de nulhypothese op het 5% significantieniveau . Je hebt dan “statistisch bewezen” dat je vermoeden juist was: vrouwen die in 2000 een kind kregen waren gemiddeld jonger dan 31 jaar.
Als de gevonden t‑waarde in het aanvaardingsgebied (-1.685 , ∞) terechtkomt, dan kan je de nulhypothese \({{H}_{0}}:\ \mu=31\) niet verwerpen. Dit is geen bewijs dat ze juist is.
10 Oplossing (oef 10)
Je hebt een model opgesteld om met toetsen van hypothesen de onderzoeksvraag in oef 9 aan te pakken. Voer dit onderzoek nu ook effectief uit en neem een beslissing. Laat je inspireren door wat je zopas geleerd hebt bij “De toets uitvoeren”.
- Gebruik trek_stkp.qmd met de juiste codes om de gewenste steekproef te vinden die je ook als een Excel bestand wegschrijft.
In trek_stkp.qmd gebruik je de codes:
gebj <- 2000,sx <- 9,n_stkp <- 40enbewaar <- 1.
Elke leerling trekt een eigen steekproef en vindt data die verschillen van de data van andere leerlingen.
De steekproef die in deze tekst gevonden werd zie je hieronder (de eerste 10 rijen).
- Ga op je laptop naar de xcl-folder en maak daar een kopie van het gecreëerde Excel bestand (te herkennen aan een cijfercombinatie die het huidige tijdstip aangeeft gevolgd door de extensie .xlsx) en noem die kopie mijndata.xlsx (waarbij je eventueel een oude “mijndata.xlsx” overschrijft). Kijk ook in welke kolom de steekproefgegevens staan die je nodig hebt voor dit onderzoek.
In kolom D (met de kolomnaam lft_m = leeftijd moeder) staan de data voor dit onderzoek.
- Om de t-waarde te vinden gebruik je th_gem.qmd met aangepaste codes.
Bij deze steekproef is t = -2.914.
- Trek het juiste besluit (en motiveer).
De gevonden t‑waarde (-2.914) valt in het verwerpingsgebied (- ∞, -1.685] en daarom verwerp je de nulhypothese op het 5% significantieniveau . Je hebt “statistisch bewezen” dat vrouwen die in 2000 een kind kregen gemiddeld jonger dan 31 jaar waren.
11 Oplossing (oef 11)
“Een grotere p-waarde wijst op een meer extreme t-waarde.” Is deze uitspraak juist? Motiveer je antwoord.
De uitspraak is fout. De steekproefresultaten leveren een t‑waarde die een extreem gebied afbakent (een rechterstaart bij rechts éénzijdig toetsen). De kans om in dat extreem gebied terecht te komen is de p‑waarde. Een grotere p‑waarde is dus een grotere kans en daarvoor heb je een groter (= niet zo extreem) gebied nodig en dus ook een niet zo extreme t‑waarde.
Altijd geldt: \(P\left( T\ge {{t}_{1}} \right)\ge P\left( T\ge {{t}_{2}} \right)\) voor \({{t}_{1}}\le {{t}_{2}}\).
Zoals Mila en Matteo heeft ook Manon een steekproef van grootte \(n=50\) uit die populatie getrokken. Zij wil dezelfde onderzoeksvraag beantwoorden maar zij heeft vooraf geen model opgesteld. Zij weet dus niet waar het verwerpingsgebied ligt. Haar statistisch pakket zegt alleen dat haar p‑waarde gelijk is aan 0.214. Kan Manon, zonder haar t-waarde te kennen en zonder te weten waar het verwerpingsgebied ligt, de onderzoeksvraag beantwoorden? Wat zou haar besluit dan zijn? Motiveer je antwoord.
In dit onderzoek toets je rechts éénzijdige op een 5 % significantieniveau. Het verwerpingsgebied is dus een rechterstaart waarin de teststatistiek T, onder de nulhypothese, met 5 % kans terechtkomt. Manon heeft een t‑waarde gevonden die een rechterstaart definieert waarin T met kans 21.4 % terechtkomt (dat is de betekenis van haar p‑waarde). Die staart is groter dan het verwerpingsgebied waarin T slechts met kans 5 % terechtkomt. De rechterstaart van Manon moet dus starten vanaf een t‑waarde die in het aanvaardingsgebied ligt. Daarom besluit Manon dat zij de nulhypothese niet kan verwerpen op het 5 % significantieniveau.
Bevestig het antwoord over Manon dat je zopas gegeven hebt. Haar steekproef staat op je laptop in kolom A van het Excel bestand steekproef_th&bi.xlsx in de xcl-folder. Maak eerst een kopie van dat Excel bestand en geef die kopie de naam mijndata.xlsx. Om de t-waarde te vinden gebruik je th_gem.qmd met aangepaste codes. Waar is Manon terechtgekomen? Bevestigt dit je antwoord van vorig punt?
Gebruik th_gem.qmd met codes:mu_nul <- 3100,alternatieve <- 1,
alpha <- 0.05,n_stkp <- 50,datatype <- 1,mijndatakolom <- "A",
gem_stkp <- NULL,stafw_stkp <- NULLentoon <- 1.
De data van Manon leveren een t-waarde (t = 0.8) die terechtkomt in het aanvaardingsgebied (- ∞, 1.677) . Het besluit dat de nulhypothese niet kan verworpen worden op het 5 % significantieniveau stemt overeen met het antwoord in vorig punt.
Om te weten of de t-waarde al dan niet in het verwerpingsgebied terechtkomt, moet je de t-waarde niet kennen en je moet ook niet weten waar het verwerpingsgebied ligt . Je kan hierop een antwoord geven als je de p-waarde kent (zie Note 6).
12 Oplossing (oef 12)
Specifieer het onderzoek dat Lucas met een hypothesetoets zal uitvoeren (op het 5 % significantieniveau). Begin met het kader van het onderzoek duidelijk aan te geven.
Volg het voorbeeld van de zwangerschapsduur en doorloop de puntjes 1 tot 4. Bij puntje 5 gebruik je th_gem.qmd met de data van Lucas en je motiveert (zowel met de gevonden t-waarde als op basis van de p-waarde) welke conclusie Lucas moet trekken.
- De populatie \(X\) is het gewicht van de zakjes kleine friet in de McDonald’s waar Lucas woont. De onderzochte karakteristiek is het gemiddeld gewicht \(\mu\) van die zakjes.
- De onderzoeksvraag gaat over de waarde van \(\mu\) geformuleerd als hypothesen:
- de nulhypothese: het gemiddeld gewicht is 80 g. \({{H}_{0}}:\ \mu=80\)
- de alternatieve hypothese: de nulhypothese is niet waar. \({{H}_{1}}:\ \mu \ne80\)
(er is niet gezegd dat Lucas vooraf denkt dat het gemiddeld gewicht groter of kleiner is, hij wil alleen onderzoeken of het 80 g is).
- de nulhypothese: het gemiddeld gewicht is 80 g. \({{H}_{0}}:\ \mu=80\)
- De standaardafwijking (\(\sigma\)) van de populatie is niet gekend zodat \(T=\dfrac{\bar{X}-80}{S/\sqrt{36}}\) de aangewezen teststatistiek is om onder de nulhypothese het populatiegemiddelde te bestuderen.
- De steekproef is groot genoeg (\(n=36\)) zodat je voor de T-statistiek een t-verdeling met \(n-1 = 35\) vrijheidsgraden kan gebruiken.
- De alternatieve wijst op een tweezijdige toets en de data staan in kolom F.
Gebruik th_gem.qmd met codes:mu_nul <- 80,alternatieve <- 3,
alpha <- 0.05,n_stkp <- 36,datatype <- 1,mijndatakolom <- "F",
gem_stkp <- NULL,stafw_stkp <- NULLentoon <- 1.
De p-waarde is groter dan het significantieniveau (want 9 % > 5 %).
De t-waarde (t = -1.746) komt terecht in het aanvaardingsgebied (-2.03 , 2.03).
Conclusie. Of Lucas zich nu baseert op de p-waarde of op de t-waarde, het besluit is hetzelfde: de hypothese dat een kleine friet in die McDonald’s gemiddeld 80 g weegt kan niet verworpen worden op het 5 % significantieniveau (zie ook Note 6).
13 Oplossing (oef 13)
In opl 12 heb je de studie van Lucas uitgevoerd. Geef aan wat je bij het opstellen van die toets moet veranderen om de nieuwe vraag van Lucas te beantwoorden (hij wil tonen dat hij te weinig friet krijgt).
Het opstellen van de toets is zoals vroeger behalve de alternatieve hypothese. Die wordt \({{H}_{1}}:\ \mu <80\) omdat Lucas wil aantonen dat het gemiddeld gewicht kleiner is dan 80 g.
Voer daarna die toets ook uit met zijn data (\(n=36\)). Gebruik th_gem.qmd met aangepaste codes. Wat is het besluit van deze toets?
Gebruik th_gem.qmd met codes: mu_nul <- 80, alternatieve <- 2,
alpha <- 0.05, n_stkp <- 36, datatype <- 1, mijndatakolom <- "F",
gem_stkp <- NULL, stafw_stkp <- NULL en toon <- 1.
- De p-waarde is kleiner dan het significantieniveau (want 4.5 % < 5 %).
- De t-waarde (-1.746) valt in het verwerpingsgebied ( -∞ , -1.69 ].
Elk van bovenstaande argumenten is voldoende om, op het 5 % significantieniveau, de nulhypothese te verwerpen en te besluiten dat er een “statistisch bewijs” is van de alternatieve hypothese: de zakjes friet wegen daar gemiddeld minder dan 80 g.
14 Oplossing (oef 14)
Gebruik th_gem.qmd met aangepaste codes om de “R software output” te tonen bij het onderzoek van Mila (geboortegewichten).De data van Mila staan in kolom C van steekproef_th&bi.xlsx (maak eerst een kopie naar mijndata.xlsx).
Gebruik th_gem.qmd met codes: mu_nul <- 3100, alternatieve <- 1,
alpha <- 0.05, n_stkp <- 50, datatype <- 1, mijndatakolom <- "C",
gem_stkp <- NULL, stafw_stkp <- NULL en toon <- 2.
Als je alleen de R output hebt en :
je laat t = 1.7709 weg, kan je dan een besluit trekken? Waarom?
Je kan een besluit trekken op basis van een vergelijking van de p‑waarde
met het 5 % significantieniveau (Note 6).
je laat p-value = 0.04139 weg, kan je dan een besluit trekken? Waarom?
Je kan geen besluit trekken omdat je niet weet waar het verwerpingsgebied ligt.
15 Oplossing (oef 15)
Controleer de tweede studie van Lucas. Wat is je besluit?
Gebruik th_gem.qmd voor “samengevatte data”.
In zijn tweede studie kan Lucas niet bewijzen dat die zakjes friet gemiddeld minder dan 80 g wegen. De t-waarde (-1.595) valt in het aanvaardingsgebied ( -1.699 , ∞ ).
De p-waarde (6.1 %) is groter dan het significantieniveau (5 %) (Note 6).
Nota. Naast de kengetallen van de steekproef (gemiddelde en standaardafwijking) speelt ook een derde getal een belangrijke rol: de steekproefgrootte. In zijn eerste studie werkte Lucas met 36 zakjes friet, zijn tweede studie is gebaseerd op 30 zakjes.
16 Oplossing (oef 16)
De bewering van de vroedvrouw dat de proportie baby’s met een laag geboortegewicht vroeger groter was dan 6 % wil je toetsen voor het jaar 2007. Je toetst op het 5 % significantieniveau en je werkt met een zo klein mogelijke steekproef die toch nog voldoet aan de vuistregel om de normale benadering te mogen toepassen.
Als de nulhypothese waar is, dan heeft de populatieproportie \(p\) de waarde \({p}_{0} = 0.06\) zodat gelijktijdig moet voldaan zijn aan (zie 6.4):
\(n\ \cdot 0.06\ge 15\to n\ge 250\) en \(n\ \cdot (1-0.06)\ge 15\to n\ge 15.96\).
Neem dus 250 als steekproefgrootte.
Gebruik th_prop.qmd met de juiste codes om het model voor deze toets op te stellen (je hebt daarvoor geen data nodig). Ga bij je antwoord stapsgewijs tewerk zoals in het voorbeeld over de proportie jongens bij de geboorte. Formuleer tenslotte de regel die zegt welke beslissing je zal nemen nadat je de data van de steekproef zal hebben.
De populatie \(X\) is hier het al dan niet hebben van een “laag” gewicht (< 2500 g) bij de geboorte met de code:
0 = heeft GEEN laag geboortegewicht en 1 = heeft WEL een laag geboortegewicht.
De onderzochte karakteristiek is de proportie baby’s met laag geboortegewicht in de populatie van baby’s geboren in 2007 in Vlaanderen.
De onderzoeksvraag gaat over de waarde van de populatieproportie \(p\) geformuleerd als hypothesen:
- de nulhypothese: in 2007 was de proportie baby’s met een laag geboortegewicht dezelfde als vandaag, namelijk 6 %, zodat \({{H}_{0}}:p=6\ \%\)
- de alternatieve hypothese: die proportie was in 2007 groter, dus \({{H}_{1}}:p > 6\ \%\)
- de nulhypothese: in 2007 was de proportie baby’s met een laag geboortegewicht dezelfde als vandaag, namelijk 6 %, zodat \({{H}_{0}}:p=6\ \%\)
Om de populatieproportie te bestuderen gebruik je onder de nulhypothese en bij een steekproef van grootte 250 de teststatistiek \(Z=\dfrac{\hat{P}-0.06}{\sqrt{0.06\cdot(1-0.06)}/\sqrt{250}}\).
De steekproefgrootte is zo bepaald dat de normale verdeling een goede benadering is van het kansmodel van de teststatistiek zodat je \(Z\sim N(0,1)\) kan gebruiken.
De alternatieve hypothese wijst op een “éénzijdig rechtse” toets en je werkt op het 5 % significantieniveau.
Bij een standaard normale is het kritisch punt gelijk aan 1.645 voor een rechterstaart op het 5 % significantieniveau. Dat herken je van vroeger, bij de studie van de normale verdeling.
Het gebied [ 1.645 , +∞ ) is het verwerpingsgebied.
Beslissingsregel.
Trek de steekproef en bereken \(z=\dfrac{\hat{p}-0.06}{\sqrt{0.06\cdot0.94}/\sqrt{250}}\). Als deze z‑waarde in het verwerpingsgebied [ 1.645 , +∞ ) valt, dan verwerp je de nulhypothese op het 5 % significantieniveau . Je hebt dan “statistisch bewezen” dat de uitspraak van de vroedvrouw juist is: in 2007 was de proportie baby’s met laag geboortegewicht groter dan 6 %.
Als de gevonden z‑waarde in het aanvaardingsgebied ( -∞ , 1.645 ) terechtkomt, dan kan je de nulhypothese \({{H}_{0}}:\ p=6\ \%\) niet verwerpen. Dat is geen bewijs dat ze juist is.
17 Oplossing (oef 17)
Je hebt een model opgesteld om met toetsen van hypothesen de onderzoeksvraag in oef 16 aan te pakken. Voer dit onderzoek nu ook effectief uit en neem een beslissing.
Gebruik trek_stkp.qmd met de juiste codes om de gewenste steekproef te vinden die je ook als een Excel bestand wegschrijft.
Ga op je laptop naar de xcl-folder, open het gecreëerde Excel bestand en transformeer de gewichten naar een 0 ‑ 1 veranderlijke die in kolom F terechtkomt. Volg de methode in Note 7. Maak dan een kopie met naam mijndata.xlsx.
Om de z-waarde te vinden gebruik je th_prop.qmd met aangepaste codes.
Trek het juiste besluit (en motiveer).
De gevonden z‑waarde (1.864) valt in het verwerpingsgebied [1.645 , ∞) en daarom verwerp je de nulhypothese op het 5% significantieniveau . De data leveren een “statistisch bewijs” dat in 2007 de proportie baby’s met een laag geboortegewicht groter was dan 6 %.
Je komt tot eenzelfde besluit door op te merken dat de p-waarde (3.11 %) kleiner is dan het significantieniveau (5 %) (Note 6).
18 Oplossing (oef 18)
Je hebt, met eigen data, een studie gemaakt van de proportie baby’s met laag geboortegewicht in het jaar 2007. Werk nu met de data die in deze tekst (opl 17) gevonden werden . Die data staan in kolom H van steekproef_th&bi.xlsx (maak eerst een kopie van steekproef_th&bi.xlsx naar mijndata.xlsx).
Gebruik th_prop.qmd met aangepaste codes en met code
toon <- 3.
Gebruik th_gem.qmd met codes:p_nul <- 0.06,alternatieve <- 1,
alpha <- 0.05,n_stkp <- 250,datatype <- 1,mijndatakolom <- "H",
prop_stkp <- NULLentoon <- 3.
Zowel bij de R software output als op de figuur zie je zelfde getallen staan, zoals 0.06 of 0.088. Bij de R output staat daar een notatie bij die je bij proporties niet verwacht. Zorg ervoor dat je begrijpt wat er bedoeld wordt.
De functie
z.test()bevatsigma.x = 0.237. Wat betekent hier sigma.x en welke notatie zou je hiervoor gebruiken en waar komt het getal 0.237 vandaan?
Metsigma.xwordt de standaardafwijking van de populatie bedoeld. De klassieke notatie is \(\sigma\) maar bij een 0 ‑ 1 populatie is de standaardafwijking \(\sqrt{p\cdot (1-p)}\). Onder de nulhypothese (\({{p}_{0}}=0.06\)) is de waarde van de standaardafwijking van de populatie gekend, namelijk \(\sqrt{{{p}_{0}}\cdot (1-{{p}_{0}})}=\sqrt{0.06\cdot 0.94}\cong 0.237\).
6 Appendix
6.1 Steekproefproduct
In de tekst “Steekproef, gemiddelde en proportie” (zie) heb je gewerkt met een paarse dobbelsteen als populatiemodel. Je hebt daar in oefening 5 een steekproef van grootte \(n=2\) bestudeerd en per steekproefresultaat heb je het gemiddelde berekend. Zo kon je het kansmodel voor het steekproefgemiddelde (bij een steekproef van grootte 2) bepalen.
Je hoeft geen steekproefgemiddelde te berekenen, je kan per steekproefresultaat ook eens het product maken. Zo krijg je een kansmodel dat antwoordt op de vraag: als ik een steekproef van grootte \(n=2\) zou trekken en het product maken, wat zou ik dan vinden?
Je start met een eenvoudige populatie. Je kan die voorstellen als lukraak trekken (met terugleggen) uit een doos met 5 identieke ballen (genummerd) . Als alternatief kan je denken aan een groene “eerlijke” twintigzijdige dobbelsteen waar je telkens op 4 zijvlakken de cijfers 1, 2, 3, 4 en 5 hebt geschreven.
Je kan hetzelfde populatiemodel ook voorstellen in een tabel.
Je kan nu bijna letterlijk nabootsen wat je in oefening 5 van “Steekproef, gemiddelde en proportie” hebt gedaan.
Je begint met het kansmodel \(({{X}_{1}},{{X}_{2}})\) van een steekproef van grootte 2. Bij elk resultaat bereken je ook het product dat je de naam \(y\) geeft, dus \(y={{x}_{1}}\times {{x}_{2}}\) .
De waarden van de steekproef zien eruit als \(({{x}_{1}},{{x}_{2}})\). Het zijn koppels en er zijn 25 verschillende uitkomsten mogelijk.
Elke uitkomst heeft kans 0.04 want twee keer (met terugleggen) een bal trekken of twee keer gooien met de groene dobbelsteen gebeurt onafhankelijk. Je kan hier dus de productregel toepassen.
Zo is \(P({{X}_{1}}=4\ ,\ {{X}_{2}}\ =1)\) =
\(P({{X}_{1}}=4)\ \cdot \ P({{X}_{2}}=1)\) =
\(0.2\ \cdot \ 0.2\) = \(0.04\).
Bij elke uitkomst zoals (4 , 1) kan je het product van de componenten maken zoals \(y=4\ \cdot \ 1=4\). Die producten hoeven niet uniek te zijn. In dit voorbeeld komt \(y=4\) drie keer voor zodat \(P(Y=4)=0.12\).
Het volledige kansmodel van het steekproefproduct \(Y\) zie je hieronder (tabel en staafdiagram). Herken je de laatste 3 rijen van de tabel?
6.2 Observeerbaarheid
Uiteindelijk wil je na het trekken van je steekproef niet terechtkomen op een uitdrukking waar nog een onbekende parameter in staat.
Een toets voor\(\mu\)
Een studie van het populatiegemiddelde \(\mu\) start met het steekproefgemiddelde \({\bar{X}}\).
Je hebt vroeger geleerd dat \(E(\bar{X})=\mu\) en dat \(se(\bar{X})=\dfrac{\sigma }{\sqrt{n}}\). Bovendien kan je het kansmodel van \({\bar{X}}\) benaderen met een normale verdeling wanneer de steekproef groot is (centrale limietstelling). Zo kom je terecht op \(Z=\dfrac{\bar{X}-\mu }{\sigma /\sqrt{n}}\) met kansmodel \(Z \sim N(\ 0\ , \ 1).\)
Met eigenschappen van de normale verdeling bepaal je “extreme” gebieden. Dan kijk je of jouw z-waarde, na het trekken van de steekproef, in zo’n gebied terechtkomt.
Als je een steekproefgemiddelde \(\bar{x}=3300\) vindt bij een steekproef van grootte \(n=30\) , hoeveel is dan jouw gevonden \(z=\dfrac{\bar{x}-\mu }{\sigma /\sqrt{n}}\)? Hoeveel is \(\dfrac{3300-\mu }{\sigma /\sqrt{30}}\) ?
Je hebt hier een probleem want je kent \(\mu\) en \(\sigma\) niet.
Bij een toets voor \(\mu\) start je met een nulhypothese \({{H}_{0}}:\mu ={{\mu}_{0}}\) . Je gelooft dat de nulhypothese waar is en dus onderstel je dat het populatiegemiddelde \(\mu\) echt gelijk is aan \({{\mu}_{0}}\). Als bv. \({{H}_{0}}:\mu =3100\) zodat \({{\mu}_{0}}=3100\) , dan is je \(z\)-waarde gelijk aan \(z=\dfrac{3300-3100}{\sigma /\sqrt{30}}\). Wat nu?
In teksten zie je soms 2 methoden voor het probleem van de ongekende \(\sigma\) . Voor de volledigheid bekijken we even beide.
a. Een theoretische en onrealistische oplossing.
Je kent de populatie niet en om iets over het gemiddelde \(\mu\) te weten, formuleer je er een hypothese over. Maar de standaardafwijking \(\sigma\) van die ongekende populatie ken je wel en je weet dat \(\sigma=340\).
Daarmee is je probleem opgelost. Je kijkt dan of jouw gevonden \(z\)-waarde, namelijk \(z=\dfrac{3300-3100}{340 /\sqrt{30}}=3.22\), al dan niet terechtkomt in een extreme staart van de standaard normale verdeling.
b. Werkwijze bij een klassiek statistisch onderzoek.
Er zijn eigenlijk geen realistische studies waar je vooraf de standaardafwijking \(\sigma\) van de populatie kent.
Om dit probleem op te lossen stap je over van een vaste en ongekende populatiewaarde \(\sigma\) op een “aan het toeval onderhevige” maar “observeerbare” steekproefgrootheid: \(S=\sqrt{\dfrac{1}{n-1}\sum{{{\left( {{X}_{i}}-\bar{X} \right)}^{2}}}}\). Je gebruikt de steekproef-standaardafwijking \(S\) om de populatie-standaardafwijking \(\sigma\) te schatten. Bemerk dat je in de formule het kansmodel \(S\) (hoofdletters) schrijft en niet een toevallige uitkomst \(s\) die je in jouw steekproef gevonden hebt. Inderdaad, je bent een “procedure” aan het opstellen die “vooraf” zegt wat je moet doen als je een steekproef zal trekken. Een gevonden \(s\)-waarde heb je op dit ogenblik niet.
Je bent nu op een nieuwe steekproefgrootheid terechtgekomen, genoteerd als \(T\). Onder de nulhypothese waarbij \(\mu={{\mu}_{0}}\) ziet \(T\) eruit als
\[T=\dfrac{\bar{X}-{{\mu}_{0}} }{S/\sqrt{n}}=\dfrac{\left( \dfrac{1}{n}\sum{{{X}_{i}}} \right)-{{\mu}_{0}} }{\sqrt{\dfrac{1}{n-1}\sum{{{\left( {{X}_{i}}-\bar{X} \right)}^{2}}}}/\sqrt{n}}\].
De expliciet uitgeschreven formule laat zien dat, onder de nulhypothese, de \(T\)-statistiek “observeerbaar” is. Hij is opgebouwd uit steekproefcomponenten \({X}_{i}\) samen met de gekende steekproefgrootte \(n\) en de veronderstelde \(\mu\)-waarde onder de nulhypothese.
6.3 Student t-verdeling
Voor de nieuwe steekproefgrootheid \(T=\dfrac{\bar{X}-{{\mu}_{0}} }{S/\sqrt{n}}\) geldt de klassieke vraag: wat zijn de waarden en de bijhorende kansen onder de nulhypothese \({{H}_{0}}:\mu ={{\mu}_{0}}\) ?
Het kansmodel van de T‑statistiek werd opgesteld door William Gosset (1876-1937) toen hij voor de Guinness brouwerij werkte. Wegens “fabrieksgeheim” mocht hij niet onder eigen naam publiceren en als pseudoniem koos hij dan maar “Student”.
Zo is de “Student t‑verdeling” of “t‑verdeling” de gangbare naam voor het kansmodel van de T‑statistiek geworden.
Een model dat zich gedraagt als een t‑verdeling noteer je met een (hoofdletter) T.
Eigenlijk zijn er een hele familie t‑verdelingen. Bij een steekproefgrootte \(n\) hoort een t‑verdeling met \(n-1\) vrijheidsgraden.
De notatie \(T\sim t(n-1)\) betekent dat T een t‑verdeling met (n–1) vrijheidsgraden heeft. De waarde die zo’n model aanneemt noteer je als t (kleine letter). Je spreekt dan over een gevonden t‑waarde.
De grafiek van een t‑verdeling lijkt heel goed op de grafiek van een standaard normale verdeling, maar bij een t‑verdeling zie je “dikkere staarten” (meer kans om in gebieden te vallen die wat verder weg van het centrum liggen).
Hiernaast zie je de dichtheidsfunctie van de standaard normale \(Z\sim N(0,1)\) en van de t‑verdeling met 4 vrijheidsgraden \(T\sim t(4)\).
Bij grotere steekproeven (en dus bij een groter aantal vrijheidsgraden) zijn t‑verdelingen zo goed als niet te onderscheiden van de standaard normale. Dat zie je op de figuur hiernaast voor t‑verdelingen met 1, 2, 4 en 9 vrijheidsgraden.
6.4 Vuistregel kansmodel
Toets voor een populatiegemiddelde \(\mu\)
Bij het opstellen van een toets voor \(\mu\) werk je met de steekproefgrootheid \(T=\dfrac{\bar{X}-{{\mu}_{0}} }{S/\sqrt{n}}.\) Die grootheid heeft een \(t\)‑verdeling met (n-1) vrijheidsgraden (\(T\sim t(n-1)\)) . Dat is waar als je werkt met een steekproef die getrokken is uit een populatie die zelf normaal verdeeld is. Je start dan vanuit een steekproef \(({{X}_{1}},\ {{X}_{2}}\ ,...\ {{X}_{n}})\) die bestaat uit onafhankelijke componenten die allemaal zelf normaal verdeeld zijn.
Wat doe je als je niet weet of de onderliggende populatie normaal is? Mag je dan nog de t‑verdeling gebruiken?
Uitgebreid onderzoek heeft aangetoond dat de voorgestelde manier van werken bij het toetsen voor \(\mu\) een robuuste procedure is. Daarmee bedoelt men dat je nog altijd voldoende nauwkeurige resultaten krijgt, zelfs wanneer de startvoorwaarde niet perfect voldaan is - zolang je een continue populatie hebt die van de normale verdeling “niet te veel” afwijkt.
Je mag de volgende vuistregels gebruiken en blijven werken met \(\dfrac{\bar{X}-{{\mu }_{0}}}{S/\sqrt{n}}\sim t(n-1)\)
- als de steekproef “voldoende groot” is zodat \(n\) ongeveer 30 is of meer
- bij kleinere steekproeven waarbij je tweezijdig toetst
- bij kleinere steekproeven waarbij je éénzijdig toetst en waarbij je mag onderstellen dat de onderliggende populatie “symmetrisch” is rond haar centrum.
Toets voor een populatieproportie \(p\)
Bij het opstellen van een toets voor \(p\) start je met de steekproefproportie \(\hat{P}\).
Het kansmodel van de steekproefproportie is discreet en in teksten statistiek (en in software) ontmoet je verschillende methoden voor “benaderende” kansmodellen.
Deze tekst beperkt zich tot situaties waarbij een normale benadering voldoende nauwkeurig is (centrale limietstelling). Je hebt vroeger als vuistregel geleerd dat het verwachte aantal successen en het verwachte aantal mislukkingen beide minstens gelijk moeten zijn aan 15.
Onder de nulhypothese waarbij \(p\) de waarde \({p_{0}}\) heeft, moet voldaan zijn aan:
\[\left\{ \begin{matrix} n\ {p_{0}} \ge 15 \\ n\ (1-{p_{0}} )\ge 15 \\\end{matrix} \right.\]