Betrouwbaarheidsintervallen
1 Vooraf
Bij betrouwbaarheidsintervallen doe je een uitspraak over een kenmerk van de populatie. In deze tekst is dat kenmerk het gemiddelde (𝞵) bij een continue populatie en de proportie (p) bij een discrete 0 - 1 populatie. Je maakt hierbij vooraf geen onderstellingen over dat kenmerk (dat doe je wel bij toetsen van hypothesen) maar je probeert iets te weten te komen door het kenmerk te “schatten”.
“Schatten” is een uitgebreide topic in de statistiek waarbij je nieuwe begrippen ontmoet.
Als voorbeeld kan je denken aan de lengte van meisjes die in Vlaanderen geboren worden. De populatie van die geboortelengtes kan goed benaderd worden door een normale verdeling met gemiddelde 50 en standaardafwijking 2 (alles in centimeter).
Vanuit deze achtergrond start je met een “theoretisch voorbeeld” waarbij je onderstelt dat de onderzochte populatie \(X\) exact normaal verdeeld is met gekende standaardafwijking \(\sigma = 2\) en waarbij je momenteel weet dat het bestudeerde populatiekenmerk (het gemiddelde \(\mu\) ) gelijk is aan 50 zodat \(X\sim N( 50 ,2 )\).
2 Schatten
2.1 Puntschatten
Om een idee te hebben over de gemiddelde geboortelengte van meisjes in Vlaanderen trek je, uit de populatie van de geboortelengtes, een steekproef van grootte \(n=16\) .
Wat ga je nu doen?
De vraag gaat over het gemiddelde \(\mu\) van de totale populatie. Het is logisch dat jij jouw steekproefgemiddelde \(\bar{x}\) gebruikt om dat populatiegemiddelde \(\mu\) te schatten. Je hebt \(\bar{x}=50.35\) gevonden en dus schat je dat \(\mu\) gelijk is aan 50.35. Dat is een terechte uitspraak op basis van de data die jij hebt. Wat zou je anders zeggen en hoe zou je dat dan verantwoorden?
Lisa, een medeleerling, heeft juist hetzelfde gedaan als jij. Met haar data vond zij \(\bar{x}=48.75\) . Zij schat dat \(\mu\) gelijk is aan 48.75. Inderdaad, dat is het beste wat Lisa kan doen, want andere informatie heeft zij niet.
Je weet dat het populatiegemiddelde \(\mu\) niet aan het toeval onderhevig is. Het is een vast getal, maar je kent het niet.
Als je de exacte waarde van \(\mu\) wil schatten (dat noemt men puntschatten) dan heb je een probleem. Zowel jij als Lisa hebben dezelfde methode gebruikt maar het resultaat is verschillend. Om te zien wat er aan de hand is kijk je naar het kansmodel van de gebruikte methode.
Op basis van een steekproef \(({{X}_{1}},\ {{X}_{2}}\ ,...\ {{X}_{n}})\) is er gekozen om te werken met de steekproefgrootheid \(\bar{X}=\dfrac{1}{n}\,\left({{X}_{1}}+{ {X}_{2}}\: +\:...\:+\:{{X}_{n}} \right)\). Bij verschillende steekproeven krijg je verschillende resultaten \(\bar{x}\) die nu eens groter en dan weer kleiner zijn dan het populatiegemiddelde \(\mu\) . Dat je met \(\bar{X}\) exact op (het ongekende maar vaste getal) \(\mu\) terechtkomt gebeurt (bij een continue verdeling) met kans nul: \(P(\bar{X}=\,\mu)\,=\ 0\) .
Anderzijds is de keuze om met \(\bar{X}\) te werken niet zo dom. Je weet dat, gemiddeld, het steekproefgemiddelde exact op het populatiegemiddelde valt want \(E(\bar{X})=\mu\) .
Voorbeeld
In fig 1 zie je wat er gebeurt bij puntschatten.
Je start met een populatie die normaal verdeeld is met gekende standaardafwijking \(\sigma = 2\) .De onderzoeksvraag gaat over het gemiddelde \(\mu\) van die populatie.
Je beslist om een steekproef van grootte \(n=16\) te trekken en te werken met het steekproefgemiddelde \(\bar{X}\) om het populatiegemiddelde \(\mu\) te schatten. Voor het kansmodel volgt uit Note 2 dat \(\bar{X}\sim N(\mu ,\dfrac{\sigma }{\sqrt{n}})\) waarbij \(\dfrac{\sigma }{\sqrt{n}}=\dfrac{2 }{\sqrt{16}}=0.5\).
Op de figuur is voor \(\mu\) de waarde 50 gekozen zodat je concreet ziet hoe het model werkt.
De bovenste helft van de figuur toont het gedrag van \(\bar{X}\) : een normale met gemiddelde \(\mu\) en standaardafwijking (standaardfout genoemd) gelijk aan 0.5.
Onderaan op de x-as staat centraal de waarde van \(\mu\) (50) met verdere ticks op tussenafstanden van 1 standaardfout (0.5).
Jij hebt de waarde \(\bar{x}=50.35\) gevonden en Lisa had \(\bar{x}= 48.75\). Die punten zie je op de onderste helft van fig 1.
Als meer en meer leerlingen hetzelfde model \(\bar{X}\) gebruiken dan verwacht je dat veel gevonden steekproefgemiddelden \(\bar{x}\) tussen 49.02 [= 50 - (1.96)(0.5)] en
50.98 [= 50 + (1.96)(0.5)] terechtkomen want (eigenschap normale - zie ook formule(1)):
als \(\bar{X}\sim N(50\ ,\ 0.5)\) dan \(P\left( 50-1.96\cdot 0.5)\,\le \,\, \bar{X}\le \,50+1.96\cdot 0.5 \right)=95\ \%\)
In fig 2 zie je resultaten voor de 17 leerlingen van je klas. In fig 3 is met 170 leerlingen gewerkt. De verticale groene lijnen liggen daar op een afstand van \(1.96\cdot standaardfout = 0.98\) van het populatiegemiddelde \(\mu\). Het steekproefgemiddelde van de meeste leerlingen is tussen die groene lijnen terechtgekomen.
Leerlingen hebben uiteraard bovenstaande figuren niet. Zij weten niet dat de werkelijke \(\mu\)-waarde gelijk is aan 50. Zij kunnen alleen maar zeggen: “mijn gevonden \(\bar{x}\)-waarde is mijn schatting voor \(\mu\)”. Zoiets zeg jij (die \(\bar{x}= 50.35\) gevonden hebt) met evenveel overtuiging als Lisa die \(\bar{x}= 48.75\) uitkwam. Terecht, want meer informatie is er uit een puntschatting niet te halen.
Je kan onderstaande code chunk gebruiken om, zoals de leerlingen uit die klas, het steekproefgemiddelde te berekenen bij een steekproef van grootte \(n=16\) uit een normaal verdeelde populatie met standaardafwijking \(\sigma = 2.\)
Met kopiëren en plakken (zie) breng je de code chunk over naar “mijnwerkblad.qmd”.
```{r}
# dit programma berekent het gemiddelde van een lukrake steekproef van grootte 16, getrokken uit een normale populatie met gekende standaardafwijking 2.
# onderstel (bij de oefeningen) dat je niet weet dat het gemiddelde 50 is.
# Klik op de groene pijl voor het resultaat.
# de commando's die hieronder staan moet je niet wijzigen
stkp_gem <- as.character(round(mean(rnorm(16, 50, 2)), 2))
cat(paste0("gevonden steekproefgemiddelde = ", stkp_gem))
```
1 Oefening (opl 1)
Ga ervanuit dat je mag onderstellen dat de populatie van geboortelengtes van meisjes normaal verdeeld is met standaardafwijking \(\sigma = 2.\) Noor en Kasper willen weten wat de gemiddelde geboortelengte van de hele populatie is en zij beslissen om te werken met “puntschatten”.
- Noor trekt een steekproef van grootte 16 en berekent het gemiddelde . Welke uitkomst vindt zij (gebruik de code chunk in je werkblad) ? Formuleer in woorden en met de juiste notatie een uitspraak over het populatiegemiddelde. Op welk onderliggend model is die uitspraak gebaseerd. Hoe noteer je dat model en wat is haar kansverdeling?
- Kasper herhaalt wat Noor zopas deed (gebruik een tweede keer de code chunk in je werkblad). Wat is de uitkomst van Kasper? Welke uitspraak doet hij over het populatiegemiddelde?
- Wie heeft “de beste uitspraak” over het populatiegemiddelde gedaan, Noor of Kasper? Hoe weet je dat?
Bij een puntschatting kan je niet aangeven hoever de gevonden \(\bar{x}\)-waarde naast de gezochte \(\mu\) is terechtgekomen. Je kan ook geen gebieden construeren die, met een door jou bepaalde kans, de gezochte \(\mu\) bevatten.
Daarom stap je over van puntschatten op intervalschatten.
2.2 Intervalschatten
Ook bij intervalschatten start je vanuit het theoretisch voorbeeld. Je denkt daarbij aan geboortelengtes en je onderstelt dat die lengtes normaal verdeeld zijn met gekende standaardafwijking zodat \(X\sim N(\mu ,2)\).
Bij een studie van het populatiegemiddelde \(\mu\) gebruik je het steekproefgemiddelde \(\bar{X}\).
Je weet (Note 2) dat hier \(\bar{X}\) normaal verdeeld is : \(\bar{X}\sim N(\mu ,\dfrac{\sigma }{\sqrt{n}})\:\:voor\:alle\:n\).
Vroeger heb je geleerd dat elke normale met 95 % kans niet verder van zijn gemiddelde valt dan 1.96 standaardafwijkingen.
Voor het normaal verdeelde steekproefgemiddelde \(\bar{X}\), waar de standaardafwijking de naam standaardfout heeft (genoteerd als \(se(\bar{X} )\)) , kan je deze eigenschap schrijven als:
\[P\left( \mu -1.96\ se(\bar{X} )\le \bar{X}\le \ \mu +1.96\ se(\bar{X} ) \right)=0.95\] wat hetzelfde is als
\[P\left( \mu -1.96\ \dfrac{\sigma }{\sqrt{n}}\le \bar{X}\le \ \mu +1.96\ \dfrac{\sigma }{\sqrt{n}} \right)=0.95 \tag{1}\] Bovenstaande kansuitspraak zegt dat \(\bar{X}\) met kans 95 % in het interval \([\mu -1.96\ \dfrac{\sigma }{\sqrt{n}} \ , \ \mu +1.96\ \dfrac{\sigma }{\sqrt{n}}]\) terechtkomt, of korter:
In dit voorbeeld, met \(n=16\) en \(\sigma=2\) komt \(\bar{X}\) met 95 % kans terecht in \(\mu \ \pm \ 0.98\)
Wiskundig is het niet moeilijk om te zien dat (2) hetzelfde is als (1)
\[P\left( \bar{X}-1.96\ \dfrac{\sigma }{\sqrt{n}}\le \mu \le \ \bar{X}+1.96\ \dfrac{\sigma }{\sqrt{n}} \right)=0.95 \tag{2}\] en zoals bij formule (1) kan je ook hier de kansuitspraak formuleren in woorden.
2 Oefening (opl 2)
Formuleer uitdrukking (2) in woorden en herformuleer daarna die kansuitspraak voor het concrete voorbeeld met \(n=16\) en \(\sigma=2\).
Zowel in formule (1) als in (2) zie je kansuitspraken waar binnen de haakjes een interval staat. Om te zien wat er echt gebeurt, kijk je naar 1 toevallige realisatie van wat er in die kansuitspraken gezegd wordt. Je trekt een steekproef van grootte \(n = 16\) en je berekent je steekproefgemiddelde: \(\bar{x} = 50.35\).
Op fig 4 zie je het onderliggend model samen met jouw concreet resultaat.
De bovenste helft van fig 4 toont het kansmodel voor het steekproefgemiddelde \(\bar{X}\). Boven het blauwe lijnstuk zie je een oppervlakte van 95 %. Dat is een grafische voorstelling van formule (1) die zegt dat \(\bar{X}\) met 95 % kans terechtkomt in \(\mu \ \pm \ 1.96\ \dfrac{\sigma }{\sqrt{n}}\) wat hier gelijk is aan \(50 \ \pm \ 1.96\ \dfrac{2 }{\sqrt{16}}\) of \(50 \ \pm \ 0.98\).
Jij bent met je \(\bar{x} = 50.35\) inderdaad terechtgekomen in \(\left[ \,49.02\ ,\ 50.98\, \right]\) , maar het had ook ergens anders kunnen zijn.
De onderste helft van fig 4 toont jouw realisatie van wat er in formule (2) staat. Daar ontmoet je \(\bar{X} \ \pm \ 1.96\ \dfrac{\sigma }{\sqrt{n}}\) wat gelijk is aan \(\bar{X} \ \pm \ 0.98\). Jij hebt \(\bar{x} = 50.35\) gevonden zodat je terechtkomt op het interval \(50.35 \ \pm \ 0.98\). Jouw interval \(\left[ \,49.37\ ,\ 51.33\, \right]\) is voorgesteld met het groene lijnstuk, maar je had met je interval ook ergens anders kunnen terechtkomen.
In fig 5 zie je twee keer hetzelfde: links staat jouw concreet resultaat, rechts staat dezelfde figuur in een meer algemene notatie.
Foutenmarge
In fig 5 is het gevonden interval gelijk aan \(50.35 \ \pm \ 0.98\) of \(\bar{x} \ \pm \ 1.96\ se(\bar{X})\). De grootheid die na het \(\pm\) teken staat heeft de naam “foutenmarge”.
In deze theoretische studie (met gekende standaardafwijking \(\sigma\) ) is de foutenmarge gelijk aan “een aantal keer” de standaardfout \(se(\bar{X})\). Bij kansmodellen waarbij je intervallen genereert die met 95 % kans het populatiegemiddelde \(\mu\) bevatten, is dat “aantal keer” gelijk aan 1.96. Hier is de foutenmarge dus gelijk aan \(1.96\ se(\bar{X}).\)
Je krijgt intervallen met een foutenmarge van “1.645 keer de standaardfout” (dus \(\bar{x} \ \pm \ 1.645\ se(\bar{X})\) ) als je een model maakt dat intervallen genereert die met 90 % kans \(\mu\) bevatten. De getallen 1.645 en 1.96 herken je uit de studie van de normale verdeling.
In de praktijk ken je \(\sigma\) niet en dan moet je werken met een schatter voor de standaardfout \(se(\bar{X})\) samen met een aangepaste verdeling. Dat komt later aan bod.
Lisa heeft, zoals jij, uit diezelfde populatie van geboortelengtes een steekproef van grootte \(n=16\) getrokken. Zij heeft dan hetzelfde model gebruikt maar zij vond (zoals te verwachten) een ander interval (haar gemiddelde was \(\bar{x} = 48.75\)).
Haar resultaat heeft zij aan jouw figuur toegevoegd, in het rood.
fig 6 illustreert (vanuit dit theoretisch voorbeeld) de basisideeën van betrouwbaarheidsintervallen.
Hier werkt dit als volgt (met populatiegemiddelde \(\mu = 50\)):
- als je (zoals groen) een steekproefgemiddelde \(\bar{x}\) vindt dat in het blauwe interval \(\mu \ \pm \ 0.98\). terechtkomt (en dat gebeurt met kans 95 %), en je maakt rond \(\bar{x}\) een interval van de vorm \(\bar{x} \ \pm \ 0.98\) dan bevat dat interval het populatie gemiddelde \(\mu\).
- als je (zoals rood) een steekproefgemiddelde \(\bar{x}\) vindt dat niet in het blauwe interval \(\mu \ \pm \ 0.98\). terechtkomt (en dat gebeurt met kans 5 %), en je maakt rond \(\bar{x}\) een interval van de vorm \(\bar{x} \ \pm \ 0.98\) dan bevat dat interval het populatie gemiddelde \(\mu\) niet.
Zowel groen als rood zijn toevallige realisaties van eenzelfde onderliggend kansmodel dat intervallen genereert. De toevallige realisaties hebben de vorm \(\bar{x} \ \pm \ 0.98\) . Het onderliggende kansmodel schrijf je met hoofdletter: \(\bar{X} \ \pm \ 0.98\).
Denk goed na over dit kansmodel want het is de eerste keer in je leven dat je zoiets ontmoet. Je hebt al geleerd over kansmodellen die zeggen waar getallen met welke kans terechtkomen. Nu heb je een model dat zegt hoe je intervallen moet construeren om met een bepaalde kans een populatieparameter te pakken te krijgen.
3 Oefening (opl 3)
In opl 2 is de formulering van \(P\left( \bar{X}-1.96\ \dfrac{\sigma }{\sqrt{n}}\le \mu \le \ \bar{X}+1.96\ \dfrac{\sigma }{\sqrt{n}} \right)=0.95\) fout. Leg uit waarom die formulering fout is. Geef dan een correcte formulering.
3 Betrouwbaarheidsinterval
3.1 Kansmodel
3.1.1 Een model
In opl 3 vond je dat \([\ \bar{X} - 0.98 \ , \ \bar{X} + 0.98\ ]\) een kansmodel is dat intervallen naar jou stuurt waarvan er (in the long run) 95 op 100 het populatiegemiddelde \(\mu\) bevatten.
In een meer algemene notatie schrijf je zo’n kansmodel als
\[[ \ \bar{X}-1.96\ \dfrac{\sigma }{\sqrt{n}} \ , \ \bar{X}+1.96\ \dfrac{\sigma }{\sqrt{n}} \ ] \tag{3}\]
Met het R-programma bi_theor.qmd genereer je “uitkomsten” van (3). Dat zijn intervallen die na het trekken van de steekproef geen enkele onbekende grootheid meer bevatten. Zij zijn van de vorm \[[ \ \bar{x}-1.96\ \dfrac{\sigma }{\sqrt{n}} \ , \ \bar{x}+1.96\ \dfrac{\sigma }{\sqrt{n}} \ ] \tag{4}\]
De naam van het programma bi_theor.qmd verwijst naar het theoretisch voorbeeld waar de bestudeerde populatie normaal verdeeld is met gekende standaardafwijking \(\sigma\).
LET OP. Om duidelijke grafieken te kunnen tekenen past bi_theor.qmd de schaalverdeling aan. Twee verschillende grafieken kan je dus niet zomaar op zicht vergelijken, je moet ook telkens goed naar de schaalverdeling op de assen kijken.
Hieronder zie je de structuur van bi_theor.qmd samen met uitleg over de codes.
Je start met de te onderzoeken normale populatie en je vraagt je af wat er zou gebeuren als het gemiddelde gelijk zou zijn aan 50. Bovendien geef je de gekende standaardafwijking in. Zo heb je al de codes
mu <- 50 , sigma <- 2.
Je beslist dat je uit die populatie een steekproef van grootte 16 zal trekken en dat je wil werken met een kansmodel dat intervallen genereert die 95 % kans hebben om het populatiegemiddelde te omsluiten. Dat noteer je met de codes
n_stkp <- 16 , betr_niveau <- 0.95.
Als de 17 leerlingen van je klas allemaal hetzelfde doen en je toont die resultaten op dezelfde figuur, dan zeg je dat het aantal te construeren betrouwbaarheidsintervallen gelijk is aan 17. Als start begin je met het ene interval dat jij nu opstelt en daarom gebruik je de code
bi_aantal <- 1.
Naast de grafische voorstelling van je interval toont het programma ook een tabel met getalwaarden (beginpunt, midden en eindpunt van het gevonden interval). Bij een simulatie met grotere groepen (zoals 170 leerlingen) wil je geen ellenlange tabel maar bijvoorbeeld hoogstens de eerste 10 resultaten. Dat geef je aan in de code
aantal_noteren_in_tabel <- 10.
Met toon <- .... toon je ofwel de grafiek ofwel de tabel ofwel beide.
Als resultaat krijg je:
4 Oefening (opl 4)
Werk in viewer pane (zie 8.1).
- Gebruik bi_theor.qmd om intervallen te genereren die met 95 % kans het gemiddelde \(\mu\) bevatten van een normale populatie met standaardafwijking \(\sigma = 2\). Onderstel dat het echte gemiddelde van die populatie gelijk is aan 50. Jij beslist om met een steekproef van grootte \(n=16\) te werken. Vul de juiste codes in en toon je betrouwbaarheidsinterval, zowel grafisch als numeriek.
- Verander niets aan de codes van het programma. Klik op de “Render”-knop, en dan nog eens en nog eens. Krijg je, met 3 keer identieke codes, ook 3 identieke intervallen? Hoe komt dat? En hoe veranderen de foutenmarges? Wat betekent dat voor de lengte van die 3 intervallen? Leg uit.
3.1.2 Betrouwbaarheidsniveau
Een betrouwbaarheidsniveau van 95 % betekent dat je werkt met een model dat intervallen genereert die met 95 % kans de gezochte populatieparameter bevatten.
Vanuit het kansbegrip als “relatieve frequentie bij heel veel (oneindig veel) herhalingen” kan je, met simulaties, die “95 % kans” illustreren. Dat doe je in de volgende oefening.
5 Oefening (opl 5)
Gebruik bi_theor.qmd en werk in viewer pane (zie 8.1).
- In oef 4 heb je ontdekt dat het kansmodel (3) intervallen genereert die nu eens hier en dan weer daar terechtkomen. Je kan dat iets uitgebreider illustreren door de betrouwbaarheidsintervallen van de 17 leerlingen van je klas op eenzelfde grafiek te tonen. Gebruik de codes van oef 4 waarbij je
bi_aantal <- 17invult.
Het kan verhelderend zijn om meerdere keren op de “Render”-knop te klikken. De variabiliteit is duidelijk, maar 17 leerlingen is niet genoeg om systematisch intervallen te vinden waarvan er “ongeveer 95 %” het populatiegemiddelde \(\mu\) omsluiten.
- Om die 95 % kans beter zichtbaar te maken werk je met 170 leerlingen en dus met code
bi_aantal <- 170. Wat zie je nu als je meerdere keren op de “Render”-knop klikt? En wat gebeurt er bij 1700 leerlingen?
3.1.3 Precisie
Waarom maak je een model dat intervallen genereert die met 95 % kans het gezochte populatiegemiddelde \(\mu\) bevatten (en dus met 5 % kans \(\mu\) missen)?
Waarom maak je geen model waarbij intervallen met 100 % kans \(\mu\) te pakken hebben? Waarom werk je niet met een 100 % betrouwbaarheidsniveau?
Moeilijk is dat niet en veel statistiek moet je daar niet voor kennen:
( - ∞ , + ∞ ) is een interval dat \(\mu\) met zekerheid bevat. Maar wat heb je daar nu aan?
Bij toetsen van hypothesen heb je dat ook gezien: een model dat totale zekerheid biedt, is meestal ook totaal nutteloos.
Als je iets over de waarde van \(\mu\) wil weten, dan heb je aan een lang interval niet zo veel. Een korter interval geeft meer preciese informatie en dus is het interessant om de foutenmarge klein te houden.
3.2 Voor niets gaat de zon op
Denk eraan dat je hier werkt in de theoretische onderstelling dat de populatie normaal verdeeld is met een vaste en gekende standaardafwijking \(\sigma = 2\).
3.2.1 Basisgrootheden
Het kansmodel voor een betrouwbaarheidsinterval voor \(\mu\) staat in formule (3). Dat is een model bij een 95 % betrouwbaarheidsniveau. In het algemeen heb je :
In fig 9 is \(z\) het kritisch punt van een standaard normale verdeling. Bij een betrouwbaarheid van 95 % (gebaseerd op formule 1) kijk je naar een linkerstaart waar je met 97.5 % kans in terechtkomt. Het kritisch punt is dan gelijk aan 1.96. Wil je werken met een betrouwbaarheid van 90 % dan is \(z = 1.645\) en bij 99 % neem je \(z = 2.58\).
Aangezien \(\sigma\) gekend is, is de foutenmarge (hier afgekort als \(fm\)) een vaste (niet aan het toeval onderhevige) grootheid: \[fm=\ z\cdot \dfrac{\sigma }{\sqrt{n}} \tag{5}\] die hier (met \(\sigma = 2\)) gelijk is aan \(fm=\ z\cdot \dfrac{2}{\sqrt{n}}\).
Bij het kansmodel (fig 9) zijn er 3 basisgrootheden waaraan je zelf eisen kan opleggen: de betrouwbaarheid, de foutenmarge en de steekproefgrootte.
Hoe de drie basisgrootheden op elkaar inwerken, bekijk je hieronder op voorbeelden.
3.2.2 Wisselwerkingen
Meer precieze informatie krijg je uit een korter interval. Daarvoor heb je een kleinere foutenmarge nodig. Die krijg je niet gratis. Ofwel moet je daarvoor inboeten op de betrouwbaarheid, ofwel heb je meer observaties nodig. Alles heeft zijn prijs.
Het betrouwbaarheidsniveau wijzigen bij een vaste steekproefgrootte
Tot nu toe is er altijd gewerkt met een betrouwbaarheidsniveau van 95 %. Dat is een klassiek niveau dat je zeer regelmatig ontmoet. Maar niets houdt je tegen om eens een ander betrouwbaarheidsniveau te kiezen.
Als je de steekproefgrootte niet wil wijzigen maar je wil wel een grotere betrouwbaarheid, wat verwacht je dan van de foutenmarge? Dat zie je in de volgende oefening.
6 Oefening (opl 6)
- Antwoord eerst op de volgende vraag zonder bi_theor.qmd te gebruiken.
In oef 4 heb je jouw betrouwbaarheidsinterval opgesteld. Jij hebt daar gewerkt met een steekproef van grootte \(n=16\) en een betrouwbaarheid van 95 %. Als je nu overstapt op een betrouwbaarheid van 99 % en al de rest ongewijzigd laat, krijg je dan een interval dat even precies is als in oef 4? Hoe groot was toen de foutenmarge en hoe groot zal die nu zijn? Motiveer je antwoord. - Activeer daarna bi_theor.qmd en werk in viewer pane (zie 8.1). Gebruik dezelfde codes als in fig 7. Werk eerst met
betr_niveau <- 0.95en daarna metbetr_niveau <- 0.99. Bevestigt het resultaat jouw antwoord van zopas? - Werk vervolgens met
betr_niveau <- 0.90en dan metbetr_niveau <- 0.80. Noteer telkens de foutenmarge.
Welk patroon voor de foutenmarge ontdek je als je bij een vaste steekproefgrootte wil werken met een grotere of een kleinere betrouwbaarheid?
De steekproefgrootte wijzigen bij een vast betrouwbaarheidsniveau
In oef 6 heb je gezien dat je de foutenmarge kan verkleinen als je bereid bent om ook het betrouwbaarheidsniveau te verkleinen. Het kan ook anders, als je aan de klassieke 95 % betrouwbaarheid wil vasthouden. Dat ontdek je in de volgende oefening.
7 Oefening (opl 7)
- Antwoord eerst op de volgende vraag zonder bi_theor.qmd te gebruiken.
In oef 4 heb je jouw betrouwbaarheidsinterval opgesteld. Jij hebt daar gewerkt met een steekproef van grootte \(n=16\) en een betrouwbaarheid van 95 %. De foutenmarge was daar gelijk aan 0.98. Als je nu werkt met een steekproef van grootte \(n=25\) en al de rest ongewijzigd laat, krijg je dan dezelfde foutenmarge als in oef 4? Hoe groot is nu die foutenmarge? Motiveer je antwoord.
- Gebruik nu bi_theor.qmd en werk in viewer pane (zie 8.1). Gebruik dezelfde codes als in fig 7 maar verander
toon <- 3intoon <- 2want meer heb je niet nodig om te weten hoe groot de foutenmarge is.
Noteer nu, bij een vast betrouwbaarheidsniveau van 95 %, de waarde van de foutenmarge bij verschillende steekproefgroottes:n_stkp <- 5,n_stkp <- 16,n_stkp <- 25,n_stkp <- 10000.
Welk patroon voor de precisie van je betrouwbaarheidsinterval ontdek je als je bij een vaste betrouwbaarheid werkt met een grotere of kleinere steekproef?
Overzicht wisselwerking
In fig 10 staan, per kolom, situaties die je zopas hebt bestudeerd.
Kolom A zegt:
als je de steekproefgrootte niet wil veranderen en je wil toch een grotere betrouwbaarheid, dan vergroot de foutenmarge en krijg je een minder precies interval.
8 Oefening (opl 8)
Schrijf nu ook voluit wat kolommen B en C zeggen.
3.2.3 Vereiste steekproef
Bij het opstellen van een betrouwbaarheidsinterval kijk je ook naar de context van het onderzoek. Die context bepaalt welke betrouwbaarheid en welke precisie zinvol is.
- Kan je werken op het klassieke 95 % betrouwbaarheidsniveau of moet je overschakelen op 99 % betrouwbaarheid?
- Is een foutenmarge van 4 zinvol? Of moet je 1 nemen of 0.01 ?
En dan komt de cruciale vraag:
welke prijs moet je hiervoor betalen? Hoe groot moet de steekproef zijn?
“In theorie” is het niet moeilijk om voldoende data te verzamelen: druk op de juiste knop van een computerprogramma.
“In de praktijk” gaat het anders. Bij klinische studies bijvoorbeeld (in de zoektocht naar geneesmiddelen / vaccins …) kan de opbouw van een vereiste steekproef jaren en miljoenen vergen. Daarvoor heb je patiënten, medisch personeel, ziekenhuizen, internationale samenwerking… nodig.
In het “theoretisch” voorbeeld over de geboortelengte van meisjes waarbij je onderstelt dat de populatie normaal verdeeld is met gekende standaardafwijking \(\sigma=2\) kan je gewoon formule (5) gebruiken. Doe dat in de volgende oefening waarbij je de onderstaande code chunk gebruikt.
Met kopiëren en plakken (zie) breng je de code chunk over naar “mijnwerkblad.qmd”.
```{r}
# voor het gemiddelde 𝝁 van een normale populatie met 𝜎=2 berekent dit programma de vereiste steekproefgrootte om een betrouwbaarheidsinterval op te stellen met een gegeven betrouwbaarheid en een gegeven foutenmarge
# vul in: vereist betrouwbaarheidsniveau (decimale notatie)
betr_niveau <- 0.95
# vul in: vereiste foutenmarge
fm <- 1
# Klik op de groene pijl voor het resultaat.
# de commando's die hieronder staan moet je niet wijzigen
n <- ceiling((2*qnorm((1+betr_niveau)/2)/fm)**2)
cat(paste0("vereiste steekproefgrootte (naar boven afgerond) n = ", n))
```
9 Oefening (opl 9)
- Bepaal de vereiste steekproefgrootte als je eist dat jouw betrouwbaarheidsinterval een 95 % betrouwbaarheid moet hebben en een foutenmarge van respectievelijk: (a) \(fm=4\) , (b) \(fm=1\) , (c) \(fm=0.5\)
- Bepaal de vereiste steekproefgrootte als je eist dat jouw betrouwbaarheidsinterval een 99 % betrouwbaarheid moet hebben en een foutenmarge van respectievelijk: (a) \(fm=2\) , (b) \(fm=1\) , (c) \(fm=0.01\)
3.3 Betrouwbaarheid is…
In de verklarende statistiek stel je een model op en daarna gebruik je dat model. Dat is zo bij toetsen van hypothesen en dat is ook zo bij betrouwbaarheidsintervallen.
Om goed het verschil te zien tussen “het kansmodel voor betrouwbaarheidsintervallen” en “jouw gevonden betrouwbaarheidsinterval”, maken we een vergelijking met een rad van fortuin.
3.3.1 Rad van fortuin
De quizmaster weet dat het onderzoek gaat over het gemiddelde \(\mu\) van de populatie. Hij kent ook alle randvoorwaarden van het experiment zodat hij op een juiste manier intervallen kan maken.
Jij mag aan de quizmaster vragen om het rad van fortuin in een aantal gelijke sectoren te verdelen (bijvoorbeeld in 100 sectoren) en om in elke sector een kaartje te hangen waarop een interval geschreven staat.
Jij mag ook bepalen hoeveel kaartjes het echte populatiegemiddelde \(\mu\) moeten bevatten. Als jij graag 95 kaartjes hebt met intervallen die \(\mu\) bevatten dan moet je dat zeggen tegen de quizmaster. Die maakt dan 100 kaartjes, 95 “goede” en 5 “slechte”, en hangt die in willekeurige volgorde in die 100 sectoren. Hij vertelt je niet welke de “goede” en welke de “slechte” kaartjes zijn. Daarna verdwijnt hij … voorgoed.
Nu ben jij aan de beurt.
VOORALEER je aan het rad draait kan je zeggen dat je een kans van 95 % hebt om een interval te vinden dat \(\mu\) bevat. Inderdaad, op 95 van de 100 kaartjes heeft de quizmaster een “goed” interval geschreven en op de andere 5 kaartjes een “slecht”.
Dan draai je aan het rad en na een tijdje stopt het bij één bepaalde sector. Het kaartje dat in die sector hangt moet jij nemen. Dat is jouw betrouwbaarheidsinterval.
Wat zeg je nu, NADAT je aan het rad gedraaid hebt en jouw kaartje genomen? Jij staat daar nu met dat kaartje in je hand. Op dat kaartje staat het beginpunt en het eindpunt van één interval.
Wat de echte \(\mu\) is weet je niet. Je zal die ook nooit kennen want alleen de quizmaster kende die en hij is verdwenen. Wat je (hopelijk) wel weet is dat het populatiegemiddelde \(\mu\) een vast getal is, niet observeerbaar maar helemaal niet aan het toeval onderhevig.
Op het kaartje dat jij getrokken hebt staat één interval. Dat is een vast interval. Dat interval bevat de vaste \(\mu\) wel of het bevat de vaste \(\mu\) niet.
Het enige waarover je nu beschikt zijn vaste (gekende of niet gekende) grootheden. Over dingen die vast zijn kan je geen kansuitspraak doen. Als de feiten al gebeurd zijn, dan kan je alleen maar zeggen: ” ’t is gebeurd”.
Je hebt nu een zogenaamd 95 % betrouwbaarheidsinterval en wat je daar met 100 % zekerheid over weet is dat het ofwel “goed” is ofwel “slecht”. Frustrerend?
3.3.2 Aannemelijkheid
In elke taal zoekt men naar een goed woord om uit te leggen wat er gebeurt als je een betrouwbaarheidsinterval opstelt.
In het Engels spreekt men over een 95 % “confidence interval”.
Leerling Lucy leert in de USA dat zij moet zeggen: “op basis van mijn steekproef kan ik 95 % confident zijn dat de gemiddelde geboortelengte van meisjes (in cm) ligt tussen 49.37 en 51.33”. Of ze zou ook mogen zeggen: “ik heb 95 % confidence dat het interval [ 49.37 ; 51.33 ] de gemiddelde geboortelengte van meisjes te pakken heeft”.
Op het centrale examen voor statistiek (in de USA) gebruiken veel leerlingen inderdaad één van beide zinnen als er een vraag is over betrouwbaarheidsintervallen. Zij schrijven zo’n zin letterlijk op, op zo’n manier dat je het gevoel krijgt dat ze die zin van buiten geleerd hebben. Misschien komt dit omdat zij niet weten wat er nu juist met het woord confidence bedoeld wordt in de context van betrouwbaarheidsintervallen. In hun dagelijkse spreektaal komt “I have 95 % confidence that…” niet voor.
Ook in het Nederlands is het een probleem.
Zeggen dat je een interval hebt gevonden dat met 95% betrouwbaarheid (en dus NIET “met 95 % kans”) het populatiegemiddelde \(\mu\) bevat blijft een moeilijke uitspraak. De analogie met een rad van fortuin kan je daarbij helpen.
Het begrip “95 % betrouwbaarheid” bestaat uit 2 delen: “95 %” en “betrouwbaarheid”.
1. De “95 %” verwijst naar het model waarmee je gewerkt hebt, of naar het rad van fortuin, waarbij je er VOORAF zelf hebt voor gezorgd dat je 95 % kans hebt op een “goed” interval.
2. Het woord “betrouwbaarheid” verwijst ernaar dat je met dat rad van fortuin al gespeeld hebt. ACHTERAF zit je daar met jouw interval. Het kan een “goed” of een “slecht” zijn.
Wat doe je daarna?
Vanaf nu werk je met wat volgens jou “aannemelijke waarden” zijn: waarden waar je vertrouwen (= confidence) in hebt. Dat zijn de waarden die jij in jouw interval hebt gevonden. Iets anders heb je niet. Zekerheid ook niet.
4 Theorie en praktijk
Een eerste kennismaking met betrouwbaarheidsintervallen heb je zopas doorlopen.
- Je begrijpt het kansmodel dat betrouwbaarheidsintervallen genereert.(fig 9)
- Je kent de basisgrootheden en hun onderlinge wisselwerking. (fig 10)
- Je weet hoe je van “model” naar “uitkomst” gaat en je kan daarbij “betrouwbaarheid” en “aannemelijke waarden” correct gebruiken.(Note 4)
Alles wat je tot nu toe geleerd hebt, was in het kader van een “theoretisch voorbeeld”.
- Het grote voordeel van deze aanpak is dat je je volledig kan concentreren op de onderliggende begrippen.
- Het grote nadeel is dat geen enkele realistische studie voldoet aan theoretische onderstellingen zoals: “de populatie is perfect normaal verdeeld en bovendien ken je haar standaardafwijking”.
Met de basisbegrippen die je nu kent, ben je voldoende voorbereid om “de realiteit” aan te pakken. Dat doe je voor 2 grote domeinen in de volgende hoofdstukken:
\(\hspace{1 cm}\) - bij continue data: betrouwbaarheidsintervallen voor gemiddelden
\(\hspace{1 cm}\) - bij discrete “0-1” data: betrouwbaarheidsintervallen voor proporties.
Ook de R-programma’s veranderen.
Heb je gemerkt dat je tot nu toe geen enkele steekproef hebt getrokken? Dat heeft bi_theor.qmd voor jou gedaan. Dat programma trekt niet uit data van een reële populatie, maar uit een theoretische normale verdeling.
In het vervolg werk je met:
\(\hspace{1 cm}\) bi_gem.qmd bij betrouwbaarheidsintervallen voor gemiddelden
\(\hspace{1 cm}\) bi_prop.qmd bij betrouwbaarheidsintervallen voor proporties.
5 BI gemiddelden
In fig 9 staat het kansmodel dat betrouwbaarheidsintervallen genereert voor het gemiddelde \(\mu\) van een continue populatie. Dat model is geldig voor een populatie \(X\sim N(\mu ,\sigma)\) die normaal verdeeld is met gekende standaardafwijking \(\sigma\).
Je start dan met \(Z=\dfrac{\bar{X}-\mu }{\sigma /\sqrt{n}}\), een steekproefgrootheid die standaard normaal verdeeld is. Met (1) en (2) kom je aan fig 9, een kansmodel dat na het trekken van de steekproef een betrouwbaarheidsinterval oplevert dat volledig observeerbaar is (het bevat geen enkele onbekende parameter meer). Dat weet je allemaal al.
In de praktijk ken je \(\sigma\) niet en moet je overstappen op een nieuwe steekproefgrootheid waar de vaste en ongekende populatie-standaardafwijking \(\sigma\) vervangen wordt door de aan het toeval onderhevige maar observeerbare steekproef- standaardafwijking \(S=\sqrt{\dfrac{1}{n-1}\sum{{{\left( {{X}_{i}}-\bar{X} \right)}^{2}}}}\).
In de appendix (zie 8.3) zie je hoe je van fig 9 naar fig 11 gaat:
5.1 Uitgewerkt voorbeeld
Voor deze studie gebruik je de dataset over Californische gezinnen.
Leer eerst hoe die dataset eruitziet. Ga naar
https://www.uhasselt.be/lesmateriaal-statistiek waar je klikt op Werkteksten
en dan scrolt naar 4.Methoden en technieken bij een statistisch onderzoek – Soorten data en de structuur van een dataset. Als je op California klikt, dan krijg je een Excel bestand California.xlsx dat 1296 gezinnen bevat waar bij elk gezin 30 veranderlijken staan. De echte studie was veel groter dan die 1296 gezinnen maar je kan California.xlsx beschouwen als een goed model waaruit je steekproeven kan trekken om uitspraken over die hele studie te doen.
In deze tekst gebruik je CA_partieel.xlsx. Dat is maar een deeltje van California.xlsx.
In CA_partieel.xlsx zijn, voor de 1296 gezinnen, slechts 5 veranderlijken opgenomen. Die gaan allemaal over het kind bij de geboorte:
geslacht (0=meisje , 1=jongen), bloedgroep, lengte (cm), gewicht (kg), geboortemaand.
De eerste 10 gezinnen zie je hiernaast.
Je wil nu een 95 % betrouwbaarheidsinterval opstellen voor de gemiddelde geboortelengte \(\mu\) van alle kinderen in die Californische studie. Je bent zinnens om daarvoor een steekproef van grootte \(n = 36\) te trekken uit CA_partieel.xlsx.
5.1.1 Model opstellen
De bestudeerde populatie \(X\) is de geboortelengte van alle kinderen die in die Californische studie terechtkwamen. De karakteristiek die hier onderzocht wordt is de gemiddelde geboortelengte \(\mu\) .
De onderzoeksvraag gaat over het populatiegemiddelde \(\mu\) waarvoor men een 95 % betrouwbaarheidsinterval wil.
De standaardafwijking \(\sigma\) van de populatie is niet gekend wat (voor een normaal verdeelde populatie) leidt tot het kansmodel in fig 11. Dit model kan ook in de huidige studie gebruikt worden want de geplande steekproef (\(n=36\)) is voldoende groot (zie 8.4).
Bij een betrouwbaarheidsniveau van 0.95 en een steekproef van \(n=36\) geldt dat \(P\left( -2.03\le \ T \le \ 2.03 \right)=0.95\) voor \(T\sim t(35)\). Het kritisch punt \(t\) is hier gelijk aan 2.03. Het gezochte model is dus: \([ \ \bar{X}-2.03\ \dfrac{S}{\sqrt{36}} \ , \ \bar{X}+2.03\ \dfrac{S }{\sqrt{36}}]\)
Besluit.
Na het trekken van de steekproef ken je \(\bar{x}\) en \(s\) en dus ook het interval \([ \ \bar{x}-2.03\ \dfrac{s}{6} \ , \ \bar{x}+2.03\ \dfrac{s}{6}]\).
Het interval dat je zo zal vinden is een 95 % betrouwbaarheidsinterval voor \(\mu\) en alle waarden in dit interval zijn “aannemelijke waarden” voor de gemiddelde geboortelengte van de Californische kinderen in die studie.
Nota.
Bemerk dat je hierboven een “model vooraf” hebt opgesteld, ZONDER DATA.
De steekproef is nog niet getrokken.
5.1.2 Interval bepalen
Nadat je het model hebt opgesteld, gebruik je data om je betrouwbaarheidsinterval te bepalen. Die data moeten binnen de context van het onderzoek op een correcte manier verzameld zijn. Dat is de enige garantie om, na een goed opgesteld model, tot een verantwoorde conclusie te komen.
In deze studie werk je met een steekproef uit de dataset CA_partieel.xlsx.
Om die steekproef te trekken gebruik je de onderstaande code chunk.
Met kopiëren en plakken (zie) breng je de code chunk over naar “mijnwerkblad.qmd”.
```{r}
# Met dit programma trek je een steekproef uit de Californische studie.
# vul in : n_stkp = steekproefgrootte (minstens 2 en hoogstens 200)
n_stkp <- 36
# Klik één keer op de groene pijl. Ga dan naar de xcl folder op je laptop voor het resultaat.
# de commando's die hieronder staan moet je niet wijzigen
if(all(n_stkp == as.integer(n_stkp)) & n_stkp %in% 2:200){
library(dplyr, warn.conflicts = FALSE)
library(writexl)
library(readxl)
df <- read_xlsx("xcl/CA_partieel.xlsx", col_names = TRUE)
my_sample <- slice_sample(df, n=n_stkp)
xclfile <- paste0("xcl/CA_", format(Sys.time(), "%Y%m%d_%H%M%S") , ".xlsx")
write_xlsx(my_sample, xclfile)
}else{cat("Tik een geheel getal tussen 2 en 200 voor de steekproefgrootte. Pas aan.") }
```
Als resultaat krijg je een steekproef in een Excel bestand. Dat bestand staat op je laptop in de xcl folder en het heeft de naam CA_jjjjmmdd_hhmmss.xlsx waarbij jjjjmmdd_hhmmss het tijdstip aangeeft: jaarmaanddag_uurminuutseconde.
De eerste 12 rijen van de steekproef die hier gevonden werd, zie je hiernaast.
Maak nu van het gevonden Excel bestand een kopie met naam mijndata.xlsx.
De data die je nodig hebt bij de studie van de geboortelengte staan in kolom C.
Om het betrouwbaarheidsinterval te berekenen gebruik je bi_gem.qmd met codes:
n_stkp <- 36, betr_niveau <- 0.95, datatype <- 1,
mijndatakolom <- "C", gem_stkp <- NULL, stafw_stkp <- NULL en toon <- 1.
Besluit
Je kan fig 13(b) gebruiken om het gevonden interval op 2 manieren op te schrijven:
(soms zie je lichte verschillen wegens afronding tot op 2 decimalen)
- ofwel \([\ 51.17 \ , \ 52.88 \ ]\)
- ofwel \(52.03 \ \pm \ 0.85\) .
Op basis van jouw steekproefresultaten besluit je dat \([\ 51.17 \ , \ 52.88 \ ]\) een 95 % betrouwbaarheidsinterval is voor de gemiddelde geboortelengte \(\mu\) van de kinderen in de Californische studie.
Alle waarden in \([\ 51.17 \ , \ 52.88 \ ]\) zijn aannemelijke waarden voor \(\mu\).
10 Oefening (opl 10)
Geef je (gemotiveerde) bemerking bij de volgende uitspraken over die Californische studie:
Een krant schreef dat de gemiddelde geboortelengte gelijk was aan 52.03 cm met een foutenmarge van 0.85 cm. Om de lezer duidelijk te maken wat deze uitspraak betekent, stond er de volgende uitleg :
“Het getal 52.03 is niet de exacte gemiddelde geboortelengte want dat getal is afkomstig van een steekproef en niet van de totale populatie. Daarom berekenen statistici een foutenmarge. Zo weet je dat de echte gemiddelde geboortelengte ligt in \(52.03 \ \pm \ 0.85\) ”.
Reanna zegt:
“Ik heb een kansmodel gebruikt dat intervallen genereert die met 95 % kans de gemiddelde geboortelengte bevatten. Daarna heb ik mijn steekproefwaarden ingevuld. Bij mij is \([\ 51.17 \ , \ 52.88 \ ]\) het interval dat met 95 % kans de gemiddelde geboortelengte bevat.”
Pol schrijft zijn mening kort en bondig in formulevorm:
“Na het invullen van de steekproefwaarden in \[P\left( \bar{X}-t\ \dfrac{S }{\sqrt{n}}\le \mu \le \ \bar{X}+t\ \dfrac{S }{\sqrt{n}} \right)=0.95\] vind ik dat \[P\left( 51.17\le \mu \le \ 52.88 \right)=0.95\]zodat \([\ 51.17 \ , \ 52.88 \ ]\) mijn 95 % betrouwbaarheidsinterval is.”
Fien ziet het anders. Zij zegt dat \([\ 51.17 \ , \ 52.88 \ ]\) het interval is waarin jouw gemiddelde geboortelengte met 95 % kans zal terechtkomen als je uit die populatie een steekproef gaat trekken en het gemiddelde berekenen.
11 Oefening (opl 11)
Gebruik de Californische studie om met een zelf getrokken steekproef van grootte \(n=36\) een 95 % betrouwbaarheidsinterval op te stellen voor het gemiddeld geboortegewicht van de kinderen in die studie:
- Stel het model op voor het te maken betrouwbaarheidsinterval. Maak daarbij gebruik van wat je hierboven geleerd hebt bij “Model opstellen”.
- Gebruik de code chunk in je werkblad om de steekproef te trekken. Geef daarna het gevonden Excel bestand de naam mijndata.xlsx
- Werk dan met bi_gem.qmd (met de juiste codes) om het betrouwbaarheidsinterval te bepalen.
- Formuleer nauwkeurig je conclusie: “wat heb je gevonden en wat betekent dit in deze studie?”.
5.2 R-software output
Het basispakket van R heeft geen afzonderlijke functie om betrouwbaarheidsintervallen op te stellen. Met t.test(x, ...) krijg je in R resultaten voor zowel toetsen van hypothesen als voor betrouwbaarheidsintervallen.
Als voorbeeld bestudeer je het gemiddeld geboortegewicht van kinderen in de Californische studie. Dat onderzoek heb je, met eigen data, uitgevoerd in oef 11. Nu werk je met de data die in deze tekst gevonden werden (opl 11) (die data staan in kolom L van het Excel bestand steekproef_th&bi.xlsx).
Maak eerst een kopie van steekproef_th&bi.xlsx naar mijndata.xlsx en gebruik dan bi_gem.qmd met codes: n_stkp <- 36, betr_niveau <- 0.95, datatype <- 1, mijndatakolom <- "L", gem_stkp <- NULL, stafw_stkp <- NULL, toon <- 2.
Op de bovenste lijn staat t.test(x, conf.level = 0.95). Met dit commando krijg je, naast een toets, ook een betrouwbaarheidsinterval op het gewenste betrouwbaarheidsniveau.
In de output staat dat de data van de steekproef moeten opgeslagen zijn als componenten van een vector met naam x (het groene kader).
Onderaan in het rode kader staat het 95 % betrouwbaarheidsinterval:
[ 3.114244 , 3.564089 ] samen met het steekproefgemiddelde \(\bar{x} = 3.339167\).
Dit zijn (na afronding) dezelfde resultaten die je al zag in opl 11.
12 Oefening (opl 12)
Lucas heeft horen zeggen dat een kleine friet bij McDonald’s 80 g weegt. Hij weet dat hij niet moet verwachten dat een steekproef exact een gemiddelde van 80 g zal opleveren en dus besluit hij om te onderzoeken of 80 g minstens een “aannemelijke waarde” is bij de McDonald’s in zijn straat. Op willekeurige dagen en willekeurige uren gaat hij naar die McDonald’s, koopt een kleine friet en weegt die. Dat doet hij 36 keer. Het resultaat (in gram) staat in kolom F van het Excel bestand met naam steekproef_th&bi.xlsx. Maak eerst een kopie van steekproef_th&bi.xlsx en geef die kopie de naam mijndata.xlsx.
- Gebruik bi_gem.qmd met code
toon <- 2zodat je de R_output kan gebruiken om een 95 % betrouwbaarheidsinterval te bepalen. Wat is dit interval en welk antwoord geef je op de onderzoeksvraag van Lucas?
- Lucas zegt dat bij zijn steekproef het gemiddelde \(\bar{x} = 78\) is en de standaardafwijking \(s = 6.87\). Hij vraagt of gemiddelde en standaardafwijking van een steekproef niet volstaan om een 95 % betrouwbaarheidsinterval op te stellen, of moet je daarvoor echt expliciet alle opmetingen kennen?
Jij zegt dat je inderdaad genoeg hebt aan \(\bar{x}\) en \(s\) als je ook weet dat het betrouwbaarheidsniveau 0.95 moet zijn.
Is dat waar? Motiveer.
5.3 Samengevatte data
Tot nu toe heb je gewerkt met “ruwe” data = een verzameling getallen zoals ze zijn opgemeten en die jij in een kolom van een Excel bestand hebt geplaatst.
Soms beschik je alleen maar over data “in samengevatte vorm” (summary data). Ook met zo’n data kan je bi_gem.qmd gebruiken om een betrouwbaarheidsinterval op te stellen.
Voor de pakjes friet van Lucas, die in zijn steekproef van grootte \(n = 36\) een gemiddelde \(\bar{x} = 78\) en een standaardafwijking \(s = 6.87\) vond, werk je met de codes:
n_stkp <- 36, betr_niveau <- 0.95, datatype <- 2, mijndatakolom <- NULL, gem_stkp <- 78, stafw_stkp <- 6.87, toon <- 1
Dat levert, zoals verwacht:
De R-functie voor samengevatte data heeft de vorm:
tsum.test(mean.x = ..., s.x = ..., n.x = ..., conf.level = ...).
Zoals bij t.test(x, ...) krijg je ook bij tsum.test(...) resultaten voor zowel toetsen van hypothesen als voor betrouwbaarheidsintervallen.
Als je bij bi_gem.qmd de code toon <- 2 gebruikt, dan krijg je voor de pakjes friet:
Ook hier vind je, na afronden, het verwachte betrouwbaarheidsinterval [ 75.68 , 80.32 ] .
13 Oefening (opl 13)
In fig 13 zie je een 95 % betrouwbaarheidsinterval voor de gemiddelde geboortelengte van de Californische kinderen in die studie. Dat interval is opgesteld op basis van een steekproef van grootte \(n = 36\). Jij hebt die steekproefresultaten niet, maar men zegt je dat, bij die steekproef, het gemiddelde \(\bar{x}\) gelijk is aan 52.03 en de standaardafwijking \(s\) gelijk is aan 2.52. Gebruik die informatie om een 95 % betrouwbaarheidsinterval voor de gemiddelde geboortelengte te bepalen. Gebruik bi_gem.qmd met de juiste codes en werk bovendien met toon <- 3 zodat je zowel de tabel als de R-output krijgt. Vind je het verwachte interval?
5.4 Vereiste steekproef
Bij betrouwbaarheidsintervallen heb je graag precieze informatie (een kleine foutenmarge zodat je een kort interval hebt en een beperkt gebied voor de “aannemelijke waarden”). Natuurlijk heb je ook graag een grote betrouwbaarheid, uitgedrukt in een betrouwbaarheidsniveau van bv. 95 %.
Voor dit alles betaal je een prijs: tijd en geld om een goede steekproef te trekken.
Om de grootte van de vereiste steekproef te bepalen heb je vroeger gebruikt gemaakt van formule (5). Dat was “voor de theorie” waar de populatie normaal verdeeld is met gekende standaardafwijking \(\sigma\). Met \(z\) het kritisch punt van de standaard normale verdeling en met \(fm\) als notatie voor foutenmarge volgt uit (5) dat: \[n={{z}^{2}}\cdot \dfrac{{{\sigma }^{2}}}{{{\left( fm \right)}^{2}}} \tag{6}\]
Als je nu, “voor de praktijk”, het kritisch punt \(z\) van de normale verdeling vervangt door het kritisch punt \(t\) van de t-verdeling en de standaardafwijking \(\sigma\) van de populatie vervangt door de standaardafwijking \(s\) van de steekproef dan krijg je voor de vereiste steekproefgrootte:
\[n={{t}^{2}}\cdot \dfrac{{{s}^{2}}}{{{\left( fm \right)}^{2}}} \tag{7}\] Nota. Bij het berekenen van de vereiste steekproefgrootte rond je af naar boven.
14 Oefening (opl 14)
Toon aan hoe je, “in de praktijk”, formule (7) gebruikt om de grootte van de vereiste steekproef te bepalen wanneer je wil werken met een betrouwbaarheidsniveau van 95 % en met een foutenmarge die gelijk is aan 0.6. Motiveer je antwoord.
Een benadering voor het kritisch punt \(t\) .
Bij verschillende steekproefgroottes \(n\) horen verschillende vrijheidsgraden \((n-1)\) en dus ook verschillende t-verdelingen met verschillende kritische punten \(t\) . In de onderstaande tabel zie je enkele voorbeelden voor een 95 % betrouwbaarheidsinterval.
Van zodra de steekproefgrootte niet te klein is, schommelt het kritisch punt \(t\) rond 2 en nadert naar 1.96 als de steekproef groter en groter wordt. Als je \(t\) benadert met het getal 2, dan zit je dikwijls goed.
Je zou kunnen starten met
\[n={{2}^{2}}\cdot \frac{{{s}^{2}}}{{{\left( fm \right)}^{2}}}=4\cdot \frac{{{s}^{2}}}{{{\left( fm \right)}^{2}}}\]
Nu moet je nog iets weten over “wat je als standaardafwijking zou vinden als je een steekproef zou gaan trekken”.
Een benadering voor de verwachte standaardafwijking \(s\).
Historische informatie .
Soms heb je informatie uit vroegere analoge studies. Die informatie kan je dan gebruiken in formule (7). Als men in vroegere studies over de geboortelengte in Californië standaardafwijkingen vond die in de buurt van 2.5 cm lagen, dan gebruik je die informatie voor de te verwachten standaardafwijking \(s\) in je steekproef.
Om voor de gemiddelde geboortelengte \(\mu\) een 95 % betrouwbaarheidsinterval op te stellen met een foutenmarge van 0.6, moet je dan (bij benadering) een steekproef trekken van grootte: \(n=4\cdot \dfrac{{{\left( 2.5 \right)}^{2}}}{{{\left( 0.6 \right)}^{2}}}=69.44\).
Werk dus met (naar boven afgerond) \(n=70\).
15 Oefening (opl 15)
Gebruik de code chunk fig 12 om uit de kinderen in die Californische studie een steekproef te trekken van grootte \(n = 70\). Geef de gevonden steekproef de naam mijndata.xlsx en gebruik dan bi_gem.qmd met codes:
n_stkp <- 70, betr_niveau <- 0.95, datatype <- 1, mijndatakolom <- "C", gem_stkp <- NULL, stafw_stkp <- NULL, toon <- 1.
Vind je een foutenmarge die ongeveer gelijk is aan de gewenste 0.6 ?
Benadering eigenschappen van de normale .
Als je mag onderstellen dat de populatie niet te veel afwijkt van de normale, dan kan je als volgt redeneren.
Bij een normale populatie liggen zo goed als alle waarden (99.7%) niet verder dan \(3\ \sigma\) (3 standaardafwijkingen) verwijderd van het centrum: binnen een afstand van \(6\ \sigma\) ligt “bijna alles”.
Als een steekproef zo’n gedrag “ongeveer” nabootst en als \(s\) niet te veel afwijkt van \(\sigma\) , dan zullen “zowat alle te verwachten steekproefresultaten” vallen in een gebied dat ongeveer \(6s\) lang is. Stel dit gebied gelijk aan \(6s\) en los daaruit \(s\) op.
Bij veel baby’s ligt het geboortegewicht ergens tussen 3 kg en 3.5 kg en voor de overgrote meerderheid ligt dit gewicht tussen 2 kg en 5 kg. Als je dit interval (lengte = 3) gelijk stelt aan \(6s\) , dan werk je met 0.5 als benadering voor \(s\) , de standaardafwijking van de te trekken steekproef. Bij een gewenste foutenmarge van 100 g = 0.10 kg trek je een steekproef van grootte: \(n=4\cdot \dfrac{{{\left( 0.5 \right)}^{2}}}{{{\left( 0.10 \right)}^{2}}}=100\).
16 Oefening (opl 16)
Gebruik de code chunk fig 12 om uit de kinderen in die Californische studie een steekproef te trekken van grootte \(n = 100\). Geef de gevonden steekproef de naam mijndata.xlsx en gebruik dan bi_gem.qmd met codes:
n_stkp <- 100, betr_niveau <- 0.95, datatype <- 1, mijndatakolom <- "D", gem_stkp <- NULL, stafw_stkp <- NULL, toon <- 1.
Vind je een foutenmarge die ongeveer gelijk is aan de gewenste 0.10 ?
6 BI proporties
Discrete kansmodellen (bij categorische veranderlijken) ontmoet je veel, zeker ook in menswetenschappen (psychologie, pedagogie, sociale wetenschappen,…). Als basis kan je starten met een Bernoulli verdeling (een 0 ‑ 1 populatie) waarbij je de succeskans \(p\) bestudeert. Denk maar aan enquêtes met vragen die kunnen herleid worden tot akkoord / niet akkoord of tot ja / neen of tot succes / mislukking …. .
Rond de eeuwwisseling en ook recenter is er heel wat wetenschappelijk onderzoek verricht over betrouwbaarheidsintervallen voor de succeskans \(p\) (de populatieproportie). Nieuwe inzichten, samen met krachtige software, hebben nieuwe modellen opgeleverd. Sommige statistische pakketten stellen je tegenwoordig zo’n 7 tot 12 (en meer) verschillende methoden voor. Deze tekst bespreekt er slechts 3. Zij gaan van “te mijden” over “eenvoudig en goed” tot “zeer goed”.
6.1 Een nieuwe start
Bij de studie van het gemiddelde \(\mu\) van een continue populatie ben je gestart met een theoretisch model: een normale verdeling met gekende standaardafwijking \(\sigma\) . Van deze populatie ken je alles, behalve het bestudeerde populatiekenmerk \(\mu\).
Om het gemiddelde \(\mu\) van die populatie te schatten heb je de onvertekende schatter \(\bar{X}\) (het steekproefgemiddelde) gebruikt. Eigenschappen van \(\bar{X}\) leveren het kansmodel voor betrouwbaarheidsintervallen voor \(\mu\) (fig 9). In de praktijk ken je \(\sigma\) niet en werk je met de schatter \(S\). Dat leidt tot een nieuw model waarbij je de t-verdeling gebruikt (fig 11).
Je zou deze manier van werken kunnen imiteren bij de studie van de succesproportie \(p\) in een discrete 0 ‑ 1 populatie. Ook hier is de populatie volledig gekend, behalve het bestudeerde populatiekenmerk \(p\). En ook hier zou je kunnen starten met de onvertekende schatter \(\hat{P}\) (de steekproefproportie).
Eigenschappen voor \(\hat{P}\) haal je uit de gekende binomiale verdeling want als \(X\sim B\left( n\,,\,p \right)\) dan is \(\hat{P}=\dfrac{1}{n}X\) met
- \(X\) = het kansmodel voor het aantal successen bij n onafhankelijke trekkingen met telkens succeskans \(p\)
- \(\hat{P}\) het kansmodel voor de proportie successen bij n onafhankelijke trekkingen met telkens succeskans \(p\).
Om een interval op te stellen waarin de steekproefproportie \(\hat{P}\) terechtkomt met 95 % kans, kan je niet zomaar de methode voor een steekproefgemiddelde \(\bar{X}\) nabootsen. Toen kon je starten met een symmetrische continue verdeling (de normale) waar je links en rechts een staart van 2.5 % kon weglaten en beginnen met formule (1).
Nu heb je te maken met een discrete kansverdeling ( \(\hat{P}=\dfrac{1}{n}X\) met \(X\sim B\left( n\,,\,p \right)\)) wat al van bij de start problemen geeft (zie 8.5).
Je kan nu verder werken op 2 manieren:
als didactische eenvoud primeert, beperk je dan tot de “didactische shortcut” (6.2).
als je iets meer inzicht wil hebben en (met voorbeelden) wil begrijpen waarom je bij proporties een andere aanpak nodig hebt, ga dan naar “Modellen en criteria” (6.3) en start vanaf daar. Je ontdekt dan ook dat het “Wald” model (nog altijd gebruikt in sommige tekstboeken) echt niet goed is.
6.2 Didactische shortcut
6.2.1 Het kader
Eigenschappen van betrouwbaarheidsintervallen heb je vroeger bestudeerd op een voorbeeld. Toen ging het over een gemiddelde \(\mu\) van een continue (normale) populatie. De algemene eigenschappen van betrouwbaarheidsintervallen blijven geldig, ook nu, wanneer het gaat over de proportie \(p\) van een 0 ‑ 1 populatie.
Zorg er dus voor dat je vertrouwd bent met basisideeën zoals:
- het verschil tussen model en uitkomst (3.3)
- kans, betrouwbaarheid en aannemelijke waarden ( Note 4)
- betrouwbaarheidsniveau en precisie (3.1.2)
- wisselwerking tussen basisgrootheden (fig 10)
6.2.2 Herkenbaarheid
Bij het opstellen van 95 % betrouwbaarheidsintervallen start je met modellen waar je kan op vertrouwen: zij beloven 95 % “goede” intervallen. Die modellen zeggen: trek een steekproef, vul de gevonden waarden in en dan heb je een betrouwbaarheidsinterval op het gewenste betrouwbaarheidsniveau voor de bestudeerde populatieparameter.
Voor het populatiegemiddelde \(\mu\) van een normale populatie met gekende \(\sigma\) is dat : \[\bar{x}\ \ \pm \ \ z\ \dfrac{\sigma }{\sqrt{n}}\] Als je de standaardafwijking \(\sigma\) niet kent en moet schatten, werk je met :
\[\bar{x}\ \ \pm \ \ t\ \dfrac{s}{\sqrt{n}}\]
Voor de populatieproportie \(p\) van een 0 ‑ 1 populatie benader je “discreet” (binomiale) met “continu” (normale) [centrale limiet stelling] : \[\hat{p}\ \ \pm \ \ z\ \dfrac{\sqrt{p(1-p)}}{\sqrt{n}}\]
Ook hier ken je de standaardafwijking \(\sqrt{p(1-p)}\) niet en moet je die schatten.
De t-verdeling geldt hier niet en dus ??? Gewoon \(z\) invullen levert: \[\hat{p}\ \ \pm \ \ z\ \dfrac{\sqrt{\hat{p}(1-\hat{p})}}{\sqrt{n}}\] Het interval dat je zo krijgt is het “Wald” betrouwbaarheidsinterval voor \(p\).
Het Wald model werkt niet goed. Soms levert het, wanneer jij 95 % betrouwbaarheid vraagt, intervallen die slechts met 4.9 % kans de echte \(p\) te pakken hebben.
Zoiets wil je niet.
Onderzoekers hebben intussen veel betere (en meestal meer ingewikkelde) modellen opgesteld. Daar zit 1 uitblinker tussen, die tegelijkertijd een drastische verbetering van het Wald model is en bovendien eenvoudig te berekenen en te onthouden.
6.2.3 Plus 2 / plus 4
De “+2/+4 regel” van Agresti-Coull voor 95 % betrouwbaarheidsintervallen
Als je in je steekproef van grootte \(n\) het aantal successen noteert als \(x\), tel daar dan 2 successen bij (en tel ook 2 mislukkingen bij het aantal gevonden mislukkingen) en vermeerder de steekproefgrootte \(n\) met 4.
Je vervangt dus de oorspronkelijke steekproefgrootte \(n\) door \(\tilde{n}=n+4\) en de gevonden steekproefproportie \(\hat{p}=\dfrac{x}{n}\) door een gewijzigde proportie \(\tilde{p}=\dfrac{x+2}{n+4}\) . Het is met deze \(\tilde{p}\) en deze \(\tilde{n}\) dat je nu de formule van Wald imiteert :
\[\tilde{p}\ \ \pm \ \ z\ \dfrac{\sqrt{\tilde{p}\,(1-\tilde{p})}}{\sqrt{\tilde{n}}}\]
Nota. Agresti en Coull hebben een algemeen model opgesteld dat werkt voor elk betrouwbaarheidsniveau, maar dat is ingewikkelder. Hun +2/+4 regel gebruik je alleen bij een 95 % betrouwbaarheidsniveau. Gelukkig is dat het niveau waarop zowat 95 % van alle betrouwbaarheidsintervallen wordt berekend.
De “+2/+4 regel” van Agresti-Coull is eenvoudig te onthouden en ook eenvoudig te berekenen. Bij 95 % betrouwbaarheid is \(z=1.96\) en zodra je dat weet is een rekentoestel voldoende. Soms kan je het interval zelfs “berekenen met de hand”.
17 Oefening (opl 17)
- Zoek, met de “+2/+4 regel”, een 95 % betrouwbaarheidsinterval voor de proportie \(p\) van de 0 ‑ 1 populatie waaruit je zopas een steekproef van grootte \(n=96\) trok waarbij je 18 successen vond. Doe de berekening “met de hand” (of met een rekentoestel). Interpreteer wat het interval betekent voor \(p\).
- Gebruik nu, voor dezelfde vraag, het R programma bi_prop.qmd. Vul nauwkeurig de codes in, onder meer
methode <- "ac_+2/+4". Vind je hetzelfde resultaat?
18 Oefening (opl 18)
- Zoek, met de “+2/+4 regel”, een 95 % betrouwbaarheidsinterval voor de proportie \(p\) van de 0 ‑ 1 populatie wanneer jouw steekproef van grootte \(n=12\) geen enkel succes had. Doe de berekening “met een eenvoudig rekentoestel”. Hoe rapporteer je het gevonden resultaat. Wat kan je nu zeggen over de succesproportie \(p\) in die populatie?
- Gebruik nu, voor dezelfde vraag, het R programma bi_prop.qmd. Wat merk je bij de output?
Ruwe data
In de vorige oefeningen heb je met “samengevatte” data gewerkt. Je wist al hoeveel successen er waren in de totale steekproef. Als je in een Excel bestand “ruwe” data hebt die gecodeerd zijn met nul (mislukking) en één (succes), dan kan je die data ook rechtstreeks gebruiken.
In het bestand “steekproef_th&bi.xlsx” staat in kolom N een steekproef van 100 geboortegewichten van Californische kinderen. Die gewichten hebben in kolom O een nieuwe code gekregen met “1 = laag geboortegewicht (minder dan 2.5 kg)” en
“0 = anders”. Gebruik deze informatie in de volgende oefening.
19 Oefening (opl 19)
- Gebruik bi_prop.qmd en zoek een 95 % betrouwbaarheidsinterval voor de proportie kinderen met een laag geboortegewicht in de totale populatie van die Californische studie. Gebruik de “+2/+4 regel” van Agresti-Coull.
De steekproefresultaten staan in kolom O van “steekproef_th&bi.xlsx”. Kopieer dit Excel bestand eerst en geef die kopie de naam “mijndata.xlsx”.
Interpreteer wat je gevonden hebt. - Als je een preciezer (korter) interval wil met 95 % betrouwbaarheid, wat zal je dan doen?
6.3 Modellen en criteria
Bij modellen denk je aan een procedure VOORAF, zoals je gezien hebt bij het rad van fortuin. (3.3.1). Daar zeg je aan de quizmaster wat je wil, nog voor je data verzamelt. Je wil een rad met intervallen waarvan er 95 % goed zijn (de echte populatieproportie \(p\) “coveren”) en 5 % slecht. Je zegt ook dat je zal werken met een steekproef van grootte \(n\).
De quizmaster (de enige in dit spel die ook \(p\) kent) heeft nu alle informatie… maar kan dat rad niet maken. Het struikelblok staat in 8.5. Dus stelt de quizmaster alternatieve modellen voor… maar wil je die wel gebruiken? Als je weet dat “exact 95 %” goede intervallen genereren niet lukt, wil je dan een model dat daar toch niet te veel van afwijkt? Hoe beoordeel je dat?
6.3.1 Coverage
Een belangrijk criterium bij de beoordeling van zo’n alternatief model is de “coverage probability” of “dekkingskans”. Coverage probability is een modeleigenschap.
De redenering is als volgt:
- stel dat de 0 ‑ 1 populatie een bepaalde succeskans \(p\) heeft
- en stel dat je wil werken met een steekproef van grootte \(n\)
- en stel dat je het alternatieve model van de quizmaster gebruikt
- zijn er dan (benaderend) 95 % intervallen die de populatieproportie \(p\) bevatten?
= benadert de “coverage probability” 95 % ?
Als dat alternatieve model, voor zo goed als alle waarden van \(p\) en zo goed als alle waarden van \(n\), intervallen genereert met een “coverage probability” die dicht aansluit bij het gewenste betrouwbaarheidsniveau van 95 % , dan vertrouw je dat model.
Als je ontdekt dat bij een bepaalde steekproefgrootte (zoals \(n = 32\)) en een bepaalde waarde van de populatieproportie (zoals \(p = 0.2\)) de kans slechts 89 % is dat jouw alternatieve model “goede intervallen” genereert, dan is je conclusie fout als je, na het trekken van de steekproef, zegt dat jouw gevonden interval een 95 % betrouwbaarheidsinterval is.
Het begrip “coverage” ken je eigenlijk al. Je hebt het (experimenteel) gebruikt in oef 5 waar je met 170 leerlingen en daarna met 1700 leerlingen eenzelfde model hebt gebruikt om een 95 % betrouwbaarheidsinterval te bepalen voor een populatiegemiddelde \(\mu\). Je vond toen dat het gebruikte model een “coverage” heeft van (zo goed als) 95 % . Ongeveer 95 % “goede” intervallen werden door dat model gegenereerd in een simulatie van 1700 herhalingen.
6.3.2 Precisie
De precisie is een ander criterium om modellen met elkaar te vergelijken.
Als twee modellen ongeveer even goed zijn qua “coverage probability”, kies dan het model met “de kortste intervallen”. Zo heb je scherpere informatie over de “aannemelijke waarden” van \(p\).
Ook hier zijn er nogal wat technische problemen. In deze tekst gaan we daar niet verder op in.
6.4 Methoden
Meerdere onderzoekers hebben, in de loop der tijd, verschillende methoden voorgesteld om betrouwbaarheidsintervallen op te stellen voor de populatieproportie \(p\).
Veel van die methoden zijn technisch moeilijk en gebruiken eigenschappen die niet bij de leerstof van het secundair horen.
6.4.1 Te mijden
De “Wald” methode is gebaseerd op de centrale limiet stelling en krijgt daarom in sommige software de naam “asymptotische” methode.
In de tekst “Steekproef, gemiddelde en proportie” (zie) lees je:
• voor \(n\) groot: (de normale benadering van de steekproefproportie)
de kans dat \(\hat{P}\) in een interval \(\left[ \,a\ ,\ b\, \right]\) valt \(\cong\) de kans dat een
normaal kansmodel in dat interval \(\left[ \,a\ ,\ b\, \right]\) valt.
In oefening 12 van diezelfde tekst vond je dat
\(P\ \left( p -1.96\ \dfrac{\sqrt{pq}}{\sqrt{n}}\le \ \ \hat{P}\ \ \le p +1.96\ \dfrac{\sqrt{pq}}{\sqrt{n}} \right)=0.95\) wat je kan schrijven als
\(P\ \left( \hat{P} -1.96\ \dfrac{\sqrt{pq}}{\sqrt{n}}\le \ \ p\ \ \le \hat{P} +1.96\ \dfrac{\sqrt{pq}}{\sqrt{n}} \right)=0.95.\)
Dit leidt tot \(\hat{P}\pm 1.96\dfrac{\sqrt{pq}}{\sqrt{n}}\) als model voor een 95 % betrouwbaarheidsinterval voor \(p\).
Er is hier een probleem want het model is niet observeerbaar (je kent \(\sqrt{pq}\) niet).
Als je voor \(\sqrt{pq}\) = \(\sqrt{p(1-p)}\) de schatter invult, dan krijg je een nieuw en observeerbaar model:
\[\hat{P}\pm 1.96\dfrac{\sqrt{\hat{P}\left( 1-\hat{P} \right)}}{\sqrt{n}}\] De methode van Wald stelt voor om, na het trekken van de steekproef, te werken met
\[B{{I}_{Wa}}=\hat {p}\pm z\cdot \dfrac{\sqrt{\hat{p}\,(1-\hat{p})}}{\sqrt{n}}\]
In een Wald betrouwbaarheidsinterval (notatie: \(B{{I}_{Wa}}\)) is \(z\) het kritisch punt uit de standaard normale verdeling.
Om te oordelen of het Wald model op een goede manier betrouwbaarheidsintervallen naar jou stuurt, onderzoek je de “coverage probability”.
Je gebruikt daarvoor de onderstaande code chunk. Met kopiëren en plakken breng je de code chunk over naar “mijnwerkblad.qmd” (zie) .
```{r}
# Dit programma berekent, bij proporties, de coverage probability
# van betrouwbaarheidsintervallen gegenereerd volgens de aangegeven methode
# vul in (gebruik aanhalingstekens): "wald" of "ac_+2/+4" of "wilson"
methode <- "wald"
# vul verder in:
p <- 0.2 # onderstelde populatie-proportie
n_stkp <- 32 # geplande steekproefgrootte
b_niv <- 0.95 # gewenst betrouwbaarheidsniveau (decimaal)
# Klik op de groene pijl voor het resultaat.
# de commando's die hieronder staan moet je niet wijzigen
library(binom)
options(scipen = 999)
n <- n_stkp
if(methode=="wald"){method="asymptotic"
}else if(methode=="wilson"){method="wilson"}
if(methode=="ac_+2/+4"){
b_niv <- 0.95
intval <- binom.confint(2:(n+2), n+4, conf.level = 0.95, methods = "asymptotic")
}else{intval <-binom.confint(0:n, n, conf.level = b_niv, methods = method)}
cov <- round(sum(dbinom(0:n, n, p)*(!(intval$upper < p | intval$lower > p)))*100,1)
p <- round(p, 4)
b_niv <- round(b_niv, 4)
cat("methode =",methode," b_niv=",b_niv," p=",p," n=",n," coverage C =",cov,"%")
```
In de volgende oefening maak je gebruik van de code chunk fig 15 in jouw “mijnwerkblad.qmd”.
Misschien is het handig om daar in RStudio de settings op Chunk Output Inline te zetten (zoals je hiernaast kan zien).
20 Oefening (opl 20)
Voor alle vragen werk je bij een betrouwbaarheidsniveau van 95 % en gebruik je als methode “wald”. Je berekent telkens de coverage probability (\(C\)).
Je overloopt verschillende combinaties van waarden voor \(p\) en \(n\).
- Als \(p\) zeer dicht tegen 0 of 1 ligt, dan verwacht je problemen bij kleine tot matige waarden van \(n\) (scheve verdelingen).
Zoek C voor \(p=0.005\) en \(n\) respectievelijk 10 , 182 , 591.
Levert een grotere steekproef een betere coverage? Vergelijk \(n=591\) met \(n=592\) - Voor \(p\) minder extreem, zoals \(p=0.2\), verwacht je misschien een beter gedrag.
Zoek C voor \(p=0.2\) en \(n\) respectievelijk 31 en 32. - Misschien denk je dat een symmetrische verdeling de oplossing biedt en dus probeer je \(p=0.5\)
Zoek C voor \(p=0.5\) en \(n\) respectievelijk 17 en 40.
Behalve het chaotisch gedrag van de coverage probability, heeft de Wald methode ook andere ongewenste effecten, zoals “punt”-intervallen bij de studie van zeldzame fenomenen.
21 Oefening (opl 21)
In België heeft 46 % van de bevolking bloedgroep O, 42 % heeft bloedgroep A, 9 % heeft bloedgroep B en 3 % heeft bloedgroep AB (hoeveel medeleerlingen van je klas hebben bloedgroep AB ?).
Bij een steekproef van 12 inwoners bemerkt men dat niemand bloedgroep AB heeft. Gebruik deze steekproefresultaten om een 95 % betrouwbaarheidsinterval \(B{{I}_{Wa}}\) op te stellen voor \(p\) (de proportie Belgen die bloedgroep AB heeft). Ga ervan uit dat je de informatie over de totale populatie niet vooraf gekregen hebt en dus niet weet wat \(p\) is.
Om dit interval op te stellen heb je geen software nodig, hoofdrekenen volstaat.
Geef nu ook een interpretatie voor het gevonden betrouwbaarheidsinterval. Wat zijn “aannemelijke waarden” voor de proportie Belgen met bloedgroep AB ?
6.4.2 Eenvoudig en goed
Het niveau dat bijna iedereen bijna altijd gebruikt bij het opstellen van betrouwbaarheidsintervallen is … inderdaad, 95 % .
Als je op het 95 % betrouwbaarheidsniveau wil werken, dan hebben Alan Agresti en Brent Coull een fantastisch voorstel. Zij stellen een methode voor die:
- een drastische verbetering is tegenover de methode van Wald
- eenvoudig herkenbaar en te onthouden is (een didactisch voordeel)
De “plus 2 plus 4” regel.
Als je in je steekproef van grootte \(n\) het aantal successen noteert als \(x\), tel daar dan 2 successen bij (en tel ook 2 mislukkingen bij het aantal gevonden mislukkingen) en vermeerder de steekproefgrootte met 4.
Je vervangt dus de gevonden steekproefproportie \(\hat{p}=\dfrac{x}{n}\) door een aangepaste proportie \(\tilde{p}=\dfrac{x+2}{n+4}\) en je vervangt de oorspronkelijke steekproefgrootte \(n\) door \(\tilde{n}=n+4\) . Het is met deze \(\tilde{p}\) en deze \(\tilde{n}\) dat je nu fig 14 imiteert: \[B{{I}_{AC+2/+4}}=\tilde{p}\pm z\cdot \dfrac{\sqrt{\tilde{p}\,(1-\tilde{p})}}{\sqrt{\tilde{n}}} \tag{8}\] Bemerk dat een +2/+4 interval niet symmetrisch is rond de proportie \(\hat{p}\) die je in je steekproef hebt gevonden. Zo’n interval is symmetrisch rond \(\tilde{p}\) en voor de foutenmarge geldt nu: \[fm=z\cdot \dfrac{\sqrt{\tilde{p}\,(1-\tilde{p})}}{\sqrt{\tilde{n}}} \tag{9}\]
22 Oefening (opl 22)
Gebruik de code chunk fig 15 in jouw “mijnwerkblad.qmd”.
Werk met een betrouwbaarheidsniveau van 95 % en met “ac_+2/+4” (8).
Bereken de coverage probability (\(C\)) voor:
- \(p=0.005\) en \(n=10\)
- \(p=0.2\) en \(n=32\)
- \(p=0.5\) en \(n=40\)
Vergelijk de resultaten met wat je vond in opl 20. Welke methode verkies je? Waarom?
6.4.3 Zeer goed
Heel wat onderzoekers hebben verschillende modellen voorgesteld, gebaseerd op verschillende uitgangspunten en verschillende noden.
Elk voorgesteld model probeert een balans te vinden tussen een “goede coverage” (met verschillende criteria voor “goed”, zoals: “weinig schommelingen” of “dicht tegen 95 %” of “nooit minder dan 95 %” of … ) en een “goede precisie” (kleine intervallen). Een perfect model is er niet.
Het model ac_+2/+4 is, voor 95 % betrouwbaarheid, een didactische vereenvoudiging van een algemeen Agresti‑Coull model. Dat algemene model kan je zeker vanaf \(n=40\) gebruiken en het is geldig voor elk betrouwbaarheidsniveau.
Er is ook het Wilson model. Dat model genereert intervallen waarvan de “coverage”, voor \(n<40\), beter bij het gewenste betrouwbaarheidsniveau aansluit dan bij Agresti‑Coull, behalve voor sommige waarden van \(p\) die dicht tegen 0 of 1 liggen (geen enkel model is perfect!).
Een extra pluspunt is de “precisie”: het Wilson model genereert intervallen \(B{I}_{Wi}\) die korter zijn dan die van Agresti‑Coull.
Nota. Voor een kleine \(n\) en een kleine \(p\) laat zelfs Wilson soms een steek vallen ( vergelijk de coverage bij Wilson met Agresti-Coull voor \(p=0.017\) en \(n=10\)).
Het besluit is simpel: het Wilson model is technisch ingewikkeld, maar als je echte onderzoeken wil uitvoeren (en dan ook over de nodige software beschikt), dan kies je voor Wilson. In het andere geval (en als didactische eenvoud primeert) werk je met de +2/+4 regel van Agresti‑Coull bij een 95 % betrouwbaarheidsniveau (dan heb je enkel een eenvoudig rekentoestel nodig).
6.5 Intervallen
Nadat je het gepaste model hebt gekozen, gebruik je software en data om je betrouwbaarheidsinterval op te stellen. Die data moeten, binnen de context van het onderzoek, op een correcte manier verzameld zijn. Dat is de enige garantie om tot een verantwoorde conclusie te komen.
6.5.1 Software
Betrouwbaarheidsintervallen voor een proportie \(p\) bereken je met bi_prop.qmd.
Je weet dat het Wald model niet goed is, dus gebruik je dat niet. Bij bi_prop.qmd kan je het Wald model dan ook niet kiezen.
Als je het eenvoudig wil houden, dan kies je voor het Agrest-Coull +2/+4 model. Dat werkt goed bij een betrouwbaarheid van 95 % en daarom geeft bi_prop.qmd je enkel 95 % betrouwbaarheidsintervallen bij deze keuze.
Lees hier ook de afspraak in Note 5 zodat je de output op een juiste manier interpreteert.
De andere keuze die je bij bi_prop.qmd kan maken is het Wilson model. Dat model heeft de voorkeur. Je kan er werken op alle betrouwbaarheidsniveau’s en Wilson levert kortere intervallen dan Agresti-Coull.
In de output zie je 3 vormen van \(p\) staan:
\(p\) is, zoals verwacht, de notatie voor de onderzochte populatieproportie
\(\hat{p}\) is de klassieke notatie voor de proportie successen die je in jouw steekproef hebt gevonden (\(\hat{p}=\dfrac{x}{n}\))
\(\tilde{p}\) is de notatie voor het “aangepaste” centrum van het interval, eigen aan de gebruikte methode (bv. bij Agresti-Coull +2/+4 is \(\tilde{p}=\dfrac{x+2}{n+4}\)).
6.5.2 Soorten data
Samengevatte data.
Bij deze data weet je hoeveel successen er in de steekproef zijn en kan je, naast de steekproefgrootte n_stkp <- ..., ook het aantal successen succ_stkp <- ... invullen.
23 Oefening (opl 23)
Bij een steekproef van 12 Belgen was er niemand met bloedgroep AB. Die informatie heb je gebruikt om een 95 % betrouwbaarheidsinterval op te stellen voor de proportie Belgen met bloedgroep AB. In oef 21 heb je een Wald betrouwbaarheidsinterval \(B{I}_{Wa}\) opgesteld. Met dezelfde data heb je in oef 18 een Agresti-Coull betrouwbaarheidsinterval \(B{I}_{AC+2/+4}\) gemaakt. Geef nu een antwoord op dezelfde vraag met een 95 % betrouwbaarheidsinterval van Wilson \(B{I}_{Wi}\) . Vergelijk de gevonden betrouwbaarheidsintervallen:
1. Welk interval is niet zinvol? Waarom?
2. Welk “zinvol” interval geeft de meest precieze informatie? Had je dat verwacht?
3. Als je voor dezelfde vraag een steekproef trekt van grootte \(n=60\) en daarin niemand vindt met bloedgroep AB, welk Wilson interval verwacht je dan: korter of langer dan het vorige Wilson interval? Toon dit aan en zeg wat dit nieuwe Wilson interval betekent.
24 Oefening (opl 24)
Bij een steekproef van 47 leeftijdsgenoten ontdekt je dat er 17 vegetariër zijn.
1. Stel een 95 % betrouwbaarheidsinterval op voor de proportie vegetariërs onder jouw leeftijdsgenoten. Zeg ook in woorden wat dit interval betekent.
2. Als je, met dezelfde data, een 90 % betrouwbaarheidsinterval opstelt, is dat dan langer of korter dan het vorige? Waarom? Toon dit aan door dat interval op te stellen.
3. Welk model heb je ingevuld in bi_prop.qmd bij methode <- ...? Waarom?
Ruwe data.
Bij “ruwe” data verwacht bi_prop.qmd dat de opmetingen gecodeerd zijn als 1 (= succes) of 0 (= mislukking).
Soms is het nodig om vooraf te zorgen voor een juiste 0-1 codering.
In België hebben weinig mensen (ongeveer 3 %) bloedgroep AB en je vraagt je af of dat ook zo is bij de kinderen in de Californische studie.
In het Excel bestand “CA_partieel.xlsx” heeft de veranderlijke blgk1 (bloedgroep van het kind) naast de code 9 (= onbekend) ook nog codes van 1 tot 8 omdat bij elke bloedgroep de resusfactor is genoteerd.
Gebruik de onderstaande code chunk om een steekproef van grootte 80 te trekken uit de kinderen met gekende bloedgroep waarbij code 4 (AB+) en code 8 (AB-) veranderd is in 1 (en al de rest in 0). Zo heeft de veranderlijke blgk1 alleen nog 0-1 waarden (1 = AB).
Met kopiëren en plakken breng je de code chunk over naar “mijnwerkblad.qmd” (zie) .
```{r}
# Dit programma trekt een steekproef uit de Californische studie na coderen van de
# bloedgroep met: blgk1 = 1 als het kind bloedgroep AB heeft en blgk1 = 0 anders
# vul in : n_stkp = steekproefgrootte (minstens 2 en hoogstens 200)
n_stkp <- 80
# Klik één keer op de groene pijl. Het resultaat vind je in de xcl folder.
# de commando's die hieronder staan moet je niet wijzigen
if(all(n_stkp == as.integer(n_stkp)) & n_stkp %in% 2:200){
library(dplyr, warn.conflicts = FALSE)
library(writexl)
library(readxl)
df <- read_xlsx("xcl/CA_partieel.xlsx", col_names = TRUE)|> filter(blgk1 < 9)
df$blgk1 <- ifelse(df$blgk1==4|df$blgk1==8, 1, 0)
my_sample <- slice_sample(df, n=n_stkp)
xclfile <- paste0("xcl/CA_", format(Sys.time(), "%Y%m%d_%H%M%S") , ".xlsx")
write_xlsx(my_sample, xclfile)
}else{cat("De steekproefgrootte = een geheel getal tussen 2 en 200. Pas aan.")}
```
Als resultaat krijg je een steekproef in een Excel bestand. Dat bestand staat op je laptop in de xcl folder en het heeft de naam CA_jjjjmmdd_hhmmss.xlsx waarbij jjjjmmdd_hhmmss het tijdstip aangeeft: jaarmaanddag_uurminuutseconde.
De eerste 12 kinderen in de steekproef die hier gevonden werd, zie je hiernaast.
Maak nu van het gevonden Excel bestand een kopie met naam mijndata.xlsx.
De data die je nodig hebt bij de studie van bloedgroep AB staan in kolom B.
25 Oefening (opl 25)
- Zoek een 95 % betrouwbaarheidsinterval voor de proportie Californische kinderen met bloedgroep AB. Gebruik de steekproef van grootte \(n=80\) die je zopas getrokken hebt. Werk met bi_prop.qmd met codes:
n_stkp <- 80,betr_niveau <- 0.95,datatype <- 1,
mijndatakolom <- "B",succ_stkp <- NULL,methode <- "wilson".
Zeg in woorden wat je resultaat betekent.
- Beantwoord, met dezelfde data, dezelfde vraag nu ook met de +2/+4 regel van Agresti-Coull. Aan welke methode geef je de voorkeur? Waarom?
6.6 Vereiste steekproef
Voor het bepalen van de vereiste grootte \(n\) van de steekproef bij een vooraf bepaald betrouwbaarheidsniveau en een gewenste foutenmarge is de redenering zoals in 5.4.
Bij modellen voor proporties worden de formules ingewikkelder. We beperken ons tot het +2/+4 model van Agresti-Coull voor 95 % betrouwbaarheidsintervallen.
Zoals bij formule 6 moet je nu werken met formule 9 zodat \(\sqrt{\tilde{n}}=z\cdot \dfrac{\sqrt{\tilde{p}\,(1-\tilde{p})}}{fm}\) of \[n+4=\dfrac{{{z}^{2}}}{{{\left( fm \right)}^{2}}}\cdot \tilde{p}\left( 1-\tilde{p} \right) \tag{10}\]
Je weet niet wat \(\tilde{p}\) zal zijn in de steekproef die je nog moet trekken, en dus moet je \(\tilde{p}=\dfrac{x+2}{n+4}\) op een of andere manier schatten.
Historische informatie
Voor de proportie Californische kinderen die bloedgroep AB hebben, gaven vroegere studies verschillende resultaten waarbij \(\tilde{p}\) dikwijls in de buurt van 4 % lag. Dus beslis je om die waarde te gebruiken.
Voor een 95 % betrouwbaarheidsinterval met een foutenmarge van 3 % volgt uit 10 :
\(n+4=\dfrac{{{1.96}^{2}}}{{{\left( 0.03 \right)}^{2}}}\cdot \ \left(0.04\right)\left(0.96\right) =163.91\).
Trek dus een steekproef van grootte \(n=160\).
26 Oefening (opl 26)
Gebruik de code chunk fig 16 in jouw “mijnwerkblad.xlsx” om een steekproef te trekken van 160 Californische kinderen waarbij blgk1 als een 0-1 veranderlijke gecodeerd is (met 1 = AB). Kopieer het gevonden Excel bestand en geef het de naam “mijndata.xlsx”.
Zoek een 95 % betrouwbaarheidsinterval voor de proportie Californische kinderen met bloedgroep AB. Gebruik de steekproef van grootte \(n=160\) die je zopas getrokken hebt. Werk met bi_prop.qmd met codes:
n_stkp <- 160,betr_niveau <- 0.95,datatype <- 1,
mijndatakolom <- "B",succ_stkp <- NULL,methode <- "ac_+2/+4".
Vind je een foutenmarge in de buurt van 3 % ?
Speel op veilig
In 10 staat niet zomaar \(\tilde{p}\) maar wel \(\tilde{p}\left( 1-\tilde{p} \right)\). Dat is een kwadratische uitdrukking in \(\tilde{p}\) met
0 < \(\tilde{p}\) < 1. Deze uitdrukking heeft bij \(\tilde{p}=0.5\) een maximum met waarde 0.25. Als je dit maximum invult, dan vind je een waarde voor \(n\) die zeker groot genoeg is voor de gevraagde foutenmarge.
Als je een 95 % betrouwbaarheidsinterval voor een proportie wil opstellen met een “klassieke” foutenmarge van 3 %, waarom speel je dan niet altijd op veilig? Je hoeft dan niet vooraf te schatten wat de proportie in een nog te trekken steekproef zal zijn.
In oef 26 heb je gewerkt met een steekproef van 160 kinderen. De vraag ging daar over de bloedgroep. Als die niet gekend zou zijn, dan is die met een eenvoudige procedure te bepalen. Maar onderstel eens dat het gaat over een studie waar bij elke deelnemer een uitgebreid medisch onderzoek nodig is. Als dat bij een groep van 160 deelnemers moet gebeuren, dan is het een vraag of er voldoende tijd en geld voorzien is om deze studie uit te voeren.
27 Oefening (opl 27)
Wanneer je, zoals bij de vorige studie, “externe” informatie hebt uit vroeger onderzoek (zoals: ongeveer 4 % kinderen hebben AB) maar toch liever “op veilig speelt”, hoe groot moet bij die vorige studie de steekproef dan zijn bij een klassieke foutenmarge van 3 % ?
Welke problemen kunnen er nu opduiken?
7 OPLOSSINGEN
1 Oplossing (oef 1)
Ga ervanuit dat je mag onderstellen dat de populatie van geboortelengtes van meisjes normaal verdeeld is met standaardafwijking \(\sigma = 2.\) Noor en Kasper willen weten wat de gemiddelde geboortelengte van de hele populatie is en zij beslissen om te werken met “puntschatten”.
Noor trekt een steekproef van grootte 16 en berekent het gemiddelde . Welke uitkomst vindt zij (gebruik de code chunk in je werkblad) ? Formuleer in woorden en met de juiste notatie een uitspraak over het populatiegemiddelde. Op welk onderliggend model is die uitspraak gebaseerd. Hoe noteer je dat model en wat is haar kansverdeling?
Het gevonden steekproefgemiddelde \(\bar{x} = 48.77\) is Noor’s schatting voor het populatiegemiddelde \(\mu\). Die schatting is een toevallige uitkomst van de schatter \(\bar{X}\) die in deze studie zich gedraagt als: \(\bar{X}\sim N(\mu , 0.5)\)
Kasper herhaalt wat Noor zopas deed (gebruik een tweede keer de code chunk in je werkblad). Wat is de uitkomst van Kasper? Welke uitspraak doet hij over het populatiegemiddelde?
Het gevonden steekproefgemiddelde is hier \(\bar{x} = 50.2\). Kasper zegt: “50.2 is mijn schatting voor de gemiddelde geboortelengte van meisjes”.
Wie heeft “de beste uitspraak” over het populatiegemiddelde gedaan, Noor of Kasper? Hoe weet je dat?
Niemand weet dat in deze studie \(\mu = 50\) en dus is er geen enkel criterium om Noor’s uitspraak boven die van Kasper te verkiezen (of omgekeerd).
2 Oplossing (oef 2)
Formuleer uitdrukking (2) in woorden en herformuleer daarna die kansuitspraak voor het concrete voorbeeld met \(n=16\) en \(\sigma=2\).
Als je geneigd bent om de kansuitspraak bij uitdrukking (1) te imiteren dan zou je tot het volgende resultaat komen:
\(\mu\) valt in het interval \([\bar{X} -1.96\ \dfrac{\sigma }{\sqrt{n}} \ , \ \bar{X} +1.96\ \dfrac{\sigma }{\sqrt{n}}]\) met kans 95 %
of korter: \(\mu\) valt met kans 95 % in het interval \(\bar{X} \ \pm \ 1.96\ \dfrac{\sigma }{\sqrt{n}}\) .
In het voorbeeld, met \(n=16\) en \(\sigma=2\) valt \(\mu\) met 95 % kans in \(\bar{X} \ \pm \ 0.98\).
Als je nu zegt “zoiets zou ik nooit zeggen” dan is dat volledig terecht want bovenstaande uitspraak is echt fout. Dat zie je in het vervolg van de tekst.
3 Oplossing (oef 3)
In opl 2 is de formulering van \(P\left( \bar{X}-1.96\ \dfrac{\sigma }{\sqrt{n}}\le \mu \le \ \bar{X}+1.96\ \dfrac{\sigma }{\sqrt{n}} \right)=0.95\) fout. Leg uit waarom die formulering fout is. Geef dan een correcte formulering.
Je hebt vroeger geleerd dat een populatieparameter, zoals het populatiegemiddelde \(\mu\), een vast getal is. Het is niet omdat je dat getal niet kent, dat het aan het toeval onderhevig is en bij elke steekproef een andere waarde zou krijgen.
Een uitspraak die zegt dat \(\mu\) ergens valt met een bepaalde kans is dus grondig fout.
Je hebt vroeger ook geleerd dat je kansuitspraken doet over kansmodellen, waarbij je vooraf zegt wat je allemaal verwacht en met welke kansen.
In formule (2) staat een kansuitspraak. Dat moet dus een uitspraak zijn over een kansmodel. Maar dat kansmodel staat niet in het midden (daar staat een Griekse letter) maar wel bij de twee uiteinden (daar zie je een hoofdletter). Je ziet daar dus een interval met een beginpunt en een eindpunt dat aan het toeval onderhevig is.
Formule (2) gaat over intervallen die nu eens hier en dan weer daar vallen, en die zodanig opgesteld zijn dat zij met kans 95 % de onbekende vaste \(\mu\) bevatten.
In het concrete voorbeeld is \([\ \bar{X} - 0.98 \ , \ \bar{X} + 0.98\ ]\) een kansmodel dat, bij het trekken van steekproeven van grootte \(n=16\), intervallen \([\ \bar{x} - 0.98 \ , \ \bar{x} + 0.98\ ]\) genereert die, in the long run, 95 keer van de 100 het ongekende populatiegemiddelde \(\mu\) te pakken hebben.
4 Oplossing (oef 4)
Gebruik bi_theor.qmd om intervallen te genereren die met 95 % kans het gemiddelde \(\mu\) bevatten van een normale populatie met standaardafwijking \(\sigma = 2\). Onderstel dat het echte gemiddelde van die populatie gelijk is aan 50. Jij beslist om met een steekproef van grootte \(n=16\) te werken. Vul de juiste codes in en toon je betrouwbaarheidsinterval, zowel grafisch als numeriek.
Een voorbeeld van oplossing zie je in fig 7 en fig 8.
Verander niets aan de codes van het programma. Klik op de “Render”-knop, en dan nog eens en nog eens. Krijg je, met 3 keer identieke codes, ook 3 identieke intervallen? Hoe komt dat? En hoe veranderen de foutenmarges? Wat betekent dat voor de lengte van die 3 intervallen? Leg uit.
Bij elke activatie van bi_theor.qmd trekt het programma een nieuwe steekproef. Dat leidt tot verschillende steekproefgemiddelden \(\bar{x}\) en dus ook tot verschillende intervallen.
Bij de gegeven codes is de foutenmarge gelijk aan \(1.96\ se(\bar{X})\) wat ook gelijk is aan \(1.96\ \dfrac{\sigma }{\sqrt{n}}.\) In deze uitdrukking komen steekproefwaarden niet voor en dus verandert de foutenmarge niet bij nieuwe steekproeven. De 3 gevonden intervallen zijn even lang (hun lengte = 2 x de foutenmarge).
5 Oplossing (oef 5)
- In oef 4 heb je ontdekt dat het kansmodel (3) intervallen genereert die nu eens hier en dan weer daar terechtkomen. Je kan dat iets uitgebreider illustreren door de betrouwbaarheidsintervallen van de 17 leerlingen van je klas op eenzelfde grafiek te tonen. Gebruik de codes van oef 4 waarbij je
bi_aantal <- 17invult.
Het kan verhelderend zijn om meerdere keren op de “Render”-knop te klikken. De variabiliteit is duidelijk, maar 17 leerlingen is niet genoeg om systematisch intervallen te vinden waarvan er “ongeveer 95 %” het populatiegemiddelde \(\mu\) omsluiten.
Hieronder zie je voorbeelden zoals jij er ook gevonden hebt. De 17 leerlingen gebruiken allemaal hetzelfde kansmodel en vinden verschillende intervallen. De variabiliteit in de resultaten is duidelijk.
Soms zijn er 16 van de 17 intervallen die \(\mu\) bevatten (94 %), soms 15 (88 %) … enz.
- Om die 95 % kans beter zichtbaar te maken werk je met 170 leerlingen en dus met code
bi_aantal <- 170. Wat zie je nu als je meerdere keren op de “Render”-knop klikt? En wat gebeurt er bij 1700 leerlingen?
Bij een groter aantal herhalingen (zoals 170 keer een interval opstellen) gebeurt het frequenter dat de gevonden proportie intervallen die \(\mu\) bevatten dicht bij 95 % ligt. Dat zie je bv. in de figuren hieronder. Als je nog meer herhalingen gebruikt (zoals 1700) dan benadert de relatieve frequentie nog veel beter de echte kans van 95 %. Dat heb je zelf ondervonden.
6 Oplossing (oef 6)
Antwoord eerst op de volgende vraag zonder bi_theor.qmd te gebruiken.
In oef 4 heb je jouw betrouwbaarheidsinterval opgesteld. Jij hebt daar gewerkt met een steekproef van grootte \(n=16\) en een betrouwbaarheid van 95 %. Als je nu overstapt op een betrouwbaarheid van 99 % en al de rest ongewijzigd laat, krijg je dan een interval dat even precies is als in oef 4? Hoe groot was toen de foutenmarge en hoe groot zal die nu zijn? Motiveer je antwoord.
Een betrouwbaarheidsniveau van 99 % impliceert een kritisch punt \(z = 2.58\). De foutenmarge (5) zal dan gelijk zijn aan \(fm=\ 2.58\cdot \dfrac{2}{\sqrt{16}}=1.29\). In oef 4 was de foutenmarge \(fm=0.98\) (zie fig 8). De betrouwbaarheid vergroten geeft een grotere foutenmarge en dus een langer (minder precies) interval.
Activeer daarna bi_theor.qmd en werk in viewer pane (zie 8.1). Gebruik dezelfde codes als in fig 7. Werk eerst met
betr_niveau <- 0.95en daarna metbetr_niveau <- 0.99. Bevestigt het resultaat jouw antwoord van zopas?
Inderdaad, bij een betrouwbaarheidsniveau van 95 % is de foutenmarge gelijk aan 0.98 en bij een betrouwbaarheidsniveau van 99 % is de foutenmarge gelijk aan 1.29.
- Werk vervolgens met
betr_niveau <- 0.90en dan metbetr_niveau <- 0.80. Noteer telkens de foutenmarge.
Welk patroon voor de foutenmarge ontdek je als je bij een vaste steekproefgrootte wil werken met een grotere of een kleinere betrouwbaarheid?
Bij een betrouwbaarheidsniveau van 90 % is de foutenmarge gelijk aan 0.82 en bij een betrouwbaarheidsniveau van 80 % is de foutenmarge gelijk aan 0.64.
Als je, zonder de grootte van de steekproef te veranderen, toch wil werken met een grotere betrouwbaarheid, dan betaal je daar een prijs voor: de nauwkeurigheid van je betrouwbaarheidsinterval verkleint (want je krijgt een grotere foutenmarge en dus een langer en minder precies interval).
7 Oplossing (oef 7)
Antwoord eerst op de volgende vraag zonder bi_theor.qmd te gebruiken.
In oef 4 heb je jouw betrouwbaarheidsinterval opgesteld. Jij hebt daar gewerkt met een steekproef van grootte \(n=16\) en een betrouwbaarheid van 95 %. De foutenmarge was daar gelijk aan 0.98. Als je nu werkt met een steekproef van grootte \(n=25\) en al de rest ongewijzigd laat, krijg je dan dezelfde foutenmarge als in oef 4? Hoe groot is nu die foutenmarge? Motiveer je antwoord.
De foutenmarge (5) is nu gelijk aan \(fm=\ 1.96\cdot \dfrac{2}{\sqrt{25}}=0.784\).
Als je de steekproef vergroot, dan verkleint de foutenmarge. Dat levert een korter en dus meer precies interval.
Gebruik nu bi_theor.qmd en werk in viewer pane (zie 8.1). Gebruik dezelfde codes als in fig 7 maar verander
toon <- 3intoon <- 2want meer heb je niet nodig om te weten hoe groot de foutenmarge is.
Noteer nu, bij een vast betrouwbaarheidsniveau van 95 %, de waarde van de foutenmarge bij verschillende steekproefgroottes:n_stkp <- 5,n_stkp <- 16,n_stkp <- 25,n_stkp <- 10000.
Welk patroon voor de precisie van je betrouwbaarheidsinterval ontdek je als je bij een vaste betrouwbaarheid werkt met een grotere of kleinere steekproef?
De gevonden foutenmarges, in volgorde (en afgerond) zijn: 1.75 , 0.98 , 0.78 , 0.04.
Een grotere steekproef levert een kleinere foutenmarge en dus een preciezer interval.
8 Oplossing (oef 8)
Schrijf nu ook voluit wat kolom B en C zeggen.
Kolom B zegt:
als je de precisie van je interval niet wil wijzigen (en werken met een vaste foutenmarge) en je wil toch een grotere betrouwbaarheid, dan heb je een grotere steekproef nodig.
Kolom C zegt:
als je een vast betrouwbaarheidsniveau wil, maar je wil wel een preciezer interval (met een kleinere foutenmarge), dan zal je een grotere steekproef moeten nemen.
9 Oplossing (oef 9)
Bepaal de vereiste steekproefgrootte als je eist dat jouw betrouwbaarheidsinterval een 95 % betrouwbaarheid moet hebben en een foutenmarge van respectievelijk: (a) \(fm=4\) , (b) \(fm=1\) , (c) \(fm=0.5\)
Antwoord: (a) \(n=1\) , (b) \(n=16\) , (c) \(n=62\)
Bepaal de vereiste steekproefgrootte als je eist dat jouw betrouwbaarheidsinterval een 99 % betrouwbaarheid moet hebben en een foutenmarge van respectievelijk: (a) \(fm=2\) , (b) \(fm=1\) , (c) \(fm=0.01\)
Antwoord: (a) \(n=7\) , (b) \(n=27\) , (c) \(n=265396\)
10 Oplossing (oef 10)
Geef je (gemotiveerde) bemerking bij de volgende uitspraken over die Californische studie:
*Een krant schreef dat de gemiddelde geboortelengte gelijk was aan 52.03 cm met een foutenmarge van 0.85 cm. Om de lezer duidelijk te maken wat deze uitspraak betekent, stond er de volgende uitleg :
“Het getal 52.03 is niet de exacte gemiddelde geboortelengte want dat getal is afkomstig van een steekproef en niet van de totale populatie. Daarom berekenen statistici een foutenmarge. Zo weet je dat de echte gemiddelde geboortelengte ligt in* \(52.03 \ \pm \ 0.85\) ”.
Deze uitspraak is fout.
Waar de echte gemiddelde geboortelengte \(\mu\) ligt weet je niet. Een foutenmarge laat je toe om van een puntschatting over te stappen op een interval. Het gevonden interval is een”uitkomst” van een onderliggend model dat met 95 % kans “goede” intervallen genereert. Maar of het gevonden 95 % betrouwbaarheidsinterval een “goed” interval is, weet je niet. Of \(\mu\) in \(52.03 \ \pm \ 0.85\) ligt weet je dus ook niet.
*Reanna zegt:
“Ik heb een kansmodel gebruikt dat intervallen genereert die met 95 % kans de gemiddelde geboortelengte bevatten. Daarna heb ik mijn steekproefwaarden ingevuld. Bij mij is* \([\ 51.17 \ , \ 52.88 \ ]\) het interval dat met 95 % kans de gemiddelde geboortelengte bevat.”
De uitspraak start juist maar loopt dan fout. Inderdaad, het gebruikte kansmodel genereert met 95 % kans”goede” intervallen. Als je de steekproefwaarden invult heb je één “uitkomst”. Dat is een “goed” of een “slecht” interval. Over dat gevonden “vast” interval \([\ 51.17 \ , \ 52.88 \ ]\) kan je geen kansuitspraak meer doen. Het bevat \(\mu\) wel of het bevat \(\mu\) niet.
Pol schrijft zijn mening kort en bondig in formulevorm:
“Na het invullen van de steekproefwaarden in \[P\left( \bar{X}-t\ \dfrac{S }{\sqrt{n}}\le \mu \le \ \bar{X}+t\ \dfrac{S }{\sqrt{n}} \right)=0.95\] vind ik dat \[P\left( 51.17\le \mu \le \ 52.88 \right)=0.95\]zodat \([\ 51.17 \ , \ 52.88 \ ]\) mijn 95 % betrouwbaarheidsinterval is.”
Je ziet hier 2 kansuitspraken.
De eerste kansuitspraak is correct. Die gaat over de kans van een “kansmodel”.
In de tweede kansuitspraak is een toevallige “uitkomst” van dat kansmodel ingevuld. Binnen de haakjes staan 3 vaste getallen, 2 gekende ( 51.17 en 52.88) en één niet gekend (\(\mu\)). Een kansuitspraak over vaste getallen is echt fout.
Fien ziet het anders. Zij zegt dat \([\ 51.17 \ , \ 52.88 \ ]\) het interval is waarin jouw gemiddelde geboortelengte met 95 % kans zal terechtkomen als je uit die populatie een steekproef gaat trekken en het gemiddelde berekenen.
De uitspraak van Fien gaat over het kansmodel \(\bar{X}\) dat beschrijft waar en met welke kans het steekproefgemiddelde terechtkomt als je een steekproef gaat trekken. Dat \(\bar{X}\) met 95 % kans in een toevallig getrokken betrouwbaarheidsinterval terechtkomt is fout. Kijk maar naar het groene en het rode interval in fig 6. Komt \(\bar{X}\) daarin terecht met kans 95 % ?
11 Oplossing (oef 11)
Gebruik de Californische studie om met een zelf getrokken steekproef van grootte \(n=36\) een 95 % betrouwbaarheidsinterval op te stellen voor het gemiddeld geboortegewicht van de kinderen in die studie:
Stel het model op voor het te maken betrouwbaarheidsinterval. Maak daarbij gebruik van wat je hierboven geleerd hebt bij “Model opstellen”.
- De bestudeerde populatie \(X\) is het geboortegewicht van alle kinderen in die Californische studie. De onderzochte karakteristiek is het gemiddeld geboortegewicht \(\mu\) .
- De onderzoeksvraag gaat over het populatiegemiddelde \(\mu\) waarvoor men een 95 % betrouwbaarheidsinterval wil.
- De standaardafwijking \(\sigma\) van de populatie is niet gekend maar de steekproef ( n = 36 ) is voldoende groot zodat de t-verdeling met \(T\sim t(35)\) kan gebruikt worden.
- Bij een betrouwbaarheidsniveau van 0.95 en een steekproef van \(n=36\) is het kritisch punt \(t=2.03\).
- Het kansmodel voor een 95 % betrouwbaarheidsinterval voor \(\mu\) is dus \([ \ \bar{X}-2.03\ \dfrac{S}{\sqrt{36}} \ , \ \bar{X}+2.03\ \dfrac{S }{\sqrt{36}}]\).
- De bestudeerde populatie \(X\) is het geboortegewicht van alle kinderen in die Californische studie. De onderzochte karakteristiek is het gemiddeld geboortegewicht \(\mu\) .
Gebruik de code chunk in je werkblad om de steekproef te trekken. Geef daarna het gevonden Excel bestand de naam mijndata.xlsx
De eerste 10 rijen van de steekproef die hier gevonden werd, zie je hiernaast.
De naam van het gevonden Excel bestand is gewijzigd in mijndata.xlsx.
De data die in deze studie nodig zijn staan in kolom D.
Werk dan met bi_gem.qmd (met de juiste codes) om het betrouwbaarheidsinterval te bepalen.
Met de codes:n_stkp <- 36,betr_niveau <- 0.95,datatype <- 1,mijndatakolom <- "D",gem_stkp <- NULL,stafw_stkp <- NULL,toon <- 1
levert bi_gem.qmd :
- Formuleer nauwkeurig je conclusie: “wat heb je gevonden en wat betekent dit in deze studie?”.
Voor kinderen in deze studie is \(3.34 \ \pm \ 0.22\) een 95 % betrouwbaarheidsinterval voor hun gemiddeld geboortegewicht \(\mu\). Of dat (ongekende maar vaste) gemiddeld geboortegewicht echt in \(3.34 \ \pm \ 0.22\) ligt, weet je niet. De gebruikte procedure (95 % betrouwbaarheid) geeft er “vertrouwen in” om (bij afwezigheid van verdere informatie) te zeggen dat alle waarden in [ 3.11 , 3.56 ] “aannemelijke waarden” zijn voor het gemiddeld geboortegewicht \(\mu\).
12 Oplossing (oef 12)
Lucas heeft horen zeggen dat een kleine friet bij McDonald’s 80 g weegt. Hij weet dat hij niet moet verwachten dat een steekproef exact een gemiddelde van 80 g zal opleveren en dus besluit hij om te onderzoeken of 80 g minstens een “aannemelijke waarde” is bij de McDonald’s in zijn straat. Op willekeurige dagen en willekeurige uren gaat hij naar die McDonald’s, koopt een kleine friet en weegt die. Dat doet hij 36 keer. Het resultaat (in gram) staat in kolom F van het Excel bestand met naam steekproef_th&bi.xlsx. Maak eerst een kopie van steekproef_th&bi.xlsx en geef die kopie de naam mijndata.xlsx.
Gebruik bi_gem.qmd met code
toon <- 2zodat je de R_output kan gebruiken om een 95 % betrouwbaarheidsinterval te bepalen. Wat is dit interval en welk antwoord geef je op de onderzoeksvraag van Lucas?
Met de codes:n_stkp <- 36,betr_niveau <- 0.95,datatype <- 1,mijndatakolom <- "F",gem_stkp <- NULL,stafw_stkp <- NULL,toon <- 2
levert bi_gem.qmd :Het gevonden 95 % betrouwbaarheidsinterval is (afgerond) gelijk aan [ 75.67 , 80.33 ]. Aangezien 80 in dit interval ligt zeg je tegen Lucas dat 80 g inderdaad een aannemelijk gemiddeld gewicht is voor die zakjes friet.
Lucas zegt dat bij zijn steekproef het gemiddelde \(\bar{x} = 78\) is en de standaardafwijking \(s = 6.87\). Hij vraagt of gemiddelde en standaardafwijking van een steekproef niet volstaan om een 95 % betrouwbaarheidsinterval op te stellen, of moet je daarvoor echt expliciet alle opmetingen kennen?
Jij zegt dat je inderdaad genoeg hebt aan \(\bar{x}\) en \(s\) als je ook weet dat het betrouwbaarheidsniveau 0.95 moet zijn.
Is dat waar? Motiveer.
Neen, dat is niet waar. Het model fig 11 toont dat de kennis van \(\bar{x}\) en \(s\) niet voldoende is. Je moet ook weten hoe groot de steekproef is om \(\sqrt{n}\) te kennen en om te weten met welke t-verdeling (vrijheidsgraden = (n-1)) je moet werken.
13 Oplossing (oef 13)
In fig 13 zie je een 95 % betrouwbaarheidsinterval voor de gemiddelde geboortelengte van de Californische kinderen in die studie. Dat interval is opgesteld op basis van een steekproef van grootte \(n = 36\). Jij hebt die steekproefresultaten niet, maar men zegt je dat, bij die steekproef, het gemiddelde \(\bar{x}\) gelijk is aan 52.03 en de standaardafwijking \(s\) gelijk is aan 2.52. Gebruik die informatie om een 95 % betrouwbaarheidsinterval voor de gemiddelde geboortelengte te bepalen. Gebruik bi_gem.qmd met de juiste codes en werk bovendien met toon <- 3 zodat je zowel de tabel als de R-output krijgt. Vind je het verwachte interval?
Inderdaad het resultaat is zoals verwacht (fig 13).
14 Oplossing (oef 14)
Toon aan hoe je, “in de praktijk”, formule (7) gebruikt om de grootte van de vereiste steekproef te bepalen wanneer je wil werken met een betrouwbaarheidsniveau van 95 % en met een foutenmarge die gelijk is aan 0.6. Motiveer je antwoord.
Om de steekproefgrootte \(n\) te bepalen moet je de gevonden standaardafwijking \(s\) van de steekproef invullen in formule (7). Je hebt nog geen steekproef, dus ken je \(s\) niet.
Je hebt ook het kritisch punt \(t\) nodig van de t-verdeling met \((n-1)\) vrijheidsgraden. Je kent \(n\) niet en dus weet je niet welke t-verdeling je moet gebruiken.
Besluit: formule (7) rechtstreeks toepassen gaat niet. Je hebt bijkomende informatie nodig om (benaderende waarden van) \(s\) en \(t\) te kunnen invullen.
15 Oplossing (oef 15)
Gebruik de code chunk fig 12 om uit de kinderen in die Californische studie een steekproef te trekken van grootte \(n = 70\). Geef de gevonden steekproef de naam mijndata.xlsx en gebruik dan bi_gem.qmd met codes:
n_stkp <- 70, betr_niveau <- 0.95, datatype <- 1, mijndatakolom <- "C", gem_stkp <- NULL, stafw_stkp <- NULL, toon <- 1.
Vind je een foutenmarge die ongeveer gelijk is aan de gewenste 0.6 ?
De steekproef van grootte \(n=70\) die in deze tekst getrokken is, levert \(51.62 \ \pm \ 0.63\) als 95 % betrouwbaarheidsinterval voor de gemiddelde geboortelengte \(\mu\). De foutenmarge is gelijk aan 0.63 wat iets meer is dan de vooropgestelde 0.60.
Nota: een kopie van de data die hier gevonden werden staat in kolom M van het Excel bestand: steekproef_th&bi.xlsx.
16 Oplossing (oef 16)
Gebruik de code chunk fig 12 om uit de kinderen in die Californische studie een steekproef te trekken van grootte \(n = 100\). Geef de gevonden steekproef de naam mijndata.xlsx en gebruik dan bi_gem.qmd met codes:
n_stkp <- 100, betr_niveau <- 0.95, datatype <- 1, mijndatakolom <- "D", gem_stkp <- NULL, stafw_stkp <- NULL, toon <- 1.
Vind je een foutenmarge die ongeveer gelijk is aan de gewenste 0.10 ?
De steekproef van grootte \(n=100\) die in deze tekst getrokken is, levert \(3.36 \ \pm \ 0.11\) als 95 % betrouwbaarheidsinterval voor het gemiddeld geboortegewicht \(\mu\). De foutenmarge is gelijk aan 0.11 wat iets meer is dan de vooropgestelde 0.10.
Nota: een kopie van de data die hier gevonden werden staat in kolom N van het Excel bestand: steekproef_th&bi.xlsx.
17 Oplossing (oef 17)
Zoek, met de “+2/+4 regel”, een 95 % betrouwbaarheidsinterval voor de proportie \(p\) van de 0 ‑ 1 populatie waaruit je zopas een steekproef van grootte \(n=96\) trok waarbij je 18 successen vond. Doe de berekening “met de hand” (of met een rekentoestel). Interpreteer wat het interval betekent voor \(p\).
\(\tilde{n}=n+4=100\) en \(\tilde{p}=\dfrac{x+2}{n+4}=\dfrac{20}{100}=0.2\) zodat
\(\sqrt{\tilde{p}(1-\tilde{p})}\) = \(\sqrt{0.2(0.8)}\) = \(\sqrt{0.16)}\) = 0.4. Hieruit volgt dat
\(\tilde{p}\pm 1.96\cdot \dfrac{\sqrt{\tilde{p}\,(1-\tilde{p})}}{\sqrt{\tilde{n}}}\) = \(0.2\pm 1.96\cdot \dfrac{0.4}{10}\). Een 95 % betrouwbaarheidsinterval voor \(p\) is gelijk aan [0.1216 , 0.2784]. Alle waarden in [0.1216 , 0.2784] zijn aannemelijke waarden voor de populatieproportie \(p\).
Gebruik nu, voor dezelfde vraag, het R programma bi_prop.qmd. Vul nauwkeurig de codes in, onder meer
methode <- "ac_+2/+4". Vind je hetzelfde resultaat?Inderdaad, het R programma levert hetzelfde betrouwbaarheidsinterval.
18 Oplossing (oef 18)
Zoek, met de “+2/+4 regel”, een 95 % betrouwbaarheidsinterval voor de proportie \(p\) van de 0 ‑ 1 populatie wanneer jouw steekproef van grootte \(n=12\) geen enkel succes had. Doe de berekening “met een eenvoudig rekentoestel”. Hoe rapporteer je het gevonden resultaat. Wat kan je nu zeggen over de succesproportie \(p\) in die populatie?
\(\tilde{n}=n+4=16\) en \(\tilde{p}=\dfrac{x+2}{n+4}=\dfrac{2}{16}=0.125\) zodat
\(\sqrt{\tilde{p}(1-\tilde{p})}\) = \(\sqrt{\dfrac{2}{16}\dfrac{14}{16}}\) = \(\dfrac{\sqrt{28}}{16}\) = 0.3307. Hieruit volgt dat
\(\tilde{p}\pm 1.96\cdot \dfrac{\sqrt{\tilde{p}\,(1-\tilde{p})}}{\sqrt{\tilde{n}}}\) = \(0.125\pm 1.96\cdot \dfrac{0.3307}{4}\) = \(0.125\pm 0.1620\) wat je ook kan schrijven als [-0.0370 , 0.2870].
Een proportie kan niet negatief zijn en dus rapporteer je [0 , 0.2870] als 95 % betrouwbaarheidsinterval voor \(p\). Alle waarden in [0 , 0.2870] zijn aannemelijke waarden voor de populatieproportie.
Gebruik nu, voor dezelfde vraag, het R programma bi_prop.qmd. Wat merk je bij de output?
De ondergrens (0) heeft een achtergrond die iets donkerder grijs is. Dat betekent dat de “berekende” ondergrens negatief was (die is gelijk aan -0.0370 , dat heb jij zopas berekend). Het programma geeft het “te rapporteren” interval van alle aannemelijke waarden van \(p\) (Note 5).
19 Oplossing (oef 19)
Gebruik bi_prop.qmd en zoek een 95 % betrouwbaarheidsinterval voor de proportie kinderen met een laag geboortegewicht in de totale populatie van die Californische studie. Gebruik de “+2/+4 regel” van Agresti-Coull. De steekproefresultaten staan in kolom O van “steekproef_th&bi.xlsx”. Kopieer dit Excel bestand eerst en geef die kopie de naam “mijndata.xlsx”. Interpreteer wat je gevonden hebt.
[0.0257 , 0.1281] is een 95 % betrouwbaarheidsinterval voor de proportie kinderen met een laag geboortegewicht. Alle waarden tussen 2.57% en 12.81% zijn aannemelijke waarden voor het percent kinderen in die studie die een laag geboortegewicht hebben.
Als je een preciezer (korter) interval wil met 95 % betrouwbaarheid, wat zal je dan doen?
Bij een vaste betrouwbaarheid zal je een grotere steekproef nemen om een korter interval te krijgen.
20 Oplossing (oef 20)
Voor alle vragen werk je bij een betrouwbaarheidsniveau van 95 % en gebruik je als methode “wald”. Je berekent telkens de coverage probability (\(C\)).
Je overloopt verschillende combinaties van waarden voor \(p\) en \(n\).
Als \(p\) zeer dicht tegen 0 of 1 ligt, dan verwacht je problemen bij kleine tot matige waarden van \(n\) (scheve verdelingen).
Zoek C voor \(p=0.005\) en \(n\) respectievelijk 10 , 182 , 591.
De kans dat een Wald 95 % betrouwbaarheidsinterval, bij een steekproef van grootte \(n=10\), de populatieproportie \(p\) te pakken heeft, is slechts 4.9 % wanneer \(p=0.005\). Als de steekproef groter en groter wordt, dan wordt de coverage \(C\) ook beter en beter ( van 4.9 % over 59.8 % naar 94.5 % ). Dit is wat je verwacht, niet?
Levert een grotere steekproef een betere coverage? Vergelijk \(n=591\) met \(n=592\)
De steekproef VERGROTEN van 591 naar 592 levert een DALING van de coverage van 94.5 % naar 79.2 % als je Wald toepast met een betrouwbaarheidsniveau van 95 % . Dat had je nooit verwacht.
Voor \(p\) minder extreem, zoals \(p=0.2\), verwacht je misschien een beter gedrag.
Zoek C voor \(p=0.2\) en \(n\) respectievelijk 31 en 32.Bij een populatieproportie die helemaal niet meer extreem is (\(p=0.2\)) springt de coverage op een onverklaarbare manier over en weer.
Misschien denk je dat een symmetrische verdeling de oplossing biedt en dus probeer je \(p=0.5\)
Zoek C voor \(p=0.5\) en \(n\) respectievelijk 17 en 40.Ook dit helpt niet. De Wald methode genereert intervallen die soms zeer goed zijn (die met kans dicht tegen 95 % de populatieproportie bevatten) en soms ook heel slecht. Een groot probleem hierbij is de onvoorspelbaarheid. Je hebt geen idee wanneer het goed gaat en wanneer slecht.
21 Oplossing (oef 21)
In België heeft 46 % van de bevolking bloedgroep O, 42 % heeft bloedgroep A, 9 % heeft bloedgroep B en 3 % heeft bloedgroep AB.
Bij een steekproef van 12 inwoners bemerkt men dat niemand bloedgroep AB heeft. Gebruik deze steekproefresultaten om een 95 % betrouwbaarheidsinterval \(B{{I}_{Wa}}\) op te stellen voor \(p\) (de proportie Belgen die bloedgroep AB heeft). Ga ervan uit dat je de informatie over de totale populatie niet vooraf gekregen hebt en dus niet weet wat \(p\) is.
Om dit interval op te stellen heb je geen software nodig, hoofdrekenen volstaat.
Geef nu ook een interpretatie voor het gevonden betrouwbaarheidsinterval. Wat zijn “aannemelijke waarden” voor de proportie Belgen met bloedgroep AB ?
Als de proportie successen in de populatie gelijk is aan nul (\(p=0\)) dan vind je in een steekproef uiteraard ook nul successen. Maar omgekeerd, als je in de steekproef nul successen vindt, dan hoeft dat helemaal niet te betekenen dat er geen successen in de totale populatie zitten.
Als je 0 successen in de steekproef hebt zodat \(\hat{p}=0\), dan is het Wald 95 % betrouwbaarheidsinterval voor de populatieproportie \(p\) gelijk aan \(\left[ 0\ ,\ 0 \right]\) (fig 14).
De “aannemelijke waarden” voor de proportie Belgen met bloedgroep AB is “nul”.
Dat antwoord verwacht je niet, en terecht.
22 Oplossing (oef 22)
Gebruik de code chunk fig 15 in jouw “mijnwerkblad.qmd”.
Werk met een betrouwbaarheidsniveau van 95 % en met “ac_+2/+4” (8).
Bereken de coverage probability (\(C\)) voor:
\(p=0.005\) en \(n=10\)
\(p=0.2\) en \(n=32\)
\(p=0.5\) en \(n=40\)
Vergelijk de resultaten met wat je vond in opl 20. Welke methode verkies je? Waarom?
Voor elke combinatie van \(p\) en \(n\) die hier zijn onderzocht, is de coverage probability bij het Agresti-Coull +2/+4 model beter dan bij het Wald model. Dus kies je “ac_+2/+4”.
23 Oplossing (oef 23)
Bij een steekproef van 12 Belgen was er niemand met bloedgroep AB. Die informatie heb je gebruikt om een 95 % betrouwbaarheidsinterval op te stellen voor de proportie Belgen met bloedgroep AB. In oef 21 heb je een Wald betrouwbaarheidsinterval \(B{I}_{Wa}\) opgesteld. Met dezelfde data heb je in oef 18 een Agresti-Coull betrouwbaarheidsinterval \(B{I}_{AC+2/+4}\) gemaakt. Geef nu een antwoord op dezelfde vraag met een 95 % betrouwbaarheidsinterval van Wilson \(B{I}_{Wi}\) . Vergelijk de gevonden betrouwbaarheidsintervallen:
1. Welk interval is niet zinvol? Waarom?
\(B{I}_{Wa}\) = [0 , 0] is niet zinvol want nul successen in een steekproef betekent niet dat de “enige” aannemelijke proportie successen in de populatie ook nul is.
2. Welk “zinvol” interval geeft de meest precieze informatie? Had je dat verwacht?
\(B{I}_{AC+2/+4}\) = [0 , 0.2870] is zinvol. Alle waarden in dit interval zijn “aannemelijke” proporties Belgen met bloedgroep AB. Het interval is weinig precies wegens de beperkte informatie in een kleine steekproef (\(n=12\)).
\(B{I}_{Wi}\) = [0 , 0.2425] : dezelfde opmerking als bij Agresti-Coull. Ook hier is het interval weinig precies, maar het is, zoals verwacht, korter dan Agresti-Coull (deze eigenschap is vermeld in de tekst maar een wiskundig bewijs hiervan valt buiten de context van het secundair).
3. Als je voor dezelfde vraag een steekproef trekt van grootte \(n=60\) en daarin niemand vindt met bloedgroep AB, welk Wilson interval verwacht je dan: korter of langer dan het vorige Wilson interval? Toon dit aan en zeg wat dit nieuwe Wilson interval betekent.
Bij een grotere steekproef verwacht je een korter (en dus meer precies) interval.
Inderdaad, bij \(n=12\) is \(B{I}_{Wi}\) = [0 , 0.2425] en bij \(n=60\) is \(B{I}_{Wi}\) = [0 , 0.0602].
[0 , 0.0602] is een 95 % betrouwbaarheidsinterval voor de populatieproportie \(p\) : alle waarden tussen 0 % en 6.02 % zijn aannemelijke waarden voor het percent Belgen met bloedgroep AB.
24 Oplossing (oef 24)
Bij een steekproef van 47 leeftijdsgenoten ontdekt je dat er 17 vegetariër zijn.
1. Stel een 95 % betrouwbaarheidsinterval op voor de proportie vegetariërs onder jouw leeftijdsgenoten. Zeg ook in woorden wat dit interval betekent.
\(B{I}_{Wi}\) = [0.2397 , 0.5046] is een 95 % betrouwbaarheidsinterval: alle waarden tussen 23.97 % en 50.46 % zijn aannemelijke waarden voor het percent leeftijdsgenoten dat vegetariër is.
2. Als je, met dezelfde data, een 90 % betrouwbaarheidsinterval opstelt, is dat dan langer of korter dan het vorige? Waarom? Toon dit aan door dat interval op te stellen.
De lengte van een betrouwbaarheidsinterval is (op kleine afrondingsverschillen na) gelijk aan twee keer de foutenmarge en dus kan je evengoed de foutenmarge vergelijken.
Bij een kleiner betrouwbaarheidsniveau verwacht je dat dezelfde data een kleinere foutenmarge geven (fig 10).
Inderdaad, bij deze studie is \(fm = 0.1325\) bij 95 % betrouwbaarheid en
\(fm = 0.1124\) bij 90 % betrouwbaarheid.
3. Welk model heb je ingevuld in bi_prop.qmd bij methode <- ...? Waarom?
Er is beide keren met de methode van Wilson gewerkt. Dit is de methode die de voorkeur heeft. Bovendien is in deze tekst alleen de vereenvoudigde methode van Agresti-Coull behandeld met bijhorende software enkel voor 95 % betrouwbaarheidsintervallen.
25 Oplossing (oef 25)
- Zoek een 95 % betrouwbaarheidsinterval voor de proportie Californische kinderen met bloedgroep AB. Gebruik de steekproef van grootte \(n=80\) die je zopas getrokken hebt. Werk met bi_prop.qmd met codes:
n_stkp <- 80,betr_niveau <- 0.95,datatype <- 1,
mijndatakolom <- "B",succ_stkp <- NULL,methode <- "wilson".
Zeg in woorden wat je resultaat betekent.
\(B{I}_{Wi}\) = [0.0196 , 0.1216] is een 95 % betrouwbaarheidsinterval voor \(p\): alle waarden tussen 1.96 % en 12.16 % zijn aannemelijke waarden voor het percent kinderen met bloedgroep AB in die Californische studie.
- Beantwoord, met dezelfde data, dezelfde vraag nu ook met de +2/+4 regel van Agresti-Coull. Aan welke methode geef je de voorkeur? Waarom?
\(B{I}_{AC}\) = [0.0164 , 0.1265] is een 95 % betrouwbaarheidsinterval voor \(p\). Bij een steekproef van grootte \(n=80\) is, naast Wilson, ook Agresti-Coull een goed model om 95 % betrouwbaarheidsintervallen op te stellen. Het interval van Agresti-Coull is echter groter dan dat van Wilson (foutenmarge = 0.0551 t.o.v. 0.051). Daarom heeft het model van Wilson de voorkeur.
26 Oplossing (oef 26)
Gebruik de code chunk fig 16 in jouw “mijnwerkblad.xlsx” om een steekproef te trekken van 160 Californische kinderen waarbij blgk1 als een 0-1 veranderlijke gecodeerd is (met 1 = AB). Kopieer het gevonden Excel bestand en geef het de naam “mijndata.xlsx”.
Zoek een 95 % betrouwbaarheidsinterval voor de proportie Californische kinderen met bloedgroep AB. Gebruik de steekproef van grootte \(n=160\) die je zopas getrokken hebt. Werk met bi_prop.qmd met codes:
n_stkp <- 160,betr_niveau <- 0.95,datatype <- 1,
mijndatakolom <- "B",succ_stkp <- NULL,methode <- "ac_+2/+4".
Vind je een foutenmarge in de buurt van 3 % ?
In de output zie je dat de steekproef van grootte \(n=160\) die in deze tekst gevonden is, 6 kinderen met bloedgroep AB bevat (\(x = 6\)).
Het bijhorende 95 % Agresti-Coull betrouwbaarheidsinterval heeft een foutenmarge van 3.3 % . Dat is een goede benadering van de gewenste 3 % foutenmarge.
Bemerk dat andere steekproefresultaten andere foutenmarges zullen opleveren die (meestal) niet ver van de gewenste 3 % zullen liggen.
27 Oplossing (oef 27)
Wanneer je, zoals bij de vorige studie, “externe” informatie hebt uit vroeger onderzoek (zoals: ongeveer 4 % kinderen hebben AB) maar toch liever “op veilig speelt”, hoe groot moet bij die vorige studie de steekproef dan zijn bij een klassieke foutenmarge van 3 % ?
Welke problemen kunnen er nu opduiken?
Als je \(\tilde{p}\) vervangt door de “veilige” waarde \(0.5\) dan volgt uit 10 : \(n+4=\dfrac{{{1.96}^{2}}}{{{\left( 0.03 \right)}^{2}}}\cdot \ \left(0.5\right)\left(0.5\right) =1067.11\).
De vereiste steekproefgrootte is dan \(n=1064\).
Een studie waarbij je 160 deelnemers nodig had verspringt nu naar een studie waar meer dan duizend deelnemers nodig zijn. Afhankelijk van het type studie kan deze steekproef te groot zijn (of te duur) om in de praktijk nog te kunnen uitvoeren.
8 Appendix
8.1 Preview in viewer pane
Als je bij het uitvoeren van een programma snel meerdere resultaten na elkaar wil zien, dan kan het handig zijn om het resultaat in de “Viewer pane” van RStudio te tonen ipv in “Window”. Zo moet je niet telkens overschakelen van het ene tabblad naar het andere.
Op welke manier je (in het vervolg) resultaten wil zien bepaal je zelf. Je kan op elk ogenblik de setting veranderen om vanaf dan de resultaten weer systematisch op de andere manier te zien.
Als voorbeeld zie je hier in het “Scripts”-luik (linker bovenhelft) van RStudio het programma bi_theor.qmd staan (dat is een script dat betrouwbaarheidsintervallen genereert). Je activeert het programma door in de balk erboven op de “Render”-knop te klikken waarbij je vooraf de setting van die “Render”-knop kan aanpassen.
Rechts van de “Render”-knop staat een tandwiel en pijltje. Klik daarop en dan gaat een keuzebalk open. Zorg er nu voor dat “Preview in viewer pane” aangeklikt staat en klik dan op de “Render”-knop.
Vanaf nu zal, telkens je op de “Render”-knop klikt, het resultaat in het rechterluik van RStudio verschijnen, zoals hieronder.
8.2 Student t‑verdeling
Als de populatie normaal verdeeld is \(X\sim N(\mu ,\sigma)\) dan is de T‑statistiek
\[T=\dfrac{\bar{X}-{\mu} }{S/\sqrt{n}}=\dfrac{\left( \dfrac{1}{n}\sum{{{X}_{i}}} \right)-{\mu}}{\sqrt{\dfrac{1}{n-1}\sum{{{\left( {{X}_{i}}-\bar{X} \right)}^{2}}}}/\sqrt{n}}\]
verdeeld volgens een t‑verdeling.
Het kansmodel van de T‑statistiek werd opgesteld door William Gosset (1876-1937) toen hij voor de Guinness brouwerij werkte. Wegens “fabrieksgeheim” mocht hij niet onder eigen naam publiceren en als pseudoniem koos hij dan maar “Student”.
Zo is de “Student t‑verdeling” of “t‑verdeling” de gangbare naam voor het kansmodel van de T‑statistiek geworden.
Een model dat zich gedraagt als een t‑verdeling noteer je met een (hoofdletter) T.
Eigenlijk zijn er een hele familie t‑verdelingen. Bij een steekproefgrootte \(n\) hoort een t‑verdeling met \(n-1\) vrijheidsgraden.
De notatie \(T\sim t(n-1)\) betekent dat T een t‑verdeling met (n–1) vrijheidsgraden heeft. De waarde die zo’n model aanneemt noteer je als t (kleine letter). Je spreekt dan over een gevonden t‑waarde.
De grafiek van een t‑verdeling lijkt heel goed op de grafiek van een standaard normale verdeling, maar bij een t‑verdeling zie je “dikkere staarten” (meer kans om in gebieden te vallen die wat verder weg van het centrum liggen).
Hiernaast zie je de dichtheidsfunctie van de standaard normale \(Z\sim N(0,1)\) en van de t‑verdeling met 4 vrijheidsgraden \(T\sim t(4)\).
Bij grotere steekproeven (en dus bij een groter aantal vrijheidsgraden) zijn t‑verdelingen zo goed als niet te onderscheiden van de standaard normale. Dat zie je op de figuur hiernaast voor t‑verdelingen met 1, 2, 4 en 9 vrijheidsgraden.
8.3 BI-gem: t‑verdeling
Vroeger, bij het theoretisch voorbeeld, hebt je gewerkt met de \(Z\)-statistiek \(Z=\dfrac{\bar{X}-\mu }{\sigma /\sqrt{n}}\) om het kansmodel voor betrouwbaarheidsintervallen op te stellen (zie 1 , 2 , 3).
Op een analoge manier werk je nu met de \(T\)-statistiek:
\[T=\dfrac{\bar{X}-{\mu} }{S/\sqrt{n}}=\dfrac{\left( \dfrac{1}{n}\sum{{{X}_{i}}} \right)-{\mu}}{\sqrt{\dfrac{1}{n-1}\sum{{{\left( {{X}_{i}}-\bar{X} \right)}^{2}}}}/\sqrt{n}}\]
Voor een 95 % betrouwbaarheidsinterval zoek je het kritisch punt \(t\) zodat een t‑verdeling met \((n-1)\) vrijheidsgraden voldoet aan: \[P\left( -t\le \ \dfrac{\bar{X}-\mu }{S/\sqrt{n}} \le \ t \right)=0.95\] wat je kan herschrijven als
\[P\left( \bar{X}-t\ \dfrac{S }{\sqrt{n}}\le \mu \le \ \bar{X}+t\ \dfrac{S }{\sqrt{n}} \right)=0.95\] Hieruit volgt dat, bij een ongekende \(\sigma\), het kansmodel voor een 95 % betrouwbaarheidsinterval voor \(\mu\) eruitziet als: \[[ \ \bar{X}-t\ \dfrac{S}{\sqrt{n}} \ , \ \bar{X}+t\ \dfrac{S }{\sqrt{n}}] \hspace{1cm}of\] \[\bar{X} \ \ \pm \ \ t\ \dfrac{S }{\sqrt{n}}\]
Bijvoorbeeld bij een steekproef van grootte \(n=36\) is \(T\sim t(35)\) en daarvoor geldt dat \(P\left( -2.03\le \ T \le \ 2.03 \right)=0.95\). Het kritisch punt \(t\) is hier gelijk aan 2.03.
\(\bar{X} \ \ \pm \ \ 2.03\ \dfrac{S }{\sqrt{36}}\)is het kansmodel voor een 95 % betrouwbaarheidsinterval voor \(\mu\) als je zinnens bent om een steekproef van grootte \(n=36\) te trekken uit een normale populatie met ongekende \(\sigma\).
8.4 BI-gem: vuistregel
Bij het opstellen van een betrouwbaarheidsinterval voor een populatiegemiddelde \(\mu\) start je, in de praktijk, met \(T=\dfrac{\bar{X}-{\mu} }{S/\sqrt{n}}.\) Die steekproefgrootheid heeft een \(t\)‑verdeling met (n-1) vrijheidsgraden als de (correct getrokken) steekproef komt uit een populatie die zelf normaal verdeeld is.
Wat doe je als de populatie niet normaal verdeeld is?
Onderzoek heeft aangetoond dat de voorgestelde manier van werken een robuuste procedure is. Daarmee bedoelt men dat je nog altijd voldoende nauwkeurige resultaten krijgt, zelfs wanneer de startvoorwaarde niet perfect voldaan is.
Als vuistregel mag je blijven werken met het kansmodel in fig 11:
als de steekproef “voldoende groot” is zodat \(n\) ongeveer 30 is of meer
bij kleinere steekproeven waarbij je mag onderstellen dat de populatie “niet te drastisch” afwijkt van de normale verdeling.
8.5 BI-prop: binomiale
De binomiale verdeling is discreet en, bij een beperkte steekproefgrootte zoals \(n=16\), zeer scheef voor \(p\) dicht tegen 0 of 1.
Als je, bij het opstellen van een 95 % betrouwbaarheidsinterval, op zoek gaat naar een (te verwijderen) linker- en rechterstaart waarin \(\hat{P}\) met kans 2.5 % terechtkomt, dan lukt dat niet (bemerk dat \(\hat{P}=\dfrac{1}{n}X\) met \(X\sim B\left( n\,,\,p \right)\) ).
Hieronder zie je een voorbeeld waarbij de binomiale symmetrisch is (\(p=0.5\)) en een ander voorbeeld waarbij de verdeling zeer scheef is (\(p=0.05\)). De steekproefgrootte is telkens gelijk aan \(n=16\).
Het staafdiagram toont een discrete verdeling, symmetrisch rond het midden. Als je linker- en rechterstaarten van dezelfde grootte weglaat, dan krijg je in het midden gebieden waarin de binomiale \(X\) met bepaalde kansen terechtkomt (zie de tabel hiernaast voor kansen en cumulatieve kansen):
in [3,13] met kans 0.996
in [4,12] met kans 0.979
in [5,11] met kans 0.923
in [6,10] met kans 0.79
De mogelijke waarden van \(X\) bepalen “centrale” intervallen waarin \(X\) terechtkomt met kansen die sprongen maken, zoals (afgerond) van 98 % naar 92 %. De gevraagde 95 % staat daar niet tussen.
Het staafdiagram toont een discrete en scheve verdeling. Het gemiddelde is hier gelijk aan \(n\cdot p=\left( 16 \right)\cdot \left( 0.05 \right)=0.8\).
Als je links en rechts een gebied van 5 % of van 2.5 % of… zou willen weglaten zodat het kansmodel in het “centrum” terechtkomt met kans 90 % of met kans 95 % of…, hoe zou je dat doen?