Steekproef, gemiddelde en proportie
Inzicht in de variabiliteit van steekproeven en van grootheden gebaseerd op steekproeven (zoals het steekproefgemiddelde) is cruciaal bij toetsen van hyothesen en bij betrouwbaarheidsintervallen.
Bij de studie van steekproeven is het nuttig dat je weet hoe kansmodellen werken. Het is ook handig dat je vertrouwd bent met de bijhorende terminologie en notatie (zie: tekst over kansmodellen).
1 Populatie
1.1 Kapstokvoorbeeld
De basisbegrippen brengen we aan met een eenvoudig voorbeeld. Deze manier van aanpak helpt om, zonder ingewikkelde technieken, in te zien waar het echt over gaat.
Een steekproef trek je uit een populatie en een populatie beschrijf je met een kansmodel.
Een kansmodel is een geïdealiseerd wiskundig model dat zegt op welke manier data tot jou komen.
- Soms werk je met een populatie \(X\) waar een kansverdeling bij hoort. Dan beschrijf je een populatie waarbij de mogelijke uitkomsten discreet zijn.
- Je kan ook te maken hebben met een populatie \(X\) waar een kansdichtheid bij hoort. Dat doe je om populaties aan te duiden waarbij de uitkomsten een continuüm bestrijken.
In dit kapstokvoorbeeld houden we het super eenvoudig en starten met een discrete populatie met maar 3 mogelijke uitkomsten.
1.2 De rode dobbelsteen
De rode dobbelsteen ken je al. Het is een eerlijke dobbelsteen waar je op 3 zijvlakken een 1 hebt geschreven, op twee zijvlakken een 3 en op het overblijvende zijvlak een 6. Deze dobbelsteen is onze populatie \(X\) waaruit we een steekproef gaan trekken. De kansverdeling (in tabelvorm en met kansen afgerond tot op 4 decimalen) zie je in fig 1.
Let op de notatie: met een hoofdletter ( \(X\) ) duid je het kansmodel aan (de rode dobbelsteen) en een kleine letter ( \(x\) ) staat voor een mogelijke uitkomst van het kansmodel. \(P(X=3)\) is de kans dat de rode dobbelsteen op 3 valt.
2 Steekproef
2.1 Steekproef van grootte 2
Niet alleen de populatie maar ook de steekproef houden we eenvoudig. We beperken ons tot een steekproef van grootte n = 2 en tonen stap na stap hoe je daarover moet nadenken.
Begin met een eerste keer te trekken uit de populatie, dus met een eerste keer die dobbelsteen te gooien. Noteer het resultaat met \({{x}_{1}}\). Die eerste worp kan een 3 opleveren, maar het kan ook een 1 of een 6 zijn. Om vooraf te beschrijven wat er zal gebeuren als je een eerste keer zal gooien, heb je een kansmodel nodig. Als \({{x}_{1}}\) de notatie is van de uitkomst bij de eerste trekking, dan noteer je het kansmodel voor de “eerste trekking” met (hoofdletter) \({{X}_{1 }}\) .
Het is niet moeilijk om te weten hoe het kansmodel \({{X}_{1 }}\) eruitziet. Een eerste keer gooien met die rode dobbelsteen kan alleen maar gestuurd worden door “waarden en bijhorende kansen” die je ziet in fig 1. Het is immers uit die populatie dat je een eerste keer trekt zodat het kansmodel voor die eerste trekking (fig 2 (a)) hetzelfde als het kansmodel van de populatie waaruit je trekt.
Na een eerste keer gooi je een tweede keer met de rode dobbelsteen. Ook nu worden alle mogelijke waarden en bijhorende kansen beschreven door de populatie waaruit je trekt (fig 1). Zo krijg je het kansmodel voor de “tweede trekking” (fig 2 (b))
Een laatste puntje gaat over volgorde. Als je zegt: “ik heb een steekproef van grootte 2 getrokken en ik had een één en ook een zes” dan is het niet duidelijk wat je voor \({{x}_{1}}\) gevonden hebt.
Een mogelijke uitkomst van je steekproef is, in volgorde, het getal dat je bij de eerste trekking vindt, gevolgd door het getal bij de tweede trekking. Je noteert dat als ( 1 , 6 ) of algemeen als ( \({{x}_{1}}\) , \({{x}_{2}}\) ) en je spreekt over een “koppel” of een “geordend tweetal”.
1 Oefening (opl 1)
Maak een lijstje met alle mogelijke waarden die een steekproef van grootte n=2 kan opleveren als je met de rode dobbelsteen (fig 1) gooit. Gebruik de juiste notatie.
Je weet nu al wat alle mogelijke waarden van je steekproef zijn. Om het volledige kansmodel op te stellen heb je ook de bijhorende kansen nodig. Wat is bijvoorbeeld de kans dat de steekproef de waarde ( 1 , 6 ) oplevert?
Om die kans te berekenen heb je een bijkomende onderstelling nodig over de manier waarop de steekproef getrokken wordt. In deze tekst werken we met een Enkelvoudige Aselecte Steekproef ( EAS ). Dat betekent dat je bij elke trekking trekt uit dezelfde populatie en dat het resultaat van een volgende trekking niet afhangt van wat je bij vorige trekkingen vond (onafhankelijkheid). Als je bijvoorbeeld werkt met een doos met genummerde ballen dan moet je na elke trekking de getrokken bal terugleggen (trekken met terugleggen).
Onafhankelijkheid betekent dat je bij het berekenen van kansen de productregel kan gebruiken.
Als je de eerste keer een 1 en de tweede keer een 6 gooit, dan is je uitkomst (x1 , x2) = (1 , 6). Wat is de kans dat zoiets gebeurt? Wat is de kans dat het model \({{X}_{1}}\) de uitkomst 1 oplevert en dat tegelijkertijd het model \({{X}_{2}}\) daarna een 6 oplevert? Zoiets schrijf je als \(P({{X}_{1}}=1\ ,\ {{X}_{2}}\ =6)\). De komma betekent “en” zodat \(P({{X}_{1}}=1\ ,\ {{X}_{2}}\ =6)\) hetzelfde is als \(P({{X}_{1}}=1\ en\ {{X}_{2}}\ =6)\) of voluit: de kans dat je de eerste keer een 1 en de tweede keer een 6 gooit.
De productregel voor onafhankelijkheid zegt:
\(P({{X}_{1}}=1\ ,\ {{X}_{2}}\ =6)\) = \(P({{X}_{1}}=1)\) ‧ \(P({{X}_{2}}\ =6)\).
Uit de kansmodellen voor de afzonderlijke trekkingen (fig 2) haal je dat
\(P({{X}_{1}}=1)=3/6=0.5\) en
\(P({{X}_{2}}=6)=1/6\cong 0.1667\) zodat
\(P({{X}_{1}}=1\ ,\ {{X}_{2}}\ =6)=3/6\ \cdot \ 1/6=3/36\cong 0.0833\)
2 Oefening (opl 2)
Gebruik de rode dobbelsteen (fig 1) als populatie.
Bereken de kans dat de steekproef de waarde ( 6 , 1 ) oplevert. Motiveer je antwoord met de juiste notatie.
Stel het volledige kansmodel op voor een steekproef van grootte n=2. Gebruik daarvoor stkp.qmd met de volgende codes:
pop_waarde <- c( 1, 3, 6)
pop_kans <- c(3/6, 2/6, 1/6)
kansmod <- 2
dec <- 4
Als alternatief kan je ook eens met een “eerlijke” achtzijdige dobbelsteen (octahedron) gooien. Op 1 zijvlak heb je een 1 geschreven, op 2 zijvlakken een 2, op 2 andere zijvlakken een 3 en op de 3 overblijvende zijvlakken een 4. De dobbelsteen die je zo gemaakt hebt noem je de paarse dobbelsteen.
3 Oefening (opl 3)
Gebruik de paarse dobbelsteen als populatie.
Welke codes moet je in stkp.qmd gebruiken om het kansmodel van de paarse dobbelsteen voor te stellen? Vul in en bepaal het kansmodel van deze populatie \(X\).
pop_waarde <- ...............
pop_kans <- .................“De paarse dobbelsteen twee keer gooien” is je steekproef van grootte n = 2. Hoeveel mogelijke waarden heeft deze steekproef?
Wat is de kans dat je ( 4 , 3 ) als uitkomst van je steekproef vindt? Motiveer je antwoord met de juiste notatie.
Stel het volledige kansmodel op voor deze steekproef. Gebruik stkp.qmd met aangepaste codes. Werk met 5 decimalen (code
dec <- 5).
Nota.
Ook uit een continue populatie kan je steekproeven trekken en ook daarvoor kan je kansmodellen opstellen. Als de populatie \(X\) gedefinieerd is door een dichtheidsfunctie \(f(x)\) en je trekt uit die populatie een steekproef van grootte n = 2 dan is het kansmodel voor \(({{X}_{1}},{{X}_{2}})\) een dichtheidsfunctie in twee veranderlijken \({{f}_{{{X}_{1}},{{X}_{2}}}}\left( {{x}_{1}},{{x}_{2}} \right)\) die het gezamenlijk gedrag van het koppel \(({{X}_{1}},{{X}_{2}})\) vastlegt. Kansmodellen voor steekproeven uit een continue populatie worden beschreven door dichtheidsfuncties in meerdere veranderlijken.
2.2 Steekproef \(\left( {{X}_{1}}\ ,.,\ {{X}_{n}} \right)\)
Je hoeft je niet te beperken tot een steekproef van grootte n = 2.
Als voorbeeld kan je blijven denken aan de populatie \(X\) die zich gedraagt zoals de rode dobbelsteen. Uit die populatie ga je nu een steekproef van grootte \(n\) trekken. Je gooit een eerste keer met die dobbelsteen. Daarna een tweede, een derde, ….en tenslotte een nde keer.
Je hebt nu 2 eigenschappen:
Wat je bij elke afzonderlijke trekking zal vinden wordt beschreven door het kansmodel van de populatie waaruit je trekt. Dat betekent dat elke trekking \({{X}_{i}}\) zich gedraagt zoals de populatie \(X\). Het is telkens hetzelfde kansmodel, met dezelfde uitkomsten en dezelfde bijhorende kansen.
Wat je zal vinden bij de vierde trekking (of bij om het even welke trekking) hangt niet af van wat je gevonden hebt bij de andere trekkingen. Dus heb je onafhankelijkheid.
Over een steekproef spreek je in de voorwaardelijke wijs. Wat zou ik allemaal kunnen uitkomen en met welke kansen als ik uit deze populatie \(X\) een steekproef van grootte \(n\) zou gaan trekken?
Het model dat je hierop een antwoord geeft noteer je met hoofdletters.
Als je nu echt je steekproef trekt, dan vind je bij de eerste trekking een getal. Dat getal is één van de mogelijke uitkomsten van het model \({{X}_{1}}\) en dat noteer je met een kleine letter \({{x}_{1}}\) . De uitkomst na de tweede trekking noteer je met \({{x}_{2}}\) , enz. De notatie met kleine letters betekent: dit zijn mijn toevallige resultaten die ik na het trekken van mijn steekproef gevonden heb.
3 Steekproefgemiddelde \(\bar{X}\)
3.1 Voorbeeld
Neem de rode dobbelsteen als populatie. Het kansmodel hiervoor ken je ( fig 1).
Trek uit deze populatie een steekproef van grootte n = 2.
Bij een eerste trekking (een eerste worp met de dobbelsteen) zou je bijvoorbeeld een 3 kunnen vinden (dan is voor jou \({{x}_{1}}=3\) ) en als tweede resultaat een 1 (dan is voor jou \({{x}_{2}}=1\) ) . Van die 2 gevonden getallen kan je het gemiddelde berekenen. Een gemiddelde van steekproefgetallen noem je een steekproefgemiddelde. Dat wordt, zoals elk gemiddelde van getallen, voorgesteld door \(\bar{x}\). Voor jou is de uitkomst van je steekproefgemiddelde gelijk aan \(\bar{x}=\dfrac{{{x}_{1}}+{{x}_{2}}}{2}=\dfrac{3+1}{2}=2\) . Maar je had natuurlijk ook iets anders kunnen vinden. Als je 2 keer een zes had gegooid, dan zou jij \(\bar{x}=6\) gehad hebben.
Nu je vertrouwd bent met kansmodellen weet je welke vraag eraan komt:
“als je uit die populatie een steekproef van grootte n=2 zou trekken en je zou het steekproefgemiddelde berekenen, wat zou je dan vinden?”
Op zo’n vraag antwoord je met een kansmodel.
3.2 Kansmodel discreet
Een uitkomst bij het berekenen van het steekproefgemiddelde noteer je als \(\bar{x}\) . Het steekproefgemiddelde “als kansmodel” stel je voor door \(\bar{X}\) (hoofdletter) waarbij \(\bar{X}=\dfrac{{{X}_{1}}+{{X}_{2}}}{2}\) . Om het kansmodel \(\bar{X}\) te kennen moet je alle mogelijke waarden \(\bar{x}\) samen met hun kansen bepalen.
Bemerk dat het steekproefgemiddelde \(\bar{X}=\dfrac{{{X}_{1}}+{{X}_{2}}}{2}\) een “steekproefgrootheid” is (een functie opgebouwd met de componenten van de steekproef \(({{X}_{1}},{{X}_{2}})\) ). Het kansmodel van de steekproef \(({{X}_{1}},{{X}_{2}})\) heb je bepaald in opl 2. Die kennis kan je nu gebruiken.
In het kansmodel van de steekproef fig 3 staan alle mogelijke verschillende waarden (het zijn koppels).
Als je bij elk koppel het gemiddelde van de componenten berekent, dan heb je een lijst van alle mogelijke \(\bar{x}\) - waarden die je als steekproefgemiddelde kan vinden.
De \(\bar{x}\) - waarden die je zo vindt, hoeven niet uniek te zijn.
4 Oefening (opl 4)
De rode dobbelsteen is je populatie.
Gebruik je kennis over het kansmodel van de steekproef \(({{X}_{1}},{{X}_{2}})\) (fig 3) om het kansmodel van het steekproefgemiddelde \(\bar{X}=\dfrac{{{X}_{1}}+{{X}_{2}}}{2}\) op te stellen.
Werk eerst “met de hand” zodat je stapsgewijs goed ziet wat er gebeurt. Voor het kansmodel van \(\bar{X}\) moet je alle mogelijke verschillende waarden \(\bar{x}\) bepalen samen met hun bijhorende kans.
Voor de nauwkeurigheid gebruik je 5 decimalen (zoals gegeven in fig 3) bij je berekeningen. Het eindresultaat rond je daarna af tot op 4 decimalen.
Controleer je antwoord. Gebruik stkp.qmd met code
kansmod <- 4endec <- 4.
Als je met de paarse dobbelsteen twee keer gooit en je berekent het gemiddelde, wat verwacht je dan als uitkomst?
Ook op deze vraag antwoord je met een kansmodel dat je vertelt “welk gemiddelde je zou vinden als je twee keer zou gooien”.
5 Oefening (opl 5)
De paarse dobbelsteen is nu de populatie.
- Start met stkp.qmd waarbij je de code
kansmod <- 3endec <- 6gebruikt.- hoeveel keer levert een “verschillende steekproefwaarde” eenzelfde waarde 2.5 op voor het steekproefgemiddelde?
- als je de paarse dobbelsteen twee keer gooit, wat is dan de kans dat je als gemiddelde 2.5 vindt? Geef je antwoord in de juiste notatie (werk met 6 decimalen).
- hoeveel keer levert een “verschillende steekproefwaarde” eenzelfde waarde 2.5 op voor het steekproefgemiddelde?
- Controleer je antwoord met stkp.qmd en code
kansmod <- 4endec <- 6.
3.3 Kansmodel continu
Een continue populatie beschrijf je met een dichtheidsfunctie en wat je zou vinden als je uit die populatie een steekproef zou trekken beschrijf je, per trekking, met dezelfde dichtheidsfunctie. Als je dan het gemiddelde zou maken van 2 trekkingen, dan krijg je terug een continu model dat je beschrijft met een dichtheidsfunctie.
Om de dichtheidsfunctie van het steekproefgemiddelde \(\bar{X}=\dfrac{{{X}_{1}}+{{X}_{2}}}{2}\) te bepalen, heb je wiskundige technieken nodig met integralen. Wat je dan vindt, zie je hieronder voor trekkingen uit continue populaties die je vroeger al bestudeerd hebt.
Nota.
Tot nu heb je het steekproefgemiddelde bestudeerd bij steekproeven van grootte n = 2. Dat is handig als inleiding maar die beperking hoeft niet. Je kan gewoon werken met steekproefgemiddelden die horen bij een algemene steekproef van grootte \(n\).
4 Eigenschappen van \(\bar{X}\)
Een steekproefgemiddelde is een functie van een steekproef getrokken uit een populatie.
In de voorgaande zin staan 3 woorden die elk verwijzen naar een kansmodel. Het is niet verwonderlijk dat eigenschappen van die kansmodellen met elkaar verbonden zijn. Daarom bestudeer je, stapsgewijs, die eigenschappen :
1. voor een algemeen kansmodel (zie de tekst over kansmodellen)
2. voor het kansmodel van een populatie
3. voor het kansmodel van het steekproefgemiddelde
Ook in deze studie gebruik je de rode dobbelsteen als populatie waaruit je een steekproef van grootte n = 2 trekt. Je mag aannemen dat de eigenschappen die je zo ontdekt algemeen geldig zijn (en dat is ook zo).
4.1 Centrum
4.1.1 Centrum: algemeen kansmodel
Het gemiddelde (of verwachtingswaarde = Expectation ) wordt genoteerd als \(E(X)\).
In formulevorm: \(E(X)\ =\ \sum\ {{x} \cdot\ P\left( X={{x}} \right)}\)
Als de rode dobbelsteen geen speciale rol speelt in een studie, dan noteer je zijn gemiddelde als \(E(X)\) met \(E(X)=1\ \cdot \ \dfrac{3}{6}\ +\ 3\ \cdot \ \dfrac{2}{6}\ +\ 6\ \cdot \ \dfrac{1}{6}=\dfrac{15}{6}=2.5\)
4.1.2 Centrum: populatie
De populatie is een kansmodel en voor het gemiddelde geldt hier dus ook:
gemiddelde = som van “de uitkomsten maal hun kansen”.
De notatie voor het gemiddelde van een populatie is speciaal:
- het gemiddelde van een populatie noteer je als µ (Griekse letter “mu”)
Als de rode dobbelsteen de populatie is in je huidige studie, dan noteer je zijn gemiddelde als µ met \(µ =1\ \cdot \ \dfrac{3}{6}\ +\ 3\ \cdot \ \dfrac{2}{6}\ +\ 6\ \cdot \ \dfrac{1}{6}=\dfrac{15}{6}=2.5\)
4.1.3 Centrum: steekproefgemiddelde
Het kansmodel van het steekproefgemiddelde \(\bar{X}\) bij een steekproef van grootte n = 2 uit de populatie van de rode dobbelsteen heb je opgesteld in opl 4. Je kent dus alle waarden en bijhorende kansen.
Ook hier geldt: gemiddelde = som van “de uitkomsten maal hun kansen”.
Het steekproefgemiddelde is niet de populatie en dus gebruik je de algemene E( ) notatie voor het gemiddelde van \(\bar{X}\) .
\(E(\bar{X})\) is het gemiddelde van het steekproefgemiddelde \(\bar{X}\) .
Met ons voorbeeld levert dit:
\(E(\bar{X})=1\cdot \dfrac{9}{36}\ +\ 2\cdot \dfrac{12}{36}\ +\ 3\cdot \dfrac{4}{36}\ +\ 3.5\cdot \dfrac{6}{36}\ +\ 4.5\cdot \dfrac{4}{36}\ +\ 6\cdot \dfrac{1}{36}=\dfrac{90}{36}=2.5\)
De populatie waaruit je de steekproef getrokken hebt is de rode dobbelsteen. Voor die populatie heb je berekend dat 𝜇 = 2.5.
Je vindt hier twee keer hetzelfde getal (2.5) en dat is geen toeval.
Je kan hier als volgt over nadenken.
Trek een steekproef van grootte \(n = 2\) (gooi de rode dobbelsteen 2 keer) en bereken het gemiddelde. Dat levert je een eerste keer een waarde voor het steekproefgemiddelde. Trek dan terug een steekproef van grootte \(n = 2\) en bereken het gemiddelde. Je hebt dan een tweede waarde van het steekproefgemiddelde (die waarschijnlijk verschilt van de eerste). Blijf zo doorgaan. Je krijgt dan heel veel waarden van het steekproefgemiddelde. Als je van al die waarden het gemiddelde berekent, dan valt dat (in de long run) exact samen met het gemiddelde van de populatie waaruit je trekt.
De eigenschap die je hier hebt gevonden is algemeen geldig, of je nu werkt met een kleine of een grote steekproef, en of je nu trekt uit een discrete of een continue populatie. Voor elk steekproefgemiddelde \(\bar{X}=\dfrac{1}{n}\,\left( {{X}_{1}}+{{X}_{2}}+\,...\,+{{X}_{n}} \right)\) heb je dat \(E(\bar{X})=\mu\) .
Zo’n belangrijke eigenschap kan je best ook goed in woorden leren formuleren.
4.2 Spreiding
4.2.1 Spreiding: algemeen kansmodel
De standaardafwijking \(sd(X)\) van een kansmodel \(X\) is een maat voor de spreiding rond het gemiddelde \(E(X)\) van dat kansmodel. De standaardafwijking is de positieve vierkantswortel uit de variantie en dus start je met de variantie \(var(X)\).
Voor een discreet kansmodel \(X\) is de variantie gelijk aan
de som van “de kwadratische afstanden maal hun kansen”.
Met “kwadratische afstanden” bedoelt men het kwadraat van de afstand van de waarden tot het modelgemiddelde \(E(X)\).
In formulevorm: \(\operatorname{var}(X)=\sum{{{\left( x-E(X) \right)}^{2}}\cdot P(X=x)}\) zodat \[sd(X)=\sqrt{\sum{{{\left( x-E(X) \right)}^{2}}\cdot P(X=x)}}\].
Als de rode dobbelsteen (met \(E(X)=2.5\)) geen speciale rol speelt in een studie, dan is: \(\operatorname{var}(X)={{\left( 1-2.5 \right)}^{2}}\cdot \dfrac{3}{6}\,+\,{{\left( 3-2.5 \right)}^{2}}\cdot \dfrac{2}{6}\,+\,{{\left( 6-2.5 \right)}^{2}}\cdot \dfrac{1}{6}\,=\,\dfrac{19.5}{6}=3.25\) zodat de standaardafwijking, met de algemene notatie \(sd( )\), gelijk is aan \(sd(X)=\sqrt{3.25}=1.80\).
4.2.2 Spreiding: populatie
Als \(X\) een populatie is, dan is dat ook een kansmodel. De berekeningen blijven dezelfde maar de notatie verandert. Je weet al dat het gemiddelde van een populatie genoteerd wordt met \(\mu\). Voor de standaardafwijking gebruik je nu \(\sigma\) (Griekse letter sigma) zodat, voor een discrete populatie \(X\), de notatie en formule voor de standaardafwijking eruitziet als:
\[\sigma=\sqrt{\sum{{{\left( x-\mu \right)}^{2}}\cdot P(X=x)}}\]
Als de rode dobbelsteen de populatie is in je studie, dan noteer je zijn standaardafwijking met \(\sigma\) . De berekening blijft dezelfde zodat \(\sigma=\sqrt{3.25}=1.80\).
4.2.3 Spreiding: steekproefgemiddelde
Het kansmodel van het steekproefgemiddelde \(\bar{X}\) bij een steekproef van grootte n = 2 uit de populatie van de rode dobbelsteen ken je (opl 4). Je hebt de waarden en bijhorende kansen al gebruikt om het gemiddelde \(E(\bar{X})=2.5\) te bepalen. Met de klassieke formule voor de variantie vind je dan: \(\operatorname{var}(\bar{X})={{\left( 1-2.5 \right)}^{2}}\cdot \dfrac{9}{36}\ +\ {{\left( 2-2.5 \right)}^{2}}\cdot \dfrac{12}{36}\ +\ ...\ \ =\dfrac{58.5}{36}=1.625=\dfrac{3.25}{2}\)
zodat \(sd(\bar{X})=\sqrt{\dfrac{3.25}{2}}=\dfrac{\sqrt{3.25}}{\sqrt{2}}\).
In statistiek is het de gewoonte om een speciale naam te gebruiken voor de standaardafwijking van grootheden die opgebouwd zijn met elementen van een steekproef. Die naam is standaardfout. De afkorting die hierbij hoort is \(se( )\) want standaardfout is in het Engels standard error.
Om de spreiding van het steekproefgemiddelde \(\bar{X}\) aan te geven, spreek je in het vervolg over “de standaardfout van het steekproefgemiddelde” en je noteert dat als \(se(\bar{X})\).
In dit voorbeeld is \(se(\bar{X})=\dfrac{\sqrt{3.25}}{\sqrt{2}}(=1.275)\) waar in de teller de standaardafwijking van de populatie staat (want \(\sigma=\sqrt{3.25}\)) en in de noemer de vierkantswortel uit de steekproefgrootte (want \(\sqrt{n}\) = \(\sqrt{2}\) voor n = 2). Deze eigenschap geldt algemeen.
Hieronder zie je een R code chunk.
Bij een discrete populatie (die je zelf kan invullen) wordt een steekproef van grootte n = 2 getrokken. Voor het steekproefgemiddelde \(\bar{X}\) en ook voor de onderliggende populatie \(X\) waaruit de steekproef wordt getrokken, worden de kenmerken voor “centrum” en voor “spreiding” berekend.
Met kopiëren en plakken (zie) breng je de code chunk over naar “mijnwerkblad.qmd”. Die kan je dan gebruiken in oef 6.
```{r}
# "pop_waarde" en "pop_kans" bepalen het kansmodel van de POPULATIE waaruit je
# de steekproef trekt. Met "dec" geef je aan hoeveel decimalen je wil zien.
# Pas hieronder aan : (getallen gescheiden door komma's)
pop_waarde <- c(1, 3, 6)
pop_kans <- c(3/6, 2/6, 1/6)
dec <- 3
# Als je klaar bent klik je op de groene pijl. De commando's hieronder moet je niet wijzigen.
library(dplyr, warn.conflicts = FALSE)
if(dec %in% 1:6){
if(length(pop_waarde)==length(pop_kans)){
if( all(pop_kans > 0) & sum(pop_kans)==1){
pop_gem <- sum(pop_waarde * pop_kans)
pop_sd <- round(sqrt(sum(pop_waarde^2 * pop_kans) - pop_gem^2), dec)
pop_gem <- round(pop_gem , dec)
N <- length(pop_waarde)
stkpgem_waarde <- as.factor((rep(pop_waarde, each=N) + rep(pop_waarde, N))/2 )
stkpgem_kans <- rep(pop_kans, N) * rep(pop_kans, each = N)
df <- aggregate(stkpgem_kans ~ stkpgem_waarde, data = data.frame(stkpgem_waarde, stkpgem_kans), FUN = sum)
df$stkpgem_waarde <- as.numeric(as.character(df$stkpgem_waarde))
stkpgem_gem <- sum(df$stkpgem_waarde * df$stkpgem_kans)
stkpgem_sd <- round(sqrt(sum(df$stkpgem_waarde^2 * df$stkpgem_kans)-stkpgem_gem^2), dec)
stkpgem_gem <- round(stkpgem_gem, dec)
cat(paste("gemiddelde van de populatie =", as.character(pop_gem)), " \ngemiddelde van het steekproefgemiddelde =", as.character(stkpgem_gem), " \n \nstandaardafwijking van de populatie =", as.character(pop_sd), " \nstandaardfout van het steekproefgemiddelde =", as.character(stkpgem_sd) )
} else {cat("alle kansen moeten strikt positief zijn met som = 1 \npas aan: pop_kans <- c(..., ..., ...)") }
} else {cat("het aantal bijhorende kansen is verschillend \nvan het aantal populatiewaarden. Pas aan: \npop_waarde <- c(....) en pop_kans <- c(.....)") }
} else {cat("vul het aantal decimalen in : \ndec <-... (1, 2, 3, 4, 5 of 6)") }
```
6 Oefening (opl 6)
Gebruik de R code chunk en zoek centrum en spreiding van populatie en steekproefgemiddelde:
- als je werkt met de rode dobbelsteen als populatie (die resultaten ken je al)
- als je werkt met de paarse dobbelsteen als populatie
Toon telkens aan dat, op afrondingen na,
de standaardfout van het steekproefgemiddelde gelijk is aan
de standaardafwijking van de populatie gedeeld door de wortel uit de steekproefgrootte.
4.3 Vorm
Voor het kansmodel van het steekproefgemiddelde \(\bar{X}\) ken je nu al twee eigenschappen die altijd waar zijn: \(E(\bar{X})=\mu\) en \(se(\bar{X})=\dfrac{\sigma }{\sqrt{n}}\). Die eigenschappen hangen NIET af van de populatie waaruit je trekt en zij hangen NIET af van de grootte van de steekproef. Zo heb je informatie over “centrum” en “spreiding”. Maar hoe ziet de globale vorm eruit?
Hoe het kansmodel van het steekproefgemiddelde \(\bar{X}\) er qua vorm uitziet hangt WEL af van de populatie waaruit je trekt en hangt WEL af van de grootte van de steekproef.
Om een idee te krijgen over de globale vorm gebruik je stkp_CLT_disc.qmd.
Dit programma start met een discrete populatie (zoals de rode dobbesteen) waaruit je een steekproef van grootte \(n\) trekt. Voor het steekproefgemiddelde \(\bar{X}\) wordt het kansmodel getekend in de vorm van een staafdiagram: op de horizontale as staan de
\(\bar{x}\)‑waarden en op de verticale as staan de relatieve frequenties als benadering van de bijhorende kansen.
Als je het aantal simulatieherhalingen groot maakt (zoals sim_aantal <- 100000), dan heb je een goede benadering van de echte kansen en dus ook een goede benadering van de vorm van het kansmodel van \(\bar{X}\) .
In fig 4 zie je de (gesimuleerde) kansverdeling van het steekproefgemiddelde \(\bar{X}\) wanneer de rode dobbelsteen de populatie is waaruit je een steekproef trekt van grootte n = 2 .
Bemerk dat de simulatie een goede benadering is van de echte kansen die je hebt opgesteld in opl 4.
Als je van fig 4 naar fig 5 overstapt, dan zie je dat bij grotere en grotere steekproeven (van \(n=2\) over \(n=9\) naar \(n=36\)) :
- de globale vorm meer en meer symmetrisch wordt
- met een top in het midden
- en met staafjes die kleiner en kleiner worden naarmate je (links en rechts) verder verwijderd bent van de locatie waar de top ligt.
Uiteindelijk krijg je een “klokvormige” figuur die symmetrisch is rond één top.
De normale benadering voor het steekproefgemiddelde is een eigenschap die geldt voor elke populatie waaruit je de steekproef trekt, of die populatie nu symmetrisch is of scheef, discreet of continu. Dat zie je in de volgende oefeningen.
7 Oefening (opl 7)
Je werkt hier met een discrete populatie \({X}\) : de paarse dobbelsteen.
Eigenschappen die je vroeger in deze tekst gezien hebt, mag je gebruiken.
- Stel het kansmodel van de populatie voor in een tabel en met een staafdiagram.
Gebruik stkp.qmd en stkp_CLT_disc.qmd. - Toon je werkwijze en gebruik in je antwoord de juiste notatie. Hoeveel is:
- het gemiddelde van de populatie
- de standaardafwijking van de populatie
- het gemiddelde van het steekproefgemiddelde bij steekproefgrootte = 9
- de standaardfout van het steekproefgemiddelde bij steekproefgrootte = 9
- Toon dat, bij steekproefgrootte = 2, het echte kansmodel van het steekproefgemiddelde goed benaderd wordt door “het staafdiagram op basis van simulatie”. Gebruik stkp_CLT_disc.qmd met 100000 simulatieherhalingen.
- Teken nu ook staafdiagrammen voor steekproeven van grootte 9 en grootte 36 en bespreek de vorm van deze benaderende kansmodellen.
Gebruik stkp_CLT_disc.qmd met 100000 simulatieherhalingen.
Als je trekt uit een discrete populatie \(X\) dan is het steekproefgemiddelde \(\bar{X}\) ook discreet. Het kansmodel van \(\bar{X}\) kan je dan beschrijven met een staafdiagram waarbij de staafjes de kansen voorstellen en sommeren tot 1.
Een benadering van dit kansmodel doe je met een simulatie waarbij je een staafdiagram opstelt: de hoogte van de staafjes is gelijk aan de relatieve frequentie zodat de som van de hoogte van alle staafjes gelijk is aan 1.
Als je trekt uit een continue populatie \(X\) dan is het steekproefgemiddelde \(\bar{X}\) ook continu. Het kansmodel van \(\bar{X}\) beschrijf je dan met een dichtheidsfunctie = een functie die nergens negatief is en waarbij de totale oppervlakte onder de curve gelijk is aan 1.
Een benadering van dit kansmodel doe je met een simulatie waarbij je een “histogram op de dichtheidsschaal” opstelt = een histogram waar de oppervlakte van de balkjes gelijk is aan de relatieve frequentie zodat de totale oppervlakte van alle balkjes gelijk is aan 1.
8 Oefening (opl 8)
Je werkt in deze oefening met een continue populatie \({X}\) gedefinieerd door de dichtheidsfunctie \(f(x)=2x\,\,voor\,\,0\le x\le 1\).
Deze dichtheidsfunctie heb je vroeger bestudeerd als het kansmodel voor het maximum van 2 lukrake trekkingen uit het interval \(\left[ 0\ ,\ 1 \right]\). Je hebt toen voor dit kansmodel gevonden dat het gemiddelde gelijk is aan 0.667 en dat de standaardafwijking gelijk is aan 0.236.
- Stel het kansmodel van de populatie grafisch voor.
Gebruik stkp_CLT_cont.qmd met codepop <- 2enn_stkp <- 0 - Motiveer je antwoord en gebruik de juiste notatie. Hoeveel is:
- het gemiddelde van de populatie
- de standaardafwijking van de populatie
- het gemiddelde van het steekproefgemiddelde bij steekproefgrootte = 36
- de standaardfout van het steekproefgemiddelde bij steekproefgrootte = 36
- Teken histogrammen op de dichtheidsschaal voor steekproeven van
grootte 2, 9 en 36. Bespreek de vorm van deze benaderende kansmodellen.
Gebruik stkp_CLT_cont.qmd metsim_aantal <- 100000
4. Bij een steekproefgrootte van 36 heb je het kansmodel van \(\bar{X}\) benaderd door een histogram. Dat histogram lijkt goed op een symmetrische klokvormige figuur en je kan over die figuur een normale dichtheid leggen zoals hiernaast.
Sluit de normale curve goed aan bij het histogram?
Waarom heb je hier niet het probleem van Note 5 ?
5 Gedrag van \(\bar{X}\)
Je hebt ontdekt dat bepaalde eigenschappen van het steekproefgemiddelde sterk verbonden zijn met eigenschappen van de populatie waaruit je de steekproef trekt. Dat verband gebruik je in de verklarende statistiek om vanuit een steekproef uitspraken te doen over een populatie. Je gebruikt daarbij specifieke namen en notaties.
5.1 Populatieparameters
Als, in je studie, een kansmodel \(X\) de populatie is , dan heten het gemiddelde en de standaardafwijking van dat kansmodel “populatieparameters”. Zij krijgen een speciale (Griekse) notatie (dat weet je al).
Of je nu werkt met een gekende populatie of met een populatie waarvan je de eigenschappen aan het zoeken bent, populatieparameters zijn vaste getallen (niet aan het toeval onderhevig).
5.2 Normale benadering
5.3 Centrale limietstelling
De Centrale Limietstelling (afgekort als CLT = Central Limit Theorem) zegt dat, wanneer \(n\) groter en groter wordt, de kans dat het steekproefgemiddelde \(\bar{X}\) in om het even welk interval terechtkomt, beter en beter benaderd wordt door een normaal kansmodel.
9 Oefening (opl 9)
Onderstel in deze oefening dat de steekproef groot genoeg is om de normale benadering te mogen gebruiken. Je mag hier dus werken met eigenschappen die je geleerd hebt bij de studie van de normale.
- Formuleer in woorden de kansuitspraak die zegt in welk interval rond zijn gemiddelde een normaal kansmodel terechtkomt met kans 95%.
- Schrijf de kansuitspraak, die je zojuist geformuleerd hebt, in de gepaste notatie voor een algemeen steekproefgemiddelde. Herformuleer daarna die uitspraak in formulevorm waarbij je expliciet gebruik maakt van populatieparameters.
- Pas de bovenstaande kansuitspraak nu concreet toe voor het steekproefgemiddelde dat je hebt opgesteld op basis van een steekproef van grootte \(n=36\) getrokken uit de continue populatie met dichtheid \(f(x)=2x\,\,voor\,\,0\le x\le 1\).
In welk interval komt \(\bar{X}\) met kans 95% terecht?
6 Proporties
Bij de geboorten in Vlaanderen zijn er 51 % jongens, van de allochtone leerlingen spreekt 54 % thuis geen Nederlands, 40 % van de smartphones zijn Samsungs en 10 % van wie hersenvliesontsteking (meningitis) krijgt, sterft eraan.
Heel veel informatie komt tot ons in de vorm van verhoudingen of proporties.
Werken met proporties is eigenlijk eenvoudig. Je kijkt naar een bepaalde eigenschap en de enige vraag die je dan stelt is: “Heeft iemand (of iets) die eigenschap, ja of neen?”. Die vraag herhaal je bij elk element van de groep die je bestudeert en je noteert telkens een “ja” of een “neen”. Dan tel je het totaal aantal ja’s en je deelt dat door het totaal aantal elementen in die groep. Zo vind je de proportie van die groep die de eigenschap heeft.
Nota.
In statistiek gebruikt men als klassieke benaming het woord “succes” als de eigenschap er WEL is en het woord “mislukking” als die eigenschap er NIET is. De woorden “succes” en “mislukking” mag je hierbij niet interpreteren als iets wat goed of slecht is. Als je bv. onderzoekt wie er in de gevangenis zit wegens moord, dan noteer je bij elke gedetineerde moordenaar een “ja”. Je noemt dat “succes” omdat de eigenschap die je onderzoekt er WEL is, niet omdat je die eigenschap goed vindt.
Je kan ook van “woorden” (ja - neen , succes - mislukking) overstappen op “getallen”.
Als de eigenschap er WEL is, dan schrijf je 1 als antwoord. Is die eigenschap er NIET, dan noteer je dat als 0. Dat is gemakkelijk te onthouden, want 1 betekent “de eigenschap WEL hebben” en 0 betekent “de eigenschap NIET hebben”.
Eigenlijk zijn er heel veel situaties die je kan herleiden tot een een 0 ‑ 1 situatie. Het gaat daarbij niet zozeer over de fysische eigenschappen van wat je onderzoekt, maar wel over de onderzoeksvraag die je stelt. De onderzoeksvraag is dan telkens een ja - neen vraag over een eigenschap die er al dan niet is.
De paarse dobbelsteen bijvoorbeeld kan je tot een 0 ‑ 1 populatie omvormen. Je hoeft niets aan die dobbelsteen te veranderen, verander gewoon je onderzoeksvraag. Zeg dat je succes hebt als die dobbelsteen op 4 valt en mislukking anders. Dan heb je vanaf nu een 0 ‑ 1 populatie waarbij succes ( = paars valt op 4 ) genoteerd wordt met 1. Voor deze nieuw gedefinieerde populatie \(X\) is de kans op succes: \(P({X}=1)=3/8\) en de kans op mislukking: \(P({X}=0)=5/8\) .
Dat je met de cijfers 0 en 1 werkt is niet zomaar een willekeurige keuze. Deze manier van coderen ( met 0 en 1 en niet bijvoorbeeld met -1 en +1) zorgt ervoor dat je een proportie kan uitrekenen zoals een gemiddelde. Dat zie je in volgend voorbeeld.
Je vraagt aan 10 leerlingen of zij een Samsung smartphone hebben. Als antwoord krijg je 4 keer ja en 6 keer neen. De proportie in die groep die een Samsung heeft is 4/10 . Dit resultaat heb je gevonden door het aantal ja-antwoorden te tellen en dat aantal te delen door het totaal aantal van de groep.
Het kan ook anders.
Als je met 0 en 1 codeert, dan heb je bv als resultaat: 1 0 0 1 1 0 0 0 1 0.
De som van al die antwoorden is een som van enen en nullen. Dat is gelijk aan de som van de enen (want de nullen erbij optellen verandert niets). Dus:
\(\dfrac{som\ van\ alle\ getallen}{aantal\ getallen}=\dfrac{som\ van\ de\ enen}{aantal\ getallen}=proportie\ die\ de\ eigenschap\ wel\ heeft\)
Dit is de formule voor het gemiddelde van getallen: de som gedeeld door het aantal.
Wiskundig is een proportie niets anders dan het gemiddelde uit een 0 - 1 populatie.
Juist zoals bij het gemiddelde kan je nu werken met de proportie:
- je start met een 0 - 1 kansmodel als populatie
- uit die populatie trek je een steekproef en je berekent het gemiddelde (= de proportie successen = de steekproefproportie)
- je bestudeert het gedrag van de steekproefproportie.
7 Een 0 ‑ 1 populatie
7.1 De witte dobbelsteen
De witte dobbelsteen is een “eerlijke” 10-zijdige dobbelsteen waar je op 6 zijvlakken een 1 hebt geschreven en op de resterende 4 zijvlakken een 0.
De witte dobbelsteen is een voorbeeld van een heel speciaal discreet kansmodel (fig 7).
Er zijn hier maar twee mogelijke uitkomsten en die uitkomsten hebben de waarde 0 en 1 (en niets anders).
De kans op succes is \(P({X}= 1)=0.6\)
7.2 Populatieproportie \(p\)
Een 0 ‑ 1 kansmodel \(X\) wordt ook Bernoulli kansmodel (of Bernoulli verdeling) genoemd.
Als algemene notatie voor de kans op succes gebruik je de (kleine) letter \(p\) (zie fig 8).
De succeskans \(p\) legt de volledige kansverdeling vast. Inderdaad, als \(P({X}= 1)=p\) dan is \(P({X}= 0)=1-p\) . Dikwijls noteert men \(1-p\) als \(q\).
7.3 Populatieparameters
Als een 0 ‑ 1 kansmodel \(X\) de populatie is in je studie, dan noem je de succeskans \(p\) ook “populatieproportie” = de proportie successen zoals die door het populatiemodel naar jou worden gestuurd.
Als je de populatieproportie \(p\) kent, dan ken je ook andere populatieparameters (zij krijgen een eigen notatie).
- Het populatiegemiddelde = de som van “de uitkomsten maal hun kansen”
= \(0\ \cdot \ (1-p)\ +\ 1\ \cdot \ p\ =p\) het populatiegemiddelde = \(p\) . - De variantie is de som van “de kwadratische afstanden maal hun kansen” =
\({{(0-p)}^{2}}\ \cdot \ (1-p)\ +\ {{(1-p)}^{2}}\ \cdot \ p\ =(1-p)({{p}^{2}}+(p-{{p}^{2}}))=p(1-p)=pq\) zodat: standaardafwijking populatie = \(\sqrt{pq}\).
8 Steekproefproportie \(\hat{P}\)
De studie van proporties is zoals de studie van gemiddelden. Het verschil hierbij is dat je start met een specifieke populatie (een 0 ‑ 1 populatiemodel) en dat je bovendien een eigen notatie en terminologie gebruikt.
Hieronder kan je je kennis over “gemiddelden” even opfrissen en toepassen op “proporties”.
8.1 Steekproef van grootte 2
Neem als populatie de witte dobbelsteen.
Gooi die witte dobbelsteen twee keer.
Dit experiment beschrijf je met een steekproef \(({{X}_{1}},{{X}_{2}})\) waarbij zowel het kansmodel van de eerste worp (\({{X}_{1 }}\)) als van de tweede worp (\({{X}_{2 }}\)) hetzelfde is als het populatiemodel fig 7.
10 Oefening (opl 10)
- Wat zijn alle mogelijke uitkomsten die je kan hebben als je twee keer de witte dobbelsteen gooit?
- Wat is de kans dat je zowel de eerste keer als de tweede keer nul hebt? Motiveer je antwoord en gebruik de juiste notatie.
- Noteer de “proportie successen bij een steekproefuitkomst” als \(\hat{p}\) (kleine letter p‑hoed). Wat zijn hier alle mogelijke waarden voor \(\hat{p}\)?
- Gebruik stkp.qmd om de volledige kansverdeling van \(({{X}_{1}},{{X}_{2}})\) op te stellen waarbij telkens ook de proportie successen bij een uitkomst gegeven wordt. Op hoeveel plaatsen vind je \(\hat{p}=0.5\)? Met welke kansen?
- Als je \(\hat{p}\) gebruikt als notatie voor een mogelijke uitkomst van de succesproportie na het trekken van de steekproef, dan gebruik je \(\hat{P}\) (hoofdletter) als kansmodel om te beschrijven welke proportie successen je zou vinden als je de steekproef zou trekken. Gebruik stkp.qmd om de kansverdeling van de steekproefproportie \(\hat{P}\) op te stellen.
8.2 Kansmodel
Zoals het steekproefgemiddelde \(\bar{X}\) is ook de steekproefproportie \(\hat{P}\) een welbepaalde functie (de som gedeeld door het aantal) van de componenten van de steekproef.
Bij de steekproefproportie start je vanuit een 0 ‑ 1 populatie \(X\) waar \(p\) de notatie is voor de succeskans (de populatieproportie) : \(P(X=1)=p\) zodat dan ook: \(P(X=0)=1-p=q\).
Voor een algemene steekproef van grootte \(n\) uit een 0 ‑ 1 populatie heb je:
9 Eigenschappen van \(\hat{P}\)
Voor centrum en spreiding van \(\hat{P}\) kan je de eigenschappen voor een steekproefgemiddelde toepassen waarbij je de populatieparameters van een 0 ‑ 1 populatie gebruikt (zie 7.3).
9.1 Centrum en spreiding
Uit Note 3 en Note 4 volgt dat:
- voor gelijk welke steekproefgrootte \(n\)
- voor gelijk welke 0 ‑ 1 populatie (elke waarde van p levert een andere populatie)
geldt:
\(E(\hat{P})=p\)
het gemiddelde van de steekproefproportie is gelijk aan de populatieproportie
\(se(\hat{P})=\dfrac{\sqrt{pq} }{\sqrt{n}}\)
de standaardfout van de steekproefproportie is gelijk aan de standaardafwijking
van de populatie gedeeld door de wortel uit de steekproefgrootte
9.2 Vorm
De eigenschappen: \(E(\hat{P})=p\) en \(se(\hat{P})=\dfrac{\sqrt{pq} }{\sqrt{n}}\) hangen NIET af van de 0 ‑ 1 populatie waaruit je trekt en hangen ook NIET af van de grootte van de steekproef.
Hoe de vorm van het kansmodel van \(\hat{P}\) eruitziet hangt WEL af van de waarde van \(p\) en hangt WEL af van de grootte van de steekproef.
Zoals vroeger kan je ook hier stkp_CLT_disc.qmd gebruiken om een idee te krijgen over de globale vorm.
11 Oefening (opl 11)
- Neem de witte dobbelsteen als populatie
Teken staafdiagrammen voor het (benaderend) kansmodel van de steekproefproportie bij een steekproefgrootte van \(n=10\) en van \(n=40\). Gebruik een simulatie met 100000 herhalingen. Bespreek de vorm van de kansmodellen. - Als populatie werk je nu met een 0 ‑ 1 kansmodel met 95 % kans op succes.
Bepaal (met staafdiagrammen) het kansmodel van de steekproefproportie bij een steekproefgrootte van \(n=40\) en van \(n=300\). Gebruik een simulatie met 100000 herhalingen. Is dit zoals de witte dobbelsteen? Waarom?
9.3 Normale benadering
Vuistregel voor de normale benadering van de steekproefproportie.
Het kansmodel van de steekproefproportie is discreet terwijl de normale continu is. Lees Note 5 om te weten hoe je dan moet werken bij een “normale benadering”.
Je mag de normale benadering gebruiken om de kans te berekenen dat de steekproefproportie in intervallen valt van zodra het verwachte aantal successen en het verwachte aantal mislukkingen beide minstens gelijk zijn aan 15.
In formulevorm betekent dit dat bij een bepaalde waarde van \(p\) je ervoor moet zorgen dat de steekproefgrootte \(n\) zo groot is dat er gelijktijdig voldaan is aan:
\[\left\{ \begin{matrix} n\ p \ge 15 \\ n\ (1-p )\ge 15 \\\end{matrix} \right.\] Voor de witte dobbelsteen (met \(p=0.6\)) betekent dit:
\(\left\{ \begin{matrix} n\ p \ge 15\quad \to \ \ n\ (0.6)\ge 15\quad \to \ \ n\ \ge 25 \\
n\ (1-p )\ge 15\quad \to \ \ n\ (0.4)\ge 15\quad \to \ \ n\ \ge 37.5\quad \to \ \ n\ge 38 \\\end{matrix} \right.\)
zodat je moet werken met een steekproefgrootte die minstens gelijk is aan 38.
Nota.
In sommige teksten van statistiek lees je dat je al met de normale benadering mag werken zodra \(np\) en \(n(1-p)\) ”minstens 10” zijn. Soms wordt “minstens 5” als criterium genomen. Wetenschappelijk onderzoek heeft aangetoond dat er nogal wat situaties zijn waarbij deze grenzen te klein zijn. Het is veiliger om “minstens 15” als vuistregel te gebruiken.
12 Oefening (opl 12)
- Onderstel dat er aan de vuistregel voor de normale benadering voldaan is en herschrijf, in de gepaste algemene notatie voor een steekproefproportie, de kansuitspraak die je in punt 1 van opl 9 hebt geformuleerd. Herschrijf daarna die uitspraak waarbij je expliciet gebruik maakt van populatieparameters.
- Pas de bovenstaande kansuitspraak concreet toe voor de steekproefproportie wanneer je de witte dobbelsteen 400 keer gooit. In welk interval rond haar centrum komt dan \(\hat{P}\) met kans 95% terecht?
10 OPLOSSINGEN
1 Oplossing (oef 1)
Maak een lijstje met alle mogelijke waarden die een steekproef van grootte n=2 kan opleveren als je met de rode dobbelsteen (fig 1) gooit. Gebruik de juiste notatie.
Elke mogelijke verschillende uitkomst van de steekproef is één geordend tweetal van de vorm ( \({{x}_{1}}\) , \({{x}_{2}}\) ) . Alle mogelijke waarden zijn hier: ( 1 , 1 ) , ( 1 , 3 ) ,( 1 , 6 ) ,( 3 , 1 ) ,( 3 , 3 ) ,( 3 , 6 ) ,( 6 , 1 ) ,( 6 , 3 ) ,( 6 , 6 ).
2 Oplossing (oef 2)
Gebruik de rode dobbelsteen (fig 1) als populatie.
Bereken de kans dat de steekproef de waarde ( 6 , 1 ) oplevert. Motiveer je antwoord met de juiste notatie.
\(P({{X}_{1}}=6\ ,\ {{X}_{2}}\ =1)\) = \(P({{X}_{1}}=6)\) ‧ \(P({{X}_{2}}= 1)\) : productregel
\(P({{X}_{1}}=6)=1/6\) : kansmodel \({{X}_{1}}\) (fig 2 (a))
\(P({{X}_{2}}=1)=3/6\) : kansmodel \({{X}_{2}}\) (fig 2 (b))
\(P({{X}_{1}}=6\ ,\ {{X}_{2}}\ =1)=1/6\ \cdot \ 3/6=3/36\cong 0.08 33\)
Stel het volledige kansmodel op voor een steekproef van grootte n=2.
Gebruik stkp.qmd met de juiste codes.
3 Oplossing (oef 3)
Gebruik de paarse dobbelsteen als populatie.
Welke codes moet je in stkp.qmd gebruiken om het kansmodel van de paarse dobbelsteen voor te stellen? Vul in en bepaal het kansmodel van deze populatie \(X\).
pop_waarde <- c( 1, 2, 3, 4)
pop_kans <- c(1/8, 2/8, 2/8, 3/8)
“De paarse dobbelsteen twee keer gooien” is je steekproef van grootte n = 2. Hoeveel mogelijke waarden heeft deze steekproef?
Elke uitkomst van de steekproef is een koppel ( \({{x}_{1}}\) , \({{x}_{2}}\) ) waarbij zowel de eerste component als de tweede component 4 verschillende waarden kan aannemen. Dat levert 4 x 4 = 16 verschillende mogelijke uitkomsten voor deze steekproef.
Wat is de kans dat je ( 4 , 3 ) als uitkomst van je steekproef vindt? Motiveer je antwoord met de juiste notatie.
\(P({{X}_{1}}=4\ ,\ {{X}_{2}}\ =3)\) = \(P({{X}_{1}}=4)\) ‧ \(P({{X}_{2}}=3)\) : productregel
\(P({{X}_{1}}=4)=0.375\) : want \({{X}_{1}}\) heeft hetzelfde kansmodel als de populatie \(X\).
\(P({{X}_{2}}=3)=0.25\) : want \({{X}_{2}}\) heeft hetzelfde kansmodel als de populatie \(X\).
\(P({{X}_{1}}=4\ ,\ {{X}_{2}}\ =3)=0.375\ \cdot \ 0.25 = 0.09375\)
Stel het volledige kansmodel op voor deze steekproef. Gebruik stkp.qmd met aangepaste codes. Werk met 5 decimalen (code
dec <- 5).
4 Oplossing (oef 4)
De rode dobbelsteen is je populatie.
Gebruik je kennis over het kansmodel van de steekproef \(({{X}_{1}},{{X}_{2}})\) (fig 3) om het kansmodel van het steekproefgemiddelde \(\bar{X}=\dfrac{{{X}_{1}}+{{X}_{2}}}{2}\) op te stellen.
- Werk eerst “met de hand” zodat je stapsgewijs goed ziet wat er gebeurt. Voor het kansmodel van \(\bar{X}\) moet je alle mogelijke verschillende waarden \(\bar{x}\) bepalen samen met hun bijhorende kans.
Voor de nauwkeurigheid gebruik je 5 decimalen (zoals gegeven in fig 3) bij je berekeningen. Het eindresultaat rond je daarna af tot op 4 decimalen.
fig 3 : het kansmodel van de steekproef samen met de berekende gemiddelden levert alles wat je nodig hebt.
\(\bar{x}\) = 1 komt 1 keer voor met kans 0.25000
\(\bar{x}\) = 2 komt 2 keer voor, telkens met kans 0.16667
zodat \(\bar{x}\) = 2 uiteindelijk voorkomt met kans 0.33334
Als je zo verder gaat en daarna terug afrondt tot op 4 decimalen, dan krijg je het kansmodel hiernaast.
2. Controleer je antwoord.
5 Oplossing (oef 5)
De paarse dobbelsteen is nu de populatie.
Start met stkp.qmd waarbij je de code
kansmod <- 3endec <- 6gebruikt.hoeveel keer levert een “verschillende steekproefwaarde” eenzelfde waarde 2.5 op voor het steekproefgemiddelde?
als je de paarse dobbelsteen twee keer gooit, wat is dan de kans dat je als gemiddelde 2.5 vindt? Geef je antwoord in de juiste notatie (werk met 6 decimalen).
Als gemiddelde waarde van de steekproef komt 2.5 vier keer voor, 2 keer met kans 0.046875 en 2 keer met kans 0.062500 wat in totaal een kans van 0.218750 oplevert.
Hieruit volgt dat \(P(\bar{X}=\,2.5)\,=\,0.218750\) .
- Controleer je antwoord met stkp.qmd en code
kansmod <- 4endec <- 6.
De gevonden kans stemt overeen met de kans die staat in het kansmodel voor het steekproefgemiddelde \(\bar{X}\) .
6 Oplossing (oef 6)
Gebruik de R code chunk en zoek centrum en spreiding van populatie en steekproefgemiddelde:
- als je werkt met de rode dobbelsteen als populatie (die resultaten ken je al)
- als je werkt met de paarse dobbelsteen als populatie
Toon telkens aan dat, op afrondingen na, de standaardfout van het steekproefgemiddelde gelijk is aan de standaardafwijking van de populatie gedeeld door de wortel uit de steekproefgrootte.
ROOD
\(se(\bar{X})=1.275=\dfrac{1.803 }{\sqrt{2}}=\dfrac{\sigma }{\sqrt{n}}\)
PAARS
\(se(\bar{X})=0.745=\dfrac{1.053 }{\sqrt{2}}=\dfrac{\sigma }{\sqrt{n}}\)
7 Oplossing (oef 7)
Je werkt hier met een discrete populatie \(\bar{X}\), namelijk de paarse dobbelsteen.
Eigenschappen die je vroeger in deze tekst gezien hebt, mag je gebruiken.
- Stel het kansmodel van de populatie voor in een tabel en met een staafdiagram.
Gebruik stkp.qmd en stkp_CLT_disc.qmd.
Toon je werkwijze en gebruik in je antwoord de juiste notatie. Hoeveel is:
- het gemiddelde van de populatie
\(\mu=2.875\) zie opl 6 - de standaardafwijking van de populatie
\(\sigma = 1.053\) zie opl 6 - het gemiddelde van het steekproefgemiddelde bij steekproefgrootte = 9
\(E(\bar{X})=2.875\) zie Note 3 en opl 6 - de standaardfout van het steekproefgemiddelde bij steekproefgrootte = 9
\(se(\bar{X})=\dfrac{\sigma }{\sqrt{n}}=\dfrac{1.053 }{\sqrt{9}}=0.351\) zie Note 4 en opl 6
- het gemiddelde van de populatie
Toon dat, bij steekproefgrootte = 2, het echte kansmodel van het steekproefgemiddelde goed benaderd wordt door “het staafdiagram op basis van simulatie”. Gebruik stkp_CLT_disc.qmd met 100000 simulatieherhalingen.
Het kansmodel van \(\bar{X}\) bij \(n = 2\) ken je (opl 5).
De kansen worden goed benaderd door de relatieve frequenties in de simulatie (hoogte van de staafjes).
- Teken nu ook staafdiagrammen voor steekproeven van grootte 9 en grootte 36 en bespreek de vorm van deze benaderende kansmodellen.
Gebruik stkp_CLT_disc.qmd met 100000 simulatieherhalingen.
Als \(n\) groter en groter wordt (van \(n=2\) over \(n=9\) naar \(n=36\)), dan nadert de vorm van het staafdiagram meer en meer naar een symmetrische klokvormige figuur. Let op ! (zie Note 5)
8 Oplossing (oef 8)
Je werkt in deze oefening met een continue populatie \({X}\) gedefinieerd door de dichtheidsfunctie \(f(x)=2x\,\,voor\,\,0\le x\le 1\).
Deze dichtheidsfunctie heb je vroeger bestudeerd als het kansmodel voor het maximum van 2 lukrake trekkingen uit het interval \(\left[ 0\ ,\ 1 \right]\). Je hebt toen voor het gemiddelde en de standaardafwijking van dit kansmodel gevonden dat \(E(X)=0.667\) en \(sd(X)= 0.236\)
- Stel het kansmodel van de populatie grafisch voor.
Gebruik stkp_CLT_cont.qmd met codepop <- 2enn_stkp <- 0
- Motiveer je antwoord en gebruik de juiste notatie. Hoeveel is:
- het gemiddelde van de populatie
\(\mu=0.667\) want het vroegere kansmodel is in deze studie de populatie - de standaardafwijking van de populatie
\(\sigma=0.236\) want het vroegere kansmodel is in deze studie de populatie - het gemiddelde van het steekproefgemiddelde bij steekproefgrootte = 36
\(E(\bar{X})=0.667\) zie Note 3 - de standaardfout van het steekproefgemiddelde bij steekproefgrootte = 36
\(se(\bar{X})=\dfrac{\sigma }{\sqrt{n}}=\dfrac{0.236}{\sqrt{36}}=0.039\) zie Note 4
- het gemiddelde van de populatie
- Teken histogrammen op de dichtheidsschaal voor steekproeven van
grootte 2, 9 en 36. Bespreek de vorm van deze benaderende kansmodellen.
Gebruik stkp_CLT_cont.qmd metsim_aantal <- 100000
Naarmate de steekproef groter en groter wordt, nadert de globale vorm van het histogram meer en meer naar een symmetrische klokvormige figuur.
4. Bij een steekproefgrootte van 36 heb je het kansmodel van \(\bar{X}\) benaderd door een histogram. Dat histogram lijkt goed op een symmetrische klokvormige figuur en je kan over die figuur een normale dichtheid leggen.
Sluit de normale curve goed aan bij het histogram?
Waarom heb je hier niet het probleem van Note 5 ?
De normale curve sluit goed aan bij het histogram omdat beide grafieken werken met oppervlakte en intervalkansen. Het histogram op de dichtheidsschaal benadert (met oppervlakte van balkjes = relatieve frequentie) de kans dat \(\bar{X}\) in een interval terechtkomt. Ook de normale curve geeft intervalkansen met “oppervlakte onder de curve”. Voor beide figuren geldt dat de totale oppervlakte, ingesloten door de figuur, gelijk is aan 1.
9 Oplossing (oef 9)
Onderstel in deze oefening dat de steekproef groot genoeg is om de normale benadering te mogen gebruiken. Je mag hier dus werken met eigenschappen die je geleerd hebt bij de studie van de normale.
Formuleer in woorden de kansuitspraak die zegt in welk interval rond zijn gemiddelde een normaal kansmodel terechtkomt met kans 95%.
Kansuitspraak:
gelijk welk normaal kansmodel valt met 95 % kans
niet verder dan 1.96 standaardafwijkingen van zijn gemiddeldeSchrijf de kansuitspraak, die je zojuist geformuleerd hebt, in de gepaste notatie voor een algemeen steekproefgemiddelde. Herformuleer daarna die uitspraak in formulevorm waarbij je expliciet gebruik maakt van populatieparameters.
Met de normale benadering geldt: \(\bar{X}\) komt met 95% kans terecht in het interval \([E(\bar{X})-1.96\,se(\bar{X})\,\,\,,\,\,\,E(\bar{X})+1.96\,se(\bar{X})]\) zodat
\(P\left( E(\bar{X})-1.96\,se(\bar{X})\,\,\,\le \,\,\,\bar{X}\le \,\,\,E(\bar{X})+1.96\,se(\bar{X}) \right)=0.95\).
Hierbij is \(E(\bar{X})=\mu\) en \(se(\bar{X})=\dfrac{\sigma }{\sqrt{n}}\) zodat
\(P\left( \mu -1.96\dfrac{\sigma }{\sqrt{n}}\le \bar{X}\le \mu +1.96\dfrac{\sigma }{\sqrt{n}} \right)=0.95\).Pas de bovenstaande kansuitspraak nu concreet toe voor het steekproefgemiddelde dat je hebt opgesteld op basis van een steekproef van grootte \(n=36\) getrokken uit de continue populatie met dichtheid \(f(x)=2x\,\,voor\,\,0\le x\le 1\).
In welk interval komt \(\bar{X}\) met kans 95% terecht?Uit opl 8 volgt dat \(E(\bar{X})=\mu=0.667\) en \(se(\bar{X})=\dfrac{\sigma }{\sqrt{n}}=0.039\)
zodat (afgerond): \(P\left( 0.591\le \bar{X}\le 0.743 \right)=0.95\).
10 Oplossing (oef 10)
Wat zijn alle mogelijke uitkomsten die je kan hebben als je twee keer de witte dobbelsteen gooit?
Elke uitkomst is een koppel ( \({{x}_{1}}\) , \({{x}_{2}}\) ) waarbij zowel de eerste component als de tweede component 2 verschillende waarden kan aannemen. Dat levert 2 x 2 = 4 verschillende mogelijke uitkomsten voor deze steekproef van grootte 2 uit een 0 ‑ 1 populatie. Die uitkomsten zijn: (0 , 0) , (0 , 1) (1 , 0) (1 , 1).
Wat is de kans dat je zowel de eerste keer als de tweede keer nul hebt? Motiveer je antwoord en gebruik de juiste notatie.
\(P({{X}_{1}}=0\ ,\ {{X}_{2}}\ =0)\) = \(P({{X}_{1}}=0)\) ‧ \(P({{X}_{2}}=0)\) : productregel (onafhankelijk)
\(P({{X}_{1}}=0)=0.4\) en \(P({{X}_{2}}=0)=0.4\) : zelfde kansmodel als de populatie \(X\)
\(P({{X}_{1}}=0\ ,\ {{X}_{2}}\ =0)=0.4\ \cdot \ 0.4 = 0.16\)
Noteer de “proportie successen bij een steekproefuitkomst” als \(\hat{p}\) (kleine letter p‑hoed). Wat zijn hier alle mogelijke waarden voor \(\hat{p}\)?
Bij een steekproef van grootte n = 2 kan je 0 of 1 of 2 successen hebben zodat de proportie successen \(\hat{p}\) ofwel 0 is of 0.5 of 1.
Gebruik stkp.qmd om de volledige kansverdeling van \(({{X}_{1}},{{X}_{2}})\) op te stellen waarbij telkens ook de proportie successen bij een uitkomst gegeven wordt. Op hoeveel plaatsen vind je \(\hat{p}=0.5\)? Met welke kansen?
Er zijn 2 plaatsen met \(\hat{p}=0.5\) telkens met kans 0.24.
- Als je \(\hat{p}\) gebruikt als notatie voor een mogelijke uitkomst van de succesproportie na het trekken van de steekproef, dan gebruik je \(\hat{P}\) (hoofdletter) als kansmodel om te beschrijven welke proportie successen je zou vinden als je de steekproef zou trekken. Gebruik stkp.qmd om de kansverdeling van de steekproefproportie \(\hat{P}\) op te stellen.
11 Oplossing (oef 11)
- Neem de witte dobbelsteen als populatie
Teken staafdiagrammen voor het (benaderend) kansmodel van de steekproefproportie bij een steekproefgrootte van \(n=10\) en van \(n=40\). Gebruik een simulatie met 100000 herhalingen. Bespreek de vorm van de kansmodellen.
Zelfs bij een tamelijk kleine steekproef (\(n=10\)) is het staafdiagram al enigszins symmetrisch rond één top. Dit wordt nog duidelijker bij grotere steekproeven (\(n=40\)).
- Als populatie werk je nu met een 0 ‑ 1 kansmodel met 95 % kans op succes.
Bepaal (met staafdiagrammen) het kansmodel van de steekproefproportie bij een steekproefgrootte van \(n=40\) en van \(n=300\). Gebruik een simulatie met 100000 herhalingen. Is dit zoals de witte dobbelsteen? Waarom?
Voor een grote steekproef gaat de globale vorm uiteindelijk naar een klokvormige figuur die symmetrisch is rond één top. In tegenstelling tot de witte dobbelsteen is hier \(n=40\) niet voldoende als steekproefgrootte. Ook de populatie waaruit je trekt speelt een rol en hier is die populatie extreem asymmetrisch: 95 % kans op succes en slecht 5 % kans op mislukking.
12 Oplossing (oef 12)
Onderstel dat er aan de vuistregel voor de normale benadering voldaan is en herschrijf, in de gepaste algemene notatie voor een steekproefproportie, de kansuitspraak die je in punt 1 van opl 9 hebt geformuleerd. Herschrijf daarna die uitspraak waarbij je expliciet gebruik maakt van populatieparameters.
Met de normale benadering geldt: \(\hat{P}\) komt met 95% kans terecht in het interval \([E(\hat{P})-1.96\,se(\hat{P})\,\,\,,\,\,\,E(\hat{P})+1.96\,se(\hat{P})]\) of, in formulevorm:
\(P\left( E(\hat{P})-1.96\,se(\hat{P})\,\,\,\le \,\,\,\hat{P}\le \,\,\,E(\hat{P})+1.96\,se(\hat{P}) \right)=0.95\).
Hierbij is \(E(\hat{P})=p\) en \(se(\hat{P})=\dfrac{\sqrt{pq} }{\sqrt{n}}\) zodat
\(P\ \left( p -1.96\ \dfrac{\sqrt{pq}}{\sqrt{n}}\le \ \ \hat{P}\ \ \le p +1.96\ \dfrac{\sqrt{pq}}{\sqrt{n}} \right)=0.95\)
Pas de bovenstaande kansuitspraak concreet toe voor de steekproefproportie wanneer je de witte dobbelsteen 400 keer gooit. In welk interval rond haar centrum komt dan \(\hat{P}\) met kans 95% terecht?
Met succeskans \(p=0.6\) is \(1.96\ \dfrac{\sqrt{pq}}{\sqrt{n}}=1.96\ \dfrac{\sqrt{(0.6)(0.4)}}{\sqrt{400}}\cong 0.048\) zodat (afgerond) :
\(P\left( 0.6-0.048\le \hat{P}\le 0.6+0.048 \right)=0.95\).
De steekproefproportie \(\hat{P}\) komt in \(\left[ \,0.552\ ,\ 0.648\, \right]\) terecht met kans 95 %.