De normale verdeling
1 Groeicurven
Een variëteit van groeicurven voor Vlaamse kinderen kan je vinden op “Opgroeien”, een website van de Vlaamse Overheid. Daar vind je ook een Excel bestand met data. Voor meer informatie ga je naar:
https://www.opgroeien.be/kennis/cijfers-en-onderzoek/samenwerking-onderzoek/onderzoeksproject-nieuwe-vlaamse-groeicurven
Hieronder zie je curven voor de hoofdomtrek, de lengte en het gewicht van Vlaamse jongens ( = jongens die in Vlaanderen geboren zijn) . De leeftijd varieert van 0 tot 5 jaar.
Van de grafiek kan je aflezen dat jongens van 5 jaar gemiddeld 110 cm groot zijn.
Voor Vlaamse meisjes ( = meisjes die in Vlaanderen geboren zijn) bestaan ook zo’n groeicurven. Die zie je hieronder.
Wat het geslacht betreft is er blijkbaar niet zoveel verschil in lengte bij Vlaamse kleuters van 5 jaar. Jongens zijn gemiddeld 110 cm groot en op de grafiek van de meisjes zie je dat zij gemiddeld 109.5 cm groot zijn.
Een gemiddelde lengte geeft een eerste indruk, maar dat is maar 1 getal. Heel veel vertelt dat niet over de lengte van de totale populatie van alle jongens (of van alle meisjes).
Hoe zou je antwoorden op vragen als:
zijn “de meeste” jongens ongeveer 110 cm of zitten er grote verschillen tussen?
hoeveel percent van die jongens is kleiner dan 105 cm?
wat zijn zeer grote jongens? Wanneer ben je bij de grootste 5 % van je leeftijdsgroep?
Op al deze vragen kan je niet antwoorden als je alleen maar het gemiddelde kent.
Welk kansmodel zal je gebruiken om de lengte van deze kleuters te bestuderen?
Je hebt geleerd dat er twee grote soorten kansmodellen zijn, discrete en continue.
Het gaat hier over “lengte” en de waarden van “lengte” behandel je als een continuüm, zelfs al heb je data die afgerond zijn tot op een millimeter (je moet altijd ergens afronden). Dat betekent hier dat je op zoek moet gaan naar een dichtheidsfunctie, want je wil een continue populatie beschrijven.
Een verstandige en soms zeer snelle manier van werken is als volgt: “maak gebruik van wat al gekend is”. Jarenlange studies hebben aangetoond dat een “klokvormige” curve een goed kansmodel is om “lichaamslengten” te beschrijven. Je mag die kennis hier gebruiken.
De klokvormige curve die hier bedoeld wordt is de “Gauss-curve” of de “normale dichtheidsfunctie”. Het kansmodel voor de lengte van jongens van 5 jaar zie je in fig 1.
1 Oefening (opl 1)
Een normale dichtheidsfunctie is symmetrisch rond één top en hier zie je een top bij een x–waarde van 110 cm. Had je dat verwacht? Wat zou je hier kunnen uit afleiden? Kijk ook naar de globale vorm van de grafiek.
2 Populatiemodellen
Kansmodellen voldoen altijd aan de algemene eigenschappen die je vroeger hebt bestudeerd, maar toch is het handig om een onderscheid te maken tussen twee soorten:
kansmodellen die beschrijven hoe data uit een populatie tot jou komen
en andere (algemene) kansmodellen.
Als je de lengte van 17-jarige Vlaamse meisjes wil bestuderen, dan kan je daarvoor een normale dichtheid (Gauss-curve) gebruiken. Dat kansmodel beschrijft wat je kan verwachten als data uit deze populatie tot jou komen. Je hebt vroeger gezien dat die meisjes een gemiddelde lengte hebben van 166 cm en dat je daar een lengte tussen 160 cm en 174 cm ontmoet met kans 75 %. Een kansmodel dat een populatie beschrijft noem je een populatiemodel.
Er zijn ook veel andere dingen die aan het toeval onderhevig zijn en die je kan beschrijven met een kansmodel. Als je een steekproef van 100 meisjes trekt en de gemiddelde lengte van die 100 data berekent, dan vind je bv. 168 cm. Als je morgen hetzelfde doet, dan vind je een ander gemiddelde. En daarna terug een ander gemiddelde. Het gemiddelde van een steekproef van grootte 100 is aan het toeval onderhevig. Maar ook hier kan je een kansmodel opstellen: een model dat zegt welke waarden je voor zo’n gemiddelde allemaal kan uitkomen en met welke kansen. Dit is een kansmodel voor het gemiddelde van een steekproef uit die populatie. Dit is geen kansmodel voor die populatie.
2.1 Normale populaties
In statistiek speelt het normale kansmodel een belangrijke rol. Als je een normale verdeling gebruikt om een populatie te beschrijven, dan werk je met een normaal populatiemodel. Bij zo’n model hoort een speciale notatie:
Het gemiddelde \(E(X)\) van een normale populatie \(X\) stel je voor als 𝝁 (Griekse letter mu).
De standaardafwijking \(sd(X)\) van een normale populatie \(X\) stel je voor als 𝝈 (Griekse letter sigma).
Het populatiegemiddelde 𝝁 en de populatiestandaardafwijking 𝝈 heten populatieparameters.
2.2 Invloed van 𝜇 en 𝜎
Jongens van 5 jaar zijn gemiddeld 110 cm groot. Hoe de populatie van al die lengten varieert rond dat gemiddelde 𝜇 = 110 cm wordt gegeven door de standaardafwijking. Voor die jongens is de standaardafwijking gelijk aan 𝜎 = 4.5 cm.
Bij Vlaamse meisjes is de variabiliteit rond hun gemiddelde lengte dezelfde als bij de jongens. Ook bij meisjes is 𝜎 = 4.5 cm. Maar meisjes zijn gemiddeld iets kleiner, bij hen is 𝜇 = 109.5. In fig 2 zie je de normale dichtheidsfunctie voor beide populaties.
2 Oefening (opl 2)
Als je twee normaal verdeelde populaties hebt met dezelfde standaardafwijking 𝜎 maar met een verschillend gemiddelde (met \({{\mu }_{1}}>{{\mu }_{2}}\)), wat zie je dan aan hun grafieken?
Vlaamse meisjes van 17 zijn gemiddeld 166 cm groot. Geloof het of niet, maar Vlaamse jongens van 14 zijn gemiddeld ook 166 cm groot. In fig 3 staan de grafieken van beide normale populaties.
3 Oefening (opl 3)
Wat hun ligging betreft zijn beide grafieken niet verschoven, hun top hebben zij beide bij x = 166. Maar de hoogte van die top is verschillend: 0.066 bij meisjes en slechts 0.050 bij jongens. Je weet ook dat bij alle dichtheidsfuncties, zonder uitzondering, de totale oppervlakte onder de curve gelijk moet zijn aan 1. Hoe kan die oppervlakte één zijn bij een curve met een lagere top? Wat zie je op de grafiek? Wat is naast de locatie (de x‑waarde van de top) ook nog een andere karakteristiek?
In fig 4 zie je 2 normale dichtheidsfuncties, een blauwe en een rode. Je kan daarbij denken aan de lengte van jongens en de lengte van meisjes, maar dat hoeft niet.
De karakteristieken van een normale curve (locatie en spitsheid) veranderen wanneer je met andere gemiddelden en andere standaardafwijkingen werkt. Hieronder zie je dichtheidsfuncties van 2 normale populaties:
- een “blauwe” met gemiddelde \({{\mu }_{1}}\) = 150 en standaardafwijking \({{\sigma }_{1}}\) = 10
- een “rode” met gemiddelde \({{\mu }_{2}}\) = 120 en standaardafwijking \({{\sigma }_{2}}\) = 6
4 Oefening (opl 4)
Ga op je laptop naar norm_shape.qmd en dubbelklik en vul de juiste waarden in.
De invloed van het gemiddelde \({{\mu }}\) en de standaardafwijking \({{\sigma }}\) op de vorm van een normale curve kan je zelf eens uitproberen.
zelfde gemiddeld, verschillende standaardafwijking:
blauwe curve: \({{\mu }_{1}}\) = 130 , \({{\sigma }_{1}}\) = 12 en rode curve: \({{\mu }_{2}}\) = 130 , \({{\sigma }_{2}}\) = 7verschillend gemiddelde, zelfde standaardafwijking:
blauwe curve: \({{\mu }_{1}}\) = 110 , \({{\sigma }_{1}}\) = 8 en rode curve: \({{\mu }_{2}}\) = 140 , \({{\sigma }_{2}}\) = 8verschillend gemiddelde, verschillende standaardafwijking:
blauwe curve: \({{\mu }_{1}}\) = 160 , \({{\sigma }_{1}}\) = 2 en rode curve: \({{\mu }_{2}}\) = 150 , \({{\sigma }_{2}}\) = 4kies zelf welk gemiddelde en standaardafwijking je wil voor blauw en rood en voorspel vooraf wat je qua locatie en spitsheid verwacht als je die twee curven met elkaar vergelijkt.
3 De normale familie
In de voorbeelden heb je gezien dat de curve van de normale dichtheid de volgende eigenschappen heeft:
ze is klokvormig
haar top heeft ze bij een \(x\)-waarde die gelijk is aan het gemiddelde \(\mu\) van de populatie
ze is breder of smaller naarmate de standaardafwijking \(\sigma\) van de populatie groter of kleiner is
Bij elk ander gemiddelde en bij elke andere standaardafwijking heb je een andere Gauss curve. Je hebt dus een hele familie normale dichtheidsfuncties (het zijn er oneindig veel).
Om een hele familie functies toch in 1 functievoorschrift te kunnen schrijven werk je met parameters. Dat ziet er voor de normale familie als volgt uit:
$$f(x)\; = \;\frac{1}{{\sigma \;\sqrt {2\pi } }}\;\;\mathop e\nolimits^{ - \;\dfrac{{{{(x - \mu )}^2}}}{{2{\sigma ^2}}}} \quad $$
\[\text{voor} -\ \infty \ <\ x\ <+\infty \ \ \text{met}\ \ \left\{ \begin{matrix} -\ \infty \ <\ \mu \ <\ +\infty \\ 0\ <\ \sigma \ <\ +\infty \\ \end{matrix} \right.\]
Je hoeft dit functievoorschrift niet van buiten te kennen, maar je kan wel eens kijken wat het wordt voor de lengte van 5-jarige Vlaamse jongens. Daar moet je in de formule \(\mu\) vervangen door 110 en \(\sigma\) door 4.5. Dat levert:
\(f(x)\ =\ \ \ \dfrac{1}{4.5\ \sqrt{2\pi }}\ \ \mathop{e}^{-\;\;\dfrac{{{(x-110)}^{2}}}{2\;{{(4.5)}^{2}}}}\)
wat gelijk is aan:
\(f(x)\ =\ \ \ 0.089\ \ \mathop{e}^{-\ \ \dfrac{{{(x-110)}^{2}}}{40.5}}\)
De grafiek van deze functie zie je in fig 1 .
Voor de populatie \(X\) van de lengte van 5-jarige jongens schrijf je: \(X\ \text{ }\!\!\sim{\ }\!\!\text{ }\ N(110\ ,\ 4.5)\)
4 Rekenen met de normale
4.1 Kansen
Een normaal kansmodel is gewoon een continu kansmodel. Hoe je bij continue kansmodellen de kans berekent om in een of ander interval terecht te komen weet je al. Teken de dichtheidsfunctie en bereken de oppervlakte onder de curve en boven dat interval. Die oppervlakte is de kans die je zoekt. Die kans verandert niet als je de grenzen van dat interval er al dan niet bij neemt.
Als je goed kijkt, dan zie je in de groeicurven van Vlaamse kleuters een populatie die heel makkelijk te onthouden is. Hun gemiddelde lengte is één meter en vier, de standaardafwijking rond dat gemiddelde is vier en hun leeftijd is ook vier. Het zijn jongens. De populatie van deze lengten geef je de naam \(X\) en dan schrijf je dat \(X \sim N(\ 104\ , \ 4)\) .
Jongens van 4 zijn gemiddeld 104 cm groot. Hoeveel percent van die jongens wijkt daar niet meer dan 5 cm van af? Of anders gezegd, als je lukraak een jongen uit die populatie zou kiezen, wat is dan de kans dat hij niet groter dan 109 cm zal zijn maar ook niet kleiner dan 99 cm? Je zoekt dus \(P\left( 99\le X\le 109 \right).\)
Kijk goed naar fig 5 , daar zie je alles wat je nodig hebt.
De Gauss curve die je ziet is de grafiek van de normale dichtheid met gemiddelde 𝜇 = 104 en standaardafwijking 𝜎 = 4. Dat is de populatie waarmee je hier werkt. Het rode interval van a = 99 tot b = 109 is het gebied waarin de lengte van die jongen moet terechtkomen. De blauwe oppervlakte boven dat interval is gelijk aan 0.789 en dat is de kans om in dat interval terecht te komen. Alles samen heb je dat \(P\left( 99\le X\le 109 \right)=0.789.\) Als je lukraak een jongen uit die populatie zal kiezen dan heb je 78.9 % kans dat die niet groter dan 109 cm zal zijn maar ook niet kleiner dan 99 cm.
5 Oefening (opl 5)
Ga op je laptop naar norm_kans.qmd en dubbelklik en vul de juiste waarden in.
Nota: voor oneindig tik je Inf of -Inf (met hoofdletter).
Jongens van 4 zijn gemiddeld 104 cm groot met een standaardafwijking van 4 cm. Zoek, voor deze jongens, het antwoord op de onderstaande vragen. Gebruik bij je antwoord een correcte notatie en ook een grafische voorstelling.
Wat is de kans dat een jongen een lengte heeft die “dicht” tegen het gemiddelde ligt, tussen 103 cm en 105 cm? Wat is \(P(103\le X\le 105)\ ?\)
Hoeveel percent van die jongens is kleiner dan 95 cm? Wat is \(P(X<95)\ ?\)
Wat is de kans op een “grote” jongen (minstens 112 cm)? Wat is \(P(X\ge 112)\ ?\)
Wat is \(P(X\ge 112)\) voor jongens van 5 jaar (die zijn gemiddeld 110 cm met standaardafwijking 4.5 cm) ?
4.2 Kritische punten
Je weet nu hoe je de kans berekent om in een of ander interval terecht te komen wanneer je trekt uit een normale populatie. Voor jongens van 4 kan je antwoorden op vragen die eruit zien als: wat is \(P(103\le X\le 105)\) of hoeveel is \(P(X<95)\) wanneer \(X \sim N(\ 104\ , \ 4)\) .
Soms moet je het antwoord zoeken op vragen die “omgekeerd” gesteld worden.
4.2.1 Linkerstaart
Om deze nieuwe vraag op een eenduidige manier te kunnen oplossen spreken we af dat het te zoeken interval eruitziet als een “linkerstaart”, dus van de vorm ( -∞ , x ] . Hoe groot is dan die linkerstaart als men je zegt dat de populatie daar met een gegeven kans, bv. 20 % , in terecht komt. Of concreet: waar zitten de 20 % kleinste jongens in die populatie van de vierjarigen? Of ook: wat is het punt \(x\) waarvoor \(P( X\le x) = 0.20\) wanneer \(X \sim N(\ 104\ , \ 4) ?\) Dat te zoeken punt \(x\) (eindpunt van de linkerstaart) heeft een naam: het heet kritisch punt.
Op fig 6 zie je het hele verhaal: een kans die gegeven is (20 % of 0.2) en een kritisch punt dat gezocht werd [ x = 100.63 ]. Dat is de manier om te bepalen in welke linkerstaart die populatie terechtkomt met de gegeven kans . In dit voorbeeld mogen jongens niet groter zijn dan 100.63 cm om te behoren tot de 20 % kleinsten van hun leeftijdsgroep.
Bij het bepalen van een kritisch punt kijk je naar een linkerstaart. Dat is prima als je wil weten in welk gebied de 20 % kleinste jongens liggen. Maar wat doe je als men vraagt hoe groot een jongen minstens moet zijn om tot de 20 % grootsten te behoren? Dat is een vraag naar een rechterstaart.
4.2.2 Rechterstaart
Voor die nieuwe vraag heb je geen nieuwe berekeningen nodig. Wat je al kent is voldoende en je kan zelfs op twee manieren het antwoord vinden:
complementair: splits de totale oppervlakte onder de curve op in twee stukken.
symmetrisch: gebruik de symmetrie van de normale curve.
Complementair
Als 20 % van die jongens groter is dan een lengte \(x\) , dan is 80 % van die jongens niet groter. En samen vormen al die jongens een populatie van 100 %. Van die eigenschap kan je handig gebruik maken .
Als je een punt \(x\) zoekt zodanig dat een populatie \(X\) met 20 % kans ten minste zo groot als \(x\) is, dan is die populatie met 80 % kans kleiner dan dat punt \(x\) :
als \(P(X \ge x)\ =\ 20\ \%\) dan is \(P( X< x)\ =\ 80\ \%\) .
Als je weet waar de linkerstaart eindigt, dan weet je ook waar de rechterstaart begint.
Hoe je het kritisch punt \(x\) zoekt voor een linkerstaart zodat \(P( X< x)\ =\ 80\ \%\) , dat weet je al. Dat punt \(x\) is ook het beginpunt van de gezochte rechterstaart.
In fig 7 zie je wat er gebeurt. Het blauwe gebied is 80 % boven een linkerstaart en de grijze oppervlakte die rechts overblijft is 20 %. Daaronder vind je de gezochte rechterstaart. Vierjarige jongens moeten minstens 107.37 cm groot zijn om tot de 20 % grootsten van hun leeftijdsgroep te behoren.
Symmetrie
Je kan ook op een andere manier tewerk gaan en gebruik maken van symmetrie. Elke normale curve is symmetrisch rond haar gemiddelde.
In fig 8 zie je hoe je deze symmetrie handig kan gebruiken om uit de kennis van een linkerstaart ook een rechterstaart te weten te komen.
De 20 % kleinste jongens komen terecht in de linkerstaart ( - ∞ , 100.63 ]. Dat heb je gezien in fig 6. Die linkerstaart loopt tot 100.63 en dat is 3.37 minder dan het gemiddelde (want 104 - 3.37 = 100.63).
Laat nu een rechterstaart beginnen op een symmetrische afstand rechts van het gemiddelde, dus op 104 + 3.37 = 107.37.
Boven de rechterstaart ⦏ 107.37 , + ∞ ) staat, wegens de symmetrie, ook een oppervlakte van 20 %. Dat betekent dat, om tot de 20 % grootste jongens van deze populatie te behoren, je minstens 107.37 cm moet zijn. Dat had je al gevonden in fig 7 .
Extreme waarden trekken dikwijls de aandacht en dat is zeker ook zo bij groeicurven. Jongens van 4 hebben een gemiddelde lengte van 104 cm met een standaardafwijking van 4 cm. Er kunnen medische redenen zijn waarom kleuters zeer klein of zeer groot zijn binnen hun leeftijdsgroep. Dat vraagt soms extra opvolging. In oef 6 ontmoet je enkele voorbeelden.
6 Oefening (opl 6)
Ga op je laptop naar norm_krpt.qmd en dubbelklik en vul de juiste waarden in.
De linkerstaarten die je met dit programma kan berekenen zijn voldoende om de onderstaande vragen te kunnen beantwoorden. Gebruik bij je antwoord een correcte notatie en ook een grafische voorstelling.
Bepaal het kritisch punt \(x\) voor de linkerstaart waarin de 10% kleinste jongens terechtkomen. Of: wat is \(x\) waarvoor \(P(X\le x)=10\ \%\) wanneer \(X \sim N(\ 104\ , \ 4)\) ?
Hoe groot moet een jongen minstens zijn om te behoren tot de groep van supergrote jongens waarvan er maar 1 op 100 van zijn leeftijd zijn? Of: wat is \(x\) waarvoor \(P(X\ge x)=1\ \%\) wanneer \(X \sim N(\ 104\ , \ 4)\) ?
Tweezijdig. Waar zitten de 5 % extreme lengten bij die jongens? Wanneer men niet zegt “extreem klein” of “extreem groot” maar gewoon vraagt naar “extremen” dan ga je ervan uit dat men “extreem in beide richtingen” bedoelt. De 5 % extreme lengten zijn de 2.5 % extreem kleine samen met de 2.5 % extreem grote. Deze vraag verwacht een tweezijdig antwoord, met 2 kritische punten: zoek \({{x}_{1}}\) en \({{x}_{2}}\) zodat \(P(X\le x_1)=2.5\ \%\) en \(P(X\ge x_2)=2.5\ \%\) wanneer \(X \sim N(\ 104\ , \ 4)\) . Formuleer je antwoord ook in woorden: “om tot de 5 % jongens te behoren met een extreme lengte _ _ _ _ _ _ _ _ _ _ _ _ _ _ _”.
4.2.3 qnorm( )
Hierboven heb je korte programma’s (in R) gebruikt om kritische punten te berekenen en om tegelijkertijd de normale curve, het kritisch punt en het bijhorende gebied (linker- of rechterstaart) grafisch voor te stellen. Dat is nuttig om goed te begrijpen waarover het gaat. Als je dat ondertussen kent en je hebt alleen maar een kritisch punt nodig, dan kan je ook korter tewerk gaan. R heeft heel veel ingebouwde functies en één daarvan ziet eruit als:
qnorm(p = .... , mean = .... , sd = .... )
In deze functie vul je bij p = …. de kans in om in een linkerstaart terecht te komen. Bij mean = … en bij sd = …. vul je het gemiddelde en de standaardafwijking in van de normale populatie. Als resultaat geeft deze functie het kritisch punt voor de linkerstaart.
Je hebt hierboven al een kritisch punt gezocht waarbij jongens van 4 met 20 % kans in een linkerstaart moeten terechtkomen Een (kopieerbare) R code chunk waarmee je dit kritisch punt tot op 2 decimalen berekent zou er als volgt kunnen uitzien:
je vult de juiste parameters voor
qnorm()in en het resultaat (het gezochte kritisch punt) geef je een naam, bijvoorbeeld krptin het volgende commando zeg je dat krpt moet afgerond worden op 2 decimalen om dan terug de naam krpt te krijgen
tenslotte roep je het eindresultaat op door gewoon de naam krpt te typen.
```{r}
krpt <- qnorm(p = 0.20, mean = 104, sd = 4)
krpt <- round(krpt, 2)
krpt
```Je kan nu met kopiëren en plakken (zie) bovenstaande code chunk overbrengen naar “mijnwerkblad.qmd” en het resultaat hieronder controleren.
Inderdaad, het kritisch punt is 100.63. Jongens van 4 mogen niet groter dan 100.63 cm zijn om tot de 20 % kleinsten van hun leeftijd te behoren.
Je kan de functie qnorm() aanpassen en er een extra argument aan toevoegen zodat je het kritisch punt krijgt voor een rechterstaart. Je werkt dan met:
qnorm(p = .... , mean = .... , sd = .... , lower.tail = FALSE)
Je kan met kopiëren en plakken (zie) onderstaande code chunk overbrengen naar “mijnwerkblad.qmd”
```{r}
krpt <- qnorm(p = 0.20, mean = 104, sd = 4, lower.tail = FALSE)
krpt <- round(krpt, 2)
krpt
```Als resultaat krijg je nu:
Dit wist je al. Jongens moeten minstens 107.37 cm zijn om tot de 20 % grootsten van hun groep te behoren.
7 Oefening (opl 7)
Gebruik de R-functie qnorm( ) om deze oefening op te lossen.
Maak hierbij gebruik van de R code chunk die je zopas gekopieerd hebt naar mijnwerkblad.qmd. In dit bestand (dus in RStudio) kan je de parameters bij qnorm( ) aanpassen. Daarna druk je op de groene pijl (rechtsboven in die code chunk) en dan krijg je een aangepast antwoord voor de aangepaste parameters. Zo hoef je niets opnieuw in te typen.
Bij jongens van 5 jaar (met een gemiddelde lengte van 110 cm en een standaardafwijking van 4.5 cm) ga je op zoek naar de 10 % extreme lengten. Waar liggen die?
5 Standaardiseren
5.1 Data en context
Een jongen is één meter en 14 centimeter. Een andere jongen is één meter tachtig.
Met een correcte meetprocedure krijg je een dataset van lengten van jongens. Je gebruikt een meetlat die start bij nul en in stapjes van 1 cm (of 1 mm, of…) vooruitgaat tot je de juiste lengte hebt. Dat doe je zo bij elke jongen. Deze manier van meten is gestandaardiseerd en is nuttig: iedereen weet wat men bedoelt. Een jongen van één meter tachtig is een jongen van één meter tachtig, daar kan je je iets bij voorstellen.
Data moeten correct opgemeten worden, maar data zijn niet zomaar data. Zij krijgen een extra betekenis binnen de context van een onderzoek.
“Die jongen van één meter tachtig, die is toch wel uitzonderlijk groot hé, vind je niet?”
Waarom kan je op deze vraag niet antwoorden? Je kent toch de exacte lengte van die jongen?
Je kan niet antwoorden omdat de vraag niet gaat over de lengte van die jongen, maar over de lengte “in een context”. Na de vraag “is die jongen niet uitzonderlijk groot?” komt onmiddellijk de vraag “uitzonderlijk groot… in vergelijking met wat?”.
Van zodra je de context van de vraag duidelijk maakt (hier neem je als context de leeftijdsgroep waartoe die jongen behoort) stap je een nieuwe wereld binnen.
5.2 Een nieuwe meetlat
Die jongen van één meter tachtig is 14 jaar.
Je hebt hier nu één waarde uit de totale populatie van de lengten van alle jongens van 14. Voor die totale populatie \(X\) kan je werken met een normaal kansmodel met gemiddelde 𝜇 = 166 en standaardafwijking 𝜎 = 8 , dus met \(X \sim N(\ 166\ , \ 8).\) De specifieke waarde van die ene jongen noteer je met een kleine letter \(x\) zodat \(x = 180\) in dit geval.
Dit model vertelt je dat jongens van 14 gemiddeld 166 cm groot zijn. Dit gemiddelde is een nieuw referentiepunt bij je onderzoek. Je meet die jongen niet meer vanaf nul tot aan 180 maar je vergelijkt nu de lengte van die jongen met het gemiddelde 𝜇 van de populatie waartoe die jongen hoort. Je hebt dan: \(x-\mu \ \,=\ 180-166\,\ =\ 14.\) Inderdaad, binnen zijn leeftijdsgroep is die jongen groter dan het gemiddelde. Dat is al duidelijk.
Als je 14 cm groter bent dan het gemiddelde, ben je dan “groot” of “zeer groot” of “supergroot” of… . Hoe meet je dat?
Ook hier gebruik je geen “absolute maatstaf” om te zeggen hoe “extreem groot” die jongen is. Herinner je dat je nog altijd werkt binnen de populatie van de 14-jarigen. Het is in vergelijking met de jongens van 14 dat je een uitspraak moet doen:
misschien is er heel veel variabiliteit in de lengte van die 14-jarigen. Misschien zijn er heel wat jongens 14 cm groter dan het gemiddelde, en zijn er ook nogal wat die 15 cm en 16 cm en 17 cm groter zijn dan het gemiddelde. Als dat waar is dan is die jongen van 180 cm niet zo speciaal groot.
misschien is er weinig variabiliteit in de lengte rond het gemiddelde. Misschien wijkt de lengte van de meeste jongens niet zoveel af van 166 cm en zijn er maar weinig die 14 cm of 15 cm of …. groter zijn dan het gemiddelde. In dat geval is die jongen van 180 cm toch eerder uitzonderlijk in die groep.
Hoe sterk de populatiewaarden variëren rond het gemiddelde 𝜇 wordt aangegeven door de standaardafwijking 𝜎. Dat is de maat voor variabiliteit. Het is die maat die je als eenheid neemt om te bepalen “hoe sterk” een populatiewaarde afwijkt van het gemiddelde.
Je zegt dus niet dat die 14-jarige jongen 180 cm groot is.
Je zegt ook niet dat die jongen 14 cm groter is dan het gemiddelde.
Je zegt dat die jongen “1.75 standaardafwijkingen groter is dan het gemiddelde”.
Inderdaad, voor deze populatie heb je:
\(\mu \ +\ (1.75)\sigma \ =\ 166\ +\ (1.75)\cdot 8\ =\ 180\)
Door op deze manier tewerk te gaan gebruik je de locatie (gemiddelde) en de spreiding (standaardafwijking) van de populatie die je aan het bestuderen bent. Dat is je referentie.
Je hebt nu een nieuwe manier van meten:
je start niet op nul maar je gebruikt een meetlat die telt (naar links en naar rechts) vanaf het gemiddelde 𝜇
op die meetlat ga je vanaf het gemiddelde naar links of naar rechts met stappen van lengte 𝜎 (dat is de nieuwe eenheid)
resultaat = hoeveel 𝜎 ben je verwijderd (pos. of neg.) van 𝜇?
Een waarde vergelijken met het gemiddelde van een groep doe je bijna automatisch. Daarbij ook denken aan de variabiliteit binnen die groep doe je zelden. Alleen maar kijken hoeveel iemand boven of onder het gemiddelde zit, kan je ernstig op het verkeerde been zetten. Dat zie je in de volgende oefening.
8 Oefening (opl 8)
Gebruik de R-functie qnorm( ) om deze oefening op te lossen.
Je kan hierbij gebruik maken van onderstaande R code chunk. Kopieer die (zie) naar mijnwerkblad.qmd in RStudio. Daarna pas je daar de parameters van qnorm( ) aan om de oplossingen te zoeken voor de meisjes van 17 en de jongens van 14.
Bemerk dat je bij qnorm( ) altijd lower.tail = ... kan toevoegen met de afspraak dat lower.tail = TRUE het kritisch punt voor de linkerstaart oplevert en lower.tail = FALSE het kritisch punt voor de rechterstaart. Als je lower.tail = weglaat, dan krijg je automatisch het kritisch punt voor de linkerstaart.
```{r}
krpt <- qnorm(p = _ _ _ , mean = _ _ _ , sd = _ _ _ , lower.tail = _ _ _ )
krpt <- round(krpt, 2)
krpt
```Meisjes van 17 zijn gemiddeld 1 meter 66. Hun lengte \(X\) kan je beschrijven met het normale kansmodel \(X \sim N(\ 166\ , \ 6).\) Nora is 179 cm en dat zie je. Zij is 13 cm groter dan het gemiddelde van haar leeftijdsgroep. Zij beweert dat zij tot de top 2 % grootsten behoort. Is dat waar?
Bepaal het gebied waarin de 2 % grootste meisjes van 17 terechtkomen. Valt de lengte van Nora in dat gebied?Liam is 14. Jongens van 14 zijn gemiddeld 1 meter 66 en hun lengte \(X\) gedraagt zich als het kansmodel \(X \sim N(\ 166\ , \ 8).\) Liam is 179 cm. Hij is 13 cm groter dan het gemiddelde 𝜇 van zijn leeftijdsgroep. Liam heeft gehoord dat Nora tot de top 2 % grootsten van haar leeftijd behoort. Het besluit van Liam is snel en duidelijk: ook hij behoort tot de top 2 % grootsten van zijn leeftijd want ook hij is, zoals Nora, 179 cm groot en dat is ook 13 cm groter dan de gemiddelde lengte van zijn leeftijd.
Is dat waar?
Bepaal het extreme gebied waar de 2 % grootste jongens van 14 terechtkomen. Zit Liam daarin?
Bepaal het extreme gebied waar de 5 % grootste jongens van 14 terechtkomen. Vind je Liam daar?
Als je tegen Liam zegt dat hij zelfs niet tot de top 5 % grootste jongens van 14 behoort, is dat dan waar?
5.3 De z-score
Als je een studie wil maken van “grootheden binnen een context”, zoals de lengte van een jongen binnen zijn leeftijdsgroep, dan werk je met een nieuwe meetlat. Je stapt over van de “contextloze” observatie: “die jongen is 180 cm”, op een uitspraak waarbij je die jongen plaatst binnen zijn populatie, de populatie van 14-jarigen. Daarbij gebruik je de eigenschappen van deze populatie: het is een normale populatie met gemiddelde 𝜇 = 166 en standaardafwijking 𝜎 = 8. En dan zeg je dat die jongen “1.75 standaardafwijkingen groter is dan het gemiddelde”.
Deze manier van werken heeft een eigen naam en een eigen notatie.
Je start met een populatie \(X\) van lengten : \(X \sim N(\ 166\ , \ 8)\) met gemiddelde 𝜇 = 166 cm en standaardafwijking 𝜎 = 8 cm. De lengte van een specifieke jongen noteer je met een kleine letter \(x\) . Hier is \(x\) = 180 cm. En nu bereken je:
\[\dfrac{x-\mu }{\sigma }=\ \dfrac{180\ cm-\ 166\ cm}{8\ cm}\ =\ 1.75\] .
Zo kom je tot een getal (1.75) dat aangeeft op welke manier een populatiewaarde \(x\) zich verhoudt tot de gehele populatie .
Het getal dat je met deze transformatie bekomt heet z-score en je noteert het met een kleine letter z. De jongen met lengte \(x\) = 180 cm heeft binnen zijn populatie een z-score \(z=1.75\)
Als je naar de berekening van een z-score kijkt dan zie je dat een z-score een eenheidsloos getal is (in teller en noemer staan dezelfde eenheden en die vallen dus weg).
9 Oefening (opl 9)
Nora en Liam zijn beiden 13 cm groter dan het gemiddelde 𝜇 = 166 maar toch zijn zij niet “even extreem” binnen hun eigen populatie. Dat zie je aan hun z-score.
Voor deze oefening kan je eerst de onderstaande R code chunk kopiëren en plakken (zie) naar het bestand mijnwerkblad.qmd in RStudio. Daar vul je dan de gegevens in zowel voor Nora als voor Liam. Daarna druk je op de groene pijl om de code chunk te activeren.
```{r}
z_Nora <- (_ _ - _ _) / _ _
z_Nora <- round(z_Nora, 2)
z_Nora <-paste("z-score Nora = ", as.character(z_Nora))
z_Nora
z_Liam <- (_ _ - _ _) / _ _
z_Liam <- round(z_Liam, 2)
z_Liam <-paste("z-score Liam = ", as.character(z_Liam))
z_Liam
```- Zoek de z-score van Nora en gebruik dit resultaat om de volgende uitspraak aan te vullen: “De z-score van Nora is gelijk aan …. . Nora is …. standaardafwijkingen groter dan de gemiddelde lengte van meisjes van 17.
- Zoek de z-score van Liam en gebruik zijn resultaat om over hem een analoge uitspraak te doen zoals bij Nora. Is Liam even “extreem groter” als Nora? Is hij evenveel standaardafwijkingen groter dan het gemiddelde?
6 De standaard normale
6.1 Een transformatie
Je hebt gezien dat de transformatie van waarden \(x\) uit een oorspronkelijke populatie \(X\) naar hun z-scores \(z\) in 2 stappen gebeurt.
Je start met \(X \sim N(\ 𝜇\ , \ 𝜎)\) . Van alle waarden \(x\) van deze populatie trek je het gemiddelde 𝜇 af. Je krijgt dan een nieuwe populatie van waarden die allemaal over een afstand 𝜇 verschoven zijn zodat het nieuwe gemiddelde gelijk is aan nul. Dat is zoals een verschuiving die je gezien hebt in het tweede punt van oef 4
De nieuwe populatie met gemiddelde 𝜇 = 0 heeft op dit ogenblik nog altijd de oude standaardafwijking 𝜎. Daarom deel je de zopas bekomen waarden door 𝜎 . De nieuwe waarden die je dan krijgt hebben een standaardafwijking die gelijk is aan 1. Die laatste waarden geef je de naam \(z\). Dus: \(z\ =\ \dfrac{x-\mu }{\sigma }\) .
Als je waarden van een nieuwe populatie de naam \(z\) geeft, dan is het logisch dat je de populatie zelf voorstelt met een hoofdletter \(Z\) . Op die manier ben je terecht gekomen op een normaal kansmodel met gemiddelde 0 en standaardafwijking 1. Dat model heet de standaard normale verdeling, genoteerd als: \(Z \sim N(\ 0\ , \ 1)\) .
6.2 Definitie
Het verband tussen een willekeurige normale verdeling \(X \sim N(\ 𝜇\ , \ 𝜎)\) en de standaard normale verdeling \(Z \sim N(\ 0\ , \ 1)\) kan je in “model”-notatie (dus met hoofdletters) als volgt opschrijven:
\[\dfrac{X-\mu }{\sigma}=Z\]
Als je start met gelijk welke normale verdeling \(X\) , er haar gemiddelde van af trekt en dan deelt door haar standaardafwijking, dan kom je altijd terecht op één en dezelfde normale verdeling: de standaard normale \(Z\).
Het functievoorschrift van de standaard normale haal je uit het functievoorschrift van een algemeen normaal kansmodel waarbij je 𝜇 gelijk aan nul stelt en 𝜎 gelijk aan 1. Bemerk dat je \(z\) (kleine letter) gebruikt voor de waarden van het kansmodel \(Z\) (hoofdletter). Het is logisch dat je dan ook \(z\) gebruikt als veranderlijke in je functievoorschrift:
\(f(z)=\dfrac{1}{\sqrt{2\pi }}\ {{e}^{-\;\dfrac{{{z}^{\text{2}}}}{2}}}\ \ \ \ \text{voor}\ \ -\infty <z<+\infty\)
De grafiek van de standaard normale dichtheidsfunctie zie je in fig 9
Bemerk dat je de top van de curve terugvindt bij een z-waarde gelijk aan nul.
7 Kansuitspraken
7.1 Voor elke normale…
Het verband \(\dfrac{X-\mu }{\sigma}=Z\) tussen een willekeurige normale en de standaard normale maakt het mogelijk om eigenschappen van de ene over te dragen op eigenschappen van de andere en omgekeerd. Zo kom je tot kansuitspraken die gelden voor elke normale.
Een voorbeeld hiervan zie je hieronder.
Je vertrekt van een eigenschap die je al gevonden hebt in oef 8 . Om bij de 5 % grootste jongens van 14 te horen moet je minstens 179.16 cm groot zijn. Die uitspraak kan je ook anders formuleren want je weet dat \(X \sim N(\ 166\ , \ 8)\) voor die jongens. Zij moeten dus minstens 166 + (1.645) x 8 = 179.16 of 𝜇 + (1.645) x 𝜎 = 179.16 groot zijn. In woorden zeg je: jongens van 14 moeten minstens 1.645 standaardafwijkingen groter dan het gemiddelde zijn om tot de top 5 % van hun groep te behoren.
10 Oefening (opl 10)
Gebruik de R-functie qnorm() om deze oefening op te lossen.
Onderstaande R code chunk kan je kopiëren en plakken (zie) naar mijnwerkblad.qmd in RStudio. Daar vul je dan de juiste waarden in en daarna klik je op de groene pijl.
```{r}
krpt <- qnorm(p = _ _, mean = _ _, sd = _ _, lower.tail = _ _)
krpt <- round(krpt, 2)
krpt
```- De lengte van meisjes van 17 is normaal verdeeld met gemiddelde 𝜇 = 166 en standaardafwijking 𝜎 = 6. Bepaal het kritisch punt waarboven de lengten moeten vallen om tot de top 5 % te behoren. Gebruik dit resultaat om een uitspraak te doen zoals hierboven bij de jongens van 14.
Meisjes van 17 moeten minstens _ _ _ _ _ _ _ _ om tot de top 5 % van hun groep te behoren. - Ga op een analoge manier tewerk voor een normaal verdeelde populatie met gemiddelde 𝜇 = 0 en standaardafwijking 𝜎 = 1. Bepaal ook daar het kritisch punt om waarden te vinden die tot de top 5 % behoren. Zorg ervoor dat je het kritisch punt hier afrondt tot op 3 decimalen. Vervolledig daarna de uitspraak:
Bij een standaard normale populatie moeten de waarden minstens _ _ _ _ _ _ _ _ om tot de top 5 % grootste te behoren.
Je hebt zopas, bij de standaard normale en bij de meisjes van 17 en bij de jongens van 14, drie keer hetzelfde getal 1.645 ontmoet. Dat is geen toeval.
Door bij elk normaal model een eigen meetlat te gebruiken (je neemt het gemiddelde 𝜇 als centrum en je gebruikt de standaardafwijking 𝜎 als eenheid van afstand tot dit centrum) kom je tot gestandaardiseerde uitspraken voor alle normale kansmodellen.
Kansuitspraak:
Je kan dat ook schrijven in formulevorm, waarbij je gebruik maakt van wat je al weet van de standaard normale verdeling \(Z\) (zie oef 10).
Voor elke \(X \sim N(\ 𝜇\ , \ 𝜎)\) geldt:
\(P\left( X\ge \mu \ +\ 1.645 \ \sigma \right)=P\left( \dfrac{X-\mu }{\sigma }\ge 1.645 \right)=P\left( Z\ge 1.645 \right)=0.05\)
Je hebt hier \(\dfrac{X-\mu }{\sigma}=Z\) gebruikt om van een algemeen model \(X\) over te stappen op de standaard normale \(Z\). Je kan deze transformatie ook in de andere richting gebruiken en uit eigenschappen van \(Z\) eigenschappen voor \(X\) afleiden.
Een eigenschap van \(Z\) ziet er bijvoorbeeld als volgt uit.
Uit \(P\left( Z\ge 1.645 \right)=0.05\) volgt (wegens symmetrie van de standaard normale rond nul) dat \(P\left( Z\le -1.645 \right)=0.05\).
Voor het gebied dat in het midden (symmetrisch rond 0) overblijft geldt dan dat \(P\left( -1.645 \le Z\le 1.645 \right)=0.90\).
Op analoge manier vind je dat \(P\left( -1.96 \le Z\le 1.96 \right)=0.95\). Controleer deze eigenschappen in oef 11.
11 Oefening (opl 11)
Ga op je laptop naar norm_kans.qmd en dubbelklik en vul de juiste waarden in.
Toon aan dat \(P\left( -1.645 \le Z\le 1.645 \right)=0.90\). Stel dit resultaat ook grafisch voor.
Toon aan dat \(P\left( -1.96 \le Z\le 1.96 \right)=0.95\). Stel dit resultaat ook grafisch voor.
Begrijp je de standaard normale echt heel goed? Schrijf dan 1.96 eens anders op, namelijk als \(0+(1.96)\cdot 1\) want dat is 𝜇 + 1.96 𝜎 voor \(Z \sim N(\ 0\ , \ 1)\) .
In woorden kan je voor \(P\left( -1.96\le Z\le 1.96 \right)=0.95\) zeggen dat een standaard normale in het interval [ –1.96 , 1.96 ] valt met kans 95 %. Maar het is veel interessanter om die 1.96 te herschrijven en op te merken dat \(P\left( -1.96\le Z\le 1.96 \right)=P\left( \mu -1.96\ \sigma \le Z\le \mu +1.96\ \sigma \right)=0.95.\) Nu kan je zeggen dat een standaard normale met 95 % kans niet verder dan 1.96 standaardafwijkingen van zijn gemiddelde valt.
Als je dat op deze manier zegt, dan heb je niet enkel een kansuitspraak voor een standaard normaal kansmodel maar voor alle normale kansmodellen.
Kansuitspraak:
Je weet nu hoe je algemene kansuitspraken kan doen. Zo volgt bv uit oef 11:
Kansuitspraak:
Je kan deze manier van redeneren gebruiken om, zonder kansen te berekenen, te voorspellen wat er zal gebeuren bij normale populaties:
als je lukraak een meisje van 17 zal ontmoeten dan heb je 95 % kans dat zij niet groter dan 177.76 cm zal zijn maar ook niet kleiner dan 154.24 cm. Inderdaad, hier is 𝜇 + 1.96 𝜎 = \(166 +(1.96)\cdot 6\) = 177.76 en 𝜇 - 1.96 𝜎 = 154.24.
als je lukraak een jongen van 14 zal ontmoeten dan heb je 90 % kans dat hij niet groter dan 179.16 cm zal zijn maar ook niet kleiner dan 152.84 cm. Inderdaad, hier is 𝜇 + 1.645 𝜎 = \(166 +(1.645)\cdot 8\) = 179.16 en 𝜇 - 1.645 𝜎 = 152.84.
Controleer de twee bovenstaande uitspraken in oef 12.
12 Oefening (opl 12)
Ga op je laptop naar norm_kans.qmd en dubbelklik en vul de juiste waarden in.
Voor meisjes van 17 met \(X \sim N(\ 166\ , \ 6)\) is \(P\left( 154.24 \le X\le 177.76 \right)=95 \ \% .\) Stel dit resultaat ook grafisch voor.
Voor jongens van 14 met \(X \sim N(\ 166\ , \ 8)\) is \(P\left( 152.84 \le X\le 179.16 \right)=90 \ \% .\) Stel dit resultaat ook grafisch voor.
7.2 pnorm( )
7.2.1 linkerstaart
De functie qnorm(p = .... , mean = .... , sd = .... )heb je al ontmoet. Daar moet je bij p = ... de kans invullen om in een linkerstaart terecht te komen en qnorm() zegt je dan wat die linkerstaart is (je krijgt het kritisch punt = eindpunt van de linkerstaart).
Voor een antwoord op een vraag in de andere richting ( je zegt wat de linkerstaart is en je vraagt wat de kans is om in die staart terecht te komen) kan je de functie
pnorm(q = .... , mean = .... , sd = .... )gebruiken. Daarbij vul je bij q = ... het eindpunt van de linkerstaart in en dan geeft de functie pnorm() de kans om in die staart terecht te komen.
Vragen van dit type kan je oplossen met norm_kans.qmd waarbij je ook een grafische voorstelling krijgt. Je hebt dat al gedaan in oef 5 waar je vond dat jongens van 4 in een gegeven linkerstaart ( -∞ , 95 ) terechtkomen met kans 1.2 % , of dat \(P( X<95)\ =\ 1.2\) % als \(X \sim N(\ 104\ , \ 4)\) . Dit resultaat (zonder grafische voorstelling) krijg je met de functie pnorm() als volgt (werk met onderstaande R code chunk):
```{r}
kans <- pnorm(q = 95, mean = 104, sd = 4)
kans <- round(kans, 3)
kans
```Met kopiëren en plakken (zie) naar mijnwerkblad.qmd in RStudio krijg je:
Inderdaad, \(P( X<95)\ =\ 0.012\)
7.2.2 willekeurig interval
Je kan pqnorm() ook gebruiken om de kans in gelijk welk interval (a , b) te berekenen. Denk daarbij aan kans als “oppervlakte onder de curve”. Als je pnorm() berekent in het eindpunt b dan is dat de oppervlakte vanaf -∞ tot b. Daarvan trek je af de oppervlakte vanaf -∞ tot a (dat is pnorm() berekend in het beginpunt a). Wat overblijft is de oppervlakte tussen a en b, wat de gezochte kans is om in het interval (a , b) terecht te komen.
In oef 5 vond je dat jongens van 4 een kans van 19.7 % hadden om tussen 103 cm en 105 cm groot te zijn. Om dat resultaat te vinden kan je volgende R code chunk maken:
```{r}
kans_b <- pnorm(q = 105, mean = 104, sd = 4)
kans_a <- pnorm(q = 103, mean = 104, sd = 4)
kans <- kans_b - kans_a
kans <- round(kans, 3)
kans
```Met kopiëren en plakken (zie) naar mijnwerkblad.qmd in RStudio krijg je:
Inderdaad, \(P(103\le X\le 105)\ =\ 19.7\) % als \(X \sim N(\ 104\ , \ 4)\)
7.2.3 symmetrisch rond 𝜇
Om de kans van een gebied symmetrisch rond het gemiddelde, zoals het interval [ 𝜇 - c , 𝜇 + c ] , te berekenen ga je als volgt tewerk.
Verdeel de volledige getallenas in 3 stukken: een linkerstaart ( - ∞ , 𝜇 - c) gevolgd door het beschouwde gebied [ 𝜇 - c , 𝜇 + c ] gevolgd door een rechterstaart ( 𝜇 + c , + ∞ ) .
De totale oppervlakte onder een normale curve is gelijk aan 1 zodat:
1 = \(P\left( X \ < \mu \ -\ c \ \right)\) + \(P\left( \mu \ -\ c \le X \le \mu \ +\ c \ \right)\) + \(P\left( X \ > \mu \ +\ c \ \right)\)
Wegens symmetrie rond het gemiddelde is de kans in de linkerstaart \(P\left( X \ < \mu \ -\ c \ \right)\) gelijk aan de kans in de rechterstaart \(P\left( X \ > \mu \ +\ c \ \right)\) zodat:
\(P\left( \mu \ -\ c \le X \le \mu \ +\ c \ \right)\) = 1 - 2 \(P\left( X \ < \mu \ -\ c \ \right)\)
De kans in de linkerstaart \(P\left( X \ < \mu \ -\ c \ \right)\) bereken je met pnorm( ) zoals hierboven.
In oef 5 vond je dat jongens van 4 met 19.7 % kans terechtkomen in [ 103 , 105 ]. Dat is een symmetrisch interval rond hun gemiddelde want 𝜇 = 104 zodat [ 103 , 105 ] = [ 𝜇 - 1 , 𝜇 + 1 ]. Je kan dus bovenstaande formule gebruiken met 𝜇 = 104 en c = 1.
13 Oefening (opl 13)
Toon aan dat jongens van 4 met 19.7 % kans terechtkomen in [ 103 , 105 ]. Maak gebruik van pnorm( ) samen met onderstaande R code chunk.
```{r}
kans <- 1 - 2 * pnorm(q = _ _, mean = _ _, sd = _ _)
kans <- round(kans, 3)
kans
```
7.3 De 68 - 95 - 99.7 regel
Als je bij normale verdelingen een “gestandaardiseerde” uitspraak doet (in termen van “gemiddelde” en “standaardafwijking”) dan is die uitspraak geldig voor alle normale kansmodellen. Dat heb je hierboven al gezien.
Soms is men geïnteresseerd in speciale symmetrische gebieden rond het gemiddelde, waarbij de waarden liggen
op hoogstens een afstand van 1 standaardafwijking van het gemiddelde
op hoogstens een afstand van 2 standaardafwijkingen van het gemiddelde
op hoogstens een afstand van 3 standaardafwijkingen van het gemiddelde.
Om de kans te berekenen dat je in die gebieden terechtkomt kan je werken met de standaard normale verdeling. Doe dat in de volgende oefening waarbij je pnorm( ) gebruikt en waarbij je de algemene formule voor een symmetrisch gebied rond het gemiddelde aanpast voor een standaard normale.
14 Oefening (opl 14)
Bereken de kans voor de 3 situaties die hierboven vermeld worden. Gebruik pnorm( ) samen met de onderstaande R code chunk. Schrijf de gevonden kans in formulevorm waarin 𝜇 en 𝜎 expliciet voorkomen.
```{r}
kans <- 1 - 2 * pnorm(q = _ _, mean = _ _, sd = _ _)
kans <- round(kans, 3)
kans
```
Met de resultaten van oef 14 die je expliciet in termen van gemiddelde en standaardafwijking hebt opgeschreven, kan je nu de volgende kansuitspraken doen:
Als je ergens de “68 - 95 - 99.7 regel” ziet staan, dan is dat niets anders dan een samenvatting van de 3 bovenstaande kansuitspraken (waarbij 68.3 afgerond is naar 68 en 95.4 naar 95)
8 Groeicurven (recap)
Je hebt in deze tekst normale kansmodellen bestudeerd. Wat je geleerd hebt, kan je gebruiken om de grafiek van de groeicurven (waarmee deze tekst begonnen is) iets grondiger te bekijken.
Hieronder zie je een fragment uit de groeicurven voor Vlaamse jongens tussen 0 en 5 jaar. Onderaan de figuur staat de leeftijd, opgedeeld per maand. Voor elke maand is de lengte voorgesteld door een normaal kansmodel. Je hebt hier dus te maken met heel veel verschillende normale verdelingen.
Als voorbeeld kijk je naar de jongens van 4 jaar. Die zie je op de verticale lijn waar onderaan een 4 staat (rode driehoek).
Die verticale lijn wordt doorkruist door 7 curven.
De middelste curve is iets dikker en geeft de gemiddelde lengte van deze 4-jarige jongens. Dat is hier 104 cm.
Rechts bovenaan (in de groene rechthoek) zie je een getal bij elk van die curven. Dat is de z-score. Je weet dat een z-score aangeeft hoeveel standaardafwijkingen een populatiewaarde \(x\) groter (of kleiner) is dan het populatiegemiddelde 𝜇. Je ziet dat de curve van het gemiddelde een z-score heeft die gelijk is aan 0. Inderdaad, een jongen van 104 cm wijkt 0 standaardafwijkingen af van het gemiddelde van zijn leeftijdsgroep.
Kijk nu bijvoorbeeld eens naar de bovenste gestippelde curve, waar het getal 2.5 bij staat. Die curve geeft waarden aan die 2.5 standaardafwijkingen groter zijn dan het gemiddelde. Voor jongens van 4 snijdt die gestippelde curve de verticale lijn bij 114 cm. Een jongen van 114 cm is 10 cm groter dan het gemiddelde en die krijgt een z-score van 2.5. Die “10 cm groter” is dus “2.5 standaardafwijkingen groter” wat betekent dat de standaardafwijking 𝜎 van deze populatie gelijk is aan 4. Inderdaad, voor de lengte \(X\) van vierjarige jongens heb je dat \(X \sim N(\ 104\ , \ 4).\)
Je ziet onderaan ook een tabel die uitleg geeft bij de z-scores. Naast een z-score staat een kleine letter p gevolgd door een getal. Die letter p geeft (in de notatie die hier gebruikt wordt) de kans van een linkerstaart (dus de kans om terecht te komen in ( -∞ , z)). Naast de z-score van 2.5 staat p99.4. Een grafische voorstelling zie je in de onderste groene rechthoek.
De grafiek van de groeicurven geeft informatie over 60 verschillende normale kansmodellen (één normale verdeling voor elke maand tussen 0 en 5 jaar) en toch heeft men maar 1 tabel met kansen voor z-scores nodig. In oef 15 kan je tonen waarom deze informatie voldoende is.
15 Oefening (opl 15)
Start met om het even welk normaal kansmodel voor de lengte van jongens van een bepaalde leeftijd tussen 0 en 5 jaar. Geef dit model de naam \(X\) en werk met \(X \sim N(\ 𝜇\ , \ 𝜎).\)
Gebruik de juiste notatie om de kans op te schrijven dat in deze populatie een jongen kleiner is dan 2.5 standaardafwijkingen bovenop het gemiddelde. Gebruik in deze kansuitspraak de transformatie om naar de standaard normale verdeling \(Z\) over te stappen. Bereken tenslotte deze kans en maak ook een grafische voorstelling. Ga op je laptop naar norm_kans.qmd en dubbelklik en vul de juiste waarden in.
9 OPLOSSINGEN
1 Oplossing (oef 1)
Een normale dichtheidsfunctie is symmetrisch rond één top en hier zie je een top bij een x–waarde van 110 cm. Had je dat verwacht? Wat zou je hier kunnen uit afleiden? Kijk ook naar de globale vorm van de grafiek.
Het gemiddelde van deze populatie is gelijk aan 110 en dat is ook de x–waarde van de top van de Gauss curve. De globale vorm van de grafiek zegt ook dat er een grotere kans is om in een gebied rond het gemiddelde terecht te komen (bv in [109 , 111]) dan in een even groot gebied dat verder van het gemiddelde verwijderd is (zoals in [102 , 104] of in [114 , 116]).
2 Oplossing (oef 2)
Als je twee normaal verdeelde populaties hebt met dezelfde standaardafwijking 𝜎 maar met een verschillend gemiddelde (met \({{\mu }_{1}}>{{\mu }_{2}}\)), wat zie je dan aan hun grafieken?
De grafieken van de twee populaties zijn identiek van vorm en ook hun top heeft dezelfde hoogte. Alleen de locatie is verschillend. Het is alsof je hier werkt met een bevroren curve, die je alleen maar kan verschuiven (naar rechts als je overstapt naar de populatie met het grootste gemiddelde).
3 Oplossing (oef 3)
Wat hun ligging betreft zijn beide grafieken niet verschoven, hun top hebben zij beide bij x = 166. Maar de hoogte van die top is verschillend: 0.066 bij meisjes en slechts 0.050 bij jongens. Je weet ook dat bij alle dichtheidsfuncties, zonder uitzondering, de totale oppervlakte onder de curve gelijk moet zijn aan 1. Hoe kan die oppervlakte één zijn bij een curve met een lagere top? Wat zie je op de grafiek? Wat is naast de locatie (de x‑waarde van de top) ook nog een andere karakteristiek?
Als de top lager is, dan moeten “de staarten” dikker zijn want de totale oppervlakte onder de curve moet dezelfde blijven (namelijk 1). Naast de “locatie” (ligging) bekijk je ook de “vorm” van de curve. Bij een normale is de vorm altijd symmetrisch klokvormig maar de curve kan “spitser” of “breder” zijn. Ook “spitsheid” is een karakteristiek.
4 Oplossing (oef 4)
Ga op je laptop naar norm_shape.qmd en dubbelklik en vul de juiste waarden in.
De invloed van het gemiddelde \({{\mu }}\) en de standaardafwijking \({{\sigma }}\) op de vorm van een normale curve kan je zelf eens uitproberen.
- zelfde gemiddeld, verschillende standaardafwijking:
blauwe curve: \({{\mu }_{1}}\) = 130 , \({{\sigma }_{1}}\) = 12 en rode curve: \({{\mu }_{2}}\) = 130 , \({{\sigma }_{2}}\) = 7
- verschillend gemiddelde, zelfde standaardafwijking:
blauwe curve: \({{\mu }_{1}}\) = 110 , \({{\sigma }_{1}}\) = 8 en rode curve: \({{\mu }_{2}}\) = 140 , \({{\sigma }_{2}}\) = 8
- verschillend gemiddelde, verschillende standaardafwijking:
blauwe curve: \({{\mu }_{1}}\) = 160 , \({{\sigma }_{1}}\) = 2 en rode curve: \({{\mu }_{2}}\) = 150 , \({{\sigma }_{2}}\) = 4
- kies zelf welk gemiddelde en standaardafwijking je wil voor blauw en rood en voorspel vooraf wat je qua locatie en spitsheid verwacht als je die twee curven met elkaar vergelijkt.
5 Oplossing (oef 5)
Ga op je laptop naar norm_kans.qmd en dubbelklik en vul de juiste waarden in.
Nota: voor oneindig tik je Inf of -Inf (met hoofdletter).
Jongens van 4 zijn gemiddeld 104 cm groot met een standaardafwijking van 4 cm. Zoek, voor deze jongens, het antwoord op de onderstaande vragen. Gebruik bij je antwoord een correcte notatie en ook een grafische voorstelling.
- Wat is de kans dat een jongen een lengte heeft die “dicht” tegen het gemiddelde ligt, tussen 103 cm en 105 cm? Wat is \(P(103\le X\le 105)\ ?\)
als \(X \sim N(\ 104\ , \ 4)\) dan is \(P(103\le X\le 105)\ =\ 19.7\) %
- Hoeveel percent van die jongens is kleiner dan 95 cm? Wat is \(P(X<95)\ ?\)
als \(X \sim N(\ 104\ , \ 4)\) dan is \(P( X<95)\ =\ 1.2\) %
- Wat is de kans op een “grote” jongen (minstens 112 cm)? Wat is \(P(X \ge 112)\ ?\)
als \(X \sim N(\ 104\ , \ 4)\) dan is \(P( X\ge 112)\ =\ 2.3\) %
- Wat is \(P(X\ge 112)\) voor jongens van 5 jaar (die zijn gemiddeld 110 cm met standaardafwijking 4.5 cm) ?
als \(X \sim N(\ 110\ , \ 4.5)\) dan is \(P( X\ge 112)\ =\ 32.8\) %
6 Oplossing (oef 6)
Ga op je laptop naar norm_krpt.qmd en dubbelklik en vul de juiste waarden in.
De linkerstaarten die je met dit programma kan berekenen zijn voldoende om de onderstaande vragen te kunnen beantwoorden.
- Bepaal het kritisch punt \(x\) voor de linkerstaart waarin de 10% kleinste jongens terechtkomen. Of: wat is \(x\) waarvoor \(P(X\le x)=10\ \%\) wanneer \(X \sim N(\ 104\ , \ 4)\) ?
Het kritisch punt \(x\) is gelijk aan 98.87 want \(P(X\le 98.87)=10\ \%\) wanneer \(X \sim N(\ 104\ , \ 4)\) . Om tot de 10 % kleinste jongens te behoren mag je niet groter zijn dan 98.87 cm.
- Hoe groot moet een jongen minstens zijn om te behoren tot de groep van supergrote jongens waarvan er maar 1 op 100 van zijn leeftijd zijn? Of: wat is \(x\) waarvoor \(P(X\ge x)=1\ \%\) wanneer \(X \sim N(\ 104\ , \ 4)\) ?
Als je complementair werkt, dan zoek je het kritisch punt \(x\) waarvoor de populatie in een linkerstaart terechtkomt met kans 99 %. Hieronder zie je dat \(x = 113.31\) . Dat eindpunt van de linkerstaart is ook het gezochte beginpunt van de rechterstaart.
Als je symmetrie gebruikt, dan begin je met een linkerstaart waarin de populatie met kans 1 % terechtkomt.
Het kritisch punt is hier 94.69 en dat ligt op een afstand van 9.31 onder het gemiddelde 104. Ga nu vanuit het gemiddelde over een even grote afstand naar rechts (naar 104 + 9.31 = 113.31). Het punt \(x=113.31\) is het gezochte beginpunt van de rechterstaart.
Besluit: in beide gevallen is \(P(X\ge 113.31)=1\ \%\) wanneer \(X \sim N(\ 104\ , \ 4)\) . Als jongen moet je minstens 113.31 cm zijn om tot de top 1 % van de allergrootsten te behoren.
- Tweezijdig. Waar zitten de 5 % extreme lengten bij die jongens? Wanneer men niet zegt “extreem klein” of “extreem groot” maar gewoon vraagt naar “extremen” dan ga je ervan uit dat men “extreem in beide richtingen” bedoelt. De 5 % extreme lengten zijn de 2.5 % extreem kleine samen met de 2.5 % extreem grote. Deze vraag verwacht een tweezijdig antwoord, met 2 kritische punten: zoek \({{x}_{1}}\) en \({{x}_{2}}\) zodat \(P(X\le x_1)=2.5\ \%\) en \(P(X\ge x_2)=2.5\ \%\) wanneer \(X \sim N(\ 104\ , \ 4)\) . Formuleer je antwoord ook in woorden: “om tot de 5 % jongens te behoren met een extreme lengte _ _ _ _ _ _ _ _”.
Zodra je hier de linkerstaart kent, kan je symmetrie gebruiken om ook de rechterstaart te berekenen.
De linkerstaart waarin de populatie met 2.5 % terechtkomt eindigt in het kritisch punt \(x_1=96.16\) . Dat punt ligt op een afstand van 7.84 onder het gemiddelde 104. Ga nu vanuit het gemiddelde een even grote afstand naar rechts en dan heb je het beginpunt van de rechterstaart: \(x_2=104+7.84=111.84\) . Voor \(X \sim N(\ 104\ , \ 4)\) geldt dat \(P(X\le 96.16)=2.5\ \%\) en \(P(X\ge 111.84)=2.5\ \%\) .
Om tot de 5 % jongens te behoren met een extreme lengte mag je ofwel niet groter zijn dan 96.16 cm ofwel niet kleiner dan 111.84 cm.
Nota. De (rode) gebieden waarin die 5 % extreme lengten terechtkomen zie je hieronder.
7 Oplossing (oef 7)
Gebruik de R-functie qnorm( ) om deze oefening op te lossen.
Maak hierbij gebruik van de R code chunk die je zopas gekopieerd hebt naar mijnwerkblad.qmd. In dit bestand (dus in RStudio) kan je de parameters bij qnorm( ) aanpassen. Daarna druk je op de groene pijl (rechtsboven in die code chunk) en dan krijg je een aangepast antwoord voor de aangepaste parameters. Zo hoef je niets opnieuw zelf in te typen.
Bij jongens van 5 jaar (met een gemiddelde lengte van 110 cm en een standaardafwijking van 4.5 cm) ga je op zoek naar de 10 % extreme lengten. Waar liggen die?
Er zijn meerdere mogelijkheden om het antwoord te vinden want voor de rechterstaart zou je bv ook gebruik kunnen maken van symmetrie.
Na aanpassing van de parameters in qnorm() voor een linkerstaart krijg je:
```{r}
krpt <- qnorm(p = 0.05, mean = 110, sd = 4.5)
krpt <- round(krpt, 2)
krpt
```
5 % in de linkerstaart levert een kritisch punt \(x_1= 102.6\)
Na aanpassing van de parameters in qnorm() voor een rechterstaart krijg je:
```{r}
krpt <- qnorm(p = 0.05, mean = 110, sd = 4.5, lower.tail = FALSE)
krpt <- round(krpt, 2)
krpt
```
5 % in de rechterstaart levert een kritisch punt \(x_2= 117.4\)
Als een jongen van 5 niet groter is dan 102.6 cm ofwel niet kleiner dan 117.4 cm, dan behoort hij tot de 10 % extreme lengten van zijn leeftijdsgroep.
8 Oplossing (oef 8)
Gebruik de R-functie qnorm( ) om deze oefening op te lossen.
Vul de R code chunk in op de gepaste manier.
- Meisjes van 17 zijn gemiddeld 1 meter 66. Hun lengte \(X\) kan je beschrijven met het normale kansmodel \(X \sim N(\ 166\ , \ 6).\) Nora is 179 cm en dat zie je. Zij is 13 cm groter dan het gemiddelde van haar leeftijdsgroep. Zij beweert dat zij tot de top 2 % grootsten behoort. Is dat waar?
Bepaal het gebied waarin de 2 % grootste meisjes van 17 terechtkomen. Valt de lengte van Nora in dat gebied?
178.32 is het kritisch punt waar de rechterstaart begint. Dit betekent dat \(P(X\ge 178.32)=2\ \%\) voor \(X \sim N(\ 166\ , \ 6)\). De 2 % grootste meisjes komen terecht in het gebied [ 178.32 , + ∞ ). De lengte van Nora (179 cm) valt in dit gebied. Zij is bij de top 2 % grootsten.
- Liam is 14. Jongens van 14 zijn gemiddeld 1 meter 66 en hun lengte \(X\) gedraagt zich als het kansmodel \(X \sim N(\ 166\ , \ 8).\) Liam is 179 cm. Hij is 13 cm groter dan het gemiddelde 𝜇 van zijn leeftijdsgroep. Liam heeft gehoord dat Nora tot de top 2 % grootsten van haar leeftijd behoort. Het besluit van Liam is snel en duidelijk: ook hij behoort tot de top 2 % grootsten van zijn leeftijd want ook hij is, zoals Nora, 179 cm groot en dat is ook 13 cm groter dan de gemiddelde lengte van zijn leeftijd.
Is dat waar?
Bepaal het extreme gebied waar de 2 % grootste jongens van 14 terechtkomen. Zit Liam daarin?
Bepaal het extreme gebied waar de 5 % grootste jongens van 14 terechtkomen. Vind je Liam daar?
Als je tegen Liam zegt dat hij zelfs niet tot de top 5 % grootste jongens behoort, is dat dan waar?
Voor de 2 % grootsten ga je als volgt tewerk:
182.43 is het kritisch punt waar de rechterstaart begint. Dit betekent dat \(P(X\ge 182.43)=2\ \%\) voor \(X \sim N(\ 166\ , \ 8)\). De 2 % grootste jongens komen terecht in [ 182.43 , + ∞ ). In dit gebied is Liam niet te zien.
Voor de 5 % grootsten ga je als volgt tewerk:
Nu is 179.16 het kritisch punt waar de rechterstaart begint. Dit betekent dat \(P(X\ge 179.16)=5\ \%\) voor \(X \sim N(\ 166\ , \ 8)\). De 5 % grootste jongens komen terecht in [ 179.16 , + ∞ ). Zelfs hier is Liam niet te zien. Hij behoort inderdaad niet tot de top 5 % grootste jongens.
9 Oplossing (oef 9)
Nora en Liam zijn beiden 13 cm groter dan het gemiddelde 𝜇 = 166 maar toch zijn zij niet “even extreem” binnen hun eigen populatie. Dat zie je aan hun z-score.
Invullen van de R code chunk levert:
- Zoek de z-score van Nora en gebruik dit resultaat om de volgende uitspraak aan te vullen: “De z-score van Nora is gelijk aan …. . Nora is …. standaardafwijkingen groter dan de gemiddelde lengte van meisjes van 17.
De z-score van Nora is gelijk aan 2.17. Nora is 2.17 standaardafwijkingen groter dan de gemiddelde lengte van meisjes van 17.
- Zoek de z-score van Liam en gebruik zijn resultaat om over hem een analoge uitspraak te doen zoals bij Nora. Is Liam even “extreem groter” als Nora? Is hij evenveel standaardafwijkingen groter dan het gemiddelde?
De z-score van Liam is gelijk aan 1.62. Liam is 1.62 standaardafwijkingen groter dan de gemiddelde lengte van jongens van 14. Dat is minder extreem groot binnen zijn populatie dan de lengte van Nora binnen haar populatie (zij is daar 2.17 standaardafwijkingen groter dan het gemiddelde).
10 Oplossing (oef 10)
- De lengte van meisjes van 17 is normaal verdeeld met gemiddelde 𝜇 = 166 en standaardafwijking 𝜎 = 6. Bepaal het kritisch punt waarboven de lengten moeten vallen om tot de top 5 % te behoren. Gebruik dit resultaat om een uitspraak te doen zoals hierboven bij de jongens van 14.
Meisjes van 17 moeten minstens _ _ _ _ _ _ _ _ om tot de top 5 % van hun groep te behoren.
Invullen van de R code chunk levert:
Meisjes moeten minstens 175.87 cm zijn om tot de top 5 % te behoren.
Aangezien 175.87 = 166 + (1.645) x 6 = 𝜇 + (1.645) 𝜎 geldt:
Meisjes van 17 moeten minstens 1.645 standaardafwijkingen groter dan het gemiddelde zijn om tot de top 5 % van hun groep te behoren.
- Ga op een analoge manier tewerk voor een normaal verdeelde populatie met gemiddelde 𝜇 = 0 en standaardafwijking 𝜎 = 1. Bepaal ook daar het kritisch punt om waarden te vinden die tot de top 5 % behoren. Zorg ervoor dat je het kritisch punt hier afrondt tot op 3 decimalen. Vervolledig daarna de uitspraak:
Bij een standaard normale populatie moeten de waarden minstens _ _ _ _ _ _ _ _ om tot de top 5 % grootste te behoren.
Invullen van de R code chunk levert:
Aangezien 1.645 = 0 + (1.645) x 1 = 𝜇 + (1.645) 𝜎 geldt: bij een standaard normaal kansmodel moet je minstens 1.645 standaardafwijkingen boven het gemiddelde terechtkomen om tot de top 5 % grootste te behoren.
11 Oplossing (oef 11)
Ga op je laptop naar norm_kans.qmd en dubbelklik en vul de juiste waarden in.
- Toon aan dat \(P\left( -1.645 \le Z\le 1.645 \right)=0.90\). Stel dit resultaat ook grafisch voor.
- Toon aan dat \(P\left( -1.96 \le Z\le 1.96 \right)=0.95\). Stel dit resultaat ook grafisch voor.
12 Oplossing (oef 12)
Ga op je laptop naar norm_kans.qmd en dubbelklik en vul de juiste waarden in.
- Voor meisjes van 17 met \(X \sim N(\ 166\ , \ 6)\) is \(P\left( 154.24 \le X\le 177.76 \right)=95 \ \% .\) Stel dit resultaat ook grafisch voor.
- Voor jongens van 14 met \(X \sim N(\ 166\ , \ 8)\) is \(P\left( 152.84 \le X\le 179.16 \right)=90 \ \% .\) Stel dit resultaat ook grafisch voor.
13 Oplossing (oef 13)
Toon aan dat jongens van 4 met 19.7 % kans terechtkomen in [ 103 , 105 ]. Maak gebruik van pnorm( ) samen met onderstaande R code chunk.
Kopiëren en plakken van de code chunk in mijnwerkblad.qmd levert na invullen:
Inderdaad, \(P(103\le X\le 105)\ =\ 19.7\) % voor \(X \sim N(\ 104\ , \ 4)\)
14 Oplossing (oef 14)
Bereken de kans voor de 3 situaties die hierboven vermeld worden. Gebruik pnorm( ) samen met de onderstaande R code chunk. Schrijf de gevonden kans in formulevorm waarin 𝜇 en 𝜎 expliciet voorkomen.
Kopiëren en plakken van de code chunk in mijnwerkblad.qmd levert na invullen:
Als \(Z\) standaard normaal is (met 𝜇 = 0 en 𝜎 = 1) , dan geldt dat:
68.3% = \(P(-1\le Z\le 1)\) = \(P(\mu \ -1\cdot \sigma \ \le \ Z\ \le \ \mu \ +1\cdot \sigma)\)
Op een analoge manier vind je:
Als \(Z\) standaard normaal is (met 𝜇 = 0 en 𝜎 = 1) , dan geldt dat:
95.4% = \(P(-2\le Z\le 2)\) = \(P(\mu \ -2\cdot \sigma \ \le \ Z\ \le \ \mu \ +2\cdot \sigma)\)
Tenslotte:
Als \(Z\) standaard normaal is (met 𝜇 = 0 en 𝜎 = 1) , dan geldt dat:
99.7% = \(P(-3\le Z\le 3)\) = \(P(\mu \ -3\cdot \sigma \ \le \ Z\ \le \ \mu \ +3\cdot \sigma)\)
15 Oplossing (oef 15)
Start met om het even welk normaal kansmodel voor de lengte van jongens van een bepaalde leeftijd tussen 0 en 5 jaar. Geef dit model de naam \(X\) en werk met \(X \sim N(\ 𝜇\ , \ 𝜎).\)
Gebruik de juiste notatie om de kans op te schrijven dat in deze populatie een jongen kleiner is dan 2.5 standaardafwijkingen bovenop het gemiddelde. Gebruik in deze kansuitspraak de transformatie om naar de standaard normale verdeling \(Z\) over te stappen. Bereken tenslotte deze kans en maak ook een grafische voorstelling. Ga op je laptop naar norm_kans.qmd en dubbelklik en vul de juiste waarden in.
\(P(X<\mu +2.5\cdot \sigma )\) = \(P\left( \dfrac{X-\mu }{\sigma }<2.5 \right)\) = \(P(Z<2.5)\)
Inderdaad, \(P(Z< z)\) = 99.4 % voor \(z\) = 2.5. Dat stemt overeen met wat er in de tabel van de groeicurven staat.