Kansmodellen

Author

Prof. Herman Callaert, UHasselt

Published

03/03/2026

1 Kansmodel

1.1 De realiteit en het model

Als je een echte dobbelsteen in handen krijgt en men vraagt je of dat een “eerlijke” dobbelsteen is, dan kan je dat eigenlijk nooit zeker weten. Je hebt wel een goed idee over wat een “eerlijke” dobbelsteen zou moeten zijn. Dat is een dobbelsteen die met kans 1/6 op één valt, met kans 1/6 op twee, enz. Zo’n “perfecte” dobbelsteen bestaat niet.

Zelfs al is de realiteit niet te vangen in de perfectie van een ideaal model, toch heb je dikwijls zo’n model nodig om de realiteit beter te begrijpen.

Bij een dobbelsteen kan je naar de resultaten kijken die jij vindt als je vandaag 10 keer gooit. Dat is bijvoorbeeld 4 4 6 1 4 5 3 5 6 3. Je weet dat je bijna zeker iets anders zal hebben als je met diezelfde dobbelsteen morgen 10 keer gooit.

Als je niet 10 keer zou gooien maar heel veel keren, wat verwacht je dan? Bij 6 miljoen worpen bijvoorbeeld verwacht je “ongeveer” 1 miljoen keer één, “ongeveer” 1 miljoen keer twee, enz. Deze verwachting illustreert een eigenschap van die dobbelsteen, en die eigenschap verandert niet van vandaag op morgen.

Je kan je verwachting van wat er “in the long run” zal gebeuren formuleren als een “ideaal model”, dat vooraf zegt wat er te verwachten is. Je spreekt dan over een eerlijke dobbelsteen, waarbij de getallen 1 2 3 4 5 6 allemaal met dezelfde kans tot jou komen, namelijk met kans 1/6.

Je hebt nu voor het gedrag van een “eerlijke” dobbelsteen een “kansmodel” opgesteld.

Een kansmodel is een geïdealiseerd wiskundig model dat je gebruikt om experimenten te bestuderen waarbij het toeval een rol speelt.

1.2 Discreet of continu

Experimenten waarbij het toeval een rol speelt kan je in twee soorten klasseren.

Sommige experimenten hebben uitkomsten die “discreet” zijn. Bij zo’n experimenten bestaat de verzameling van alle mogelijke uitkomsten uit getallen die je op de getallenas kan plaatsen met “ruimte” ertussen.

Een dobbelsteen gooien is een voorbeeld van een experiment met discrete uitkomsten. De mogelijke uitkomsten zijn hierbij { 1, 2, 3, 4, 5, 6 }.

Andere experimenten hebben uitkomsten die als “continu” behandeld worden. Op de getallenas wordt de verzameling van alle mogelijke uitkomsten in zo’n geval voorgesteld als een aaneengesloten gebied. Voor de geboortegewichten van Vlaamse kinderen (in kg) kan je bijvoorbeeld het lijnstuk nemen van nul tot zeven. Gewicht, lengte, tijd…. zijn allemaal voorbeelden van grootheden die als continu behandeld worden.

2 Discrete kansmodellen

Kansmodellen met discrete uitkomsten kan je voorstellen op verschillende manieren: met een vaas, met een staafdiagram of met een tabel.

2.1 Een vaasmodel

Het gedrag van een eerlijke dobbelsteen kan je voorstellen met een vaasmodel. Dat is een vaas met daarin ballen waarop nummers staan. Je onderstelt dat al die ballen identiek zijn (behalve hun nummer) en dat je de ballen perfect door elkaar kan mengen. Probeer je nu voor te stellen wat er zou gebeuren als jij uit die vaas lukraak een bal zou trekken.

fig 1 beschrijft wat er gebeurt als je met een eerlijke dobbelsteen gooit of, wat op hetzelfde neerkomt, als je lukraak een bal uit deze vaas trekt.

Het volledige kansmodel stel je voor door een hoofdletter, meestal uit het einde van het alfabet, zoals $X$.

Het is niet eenvoudig om goed te begrijpen wat zo’n hoofdletter juist betekent.

Met de hoofdletter $X$ bedoel je de volledige figuur. Je ziet daar alle ballen die in de vaas zitten (van 1 to 6 en geen andere). De pijl geeft aan dat je lukraak trekt: elke bal heeft dezelfde kans om tot jou te komen, namelijk kans 1/6.

Je moet nu als volgt leren denken: “wat zou ik vinden als ik uit deze vaas een bal zou gaan trekken?”.
Het kansmodel $X$ geeft hierop een antwoord: het zal een 1 zijn met kans 1/6, of een 2 met kans 1/6, of een 3, 4, 5 of 6, elk met kans 1/6. Het zijn enkel die getallen met die kansen die je bij dit model kan krijgen. Geen andere getallen en geen andere kansen.

Met het kansmodel $X$ weet je alles, maar je weet het enkel in de voorwaardelijke wijs.

Een vaasmodel kan je gebruiken om een eerlijke dobbelsteen voor te stellen, maar zo’n vaasmodel kan je ook gebruiken bij een getrukeerde dobbelsteen. Denk aan een dobbelsteen die “eerlijk” op elk zijvlak valt met kans 1/6, maar waarbij jij het aantal ogen op de zijvlakken hebt veranderd. Op 3 zijvlakken staat 1 oog, op twee zijvlakken staan 3 ogen en op het overblijvende zijvlak staan er 6. Voor het verdere verhaal zullen we aan deze dobbelsteen een kleur geven en hem de rode dobbelsteen noemen.

1 Oefening (opl 1)

Zeg in woorden hoe je de vaas vult om voor deze rode dobbelsteen een correct vaasmodel $X$ te hebben.
Als je voor die rode dobbelsteen een vaasmodel $X$ moet maken met 600 000 ballen, hoe ga je die vaas dan vullen?
Wat is het verschil tussen het eerste vaasmodel dat jij voor die rode dobbelsteen hebt opgesteld en het tweede vaasmodel? Zitten er in beide vazen evenveel ballen? Hebben beide vazen dezelfde mogelijke uitkomsten? En als je lukraak een bal trekt, heb je dan bij beide vazen dezelfde kans op eenzelfde uitkomst?

2.2 Een staafdiagram

Voor die rode dobbelsteen $X$ heb je twee vazen op een verschillende manier met ballen gevuld, en toch hebben die vazen identieke modeleigenschappen. Je kan zeker nog aan veel andere vazen denken die je op een goede manier met ballen kan vullen en die ook allemaal het gedrag van die rode dobbelsteen weerspiegelen. Al die verschillende vazen stellen eenzelfde kansmodel voor en je kan al die vazen samenvatten in één en dezelfde grafiek, namelijk in een staafdiagram voor kansmodellen.

Bij een staafdiagram voor kansmodellen zet je op de $x$-as alle verschillende uitkomsten die kunnen voorkomen. Boven elke uitkomst teken je een staafje. De lengte van dat staafje is de kans van die uitkomst. Omdat de uitkomsten hier discreet numeriek zijn moet de ijk gerespecteerd worden. Daarom is het handig om tussenliggende waarden, die niet als uitkomst voorkomen, toch op de $x$-as aan te duiden (zonder staafje erboven).

Let goed op het verschil tussen het vaasmodel en het staafdiagram.

-Bij het vaasmodel bepaal je de kansen door extra ballen toe te voegen. Als het getal één drie keer meer kans moet hebben dan het getal zes, dan stop je in die vaas drie keer zoveel ballen waar een één op staat als waar een zes op staat. Door zo te werken kan je daarna “lukraak” uit die vaas trekken. De juiste getallen komen dan met de juiste kansen tot jou.
Het staafdiagram toont je enkel de verschillende uitkomsten, en die worden maar één keer (met een staafje erboven) aangeduid. Op fig 2 zie je alleen boven de getallen 1, 3 en 6 een staafje. Dat betekent dat alleen die getallen als uitkomst van je experiment kunnen optreden. De uitkomstenverzameling is dus {1, 3, 6}. Maar in deze uitkomstenverzameling mag je helemaal niet lukraak trekken, want anders zou elk van die drie getallen met dezelfde kans (namelijk kans 1/3) tevoorschijn komen. Hoe die getallen dan wel tot jou komen wordt bepaald door de lengte van de staafjes. In dit voorbeeld staat boven het getal één een staafje met lengte 1/2 en dat betekent dat je te maken hebt met een experiment waarbij het getal één met kans 1/2 tot jou komt. Het getal drie treedt op met kans 1/3 en het getal zes komt met kans 1/6 voor.

2 Oefening (opl 2)

Als je met de rode dobbelsteen 450 keer zou gooien hoeveel keren zou je dan (ongeveer) een drie gezien hebben? Verklaar je redenering.

3 Oefening (opl 3)

Hieronder staat een staafdiagram. Het stelt een kansmodel $X$ voor. Beschrijf in woorden hoe dit experiment in elkaar zit.

Zeg in woorden hoe je het bovenstaande kansmodel zou voorstellen met een vaasmodel met zo weinig mogelijk ballen.

2.3 Een tabel

In het Engels heet kans “probability”. Het is de P van Probability die je gebruikt bij een kansuitspraak. De notatie ziet er uit als P(……).

Tussen de haakjes moet je zeggen over welk kansmodel het gaat en van welke uitkomst je de kans wil weten. Als het bijvoorbeeld over een klassieke dobbelsteen gaat dan kan je schrijven: P(bij het gooien van een eerlijke dobbelsteen is het resultaat 5 ). Je kan die lange zin ook veel korter maken. Stel het kansmodel waarmee je hier werkt (namelijk het model van de eerlijke dobbelsteen) voor door de hoofdletter $X$. Schrijf dan gewoon:
P( $X$ levert het resultaat 5 ). Of nog korter: P( $X$ = 5 ).

Soms wil je de kans opschrijven dat de dobbelsteen op één van zijn mogelijke uitkomsten valt, of dat nu een 5, een 6 of wat dan ook is. In dat geval heb je een algemene notatie nodig om “een uitkomst” voor te stellen. Daarvoor gebruik je een kleine letter $x$ wanneer je het kansmodel voorstelt door een grote letter $X$. Je schrijft dan $P(X=x)$om aan te duiden dat het kansmodel $X$ op één van zijn mogelijke waarden valt. Dat is gewoon maar een algemene notatie. Als je echt een kans wil uitrekenen dan moet je zeggen wat $x$ is, bijvoorbeeld 6. En dan wordt in die situatie $P(X=x)$ gelijk aan $P(X=6)$. Met een kleine letter $y$ bedoel je natuurlijk een uitkomst van het kansmodel dat je de naam grote $Y$ gegeven hebt. Als algemene notatie gebruik je dan $P(Y=y)$.

Je kan ook willen weten wat de kans is om hoogstens een 4 te gooien. Zoals verwacht noteer je dat als $P(X\le 4)$. Wanneer $X$ een eerlijke dobbelsteen is, dan is die kans gelijk aan 4/6.

4 Oefening (opl 4)

Lees $P(X<3)$ in woorden. Hoe groot is die kans bij een eerlijke dobbelsteen?

5 Oefening (opl 5)

Bij het opgooien van een muntstuk kan je zeggen dat munt gelijk is aan nul en dat kruis één is. Je hebt dan een experiment dat je met een eenvoudig kansmodel kan beschrijven. Geef aan dit kansmodel de naam $X$ . Onderstel dat een muntstuk bij opgooien “eerlijk” is.

Stel $X$ voor met een vaasmodel (of zeg hoe je dat zou doen).
Stel $X$ voor met een staafdiagram (of zeg hoe je dat zou doen).
Wat betekent $P(X=1)$ voor dit kansmodel $X$ ? Lees $P(X=1)$ in woorden en zeg dan ook hoe groot die kans is.

Nu je vertrouwd bent met de notatie kan je een kansmodel eenvoudig IN TABELVORM voorstellen.

Het kansmodel van een eerlijk muntstuk zie je hiernaast.
In de eerste kolom staan de mogelijke $x$-waarden.
In de tweede kolom staan de bijhorende kansen $P(X =x)$

6 Oefening (opl 6)

Kijk eens naar het experiment dat beschreven wordt in fig 3 en vergelijk dat met de tabel hiernaast. Vind je op beide plaatsen dezelfde informatie? Denk eraan dat een uitkomst van het model $X$ genoteerd wordt door een kleine letter $x$ .
In de tabel staat het cijfer nul. Wat is dat hier? Kan je dat in woorden uitleggen?
Schrijf een formule waarin de 1/3 van de tabel voorkomt. Gebruik de juiste notatie. Zeg daarna ook in woorden wat die formule betekent.

Schrijf het kansmodel $X$ van de rode dobbelsteen fig 2 in tabelvorm.

2.4 De kansverdeling

Elke beschrijving van alle uitkomsten samen met hun kansen noem je een kansverdeling.
Een kansverdeling stelt een discreet kansmodel $X$ voor.
Als je de kansverdeling kent, dan ken je $X$ volledig.

Het woord kansverdeling gebruik je voor discrete kansmodellen. Je zal verderop zien dat je bij continue kansmodellen het woord kansdichtheid gebruikt.

2.5 De binomiale verdeling

Een beroemd discreet kansmodel is “de binomiale”. Een uitgebreide studie van het binomiale kansmodel komt aan bod in andere teksten. Hier bekijk je een voorbeeld. Wat je geleerd hebt over discrete kansmodellen kan je al gebruiken.

Voor de binomiale denk je aan een experiment in twee stapjes.

Je begint met een “nul-één” experiment. Eén noem je succes en nul mislukking. Je kan daarbij denken aan het opgooien van een muntstuk waarbij je “kruis” als succes neemt. Bij een muntstuk is je kans op succes gelijk aan 1/2 want een muntstuk heeft maar twee mogelijke uitkomsten en zij hebben beide dezelfde kans. Maar ook van een eerlijke dobbelsteen kan je een “nul-één” experiment maken. Noem “een zes gooien” succes en al de rest mislukking. Zo heb je een “nul-één” experiment met kans op succes gelijk aan 1/6 (= kans dat je een zes gooit).

Nu komt de tweede stap bij het opzetten van een binomiaal experiment. Je beslist dat je met dat muntstuk vier keer zal gooien en de vraag daarbij is: hoeveel keer heb je succes (= kruis) bij 4 keer gooien?

De voorwaarden voor een binomiaal experiment zien er als volgt uit:

je legt vooraf vast hoeveel keren (bv 4 keer) je een “nul-één” experiment (bv kruis gooien met een muntstuk) zal herhalen
de kans op succes is bij elke herhaling dezelfde (bij elke worp heb je kans 1/2 op kruis)
het resultaat bij een volgende worp hangt niet af van de vorige worp (onafhankelijkheid)
de vraag is: hoeveel keer kruis heb je bij die 4 worpen? Of algemeen: hoeveel successen heb je bij die n herhalingen?

Op deze vraag kan je niet met één getal antwoorden: dit experiment heeft meerdere mogelijke uitkomsten, elk met hun eigen kans. Je hebt dus een kansverdeling nodig. Hier is dat de binomiale kansverdeling.

Wat zijn alle mogelijke uitkomsten $x$ en wat zijn hun kansen $P(X=x)?$

De uitkomsten zijn “het aantal successen”. Als je een beetje pech hebt, dan heb je bij 4 keer gooien met dat muntstuk geen enkele keer kruis gezien. Dan is het totaal aantal successen gelijk aan 0. Supergelukkig ben je als je telkens kruis gooit en 4 successen hebt. En alles daartussen kan natuurlijk ook.

Om de kansen te berekenen (en om ze voor te stellen in een tabel of staafdiagram) gebruik je R.

7 Oefening (opl 7)

Stel het kansmodel op voor een binomiale kansverdeling $X$ met succeskans $p=0.5$ bij 4 herhalingen. Gebruik kmod_binom.qmd om dit kansmodel zowel met een staafdiagram als met een tabel voor te stellen.
Als je 4 keer een eerlijk muntstuk opgooit, wat is dan de kans dat je juist 2 keer kruis hebt? Formuleer je antwoord in de gepaste notatie.

8 Oefening (opl 8)

Je gooit 6 keer een eerlijke dobbelsteen en “een zes” noem je succes. Met $X$ bedoel je “het aantal successen”.

Bepaal, in tabelvorm, de kansverdeling die hoort bij $X$. Gebruik kmod_binom.qmd.
Wat is de kans dat je bij 6 keer gooien toch minstens één keer een zes hebt? Schrijf je antwoord als een kansuitspraak in formulevorm met de juiste notatie.

3 Continue kansmodellen

Voor een experiment met continue uitkomsten kan je geen kansmodel maken met een vaas, een staafdiagram of een tabel. In al die gevallen moet je elke mogelijke uitkomst samen met haar kans kunnen opnoemen.

Bij een continu gebied, zoals alle getallen in het interval $\left[ 0\ ,\ 1 \right]$, kan je de afzonderlijke uitkomsten niet meer opnoemen. Probeer dat maar eens. Neem als eerste getal nul. Wat is dan het volgende getal? Wat is het getal dat na nul komt? Dat gaat dus niet.

Werken met een continu kansmodel betekent overstappen van “getallen” op “intervallen”. Voor een experiment waarbij de mogelijke uitkomsten alle getallen zijn in het interval $\left[ 0\ ,\ 1 \right]$ kan je naar deelintervallen kijken. Je kan terechtkomen in $\left[ 0\ ,\ 0.25 \right]$ of in $\left[ 0.60\ ,\ 1 \right]$ of in $\left[ 0.55\ ,\ 0.65 \right]$ enz.

Je moet nu ook een manier vinden om de kans te bepalen dat je in een bepaald interval terechtkomt. Dat doe je met oppervlakten. Hoe dat werkt zie je in onderstaande voorbeelden.

3.1 Trekken uit [ 0 , 1 ]

Een heel eenvoudige situatie krijg je als je “lukraak trekken uit het interval $\left[ 0\ ,\ 1 \right]$” wil nabootsen. Je moet er dan voor zorgen dat er geen enkel deelinterval bevoor- of benadeeld wordt. Als intervallen even groot zijn dan moet je er met dezelfde kans in terechtkomen. Boven die intervallen moeten dan oppervlakten staan die even groot zijn. Als een interval drie keer groter is dan een ander, dan moet je daar ook met drie keer meer kans in terechtkomen. Boven dat interval moet dan een oppervlakte staan die drie keer groter is. Aan al deze eisen kan je tegelijkertijd voldoen door boven het interval $\left[ 0\ ,\ 1 \right]$ de grafiek te tekenen van de constante functie $f(x)=1.$ Zo krijg je een kansmodel voor “lukraak trekken uit $\left[ 0\ ,\ 1 \right]$”. Kijk maar naar fig 4.

Wat de maatgetallen betreft (en vanaf nu zullen we alleen met maatgetallen werken) is voor elk deelinterval in $\left[ 0\ ,\ 1 \right]$ de oppervlakte boven dat interval gelijk aan de lengte van dat deelinterval. De oppervlakte van een rechthoek is immers gelijk aan (basis maal hoogte), en de hoogte is hier overal gelijk aan 1.

De deelintervallen $\left[ 0.1\ ,\ 0.2 \right]$ , $\left[ 0.4\ ,\ 0.5 \right]$ en $\left[ 0.8\ ,\ 0.9 \right]$ zijn allemaal even groot. De oppervlakte boven die intervallen is gelijk aan 0.1 en dat is ook de kans om in zo’n interval terecht te komen. Dat zie je in fig 5.

Het interval $\left[ 0.5\ ,\ 0.8 \right]$ is drie keer groter dan het interval $\left[ 0.1\ ,\ 0.2 \right]$ . De kans om in $\left[ 0.5\ ,\ 0.8 \right]$ terecht te komen is 0.3 en dat is ook drie keer groter dan 0.1 (fig 6).

Bemerk dat het kansmodel, dat hier door de functie $f(x)=1$ gestuurd wordt, je alles vertelt over hoe je in deelintervallen van $\left[ 0\ ,\ 1 \right]$ terechtkomt. Voor alle deelintervallen die je maar wil. Zo heb je bijvoorbeeld een kans van 0.245 om in $\left[ 0.646\ ,\ 0.891 \right]$ terecht te komen want de oppervlakte boven het interval $\left[ 0.646\ ,\ 0.891 \right]$ is gelijk aan 0.245.

9 Oefening (opl 9)

Vervolledig de volgende zinnen met een keuze uit: “x-as”, “y-as”, “hoogte”, “oppervlakte”, “functiewaarde”.

De mogelijke waarden die ik met een continu kansmodel kan uitkomen zie ik op de ……..
Om te weten wat de kans is om in een bepaald interval terecht te komen kijk ik naar de …..

3.2 Ongelijkheidstekens

Bij een continu kansmodel bereken je de oppervlakte boven een interval om de kans te kennen om in dat interval terecht te komen. Op fig 6 zie je dat de oppervlakte boven $\left[ 0.5\ ,\ 0.8 \right]$ gelijk is aan 0.3. Maar dat is natuurlijk ook de oppervlakte boven $\left[ 0.5\ ,\ 0.8 \right[$ of boven $\left] 0.5\ ,\ 0.8 \right]$ of boven $\left ] 0.5\ ,\ 0.8 \right[$ want de oppervlakte van het lijnstuk dat je weglaat is toch nul. Dit betekent dat de volgende kansen allemaal aan elkaar gelijk zijn: \[P\left( 0.5\le X\le 0.8 \right)=0.3\] \[P\left( 0.5\le X<0.8 \right)=0.3\] \[P\left( 0.5<X\le 0.8 \right)=0.3\] \[P\left( 0.5<X<0.8 \right)=0.3\]

Let op. De intervallen $\left[ 0.5\ ,\ 0.8 \right]$ , $\left[ 0.5\ ,\ 0.8 \right[$ , $\left] 0.5\ ,\ 0.8 \right]$ en $\left ] 0.5\ ,\ 0.8 \right[$ zijn wel degelijk 4 verschillende intervallen maar de kans, bij een continu kansmodel $X$, om in gelijk welk van die 4 intervallen terecht te komen is telkens dezelfde.

10 Oefening (opl 10)

Bij een continu kansmodel is $P\left( X\le x \right)$ gelijk aan $P\left( X<x \right)$. Is dat ook waar voor een discreet kansmodel? Staaf je antwoord met een voorbeeld.

3.3 Afspraak woordgebruik

Bij continue kansmodellen heb je oneindig veel mogelijke uitkomsten. Als je dan een vraag stelt over 10 % van die uitkomsten, dan gaat het natuurlijk niet over een “aantal” van die uitkomsten want 10 % van oneindig veel blijft oneindig veel.

Wat je hier bedoelt is een interval waarin je met een bepaalde kans terechtkomt. Waar liggen bijvoorbeeld de 10 % kleinste uitkomsten bij lukraak trekken uit $\left[ 0\ ,\ 1 \right]?$ Om op deze vraag te antwoorden zoek je een interval waar de kleinste waarden terechtkomen. Je weet dat $P(0\le X\le 0.1)\ =\ 0.10$ bij lukraak trekken uit $\left[ 0\ ,\ 1 \right].$ De 10 % kleinste uitkomsten liggen hier dus in $\left[ 0\ ,\ 0.1 \right]$.

3.4 De kansdichtheid

Bij het voorgaande experiment, lukraak trekken uit $\left[ 0\ ,\ 1 \right]$ , zou je voor de volledigheid de functie $f(x)$ als volgt kunnen definiëren: $f(x) = 0$ voor alle $x$-waarden kleiner dan 0, $f(x) = 1$ voor alle $x$-waarden tussen nul en één en $f(x) = 0$ voor alle x-waarden groter dan 1 of, in wiskundige notatie:
$f(x)=\ \ \left\{ \begin{matrix} \ \quad 0\quad voor\ -\infty <x<0 \\ 1\quad voor\ 0\le x\le 1 \\ \quad 0\quad voor\ 1<x<+\infty \\ \end{matrix} \right.$

Op deze manier definieer je $f(x)$ op de volledige getallenas, voor $x$-waarden van $-\infty$ tot $+\infty .$ Je hebt hierbij $f(x)$ gelijk aan nul gesteld over al de gebieden waarin je toch niet kan terechtkomen. Dikwijls moet je zo’n uitgebreide definitie niet geven. Je weet voldoende als je $f(x)$ kent over het gebied waarin je experiment “leeft” en waar je dus echt kan terechtkomen.

Bemerk dat in dit voorbeeld de functie $f(x)$ nergens negatief is want ze is ofwel nul ofwel één. Bovendien is de totale oppervlakte onder de grafiek gelijk aan één. Dat zie je in fig 4 .

Elke functie $f(x)$ die nergens negatief is en waarbij de totale oppervlakte onder de grafiek gelijk is aan één stelt een continu kansmodel $X$ voor. Zo’n functie $f(x)$ heet een kansdichtheid of een dichtheidsfunctie of kortweg een dichtheid.

Als je de dichtheid $f(x)$ van het kansmodel $X$ kent, dan ken je $X$ volledig. Je weet dan in welk interval de uitkomsten kunnen vallen en je weet ook, voor alle mogelijke deelintervallen, met welke kans je daarin terechtkomt.

Modellen waarbij “alles dezelfde kans” heeft, krijgen de naam “uniform”. – Bij discrete modellen spreek je van “discreet uniform”. Dat is bijvoorbeeld het geval bij een eerlijke dobbelsteen waar elke mogelijke uitkomst dezelfde kans 1/6 heeft. – Bij continue modellen spreek je over “continu uniform”. Daar hebben alle intervallen die even lang zijn dezelfde kans om erin terecht te komen. Zo is bijvoorbeeld het kansmodel voor “lukraak” trekken uit $\left[ 0\ ,\ 1 \right]$ een continu uniform kansmodel op $\left[ 0\ ,\ 1 \right].$

3.5 Het maximum

Het experiment waarbij je lukraak trekt uit het interval $\left[ 0\ ,\ 1 \right]$ kan je beschrijven met de dichtheidsfunctie $f(x) = 1.$ Dat weet je al.

Een ander experiment gaat als volgt. Trek lukraak een getal tussen 0 en 1. Doe dat daarna nog eens. Noteer nu het grootste van die twee getallen. Dat grootste getal is een uitkomst van het experiment “noteer het maximum van 2 lukrake trekkingen uit $\left[ 0\ ,\ 1 \right]$ ” . Dat experiment geef je de naam $X.$ Ook dat experiment kan je beschrijven met een dichtheidsfunctie. Die ga je nu zelf opstellen in oef 11 .

11 Oefening (opl 11)

Waar komen de mogelijke uitkomsten van dit experiment terecht? Waarom?
Nu je weet in welk gebied je met dat maximum terechtkomt, moet je op zoek gaan naar een passende dichtheidsfunctie boven dit gebied. Je krijgt hierbij een tip: de dichtheidsfunctie $f(x)$ is een deel van een rechte door het punt $\left( 0\ ,\ 0 \right).$ En je weet ook dat elke dichtheidsfunctie nergens negatief mag zijn en dat de totale oppervlakte onder een dichtheidsfunctie gelijk moet zijn aan 1. Zoek nu $f(x).$

Het kansmodel voor het maximum van 2 getallen die, onafhankelijk van elkaar, lukraak getrokken worden uit $\left[ 0\ ,\ 1 \right]$ zie je in de volgende figuur.

De grafiek boven het interval $\left[ 0\ ,\ 1 \right]$ herken je als een stuk van de rechte $y=2x$ (een rechte door de oorsprong en met richtingscoëfficiënt 2).

Let op! Je experiment “leeft” hier alleen op $\left[ 0\ ,\ 1 \right].$ Dat betekent dat de dichtheidsfunctie enkel op $\left[ 0\ ,\ 1 \right]$ gelijk is aan $f(x)=2x$. Buiten het interval $\left[ 0\ ,\ 1 \right]$ is $f(x)$ gelijk aan nul. Dus:

$f(x)=\ \ \left\{ \begin{matrix} \ \quad 0\quad voor\ -\infty <x<0 \\ 2x\quad voor\ 0\le x\le 1 \\ \quad 0\quad voor\ 1<x<+\infty \\ \end{matrix} \right.$

Op fig 8 zie je dat dit nieuwe kansmodel helemaal geen nabootsing is van “lukraak trekken” uit $\left[ 0\ ,\ 1 \right].$ Deelintervallen die even groot zijn hebben niet meer dezelfde kans om erin terecht te komen. Vergelijk maar eens $\left[ 0\ ,\ 0.3 \right]$ met $\left[ 0.7\ ,\ 1 \right],$ twee deelintervallen die even lang zijn en beide lengte 0.3 hebben.

In $\left[ 0\ ,\ 0.3 \right]$ kom je terecht met kans 0.09 en in $\left[ 0.7\ ,\ 1 \right]$ met kans 0.51.

Je noteert dit als:

$P\left( 0\le X\le 0.3 \right)=0.09$
$P\left( 0.7\le X\le 1 \right)=0.51$

Het is belangrijk dat je vooraf goed aangeeft met welk model $X$ je aan het werken bent. Je hebt gezien dat er nogal een verschil is tussen een model $X$ dat gedefinieerd wordt door fig 4 en een model $X$ dat een dichtheid heeft zoals in fig 7.

12 Oefening (opl 12)

Het model $X$ van fig 7 heeft als dichtheidsfunctie $f(x)=2x\ \text{voor}\ 0\le x\le 1.$ Voor $x={1}/{4}\;$ is de functiewaarde $f\left( 1/4\ \right)$ gelijk aan $1/2\ .$ Kan je $f\left( {1}/{4}\; \right)={1}/{2}\;$ ook uitgebreid in woorden zeggen? Kan je hierbij het woord “kans” gebruiken? Hoe zeg je dat dan? Kijk daarna ook eens naar de waarde van $f(x)$ wanneer $x$ gelijk is aan ${3}/{4}\;.$ Welke les trek je hieruit?

Om de kans te berekenen bij continue kansmodellen heb je de oppervlakte onder de dichtheidsfunctie nodig. Die berekening kan je doen met R. Met het juiste programma kan je ook de grafiek van de dichtheidsfunctie voorstellen en het gebied arceren waarvan je de oppervlakte wil berekenen.

13 Oefening (opl 13)

Ga op je laptop naar kmod_max.qmd en dubbelklik en vul de juiste waarden in.

Als $X$ het maximum is van twee onafhankelijke lukrake trekkingen
uit [ 0 , 1 ] dan is zijn dichtheid: $f(x)=2x\ \text{voor}\ 0\le x\le 1.$
Zoek de kans dat dit maximum $X$ terechtkomt in de aangegeven
intervallen (en arceer de oppervlakte boven dat interval):
. (controleer, want gezien in de tekst): $P\left( 0\le X\le 0.3 \right)=$
. (controleer, want gezien in de tekst): $P\left( 0.7\le X\le 1 \right)=$
. (nieuwe opgave): $P\left( 0.3\le X\le 0.7 \right)=$
. Tel de vorige 3 kansen samen, wat zie je? Waarom?

3.6 De normale verdeling

Een beroemd continu kansmodel is “de normale”. Een uitgebreide studie van het normale kansmodel komt aan bod in latere teksten. Hier bekijk je een voorbeeld. Wat je geleerd hebt over continue kansmodellen kan je al gebruiken.

De normale dichtheid is een functie f(x) die gedefinieerd is op de gehele getallenas (dus van - ∞ tot + ∞ ). Qua vorm ziet de grafiek eruit als een klokvormige curve, ook Gauss curve genoemd. Dat zie je hieronder in fig 9 .

De dichtheid $f(x)$ van een normaal kansmodel $X$ moet voldoen aan de twee voorwaarden waaraan elke dichtheidsfunctie moet voldoen:

de functie $f(x)$ mag nergens negatief zijn
de totale oppervlakte onder de curve moet gelijk zijn aan 1.

Met “R” kan je de curve tekenen en de oppervlakte berekenen en dan vind je fig 10 :

fig 10 toont dat de getekende functie $f(x)$ een geschikte dichtheidsfunctie is. Het is de dichtheid van een normaal kansmodel $X.$ Zodra je $f(x)$ kent weet je alles: je kan nu voor elk deelinterval berekenen wat de kans is om daarin terecht te komen.

Het normale kansmodel speelt een belangrijke rol in statistisch onderzoek. Het is dikwijls ook een goed model om dagelijkse grootheden (zoals de lichaamslengte) te beschrijven. In oef 14 zie je een voorbeeld.

14 Oefening (opl 14)

In Vlaanderen zijn 17-jarige meisjes gemiddeld 166 cm groot. Lengte is een continue veranderlijke en dus moet je een dichtheidsfunctie gebruiken om een kansmodel $X$ op te stellen voor de totale populatie (de lengte van al die meisjes). Dat is hier de normale dichtheid.
Als je lukraak een meisje van 17 zal ontmoeten, wat is dan de kans dat zij niet kleiner dan 160 cm zal zijn maar ook niet groter dan 174 cm? Of wat is hier $P(160\le X\le 174)$ ?
Ga op je laptop naar norm_kans.qmd en dubbelklik en vul de volgende gegevens in:
gem <- 166
st_afw <- 6
a <- 160
b<- 174

4 Modeleigenschappen

Dit weet je al:

een kansmodel is een geïdealiseerd wiskundig model dat zegt op welke manier data tot jou komen.

In het discrete geval vertelt een kansmodel je welke uitkomsten er mogelijk zijn en met welke kans zij optreden. Hoe dit allemaal gebeurt, beschrijf je met een kansverdeling.
In het continue geval wordt de verzameling van alle mogelijke uitkomsten aangeduid door een interval. Daar hoort een dichtheidsfunctie bij die je toelaat om voor alle mogelijke deelintervallen de kans te berekenen om daarin terecht te komen.

Van kansmodellen kan je eigenschappen bestuderen, zoals hun gemiddelde (een maat voor “centrum”) of hun standaardafwijking (een maat voor “spreiding rond het gemiddelde”). Houd daarbij goed in het oog dat dit “model-eigenschappen” zijn.
Zo is het gemiddelde van een kansmodel een maat voor “het centrum van dat kansmodel” en dus niet een maat voor het centrum van toevallige data die jij gevonden hebt in een steekproef.

5 Gemiddelde $E(X)$

Over het gemiddelde van een kansmodel $X$ kan je als volgt nadenken. Stel je voor dat je heel veel keren (een oneindig aantal keer) het kansmodel $X$ gebruikt om een getal te genereren. Wat zou dan het gemiddelde van al die getallen zijn? Wat verwacht je?

Het gemiddelde dat je verwacht wordt ook “verwachtingswaarde” genoemd. Het Engelse woord voor “verwachting” is “expectation” en het is de E van Expectation die als afkorting wordt gebruikt. Het gemiddelde of de verwachtingswaarde van het kansmodel $X$ wordt genoteerd door $E(X).$

Voor de studie van het gemiddelde starten we bij discrete kansmodellen met voorbeelden waarmee je al vertrouwd bent.

5.1 Discreet

5.1.1 Eerlijke dobbelsteen

Het kansmodel $X$ voor een eerlijke dobbelsteen kan je voorstellen door een vaas of door een staafdiagram of met een tabel. Die zie je hiernaast.

Als je deze dobbelsteen heel veel keren zou gooien, bijvoorbeeld 6 miljoen keer, dan verwacht je dat je “ongeveer” 1 miljoen keer een 1, “ongeveer” 1 miljoen keer een 2, enz… zal hebben.
Als je dan het gemiddelde zou maken van die 6 miljoen getallen dan zou je vinden:

Als je nog veel meer keren zou gooien dan zal $\left( ongeveer\ \frac{1}{6} \right)$ dichter en dichter naar de kans $\frac{1}{6}$ naderen en er uiteindelijk mee samenvallen. Het gemiddelde van een eerlijke dobbelsteen (wat je als gemiddelde verwacht te vinden als je oneindig keer zou kunnen gooien) is gelijk aan

Als je dit uitrekent vind je dat $E(X)=3.5$ .

Nu je weet hoe je kan denken over “het gemiddelde van een model” kan je zelf eens aan de slag gaan met een tweede voorbeeld: de rode dobbelsteen.

5.1.2 Rode dobbelsteen

Het kansmodel $X$ van de rode dobbelsteen heb je opgesteld in opl 6.

15 Oefening (opl 15)

Stel je voor dat je met deze rode dobbelsteen heel veel keren zou gooien en dan het gemiddelde zou berekenen van de gevonden getallen. Gebruik een redenering zoals hierboven bij de eerlijke dobbelsteen en begin met te onderstellen dat je 6 miljoen keer zou gooien. Toon dan hoe je verder moet redeneren om aan het echte gemiddelde van die dobbelsteen te komen. Bereken tenslotte dat gemiddelde.

5.1.3 Definitie

Als je goed naar de twee voorgaande voorbeelden kijkt dan kan je daar een algemene structuur in ontdekken.

De formule voor het gemiddelde $E(X)$ van een kansmodel $X$ ziet er uit als een som. In die som komen alle mogelijke uitkomsten één keer voor. Maar zij staan daar niet zomaar. Zij worden vermenigvuldigd met een getal. In de wiskunde spreekt men dan soms over “gewichten” en over een “gewogen som”. Het is alsof je elke uitkomst een gewichtje geeft waarmee het in die som moet voorkomen.

Het gemiddelde $E(X)$ van een discreet kansmodel $X$ is een gewogen som van uitkomsten. Het gewicht dat je aan een bepaalde uitkomst geeft is de kans van die uitkomst. Als een uitkomst met een grotere kans voorkomt, dan krijgt die uitkomst een groter gewicht.

Voor de rode dobbelsteen heb je:

\[ E(X)\ = 1\times \left( \frac{3}{6} \right)\quad + 3\times \left( \frac{2}{6} \right)\quad + 6\times \left( \frac{1}{6} \right) \] wat je ook kan schrijven als:

\[E(X) = 1\ \cdot \ P(X=1)\quad + 3\ \cdot \ P(X=3)\quad + 6\ \cdot \ P(X=6)\]

of met $x_1$, $x_2$ en $x_3$ als algemene notatie voor de eerste, tweede en derde uitkomst:

\[E(X)\ ={{x}_{1}}\ \cdot \ P(X={{x}_{1}})\quad +{{x}_{2}}\ \cdot \ P(X={{x}_{2}})\quad + {{x}_{3}}\ \cdot \ P(X={{x}_{3}})\]

Voor een algemeen discreet kansmodel met uitkomsten $x$ (dus met uitkomsten van de vorm $x_1$ , $x_2$ , … , $x_i$ ,… , $x_n$ ) wordt het gemiddelde gegeven door:

$E(X) = {{x}_{1}}\ \cdot \ P\left( X={{x}_{1}} \right) +\ {{x}_{2}}\ \cdot \ P\left( X={{x}_{2}} \right) +\ ... +{{x}_{n}}\ \cdot \ P\left( X={{x}_{n}} \right)$

of korter:

\[E(X)\ =\ \sum{\ x \ P\left( X={x} \right)}\]

Voor gelijk welk discreet kansmodel $X$ is het gemiddelde $E(X)$
gelijk aan “de som van de uitkomsten maal hun kansen”.

5.2 Continu

5.2.1 Definitie

Voor continue kansmodellen moet je wiskundige technieken voor discrete getallen overzetten naar wiskundige technieken voor een continuüm. In plaats van de uitkomsten $x$ te vermenigvuldigen met hun bijhorende kans $P(X=x)$ moet je nu de mogelijke uitkomstwaarden $x$ vermenigvuldigen met de dichtheidsfunctie $f(x)$. En in plaats van te sommeren moet je nu integreren. Dat wordt dan

\[ E(X)=\int\limits_{-\infty }^{+\infty }{x\ f(x)\ dx} \]
De bepaalde integraal kan je in principe altijd laten lopen van – ∞ tot + ∞ want je kan elke dichtheidsfunctie uitgebreid definiëren over de volledige getallenas. Als je een model hebt dat enkel “leeft” op het interval [0 , 1] dan kan je evengoed schrijven dat het gemiddelde van dat model gelijk is aan $E(X)=\int\limits_{0}^{1}{\ x\ f(x)\ dx}$ want de functie $f(x)$ is dan toch gelijk aan nul voor alle $x$ waarden buiten het interval [0 , 1].

5.2.2 Uniforme op [ 0 , 1 ]

Het continue kansmodel voor lukraak trekken uit het interval [ 0 , 1 ] heeft als dichtheidsfunctie $f(x)=1$ voor $0\le x\le 1$.

Als je met dit model werkt, wat verwacht je dan gemiddeld uit te komen? Herinner je dat alle deelintervallen van gelijke lengte gelijkwaardig zijn en dat je daar met dezelfde kans in terechtkomt. Bij heel veel trekkingen verwacht je dus getallen “van alle soorten”, zowel dicht bij nul als in het midden als dicht bij één. Het gemiddelde van heel veel dergelijke getallen zal dan misschien wel in het midden van het interval [0 , 1] liggen?

Het echte gemiddelde $E(X)$ van dit uniforme kansmodel $X$ ga je nu berekenen. Kijk daarbij goed naar de definitie van het gemiddelde van een continu kansmodel.
In dit voorbeeld moet je een integraal uitrekenen die loopt van 0 tot 1 en de functie die je moet integreren is volgens de algemene definitie gelijk aan $x f(x)$. Je moet daarbij de juiste dichtheid $f(x)$ invullen. Hier is $f(x)=1$ zodat $x f(x)$ hier gewoon gelijk is aan $x$. Het gemiddelde van de uniforme op [ 0 , 1 ] is dus gelijk aan $~{E(X)=\int\limits_{0}^{1}{x\ dx}}$.

Om dit gemiddelde te berekenen gebruik je een kort programma (een R code chunk). Het bestaat uit 4 stappen:

Je definieert de functie die je wil integreren en je geeft die de naam myfun :
myfun <- function(x) { hier schrijf je de te integreren functie }
Met de functie: integrate( myfun , ondergrens , bovengrens ) bereken je de integraal van je functie. Je kan het resultaat (= gemiddelde) bv de naam gemid geven:
gemid <- integrate(myfun, lower = 0, upper = 1)
de functie integrate( ) geeft als uitkomst niet alleen de waarde van de integraal maar ook de nauwkeurigheid van de berekeningen. Als je alleen met de waarde van de integraal wil werken moet je gemid$value gebruiken. Je rondt die waarde af op 3 decimalen en je geeft dat daarna terug de naam gemid :
gemid <- round(gemid$value, 3)
je vraagt om de waarde van de integraal te tonen (verschijnt onder het R-script) :
gemid

Dit kort programma is hieronder als een kopieerbare R code chunk weergegeven. Je kan die kopiëren en plakken naar “mijnwerkblad.qmd” (zie ) .

```{r}
myfun <- function(x) {x}
gemid <- integrate(myfun, lower = 0, upper = 1)
gemid <- round(gemid$value,3)
gemid
```

Als je nu in “mijnwerkblad.qmd” op de groene pijl in die code-chunk klikt, dan vind je dat E(X) = 0.5, wat je intuïtief ook al had verwacht voor een continu uniform kansmodel op [0 , 1].

5.2.3 Maximum op [0 , 1]

Het maximum van 2 onafhankelijke lukrake trekkingen uit het interval [0 , 1] heeft als dichtheidsfunctie $f(x)=2x$ voor $0\le x\le 1$.

Als je met dit model werkt, wat verwacht je dan gemiddeld uit te komen? Op de grafiek zie je dat de kans om data in een gebied “dicht tegen 1” te vinden groter is dan de kans om data te hebben die komen uit een even groot gebied “dicht tegen 0”. Voor het gemiddelde van dit kansmodel verwacht je geen waarde in het midden van [0 , 1] maar eerder een waarde die meer naar rechts (dichter tegen 1) ligt. Wat het echte gemiddelde is bereken je nu zelf.

16 Oefening (opl 16)

Schrijf eerst de algemene formule voor het gemiddelde van gelijk welk continu kansmodel:
$E(X)$ =…………………….
Vul in de algemene formule de juiste dichtheidsfunctie in waarmee je hier moet werken (let ook op de grenzen van de integraal):
$E(X)$ =………………..
Voer nu de berekeningen uit. Maak gebruik van de R code chunk die je hebt gekopieerd naar “mijnwerkblad.qmd” , pas die aan en activeer (groene pijl).
Besluit: het kansmodel $X$ met dichtheidsfunctie $f(x)=2x$ voor $0\le x\le 1$ heeft als gemiddelde $E(X)$ = …

5.3 Besluit

Bij kansmodellen (zowel discrete als continue) kan je eigenschappen van die modellen bestuderen. Die modeleigenschappen liggen vast zodra je het model kent (zodra je de kansverdeling of de dichtheid kent). Dat is iets helemaal anders dan eigenschappen (zoals gemiddelde en standaardafwijking) van een dataset.

Het gemiddelde van een kansmodel is een modeleigenschap. Het is een vast getal. Als je het kansmodel kent, dan kan je zijn gemiddelde berekenen, je hebt daarvoor geen data nodig.

6 Standaardafwijking $sd(X)$

De manier waarop een kansmodel $X$ de getallen rond zijn gemiddelde $E(X)$ laat vallen kan nogal verschillend zijn. Sommige kansmodellen zorgen ervoor dat de meeste getallen dicht bij hun centrum $E(X)$ terechtkomen. Bij andere kansmodellen komen de getallen met een veel grotere spreiding rond het gemiddelde terecht.

De standaardafwijking van een kansmodel $X$ is een maat voor de spreiding rond het gemiddelde $E(X)$. De notatie $sd\left( X \right)$ komt van het Engelse standard deviation.

De standaardafwijking $sd(X)$ is de vierkantswortel uit de variantie $var(X)$ en dus start je met de variantie.

6.1 Discreet

6.1.1 Definitie

De formule voor de variantie heeft een analoge structuur als de formule waarmee je het gemiddelde hebt berekend: het is een gewogen som. Maar in die gewogen som staan nu niet “uitkomsten” maar wel “kwadratische afstanden”, namelijk het kwadraat van “de afstand van de uitkomst tot het modelgemiddelde”: ${{\left( x-E(X) \right)}^{2}}.$

Voor elke uitkomst wordt haar “kwadratische afstand” gewogen met de kans van die uitkomst. Maak dan de som en je krijgt:
\[\operatorname{var}(X)=\sum{{{\left( x-E(X) \right)}^{2}}\cdot P(X=x)}\].
Voor de standaardafwijking heb je :
\[sd(X)=\sqrt{\sum{{{\left( x-E(X) \right)}^{2}}\cdot P(X=x)}}\]

Voor gelijk welk discreet kansmodel $X$ is de variantie $var(X)$
gelijk aan “de som van de kwadratische afwijkingen maal hun kansen”
De standaardafwijking $sd(X)$ is de wortel uit de variantie.

6.1.2 De rode dobbelsteen

Het kansmodel $X$ van de rode dobbelsteen ken je.

Voor dit kansmodel heb je het gemiddelde al berekend, dat is $E(X)= 2.5.$
Een maat voor de spreiding waarmee de uitkomsten 1, 3 en 6 rond het modelgemiddelde 2.5 vallen is de standaardafwijking. Om die te berekenen start je met de formule voor de variantie.

Voor elke uitkomst bereken je haar gewogen kwadratische afwijking. Het model zegt dat de uitkomst 1 met kans $\frac{3}{6}$ voorkomt. Dus moet je ${{\left( 1-2.5 \right)}^{2}}$ met $\frac{3}{6}$ vermenigvuldigen.
Doe dat nu voor alle uitkomsten en maak de gewogen som.
$var(X)={{\left( 1-2.5 \right)}^{2}}\ \cdot \ \frac{3}{6}\quad +\quad {{\left( 3-2.5 \right)}^{2}}\ \cdot \ \frac{2}{6}\quad +\quad {{\left( 6-2.5 \right)}^{2}}\ \cdot \ \frac{1}{6}$
en $sd(X)=\sqrt{var(X)}$.

Berekeningen doe je met R.
Hieronder zie je een R code chunk waarbij eerst elke term in de som berekend wordt, daarna worden die termen opgeteld (dat is de variantie) en tenslotte neem je de vierkantswortel.

```{r}
t1 <- (1-2.5)^2 * 3/6
t2 <- (3-2.5)^2 * 2/6
t3 <- (6-2.5)^2 * 1/6
var <- t1 + t2 + t3
sd <- sqrt(var)
sd
```

Je kan met kopiëren en plakken (zie) bovenstaande code chunk overbrengen naar “mijnwerkblad.qmd” en het resultaat hieronder controleren.

Het kansmodel $X$ van de rode dobbelsteen heeft $sd(X) = 1.80$ als standaardafwijking.

6.2 Continu

6.2.1 Definitie

Voor continue kansmodellen moet je wiskundige technieken voor discrete waarden overzetten naar wiskundige technieken voor een continuüm. Dat weet je al.

In plaats van voor alle mogelijke uitkomsten de kwadratische afstand te vermenigvuldigen met de bijhorende kans $P(X=x)$ moet je nu voor alle mogelijke waarden de kwadratische afstand vermenigvuldigen met de dichtheidsfunctie $f(x)$. En in plaats van te sommeren moet je nu integreren. Dat wordt dan:
\[var(X) = \int\limits_{-\infty }^{+\infty }{{{\left( x-E(X) \right)}^{2}}\ f(x)\ dx}\]
zodat:

\[sd(X)=\sqrt{\ \int\limits_{-\infty }^{+\infty }{{{\left( x-E(X) \right)}^{2}}\ f(x)\ dx}}\].

6.2.2 Uniforme op [0 , 1]

Het continue kansmodel $X$ voor lukraak trekken uit het interval [0 , 1] heeft als dichtheidsfunctie $f(x)=1$ voor $0\le x\le 1$. Het gemiddelde van dit kansmodel ken je al, dat is $E(X) = 0.5$ .

De algemene formule voor de variantie pas je nu toe op dit voorbeeld. De kwadratische afstand tot het gemiddelde is hier ${{\left( {{x}}-0.5 \right)}^{2}}$ en de dichtheid is overal gelijk aan 1. Dat wordt (met aangepaste grenzen): $\operatorname{var}(X) = \int\limits_{0}^{1}{{{\left( x-0.5 \right)}^{2}}\ (1)\ dx}$ zodat
$sd(X)=\sqrt{\ \int\limits_{0}^{1}{{{\left( x-0.5 \right)}^{2}}\ dx}}$ .

Voor de berekening kan je volgende R code chunk gebruiken (vergelijk met de R code chunk die je gebruikt hebt bij het gemiddelde van de uniforme):

```{r}
myfun <- function(x) {(x-0.5)^2}
variantie <- integrate(myfun, lower = 0, upper = 1)
sdafw <- round(sqrt(variantie$value), 3)
sdafw
```

Ook hier kan je met kopiëren en plakken (zie) het onderstaande resultaat zelf controleren:

Als $X$ een continu uniforme kansmodel op $[0 , 1]$ is, dan is $sd(X) = 0.289$ .

6.2.3 Maximum op [0 , 1]

Voor het kansmodel $X$ met dichtheid $f(x)=2x\ ,\ 0\le x\le 1$ heb je berekend dat $E(X)= 0.667$ .

17 Oefening (opl 17)

Schrijf eerst de algemene formule voor de standaardafwijking van gelijk welk continu kansmodel:
$sd(X)$ =…………………….
Vul in de algemene formule de juiste grootheden in waarmee je hier moet werken (let ook op de grenzen van de integraal):
$sd(X)$ =………………..
Voer nu de berekeningen uit. Maak gebruik van de R code chunk die je zopas hebt gekopieerd naar “mijnwerkblad.qmd” , pas die aan en activeer (groene pijl).
Besluit: als $X$ de dichtheidsfunctie $f(x)=2x$ heeft voor $0\le x\le 1$ , dan is zijn standaardafwijking gelijk aan: $sd(X)$ = …

6.3 Besluit

De standaardafwijking van een kansmodel is een modeleigenschap. Het is een vast getal. Als je het kansmodel kent, dan kan je zijn standaardafwijking berekenen, je hebt daarvoor geen data nodig.

7 OPLOSSINGEN

1 Oplossing (oef 1)

Zeg in woorden hoe je de vaas vult om voor deze rode dobbelsteen een correct vaasmodel $X$ te hebben.

Drie ballen met het cijfer 1, twee ballen met het cijfer 3 en één bal met het cijfer 6.
Als je voor die rode dobbelsteen een vaasmodel $X$ moet maken met 600 000 ballen, hoe ga je die vaas dan vullen?

300 000 ballen waarop een 1 staat, 200 000 met een 3 en 100 000 met een 6
Wat is het verschil tussen het eerste vaasmodel dat jij voor die rode dobbelsteen hebt opgesteld en het tweede vaasmodel? Zitten er in beide vazen evenveel ballen? Hebben beide vazen dezelfde mogelijke uitkomsten? En als je lukraak een bal trekt, heb je dan bij beide vazen dezelfde kans op eenzelfde uitkomst?

Voor beide vazen is het aantal ballen duidelijk verschillend maar de mogelijke uitkomsten zijn dezelfde (je kan alleen maar een 1, 3 of 6 hebben). En de kansen zijn ook dezelfde: kans 1/2 op een 1, kans 1/3 op een 3 en kans 1/6 op een 6.

2 Oplossing (oef 2)

Als je met de rode dobbelsteen 450 keer zou gooien hoeveel keren zou je dan (ongeveer) een drie gezien hebben? Verklaar je redenering.

Het cijfer 3 wordt gegenereerd met kans 1/3. Bij 450 keer gooien verwacht je ongeveer $\frac{1}{3}\times 450=150$ keer een 3 gezien te hebben.

3 Oplossing (oef 3)

In fig 3 staat een staafdiagram. Het stelt een kansmodel $X$ voor. Beschrijf in woorden hoe dit experiment in elkaar zit.

$X$ is het kansmodel voor een experiment waarbij je een (min één) hebt met kans 1/4, een nul met kans 1/6, een één met kans 1/4 en een drie met kans 1/3.
Zeg in woorden hoe je het bovenstaande kansmodel $X$ zou voorstellen met een vaasmodel met zo weinig mogelijk ballen.

Vul de vaas met in totaal 12 ballen: drie ballen waar het cijfer –1 op staat, twee ballen met een 0, drie ballen met een 1 en nog vier ballen met een 3.

4 Oplossing (oef 4)

Lees $P(X<3)$ in woorden. Hoe groot is die kans bij een eerlijke dobbelsteen?

De kans dat het kansmodel $X$ waarden oplevert die kleiner zijn dan 3, of kortweg: ” de kans dat $X$ kleiner is dan 3”. Bij een eerlijke dobbelsteen is dit de kans om een 1 of een 2 te gooien en dat is 2/6.

5 Oplossing (oef 5)

Bij het opgooien van een muntstuk kan je zeggen dat munt gelijk is aan nul en dat kruis één is. Je hebt dan een experiment dat je met een eenvoudig kansmodel kan beschrijven. Geef aan dit kansmodel de naam $X$ . Onderstel dat een muntstuk bij opgooien “eerlijk” is.

Stel $X$ voor met een vaasmodel (of zeg hoe je dat zou doen).
Stel $X$ voor met een staafdiagram (of zeg hoe je dat zou doen).

Wat betekent $P(X=1)$ voor dit kansmodel $X$ ? Lees $P(X=1)$ in woorden en zeg dan ook hoe groot die kans is.

$P(X=1)$ is de kans dat het kansmodel $X$ gelijk is aan 1 wat hier de kans is dat het muntstuk op kruis valt. Die kans is 1/2.

6 Oplossing (oef 6)

Kijk eens naar het experiment dat beschreven wordt in fig 3 en vergelijk dat met de tabel hiernaast. Vind je op beide plaatsen dezelfde informatie? Denk eraan dat een uitkomst van het model $X$ genoteerd wordt door een kleine letter $x$ .

Het gaat over hetzelfde kansmodel, met dezelfde uitkomsten en dezelfde kansen.

In de tabel staat het cijfer nul. Wat is dat hier? Kan je dat in woorden uitleggen?
Het cijfer 0 is een mogelijke uitkomst bij dit kansmodel.
Schrijf een formule waarin de 1/3 van de tabel voorkomt. Gebruik de juiste notatie. Zeg daarna ook in woorden wat die formule betekent.
$P\left( X=3 \right)=1/3$. De kans dat $X$ de waarde 3 oplevert is 1/3.
Schrijf het kansmodel $X$ van de rode dobbelsteen fig 2 in tabelvorm.

7 Oplossing (oef 7)

Stel het kansmodel op voor een binomiale kansverdeling $X$ met succeskans $p=0.5$ bij 4 herhalingen. Gebruik kmod_binom.qmd om dit kansmodel zowel met een staafdiagram als met een tabel voor te stellen.
Als je 4 keer een eerlijk muntstuk opgooit, wat is dan de kans dat je juist 2 keer kruis hebt? Formuleer je antwoord in de gepaste notatie.

Je hebt 37.5 % kans om exact 2 keer kruis te hebben bij 4 worpen of:
$P(X=2)= 0.375$

8 Oplossing (oef 8)

Je gooit 6 keer een eerlijke dobbelsteen en “een zes” noem je succes. Met $X$ bedoel je “het aantal successen”.

Bepaal, in tabelvorm, de kansverdeling die hoort bij $X$.
Gebruik kmod_binom.qmd.

Wat is de kans dat je bij 6 keer gooien toch minstens één keer een zes hebt? Schrijf je antwoord als een kansuitspraak in formulevorm met de juiste notatie.

Ofwel heb je minstens één succes ofwel heb je geen enkel succes zodat
$P(X\ge 1)=\ 1-P(X=0)= 1- 0.3349 = 0.6651$

9 Oplossing (oef 9)

Vervolledig de volgende zinnen met een keuze uit: “x-as”, “y-as”, “hoogte”, “oppervlakte”, “functiewaarde”.

De mogelijke waarden die ik met een continu kansmodel kan uitkomen zie ik op de ……..

De mogelijke waarden die ik met een continu kansmodel kan uitkomen zie ik op de x–as.

Om te weten wat de kans is om in een bepaald interval terecht te komen kijk ik naar de …..

Om te weten wat de kans is om in een bepaald interval terecht te komen kijk ik naar de oppervlakte.

10 Oplossing (oef 10)

Bij een continu kansmodel is $P\left( X\le x \right)$ gelijk aan $P\left( X<x \right)$. Is dat ook waar voor een discreet kansmodel? Staaf je antwoord met een voorbeeld.

Neen. Bij een eerlijke dobbelsteen bijvoorbeeld is $P\left( X\le 2 \right)=P(X=1)+P(X=2)=2/6$ maar $P\left( X<2 \right)=P(X=1)=1/6$.

11 Oplossing (oef 11)

Waar komen de mogelijke uitkomsten van dit experiment terecht? Waarom?

In $\left[ 0\ ,\ 1 \right]$ want het maximum van getallen uit $\left[ 0\ ,\ 1 \right]$ is terug een getal uit $\left[ 0\ ,\ 1 \right]$ en elk getal uit $\left[ 0\ ,\ 1 \right]$ kan een resultaat zijn van dit experiment.

Nu je weet in welk gebied je met dat maximum terechtkomt, moet je op zoek gaan naar een passende dichtheidsfunctie boven dit gebied. Je krijgt hierbij een tip: de dichtheidsfunctie $f(x)$ is een deel van een rechte door het punt $\left( 0\ ,\ 0 \right).$ En je weet ook dat elke dichtheidsfunctie nergens negatief mag zijn en dat de totale oppervlakte onder een dichtheidsfunctie gelijk moet zijn aan 1. Zoek nu $f(x).$

Boven het interval $\left[ 0\ ,\ 1 \right]$ is $f(x) = ax$ (rechte door de oorsprong) met $a>0$ (positief stijgend lijnstuk boven $\left[ 0\ ,\ 1 \right]).$ De ruimte tussen het lijnstuk en de x-as vormt een driehoek met oppervlakte = $\tfrac{1}{2}(basis\ \times \ hoogte)=\tfrac{1}{2}(1\ \times \ a)=\dfrac{a}{2}.$ Opp moet 1 zijn zodat $a = 2.$ Dus is $f(x)=2x\ \ voor\ \ 0\le x\le 1.$

12 Oplossing (oef 12)

Het model $X$ van fig 7 heeft als dichtheidsfunctie $f(x)=2x\ \text{voor}\ 0\le x\le 1.$ Voor $x={1}/{4}\;$ is de functiewaarde $f\left( 1/4\ \right)$ gelijk aan $1/2\ .$ Kan je $f\left( {1}/{4}\; \right)={1}/{2}\;$ ook uitgebreid in woorden zeggen? Kan je hierbij het woord “kans” gebruiken? Hoe zeg je dat dan? Kijk daarna ook eens naar de waarde van $f(x)$ wanneer $x$ gelijk is aan ${3}/{4}\;.$ Welke les trek je hieruit?

De functiewaarde van de dichtheidsfunctie is 1/2 voor $x={1}/{4}\;.$ Meer kan je niet zeggen. Een functiewaarde is zeker geen “kans” want hier is f(3/4) = 1.5 en dat getal is groter dan 1. Bij continue kansmodellen bereken je kansen uit “oppervlakten” en niet uit “hoogten” of “functiewaarden”.

13 Oplossing (oef 13)

Ga op je laptop naar kmod_max.qmd en dubbelklik en vul de juiste waarden in.

Als $X$ het maximum is van twee onafhankelijke lukrake trekkingen
uit [ 0 , 1 ] dan is haar dichtheid: $f(x)=2x\ \text{voor}\ 0\le x\le 1.$
Zoek de kans dat dit maximum $X$ terechtkomt in de aangegeven
intervallen (en arceer de oppervlakte boven dat interval):
. (controleer, want gezien in de tekst): $P\left( 0\le X\le 0.3 \right)=0.09$
. (controleer, want gezien in de tekst): $P\left( 0.7\le X\le 1 \right)=0.51$
. (nieuwe opgave): $P\left( 0.3\le X\le 0.7 \right)=0.40$
. Tel de vorige 3 kansen samen, wat zie je? Waarom?

Som = 1 want dat is $P\left( 0\le X\le 1 \right)$

14 Oplossing (oef 14)

In Vlaanderen zijn 17-jarige meisjes gemiddeld 166 cm groot. Lengte is een continue veranderlijke en dus moet je een dichtheidsfunctie gebruiken om een kansmodel $X$ op te stellen voor de totale populatie (de lengte van al die meisjes). Dat is hier de normale dichtheid.
Als je lukraak een meisje van 17 zal ontmoeten, wat is dan de kans dat zij niet kleiner dan 160 cm zal zijn maar ook niet groter dan 174 cm? Of wat is hier $P(160\le X\le 174)$ ?
Ga op je laptop naar norm_kans.qmd en dubbelklik en vul de volgende gegevens in:
gem <- 166
st_afw <- 6
a <- 160
b<- 174

Je hebt 75 % kans om zo’n meisje te ontmoeten want $P(160\le X\le 174) = 0.75$

15 Oplossing (oef 15)

Als je hier 6 miljoen keer gooit zal je ongeveer 3 miljoen keer een 1 hebben, ongeveer 2 miljoen keer een 3 en ongeveer 1 miljoen keer een 6. Het gemiddelde van die 6 miljoen getallen ziet er dan als volgt uit:

Als je nog veel meer keren zou gooien dan zal $\left( ongeveer\ \frac{3}{6} \right)$ dichter en dichter naar $\frac{3}{6}$ naderen en er uiteindelijk mee samenvallen.
Op dezelfde manier nadert $\left( ongeveer\ \frac{2}{6} \right)$ naar $\frac{2}{6}$ en $\left( ongeveer\ \frac{1}{6} \right)$ naar $\frac{1}{6}$ .

Het gemiddelde van de rode dobbelsteen (wat je als gemiddelde verwacht te vinden als je oneindig keer zou kunnen gooien) is gelijk aan

\[ E(X)\ =\quad \left( \frac{3}{6} \right)\times 1\quad +\quad \left( \frac{2}{6} \right)\times 3\quad +\quad \left( \frac{1}{6} \right)\times 6 \ \]

zodat $E(X) = 2.5$

16 Oplossing (oef 16)

Schrijf eerst de algemene formule voor het gemiddelde van gelijk welk continu kansmodel:
$E(X)=\int\limits_{-\infty}^{+\infty }{x\ f(x)\ dx}$
Vul in de algemene formule de juiste dichtheidsfunctie in waarmee je hier moet werken (let ook op de grenzen van de integraal):
$E(X)=\int\limits_{0}^{1 }{x\ (2x)\ dx}=\int\limits_{0}^{1 }{\ 2x^2\ dx}$
Voer nu de berekeningen uit. Maak gebruik van de R code chunk die je hebt gekopieerd naar “mijnwerkblad.qmd” , pas die aan en activeer (groene pijl).
Besluit: het kansmodel $X$ met dichtheidsfunctie $f(x)=2x$ voor $0\le x\le 1$ heeft als gemiddelde $E(X)$ = 0.667

17 Oplossing (oef 17)

Schrijf eerst de algemene formule voor de standaardafwijking van gelijk welk continu kansmodel:
$sd(X)=\sqrt{\ \int\limits_{-\infty }^{+\infty }{{{\left( x-E(X) \right)}^{2}}\ f(x)\ dx}}$
Vul in de algemene formule de juiste grootheden in waarmee je hier moet werken (let ook op de grenzen van de integraal):
$sd(X)=\sqrt{\ \int\limits_{0}^{1}{{{\left( x-0.667 \right)}^{2}}\ (2x)\ dx}}$
Voer nu de berekeningen uit. Maak gebruik van de R code chunk die je hebt gekopieerd naar “mijnwerkblad.qmd” , pas die aan en activeer (groene pijl).
Besluit: als $X$ de dichtheidsfunctie $f(x)=2x$ heeft voor $0\le x\le 1$ , dan is zijn standaardafwijking gelijk aan: $sd(X)$ = 0.236

Kansmodellen

1 Kansmodel

1.1 De realiteit en het model

1.2 Discreet of continu

2 Discrete kansmodellen

2.1 Een vaasmodel

2.2 Een staafdiagram

2.3 Een tabel

2.4 De kansverdeling

2.5 De binomiale verdeling

3 Continue kansmodellen

3.1 Trekken uit [ 0 , 1 ]

3.2 Ongelijkheidstekens

3.3 Afspraak woordgebruik

3.4 De kansdichtheid

3.5 Het maximum

3.6 De normale verdeling

4 Modeleigenschappen

5 Gemiddelde \(E(X)\)

5.1 Discreet

5.1.1 Eerlijke dobbelsteen

5.1.2 Rode dobbelsteen

5.1.3 Definitie

5.2 Continu

5.2.1 Definitie

5.2.2 Uniforme op [ 0 , 1 ]

5.2.3 Maximum op [0 , 1]

5.3 Besluit

6 Standaardafwijking \(sd(X)\)

6.1 Discreet

6.1.1 Definitie

6.1.2 De rode dobbelsteen

6.2 Continu

6.2.1 Definitie

6.2.2 Uniforme op [0 , 1]

6.2.3 Maximum op [0 , 1]

6.3 Besluit

7 OPLOSSINGEN