Een steekproef trekken uit de databank geboorten
De databank geboorten bevat meer dan een half miljoen kinderen.
In de terminologie van databanken zijn die kinderen de “elementen” of de “objecten”.
Bij elk kind zijn er 5 karakteristieken genoteerd. Dat zijn de “veranderlijken”.
De veranderlijken hebben de volgende namen:
duur = duur van de zwangerschap (in weken)
gew = geboortegewicht (in gram)
sex = geslacht met 0 = meisje en 1 = jongen
lft_m = leeftijd van de moeder op het moment van de bevalling (in jaren)
gebjaar = geboortejaar
Om een steekproef te trekken ga je op je laptop naar de qmd folder en je dubbelklikt daar op trek_stkp.qmd.
Je ziet dan onderstaand scherm waar je verschillende codes kan invullen.
- Als je een specifiek geboortejaar wil onderzoeken (bv. 2008) , dan vul je dat jaar in:
gebj <- 2008. Wil je een steekproef uit alle jaren dan gebruik je daarvoor het cijfer 9:gebj <- 9.
- Als je een steekproef wil uit alleen maar meisjes dan tik je
sx <- 0. Ook hier is het cijfer 9 de code voor “alles” (zowel jongens als meisjes) en dan tik jesx <- 9.
- De grootte van de te trekken steekproef geef je aan bij
n_stkp <- .....Voor de oefeningen die je in onze teksten “Statistiek met R” ontmoet, is een steekproefgrootte van maximaal 1000 voldoende.
Als output krijg je een tabel zoals hiernaast.
Zoals bij alle andere oefeningen komt ook hier het resultaat terecht als een html-bestand in de qmd folder op je laptop. Dit html-bestand heeft de naam trek_stkp.html.
Als je opnieuw een steekproef trekt dan overschrijft die nieuwe steekproef de oude en staan vanaf nu de resultaten van de nieuwe steekproef in het bestand trek_stkp.html.
Om die vroegere steekproef te bewaren moet je, vooraleer een nieuwe steekproef te trekken, de bestandsnaam “trek_stkp.html” veranderen in een andere html naam naar keuze, bijvoorbeeld “uwnaam_steekproef001.html” .
Als extra kan je de code bewaar <- 1 invullen.
Zo komt het resultaat van de steekproef ook als een Excel bestand op je laptop terecht.
In de xcl-folder staat dan jjjjmmdd_hhmmss.xlsx
waarbij jjjjmmdd_hhmmss het tijdstip aangeeft:
jaarmaanddag_uurminuutseconde.xlsx
Het resultaat van dezelfde steekproef, maar nu ook als een Excel bestand, zie je hiernaast.