Een steekproef trekken uit de databank geboorten
De databank geboorten bevat meer dan een half miljoen kinderen, geboren tussen 2000 en 2008.
In de terminologie van databanken zijn die kinderen de “elementen” of de “objecten”.
Bij elk kind zijn er 5 karakteristieken genoteerd. Dat zijn de “veranderlijken”.
De veranderlijken hebben de volgende namen:
duur = duur van de zwangerschap (in weken)
gew = geboortegewicht (in gram)
sex = geslacht met 0 = meisje en 1 = jongen
lft_m = leeftijd van de moeder op het moment van de bevalling (in jaren)
gebjaar = geboortejaar
Om een steekproef te trekken ga je op je laptop naar de qmd folder en je dubbelklikt daar op trek_stkp.qmd.
Je ziet dan onderstaand scherm waar je verschillende codes kan invullen.
- Als je een specifiek geboortejaar wil onderzoeken (bv. 2008) , dan vul je dat jaar in:
gebj <- 2008. Wil je een steekproef uit alle jaren dan gebruik je daarvoor het cijfer 9:gebj <- 9.
- Als je een steekproef wil uit alleen maar meisjes dan tik je
sx <- 0. Ook hier is het cijfer 9 de code voor “alles” (zowel jongens als meisjes) en dan tik jesx <- 9.
- De grootte van de te trekken steekproef geef je aan bij
n_stkp <- .....Voor de oefeningen die je in onze teksten “Statistiek met R” ontmoet, is een steekproefgrootte van maximaal 1000 voldoende.
Als output krijg je een tabel zoals hiernaast.
Om de tabel beperkt te houden worden alleen maar de eerste 12 rijen van de getrokken steekproef getoond.
Zoals bij alle andere oefeningen komt ook hier het getoonde resultaat terecht als een html-bestand in de qmd folder op je laptop. Dit html-bestand heeft de naam trek_stkp.html.
Als je de getoonde tabel (de eerste 12 rijen) wil bewaren, dan verander je de bestandsnaam “trek_stkp.html” in een andere html naam naar keuze, bijvoorbeeld “uwnaam_steekproef001.html”
Als je de code bewaar <- 1 hebt ingevuld, dan komt de (volledige) getrokken steekproef als een Excel bestand op je laptop terecht.
In de xcl-folder staat dan GEB_jjjjmmdd_hhmmss.xlsx
waarbij jjjjmmdd_hhmmss het tijdstip aangeeft:
jaarmaanddag_uurminuutseconde.
De getrokken steekproef in dit voorbeeld, maar nu als een Excel bestand, zie je hiernaast.