Lineaire regressie

Author

Prof. Herman Callaert, UHasselt

Published

03/03/2026

Bij de studie van lineaire regressie is het nuttig dat je vertrouwd bent met bivariate data en met hun grafische voorstelling. Ook wordt ondersteld dat je weet hoe je moet kijken naar de globale vorm van een spreidingsdiagram en wat correlatie betekent bij ellipsvormige puntenwolken. In de tekst Spreidingsdiagram en correlatie vind je heel wat nuttige voorafgaande informatie.

1 Inleidend voorbeeld

Bij bivariate data (x , y) kan de vorm van een spreidingsdiagram aangeven dat een lineair verband tussen x en y zinvol is. Je zoekt dan, op basis van de opgemeten data, een model van de vorm y = ax + b. Anderzijds kan je, bijvoorbeeld vanuit theoretische studies, weten dat een fysische wet eruitziet als y = ax + b. Die wet in de praktijk verifiëren (zoals in een labo-opstelling), levert geen “perfecte” data. Ook hier kom je terecht op een puntenwolk waarbij je een “best aanpassende” rechte zoekt. Hieronder zie je een voorbeeld.

Uit de toestandsvergelijking van een ideaal gas worden verschillende gaswetten afgeleid. Zo zegt de volumewet van Gay-Lussac dat het volume van een (ideaal) gas recht evenredig is met de temperatuur wanneer je de druk en de massa (de hoeveelheid gas) constant houdt.

Op bijgaande figuur zie je een illustratie van deze gaswet waarbij een vaste massa gas gevangen zit in een container waarop een vaste druk wordt uitgeoefend.

Voor dit lab-experiment werd een volume van 280 milliliter opgetekend bij een temperatuur van 275 Kelvin en vergrootte het volume tot 460 ml wanneer de temperatuur 450 K was.

Een analoog experiment werd uitgevoerd door een klas van 20 leerlingen die zelfstandig mochten werken, maar wel met dezelfde opstelling (dezelfde massa van hetzelfde gas en met dezelfde druk). Iedereen voerde de proef één keer uit en noteerde de temperatuur (in K) en het volume (in ml).

In fig 1 staan de resultaten van die 20 leerlingen. In de bivariate tabel zie je bijvoorbeeld dat de derde leerling (lln_3) een temperatuur van 330 K noteerde en een volume van 425 ml. De resultaten zijn ook grafisch voorgesteld in een spreidingsdiagram. Het globale beeld ziet eruit als een ellipsvormige puntenwolk waarbij de data gespreid liggen rond een stijgende rechte. Dat wijst op een lineaire samenhang tussen volume en temperatuur. Die samenhang is positief: bij hogere temperaturen horen globaal ook hogere volumes.

De data in fig 1 zijn niet zomaar data. Ze zijn opgemeten in het kader van een experiment over de gaswet van Gay-Lussac. Je weet dat die wet eruit ziet als V = c ‧ T waarbij V het volume is, T de absolute temperatuur en c een constante.

In een “ideale wereld”, waar je een ideaal gas zou kunnen gebruiken bij een perfecte labo-opstelling en zowel temperatuur als volume zou kunnen noteren zonder meetfouten, verwacht je dat alle data perfect op een rechte van de vorm y = ax liggen.
In “real life” is niets perfect en krijg je een puntenwolk met punten die schommelen rond een rechte y = ax + b. Dat is de rechte die je zoekt.

1.1 Beste rechte (I)

1.1.1 Typische rechte

Nina en Noah zijn 2 leerlingen die een rechte zoeken die zo goed mogelijk aansluit bij de opgemeten data in fig 1. In de tekst “Spreidingsdiagram en correlatie” hebben zij de “typische rechte” ontmoet. Die rechte willen zij gebruiken.

In oef 1 ga je te werk zoals Nina. Zij kiest ervoor om met een spreidingsdiagram te werken waar de temperatuur op de x-as staat. Daarom gebruikt zij de data in het Excel bestand GL_xtemp.xlsx.

GL_xtemp.xlsx is een bestand waar de temperatuur in kolom A (dus als x-veranderlijke) genoteerd is. Het bijhorende volume staat in kolom B (y-veranderlijke). De bivariate tabel en het spreidingsdiagram die horen bij GL_xtemp.xlsx zie je in fig 1.

Er bestaat ook een ander Excel bestand namelijk: GL_xvol.xlsx. Zoals je uit de naam kan opmaken is in dat bestand het volume genoteerd in kolom A (dus als x-veranderlijke) en staat de bijhorende temperatuur in kolom B (y-veranderlijke). De bivariate tabel en het spreidingsdiagram die horen bij GL_xvol.xlsx zie je in fig 2.

1 Oefening (opl 1)

Bepaal, voor de data opgemeten door die 20 leerlingen, de typische rechte bij het spreidingsdiagram waar de temperatuur op de x-as staat. Teken ook een grafiek.
Om deze oefening op te lossen kopieer je op je laptop het bestand GL_xtemp.xlsx naar mijndata.xlsx en dan gebruik je corr.qmd met de code diagr <- 2.
Nina neemt de gevonden typische rechte als benadering voor de “gaswet van Gay‑Lussac”. Schrijf de vergelijking van deze rechte in woorden (vervang in de vergelijking x en y door hun betekenis). Welk volume vindt Nina bij een temperatuur van 290 K?

1.1.2 What’s in a name?

In fig 2 staan terug de resultaten van die 20 leerlingen. Aan de data is niets veranderd. Men heeft nu gewoon de keuze gemaakt om het volume op de x-as te zetten en de bijhorende temperatuur op de y-as. Dat zie je in het spreidingsdiagram en in de bivariate tabel, waar lln_3 een volume van 425 ml optekende en een temperatuur van 330 K. Dat was inderdaad het geval, dat stond al in de tabel van fig 1.
Door x en y onderling te verwisselen krijg je een spreidingsdiagram waar (ten opzichte van fig 1) alle punten gespiegeld zijn rond de eerste bissectrice. Ook in deze nieuwe figuur ziet het globale beeld eruit als een ellipsvormige puntenwolk waarbij de data gespreid liggen rond een stijgende rechte. Dat wijst op een lineaire samenhang tussen temperatuur en volume. Die samenhang is positief: bij hogere volumes horen globaal ook hogere temperaturen.

Als je met dezelfde data eenzelfde procedure gebruikt (het berekenen van een typische rechte), dan krijg je toch hetzelfde resultaat, of niet soms? Noah is daar in ieder geval van overtuigd. Hij kiest ervoor om het volume op de x‑as te zetten en de temperatuur op de y‑as. Daarom werkt hij met het Excel bestand GL_xvol.xlsx. Dat doe jij nu ook in oef 2.

2 Oefening (opl 2)

Bepaal, voor de opgemeten data, de typische rechte bij het spreidingsdiagram waar het volume op de x-as staat. Teken ook een grafiek.
Om deze oefening op te lossen kopieer je op je laptop het bestand GL_xvol.xlsx naar mijndata.xlsx en dan ga je verder te werk zoals in oef 1.
Noah neemt de gevonden typische rechte als benadering voor de “gaswet van Gay‑Lussac”. Schrijf de vergelijking van deze rechte in woorden (vervang in de vergelijking x en y door hun betekenis). Herschrijf daarna diezelfde rechte in woorden waarbij het woord “volume” in het linkerlid staat en al de rest in het rechterlid. Welk volume vindt Noah bij een temperatuur van 290 K?

1.1.3 Besluit

De resultaten van Nina en Noah kan je grafisch voorstellen op eenzelfde figuur zoals fig 3.

Nina: volume = 1.17 temperatuur - 43.77 (zwarte stippellijn)
Noah: volume = 1.16 temperatuur - 43.56 (rode stippellijn)

Wat zou kunnen verklaren dat de resultaten niet perfect samenvallen?

Door afrondingen bij de berekeningen krijg je verschillen in de uitkomsten. Zo is bijvoorbeeld bij de typische rechte van Noah de rico gelijk aan a = 0.8558758… wat afgerond leidt tot a = 0.86. Bij deling krijg je dan (1/0.86) = 1.162…… = 1.16 terwijl (1/0.8558758) = 1.16839… = 1.17 .
Dat de resultaten niet perfect samenvallen is te wijten aan afrondingen bij de berekeningen.
In de tekst “Spreidingsdiagram en correlatie” zie je dat de vergelijking van de typische rechte symmetrisch is in x en y. Als je x met y omwisselt, dan is de nieuwe typische rechte de inverse van de oude.

Als je op basis van data van een lab-experiment de gaswet van Gay-Lussac (of algemeen een fysische wet die eruitziet als een rechte) wil verifiëren , dan kan je op zoek gaan naar een rechte die zo goed mogelijk aansluit bij de gevonden puntenwolk. Je kan hierbij kiezen om te werken met de “typische rechte”. Als je dat doet, dan heeft het geen belang of je de temperatuur op de x-as zet en het volume op de y-as of omgekeerd. Afgezien van kleine verschillen door afronding, krijg je in beide gevallen eenzelfde resultaat, dat heb je zopas vastgesteld.

Waarschijnlijk denk je: wie had er nu ook iets anders verwacht? Het antwoord hierop lees je hieronder.

1.2 Beste rechte (II)

1.2.1 Regressierechte

Ook Luna en Lewis zijn leerlingen die de data van het experiment bij de gaswet van Gay‑Lussac willen gebruiken. Zij hebben ergens gelezen dat de rechte die “best aansluit” bij een puntenwolk de regressierechte is. Wat regressie is weten ze eigenlijk nog niet, maar ze willen wel die rechte gebruiken, een rechte die ruim beschikbaar is in bijna elk (wetenschappelijk) softwarepakket.

In oef 3 ga je te werk zoals Luna. Zij kiest ervoor om met een spreidingsdiagram te werken waar de temperatuur op de x-as staat (zoals in fig 1)

3 Oefening (opl 3)

Bepaal, voor de opgemeten data, de regressierechte bij het spreidingsdiagram waar de temperatuur op de x-as staat. Teken ook een grafiek.
Om deze oefening op te lossen kopieer je op je laptop GL_xtemp.xlsx naar mijndata.xlsx en dan gebruik je reg.qmd met code respons <- 2 en regr <- 2.
Luna neemt de gevonden regressierechte als benadering voor de “gaswet van Gay‑Lussac”. Schrijf de vergelijking van deze rechte in woorden (vervang in de vergelijking x en y door hun betekenis). Welk volume vindt Luna bij een temperatuur van 290 K?

1.2.2 What’s in a name?

Als je met dezelfde data eenzelfde procedure gebruikt (het berekenen van een regressierechte), dan krijg je toch hetzelfde resultaat, of niet soms? Lewis is daar in ieder geval van overtuigd. Hij gebruikt de opgemeten data en kiest ervoor om het volume op de x-as te zetten en de temperatuur op de y-as, zoals in fig 2. Dat doe jij nu ook in oef 4.

4 Oefening (opl 4)

Bepaal, voor de opgemeten data, de regressierechte bij het spreidingsdiagram waar het volume op de x-as staat. Teken ook een grafiek.
Om deze oefening op te lossen kopieer je op je laptop het bestand GL_xvol.xlsx naar mijndata.xlsx en dan ga je verder te werk zoals in oef 3.
Lewis neemt de gevonden regressierechte als benadering voor de “gaswet van Gay‑Lussac”. Schrijf de vergelijking van deze rechte in woorden (vervang in de vergelijking x en y door hun betekenis). Herschrijf daarna diezelfde rechte in woorden waarbij het woord “volume” in het linkerlid staat en al de rest in het rechterlid. Welk volume vindt Lewis bij een temperatuur van 290 K?

1.2.3 Besluit

De resultaten van Luna en Lewis kan je grafisch voorstellen op eenzelfde figuur (fig 4).

LUNA: volume = 0.72 temperatuur + 122.38 (blauw)
LEWIS: volume = 1.89 temperatuur - 312.13 (rood)

Als je bij een opstelling in het labo de massa gas en de druk niet wijzigt en je zet de temperatuur op 290 K dan krijg je:

een volume van 331 ml volgens Luna
een volume van 236 ml volgens Lewis.

Luna en Lewis hebben dezelfde experimentele data gebruikt en zij werkten ook met hetzelfde programma om een regressierechte te berekenen. En toch is hier een volume van 95 ml “verdwenen”. Waar is dat naartoe?

Luna en Lewis hebben duidelijk een verschillende rechte gevonden. Het verschil is niet te verklaren door afrondingsfouten (vergelijk fig 4 maar eens met fig 3 ).

De regressierechten die Luna en Lewis gevonden hebben drukken niet het verwachte lineair verband uit tussen temperatuur en volume. Je kan, met een regressierechte, zomaar niet een temperatuur halen uit een gegeven volume of een volume uit een gegeven temperatuur. Zo werkt regressie niet.
Zoiets had niemand ooit gezegd tegen Luna (en ook niet tegen Lewis).

2 Galton

In de tweede helft van de 19e eeuw waren Engelse statistici gefascineerd om, op basis van data, erfelijke eigenschappen op te sporen. Een groep rond Sir Francis Galton (1822-1911) deden massa’s opmetingen, onder meer over de lengte van ouders en kinderen. In fig 5 zie je een spreidingsdiagram voor één van de datasets die toen werden opgemeten. Het gaat hier over 1078 gezinnen waarbij de lengte van de vader en de lengte van zijn oudste volwassen zoon werd genoteerd. De grafiek toont een ellipsvormige puntenwolk die een lineaire samenhang laat vermoeden. Die samenhang is positief: bij grotere vaders horen globaal ook grotere zonen. Galton leefde in een tijd waarin er voor data-analyse geen sprake was van grafische rekentoestellen, laptops of apps. Het is bijna niet te geloven dat hij in die enorme hoeveelheid data een structuur wist te ontdekken om te beschrijven hoe de lengte van zonen samenhangt met de lengte van vaders. In zijn data zag hij dat zeer grote vaders ook zeer grote zonen hebben, maar globaal toch niet zo groot als de vaders. En zeer kleine vaders hebben kleine zonen, maar toch weer niet zo klein. Dit fenomeen noemde hij “regression towards mediocrity” waarbij hij (enigszins denigrerend) aangaf dat sommige biologische verschijnselen “terugvallen naar de middelmaat”.
Misschien is “regression towards the mean” een meer neutrale uitspraak om dit fenomeen te beschrijven.

3 Vaders en zonen

Bij de studie van regressie volgen we (gedeeltelijk) de aanpak van Galton. Voor de duidelijkheid gebruiken we een beperkte (eigen) dataset met 29 gezinnen. De data staan in fig 6 (bivariate tabel en spreidingsdiagram). Elk gezin heeft ook een label gekregen. Zo zie je dat in het derde gezin (gzn_3) de vader 177 cm groot is en de zoon 176 cm. Alle lengten zijn afgerond tot op de eenheid.

5 Oefening (opl 5)

Voor de studie van vaders en zonen (29 gezinnen) kan je de gemiddelde lengte van de zonen berekenen. Alle data die je daarvoor nodig hebt staan reeds in onderstaande code chunk. Met kopiëren en plakken (zie ) breng je de code chunk over naar “mijnwerkblad.qmd”. Als je daar nu op de groene pijl drukt, dan vind je de gemiddelde lengte van alle 29 zonen.

```{r}

# data vaders en zonen met y = lengte zoon
y <- c(188,172,176,164,188,168,188,176,168,160,184,180,172,184,172,180,160,192,176,168,168,180,172,184,164,180,184,164,192)
# berekening gemiddelde lengte zonen 
gemzo <- mean(y)   
cat(paste("gemiddelde lengte zonen = ", as.character(gemzo) , "cm"))
```

Uit die 29 gezinnen ga je lukraak één gezin trekken. Hoe groot zal de zoon in dit gezin zijn? Als je geen verdere informatie krijgt dan het resultaat dat je zopas gevonden hebt, wat antwoord je dan? Waarom?

4 Verklarende veranderlijke en respons

Bij lineaire regressie start je met bivariate data ( x , y ) waarbij je de samenhang bestudeert. Maar niet zomaar “samenhang”. Je bepaalt vooraf welke veranderlijke je als “basis” neemt en dan kijk je hoe de andere veranderlijke daarmee samenhangt.

Galton keek naar zeer grote vaders en concludeerde dat hun zonen ook zeer groot waren, maar toch niet zo groot als de vaders. Bij de zeer kleine vaders vond hij dat die ook kleine zonen hadden, maar toch niet zo klein.
Je kan, zoals Galton, bij verschillende groepen vaders naar hun bijhorende zonen kijken. De volgorde is hier van belang. Je start met vaders en van daaruit kijk je naar de bijhorende zonen, en niet omgekeerd.

Bij deze manier van werken hoort een specifieke benaming en je maakt hier ook afspraken qua notatie en grafieken.

Als je vanuit de lengte van vaders iets wil zeggen over de lengte van hun zonen, dan start je met de vaders.

Als je zo start dan is “lengte van de vader” de verklarende veranderlijke. In een klassieke regressiestudie krijgt de verklarende veranderlijke de naam “x” en in een grafiek wordt die uitgezet op de x-as.

Daarna kijk je naar wat er gebeurt bij de andere veranderlijke ( de y-veranderlijke) wanneer je de verklarende veranderlijke een bepaalde waarde geeft. Je kan je afvragen wat de lengte van zonen is bij vaders die 177 cm zijn. In deze context is “lengte van zonen” de respons. In een grafiek zet je de respons uit op de y-as.

De 2 veranderlijken ( verklarende veranderlijke en respons) spelen geen symmetrische rol. Je wil iets zeggen over de lengte van zonen op basis van de lengte van vaders en niet omgekeerd.

Om duidelijk het verschil te zien tussen de verklarende veranderlijke en de respons gebruik je in regressie een speciale terminologie. Die ziet eruit als
“regressie van de respons over de verklarende veranderlijke”, zoals:

regressie van de lengte van zonen over de lengte van vaders
regressie van het gewicht van baby’s over de lengte van baby’s
regressie van y over x.

5 Verticale strips

Als je iets wil zeggen over de lengte van zonen op basis van de lengte van vaders, dan kan je starten met vaders waarvan je zelf een lengte kiest, bijvoorbeeld vaders die 177 cm groot zijn. Bij die vaders horen zonen. Zelfs al zou je de lengte van de bijhorende zonen zonder meetfouten kunnen opmeten, dan nog zal je verschillende lengtes vinden. Vaders die 177 cm groot zijn hebben zonen die niet allemaal even groot zijn, dat is nu eenmaal zo.

Om te zien over welke zonen het gaat, kijk je in een verticale strip. Dat doe je omdat de lengte van de vader (de verklarende veranderlijke) op de x-as is uitgezet. In een verticale strip staan dus vaders die allemaal even groot zijn.

De y-coördinaten van punten in die strip geven de lengte van zonen.
In deze studie zijn er 4 zonen. Hun “typische lengte” bepaal je met het criterium der kleinste kwadraten.

5.1 Het KK-punt

Nota.
Bij “afstanden” werk je wiskundig met absolute waarden, maar voor veel berekeningen is het handiger om kwadraten te gebruiken. Dat doen wij hieronder ook.

De vraag naar “een beste punt” gaat over y-coördinaten in de verticale strip.

Je moet nu op zoek gaan naar een punt (x , y) = (177 , c) zodanig dat de som der kwadratische (verticale) afstanden vanaf c tot de lengtes van die 4 zonen minimaal is.

Je kan dit schrijven als:
zoek c zodat: \({{(168-c)}^{2}}+{{(176-c)}^{2}}+{{(184-c)}^{2}}+{{(192-c)}^{2}}\) zo klein mogelijk is.

Het minimum bereik je voor c = 180. Het “kleinste kwadraten punt” is niets anders dan het gemiddelde want (168+176+184+192)/4 = 180. Dat punt is op de figuur aangeduid met een blauwe ruit.

5.2 Niet omdraaien

De kennis over de “typische lengte” van zonen bij vaders van 177 cm laat je niet toe om de relatie om te draaien en, op basis van wat je nu weet, een uitspraak te doen over de lengte van vaders die bij zonen van 180 cm horen. Dat zie je in de onderstaande figuur waar de groene nummers de identificatie van het gezin aangeven.

Bij vaders van 177 cm gaat het over de gezinnen 20, 3, 11 en 29. Dat zijn de enige gezinnen die je gebruikt hebt om te besluiten dat de zonen hier typisch 180 cm groot zijn. Als je nu omgekeerd kijkt naar zonen van 180 cm, dan moet je kijken in een horizontale strip, want de lengte van de zonen staat op de y‑as. En dan kom je bij andere gezinnen terecht (de gezinnen 26, 12, 16 en 22). De vaders uit die gezinnen hebben een gemiddelde lengte van 171 cm. Dat heeft niets meer te maken met de blauwe ruit op de figuur, dat is echt een andere studie.

Je kan natuurlijk opmerken dat je niet mag kijken naar zonen die 180 cm zijn, want 180 cm was de “gemiddelde” lengte. Maar naar welke zonen moet je dan wel kijken als je “omgedraaid” zou willen te werk gaan? Naar de groep van zonen waarvan de gemiddelde lengte 180 cm is? Werk je dan met gezin 8 en 24 (hun zonen hebben een gemiddelde lengte van 180 cm ), of met de gezinnen 5, 13 en 22 (hun zonen zijn gemiddeld ook 180 cm), of … . Dat gaat dus niet.

5.3 Lijn der gemiddelden

5.3.1 Gemiddelde per strip

De “typische” lengte van de zonen (= het gemiddelde = het kleinste kwadraten punt) bereken je met R. Je kan daarvoor de onderstaande code chunk gebruiken. Daarin komen begrippen van R voor die je, als je wil, eerst even kan bekijken.

Enkele R-begrippen

De structuur van een dataset.

De structuur waarmee je hier werkt is een zeer gangbare structuur zoals beschreven in de tekst “Soorten data en de structuur van een dataset” (zie de sectie: “Methoden en technieken bij een statistisch onderzoek” bij het Lesmateriaal statistiek).
De data vormen een rechthoekig schema met rijen en kolommen. De kolommen zijn de “eigenschappen” of “karakteristieken” die je opmeet (zoals de lengte van een vader, de lengte van een zoon) en zij hebben de naam “veranderlijke”. Op de rijen (de “elementen” of “records”) staan de “objecten” bij wie je die eigenschappen opmeet (zoals de gezinnen). De huidige studie werkt dus met een dataset van 29 rijen en 2 kolommen. Zo’n dataset heeft in R de naam “data frame”.

In de code chunk zie je de vectoren x en y. Dat zijn de veranderlijken met x = de lengte van de vader en y = de lengte van de bijhorende zoon:

De vectoren breng je samen tot een nieuwe structuur: een data frame. Je gebruikt daarvoor de functie data.frame( ) en je kan het resultaat een naam geven (zoals df):
df <- data.frame(x , y).

Bewerkingen op een data frame.

Met vierkante haken df [ rij , kolom ] kan je, zoals bij een matrix, rijen en kolommen aangeven: df [ 3 , 2 ] betekent het element op de derde rij en in de tweede kolom.
Je kan ook met logische uitdrukkingen werken en bij vergelijken betekent == “is gelijk aan”. Het resultaat is TRUE of FALSE.

df [ x == 177 , “y” ] werkt als volgt op de data frame df:

neem rijen waarin x gelijk is aan 177 (blauwe rijen hiernaast)
neem in elke blauwe rij de waarde uit kolom “y”.

Als resultaat krijg je 176, 184, 168 en 192: de lengte van alle zonen die bij een vader van 177 cm horen.

df [ x == 168 , “y” ] werkt analoog (oranje rijen rechts) met resultaat: 188, 180, 172 en 164. Nu heb je de lengte van alle zonen die bij een vader van 168 cm horen.

Met mean(df[x==168, “y”]) krijg je de gemiddelde lengte van die zonen. Dat gemiddelde kan je bv gemzo noemen: gemzo <- mean(df[x==168, “y”]) .

Gemiddelde per strip berekenen

Je kan, bij elke waarde van de lengte van een vader (bij elke vaste x-waarde), denken aan een bijhorende verticale strip waarin de lengte van de zonen terechtkomen en dan het gemiddelde van die lengtes berekenen. Op die manier stap je over van de oorspronkelijke dataset op een nieuwe bivariate dataset. Die nieuwe dataset bevat alleen nog de verschillende lengtes van vaders samen met de “typische” lengte van hun bijhorende zonen.
De verschillende lengtes van de vaders kan je afleiden uit fig 6.

6 Oefening (opl 6)

Bereken, bij elke lengte van de vaders (159, 162, 165, 168, 171, 174, 177, 180 en 183) de “typische” lengte van de bijhorende zonen.
Met kopiëren en plakken (zie ) breng je onderstaande code chunk over naar “mijnwerkblad.qmd”. Vul daar telkens een lengte van de vader in, druk dan op de groene pijl en dan krijg je de gemiddelde lengte van de bijhorende zonen. Om dat resultaat vast te leggen voor verder gebruik, open je (op je laptop) het Excel bestand lgtva_gemzo.xlsx waarin je, in kolom B, de lengte van de zonen invult.

```{r}
# x = lengte vader en y = lengte zoon
 x <- c(168,162,177,174,180,159,174,165,171,165,177,168,180,183,174,174,159,183,171,177,165,180,168,165,162,162,171,168,177)
 y <- c(188,172,176,164,188,168,188,176,168,160,184,180,172,184,172,180,160,192,176,168,168,180,172,184,164,180,184,164,192)
 df <- data.frame(x , y)
  
# vul hieronder bij lgtva de gewenste lengte van de vader in. Als je klaar bent klik je op de groene pijl

  lgtva <- 159

# hieronder staan verdere commando's die je niet moet wijzigen 
 if(lgtva %in% x){
   gemzo <- mean(df[x==lgtva, "y"])
   cat(paste("bij vaders die", as.character(lgtva), "cm groot zijn is de gemiddelde lengte van de zonen", as.character(gemzo) , "cm " ))
 } else {
   cat(paste(as.character(lgtva),"is geen vaderlengte die in deze dataset voorkomt \npas de waarde van lgtva aan" ))
 }
```

Kopieer het ingevulde Excel bestand lgtva_gemzo.xlsx naar mijndata.xlsx en:
- maak een bivariate tabel voor “de gemiddelden per strip” (ga op je laptop naar bivtbl.qmd en dubbelklik)
- teken een spreidingsdiagram voor “de gemiddelden per strip” (gebruik reg.qmd met code respons <- 2 en regr <- 1.
Uit die 29 gezinnen wordt lukraak één gezin getrokken. Hoe groot is de zoon in dit gezin als men je zegt dat zijn vader 162 cm is. Wat is je antwoord? Geef je nu hetzelfde antwoord als in het tweede punt van oef 5 ? Waarom?

5.3.2 Een trend

Het spreidingsdiagram dat je zopas hebt opgesteld zie je hieronder links. De punten zijn getekend als blauwe ruiten. Het zijn bivariate punten van de vorm
(x , y) = (lengte van de vader , gemiddelde lengte van alle bijhorende zonen).
In de rechterfiguur zijn die punten verbonden met blauwe lijnstukken. De gebroken lijn geeft (ruwweg) een trend van de gemiddelde lengte van zonen bij wijzigende vaderlengten. Deze studie is gebaseerd op een kleine steekproef (n = 29) en de gebroken lijn maakt soms nogal sprongen.

In fig 5 zie je de puntenwolk van Galton. Die toont de data van een steekproef van grootte n = 1078. Ook met deze data kan je de gemiddelde lengte van zonen per verticale strip berekenen en dan krijg je fig 8 (a). Als je die gemiddelden met elkaar verbindt, krijg je fig 8 (b). Ook hier zie je een trend hoe de gemiddelde lengte van zonen evolueert en ook hier is er nog wat schommeling in de lijn der gemiddelden, vooral nabij de uiteinden (waar er minder datapunten per strip zijn).

Bij de bovenstaande figuren heb je eerst smalle verticale strips gemaakt. Dan heb je een beste benadering gezocht voor de lengte van de zonen binnen die strip (het kleinste kwadraten punt binnen die strip = de gemiddelde lengte binnen die strip). Daarna heb je die gemiddelde lengte der zonen verbonden, wat je een trend van de gemiddelde lengte der zonen laat zien in een “meer of minder schommelende lijn”.

Je kan ook anders te werk gaan en, als model, een rechte voorstellen om de trend van de gemiddelde lengte der zonen weer te geven. Je werkt dan niet meer per strip maar je gebruikt dan alle data tegelijkertijd in een globale”kleinste kwadraten procedure”. Hoe je dat doet zie je hieronder bij het opstellen van de regressierechte.

6 Regressierechte

6.1 Regressiemodel

Bij de studie van het verband tussen de lengte van vaders en zonen heb je verschillende belangrijke punten ontmoet om te komen tot regressie van y over x .

Je start met bivariate data (x , y) waarvan de grafiek eruitziet als een ellipsvormig spreidingsdiagram (en niet bv als een paraboolvormige puntenwolk). Hieruit leid je af dat een lineair verband zinvol is.
Je maakt een keuze tussen de twee veranderlijken en die keuze is niet symmetrisch:
- één veranderlijke neem je als “de verklarende veranderlijke”. Die veranderlijke noem je x en je behandelt haar waarden alsof ze niet aan het toeval onderhevig zijn. Je zegt zelf bij welke x-waarde je werkt.
- de andere veranderlijke (de y-veranderlijke) is “de respons”. De waarde van de respons behandel je als de realisatie van een onderliggend kansmodel. Bij een vast gekozen x-waarde observeer je één of meerdere van de vele mogelijke bijhorende y-waarden.
Je zoekt een verband tussen de waarde van de verklarende veranderlijke en de gemiddelde waarde van de bijhorende respons.
Voor dat verband werk je met een model dat eruitziet als een rechte.
Als criterium voor “rechte die best aansluit bij de gemiddelde waarden van de respons” gebruik je een kleinste kwadraten criterium voor verticale afstanden.

6.2 De KK-rechte

Om de regressierechte te vinden pas je het criterium der kleinste kwadraten toe voor verticale afstanden. Op fig 9 zie je hoe het werkt. Als voorbeeld kijk je naar gzn_8 (gezin 8) met waarden: (lengte vader , lengte zoon) = (x , y) = (165 , 176).

fig 9 (a) toont hoe het algemene principe werkt voor elke willekeurige rechte in het vlak (zoals de zwarte rechte). Bij elk datapunt (165 , 176) horen bij de x‑coördinaat twee y‑coördinaten: de y‑coördinaat van het datapunt zelf (y=176) en de y‑coördinaat op de zwarte rechte (bij x=165 is dat y=a‧(165)+b). Je berekent het verschil tussen die 2 y‑coördinaten en kwadrateert het resultaat. Dat doe je nu voor alle 29 datapunten en dan maak je de som. Zo heb je de som van de kwadratische verticale afstanden van de datapunten tot de zwarte rechte.

Let erop dat bij deze steekproef de opmetingen van de 29 gezinnen vastliggen. Aan de x- en y‑waarden kan je niets veranderen maar je kan wel een andere rechte kiezen. Met die andere rechte werk je op eenzelfde manier en je vindt een nieuwe som van kwadratische verticale afstanden. Uiteindelijk ga je op zoek naar de rechte waarbij de som van de kwadratische verticale afstanden zo klein mogelijk is. Dat brengt je bij de (blauwe) kleinste kwadraten rechte in fig 9 (b).

6.3 Benaming en notatie

De blauwe rechte in fig 9 (b) is de regressierechte, opgesteld volgens het criterium der kleinste kwadraten. Als vergelijking staat daar \(\hat{y}=0.69x+57.67\) .
De notatie \(\hat{y}\) lees je als y‑hoed.

De vergelijking \(\hat{y}=0.69x+57.67\) gebruik je om bij een gegeven \(x\)-waarde (de lengte van een vader) de bijhorende \(\hat{y}\)-waarde (de gemiddelde lengte van de zonen) te berekenen (en niet omgekeerd). De speciale notatie y‑hoed (\(\hat{y}\)) herinnert je eraan dat je bij regressie uitspraken doet over “gemiddelden”.

Bij x = 165 volgt uit \(\hat{y}=0.69x+57.67\) dat \(\hat{y}=171.5\) wat je in woorden kan zeggen als:

vaders van 165 cm hebben zonen die gemiddeld 171.5 cm groot zijn
bij vaders van 165 cm verwacht je zonen van 171.5 cm
bij vaders van 165 cm horen zonen van 171.5 cm.

De eerste uitspraak geeft expliciet aan dat je met regressie te maken hebt waar je, bij lengtes van vaders, niet de lengte van zonen maar hun gemiddelde lengte bestudeert .
Bij de tweede uitspraak verwijst het woord “verwacht” naar een “typische lengte” of een “gemiddelde” en niet naar een lengte van exact 171.5 cm.
De derde uitspraak is de kortste, maar ook de meest gevaarlijke. Het is goed dat je hierbij ook de context van een regressiestudie aangeeft, zodat men weet dat het hier niet over een samenhang tussen exacte lengtes gaat.

Regressierechten heb je bij het begin van deze tekst ontmoet (bij Luna en Lewis). Toen is, bij de gaswet van Gay-Lussac, de notatie \(\hat{ y}\) geïnterpreteerd als “volume” of als “temperatuur” en niet als “gemiddeld volume” of “gemiddelde temperatuur”. Dat was niet correct.

De vergelijking van de regressierechte \(\hat{y} = a x + b\) gebruik je om
bij een gegeven waarde van de verklarende veranderlijke (gegeven x - waarde)
de gemiddelde waarde van de bijhorende respons te berekenen (\(\hat{y}\)).

Nu je het verschil kent tussen y (de lengte van een zoon) en \(\hat{ y}\) (de gemiddelde lengte van zonen) zie je dat er bij de grafiek fig 9 (b) een probleem is.

Horizontaal (op de x-as) schrijf je “lengte vader” en dat is een juiste benaming, zowel voor de x-coördinaat van een datapunt als voor de x-coördinaat van een punt op de regressierechte. Maar welke betekenis geef je aan de verticale as?
De tweede coördinaat (de y‑coördinaat) van een datapunt is “lengte zoon” en dat is ook wat er op de grafiek staat. De tweede coördinaat (de \(\hat{y}\) -coördinaat) van een punt op de regressierechte is de gemiddelde lengte van zonen. Die tekst staat niet bij de verticale as (in feite werk je dus met een dubbele verticale as op eenzelfde grafiek).

6.4 Vergelijking

Om de regressierechte te tekenen kan je starten zoals bij de typische rechte. Daar bestudeer je een lineair verband tussen de x-waarden en de y-waarden bij data in een ellipsvormige puntenwolk. Dat verband kan je grafisch weergeven met een typische rechte waarrond de datapunten verstrooid liggen. Of die data veel of weinig verstrooid zijn, dat verandert niets aan de typische rechte zolang de gemiddelden ( \(\bar{x}\) en \(\bar{y}\) ) en de standaardafwijkingen ( s_x en s_y ) niet wijzigen. Dat zie je op fig 10 (a) waar de rode rechte door het zwaartepunt ( \(\bar{x}\) , \(\bar{y}\) ) loopt en een rico = s_y /s_x heeft. De correlatiecoëfficiënt r komt in de definitie van de typische rechte niet voor.

De constructie van de regressierechte start op een analoge manier (fig 10 (b)). Ook deze rechte gaat door het zwaartepunt ( \(\bar{x}\) , \(\bar{y}\) ) van de puntenwolk. En ook hier kan je de standaardafwijking gebruiken als eenheid van afstand.
Start in het zwaartepunt (161 , 164) en ga 1 stap (= 7 cm want s_x= 7) horizontaal naar rechts. Bij de typische rechte ga je daarna 1 stap s_y verticaal naar boven maar dat doe je nu niet. Bij de regressierechte ga je slechts over een afstand r ‧ s_y naar boven.
Hier is r‧s_y= (0.61) ‧ (9) = 5.49 zodat je uiteindelijk (afgerond) terechtkomt in (168 , 169.5). Dat is de groene ruit op de figuur.

De regressierechte beschrijft een lineair verband tussen de lengte van de moeder (de verklarende veranderlijke) en de gemiddelde lengte van bijhorende dochters (de respons). Voor deze dataset is die rechte gelijk aan \(\hat{y}=0.78x+38.2\) (zie fig 11).

Algemeen is de regressierechte een rechte die gaat door het zwaartepunt ( \(\bar{x}\) , \(\bar{y}\) ) en die \(r\dfrac{{{s}_{y}}}{{{s}_{x}}}\) als richtingscoëfficiënt heeft.

De kengetallen \(\bar{x}\) , \(\bar{y}\) , s_x , s_y en \(r\) kan je allemaal berekenen zodra je de bivariate dataset hebt opgemeten. Dan kan je ook de regressierechte bepalen voor een regressie van y over x. De vergelijking zie je hieronder.

Vergelijking van de regressierechte:

\(\left( \hat{y}-\bar{y} \right)=r\dfrac{{{s}_{y}}}{{{s}_{x}}}\left( x-\bar{x} \right)\) wat je ook kan schrijven als \(\hat{y}\ =\ r\dfrac{{{s}_{y}}}{{{s}_{x}}}x\ +\ \left( \bar{y}-r\dfrac{{{s}_{y}}}{{{s}_{x}}}\bar{x} \right)\)

De lengte van moeders en dochters staat in het Excel bestand modo.xlsx. Volgens de gemaakte afspraak (zie de tekst op je laptop: “bivariate data van Excel naar R.html”), schrijf je bivariate data in de eerste twee kolommen , waarbij de eerste kolom de naam x heeft en de tweede de naam y. Bij modo.xlsx is (x , y) = (lengte moeder , lengte dochter).

Bij regressie is de afspraak dat je “de verklarende veranderlijke” de naam x geeft en “de respons” de naam y. Als je dus “de lengte van de dochter” als respons neemt, dan komt dat overeen met de naam (y) in het Excel bestand. Als je echter “de lengte van de moeder” als respons wil nemen, dan is er een probleem, want in Excel heet die veranderlijke x en bij de regressiestudie noem je de respons y. Om aan de data in Excel niets te moeten wijzigen, is er in het programma reg.qmd de mogelijkheid voorzien om te zeggen welke veranderlijke je als respons neemt. Vanaf dan krijgt die veranderlijke in de regressiestudie de naam y. In Excel verandert er niets.

7 Oefening (opl 7)

Bij 29 gezinnen is de lengte van moeder en dochter opgemeten met
(x , y) = (lengte moeder , lengte dochter). De data staan op je laptop in modo.xlsx.

Voer, voor deze dataset, een regressiestudie uit van “lengte dochter” over “lengte moeder”. Vind je dezelfde regressierechte die je zopas in fig 11 hebt ontmoet?
Voor deze oefening gebruik je reg.qmd met code respons <- 2 en regr <- 2.
Hoe zeg je in deze studie \(\hat{y}\) in woorden?

7 Uitkomsten voorspellen

In fig 6 en fig 11 heb je met puntenwolken gewerkt waarbij er per vaste x‑waarde meerdere y‑waarden corresponderen (met meerdere punten in een verticale strip). Zo’n voorbeelden helpen je om goed te begrijpen hoe regressie echt werkt. Je ziet dan dat het gaat om een verband tussen vaste x‑waarden en gemiddelde y‑waarden.
Nu je dat weet, kan je ook werken met puntenwolken waarbij er bij x‑waarden slechts 1 y‑waarde is opgemeten. Alle begrippen die je over regressie hebt geleerd, blijven onveranderd geldig.

7.1 Mais en meststof

In een landbouwschool heeft men, bij het zaaien van maïs op “evenwaardige” percelen, een verschillende hoeveelheid meststof gestrooid . Bij de oogst is, per perceel, zowel de hoeveelheid meststof als de opbrengst genoteerd. De resultaten zie je in fig 12. Zij staan ook op je laptop in het Excel bestand mais.xlsx.

Het is de bedoeling om na te gaan hoe de opbrengst wijzigt naarmate men meer of minder meststof gebruikt.

8 Oefening (opl 8)

Als je de bedoeling en de data van de studie in die landbouwschool bekijkt, is dan een lineaire regressie zinvol in deze context? Waarom?
Wat kies je hier als verklarende veranderlijke en wat als respons? Waarom?
Bepaal de regressierechte en teken een grafiek. Gebruik reg.qmd.
Hoe zeg je in deze studie \(\hat{y}\) in woorden?

7.2 Opbrengst

De regressierechte laat toe om te voorspellen welke gemiddelde respons \(\hat{y}\) je verwacht bij een waarde \(x\) van de verklarende veranderlijke. Daarbij ben je niet verplicht om een \(x\) te kiezen uit de waarden die er bij het opstellen van het experiment gebruikt zijn. Je kan ook voorspellen wat je verwacht bij een andere x-waarde.

9 Oefening (opl 9)

De regressierechte \(\hat{y}\ =\ 1.71\ x\ +\ 77\) geeft het verband tussen de hoeveelheid toegediende meststof ( \(x\) ) en de gemiddelde maïsopbrengst ( \(\hat{y}\) ). In het experiment is er op geen enkel perceel een hoeveelheid meststof van 4.75 kg/are gestrooid, maar toch wil je voorspellen wat je dan als maisopbrengst kan verwachten.
Hoeveel is dat?

Vooraleer je op deze (schijnbaar eenvoudige) vraag een antwoord geeft, is het nuttig dat je even nadenkt over de context van “data analyse waarbij je software (zoals R) gebruikt”.

Een aandachtspunt hierbij is “afrondingen onderweg”. Zo’n afrondingen hebben (soms kleine maar ook soms grote) invloed op het eindresultaat.

Als je de (afgeronde) regressierechte gebruikt om dan verder een waarde te berekenen bij x = 4.75, dan heb je \(\hat{y}\ =\ (1.71)\cdot \ (4.75)\ +\ 77\) = 85.12.
Als je weet dat, onderweg tijdens de berekening in R, gewerkt wordt met de richtingscoëfficiënt 1.71428571428… en je gebruikt die waarde om \(\hat{y}\) te vinden bij x = 4.75, dan heb je \(\hat{y}\ =\ (1.71428571428...)\cdot \ (4.75)\ +\ 77\) = 85.142…. wat afgerond 85.14 oplevert.

In dit voorbeeld is het verschil niet zo groot, maar in andere studies kan het resultaat totaal zinloos worden. Klik maar eens op (zie 13).

Je kan reg.qmd gebruiken om, zonder “afrondingen onderweg”, rechtstreeks de waarde \(\hat{y}\) bij een gegeven x te berekenen. Dat doe je (voor deze oefening) als volgt.

Na je keuze van de respons (in dit geval: respons <- 2) vul je de code 2000 in voor de te tekenen regressiefiguur (dus: regr <- 2000). Dan moet je ook nog de gewenste x‑waarde (in dit geval x = 4.75) opgeven. Dat doe je helemaal onderaan waar je in reg(respons,regr, 0 ) de 0 (nul) vervangt door 4.75 zodat er staat reg(respons,regr, 4.75 ). Pas daarna druk je op de render-knop.

7.3 Extrapolatie

Zodra je een regressierechte hebt opgesteld, kan je bij elke \(x\) die je kiest, berekenen wat de bijhorende \(\hat{y}\) is. Wiskundig is dat niet moeilijk, maar of je dan een zinvol antwoord hebt is een andere vraag. In statistisch onderzoek blijft de context cruciaal.

Bij het experiment met de mais gebruikte men bij de toegediende meststof hoeveelheden van 3 tot 6 kg/are. Voor resultaten “binnen dat gebied” heb je een spreidingsdiagram getekend en besloten dat een rechte, als model voor de samenhang tussen meststof en opbrengst, zinvol is. Je kan dan ook, voor hoeveelheden meststof tussen 3 en 6 kg/are, uitspraken doen over een “verwachte opbrengst” . Maar wat gebeurt er als je x-waarden buiten het studiegebied neemt? Hoe weet je of de samenhang daar nog als een rechte kan voorgesteld worden?

Bij extrapolatie (waar je uitspraken doet “buiten” het domein waar de data zijn opgemeten) heb je geen informatie meer over het model waarmee je aan het werken bent. Bij beperkte extrapolatie (zoals bij hoeveelheden meststof tussen 2 en 7 kg/are) kunnen uitspraken nog zinvol blijven, maar “ver” extrapoleren is te mijden.

10 Oefening (opl 10)

De regressierechte \(\hat{y}\ =\ 1.71\ x\ +\ 77\) geeft het verband tussen de hoeveelheid toegediende meststof ( \(x\) ) en de gemiddelde maïsopbrengst ( \(\hat{y}\) ). Je wil heel veel maisopbrengst en besluit om 100 kg/are meststof te gebruiken. Wat verwacht je?

Welk antwoord geven de “berekeningen”? (ga te werk zoals in oef 9)
Welk antwoord geeft je gezond verstand?

8 Regressie en correlatie

In deze tekst over regressie (en in een andere tekst over correlatie) werken we met bivariate data waarvan de grafiek eruitziet als een ellipsvormig spreidingsdiagram zodat de studie van een lineaire samenhang zinvol is. Bovendien behandelen we nu, in dit deeltje, een samenhang die positief is (stijgende rechte en positieve correlatiecoëfficiënt). Een bespreking van negatieve samenhang (dalende rechte en negatieve correlatiecoëfficiënt) is volledig analoog.
Zowel bij een correlatiestudie als bij lineaire regressie speelt de correlatiecoëfficiënt een rol, maar op een verschillende manier.

8.1 Verschillende rechten

Bij een correlatiestudie kijk je naar de lineaire samenhang tussen waarden van x en waarden van y. Daarbij wordt er geen speciale rol toebedeeld aan x of aan y. Je kijkt gewoon hoeveel of hoe weinig de data schommelen rond een “typische rechte”. De vergelijking van die rechte (bij een positieve lineaire samenhang) is:

\(\left( y-\bar{y} \right)\,\,=\,\,\dfrac{{{s}_{y}}}{{{s}_{x}}}\left( x-\bar{x} \right)\) : een rechte door het zwaartepunt \(\left( \bar{x}\,,\,\bar{y} \right)\) en met rico = \(\dfrac{{{s}_{y}}}{{{s}_{x}}}\) .

Bemerk dat je de typische rechte volledig kent zodra je de afzonderlijke x-waarden (en dus ook \(\bar{x}\) en \({{s}_{x}}\)) en de afzonderlijke y-waarden (en dus ook \(\bar{y}\) en \({{s}_{y}}\)) kent. Dan ken je het zwaartepunt en de rico en dus ook de rechte. De correlatiecoëfficiënt \(r\) komt in de vergelijking niet voor. Bij vaste x‑ en y‑waarden zijn er nog heel veel mogelijkheden om x met y te combineren en krijg je een meer of minder gespreide puntenwolk rond de typische rechte. Die “meer of mindere” sterkte van samenhang zie je in een grotere of kleinere waarde van de correlatiecoëfficiënt maar de typische rechte blijft vast.

Bij een regressiestudie kijk je naar de lineaire samenhang tussen waarden van x en gemiddelde waarden van y. Daarbij spelen x (de verklarende veranderlijke) en y (de respons) geen gelijkwaardige rol. Het is de bedoeling om op basis van gekozen x‑waarden bijhorende gemiddelde y‑waarden te voorspellen. Vanuit die bedoeling stel je een rechte op: de “regressierechte”. De vergelijking van die rechte is:

\(\left(\hat{y}-\bar{y} \right)\,\,=\,r\,\dfrac{{{s}_{y}}}{{{s}_{x}}}\left( x-\bar{x} \right)\) : een rechte door het zwaartepunt \(\left( \bar{x}\,,\,\bar{y} \right)\) en met rico = \(\,r\dfrac{{{s}_{y}}}{{{s}_{x}}}\) .

Bemerk dat (behalve de dubbele benaming voor de y‑as) de vergelijking van de regressierechte goed lijkt op die van de typische rechte behalve de rico. Bij de regressierechte moet je de rico van de typische rechte (\(\dfrac{{{s}_{y}}}{{{s}_{x}}}\)) vermenigvuldigen met de correlatiecoëfficiënt \(r\) (we onderstellen dat de correlatiecoëfficiënt niet negatief is want we werken hier met “positieve” samenhang).

Bij perfecte lineaire samenhang waarbij alle datapunten op een rechte liggen is \(r = 1\) en valt de regressierechte samen met de typische rechte. Uit de kennis van de verklarende veranderlijke volgt dan een perfecte kennis van de respons. In het andere extreem, wanneer \(r = 0\), loopt de regressierechte horizontaal (want dan is \(\hat{y}=\bar{y}\)). De verklarende veranderlijke kan je dan niet helpen bij het voorspellen van de gemiddelde respons.

8.2 Spreiding en rico

8.2.1 Sterkte verband

De 4 voorbeelden in fig 13 heb je al ontmoet bij de tekst over correlatie. Het zijn datasets waar de x-waarden 4 keer identiek zijn en ook de y-waarden zijn 4 keer identiek. Dat betekent dat \(\bar{x}\) , \(\bar{y}\) , \({{s}_{x}}\) en \({{s}_{y}}\) 4 keer dezelfde waarde hebben. Je hebt dan ook 4 keer een identieke typische rechte die hier gelijk is aan \(y = x\) (de rode stippellijn).

De manier waarop de componenten van de univariate x- en y- veranderlijke met elkaar verbonden zijn tot een bivariate dataset (x , y) is nogal verschillend. Vanaf emma over julie en noor tot anna zie je puntenwolken die meer en meer schommelen rond de typische rechte. De sterkte van de positieve lineaire samenhang, zoals uitgedrukt in de correlatiecoëfficiënt , varieert van \(r = 0.9\) over \(r = 0.6\) naar \(r = 0.4\) en tenslotte \(r = 0.1\) . De helling van de regressierechte wordt kleiner en kleiner.

8.2.2 Lengte, gewicht en score.

Bij een steekproef van 17-jarige meisjes werd de lengte opgemeten. De gemiddelde lengte (in cm) was 166.

Vraag: als jij morgen lukraak een meisje uit deze populatie ontmoet, hoe groot zal zij dan zijn?
Antwoord: zonder verdere informatie is je beste antwoord dat het meisje 166 cm zal zijn. Dat is de gemiddelde lengte van alle meisjes van 17. Je hebt op dit ogenblik geen enkele objectieve reden om iets anders te antwoorden.

Bijkomende informatie kan soms helpen om een meer precies antwoord te geven. Je weet dat er een positieve samenhang is tussen gewicht en lengte. Die samenhang is niet heel sterk, maar toch niet te verwaarlozen. Meisjes die wat meer wegen zijn globaal ook wat groter. Van die kennis kan je gebruik maken want bij de steekproef werd niet alleen de lengte opgemeten (in cm), maar ook het gewicht (in kg). De resultaten zie je hieronder.

Lengte en gewicht staan in de bivariate tabel.
De puntenwolk bevestigt een zinvolle positieve lineaire samenhang.
De correlatiecoëfficiënt is r = 0.59.
De regressierechte is:
ŷ = 0.47 x + 137.93.
Bij x = 55 is ŷ = 163.92

Uit de regressiestudie leid je af dat meisjes die 55 kg wegen gemiddeld (afgerond) 164 cm groot zijn.

Vraag: als men lukraak een meisje van 17 selecteert en men zegt dat zij 55 kg weegt, hoe groot is zij dan?
Antwoord: De samenhang tussen gewicht en lengte helpt je om de lengte nauwkeuriger te schatten. Je moet nu niet meer terugvallen op het algemene gemiddelde van 166 cm. Bij een gewicht van 55 kg “verwacht” je een lengte van 164 cm (want dat is de gemiddelde lengte van meisjes die 55 kg wegen).

11 Oefening (opl 11)

Er is ook nog andere bijkomende informatie.

Bij die meisjes van 17 is, naast hun lengte en gewicht, ook hun score op Nederlands genoteerd (op een maximum van 20). De resultaten zie je in de bivariate tabel hiernaast.

Denk je dat punten op Nederlands helpen om de lengte te voorspellen? Wat gebeurt er als je hier een regressiestudie uitvoert? Hoe groot schat je een meisje dat 5/20 haalt op Nederlands? En wat verwacht je van een meisje met een score van 15/20? Wat is je besluit?

De data die je voor deze studie nodig hebt staan op je laptop in het Excel bestand meis17LGT_NL.xlsx.
Dat bestand, samen met reg.qmd, gebruik je nu om deze oefening op te lossen. (ga te werk - aangepast aan deze opgave - zoals in oef 9)

9 Valkuilen

Perfecte wiskundige berekeningen en gesofistikeerde apps
behoeden je niet voor flaters bij het uitvoeren van een onderzoek.

9.1 Niet-lineair verband

Heel wat verbanden in economie, biologie, psychologie,… zijn zinvol te modelleren met behulp van wiskundige functies. Maar die functies hoeven niet lineair te zijn. Hun grafiek kan er bv uitzien als een parabool.

Als je bij een bivariate dataset (x , y) alleen maar de wiskundige berekeningen maakt voor een lineaire regressie, dan zou je bv. volgend resultaat kunnen krijgen:
de correlatiecoëfficiënt is: r = 0.82 en de regressierechte is: ŷ = 0.5 x + 3.
Zo’n berekening kan je uitvoeren bij elke dataset, maar wat weet je nu?

Een mogelijke uitspraak zou er als volgt kunnen uitzien:

er is een lineair verband tussen de veranderlijken x en y en dat verband is positief en het is “matig tot sterk”, want de correlatiecoëfficiënt is r = 0.82.
de regressierechte zegt dat je in deze studie een gemiddelde respons van ŷ = 8 kan verwachten bij een waarde van x = 10, want de regressierechte is ŷ = 0.5 x + 3.

Deze uitspraak zou bij een bepaalde dataset correct kunnen zijn, maar dezelfde uitspraak kan er ook totaal naast zitten. Dat zie je in oef 12 bij een dataset van Anscombe (die dataset heb je ook ontmoet in oefening 10 van de tekst over correlatie).

12 Oefening (opl 12)

Kopieer op je laptop ans2.xlsx naar mijndata.xlsx en gebruik dan reg.qmd met de codes:
respons <- 2 , regr <- 2000 , reg(respons,regr, 10 ) .

Welk resultaat geven de “berekeningen” (correlatiecoëfficiënt en regressierechte)?
Wat zeg je over de “mogelijke uitspraak” die hierboven zopas gedaan werd? Motiveer je antwoord.

9.2 Lineaire nonsens

In statistische studies is de context cruciaal en soms is die context het moeilijkste punt van de hele studie. Dat ontdek je hieronder bij een voorbeeld dat speciaal is opgesteld om het probleem duidelijk te illustreren. Analoge problemen in echte studies zijn dikwijls subtieler en moeilijker om op te sporen.

Je start met een dataset waarvan je in fig 14 zowel de expliciete (x , y) data ziet staan als het bijhorende spreidingsdiagram. Ook de correlatiecoëfficiënt is berekend samen met de vergelijking van de regressierechte.

13 Oefening (opl 13)

Ben je, op basis van de data en de grafiek in fig 14, akkoord met de volgende uitspraken?

Het spreidingsdiagram is ellipsvormig en de punten liggen willekeurig gespreid rond een rechte. Dat wijst op een samenhang tussen x en y die lineair is.
De samenhang is positief want globaal gaan grotere y-waarden samen met grotere x-waarden. De samenhang is ook sterk. Dat zie je op de grafiek en dat wordt bevestigd door de grote positieve correlatiecoëfficiënt (r = 0.98).

Nadat je oef 13 hebt opgelost krijg je onderstaande extra informatie.

De data in fig 14 zijn niets anders dan de omtrek en de oppervlakte van wat rechthoekjes die een leerling zomaar aan het tekenen was (alle data in maatgetallen, dus geen cm voor lengte of cm² voor oppervlakte). De rechthoekjes staan hieronder .

14 Oefening (opl 14)

Teken eens een rechthoek waarvan de omtrek gelijk is aan 12. Wat is de oppervlakte van je rechthoek?
Kopieer het Excel bestand rechthoek.xlsx (op je laptop) naar mijndata.xlsx en activeer dan na elkaar :
- bivtbl.qmd om de data van die rechthoekjes te tonen (vergelijk met fig 14).
- reg.qmd met codes
  respons <- 2 , regr <- 2000 en reg(respons,regr, 12 ).
  Hoeveel is de verwachte oppervlakte ŷ bij een omtrek van x = 12 ?

Wat is je algemeen besluit bij deze “studie” ?

10 Residu’s

10.1 Voorspellingsfout

Een voorspellingsfout geeft aan hoeveel een voorspelling (op basis van je model) afwijkt van de echte opmeting. Hierbij kijk je verticaal (in de richting van de y-as) en houd je rekening met het teken (positief of negatief).
Hoe dat concreet werkt, zie je hieronder in de studie over mais en meststof, waarvoor je in opl 8 het spreidingsdiagram samen met de regressierechte hebt getekend.

Bij elke opgemeten x‑waarde (zoals x = 5) zie je 2 bijhorende y‑waarden:

y = 87 voor het datapunt (5 , 87)

ŷ = 85.57 voor de regressiewaarde
van ŷ = 1.71 ‧ x + 77 bij x = 5
(klik zie 13 ).

Voorspellingsfout:
e = y ‑ ŷ = 87 - 85.57 = 1.43

Het model dat je hier hebt opgesteld (de regressierechte) gebruik je om te voorspellen hoeveel maisopbrengst je kan verwachten. Bij x = 5 is dat ŷ = 85.57. In feite is er bij x = 5 een opbrengst van y = 87 opgemeten (het datapunt). De voorspellingsfout noteer je met e (de e van “error”) en die is gedefinieerd als: e = y - ŷ.
De klassieke naam voor “voorspellingsfout” is “residu”.

residu  e
                    =   y - ŷ
                    =   opgemeten respons  -  voorspelde respons
                    =   geobserveerd  -  verwacht
                    =   meetwaarde  -  modelwaarde

Bij een goed model verwacht je dat de data rond het model gespreid zijn, een beetje te groot, een beetje te klein, en totaal willekeurig. Je verwacht dan residu’s die willekeurig schommelen rond nul, sommige positief en sommige negatief .
Als de residu’s een bepaald patroon vertonen, dan wijst dat erop dat het gekozen model niet goed aansluit bij de opgemeten data.

10.2 Diagram der residu’s

Een studie van residu’s is belangrijk om te onderzoeken of je wel met het juiste model werkt. Er zijn heel wat statistische methoden die je bij residu’s kan gebruiken, maar in deze tekst beperken we ons tot grafische voorstellingen.

fig 15 (a) toont hoe, bij een opgemeten x‑waarde (x = 5), een bijhorende residuwaarde wordt berekend (e = 1.43). Grafisch is dat de rode dubbele pijl.
Met deze informatie kan je een nieuwe grafiek tekenen , waar de verklarende veranderlijke (x) op de horizontale as staat en de bijhorende residuwaarde (e) op de verticale as. Zo krijg je “het diagram der residu’s”. Het rode punt (5 , 1.43)) in fig 15 (b) correspondeert met de rode dubbele pijl in fig 15 (a).

fig 16 (a) toont het spreidingsdiagram samen met de regressierechte voor de volledige studie. In fig 16 (b) staat het bijhorende diagram der residu’s.

Soms is het niet eenvoudig om op een spreidingsdiagram van opgemeten data te ontdekken of een “lineair” verband een zinvolle keuze is. Het kan dan helpen om ook te kijken naar het diagram der residu’s.
In andere gevallen is er een duidelijk niet-lineair patroon zichtbaar in de originele data. Een diagram der residu’s kan je dan gebruiken ter bevestiging van je conclusie. Zo’n situatie heb je ontmoet bij een dataset van Anscombe waarvoor je in opl 12 een spreidingsdiagram met regressierechte hebt getekend. Een diagram der residu’s zie je in fig 17. Het is duidelijk dat de rode punten niet willekeurig op en neer schommelen rond nul.

15 Oefening (opl 15)

In opl 3 heb je een regressierechte getekend voor de gaswet van Gay-Lussac. Er was toen blijkbaar geen probleem om, op basis van een grafische inspectie van de data, het verband tussen temperatuur en volume als “lineair” voor te stellen. Wordt dit ook bevestigd door het diagram der residu’s? Motiveer je antwoord.
Om deze oefening op te lossen gebruik je de data die staan in GL_xtemp.xlsx en werk je met reg.qmd met code respons <- 2 en regr <- 9000.

16 Oefening (opl 16)

Sinds de Olympische spelen van 1928 in Amsterdam is hoogspringen voor vrouwen een Olympische discipline.

In 2008 won Tia Hellebaut de gouden medaille met een sprong van 2.05 m. Zij is de eerste Belgische vrouw die in atletiek een Olympische medaille behaalt.

De resultaten van de gouden medailles staan op je laptop in het Excel bestand tia.xlsx. Tijdens de tweede wereldoorlog werden geen Olympische spelen georganiseerd zodat er geen gegevens zijn voor 1940 en 1944. De spelen van 2020 werden (wegens covid) in feite in 2021 gehouden.

Nota.
Wanneer de verklarende veranderlijke de tijd is en wanneer de respons met de tijd mee verandert, dan heb je te maken met “tijdreeksen”. Als daar een lineaire trend in zit, dan kan je die (exploratief) beschrijven met een regressierechte.

Vragen.

Als je een spreidingsdiagram tekent, dan zie je dat de Olympische records hoogspringen voor vrouwen (de y-veranderlijke) een opwaartse trend vertonen over de jaren heen (de x-veranderlijke). Liggen de data op zo’n manier rond de regressierechte verspreid dat je kan zeggen dat een lineair verband hier zinvol is? Verklaar je antwoord.
Gebruik de data in tia.xlsx en werk met reg.qmd met respons <- 2 en regr <- 2.
Teken het diagram der residu’s. Bevestigt die grafiek het antwoord dat je in punt 1 gegeven hebt? Waarom?
Gebruik reg.qmd met respons <- 2 en regr <- 9000.
“Wees voorzichtig bij extrapolatie”.
Illustreer deze uitspraak met een studie van de eerste 15 Olympische records (dus van 1928 tem 1992). Maak voor deze dataset een afzonderlijk Excel bestand (met een afzonderlijke naam zoals tiabis.xlsx) en teken dan, voor deze nieuwe dataset, het spreidingsdiagram met de regressierechte en teken ook het diagram der residu’s. Is een lineaire samenhang zinvol bij deze nieuwe studie? Zeg ook iets over de correlatiecoëfficiënt.
Als men het model dat je hebt opgesteld voor de periode 1928 - 1992, zou gebruikt hebben in 1993 om het record van 2020 te voorspellen, wat zou men dan gezegd hebben? Verklaar.
Gebruik tiabis.xlsx en reg.qmd met regr <- 2000 en reg(respons,regr, 2020).

11 Herhalingsopgaven

Bij de herhalingsopgaven bepaal je zelf, bij rekenen en tekenen,
welke programma’s en welke codes je gebruikt.

11.1 Tjirpende krekels

Misschien is je eerste ervaring met krekels niet zo positief , toen je in een tentje in het zuiden van Frankrijk niet in slaap kon geraken door hun doordringend getsjirp.

Krekels hebben een wonderbaarlijke eigenschap. De frequentie van hun getsjirp (het aantal tsjirpen per minuut) hangt samen met de temperatuur. Een perfect verband is het niet, maar de Amerikaanse sneeuwboomkrekel (Snowy Tree Cricket = Oecanthus fultoni) is toch behoorlijk goed geijkt. Een regel die je bij die krekel kan gebruiken is als volgt: tel het aantal tsjirpen per minuut, vermenigvuldig dat getal met 0.13 en tel daar dan 3.68 bij op. Het resultaat dat je zo vindt, geeft aan hoe warm het is (in graden Celsius). Straf hé !

Om na te gaan of die regel echt werkt, gebruik je feitenmateriaal. In 2007 heeft een onderzoeker in de Verenigde Staten opmetingen gedaan. De volledige dataset staat op je laptop in het Excel bestand krekels.xlsx. De resultaten van de eerste 10 opmetingen zie je in fig 18

Surf naar http://entomology.ifas.ufl.edu/walker/buzz/585a.htm om het tsjirpen bij verschillende temperaturen te horen.

17 Oefening (opl 17)

Wat is hier de onderzoeksvraag?
Welke keuze maak je voor de respons en voor de verklarende veranderlijke? Waarom?
Zeg in woorden welke regressie je zal uitvoeren: een regressie van …… over ……
Teken het spreidingsdiagram met de regressierechte en teken ook het diagram der residu’s. Gebruik die grafieken om de volgende vragen te beantwoorden.
1. Is het zinvol om het verband tussen de temperatuur en de tsjirpfrequentie door een rechte voor te stellen? Waarom? Wordt je antwoord ook bevestigd door het diagram der residu’s? Verklaar.
2. Als er een lineair verband is, is dat dan stijgend of dalend, sterk of zwak? Waarom? Zeg in uw antwoord ook iets over de correlatiecoëfficiënt.
3. Zeg in woorden hoe je de gevonden regressierechte moet interpreteren en wat ŷ in die vergelijking betekent.
Je wandelt naar een gebied waar er sneeuwboomkrekels zijn. Het is 19°C. Hoeveel keer per minuut verwacht je daar getsjirp te horen? Motiveer je antwoord.

11.2 Bench press

De bench press (bankdrukken) is een oefening die bij krachttraining wordt gebruikt. Je moet dan, terwijl je op een bank ligt, een staaf met gewichten langzaam naar je borst brengen om hem daarna weer helemaal omhoog te duwen tot je armen gestrekt zijn.

Het maximale gewicht ( BPmax ) dat bij bench press kan opgeduwd worden, wordt soms gebruikt als een parameter om te bepalen hoe sterk een atleet is. Hierover zijn er al heel wat studies gedaan bij mannen maar nog relatief weinig bij vrouwen.

Bij het bepalen van BPmax moet je echt tot het uiterste gaan, met risico op blessures. Daarom is het interessant om een verband te zoeken tussen BPmax en een minder gevaarlijke oefening. Daarbij tel je het maximale aantal keren dat je na elkaar een vast gewicht van 30 kg kan opdrukken ( BP30 ). Hieruit probeer je dan te bepalen wat je BPmax zou zijn zonder dat je tot het uiterste moet gaan om je BPmax te vinden.

Bij een steekproef van 41 jonge vrouwelijke atleten (tussen 14 en 17 jaar) werden zowel BPmax als BP30 opgemeten. De resultaten van de eerste 10 atleten zie je in (fig 19) .
De volledige dataset voor deze studie staat op je laptop in het Excel bestand bench.xlsx.

18 Oefening (opl 18)

Wat is hier de onderzoeksvraag?
Welke keuze maak je voor de respons en voor de verklarende veranderlijke? Waarom?
Zeg in woorden welke regressie je zal uitvoeren: een regressie van …… over ……
Teken het spreidingsdiagram samen met de regressierechte en gebruik die grafiek om de volgende vragen te beantwoorden.
1. Is het zinvol om het verband tussen BPmax en BP30 door een rechte voor te stellen? Waarom?
2. Als er een lineair verband is, is dat dan stijgend of dalend, sterk of zwak? Waarom? Zeg in uw antwoord ook iets over de correlatiecoëfficiënt.
3. Als jij zo’n atlete ontmoet en je hebt geen verdere informatie, wat is dan je beste schatting voor haar BPmax?
4. Als jij zo’n atlete ontmoet en men zegt je dat zij maximaal 12 keer na elkaar 30 kg kan opdrukken, wat zeg jij dan over haar BPmax? Waarom?
Als zo’n atlete maximaal 40.51 kg kan opdrukken, hoeveel keer maximaal kan zij dan na elkaar 30 kg opdrukken? Motiveer je antwoord.

11.3 Jaarringen

Als je de ouderdom van een boom wil weten, dan hoef je alleen maar de jaarringen te tellen. Het enige wat je daarvoor moet doen is die boom omzagen…

Je kan ook anders te werk gaan. Soms boort men een kleine cilinder tot in de kern van de stam, haalt er dan dat hout uit en telt de jaarringen.
Een verband met de ouderdom is afhankelijk van de boomsoort en van het klimaat. In deze tekst werken we met bomen van eenzelfde soort die onder dezelfde klimatologische omstandigheden zijn gegroeid.

Als je de boom helemaal niet wil beschadigen, dan meet je gewoon de omtrek van de stam. Je doet dat op een vooraf afgesproken hoogte (dikwijls neemt men een hoogte van 1.30 m).

Een onderzoeker heeft bij 22 gevelde bomen nauwkeurig de omtrek van de stam gemeten en de jaarringen geteld. Zijn data staan op je laptop in boomomt.xlsx. De eerste 6 opmetingen zie je in fig 20.

Een collega van die onderzoeker zegt dat je beter met de oppervlakte van de stamdoorsnede werkt. Gelukkig weet je dat je geen boom moet doorzagen om die oppervlakte te kennen. Als je de halve omtrek kwadrateert en dat resultaat deelt door 𝝿 dan heb je de oppervlakte. De dataset waarmee die collega werkt staat op je laptop en heeft de naam boomopp.xlsx. Zij heeft de oppervlakte berekend op basis van de omtrek en dat resultaat afgerond tot op 1 decimaal. Haar eerste 6 resultaten zie je in fig 21.

19 Oefening (opl 19)

Wat is bij deze studie de respons?
Als verklarende veranderlijke kiest de onderzoeker de omtrek en zijn college kiest de oppervlakte. Welke keuze maak jij en waarom?
Om deze vraag te beantwoorden ga je in meerdere stappen te werk.
1. Voor de onderzoeker met dataset boomomt.xlsx (boomomt verwijst naar omtrek): teken een spreidingsdiagram met bijhorende regressierechte en teken ook het diagram der residu’s.
2. Voor de collega met dataset boomopp.xlsx (boomopp verwijst naar oppervlakte): teken een spreidingsdiagram met bijhorende regressierechte en teken ook het diagram der residu’s.
3. Vergelijk de figuren die je gevonden hebt in a. en in b. en zeg welke dataset je kiest om de ouderdom van een boom te bepalen. Motiveer je keuze en gebruik dan deze keuze bij de onderstaande vragen.
Zeg in woorden welke regressie je uitvoert: een regressie van …… over ……
Je hebt bij een boom een omtrek van 70 cm gemeten. Wat zeg jij over de ouderdom van die boom? Motiveer je antwoord.

11.4 Had Da Vinci gelijk?

Leonardo Da Vinci was een kunstenaar en een wetenschapper. Hij kende heel veel van anatomie en beschreef allerlei soorten verhoudingen van het menselijk lichaam. Die kennis is handig als je mensen wil schilderen of beeldhouwen. Zo stelde hij onder meer

dat je geknield nog drie kwart van je totale lichaamslengte groot bent
dat de lengte van je hand een negende is van je lichaamslengte
dat de spanwijdte van je volledig uitgestrekte armen gelijk is aan je lichaamslengte.

Da Vinci baseerde zich voor die verhoudingen op een “ideaal lichaam” van een volwassen man. Zouden die beweringen ook opgaan voor Vlaamse jongeren van 15 à 18 jaar? Dat ga je nu onderzoeken en je zal een regel proberen op te stellen voor de bewering van Da Vinci dat je uit de spanwijdte van de volledig uitgestrekte armen kan schatten hoe groot iemand is.

Om de data te verzamelen moet je eventueel samenwerken met een andere klas zodat je toch bij minstens zo’n vijftiental leerlingen opmetingen kan doen. Die noteer je dan in het Excel bestand davinci.xlsx dat op je laptop staat.

20 Oefening

Wat is hier de onderzoeksvraag?
Welke keuze maak je voor de respons en voor de verklarende veranderlijke? Waarom?
Zeg in woorden welke regressie je wil uitvoeren: een regressie van …… over ……
Teken het spreidingsdiagram met de regressierechte en teken het diagram der residu’s. Gebruik die grafieken om te motiveren of een lineair verband hier zinvol kan zijn.
Indien een lineair verband zinvol is:
1. is het dan stijgend of dalend, sterk of zwak? Waarom? Zeg ook iets over de correlatiecoëfficiënt.
2. wat zeg je over de lengte van een lukraak getrokken leerling als je niet weet wat de spanwijdte is? Motiveer.
3. wat zeg je over de lengte van zo’n leerling als men je zegt dat de spanwijdte gelijk is aan 177 cm? Motiveer.

12 OPLOSSINGEN

1 Oplossing (oef 1)

Bepaal, voor de data opgemeten door die 20 leerlingen, de typische rechte bij het spreidingsdiagram waar de temperatuur op de x-as staat. Teken ook een grafiek.
Om deze oefening op te lossen kopieer je op je laptop het bestand GL_xtemp.xlsx naar mijndata.xlsx en dan gebruik je corr.qmd met de code diagr <- 2.

Nina neemt de gevonden typische rechte als benadering voor de “gaswet van Gay‑Lussac”. Schrijf de vergelijking van deze rechte in woorden (vervang in de vergelijking x en y door hun betekenis). Welk volume vindt Nina bij een temperatuur van 290 K?

De typische rechte is, in woorden:
volume = 1.17 temperatuur - 43.77.
Als temperatuur = 290 dan is: volume = (1.17)‧(290) - 43.77 = 295.53.

Bij een temperatuur van 290 K vindt Nina een volume van (afgerond) 296 ml.

2 Oplossing (oef 2)

Bepaal, voor de opgemeten data, de typische rechte bij het spreidingsdiagram waar het volume op de x-as staat. Teken ook een grafiek.
Om deze oefening op te lossen kopieer je op je laptop het bestand GL_xvol.xlsx naar mijndata.xlsx en dan ga je verder te werk zoals in oef 1.
Noah neemt de gevonden typische rechte als benadering voor de “gaswet van Gay‑Lussac”. Schrijf de vergelijking van deze rechte in woorden (vervang in de vergelijking x en y door hun betekenis). Herschrijf daarna diezelfde rechte in woorden waarbij het woord “volume” in het linkerlid staat en al de rest in het rechterlid. Welk volume vindt Noah bij een temperatuur van 290 K?

De typische rechte van Noah is, in woorden:
temperatuur = 0.86 volume + 37.46 wat je ook kan schrijven als
(1/0.86)‧(temperatuur - 37.46) = volume ofwel : volume = 1.16 temperatuur - 43.56
(hierbij is 1/0.86 afgerond tot 1.16)
Als temperatuur = 290 dan is: volume = (1.16)‧(290) - 43.56 = 292.84.

Bij een temperatuur van 290 K vindt Noah een volume van (afgerond) 293 ml

3 Oplossing (oef 3)

Bepaal, voor de opgemeten data, de regressierechte bij het spreidingsdiagram waar de temperatuur op de x-as staat. Teken ook een grafiek.
Om deze oefening op te lossen kopieer je op je laptop GL_xtemp.xlsx naar mijndata.xlsx en dan gebruik je reg.qmd met code respons <- 2 en regr <- 2.
Luna neemt de gevonden regressierechte als benadering voor de “gaswet van Gay‑Lussac”. Schrijf de vergelijking van deze rechte in woorden (vervang in de vergelijking x en y door hun betekenis). Welk volume vindt Luna bij een temperatuur van 290 K?

De regressierechte is, in woorden:
volume = 0.72 temperatuur + 122.38
Als temperatuur = 290 dan is: volume = (0.72)‧(290) + 122.38 = 331.18.

Bij een temperatuur van 290 K vindt Luna een volume van (afgerond) 331 ml.

4 Oplossing (oef 4)

Bepaal, voor de opgemeten data, de regressierechte bij het spreidingsdiagram waar het volume op de x-as staat. Teken ook een grafiek.
Om deze oefening op te lossen kopieer je op je laptop het bestand GL_xvol.xlsx naar mijndata.xlsx en dan ga je verder te werk zoals in oef 3.
Lewis neemt de gevonden regressierechte als benadering voor de “gaswet van Gay‑Lussac”. Schrijf de vergelijking van deze rechte in woorden (vervang in de vergelijking x en y door hun betekenis). Herschrijf daarna diezelfde rechten in woorden waarbij het woord “volume” in het linkerlid staat en al de rest in het rechterlid. Welk volume vindt Lewis bij een temperatuur van 290 K?

In woorden is de regressierechte van Lewis:
temperatuur = 0.53 volume + 165.43 wat je ook kan schrijven als:
(1/0.53)‧(temperatuur - 165.43) = volume ofwel volume = 1.89 temperatuur - 312.13
Als temperatuur = 290 dan is: volume = (1.89)‧(290) - 312.13 = 235.97

Bij een temperatuur van 290 K vindt Lewis een volume van (afgerond) 236 ml.

5 Oplossing (oef 5)

Voor de studie van vaders en zonen (29 gezinnen) kan je de gemiddelde lengte van de zonen berekenen. Alle data die je daarvoor nodig hebt staan reeds in onderstaande code chunk. Met kopiëren en plakken (zie ) breng je de code chunk over naar “mijnwerkblad.qmd”. Als je daar nu op de groene pijl drukt, dan vind je de gemiddelde lengte van alle 29 zonen.

De gemiddelde lengte van de zonen is 176 cm.

Uit die 29 gezinnen ga je lukraak één gezin trekken. Hoe groot zal de zoon in dit gezin zijn? Als je geen verdere informatie krijgt dan het resultaat dat je zopas gevonden hebt, wat antwoord je dan? Waarom?

Die zoon is lukraak getrokken uit een groep waarvan de gemiddelde lengte 176 cm is. Als je geen verdere informatie hebt, dan is de beste gok dat de lengte van die zoon 176 cm is.

6 Oplossing (oef 6)

Bereken, bij elke lengte van de vaders (159, 162, 165, 168, 171, 174, 177, 180 en 183) de “typische” lengte van de bijhorende zonen.
Met kopiëren en plakken (zie ) breng je de code chunk over naar “mijnwerkblad.qmd”. Vul daar telkens een lengte van de vader in, druk dan op de groene pijl en dan krijg je de gemiddelde lengte van de bijhorende zonen. Om dat resultaat vast te leggen voor verder gebruik, open je (op je laptop) het Excel bestand lgtva_gemzo.xlsx waarin je, in kolom B, de lengte van de zonen invult.

Kopieer het ingevulde Excel bestand lgtva_gemzo.xlsx naar mijndata.xlsx en:
- maak een bivariate tabel voor “de gemiddelden per strip” (ga op je laptop naar bivtbl.qmd en dubbelklik)
- teken een spreidingsdiagram voor “de gemiddelden per strip” (gebruik reg.qmd met code respons <- 2 en regr <- 1.

Uit die 29 gezinnen wordt lukraak één gezin getrokken. Hoe groot is de zoon in dit gezin als men je zegt dat zijn vader 162 cm is. Wat is je antwoord? Geef je nu hetzelfde antwoord als in het tweede punt van oef 5 ? Waarom?

Je geeft nu niet hetzelfde antwoord als in oef 5 omdat je meer informatie hebt. Je weet dat de zoon komt uit de groep van zonen waar de vader 162 cm is. Die zonen hebben een gemiddelde lengte van 172 cm. Daarom is het beste antwoord nu dat de lengte van die zoon 172 cm is.

7 Oplossing (oef 7)

Bij 29 gezinnen is de lengte van moeder en dochter opgemeten met
(x , y) = (lengte moeder , lengte dochter). De data staan op je laptop in modo.xlsx.

Voer, voor deze dataset, een regressiestudie uit van “lengte dochter” over “lengte moeder”. Vind je dezelfde regressierechte die je zopas in fig 11 hebt ontmoet?
Voor deze oefening gebruik je reg.qmd met code respons <- 2 en regr <- 2.

Dit is inderdaad dezelfde regressierechte als in fig 11.
Hoe zeg je in deze studie \(\hat{y}\) in woorden?
\(\hat{y}\) is de gemiddelde respons, wat in deze studie de gemiddelde lengte van dochters is.

8 Oplossing (oef 8)

Als je de bedoeling en de data van de studie in die landbouwschool bekijkt, is dan een lineaire regressie zinvol in deze context? Waarom?

Het is de bedoeling om een samenhang te ontdekken tussen de gebruikte hoeveelheid meststof en de maisopbrengst. Er zijn slechts een beperkt aantal data maar de puntenwolk toont geen patroon dat beduidend afwijkt van een rechte. Werken met een lineaire regressie is hier zinvol.
Wat kies je hier als verklarende veranderlijke en wat als respons? Waarom?

Men wil weten hoe de maisopbrengst afhangt van de hoeveelheid meststof. Daarom is de maisopbrengst de respons en de hoeveelheid toegediende meststof de verklarende veranderlijke.
Bepaal de regressierechte en teken een grafiek. Gebruik reg.qmd .
- Eerst kopieer je mais.xlsx naar mijndata.xlsx
- Dan gebruik je reg.qmd als volgt:
- De regressierechte samen met de grafiek zijn:
Hoe zeg je in deze studie \(\hat{y}\) in woorden?
\(\hat{y}\) is de gemiddelde maisopbrengst (in kg/are).

9 Oplossing (oef 9)

De regressierechte \(\hat{y}\ =\ 1.71\ x\ +\ 77\) geeft het verband tussen de hoeveelheid toegediende meststof ( \(x\) ) en de gemiddelde maïsopbrengst ( \(\hat{y}\) ). In het experiment is er op geen enkel perceel een hoeveelheid meststof van 4.75 kg/are gestrooid, maar toch wil je voorspellen wat je dan als maisopbrengst kan verwachten.
Hoeveel is dat?

Eerst kopieer je mais.xlsx naar mijndata.xlsx
Dan gebruik je reg.qmd met de codes: respons <- 2 en regr <- 2000 en reg(respons, regr, 4.75 )
Resultaat: : \(\hat{y}\) = 85.14 bij \(x\) = 4.75
Bij 4.75 kg/are meststof verwacht je een gemiddelde maisopbrengst van 85.14 kg/are

10 Oplossing (oef 10)

De regressierechte \(\hat{y}\ =\ 1.71\ x\ +\ 77\) geeft het verband tussen de hoeveelheid toegediende meststof ( \(x\) ) en de gemiddelde maïsopbrengst ( \(\hat{y}\) ). Je wil heel veel maisopbrengst en besluit om 100 kg/are meststof te gebruiken. Wat verwacht je?

Welk antwoord geven de “berekeningen”? (ga te werk zoals in oef 9)

Eerst kopieer je mais.xlsx naar mijndata.xlsx.

Dan gebruik je reg.qmd met de codes:
respons <- 2 en regr <- 2000
en reg(respons, regr, 100 )

Resultaat: : \(\hat{y}\) = 248.43 bij \(x\) = 100
Bij 100 kg/are meststof is er een gemiddelde maisopbrengst van (afgerond) 248 kg/are.

Welk antwoord geeft je gezond verstand?
Bij zo’n overbemesting gaat maïs dood en heb je helemaal niets.

11 Oplossing (oef 11)

Denk je dat punten op Nederlands helpen om de lengte te voorspellen? Wat gebeurt er als je hier een regressiestudie uitvoert? Hoe groot schat je een meisje dat 5/20 haalt op Nederlands? En wat verwacht je van een meisje met een score van 15/20? Wat is je besluit?
De data die je voor deze studie nodig hebt staan op je laptop in het Excel bestand meis17LGT_NL.xlsx. Dat bestand, samen met reg.qmd, gebruik je nu om deze oefening op te lossen. (ga te werk - aangepast aan deze opgave - zoals in oef 9).

De regressiestudie die hier gevraagd wordt, is een regressie van lengte over score want je wil de “verwachte” lengte voorspellen op basis van de behaalde punten op Nederlands. Dat betekent dat “lengte” de respons is en daarmee moet je rekening houden als je werkt met reg.qmd. De lengte staat immers in de eerste kolom van het Excel bestand en die kolom heeft daar de naam “x”. Nadat je meis17LGT_NL.xlsx hebt gekopieerd naar mijndata.xlsx werk je met reg.qmd met de code: respons <- 1, regr <- 2000 en reg(respons, regr, 5 )

Het spreidingsdiagram en de correlatiecoëfficiënt (r = 0) wijzen op het ontbreken van een lineaire samenhang.

Als resultaat zie je een horizontale regressierechte \(\hat{y}\ =\ 166\). In deze vergelijking komt x niet voor. Dat betekent dat de verwachte lengte gelijk is aan 166 cm, of het meisje nu een score van 5 of van 15 of wat dan ook haalde.
Het antwoord is altijd 166 cm ( = de gemiddelde lengte van meisjes van 17).

De bijkomende informatie over de punten op Nederlands helpen niet om de verwachte lengte op een meer preciese manier te voorspellen.

12 Oplossing (oef 12)

Kopieer op je laptop ans2.xlsx naar mijndata.xlsx en gebruik dan reg.qmd met de codes:
respons <- 2 , regr <- 2000 , reg(respons,regr, 10 ) .

Welk resultaat geven de “berekeningen” (correlatiecoëfficiënt en regressierechte)?

De correlatiecoëfficiënt is r = 0.82 en de regressierechte is ŷ = 0.5 x + 3.

Wat zeg je over de “mogelijke uitspraak” die hierboven zopas gedaan werd? Motiveer je antwoord..
Een data-analyse heeft, naast berekeningen, ook nood aan grafieken, context en interpretatie.
Het spreidingsdiagram bij deze dataset toont dat er een verband is tussen x en y maar dit verband is niet lineair (het heeft de vorm van een parabool). Daarom kan je de correlatiecoëfficiënt niet gebruiken om een uitspraak te doen over sterkte en zin van een lineair verband. Ook een lineaire regressie is niet zinvol want een rechte past, als model, helemaal niet goed bij die dataset van Anscombe. Dat je bij een waarde van x = 10 een gemiddelde respons van 8 kan verwachten, is hier geen zinvolle uitspraak.

13 Oplossing (oef 13)

Ben je, op basis van de data en de grafiek in fig 14, akkoord met de volgende uitspraken?

Inderdaad, zonder verdere context zijn de uitspraken correct (in het kader van een regressiestudie).

14 Oplossing (oef 14)

Teken eens een rechthoek waarvan de omtrek gelijk is aan 12. Wat is de oppervlakte van je rechthoek?

Er zijn veel rechthoeken met een omtrek van 12 mogelijk, maar in elk geval heb je een rechthoek getekend waarvan de oppervlakte positief is (in tegenstelling met wat je volgens de onderstaande regressielijn zou verwachten).
Kopieer het Excel bestand rechthoek.xlsx (op je laptop) naar mijndata.xlsx en activeer dan na elkaar :
- bivtbl.qmd om de data van die rechthoekjes te tonen (vergelijk met fig 14).
- reg.qmd met codes
  respons <- 2 , regr <- 2000 en reg(respons,regr, 12 ).
  Hoeveel is de verwachte oppervlakte ŷ bij een omtrek van x = 12 ?

Wat is je algemeen besluit bij deze “studie”?

Dit is geen “statistische studie”.
Men zegt dat de data tot stand zijn gekomen door een leerling die zomaar wat rechthoekjes tekende. Je weet niet eens wat de bedoeling was. Wilde die leerling op basis van de omtrek een idee krijgen over de oppervlakte? En zegt de regressierechte dan dat 2.8 keer de omtrek min 37.42 de te verwachten oppervlakte is bij rechthoeken? Een omtrek van 12 geeft volgens deze “regressiestudie” een verwachte oppervlakte van -3.79. Dit is totaal zinloos.

Een onderzoek is niet alleen rekenen en tekenen. Naast goede data en juiste technieken heb je ook een duidelijke onderzoeksvraag, informatie over de opgemeten data,… en dus eigenlijk een volledige context nodig.

15 Oplossing (oef 15)

Inderdaad, het diagram der residu’s (rode punten) toont dat de residu’s willekeurig schommelen boven en onder de “nullijn” zonder een bepaald patroon te vertonen. Dat bevestigt dat een lineair verband zinvol is.

16 Oplossing (oef 16)

Als je een spreidingsdiagram tekent, dan zie je dat de Olympische records hoogspringen voor vrouwen (de y-veranderlijke) een opwaartse trend vertonen over de jaren heen (de x-veranderlijke). Liggen de data op zo’n manier rond de regressierechte verspreid dat je kan zeggen dat een lineair verband hier zinvol is? Verklaar je antwoord.
Gebruik de data in tia.xlsx en werk met reg.qmd met respons <- 2 en regr <- 2.

De punten liggen boven en onder de regressierechte maar niet op een willekeurige manier. In het begin liggen zij vooral onder de regressielijn, daarna liggen zij er grotendeels boven en op het einde is er een eigenaardige krul. Hier zomaar een rechte voorstellen is niet zinvol.
Teken het diagram der residu’s. Bevestigt die grafiek het antwoord dat je in punt 1 gegeven hebt? Waarom?
Gebruik reg.qmd met respons <- 2 en regr <- 9000.

Het diagram der residu’s bevestigt dat een “lineair” verband geen zinvolle keuze is. De residu’s liggen in groepen onder en boven de nullijn, niet willekeurig verspreid.
“Wees voorzichtig bij extrapolatie”.
Illustreer deze uitspraak met een studie van de eerste 15 Olympische records (dus van 1928 tem 1992). Maak voor deze dataset een afzonderlijk Excel bestand (met een afzonderlijke naam zoals tiabis.xlsx) en teken dan het spreidingsdiagram met de regressierechte en teken ook het diagram der residu’s. Is een lineaire samenhang zinvol bij deze nieuwe studie? Zeg ook iets over de correlatiecoëfficiënt.

Zowel het spreidingsdiagram met de regressierechte als het diagram der residu’s geven aan dat, voor de periode tussen 1928 en 1992, de puntenwolk zinvol kan benaderd worden door een rechte. In beide figuren liggen de punten willekeurig gespreid zonder een of ander patroon te vertonen. Dat lineair verband is stijgend en sterk want de data liggen dicht tegen de regressierechte en de correlatiecoëfficiënt is gelijk aan r = 0.97.

Als men het model dat je hebt opgesteld voor de periode 1928 - 1992, zou gebruikt hebben in 1993 om het record van 2020 te voorspellen, wat zou men dan gezegd hebben? Verklaar.
Gebruik tiabis.xlsx en reg.qmd met regr <- 2000 en reg(respons,regr, 2020).

De voorspelling dat atletes in 2020 over 2 meter 26 zouden springen zit er totaal naast.
Als je (in punt 1 van deze oefening) naar de volledige puntenwolk van alle data kijkt, dan zie je dat, na een tijd van beduidende verbeteringen, de recordwaarden niet meer zo sterk stijgen. Je kan dus de rechte, die in het begin een zinvol model was, niet blijven gebruiken. Over de periode 1928-2024 is een rechte geen zinvol model, dat weet je.
De volledige dataset had men in 1993 uiteraard niet, maar ook toen wist men al dat extrapolatie een totaal fout antwoord kan geven.

17 Oplossing (oef 17)

Wat is hier de onderzoeksvraag?

Als je de tsjirpfrequentie (aantal per minuut) van die sneeuwboomkrekels hebt geteld, hoe warm schat je dan dat het is (in graden Celsius)?
Welke keuze maak je voor de respons en voor de verklarende veranderlijke? Waarom?

Je wil weten hoe warm het is op basis van de tsjirpfrequentie. Daarom neem je de temperatuur als de respons en de tsjirpfrequentie als verklarende veranderlijke.
Zeg in woorden welke regressie je zal uitvoeren: een regressie van …… over ……

Dit is een regressie van temperatuur over tsjirpfrequentie.
Teken het spreidingsdiagram met de regressierechte en teken ook het diagram der residu’s. Gebruik die grafieken om de volgende vragen te beantwoorden.

Eerst kopieer je krekels.xlsx naar mijndata.xlsx en dan gebruik je reg.qmd met code respons <- 2 en regr <- 2.
Voor het diagram der residu’s gebruik je reg.qmd met regr <- 9000.

Is het zinvol om het verband tussen de temperatuur en de tsjirpfrequentie door een rechte voor te stellen? Waarom? Wordt je antwoord ook bevestigd door het diagram der residu’s? Verklaar.

Het spreidingsdiagram toont een ellipsvormige puntenwolk waarbinnen de punten willekeurig verspreid zijn, zonder een of ander patroon. Daarom is het zinvol om het verband tussen temperatuur en tsjirpfrequentie als een rechte voor te stellen.
Het diagram der residu’s toont residu’s die zowel positief als negatief zijn en willekeurig rond de nullijn verspreid liggen. Dit bevestigt dat een rechte een zinvol model is.
Als er een lineair verband is, is dat dan stijgend of dalend, sterk of zwak? Waarom? Zeg in uw antwoord ook iets over de correlatiecoëfficiënt.

Het verband is stijgend. want grotere tsjirpfrequentie gaat samen met globaal grotere temperatuur. Het verband is ook zeer sterk want de punten sluiten nauw aan bij de rechte. Deze eigenschappen worden bevestigd door de correlatiecoëfficiënt: die is positief en zeer groot (r = 0.98).
Zeg in woorden hoe je de gevonden regressierechte moet interpreteren en wat ŷ in die vergelijking betekent.

De regressierechte geeft een regel om uit de tjirpfrequentie de temperatuur te bepalen, maar dit is geen “exacte” regel. De notatie ŷ betekent een “gemiddelde” respons of een “verwachte” respons, wat in deze studie de verwachte (of gemiddelde) temperatuur is bij een bepaalde tsjirpfrequentie.

Je wandelt naar een gebied waar er sneeuwboomkrekels zijn. Het is 19°C. Hoeveel keer per minuut verwacht je daar getsjirp te horen? Motiveer je antwoord.

Hier wordt gevraagd naar de tsjirpfrequentie in functie van een gegeven temperatuur (19 °C). Dat betekent dat in deze studie de respons gelijk is aan de tsjirpfrequentie zodat je een regressie van tsjirpfrequentie over temperatuur moet uitvoeren. De regressierechte die je zopas hebt gevonden kan je hier niet gebruiken.

Werk nu met reg.qmd met code respons <- 1 want de tsjirpfrequentie is de veranderlijke die in kolom A van het Excel bestand staat en het is die veranderlijke die jij nu als respons neemt.
Gebruik verder regr <- 2000 en reg(respons,regr, 19).

Op basis van deze nieuwe regressiestudie kan je zeggen dat je bij een temperatuur van 19 °C verwacht dat de sneeuwboomkrekels (afgerond) 117 keer per minuut zullen tsjirpen.

18 Oplossing (oef 18)

Wat is hier de onderzoeksvraag?

Wat is bij vrouwelijke atleten tussen 14 en 17 jaar de verwachte BPmax waarde wanneer je hun BP30 waarde kent?
Welke keuze maak je voor de respons en voor de verklarende veranderlijke? Waarom?

BP30 neem je als verklarende veranderlijke en BPmax als respons want bij een gegeven BP30 (dus gekend en vast) wil je de verwachte waarde van de bijhorende BPmax voorspellen.
Zeg in woorden welke regressie je zal uitvoeren: een regressie van …… over ……

Dit is een regressie van BPmax over BP30.
Teken het spreidingsdiagram samen met de regressierechte en gebruik die grafiek om de volgende vragen te beantwoorden.
Eerst kopieer je bench.xlsx naar mijndata.xlsx en dan gebruik je reg.qmd met code respons <- 2 en regr <- 2.
1. Is het zinvol om het verband tussen BPmax en BP30 door een rechte voor te stellen? Waarom?
  
  De puntenwolk is ellipsvormig en de punten zijn willekeurig verdeeld rond een rechte. Het is zinvol om het verband tussen BPmax en BP30 als een rechte voor te stellen.
2. Als er een lineair verband is, is dat dan stijgend of dalend, sterk of zwak? Waarom? Zeg in uw antwoord ook iets over de correlatiecoëfficiënt.
  
  Het lineair verband is stijgend want bij grotere waarden van BP30 horen globaal grotere waarden van BPmax. Het verband is “matig tot sterk” want de puntenwolk is nogal verspreid. Dat het lineair verband positief en “matig tot sterk” is, wordt bevestigd door de positieve correlatiecoëfficiënt die gelijk is aan r = 0.75.
3. Als jij zo’n atlete ontmoet en je hebt geen verdere informatie, wat is dan je beste schatting voor haar BPmax?
  
  Zonder verdere informatie schat je haar BPmax als 38 kg, want dat is de gemiddelde BPmax waarde van al die atleten (ȳ = 38).
4. Als jij zo’n atlete ontmoet en men zegt je dat zij maximaal 12 keer na elkaar 30 kg kan opdrukken, wat zeg jij dan over haar BPmax? Waarom?
  
  Voor een nauwkeurige berekening gebruik je reg.qmd met regr <- 2000 en reg(respons,regr, 12) (klik zie 13).
  Op basis van de regressierechte verwacht je dat die atlete een BPmax van 40.48 heeft want voor atleten met een BP30 waarde van 12 is de gemiddelde BPmax gelijk aan 40.48.
Als zo’n atlete maximaal 40.48 kg kan opdrukken, hoeveel keer maximaal kan zij dan na elkaar 30 kg opdrukken? Motiveer je antwoord.

Nu wordt naar BP30 gevraagd op basis van een gegeven waarde van BPmax (40.48 kg). Dat betekent dat de respons hier BP30 is en de verklarende veranderlijke BPmax. Om daarop te kunnen antwoorden is de regressierechte die je in vorig punt hebt gevonden niet geschikt. Je moet nu een regressie van BP30 over BPmax uitvoeren, en dat leidt tot een andere regressierechte.

Gebruik nu reg.qmd met code respons <- 1 want BP30 is de veranderlijke die in kolom A van het Excel bestand bench.xlsx staat en het is die veranderlijke die jij nu als respons neemt. Gebruik verder regr <- 2000 en reg(respons,regr, 40.48).

Op basis van deze nieuwe regressiestudie kan je zeggen dat je bij BPmax = 40.48 een waarde van 10.69 verwacht voor BP30. Atleten die maximaal 40.48 kg kunnen opdrukken, kunnen -gemiddeld- maximaal zo’n 10 à 11 keer na elkaar 30 kg opdrukken.

19 Oplossing (oef 19)

Wat is bij deze studie de respons?

De respons is de ouderdom van de boom. Dat is de eigenschap die je wil te weten komen op basis van een andere eigenschap (omtrek of oppervlakte).
Als verklarende veranderlijke kiest de onderzoeker de omtrek en zijn college kiest de oppervlakte. Welke keuze maak jij en waarom?
Om deze vraag te beantwoorden ga je in meerdere stappen te werk.

Voor de onderzoeker met dataset boomomt.xlsx: teken een spreidingsdiagram met bijhorende regressierechte en teken ook het diagram der residu’s.

Kopieer boomomt.xlsx naar mijndata.xlsx en gebruik dan reg.qmd met respons <-2 , regr <- 2 en daarna regr <- 9000 .

Voor de collega met dataset boomopp.xlsx: teken een spreidingsdiagram met bijhorende regressierechte en teken ook het diagram der residu’s.

Kopieer boomopp.xlsx naar mijndata.xlsx en gebruik dan reg.qmd met respons <-2 , regr <- 2 en daarna regr <- 9000 .

Vergelijk de figuren die je gevonden hebt in a. en in b. en zeg welke dataset je kiest om de ouderdom van een boom te bepalen. Motiveer je keuze en gebruik dan deze keuze bij de onderstaande vragen.

In punt a. zie je een “gebogen” patroon. Eerst liggen alle datapunten boven de regressierechte, daarna liggen ze er allemaal onder en tenslotte weer allemaal erboven. Dat patroon is ook duidelijk in het diagram der residu’s waar in het begin en op het einde alle residu’s boven de nullijn liggen (positief) en in het midden liggen ze er allemaal onder (negatief).
De gewenste “willekeurige spreiding” wordt tegengesproken door beide figuren.

In punt b. is er wel een willekeurige spreiding, zowel rond de regressierechte in het spreidingsdiagram der data als rond de nullijn in het diagram der residu’s.

Bij een model dat goed aansluit bij de opgemeten data verwacht je een willekeurige spreiding van de data rond dat model. Daarom kies je hier de regressierechte op basis van de oppervlakte om de ouderdom van een boom te schatten.

Zeg in woorden welke regressie je uitvoert: een regressie van …… over …...

In punt 2. heb je besloten om een regressie van ouderdom over oppervlakte uit te voeren.
Je hebt bij een boom een omtrek van 70 cm gemeten. Wat zeg jij over de ouderdom van die boom? Motiveer je antwoord.

Je hebt beslist dat een goed model gebaseerd is op de oppervlakte van een dwarsdoorsnede van de boomstam en dus bereken je eerst die oppervlakte (die is 389.9 cm² bij een omtrek van 70 cm).
Kopieer boomopp.xlsx naar mijndata.xlsx en gebruik reg.qmd met respons <-2 , regr <- 2000 en reg(respons,regr, 389.9 ).

Bomen met een stamomtrek van 70 cm (opp = 389.9 cm²) zijn niet allemaal even oud.
De regressierechte zegt dat ŷ = 15.11 bij x = 389.9 wat betekent dat dergelijke bomen gemiddeld 15.11 jaar oud zijn.
Dus schat jij dat die boom met een omtrek van 70 cm (afgerond) 15 jaar oud is.

13 Technische nota

Bij het berekenen van een regressierechte kunnen afrondingen “onderweg” een verschil geven op het eindresultaat. Soms is dat verschil beperkt maar soms is het groot.

Het probleem van onnauwkeurigheden bij afrondingen
is uiteraard niet beperkt tot regressie !

Afrondingen heb je (onder meer) ontmoet in oef 9 . Daar was de invloed op het eindresultaat beperkt. Hieronder zie je een ander (meer spectaculair) voorbeeld.

In fig 22 staat een spreidingsdiagram (met regressierechte) voor de resultaten van de eerste 15 Olympische gouden medailles hoogspringen vrouwen (van 1928 tem 1992) .

In 1980 won Sara Simeoni met een sprong van 1.97 m.
Volgens het regressiemodel is de geschatte hoogte in 1980 gelijk aan 1.96 m. Dat zie je onder de figuur waar die waarde berekend is: bij x = 1980 is ŷ = 1.96.
Daar staat ook de vergelijking van de regressierechte: ŷ = 0.01 x - 12.97.

Als je in de vergelijking van de regressierechte de waarde x = 1980 invult, dan krijg je:
ŷ = 0.01 (1980) - 12.97 = 6.83. Zelfs bij Olympische spelen is 6.83 m een waanzinnige hoogte om over te springen !

Het probleem dat je hier ontmoet zit in “afrondingen onderweg”. Bij het opschrijven van de regressierechte is zowel de rico (a) als de intercept (b) afgerond. Daarna is in die afgeronde vergelijking de waarde x = 1980 ingevuld voor verdere berekening. Het resultaat is hier desastreus.

Als je “onderweg” de waarden aan R opvraagt, dan krijg je:
a = 0.00753871… wat afgerond a = 0.01 oplevert
b = -12.96664454… wat afgerond b = -12.97 oplevert.

Voor een meer precieze waarde moet je dus niet werken met:
ŷ = 0.01 x - 12.97 maar met
ŷ = 0.00753871… x - 12.96664454…
Nu krijg je:
ŷ = 0.00753871… (1980) - 12.96664454… = 1.96000126…
Pas nu, bij het eindresultaat, afronden levert ŷ = 1.96. Over 1.96 m springen moet lukken !