Spreidingsdiagram en correlatie
Bij de studie van correlatie ontmoet je bivariate data. Hoe zo’n data eruitzien, bekijk je even vooraf.
1 Bivariate data
Bij een geboorte wordt de lengte en het gewicht van de baby genoteerd.
Je kan afspreken dat je de lengte (in centimeter) noteert als \(x\) en het gewicht (in kilogram) als \(y\) . Per baby ziet die informatie er dan uit als een koppel: \((x,y)\ =\ (lengte\ baby\ ,\ gewicht\ baby).\)
Je noteert hier twee kenmerken tegelijkertijd. Dat levert een bivariate (bi = twee) uitkomst, waarbij de volgorde van belang is. Hier is afgesproken dat je eerst de lengte en dan het gewicht noteert als je het koppel \((x,y)\) opschrijft.
Bemerk dat zowel lengte als gewicht grootheden zijn die als “continu” behandeld worden.
Een bivariate uitkomst kan je ook grafisch voorstellen want elk koppel \((x,y)\) bepaalt een punt in het vlak.
Als \((x,y)\) = (52, 3.1) dan heb je te maken met een baby van 52 cm met een gewicht van 3 kilogram en 100 gram. Die baby stel je voor door een punt in het vlak met x‑coördinaat gelijk aan 52 en y‑coördinaat gelijk aan 3.1. Dat zie je in fig 1.
Als je meerdere (bijvoorbeeld 10) baby’s opmeet, dan kan je die een identificatie (label, volgnummer, ID) geven om te weten over welke baby het gaat.
Hieronder zie je bivariate data \((x,y)\) waarbij \(x\) de lengte en \(y\) het gewicht is. In deze studie hebben de baby’s een label gekregen (van klein naar groot): de kleinste baby krijgt het label baby_1 en de grootste baby is baby_10. De resultaten zijn genoteerd in een tabel en zij zijn ook grafisch voorgesteld als punten in een vlak. De tabel is niet volledig, maar je kan die aanvullen met wat je ziet in de grafiek. Ook de grafiek is niet volledig, maar die kan je vervolledigen met de informatie in de tabel. Dat doe je nu in oef 1.
1 Oefening (opl 1)
Maak een Excel bestand met de naam baby.xlsx en vul daar voor de 10 baby’s de volledige bivariate dataset in, samen met zinvolle labels. Als het de eerste keer is dat je een Excel bestand maakt om bivariate data daarna te gebruiken in R, lees dan eerst de handleiding Bivariate data: van Excel naar R .
Zorg ervoor dat jouw bestand baby.xlsx in de subfolder xcl op je laptop staat en kopieer daar baby.xlsx naar mijndata.xlsx. Sluit nu alle Excel bestanden zodat je klaar bent om met R te werken.
Om een bivariate tabel te maken ga je op je laptop naar bivtbl.qmd en dubbelklik. Voor een spreidingsdiagram gebruik je corr.qmd waar je de code diagr <- 1 invult.
2 Spreidingsdiagram
Een spreidingsdiagram (ook puntenwolk genoemd) is een grafische voorstelling van bivariate data waarbij elk opgemeten element (zoals een opgemeten baby) voorgesteld wordt als een punt in het vlak. Zo’n spreidingsdiagram heb je zopas gemaakt voor 10 baby’s (in oef 1).
2.1 Patronen
Een spreidingsdiagram is niet zomaar een verzameling van “wat punten in een vlak”. Als je goed kijkt, dan kan je in zo’n figuur extra informatie ontdekken. Soms zie je een zeer duidelijk patroon, soms is het patroon eerder vaag en soms zie je geen patroon. Het is daarbij belangrijk dat je “globaal” naar de figuur kijkt en je niet te veel laat afleiden door hier en daar een afzonderlijk punt (als dat tenminste niet te extreem afwijkt van het globale patroon).
2 Oefening (opl 2)
“De samenhang tussen lengte en gewicht vertoont globaal een opwaartse trend: een grotere lengte gaat samen met een groter gewicht.” Is deze uitspraak zinvol als je naar het spreidingsdiagram in fig 2 kijkt? Waarom?
Bij een opwaartse trend heeft een baby die groter is dan een andere baby ook een groter geboortegewicht dan die andere. Is deze uitspraak waar? Gebruik de bovenstaande data en geef een concreet voorbeeld waarbij deze uitspraak waar is en ook een concreet tegenvoorbeeld (waar deze uitspraak fout is).
Is het tegenvoorbeeld in punt 2 een bewijs dat de uitspraak in punt 1 niet zinvol is? Waarom?
Start met de data die horen bij het spreidingsdiagram in fig 2 . Gebruik dezelfde afzonderlijke data (dezelfde 10 lengten en dezelfde 10 gewichten). Welk gewicht je bij welke lengte zet mag je nu zelf kiezen. Zo krijg je nieuwe bivariate data en ook een nieuw spreidingsdiagram. Zorg ervoor dat de opwaartse trend voor de samenhang tussen lengte en gewicht bij deze nieuwe data nog veel sterker tot uiting komt dan in fig 2 . Deze nieuwe data leveren nieuwe baby’s. Daarom maak je voor deze nieuwe data een nieuw Excel bestand met de naam baby_nw.xlsx. In dat nieuwe bestand schrijf je de lengte in kolom A en het bijhorende gewicht in kolom B. In kolom C schrijf je lengte (cm) in cel C:2, gewicht (kg) in cel C:3, Lengte en gewicht baby_nw in cel C:4 en baby_nw in cel C:5. Zorg ervoor dat het Excel bestand in de juiste subfolder xcl op je laptop staat en maak een kopie van baby_nw.xlsx naar mijndata.xlsx.
Maak nu voor deze nieuwe bivariate data een tabel (met bivtbl.qmd) en een spreidingsdiagram (met corr.qmd en codediagr <- 1). Wat zie je als je het spreidingsdiagram van baby_nw vergelijkt met het spreidingsdiagram van de oorspronkelijke baby’s? Welke globale kenmerken zijn dezelfde in beide figuren? Welk kenmerk is duidelijk verschillend?
In data analyse en statistiek is visualisatie (grafieken, diagrammen,… ) een krachtig hulpmiddel bij de speurtocht naar antwoorden op onderzoeksvragen. Dat is zeker ook zo bij spreidingsdiagrammen. Spreidingsdiagrammen kunnen heel wat informatie tonen van zeer verschillende aard. Met wat oefening en ervaring ontdek je allerlei (verwachte en onverwachte) patronen en relaties. In de volgende oefening zie je enkele voorbeelden.
3 Oefening (opl 3)
Zeg bij elk onderstaand spreidingsdiagram enkele dingen die je op het eerste gezicht opvallen als je kijkt naar de globale samenhang tussen x en y.
Suggereert de puntenwolk een lineair verband (samenhang volgens een rechte)? Of zie je een verband tussen x en y dat niet lineair is (welk)? Of zijn er eigenaardigheden in het globale patroon en wat zou daarvoor een verklaring kunnen zijn?
2.2 Ellipsvormig
Er zijn twee soorten spreidingsdiagrammen: spreidingsdiagrammen waarvan het globale uitzicht ellipsvormig is, en andere.
Als je op de afzonderlijke punten begint te letten, dan zie je in een spreidingsdiagram meestal heel wat variabiliteit. Maar eigenlijk moet je op zoek gaan naar een “globale” vorm, zonder je vast te pinnen op enkele punten die hier en daar wat afwijken.
Voor het vervolg van deze tekst werk je met ellipsvormige spreidingsdiagrammen. Dergelijke spreidingsdiagrammen wijzen op een lineaire samenhang tussen x en y.
Dit is belangrijk bij de studie van correlatie. Correlatie gaat niet zomaar over samenhang (in fig 5 zie je ook samenhang - een kwadratische). Correlatie gaat over een lineaire samenhang (zoals gesuggereerd in het ellipsvormige spreidingsdiagram voor de lengte en het gewicht van baby’s).
Er zijn heel wat datasets waarbij je een lineaire samenhang kan bestuderen. Hieronder zie je een paar beroemde voorbeelden.
2.2.1 F. Galton - K. Pearson
Sir Francis Galton (1822-1911) was een Engelse statisticus die, zoals zijn neef Darwin, geboeid was door erfelijkheid. Hij bestudeerde daarbij allerlei kenmerken, ondermeer de lengte van ouders en hun kinderen. Heel wat Engelse statistici wilden in die tijd onderzoeken hoe je op basis van data erfelijke invloeden kon ontdekken. Zo is er een studie van Karl Pearson (leerling van Galton) waarbij de lengte van 1078 vaders werd opgemeten samen met de lengte van hun oudste volwassen zoon. Die dataset zie je hieronder. Hij komt later ook ter sprake in de tekst over regressie.
2.2.2 R.A. Fisher
Sir Ronald Aylmer Fisher (1890 – 1962) was een Engelse wiskundige, statisticus, bioloog, geneticus,… Heel wat van zijn data haalde hij uit experimenten in de biologie.
Een vermaarde dataset heeft de naam: “Fisher’s Iris data”. Deze dataset bestaat uit opmetingen van de lengte en de breedte van bloemblaadjes en kelkblaadjes van irissen. Het gaat daarbij over 3 verschillende soorten irissen: iris Setosa, iris Versicolor en iris Verginica. Hieronder zie je een spreidingsdiagram van de opmetingen van alle bloemblaadjes (fig 9) en, met extra hulp van kleuren, zie je in (fig 10 ) dat het echt om verschillende soorten gaat (rood = Setosa, groen = Versicolor en blauw = Verginica).
2.3 Trend
In 2016 won Donald Trump de presidentsverkiezingen in de Verenigde Staten.
In 2024 deed hij dat nog eens.
Bij het noteren van de bivariate data (x , y) spreek je af:
x = het percent kiezers (per staat) dat in 2016 voor Trump stemde
y = het percent kiezers (per staat) dat in 2024 voor Trump stemde
Het rode punt (65 , 66) in het spreidingsdiagram is de staat Oklahoma. In 2016 stemde daar 65 % van de kiezers op Trump en in 2024 kreeg hij daar 66 % van de stemmen. Het groene punt (37 , 44) is de staat New York. Daar kreeg Trump 37 % van de stemmen in 2016 en 44 % in 2024 .
Alle verkiezingsuitslagen vind je op http://uselectionatlas.org/RESULTS/index.html .
Een spreidingsdiagram toont hoe een y‑veranderlijke samenhangt met een x‑veranderlijke. In dit voorbeeld (fig 11) zie je (per staat) de samenhang tussen het percent kiezers dat voor Trump koos in 2016 (x‑veranderlijke) en het percent kiezers dat voor Trump koos in 2024 (y‑veranderlijke). Je ziet hier een opwaartse trend: staten met een groter percent Trump‑kiezers in 2016 hadden (globaal) ook een groter percent Trump‑kiezers in 2024 .
Het spreidingsdiagram van het percent Trump-kiezers is globaal ellipsvormig: de punten tonen variabiliteit rond een of andere rechte. Je hebt hier niet alleen een opwaartse trend maar een “lineaire opwaartse trend”.
3 Typische rechte
3.1 Intuïtief
In een ellipsvormig spreidingsdiagram liggen punten gespreid rond een rechte. Die rechte wijst op een lineaire samenhang tussen x en y.
Over welke rechte gaat het hier? Soms spreekt men over “een rechte die het best aansluit bij de puntenwolk”. Maar als je geen criterium hebt dat zegt wat “best aansluiten” betekent, dan is het moeilijk om zo’n rechte te bepalen. Misschien kan je starten met eens goed naar het spreidingsdiagram te kijken en, zomaar, op zicht, een “beste” rechte te tekenen waarrond volgens jou de punten in dat diagram gespreid liggen.
4 Oefening (opl 4)
In fig 12 zie je (in een grotere figuur) een spreidingsdiagram. Eronder staan 2 kleinere figuren, telkens met een rode stippellijn (het gaat hier allemaal over hetzelfde spreidingsdiagram). Kijk eerst alleen naar de grotere figuur zodat je niet afgeleid wordt door de stippellijnen. Als jij een “best aansluitende” rechte in die grotere puntenwolk zou moeten tekenen, welke rechte zou jij dan tekenen?
Kijk daarna naar de twee kleinere figuren. Welke stippellijn komt het best overeen met wat jij zou getekend hebben, de linkse of de rechtse?
3.2 Vergelijking
Start met het voorbeeld hierboven in fig 12. Het spreidingsdiagram dat je daar ziet is de grafiek van een bivariate dataset die bestaat uit 19 opmetingen \((x,y)\) waarbij \(x\) = lengte van de moeder en \(y\) = lengte van de dochter.
De typische rechte die je zoekt is een “best aanpassende” rechte waarrond de punten van het spreidingsdiagram verstrooid liggen. Het lijkt logisch dat die rechte door “het centrum” van de puntenwolk gaat. Dat “centrum”, ook “zwaartepunt” genoemd, is het punt \(\left( \bar{x}\ ,\ \bar{y} \right).\) Hierbij is \(\bar{x}\) het gemiddelde van de x‑coördinaten (de gemiddelde lengte van de moeders) en is \(\bar{y}\) het gemiddelde van de y-coördinaten (de gemiddelde lengte van de dochters). Op de figuur hieronder links zie je dat \(\left( \bar{x}\ ,\ \bar{y} \right)\ =\ (161\ ,\ 164).\) Het is de blauwe driehoek.
Om de rechte verder vast te leggen ga je als volgt tewerk. Start in het zwaartepunt \(\left( \bar{x}\ ,\ \bar{y} \right)\) en ga daar, evenwijdig met de x‑as, naar rechts over een afstand sx . Hierbij is sx de standaardafwijking van de x‑coördinaten. Waar je nu staat, ga je over een afstand sy evenwijdig met de y‑as naar boven (want een opwaartse trend wijst op een stijgende rechte). Zo kom je terecht op de groene ruit in de rechterfiguur hieronder. Dat is een tweede punt van de gezochte rechte. Uit deze manier van werken zie je dat de richtingscoëfficiënt gelijk is aan sy /sx . Voor de data in dit voorbeeld is sx = 7 en sy = 9.
De typische rechte waarrond de punten van het spreidingsdiagram verstrooid zijn zie je in fig 13. Deze rechte gaat door het zwaartepunt en is verder volledig bepaald door de standaardafwijkingen sx en sy (want die leggen de rico vast). Daarom ontmoet je voor “typische rechte” soms ook de naam “sd-rechte” of “sd-line” (sd = standard deviation = standaardafwijking).
5 Oefening (opl 5)
In oef 1 heb je het spreidingsdiagram getekend voor de lengte en het gewicht van 10 baby’s. Dit spreidingsdiagram is ellipsvormig en toont een stijgende trend (een positieve lineaire samenhang). Bepaal de vergelijking van de typische rechte waarrond de punten van de puntenwolk hier verstrooid liggen. Teken ook een grafiek. Om deze oefening op te lossen zorg je er eerst voor dat de juiste data gekopieerd zijn naar mijndata.xlsx. Daarna activeer je op je laptop corr.qmd met de code
diagr <- 2.In oef 2 heb je dezelfde lengten en dezelfde gewichten op een nieuwe manier gecombineerd. De nieuwe dataset heb je de naam baby_nw.xlsx gegeven. Gebruik nu deze nieuwe data om de vergelijking van de nieuwe typische rechte te bepalen. Teken ook een grafiek. Ga tewerk zoals in vorig punt: kopieer de juiste data naar mijndata.xlsx en gebruik dan corr.qmd.
Je hebt voor de oorspronkelijke baby’s en voor de nieuwe baby’s telkens de typische rechte berekend en getekend. Wat is het verschil? Hoe komt dat? Staaf je antwoord vanuit de vergelijking van een typische rechte.
4 Correlatiecoëfficiënt (I)
4.1 Kengetal
- Een bivariate dataset leidt tot eenduidige univariate datasets.
Als je alle bivariate data (x , y) kent, dan ken je ook alle x-data (alle lengten) en alle y‑data (alle gewichten). Die univariate data kan je afzonderlijk bestuderen. Bij de oorspronkelijke 10 baby’s vond je voor de lengte \(\bar{x}=51\) cm en \({{s}_{x}}\ =2\) cm en voor het gewicht \(\bar{y}=3.2\) kg en \({{s}_{y}}\ =0.33\) kg.
- Univariate datasets leiden niet tot een éénduidige bivariate dataset.
In oef 5 heb je ontdekt dat kengetallen van univariate data ( dus van x en van y afzonderlijk) voldoende zijn om bij een ellipsvormig spreidingsdiagram de typische rechte te bepalen. Maar er zijn heel veel verschillende mogelijkheden om y-waarden bij x-waarden te laten aansluiten. Om te weten welke bivariate dataset je dan krijgt, kan je kijken naar het spreidingsdiagram. Er bestaat ook een kengetal dat aangeeft of de data heel dicht aanleunen tegen de typische rechte (zoals bij de 10 nieuwe baby’s) of eerder nogal ver gespreid schommelen rond de typische rechte (zoals bij de oorspronkelijke baby’s). Dat kengetal is de correlatiecoëfficiënt, voorgesteld door de letter r.
De grafieken hieronder ken je. Onder elke grafiek staat de correlatiecoëfficiënt r. Die is r = 0.54 bij de oorspronkelijke baby’s en r = 0.98 bij de nieuwe.
In de linker figuur worden de punten rond de typische rechte gevat in een “bredere ellips” terwijl rechts de ellips veel “smaller” is en nauwer aansluit aan de typische rechte.
4.2 Sterkte en zin
Als je te maken hebt met een ellipsvormig spreidingsdiagram dat een lineaire samenhang suggereert, dan is de correlatiecoëfficiënt een kengetal voor de sterkte en zin van deze samenhang. In dat geval geldt:
- een positieve correlatiecoëfficiënt wijst op een positieve lineaire samenhang
- een negatieve correlatiecoëfficiënt wijst op een negatieve lineaire samenhang
- waarden van de correlatiecoëfficiënt dicht tegen -1 of +1 wijzen op sterke samenhang
- waarden van de correlatiecoëfficiënt dicht tegen 0 wijzen op zwakke samenhang.
Een illustratie van deze eigenschap zie je in onderstaande voorbeelden
Anna’s puntenwolk is zeer gespreid. De omsluitende ellips is breed en toont een opwaartse trend.
Correlatiecoëfficiënt:
positief met r = 0.1
Noor’s puntenwolk is nogal gespreid. De omsluitende ellips is breed en toont een opwaartse trend.
Correlatiecoëfficiënt:
positief met r = 0.4
Julie’s puntenwolk is matig gespreid. De omsluitende ellips toont een opwaartse trend.
Correlatiecoëfficiënt:
positief met r = 0.6
Emma’s puntenwolk is weinig gespreid. De ellips is smal en toont een opwaartse trend.
Correlatiecoëfficiënt:
positief met r = 0.9
Liam’s puntenwolk is zeer gespreid. De omsluitende ellips is breed en toont een neerwaartse trend.
Correlatiecoëfficiënt:
negatief met r = -0.3
Victor’s puntenwolk is matig gespreid. De omsluitende ellips toont een neerwaartse trend.
Correlatiecoëfficiënt:
negatief met r = -0.5
Artur’s puntenwolk is weinig gespreid. De ellips is smal en toont een neerwaartse trend.
Correlatiecoëfficiënt:
negatief met r = -0.99
Extreme situaties
- In de bovenstaande voorbeelden zie je ellipsvormige spreidingsdiagrammen die “breder” of “dunner” zijn. Dat gaat samen met de “sterkte” van de samenhang. Waarden van de correlatiecoëfficiënt die (in absolute waarde) dichter en dichter bij 1 liggen, wijzen op een sterker wordende samenhang. Van anna naar noor en julie en emma gaat de correlatiecoëfficiënt van 0.1 naar 0.4 en 0.6 en 0.9. De punten in de puntenwolk sluiten beter en beter aan bij de typische rechte. In het extreme geval krijg je een bivariate dataset waarbij alle punten perfect op een rechte liggen. De “omringende ellips” valt daar samen met de typische rechte en de correlatiecoëfficiënt is dan gelijk aan 1 bij een opwaartse trend en -1 bij een neerwaartse trend. Dat zie je bij lena.
Bij lena zie je een neerwaartse trend waarbij alle punten perfect op een rechte liggen.
Correlatiecoëfficiënt:
negatief met r = -1
- Je kan ook kijken naar verbanden die zwakker en zwakker worden.
Bij anna is de correlatiecoëfficiënt gelijk aan 0.1 en de omringende ellips is breed. Wanneer de punten nog verder uitgespreid liggen, dan wordt die ellips breder en breder en uiteindelijk krijg je een cirkel. Dan weet je ook niet meer of je met een opwaartse of neerwaartse trend te maken hebt. In dat extreme geval is de correlatiecoëfficiënt gelijk aan nul en is een typische rechte niet meer zinvol. Een voorbeeld zie je bij tom.
Bij tom zie je geen trend. Alle punten liggen verspreid in een cirkel.
Correlatiecoëfficiënt:
r = 0
Samenvatting
In fig 14 zie je schematisch welke waarden van de correlatiecoëfficiënt samengaan met welke uitspraken over een lineaire samenhang. Bemerk dat “zwak”, matig” en “sterk” niet precies afgebakend zijn. Verschillende studiegebieden (wetenschappen, economie, pedagogie,…) hebben verschillende criteria om bijvoorbeeld te zeggen dat een samenhang “zwak” is.
6 Oefening (opl 6)
Als je een bivariate dataset ontmoet, zonder verdere informatie over de context van het onderzoek, dan kan je op een eenvoudige manier starten om iets te weten te komen over die dataset. Je begint met een grafische voorstelling. Zie je een patroon in het spreidingsdiagram? Heb je te maken met een ellipsvormige puntenwolk die wijst op een lineaire samenhang? En als dat zo is, kan je dan de grafiek samen met de waarde van de correlatiecoëfficiënt gebruiken om iets meer te zeggen over die samenhang?
Gebruik de vorige vragen om te beschrijven wat je ontdekt bij de dataset van lucas. Let erop dat je op je laptop eerst de data in lucas.xlsx kopieert naar mijndata.xlsx. Gebruik daarna corr.qmd met de code
diagr <- 2.Doe hetzelfde zoals in vorig punt, maar nu voor de dataset van lucie.
4.3 Berekenen met R
Het programma corr.qmd geeft naast het spreidingsdiagram en de typische rechte ook de waarde van de correlatiecoëfficiënt. Je kan, zonder figuur, de correlatiecoëfficiënt ook rechtstreeks berekenen in R. Dat kan met de functie cor(x, y).
Om bijvoorbeeld de correlatiecoëfficiënt tussen de lengte en het gewicht van 10 baby’s te berekenen, gebruik je een kort programma (een R code chunk). Het bestaat hier uit 5 stappen:
- je vult de vector van x-waarden in. Daarvoor gebruik je de functie
c( )waarmee je getallen combineert. Tussen de getallen typ je komma’s. De volgorde van de getallen is belangrijk: je definieert dus echt een vector. Die vector geef je de naam x :
x <- c(48, 49, 49, 50, 51, 51, 52, 53, 53, 54) - op een analoge manier definieer je de vector van de corresponderende y-waarden: y <- c(2.9, 2.8, 3.1, 3.4, 2.8, 3.5, 3.1, 3.1, 3.7, 3.6)
- je berekent de correlatiecoëfficiënt met
cor(x, y)en het resultaat noem je r :
r <- cor(x, y) - je rondt de correlatiecoëfficiënt r af op 2 decimalen en dat resultaat noem je terug r :
r <- round(r, 2) - je vraagt om de waarde van r te tonen (verschijnt onder het R-script) :
r
Dit kort programma is hieronder als een kopieerbare R code chunk weergegeven. Je kan die kopiëren en plakken naar “mijnwerkblad.qmd” (zie ) .
```{r}
x <- c(48, 49, 49, 50, 51, 51, 52, 53, 53, 54)
y <- c(2.9, 2.8, 3.1, 3.4, 2.8, 3.5, 3.1, 3.1, 3.7, 3.6)
r <- cor(x, y)
r <- round(r, 2)
r
```Als je nu in “mijnwerkblad.qmd” op de groene pijl in die code chunk klikt, dan vind je r = 0.61, wat overeenkomt met het resultaat dat je al kent.
7 Oefening (opl 7)
De vergelijking van de cirkel met middelpunt (0 ,0) en straal 5 is \({{y}^{2}}+{{x}^{2}}=25.\) De y‑waarden die horen bij de bovenste helft van die cirkel (positieve y-waarden) haal je uit de functie \(y=\sqrt{25-{{x}^{2}}}\) voor \(-5\le x\le +5.\) Gebruik deze functie om voor de x‑waarden: -5, -4, -3, 0, 3, 4, 5 de bijhorende y-waarden te bepalen. Zo krijg je een bivariate dataset (x, y) met 7 punten.
Bereken de correlatiecoëfficiënt voor x en y. Gebruik daarbij de R code chunk die je zopas naar “mijnwerkblad.qmd” hebt gekopieerd. Je moet daar nu eerst de x- en y-waarden aanpassen en dan op de groene pijl klikken. Wat krijg je als resultaat?
Als men zegt “een correlatiecoëfficiënt die gelijk is aan nul betekent dat er geen samenhang is tussen x en y” , wat zeg jij dan? Welke correlatie heb je gevonden bij een perfecte samenhang (waar alle punten perfect op de grafiek van \(y=\sqrt{25-{{x}^{2}}}\) liggen) ?
5 Standaardiseren
Als je een puntenwolk bestudeert en je ziet dat de globale vorm lijkt op een ellips, dan kan je proberen om “op zicht” de sterkte van de lineaire samenhang te schatten. Dat geeft je dan ook een benaderend idee van de waarde van de correlatiecoëfficiënt.
5.1 Bloemblaadjes
Is er een lineaire samenhang tussen de lengte en de breedte van bloemblaadjes en verschilt die samenhang volgens het soort bloem?
Om dit na te gaan deed men de volgende studie. Van 4 soorten bloemen werden heel veel bloemblaadjes verzameld en die werden bewaard in vier verschillende dozen. Vier leerlingen (kobe, lisa, kato en daan) kozen elk één doos en trokken daaruit lukraak 20 bloemblaadjes. Met gestandaardiseerde meetapparatuur bepaalden zij dan de lengte en de breedte van elk blaadje. Op die manier hadden zij elk 20 bivariate opmetingen (x, y) met x = lengte van het bloemblad en y = breedte van het bloemblad.
De opmetingen moesten ook grafisch worden voorgesteld. Daarvoor kregen de leerlingen elk een identiek tekenblad, waarbij de schaalverdeling op de x-as en op de y-as voor iedereen dezelfde was. Op die manier was het mogelijk om de vier grafieken letterlijk op elkaar te leggen en de 4 soorten bloemen grafisch met elkaar te vergelijken.
8 Oefening (opl 8)
- In fig 15 zie je de puntenwolken van kobe, lisa, kato en daan. Probeer de correlatiecoëfficiënt te bepalen door die op zicht te schatten. Noteer die schatting even voor jezelf, voor elke puntenwolk. Kies hiervoor uit de getallen 0.50, 0.75, 0.90 en 0.95.
- De correlatiecoëfficiënten die je zopas geschat hebt, kan je ook berekenen. Alle data die je daarvoor nodig hebt staan reeds in onderstaande code chunk. Met kopiëren en plakken (zie ) breng je de code chunk over naar “mijnwerkblad.qmd”. Als je daar nu op de groene pijl drukt, dan vind je de exacte correlatiecoëfficiënten voor kobe, lisa, kato en daan.
```{r}
# data van kobe
x<- c(12.5, 13.5, 14, 14.5, 15.5, 16.5, 17, 17.5, 18, 18.5, 19.5, 20, 20.5, 21, 21.5, 22.5, 23.5, 24, 24.5, 26)
y<- c(4.6, 3.4, 27.4, 14.2, 28.6, 3.4, 14.2, 16.6, 13, 26.2, 19, 23.8, 34.6, 14.2, 25, 17.8, 11.8, 13, 41.8, 39.4)
r <- cor(x, y)
r_kobe <- round(r, 2)
# data van lisa
x<- c(20, 19.75, 24.75, 22, 25, 19.75, 22, 22.5, 21.75, 24.5, 23, 24, 26.25, 22, 24.25, 22.75, 21.5, 21.75, 27.75, 27.25)
y<- c(5, 7.8, 9.2, 10.6, 13.4, 16.2, 17.6, 19, 20.4, 21.8, 24.6, 26, 27.4, 28.8, 30.2, 33, 35.8, 37.2, 38.6, 42.8)
r <- cor(x, y)
r_lisa <- round(r, 2)
# data van kato
x<- c(19.5, 19.7, 19.8, 19.9, 20.1, 20.3, 20.4, 20.5, 20.6, 20.7, 20.9, 21, 21.1, 21.2, 21.3, 21.5, 21.7, 21.8, 21.9, 22.2)
y<- c(8, 7, 27, 16, 28, 7, 16, 18, 15, 26, 20, 24, 33, 16, 25, 19, 14, 15, 39, 37)
r <- cor(x, y)
r_kato <- round(r, 2)
# data van daan
x <- c(9, 11, 12, 13, 15, 17, 18, 19, 20, 21, 23, 24, 25, 26, 27, 29, 31, 32, 33, 36)
y <- c(8, 7, 27, 16, 28, 7, 16, 18, 15, 26, 20, 24, 33, 16, 25, 19, 14, 15, 39, 37)
r <- cor(x, y)
r_daan <- round(r, 2)
cat(paste("r_kobe = ", as.character(r_kobe) , "\nr_lisa = ", as.character(r_lisa) , "\nr_kato = ", as.character(r_kato), "\nr_daan = ", as.character(r_daan)))
```
- Heb je in punt 2 hetzelfde antwoord als in punt 1? Kan je dit verklaren? Teken eens, zonder beperking van schaalverdeling, het spreidingsdiagram van kato. Kopieer eerst kato.xlsx naar mijndata.xlsx en gebruik dan corr.qmd met code
diagr <- 1. Wat zie je nu? Hoe heeft R de schaalverdelingen gekozen? Geeft dit een beter grafisch beeld?
5.2 Standaard scores
Om, bij lineaire samenhang, een goed zicht te krijgen op de sterkte van die samenhang, en om spreidingsdiagrammen “op zicht” met elkaar te kunnen vergelijken, heb je nood aan standaardisatie. Dat zorgt ervoor dat je niet op het verkeerde been wordt gezet bij het vergelijken van de bloemblaadjes van kobe en kato .
Om van oorspronkelijke data (x , y) over te stappen op standaard scores (zx , zy ), gebruik je de volgende transformatie: \({{z}_{x}}=\dfrac{x-\bar{x}}{{{s}_{x}}}\) en \({{z}_{y}}=\dfrac{y-\bar{y}}{{{s}_{y}}}\)
Bemerk dat deze transformatie ervoor zorgt dat elke oorspronkelijke opmeting (een x of een y) een nieuw getal wordt (een zx of een zy ) dat de “relatieve positie binnen de eigen dataset” weergeeft.
In fig 16 zie je wat er bij een standaardisatie gebeurt bij de data van die eerste 10 baby’s.
De eerste baby heeft een lengte van 48 cm. De totale dataset van die 10 lengten heeft een gemiddelde van x̄ = 51 cm en deze waarde neem je nu als nieuw centrum. En dan kijk je hoeveel die eerste baby boven of onder dat nieuwe centrum ligt. Hier is x - x̄ = -3 cm maar ook dit verschil druk je niet uit in de oorspronkelijke eenheden. Als nieuwe meetlat om de afstand tot het nieuwe centrum te bepalen gebruik je de standaardafwijking. En dan is de vraag niet “hoeveel centimeter verschilt de baby van het gemiddelde” maar “hoeveel standaardafwijkingen ligt de baby verwijderd van het gemiddelde”.
De standaardafwijking van de x-waarden (de lengten) is hier sx = 2 cm . Baby_1 ligt dus -1.5 standaardafwijkingen verwijderd van het gemiddelde. Daarom is de standaard score zx van baby_1 gelijk aan -1.5.
5.3 Standaard diagram
Het spreidingsdiagram van de 10 baby’s zie je hieronder. Links is de beeldverhouding (aspect ratio) automatisch gekozen door R (golden ratio = 1.618). Je kan de beeldverhouding ook zelf instellen, bijvoorbeeld op een aspect ratio = 1. Die puntenwolk staat rechts Je krijgt op die manier figuren die er meer samengeperst of meer uitgerekt uitzien. Dat is niet handig als je grafisch jouw spreidingsdiagrammen wil vergelijken met diagrammen die door iemand anders of door een andere software gemaakt zijn.
5.3.1 Diagram
Om grafisch gestandaardiseerd tewerk te gaan stap je van de oorspronkelijke data over op standaard scores. Zo kom je terecht op eenheidsloze bivariate data (zx , zy ). Voor die data teken je in het (zx , zy )‑vlak een spreidingsdiagram waarbij je afspreekt dat je voor een vaste eenheid eenzelfde fysische lengte neemt, zowel op de zx ‑as als op de zy ‑as. Zo krijg je een gestandaardiseerd spreidingsdiagram zoals in fig 17.
Bij fig 15 heb je de sterkte van de lineaire samenhang geschat voor de data van kobe en kato… en dat was geen succes. In oef 8 heb je, zonder figuur, de correlatiecoëfficiënt berekend met R. Je kreeg hetzelfde getal, zowel bij kobe als bij kato. Dat zou je niet verwonderd hebben als de figuren in fig 15 gestandaardiseerd waren getekend. Controleer dat zelf maar even in de volgende oefening.
9 Oefening (opl 9)
Teken een gestandaardiseerd spreidingsdiagram voor de lengte en de breedte van de bloemblaadjes van kobe. Kopiëer eerst kobe.xlsx naar mijndata.xlsx en gebruik dan corr_z.qmd .
Doe nu hetzelfde voor de data van kato. Vergelijk dit spreidingsdiagram met dat van kobe. Wat zie je?
Zegt het voorgaande resultaat dat de afmetingen van de bloemblaadjes van kobe dezelfde zijn als die van kato? Verklaar je antwoord.
5.3.2 Typische rechte
Note 1 zegt dat \(\dfrac{y-\bar{y}}{{{s}_{y}}}\,=\,\dfrac{x-\bar{x}}{{{s}_{x}}}\) de vergelijking van de typische rechte is bij een positieve lineaire samenhang. Dat betekent dat, bij standaardisatie waarbij \({{z}_{x}}=\dfrac{x-\bar{x}}{{{s}_{x}}}\) en \({{z}_{y}}=\dfrac{y-\bar{y}}{{{s}_{y}}}\), de typische rechte gegeven wordt door zy = zx , wat de eerste bissectrice is in het (zx , zy )‑vlak.
5.3.3 Voorbeelden
- Gestandaardiseerde spreidingsdiagrammen bij een positieve lineaire samenhang:
kijk naar de sterkte van de samenhang rond de eerste bissectrice.
- Gestandaardiseerde spreidingsdiagrammen bij een negatieve lineaire samenhang:
kijk naar de sterkte van de samenhang rond de tweede bissectrice.
6 Correlatiecoëfficiënt (II)
6.1 Formule
Als bouwsteen in de formule van de correlatiecoëfficiënt gebruikt men “het product van de coördinaten”. Bij gestandaardiseerde bivariate data levert het punt (zx , zy ) een bijdrage zx · zy tot dat product. Hoe dat werkt bij een positieve lineaire samenhang zie je in onderstaande spreidingsdiagrammen (de redenering is analoog voor een negatieve lineaire samenhang).
Bij emma liggen de punten “dicht” tegen de typische rechte ( = de eerste bissectrice). Het groene punt in het eerste kwadrant heeft een positieve zx‑coördinaat en ook een positieve zy‑coördinaat zodat het product zx · zy positief is, Het groene punt in het derde kwadrant heeft een negatieve zx‑coördinaat en ook een negatieve zy‑coördinaat wat ook hier het product zx · zy positief maakt, Een punt in het tweede kwadrant (of in het vierde kwadrant) levert een negatieve bijdrage voor het product zx · zy (bij emma zijn dat rode punten).
Dezelfde redenering geldt ook voor anna, maar daar liggen de punten veel meer gespreid rond de eerste bissectrice. Er liggen (zoals de groene) veel punten in het eerste en derde kwadrant (met een positieve bijdrage voor zx · zy ) maar ook veel punten (zoals de rode) in het tweede en vierde kwadrant (met een negatieve bijdrage voor zx · zy ) .
Voor alle punten samen verwacht je een groter resultaat bij emma (veel positieve bijdragen en weinig negatieve) dan bij anna (veel positieve bijdragen maar ook veel negatieve).
Er is nog een laatste opmerking. De correlatiecoëfficiënt is een maat voor de sterkte van een lineaire samenhang, niet voor het aantal punten in een dataset. Om zowel grote als kleine datasets “eerlijk” met elkaar te kunnen vergelijken, compenseer je de totale som die je maakt, door “een soort gemiddelde” te nemen waarbij je niet deelt door het aantal bivariate data, maar door “het aantal min één” (n-1). Dat levert de formule:
\[r=\dfrac{1}{\left( n-1 \right)}\sum{\left( {{z}_{x}}\cdot \ {{z}_{y}} \right)} \tag{1}\] wat je, in functie van de oorspronkelijke data, ook kan schrijven als:
\[r=\dfrac{1}{\left( n-1 \right)}\sum{\left( \left( \dfrac{x-\bar{x}}{{{s}_{x}}} \right)\cdot \left( \dfrac{y-\bar{y}}{{{s}_{y}}} \right) \right)} \tag{2}\]
Voor emma is r = 0.9 en voor anna is r = 0.1.
Soms zie je voor de correlatiecoëfficiënt r de naam “Pearson correlatiecoëfficiënt” staan.
6.2 Eigenschappen
Hieronder staan enkele eigenschappen van de correlatiecoëfficiënt:
de correlatiecoëfficiënt r is een eenheidsloos getal met waarden tussen -1 en +1
bij een positief lineair verband is r positief
- en bij een perfect positief lineair verband is r = +1
bij een negatief lineair verband is r negatief
- en bij een perfect negatief lineair verband is r = -1
een correlatiecoëfficiënt r die gelijk is aan nul wijst op het ontbreken van een lineaire samenhang
de correlatiecoëfficiënt is symmetrisch: de sterkte van de lineaire samenhang tussen x en y is dezelfde als de sterkte van de lineaire samenhang tussen y en x. Die symmetrie zie je ook in de formule want als je daar x en y omwisselt verandert het resultaat niet.
7 Aandachtspunten
Een kengetal, zoals een correlatiecoëfficiënt, geeft informatie in een samengebalde vorm. Die informatie kan helpen bij data analyse, maar soms is een kengetal misleidend. Bij elke statistische exploratie hoort ook een figuur. Bij bivariate data kan het soms nuttig zijn om met een gestandaardiseerd spreidingsdiagram te werken.
7.1 Krommen, uitschieters,..
De 4 datasets hieronder in fig 20 zijn door F. J. Anscombe opgesteld. Het zijn kleine datasets, die elk 11 bivariate opmetingen (x , y) bevatten. De waarden staan in de onderstaande tabellen.
10 Oefening (opl 10)
- Bereken met R de correlatiecoëfficiënt voor de 4 datasets van Anscombe.
Gebruik de kopieerbare R code chunk hieronder die je kopieert en plakt naar “mijnwerkblad.qmd” (zie ) .
Als je nu in “mijnwerkblad.qmd” op de groene pijl in de code chunk klikt, dan vind je het gevraagde resultaat.
Wat is er speciaal aan die datasets van Anscombe? Wat zou iemand die alleen naar de waarde van de correlatiecoëfficiënt kijkt, mogelijks zeggen over die 4 datasets?
```{r}
# 4 datasets van Anscombe
x123 <- c(10, 8, 13, 9, 11, 14, 6, 4, 12, 7, 5)
y1 <- c(8.04, 6.95, 7.58, 8.81, 8.33, 9.96, 7.24, 4.26, 10.84, 4.82, 5.68)
y2 <- c(9.14, 8.14, 8.74, 8.77, 9.26, 8.1, 6.13, 3.1, 9.13, 7.26, 4.74)
y3 <- c(7.46, 6.77, 12.74, 7.11, 7.81, 8.84, 6.08, 5.39, 8.15, 6.42, 5.73)
x4 <- c(8, 8, 8, 8, 8, 8, 8, 19, 8, 8, 8)
y4 <- c(6.58, 5.76, 7.71, 8.84, 8.47, 7.04, 5.25, 12.5, 5.56, 7.91, 6.89)
# correlatiecoëfficiënten berekenen en afronden
r_ans1 <- round(cor(x123, y1), 2)
r_ans2 <- round(cor(x123, y2), 2)
r_ans3 <- round(cor(x123, y3), 2)
r_ans4 <- round(cor(x4, y4), 2)
# correlatiecoëfficiënten tonen
cat(paste("r_ans1 = ", as.character(r_ans1) , "\nr_ans2 = ", as.character(r_ans2) , "\nr_ans3 = ", as.character(r_ans3) , "\nr_ans4 = ", as.character(r_ans4)))
```- Je kent nu de correlatiecoëfficiënten. Combineer die informatie met wat je ziet in het spreidingsdiagram (voor elke dataset).
Kopieer telkens het gepaste bestand (zoals ans1.xlsx) naar mijndata.xlsx en gebruik dan corr_z.qmd.
Wat zeg je nu over de datasets van Anscombe?
7.2 Clusters
In de paleontologie wordt de prehistorische mens bestudeerd. Men gebruikt ondermeer skeletten die bij opgravingen worden ontdekt.
In de tabel hiernaast zie je een beperkte bivariate dataset (x , y) met x = de lengte en y = de breedte van een bepaald beentje, opgemeten bij skeletten van kinderen. Samen met de waarden zie je ook een spreidingsdiagram met een ellips die de punten omringt, de typische rechte en de waarde van de correlatiecoëfficiënt.
Als je de resultaten van deze studie bekijkt, dan zou je op het eerste gezicht de volgende conclusie trekken: “er is een positief lineair verband tussen de lengte en de breedte van die beenderen”.
Langere beenderen zijn -globaal- ook breder. De punten liggen nogal verspreid rond de typische rechte en de waarde van de correlatiecoëfficiënt is r = 0.56. De sterkte van het lineair verband is “matig”.
Op het eerste gezicht lijkt dit een correcte conclusie … tot je eens heel nauwkeurig naar de puntenwolk kijkt.
Inderdaad, de puntenwolk bestaat uit twee groepen (of twee clusters): een groep punten links onder en een andere groep rechts boven.
Als je bij data analyse een onverwacht patroon ontdekt, dan ga je op zoek naar verdere informatie over die studie.
- Als er geen verdere informatie is, dan formuleer je je besluit (zoals hierboven) met de bijkomende bemerking over het eigenaardige patroon (en je zegt dat daardoor de geformuleerde conclusie misschien verkeerd kan zijn).
- Als er wel bijkomende informatie kan gevonden worden (zoals hieronder), dan gebruik je die.
Bij de beschrijving van de studie over die beenderen werd gezegd dat de eerste zeven data afkomstig waren van meisjes en de laatste zeven van jongens. Dat betekent dat er 2 datasets zijn. Die zie je hiernaast.
Als je met twee duidelijk verschillende clusters te maken hebt (“meisjes” en “jongens”) dan is het dikwijls niet verstandig om die zomaar samen te voegen tot één studie over “kinderen”.
Bij “kinderen” heb je een lineair verband gevonden dat positief is: “langere beenderen zijn globaal ook breder”. Is dat ook waar voor meisjes en voor jongens apart? Dat ontdek je in de volgende oefening.
11 Oefening (opl 11)
Kopieer de data van de beenderen van meisjes (beenm.xlsx) naar mijndata.xlsx. Gebruik dan corr.qmd met
diagr <- 2om de samenhang tussen lengte en breedte te bespreken bij de beenderen van meisjes.Doe nu hetzelfde voor de beenderen van jongens (gebruik beenj.xlsx).
8 OPLOSSINGEN
1 Oplossing (oef 1)
Maak een Excel bestand met de naam baby.xlsx en vul daar voor de 10 baby’s de volledige bivariate dataset in, samen met zinvolle labels.
Zorg ervoor dat jouw bestand baby.xlsx in de subfolder xcl op je laptop staat en kopieer daar baby.xlsx naar mijndata.xlsx. Sluit nu alle Excel bestanden zodat je klaar bent om met R te werken.
De gedeeltelijke informatie uit de tabel en de grafiek kan je samenbrengen om in een Excel bestand de volledige bivariate dataset op te schrijven. Hoe je dat doet zie je hiernaast
Om een bivariate tabel te maken ga je op je laptop naar bivtbl.qmd en dubbelklik. Voor een spreidingsdiagram gebruik je corr.qmd waar je de code diagr <- 1 invult.
Met bivtbl.qmd en corr.qmd toon je de data in een tabel en in een grafiek.
2 Oplossing (oef 2)
- “De samenhang tussen lengte en gewicht vertoont globaal een opwaartse trend: een grotere lengte gaat samen met een groter gewicht.” Is deze uitspraak zinvol als je naar het spreidingsdiagram in fig 2 kijkt? Waarom?
De “globale” vorm van het spreidingsdiagram wijst op een opwaartse trend: van onderaan links (kleinere lengte en kleiner gewicht) naar bovenaan rechts (grotere lengte en groter gewicht). De uitspraak over een “opwaartse trend” is zinvol op basis van de figuur.
- Bij een opwaartse trend heeft een baby die groter is dan een andere baby ook een groter geboortegewicht dan die andere. Is deze uitspraak waar? Gebruik de bovenstaande data en geef een concreet voorbeeld waarbij deze uitspraak waar is en ook een concreet tegenvoorbeeld (waar deze uitspraak fout is).
Voorbeeld: baby_3 (49 cm) is groter dan baby_1 (48 cm) en weegt ook meer (3.3 kg ipv 2.9 kg).
Tegenvoorbeeld: baby_2 (49 cm) is groter dan baby_1 (48 cm) maar weegt minder (2.8 kg ipv 2.9 kg).
- Is het tegenvoorbeeld in punt 2 een bewijs dat de uitspraak in punt 1 niet zinvol is? Waarom?
De uitspraak over een opwaartse trend blijft zinvol want dit is een uitspraak over “een globaal patroon” dat in het spreidingsdiagram zichtbaar is. Het is geen uitspraak die bij alle specifieke punten moet gelden. Het tegenvoorbeeld in punt 2 is niet in tegenspraak met de “globale” uitspraak in punt 1.
- Start met de data die horen bij het spreidingsdiagram in fig 2 . Gebruik dezelfde afzonderlijke data (dezelfde 10 lengten en dezelfde 10 gewichten). Welk gewicht je bij welke lengte zet mag je nu zelf kiezen. Zo krijg je nieuwe bivariate data en ook een nieuw spreidingsdiagram. Zorg ervoor dat de opwaartse trend voor de samenhang tussen lengte en gewicht bij deze nieuwe data nog veel sterker tot uiting komt dan in fig 2 . Deze nieuwe data leveren nieuwe baby’s. Daarom maak je voor deze nieuwe data een nieuw Excel bestand met de naam baby_nw.xlsx. In dat nieuwe bestand schrijf je de lengte in kolom A en het bijhorende gewicht in kolom B. In kolom C schrijf je lengte (cm) in cel C:2, gewicht (kg) in cel C:3, Lengte en gewicht baby_nw in cel C:4 en baby_nw in cel C:5. Zorg ervoor dat het Excel bestand in de juiste subfolder xcl op je laptop staat en maak een kopie van baby_nw.xlsx naar mijndata.xlsx.
Maak nu voor deze nieuwe bivariate data een tabel (met bivtbl.qmd) en een spreidingsdiagram (met corr.qmd en codediagr <- 1). Wat zie je als je het spreidingsdiagram van baby_nw vergelijkt met het spreidingsdiagram van de oorspronkelijke baby’s? Welke globale kenmerken zijn dezelfde in beide figuren? Welk kenmerk is duidelijk verschillend?
Je kan de x-waarden (lengte) ordenen van klein naar groot en de bijhorende y‑waarden (gewicht) ook van klein naar groot. Dan begin je met de kleinste en lichtste baby om te eindigen bij de grootste en zwaarste. Het Excel bestand baby_nw.xlsx dat je hiervoor opstelt zie je hiernaast.
De samenhang tussen lengte en gewicht toont in beide figuren een opwaartse trend maar in het nieuwe spreidingsdiagram is de sterkte van die samenhang veel groter dan in fig 2 .
3 Oplossing (oef 3)
Zeg bij elk onderstaand spreidingsdiagram enkele dingen die je op het eerste gezicht opvallen als je kijkt naar de globale samenhang tussen x en y.
Suggereert de puntenwolk een lineair verband (samenhang volgens een rechte)? Of zie je een verband tussen x en y dat niet lineair is (welk)? Of zijn er eigenaardigheden in het globale patroon en wat zou daarvoor een verklaring kunnen zijn?
Figuur fig 3 suggereert een lineair verband tussen x en y waarbij punten fluctueren rond een stijgende rechte. Bij stijgende x-waarden corresponderen globaal ook stijgende y‑waarden
In fig 4 lijkt er ook een lineair verband, maar het is onderbroken. Dit zou kunnen wijzen op 2 afzonderlijke groepen die hier samengevoegd zijn. Nota: een voorbeeld hiervan zie je later bij Fisher’s iris data in fig 9.
In fig 5 is er duidelijk een verband tussen x en y, maar dat verband verloopt niet volgens een rechte (het is niet lineair). De punten schommelen rond de grafiek van een parabool.
In fig 6 is het niet duidelijk of er wel een verband te leggen is tussen x en y. De grafiek suggereert wel een opvallende eigenschap van de y-waarden. Bij de start (kleine x‑waarden) zijn de y-waarden vrij stabiel, maar naarmate x groter en groter wordt gaan de bijhorende y-waarden meer en meer schommelen. De variabiliteit van de y-waarden toont een eigenaardig patroon.
4 Oplossing (oef 4)
In fig 12 zie je (in een grotere figuur) een spreidingsdiagram. Eronder staan 2 kleinere figuren, telkens met een rode stippellijn (het gaat hier allemaal over hetzelfde spreidingsdiagram). Kijk eerst alleen naar de grotere figuur zodat je niet afgeleid wordt door de stippellijnen. Als jij een “best aansluitende rechte in die grotere puntenwolk zou moeten tekenen, welke rechte zou jij dan tekenen?
Kijk daarna naar de twee kleinere figuren. Welke stippellijn komt het best overeen met wat jij zou getekend hebben, de linkse of de rechtse?
De stippellijn die je “op zicht” zou getekend hebben is de linkse. Dat is de lijn die “best” aansluit bij wat je automatisch doet bij het bepalen van de afstand van een punt tot een rechte: je werkt met de “loodrechte” afstand van het punt tot die rechte. De linkse stippellijn sluit “best” aan omdat ze de loodrechte afstand van de punten tot die lijn minimaliseert. De rechtse stippellijn doet dat niet, dat is de regressielijn (die besproken wordt in de tekst over regressie).
5 Oplossing (oef 5)
- In oef 1 heb je het spreidingsdiagram getekend voor de lengte en het gewicht van 10 baby’s. Dit spreidingsdiagram is ellipsvormig en toont een stijgende trend (een positieve lineaire samenhang). Bepaal de vergelijking van de typische rechte waarrond de punten van de puntenwolk hier verstrooid liggen. Teken ook een grafiek. Om deze oefening op te lossen zorg je er eerst voor dat de juiste data gekopieerd zijn naar mijndata.xlsx. Daarna activeer je op je laptop corr.qmd met de code
diagr <- 2.
Kopieer eerst baby.xlsx naar mijndata.xlsx
Gebruik dan corr.qmd met diagr <- 2
De gevraagde grafiek zie je hiernaast. De typische rechte is y = 0.16 x - 5.18
- In oef 2 heb je dezelfde lengten en dezelfde gewichten op een nieuwe manier gecombineerd. De nieuwe dataset heb je de naam baby_nw.xlsx gegeven. Gebruik nu deze nieuwe data om de vergelijking van de nieuwe typische rechte te bepalen. Teken ook een grafiek. Ga tewerk zoals in vorig punt: kopieer de juiste data naar mijndata.xlsx en gebruik dan corr.qmd.
Kopieer eerst baby_nw.xlsx naar mijndata.xlsx
Gebruik dan corr.qmd met diagr <- 2
De gevraagde grafiek zie je hiernaast. De typische rechte is y = 0.16 x - 5.18
- Je hebt voor de oorspronkelijke baby’s en voor de nieuwe baby’s telkens de typische rechte berekend en getekend. Wat is het verschil? Hoe komt dat? Staaf je antwoord vanuit de vergelijking van een typische rechte.
De vergelijking van de typische rechte ( Note 1 ) ligt volledig vast zodra de kengetallen van de afzonderlijke x-data (\(\bar{x}\) en \({{s}_{x}}\ )\) en van de afzonderlijke y-data (\(\bar{y}\) en \({{s}_{y}}\ )\) gekend zijn. Welke y bij welke x hoort verandert niets aan de vergelijking van de typische rechte (maar verandert wel duidelijk de positie van de punten in het spreidingsdiagram).
6 Oplossing (oef 6)
Als je een bivariate dataset ontmoet, zonder verdere informatie over de context van het onderzoek, dan kan je op een eenvoudige manier starten om iets te weten te komen over die dataset. Je begint met een grafische voorstelling. Zie je een patroon in het spreidingsdiagram? Heb je te maken met een ellipsvormige puntenwolk die wijst op een lineaire samenhang? En als dat zo is, kan je dan de grafiek samen met de waarde van de correlatiecoëfficiënt gebruiken om iets meer te zeggen over die samenhang?
- Gebruik de vorige vragen om te beschrijven wat je ontdekt bij de dataset van lucas. Let erop dat je op je laptop eerst de data in lucas.xlsx kopieert naar mijndata.xlsx. Gebruik daarna corr.qmd met de code
diagr <- 2.
Het spreidingsdiagram van lucas is globaal ellipsvormig en wijst op een lineaire samenhang. Er is een neerwaartse trend: globaal worden de y-waarden kleiner naarmate de x-waarden vergroten. De negatieve lineaire samenhang, zichtbaar op de figuur, wordt bevestigd door de correlatiecoëfficiënt die negatief is. De punten liggen nogal verspreid rond de typische rechte (y = -1.18x + 42.66) en de waarde van de correlatiecoëfficiënt is r = ‑ 0.6. Alles samen toont dit spreidingsdiagram een matig negatief lineair verband tussen x en y.
- Doe hetzelfde zoals in vorig punt, maar nu voor de dataset van lucie.
corr.qmd met de code diagr <- 2 geeft de melding
Het is niet de bedoeling om de data te wijzigen en dus gebruik je corr.qmd met de code
diagr <- 1
De correlatiecoëfficiënt is gelijk aan nul, wat impliceert dat er geen lineaire samenhang is. Het spreidingsdiagram is bovendien niet “globaal ellipsvormig”. De punten lijken te liggen op 2 lijnstukken die loodrecht op elkaar staan.
7 Oplossing (oef 7)
De vergelijking van de cirkel met middelpunt (0 ,0) en straal 5 is \({{y}^{2}}+{{x}^{2}}=25.\) De y‑waarden die horen bij de bovenste helft van die cirkel (positieve y-waarden) haal je uit de functie \(y=\sqrt{25-{{x}^{2}}}\) voor \(-5\le x\le +5.\) Gebruik deze functie om voor de x‑waarden: -5, -4, -3, 0, 3, 4, 5 de bijhorende y-waarden te bepalen. Zo krijg je een bivariate dataset (x, y) met 7 punten.
Bereken de correlatiecoëfficiënt voor x en y. Gebruik daarbij de R code chunk die je zopas naar “mijnwerkblad.qmd” hebt gekopieerd. Je moet daar nu eerst de x- en y-waarden aanpassen en dan op de groene pijl klikken. Wat krijg je als resultaat?
Voor deze bivariate dataset is de correlatiecoëfficiënt gelijk aan nul.
Als men zegt “een correlatie die gelijk is aan nul betekent dat er geen samenhang is tussen x en y” , wat zeg jij dan? Welke correlatie heb je gevonden bij een perfecte samenhang (waar alle punten perfect op de grafiek van \(y=\sqrt{25-{{x}^{2}}}\) liggen) ?
Als de correlatiecoëfficiënt gelijk is aan nul, dan is er geen lineaire samenhang. “Geen lineaire samenhang” kan op verschillende manieren:
. er is geen samenhang
. er is wel samenhang maar die is niet lineair (zoals in dit voorbeeld).
Zeggen dat er geen samenhang is als de correlatiecoëfficiënt gelijk is aan nul is fout.
8 Oplossing (oef 8)
In fig 15 zie je de puntenwolken van kobe, lisa, kato en daan. Probeer de correlatiecoëfficiënt te bepalen door die op zicht te schatten. Noteer die schatting even voor jezelf, voor elke puntenwolk. Kies hiervoor uit de getallen 0.50, 0.75, 0.90 en 0.95.
Wanneer een ellipsvormig spreidingsdiagram smaller en smaller wordt, dan liggen de datapunten dichter en dichter tegen de typische rechte. Dat wijst op een grotere correlatiecoëfficiënt. Op zicht kom je dan tot:
r = 0.50 voor daan, r = 0.75 voor kobe, r = 0.90 voor lisa en r = 0.95 voor kato.
De correlatiecoëfficiënten die je zopas geschat hebt, kan je ook berekenen. Alle data die je daarvoor nodig hebt staan reeds in onderstaande code chunk. Met kopiëren en plakken (zie ) breng je de code chunk over naar “mijnwerkblad.qmd”. Als je daar nu op de groene pijl drukt, dan vind je de exacte correlatiecoëfficiënten voor kobe, lisa, kato en daan.
De correlatiecoëfficiënt is voor elke bivariate dataset dezelfde, namelijk r = 0.5 .
Heb je in punt 2 hetzelfde antwoord als in punt 1? Kan je dit verklaren? Teken eens, zonder beperking van schaalverdeling, het spreidingsdiagram van kato. Kopieer eerst kato.xlsx naar mijndata.xlsx en gebruik dan corr.qmd met code
diagr <- 1. Wat zie je nu? Hoe heeft R de schaalverdelingen gekozen? Geeft dit een beter grafisch beeld?
De keuze van een schaalverdeling kan een figuur totaal vervormen. Je wordt dan, op zicht, helemaal op het verkeerde been gezet.
Als je nauwkeurig kijkt naar de x-waarden van kato, dan liggen die allemaal tussen 19.5 en 22.2. Als je hier (zonder verdere restricties) een figuur moet tekenen, dan neem je op de x-as geen schaalverdeling van 0 tot 45 voor getallen die allemaal tussen 19.5 en 22.2 liggen. Je computer doet dat ook niet. Bij het bovenstaande spreidingsdiagram heeft R de fysische lengte van de x-as opgedeeld zodat die de afstand van 19.5 tot 22.2 bestrijkt. Zo krijg je een goed beeld van de dataset van kato.
9 Oplossing (oef 9)
Teken een gestandaardiseerd spreidingsdiagram voor de lengte en de breedte van de bloemblaadjes van kobe. Kopiëer eerst kobe.xlsx naar mijndata.xlsx en gebruik dan corr_z.qmd .
Doe nu hetzelfde voor de data van kato. Vergelijk dit spreidingsdiagram met dat van kobe. Wat zie je?
De gestandaardiseerde spreidingsdiagrammen van kobe en van kato zijn identiek, met dezelfde correlatiecoëfficiënt r = 0.50.
- Zegt het voorgaande resultaat dat de afmetingen van de bloemblaadjes van kobe dezelfde zijn als die van kato? Verklaar je antwoord.
De oorspronkelijke data van kobe en van kato zijn helemaal niet identiek. Dat zie je in punt 2 van opl 8 . Het is niet omdat 2 bivariate datasets na standaardisatie samenvallen, dat hun oorspronkelijke waarden ook dezelfde zijn. De correlatiecoëfficiënt verandert echter niet. Je hebt r = 0.5 in opl 8 en dat is hier ook zo.
10 Oplossing (oef 10)
- Bereken met R de correlatiecoëfficiënt voor de 4 datasets van Anscombe.
Gebruik de kopieerbare R code chunk. Als je in “mijnwerkblad.qmd” op de groene pijl in de code chunk klikt, dan vind je het gevraagde resultaat.
Wat is er speciaal aan die datasets van Anscombe? Wat zou iemand die alleen naar de waarde van de correlatiecoëfficiënt kijkt, mogelijks zeggen over die 4 datasets?
De 4 datasets hebben dezelfde correlatiecoëfficiënt.
Iemand die alleen naar de correlatiecoëfficiënt kijkt en bemerkt dat die positief is en een waarde van 0.82 heeft, zou kunnen zeggen dat er bij die 4 datasets een positief lineair verband is dat tamelijk sterk is. Zo’n uitspraak doen, zonder naar de spreidingsdiagrammen te kijken, is een grote vergissing. Dat zie je in de figuren hieronder in punt 2.
- Je kent nu de correlatiecoëfficiënten. Combineer die informatie met wat je ziet in het spreidingsdiagram (voor elke dataset).
Kopieer telkens het gepaste bestand (zoals ans1.xlsx) naar mijndata.xlsx en gebruik dan corr_z.qmd.
Wat zeg je nu over de datasets van Anscombe?
De puntenwolk anscombe_1 is globaal ellipsvormig. Dit gestandaardiseerd spreidingsdiagram kan je vergelijken met de voorbeelden in fig 18. Wat sterkte van de samenhang betreft is er een vrij goede overeenkomst met het spreidingsdiagram met r = 0.90 bij de voorbeelden.
De figuur samen met de waarde van de correlatiecoëfficiënt (r = 0.82) doet je besluiten dat er in deze dataset een “matig tot sterk” positief lineair verband is tussen de twee veranderlijken.
De puntenwolk anscombe_2 toont een verband tussen x en y maar dat verband is helemaal niet lineair.
Een correlatiecoëfficiënt, als wiskundige formule, kan je uiteraard berekenen. Hier levert dat r = 0.82. Maar de betekenis van een correlatiecoëfficiënt als maat voor sterkte en zin bij een lineaire samenhang is bij deze dataset niet zinvol.
De twee onderstaande figuren tonen terug dat een kengetal, zoals een correlatiecoëfficiënt, wel wiskundig kan berekend worden. Voor een juiste interpretatie is echter veel meer nodig dan een berekening. De spreidingsdiagrammen anscombe_3 en anscombe_4 tonen “bijna perfecte” verbanden, telkens onderbroken door een ernstige uitschieter. Een getal, zoals r = 0.82, toont die uitschieter niet.
11 Oplossing (oef 11)
- Kopieer de data van de beenderen van meisjes (beenm.xlsx) naar mijndata.xlsx. Gebruik dan corr.qmd met
diagr <- 2om de samenhang tussen lengte en breedte te bespreken bij de beenderen van meisjes.
Het spreidingsdiagram toont een negatief lineair verband waarbij punten nogal verstrooid liggen rond de typische rechte (y = -0.78 x + 12.6). De correlatiecoëfficiënt is negatief met een waarde van r = -0.55. De sterkte van het lineair verband is “matig”. De zin van de samenhang is tegengesteld aan de zin die gevonden werd in de studie voor “kinderen”. Bij meisjes zijn langere beenderen globaal smaller.
- Doe nu hetzelfde voor de beenderen van jongens (gebruik beenj.xlsx).
Een aparte studie van de afmetingen van beenderen bij jongens geeft een analoog beeld als bij de meisjes. Ook hier is de correlatiecoëfficiënt negatief en de waarde is r = -0.54.
Bij de beenderen van jongens is er een matig negatief lineair verband tussen de lengte en de breedte. Langere beenderen zijn globaal smaller.