Bivariate data: van Excel naar R
R maakt op basis van jouw data berekeningen, tabellen en grafieken. Die data typ je niet in met de hand maar je zorgt ervoor dat R de data kan inlezen vanuit een bestand.
In de teksten over correlatie en regressie werk je met bivariate data die vanuit een Excel bestand worden ingelezen. Om dat goed te laten verlopen werk je in 2 stappen:
je maakt vooraf een Excel bestand met de data die je nodig hebt
je kopieert het vooraf gemaakte Excel bestand naar mijndata.xlsx zodat R de data kan inlezen.
Bivariate data in een Excel bestand vooraf klaarmaken.
Start met een nieuw leeg Excel bestand waarin je alleen maar de eerste 3 kolommen gebruikt.
In het leeg Excel bestand geef je de kolommen een naam. DIE NAAM IS ALTIJD NODIG.
In cel A:1 typ je x (daaronder komen de x-waarden), in cel B:1 typ je y (daaronder komen de y‑waarden) en in cel C:1 typ je lbl (daaronder komen de labels).Vul dan de data in: in de eerste kolom, onder x (dus vanaf cel A:2) komen alle x-waarden en in de tweede kolom (vanaf cel B:2) komen de corresponderende y-waarden.
Voor de labels (de derde kolom met naam lbl) vul je in:
C:2 is de label voor de x-veranderlijke zoals lengte, hoogte,… (of laat blank)
C:3 is de label voor de y-veranderlijke zoals gewicht, breedte,… (of laat blank)
C:4 is de titel zoals Lengte en gewicht bij geboorte, Rechthoeken, … (of laat blank)
C:5 dient als identificatie van de opgemeten elementen zoals baby, rh, … (of laat blank).
Zelfs als je C:2, C:3, C:4 en C:5 allemaal blank laat, dan moet je toch lbl typen in C:1
Een voorbeeld van zo’n Excel bestand zie je hieronder.
Na invullen sla je het bestand op met een handige herkenbare naam zoals rechthoek.xlsx en je zorgt ervoor dat dit bestand op je laptop terechtkomt in de subfolder xcl waarbij de structuur op je laptop eruitziet als:
….. ((sub)folder) stat_met_r ➝ (subfolder) qmd ➝ (subfolder) xcl.
Tenslotte SLUIT je het Excel bestand waarin je je data gezet hebt (in dit voorbeeld sluit je rechthoek.xlsx).VOOR ELKE AFZONDERLIJKE DATASET DIE JE BIJ DE OEFENINGEN GEBRUIKT MAAK JE EEN AFZONDERLIJK EXCEL BESTAND. AL DIE BESTANDEN PLAATS JE OP JE LAPTOP IN DE SUBFOLDER xcl.
Data uit een klaargemaakt Excel bestand gebruiken in R.
Bij de oefeningen over correlatie en regressie zal je regelmatig gebruik maken van R-code die reeds vooraf geprogrammeerd is en die je kan oproepen via qmd-bestanden. Die R-code gaat ervan uit dat de data staan in het Excel bestand met naam mijndata.xlsx. Als je dus wil werken met je eigen data die je in het bestand rechthoek.xlsx hebt gezet, dan ga je als volgt te werk:
ga op je laptop naar de subfolder xcl en dubbelklik daar op rechthoek.xlsx (open het bestand )
klik op Bestand -> Kopie opslaan -> Bladeren -> Bestandsnaam: vul in mijndata.xlsx en klik op Opslaan
bij de melding “mijndata.xlsx bestaat al. Wilt u het vervangen?” klik je op Ja
SLUIT nu mijndata.xlsx.
Op dit ogenblik staat op je laptop een ongewijzigd bestand rechthoek.xlsx zodat je die data ook later nog kan gebruiken. In het bestand mijndata.xlsx staan dezelfde data, klaar om nu met R te gebruiken.