Regressie en correlatie

Opdracht

Je hebt een eigen statistisch onderzoek (regressie en correlatie) opgezet in je stageklas (max n=30) en met excel, vustat of een ander statistisch programma relevante conclusies uit getrokken.

Beoordeling

Je laat de stappen van je onderzoek zien (de berekening moet controleerbaar zijn). Je beschrijft de conclusie van je onderzoek. De conclusie klopt volgens de cijfers van jouw onderzoek, in het bijzonder geef je betekenis aan de gevonden correlatiecoëfficiënt.   

Uitwerking

De vraag

In deze steekproef wil ik nagaan in welke mate de foutmarge in de geschatte eigen lengte versus de gemeten lengte toeneemt of afneemt naargelang het aantal leeftijdsjaren toeneemt. Het vermoeden bestaat dat tieners het meest bewust zijn van hun lengte en dat hoe meer de leeftijd toeneemt het belang om dit exact te weten minder belangrijk is.

De opzet

Hiervoor zijn een twintigtal personen in de leeftijd van 14 tot 78 jaar gevraagd om hun leeftijd en lengte op te geven. Hierna werd pas het doel van de vragen toegelicht om eventuele beïnvloeding te voorkomen en werd de werkelijke lengte opgemeten.

Het Excelsheet

De conclusie

De grafiek lijkt een positieve associatie tussen beide variabelen te tonen.

Met regressie probeer je te achterhalen hoe binnen dat verband de waarde van een afhankelijke variabele gemiddeld zal toenemen of afnemen wanneer de waarde van één of meerdere onafhankelijke variabelen toeneemt of afneemt.De regressiecoëfficiënt van bovenstaande lijn is (1,30 - 0,25) / (78-14) = 0,016. Dit houdt in dat voor elk toegenomen levensjaar de foutmarge met 0,016% stijgt.

Met de correlatie geef je aan hoe sterk het verband is tussen variabelen: deze is zwak en de hellingshoek heeft een relatief breed betrouwbaarheidsinterval. Een correlatiecoëfficiënt is in theorie te berekenen maar door het brede betrouwbaarheidsinterval zal deze geen of weinig betekenis hebben.

Hieruit blijkt dat we de foutmarge minder goed kunnen voorspellen op basis van het aantal levensjaren.