In het bijzonder verwijs ik naar de Pearson product-moment correlatiecoëfficiënt.
In het bijzonder verwijs ik naar de Pearson product-moment correlatiecoëfficiënt.
Wat is het verschil tussen de correlatie tussen $ X $ en $ Y $ en een lineaire regressie die $ Y $ voorspelt vanaf $ X $?
Ten eerste, enkele overeenkomsten :
Ten tweede, enkele verschillen :
Hier is een antwoord dat ik op de website graphpad.com heb gepost:
Correlatie en lineaire regressie zijn niet hetzelfde. Overweeg deze verschillen:
In het geval van lineaire regressie met één voorspeller heeft de gestandaardiseerde helling dezelfde waarde als de correlatiecoëfficiënt. Het voordeel van de lineaire regressie is dat de relatie zo kan worden beschreven dat je (op basis van de relatie tussen de twee variabelen) de score op de voorspelde variabele kunt voorspellen bij een bepaalde waarde van de voorspellende variabele. In het bijzonder geeft een stukje informatie een lineaire regressie je dat een correlatie niet het snijpunt is, de waarde van de voorspelde variabele wanneer de voorspeller 0 is.
Kortom - ze produceren computationeel identieke resultaten, maar daar zijn meer elementen die interpreteerbaar zijn in de eenvoudige lineaire regressie. Als u geïnteresseerd bent in het eenvoudig karakteriseren van de omvang van de relatie tussen twee variabelen, gebruik dan correlatie - als u geïnteresseerd bent in het voorspellen of verklaren van uw resultaten in termen van bepaalde waarden, wilt u waarschijnlijk regressie.
Alle tot nu toe gegeven antwoorden bieden belangrijke inzichten, maar vergeet niet dat u de parameters van de een in de ander kunt omzetten:
Regressie: $ y = mx + b $
Verband tussen regressieparameters en correlatie, covariantie, variantie, standaarddeviatie en gemiddelden: $$ m = \ frac {Cov (y, x)} {Var (x)} = \ frac {Cor (y, x) \ cdot Sd (y)} {Sd (x)} $$ $$ b = \ bar {y} -m \ bar {x} $$
U kunt beide dus in elkaar transformeren door hun parameters te schalen en te verschuiven.
Een voorbeeld in R:
y <- c (4.17, 5.58, 5.18, 6.11, 4.50, 4.61, 5.17, 4.53, 5.33, 5.14)
x <- c (4.81, 4.17, 4.41, 3.59, 5.87, 3.83, 6.03, 4.89, 4.32, 4.69)
lm (y ~ x)
##
## Bellen:
## lm (formule = y ~ x)
##
## Coëfficiënten:
## (onderscheppen) x
## 6.5992 -0.3362
(m <- cov (y, x) / var (x)) # helling van regressie
## [1] -0,3362361
cor (y, x) * sd (y) / sd (x) # hetzelfde met correlatie
## [1] -0,3362361
gemiddelde (y) - m * gemiddelde (x) # onderscheppen
## [1] 6.599196
Correlatieanalyse kwantificeert alleen de relatie tussen twee variabelen en negeert welke afhankelijke variabele en welke onafhankelijk is. Maar voordat u regressie toepast, moet u de impact van welke variabele u op de andere variabele wilt controleren, kalibreren.
Door correlatie kunnen we alleen een index krijgen die de lineaire relatie tussen twee variabelen beschrijft; bij regressie kunnen we de relatie tussen meer dan twee variabelen voorspellen en deze gebruiken om te bepalen welke variabelen x de uitkomstvariabele y kunnen voorspellen.
Altman DG citeert, "Praktische statistieken voor medisch onderzoek" Chapman & Hall, 1991, pagina 321: "Correlatie reduceert een set gegevens tot een enkel getal dat geen directe relatie heeft met de feitelijke gegevens. Regressie is veel nuttiger methode, met resultaten die duidelijk verband houden met de verkregen meting. De sterkte van de relatie is expliciet en onzekerheid kan duidelijk worden afgeleid uit betrouwbaarheidsintervallen of voorspellingsintervallen "
De regressieanalyse is een techniek om de oorzaak van het effect van een relatie tussen twee variabelen te bestuderen. terwijl de correlatieanalyse een techniek is om de relatie tussen twee variabelen te kwantificeren.
Correlatie is een index (slechts één cijfer) van de sterkte van een relatie. Regressie is een analyse (schatting van parameters van een model en statistische toetsing van hun significantie) van de geschiktheid van een bepaalde functionele relatie. De grootte van de correlatie is gerelateerd aan hoe nauwkeurig de voorspellingen van de regressie zullen zijn.
Correlatie is een term in een statistiek die bepaalt of er een relatie is tussen twee en vervolgens de mate van relatie. Het bereik is van -1 tot +1. Terwijl regressie betekent teruggaan naar het gemiddelde. Op basis van regressie voorspellen we de waarde door de ene variabele afhankelijk en de andere onafhankelijk te houden, maar het zou duidelijk moeten zijn welke waarde we willen voorspellen.