Wat is het verschil tussen correlatie en eenvoudige lineaire regressie?

Vraag:

Neil McGuigan

2010-08-26 04:53:00 UTC

view on stackexchange narkive permalink

In het bijzonder verwijs ik naar de Pearson product-moment correlatiecoëfficiënt.

Merk op dat een perspectief op de relatie tussen regressie en correlatie kan worden onderscheiden uit mijn antwoord hier: [Wat is het verschil tussen lineaire regressie uitvoeren op y met x versus x met y?] (Http://stats.stackexchange.com/questions / 22718 // 22721 # 22721).

Tien antwoorden:

Jeromy Anglim

2010-08-26 07:48:15 UTC

view on stackexchange narkive permalink

Wat is het verschil tussen de correlatie tussen $ X $ en $ Y $ en een lineaire regressie die $ Y $ voorspelt vanaf $ X $?

Ten eerste, enkele overeenkomsten :

de gestandaardiseerde regressiecoëfficiënt is hetzelfde als de correlatiecoëfficiënt van Pearson
Het kwadraat van de correlatiecoëfficiënt van Pearson is hetzelfde als de $ R ^ 2 $ in eenvoudige lineaire regressie
Noch eenvoudige lineaire regressie, noch correlatie beantwoorden direct vragen over causaliteit. Dit punt is belangrijk, omdat ik mensen heb ontmoet die denken dat simpele regressie op magische wijze kan leiden tot de conclusie dat $ X $ $ Y $ veroorzaakt.

Ten tweede, enkele verschillen :

De regressievergelijking (dwz $ a + bX $) kan worden gebruikt om voorspellingen te doen over $ Y $ op basis van waarden van $ X $
Terwijl correlatie verwijst doorgaans naar de lineaire relatie, het kan verwijzen naar andere vormen van afhankelijkheid, zoals polynoom of echt niet-lineaire relaties.
Hoewel correlatie doorgaans verwijst naar de correlatiecoëfficiënt van Pearson, zijn er andere soorten correlatie, zoals die van Spearman. .

Hallo Jeromy, bedankt voor je uitleg, maar ik heb hier nog steeds een vraag: Wat als ik geen voorspellingen hoef te doen en gewoon wil weten hoe dicht twee variabelen zijn en in welke richting / sterkte? Is er nog steeds een ander gebruik van deze twee technieken?

@yue86231 Dan klinkt het alsof een maatstaf voor correlatie geschikter zou zijn.

(+1) Aan de overeenkomsten kan het nuttig zijn om toe te voegen dat standaardtests van de hypothese "correlatie = 0" of, equivalent, "helling = 0" (voor de regressie in een van beide volgorde), zoals uitgevoerd door `lm`en `cor.test` in` R`, zullen identieke p-waarden opleveren.

Ik ben het ermee eens dat de suggestie van @whuber moet worden toegevoegd, maar op een heel basaal niveau denk ik dat het de moeite waard is erop te wijzen dat het * teken * van de regressiehelling en de correlatiecoëfficiënt gelijk zijn.Dit is waarschijnlijk een van de eerste dingen die de meeste mensen leren over de relatie tussen correlatie en een "best passende lijn" (zelfs als ze het nog niet "regressie" noemen), maar ik denk dat het het vermelden waard is.Wat de verschillen betreft, verdient het feit dat je hetzelfde antwoord krijgt correlatie X met Y of vice versa, maar dat de regressie van Y op X anders is dan die van X op Y, ook een vermelding verdient.

Harvey Motulsky

2010-08-26 08:21:46 UTC

view on stackexchange narkive permalink

Hier is een antwoord dat ik op de website graphpad.com heb gepost:

Correlatie en lineaire regressie zijn niet hetzelfde. Overweeg deze verschillen:

Correlatie kwantificeert de mate waarin twee variabelen gerelateerd zijn. Correlatie past niet op een lijn door de gegevens.
Bij correlatie hoef je niet na te denken over oorzaak en gevolg. U kwantificeert eenvoudig hoe goed twee variabelen zich tot elkaar verhouden. Bij regressie moet je wel nadenken over oorzaak en gevolg, aangezien de regressielijn wordt bepaald als de beste manier om Y te voorspellen vanuit X.
Bij correlatie maakt het niet uit welke van de twee variabelen je noemt "X" en die u "Y" noemt. U krijgt dezelfde correlatiecoëfficiënt als u de twee verwisselt. Bij lineaire regressie is de beslissing van welke variabele je "X" noemt en welke je "Y" noemt van groot belang, omdat je een andere best passende regel krijgt als je de twee verwisselt. De lijn die Y van X het beste voorspelt, is niet dezelfde als de lijn die X van Y voorspelt (tenzij je perfecte gegevens hebt zonder spreiding).
Correlatie wordt bijna altijd gebruikt wanneer je beide variabelen meet. Het is zelden gepast als één variabele iets is dat u experimenteel manipuleert. Bij lineaire regressie is de X-variabele meestal iets dat je experimenteel manipuleert (tijd, concentratie ...) en de Y-variabele is iets dat je meet.

"de beste manier om Y te voorspellen vanuit X" heeft niets te maken met oorzaak en gevolg: X kan de oorzaak zijn van Y of omgekeerd. Men kan redeneren van oorzaak naar gevolg (deductie) of van gevolg naar oorzaak (ontvoering).

"je krijgt een andere best passende regel als je de twee verwisselt" is een beetje misleidend;de gestandaardiseerde hellingen zullen in beide gevallen hetzelfde zijn.

russellpierce

2010-08-26 11:37:23 UTC

view on stackexchange narkive permalink

In het geval van lineaire regressie met één voorspeller heeft de gestandaardiseerde helling dezelfde waarde als de correlatiecoëfficiënt. Het voordeel van de lineaire regressie is dat de relatie zo kan worden beschreven dat je (op basis van de relatie tussen de twee variabelen) de score op de voorspelde variabele kunt voorspellen bij een bepaalde waarde van de voorspellende variabele. In het bijzonder geeft een stukje informatie een lineaire regressie je dat een correlatie niet het snijpunt is, de waarde van de voorspelde variabele wanneer de voorspeller 0 is.

Kortom - ze produceren computationeel identieke resultaten, maar daar zijn meer elementen die interpreteerbaar zijn in de eenvoudige lineaire regressie. Als u geïnteresseerd bent in het eenvoudig karakteriseren van de omvang van de relatie tussen twee variabelen, gebruik dan correlatie - als u geïnteresseerd bent in het voorspellen of verklaren van uw resultaten in termen van bepaalde waarden, wilt u waarschijnlijk regressie.

"Met name een stukje informatie, een lineaire regressie, geeft je dat een correlatie niet het snijpunt is" ... Heel veel verschil!

Als ik daarop terugkijk, is het alleen waar dat de regressie een onderschepping biedt, omdat dit de standaardinstelling is voor veel statistiekenpakketten om dit te doen.Men zou gemakkelijk een regressie kunnen berekenen zonder een onderschepping.

Ja, men zou gemakkelijk een regressie kunnen berekenen zonder een onderschepping, maar het zou zelden zinvol zijn: https://stats.stackexchange.com/questions/102709/when-forcing-intercept-of-0-in-linear-regression-is-acceptabel-aan te raden / 102712 # 102712

@kjetilbhalvorsen Behalve zoals in het geval dat ik heb beschreven wanneer u een gestandaardiseerde helling monteert.De onderscheppingsterm in een gestandaardiseerde regressievergelijking is altijd 0. Waarom?Omdat zowel de IV als de DV's zijn gestandaardiseerd op eenheidsscores, is het snijpunt dus definitief 0. Precies het soort geval dat u in uw antwoord beschrijft. (het equivalent van het standaardiseren van de IV en de DV).Wanneer zowel IV als DV zijn gestandaardiseerd op 0, is de onderschepping definitief 0.

vonjd

2018-05-05 16:05:26 UTC

view on stackexchange narkive permalink

Alle tot nu toe gegeven antwoorden bieden belangrijke inzichten, maar vergeet niet dat u de parameters van de een in de ander kunt omzetten:

Regressie: $ y = mx + b $

Verband tussen regressieparameters en correlatie, covariantie, variantie, standaarddeviatie en gemiddelden: $$ m = \ frac {Cov (y, x)} {Var (x)} = \ frac {Cor (y, x) \ cdot Sd (y)} {Sd (x)} $$ $$ b = \ bar {y} -m \ bar {x} $$

U kunt beide dus in elkaar transformeren door hun parameters te schalen en te verschuiven.

Een voorbeeld in R:

  y <- c (4.17, 5.58, 5.18, 6.11, 4.50, 4.61, 5.17, 4.53, 5.33, 5.14)
x <- c (4.81, 4.17, 4.41, 3.59, 5.87, 3.83, 6.03, 4.89, 4.32, 4.69)
lm (y ~ x)
##
## Bellen:
## lm (formule = y ~ x)
##
## Coëfficiënten:
## (onderscheppen) x
## 6.5992 -0.3362
(m <- cov (y, x) / var (x)) # helling van regressie
## [1] -0,3362361
cor (y, x) * sd (y) / sd (x) # hetzelfde met correlatie
## [1] -0,3362361
gemiddelde (y) - m * gemiddelde (x) # onderscheppen
## [1] 6.599196

syeda maryium fatima

2010-10-22 14:17:26 UTC

view on stackexchange narkive permalink

Correlatieanalyse kwantificeert alleen de relatie tussen twee variabelen en negeert welke afhankelijke variabele en welke onafhankelijk is. Maar voordat u regressie toepast, moet u de impact van welke variabele u op de andere variabele wilt controleren, kalibreren.

radia

2012-09-21 00:18:40 UTC

view on stackexchange narkive permalink

Door correlatie kunnen we alleen een index krijgen die de lineaire relatie tussen twee variabelen beschrijft; bij regressie kunnen we de relatie tussen meer dan twee variabelen voorspellen en deze gebruiken om te bepalen welke variabelen x de uitkomstvariabele y kunnen voorspellen.

Carlo Lazzaro

2013-12-11 17:31:42 UTC

view on stackexchange narkive permalink

Altman DG citeert, "Praktische statistieken voor medisch onderzoek" Chapman & Hall, 1991, pagina 321: "Correlatie reduceert een set gegevens tot een enkel getal dat geen directe relatie heeft met de feitelijke gegevens. Regressie is veel nuttiger methode, met resultaten die duidelijk verband houden met de verkregen meting. De sterkte van de relatie is expliciet en onzekerheid kan duidelijk worden afgeleid uit betrouwbaarheidsintervallen of voorspellingsintervallen "

Hoewel ik sympathiek sta voor Altman - regressiemethoden zijn in veel gevallen vaak geschikter dan correlatie - vormt dit citaat een stromanargument.In OLS-regressie is de geproduceerde informatie equivalent aan die van de informatie die in een correlatieberekening wordt gebruikt (alle eerste en tweede bivariate momenten en hun standaardfouten) en de correlatiecoëfficiënt levert dezelfde informatie als de regressiehelling.De twee benaderingen verschillen enigszins in de onderliggende datamodellen die ze aannemen en in hun interpretatie, maar niet in de manieren waarop Altman beweert.

Kanon Das Zinku

2014-10-22 21:57:46 UTC

view on stackexchange narkive permalink

De regressieanalyse is een techniek om de oorzaak van het effect van een relatie tussen twee variabelen te bestuderen. terwijl de correlatieanalyse een techniek is om de relatie tussen twee variabelen te kwantificeren.

Welkom bij CV!Gezien het feit dat er al zoveel antwoorden op deze vraag zijn, wil je ze bekijken en zien of de jouwe iets nieuws toevoegt?Als u meer te zeggen heeft, kunt u dit bewerken.

Jdub

2012-06-20 00:51:58 UTC

view on stackexchange narkive permalink

Correlatie is een index (slechts één cijfer) van de sterkte van een relatie. Regressie is een analyse (schatting van parameters van een model en statistische toetsing van hun significantie) van de geschiktheid van een bepaalde functionele relatie. De grootte van de correlatie is gerelateerd aan hoe nauwkeurig de voorspellingen van de regressie zullen zijn.

Nee dat is het niet.Correlatie geeft ons een begrensde relatie, maar heeft geen betrekking op hoe nauwkeurig de voorspellingen zouden kunnen zijn.R2 geeft dat.

shakir sabir

2014-08-14 13:28:47 UTC

view on stackexchange narkive permalink

Correlatie is een term in een statistiek die bepaalt of er een relatie is tussen twee en vervolgens de mate van relatie. Het bereik is van -1 tot +1. Terwijl regressie betekent teruggaan naar het gemiddelde. Op basis van regressie voorspellen we de waarde door de ene variabele afhankelijk en de andere onafhankelijk te houden, maar het zou duidelijk moeten zijn welke waarde we willen voorspellen.

Hallo, @shakir, en welkom bij Cross Validated! Het is je waarschijnlijk opgevallen dat dit een oude vraag is (uit 2010) en dat er al zeven (!) Antwoorden op zijn gegeven. Het zou een goed idee zijn om ervoor te zorgen dat uw nieuwe antwoord iets belangrijks toevoegt aan de discussie dat nog niet eerder is behandeld. Op dit moment weet ik niet zeker of dit het geval is.

ⓘ

Deze Q&A is automatisch vertaald vanuit de Engelse taal.De originele inhoud is beschikbaar op stackexchange, waarvoor we bedanken voor de cc by-sa 2.0-licentie waaronder het wordt gedistribueerd.

info - legalese