Hoe de correlatiecoëfficiënt met Excel te vinden?

Hoe de correlatiecoëfficiënt met Excel te vinden?

Een van de eenvoudigste en meest voorkomende statistische Excel-berekeningen je zou kunnen maken is correlatie. Het is een eenvoudige statistiek, maar het kan erg informatief zijn als je wilt zien of twee variabelen gerelateerd zijn. Als u de juiste commando's kent, is het uiterst eenvoudig om de correlatiecoëfficiënt in Excel te vinden.





We zullen kijken naar wat correlatie is om u een idee te geven van de informatie die het u geeft. Daarna gaan we verder met het vinden van de correlatiecoëfficiënt in Excel met behulp van twee methoden en een goede grafiek om naar correlaties te kijken. Ten slotte zal ik je een heel korte introductie geven tot lineaire regressie, een andere statistische functie die nuttig kan zijn als je naar correlaties kijkt.





Wat is correlatie?

Laten we, voordat we beginnen, de definitie van correlatie bespreken. Het is een simpele maatstaf voor hoe dingen met elkaar in verband staan. Laten we eens kijken naar twee variabelen die geen enkele correlatie hebben.





Deze twee variabelen (een uitgezet op de X-as, een op de Y) zijn volledig willekeurig en zijn niet nauw verwant.

De twee onderstaande variabelen zijn echter gecorreleerd:



Over het algemeen geldt dat als de ene variabele stijgt, de andere ook stijgt. Dat is correlatie. (Merk op dat het ook andersom kan zijn; als de ene omhoog gaat en de andere omlaag, is dat een negatieve correlatie.)

Correlatiecoëfficiënt begrijpen

De correlatiecoëfficiënt geeft aan hoe verwant twee variabelen zijn. De coëfficiënt ligt tussen -1 en 1. Een correlatiecoëfficiënt van 0 betekent dat er absoluut geen correlatie is tussen twee variabelen. Dit is wat je zou moeten krijgen als je twee sets willekeurige getallen hebt.





Een coëfficiënt van -1 betekent dat je een perfecte negatieve correlatie hebt: als de ene variabele toeneemt, neemt de andere evenredig af. Een coëfficiënt van 1 is een perfecte positieve correlatie: als de ene variabele toeneemt, neemt de andere ook evenredig toe.

Elk getal daartussen vertegenwoordigt een schaal. Een correlatie van 0,5 is bijvoorbeeld een matige positieve correlatie.





Zoals u in de onderstaande afbeelding kunt zien, zoekt correlatie alleen naar een lineair verband. Twee variabelen kunnen op een andere manier sterk gerelateerd zijn en toch een correlatiecoëfficiënt van nul hebben:

Afbeelding tegoed: DenisBoigelot/ Wikimedia Commons

Hoe de correlatiecoëfficiënt in Excel te vinden met behulp van CORREL

Er is een ingebouwde functie voor correlatie in Excel. De CORREL-functie heeft een zeer eenvoudige syntaxis:

=CORREL(array1, array2)

array1 is uw eerste groep getallen en array2 is de tweede groep. Excel zal een getal uitspugen, en dat is uw correlatiecoëfficiënt. Laten we naar een voorbeeld kijken.

In deze spreadsheet hebben we een lijst met auto's, met model en jaar, en hun waarden. Ik heb de CORREL-functie gebruikt om te zien of het modeljaar en de waarde gerelateerd waren:

Er is een zeer zwakke positieve correlatie; dus naarmate het jaar stijgt, neemt ook de waarde van het voertuig toe. Maar niet heel erg.

Grafische correlaties

Wanneer u correlaties uitvoert, is het een goed idee om een ​​spreidingsplot te gebruiken om een ​​visueel inzicht te krijgen in hoe uw gegevenssets gerelateerd zijn. Ga naar Grafieken > Verspreiding om te zien hoe uw gegevens eruit zien:

U kunt zien dat in deze gegevens het bouwjaar van de auto niet veel invloed heeft op de waarde. Er is een licht positieve trend, maar het is zwak. Dat hebben we gevonden met onze CORREL-functie.

Een ander handig element in een scatterplot is een trendlijn, die er als volgt uitziet:

De trendlijn kan handig zijn als u een correlatie duidelijk wilt maken in uw scatterplot. Klik in Windows op Hulpmiddelen voor grafieken > Ontwerp > Grafiekelement toevoegen en selecteer trendlijn . Op een Mac moet je naar Kaartlay-out of Grafiekontwerp , afhankelijk van de editie van Excel.

En vergeet niet onze gids voor het maken van geweldige grafieken in Excel voordat je bevindingen presenteert!

Meerdere variabelen correleren met het Data Analysis Toolpak

Als u veel verschillende reeksen getallen hebt en u wilt correlaties tussen deze getallen vinden, moet u de functie CORREL op elke combinatie uitvoeren. Met de Data Analysis Toolpak kun je echter een aantal datasets selecteren en kijken waar correlaties liggen.

Weet u niet zeker of u de Data Analysis Toolpak heeft? Bekijk onze uitleg van de basis te downloaden en onder de knie te krijgen.

hoe youtube-video's online met vrienden te bekijken

Om de Toolpak aan te zetten, ga naar Gegevens > Gegevensanalyse . U ziet een lijst met keuzes:

Selecteer Correlatie en raak Oke .

Selecteer in het resulterende venster al uw datasets in de Invoerbereik en vertel Excel waar u uw resultaten wilt plaatsen:

Dit is wat je krijgt als je slaat Oke :

In de bovenstaande afbeelding hebben we correlaties uitgevoerd op vier verschillende datasets: het jaar, de wereldbevolking en twee sets willekeurige getallen.

De correlatie van elke dataset met zichzelf is 1. Het jaartal en de wereldbevolking hebben een extreem sterke correlatie, terwijl er elders zeer zwakke correlaties zijn, zoals we zouden verwachten met willekeurige getallen.

hoe maak je ruimte op Apple Watch?

Correlatie versus lineaire regressie in Excel

Correlatie is een eenvoudige maatstaf: hoe nauw verwant zijn twee variabelen? Deze maat heeft echter geen voorspellende of oorzakelijke waarde. Alleen omdat twee variabelen gecorreleerd zijn, betekent niet dat de ene veranderingen in de andere veroorzaakt. Dat is cruciaal om te begrijpen over correlatie.

Als u geïnteresseerd bent in het maken van een claim over causaliteit, moet u lineaire regressie gebruiken. U kunt hier ook toegang toe krijgen via het Data Analyse Toolpak. (Dit artikel behandelt niet de details van hoe lineaire regressie werkt, maar er zijn tal van gratis bronnen voor statistieken die u door de basis kunnen leiden.)

Open het Data Analysis Toolpak, selecteer regressie en klik op Oke .

Vul het X- en Y-bereik in (de X-waarde is de verklarende variabele en de Y-waarde is de waarde die u probeert te voorspellen). Selecteer vervolgens waar u uw uitvoer wilt hebben en klik op Oke opnieuw.

Het getal waarop u zich hier wilt concentreren, is de p-waarde voor uw verklarende variabele:

Als het minder dan 0,05 is, heb je een sterk argument dat veranderingen in je X-variabele veranderingen in je Y-variabele veroorzaken. In de afbeelding hierboven hebben we laten zien dat het jaar een belangrijke voorspeller is van de wereldbevolking.

Lineaire regressie is ook nuttig omdat het naar meerdere waarden kan kijken. Hier hebben we regressie gebruikt om te zien of jaar en bevolking significante voorspellers zijn van de prijs van ruwe olie:

Beide p-waarden zijn kleiner dan 0,05, dus we kunnen concluderen dat zowel het jaartal als de wereldbevolking significante voorspellers zijn van de prijs van ruwe olie. (Hoewel sterke correlaties tussen X-variabelen hun eigen problemen kunnen veroorzaken.)

Nogmaals, dit is een zeer simplistische uitleg van lineaire regressie, en als je geïnteresseerd bent in causaliteit, moet je een aantal statistieken-tutorials lezen.

Maar nu heb je een idee hoe je verder kunt gaan dan eenvoudige correlatie als je op zoek bent naar meer statistische informatie!

Haal betere gegevens uit Excel

Als u de basisstatistiekfuncties in Excel begrijpt, kunt u veel meer nuttige informatie uit uw gegevens halen. Correlatie is een eenvoudige maatstaf, maar het kan een grote hulp zijn wanneer u beweringen probeert te doen over de cijfers in uw spreadsheet.

Natuurlijk kunt u tal van andere, meer gecompliceerde maatregelen uitvoeren. Maar tenzij je vertrouwd bent met statistieken, wil je dat wel begin met de basis .

Gebruikt u regelmatig de correlatiefunctionaliteit van Excel? Over welke andere statistische functies zou u meer willen weten?

Deel Deel Tweeten E-mail Dit is waarom de FBI een waarschuwing heeft afgegeven voor Hive Ransomware

De FBI waarschuwde voor een bijzonder vervelende vorm van ransomware. Dit is waarom je extra op je hoede moet zijn voor Hive-ransomware.

Lees volgende
Gerelateerde onderwerpen
  • productiviteit
  • Microsoft Excel
Over de auteur Dan Albright(506 artikelen gepubliceerd)

Dann is een contentstrategie- en marketingconsultant die bedrijven helpt bij het genereren van vraag en leads. Hij blogt ook over strategie en contentmarketing op dannalbright.com.

Meer van Dann Albright

Abonneer op onze nieuwsbrief

Word lid van onze nieuwsbrief voor technische tips, recensies, gratis e-boeken en exclusieve deals!

Klik hier om je te abonneren