Korrelation

av Anders Sundell

En av de enklaste och mest informativa analyserna man kan göra på ett statistiskt material är korrelationsanalysen. Den visar riktningen och styrkan i ett samband mellan två variabler. Riktningen avser om det är positivt eller negativt samband.

Om det är positivt hänger mer av den ena variabeln ihop med mer av den andra. Motsvarande hänger mindre av den ena variabeln ihop med mindre av den andra. Om sambandet är negativt hänger mer av den ena variabeln ihop med mindre av den andra.

Det finns många olika korrelationsmått som är anpassade till variabler av olika typer. Det antagligen vanligaste är dock <a href = "https://en.wikipedia.org/wiki/Pearson_correlation_coefficient" target=_blank>Pearson's R</a>, som visar det linjära sambandet mellan två variabler på intervallskalenivå. Det går från -: (perfekt negativt samband) via 0 (inget samband alls) till +1 (perfekt positivt samband).

För att ha något att jobba med kommer vi att använda oss av QoG basic-datamängden. Ladda med den och lägg den i din projektmapp. Öppna sedan datamängden med use-kommandot - tänk på att ange rätt sökväg.

In [11]:
use "qog_bas_cs_jan19.dta", clear
(Quality of Government Basic dataset 2019 - Cross-Section)

Bivariat korrelation

Säg att vi vill titta på korrelationen mellan ett lands korruption (som mätt av Transparency International) och graden av demokrati (som mätt av Polity-projektet). Vi skriver då bara:

In [15]:
pwcorr ti_cpi p_polity2
             |   ti_cpi p_poli~2
-------------+------------------
      ti_cpi |   1.0000 
   p_polity2 |   0.4178   1.0000 

Vi får då ut denna mycket enkla korrelationsmatris, som visar sambandet mellan de två variablerna. Den är 0.4178, vilket betyder att det är ett positivt samband: Högre värden på ti_cpi (vilket indikerar mindre korruption) hänger ihop med högre värden på p_polity2 (vilket indikerar mer demokrati). Demokratiska länder är mindre korrupta, i genomsnitt.

Man kan också lägga till olika options för att få ut mer information. En vanlig sak man vill vet aär om korrelationen är statistiskt signifikant. Det gör man genom att lägga till option sig.

In [18]:
pwcorr ti_cpi p_polity2, sig
             |   ti_cpi p_poli~2
-------------+------------------
      ti_cpi |   1.0000 
             |
             |
   p_polity2 |   0.4178   1.0000 
             |   0.0000
             |

Under varje korrelationskoefficient står nu signifikansvärdet, i det här fallet 0.0000. Det betyder att det är osannolikt att ett så starkt samband skulle uppkomma på grund av slump i urvalet. Nu blir tolkningen av signifikansen dock lite annorlunda när det inte är ett slumpmässigt urval, men det är i alla fall lågt.

Sedan kanske vi vill se hur många observationer som ingick i analysen. Då skriver vi till obs. 164 ingick i den här analysen.

In [17]:
pwcorr ti_cpi p_polity2, sig obs
             |   ti_cpi p_poli~2
-------------+------------------
      ti_cpi |   1.0000 
             |
             |      164
             |
   p_polity2 |   0.4178   1.0000 
             |   0.0000
             |      164      164
             |

Korrelationsmatris

En bekväm sak med korrelationsanalyser är att det går lätt att undersöka sambanden mellan många variabler. Analysen är riktningslös; ingen variabel anges som beroende eller oberoende. Det spelar därmed ingen roll i vilken ordning man lägger in variablerna.

Nu vill vi också se sambandet mellan graden av mellanmänsklig tillit i befolkningen, som mätt i enkäter av World Values Survey. Variabeln heter wvs_trust. Vi tar i det här läget bort signifikanssiffrorna, för att göra matrisen lite mer lättläst.

In [20]:
pwcorr ti_cpi p_polity2 wvs_trust, obs
             |   ti_cpi p_poli~2 wvs_tr~t
-------------+---------------------------
      ti_cpi |   1.0000 
             |      178
             |
   p_polity2 |   0.4178   1.0000 
             |      164      165
             |
   wvs_trust |   0.4714  -0.1909   1.0000 
             |       34       34       34
             |

Matrisen fick nu en ytterligare rad, och vi kan se alla de parvisa sambanden mellan de olika variablerna. Vi ser att mer mellanmänsklig tillit hänger ihop med högre värden på ti_cpi (dvs mindre korruption). Vad som är hönan och ägget går dock inte att svara på från den här analysen. Intressant nog ser vi också att mer tillit hänger ihop med mindre demokrati, även om sambandet inte är särskilt starkt (och inte heller signifikant, även om det inte syns här).

Ett möjligt problem med analysen är dock att vi ser att det är olika antal observationer som ingår i de olika analyserna. När sambandet mellan ti_cpi och p_polity2 undersöks ingår 164 länder, men i beräkningen av sambandet mellan ti_cpi och wvs_trust ingår bara 34 länder. Förklaringen är att tillitsvariabeln bara har information om ett fåtal länder.

På sätt och vis är det bra att analysen utnyttjar maximalt antal observationer i varje enskild beräkning. Men eftersom regressionsanalyser begränsas till de observationer som vi har komplett data på blir en sån här korrelationsmatris inte direkt jämförbar med regressionsanalyser som inkluderar alla variabler. Det kan vara problematiskt när man ska presentera resultaten på ett pedagogiskt sätt.

Därför kan man begränsa matrisen till att bara inkludera observationer som har all information, så att det är samma observationer som analyseras i beräkningen av alla samband. Det gör man genom kommandot corr, istället för pwcorr. Med corr-kommandot kan vi dock av någon anledning inte få ut signifikanssiffrorna.

In [21]:
corr ti_cpi p_polity2 wvs_trust
(obs=34)

             |   ti_cpi p_poli~2 wvs_tr~t
-------------+---------------------------
      ti_cpi |   1.0000
   p_polity2 |   0.1145   1.0000
   wvs_trust |   0.4714  -0.1909   1.0000

Nu anges att det bara är 34 observationer som ingår i analysen. Vi ser också att sambandet mellan demokrati och korruption är mycket svagare i den här gruppen av länder: Korrelationskoefficienten r är 0.1145, jämfört med 0.4178 när den beräknades på det större antalet länder. Det är viktigt att ha med sig när man ska tolka sambanden - den här gruppen av länder verkar skilja sig något från den större gruppen.

Avslutning

Korrelationsanalyser är ett mycket bra verktyg för att utforska sin data, och snabbt se samband. Korrelationsmatriser är ofta ett bra inslag i en uppsats metoddel eller i början av resultaten, och gör det lättare att förstå vad det är som händer i mer avancerade analyser, eftersom de beror på de inbördes korrelationerna mellan variablerna.

Viktigt att tänka på är att alla korrelationsanalyser är bivariata, och tar alltså inte hänsyn till några andra variabler, även om andra variabler är inkluderade i samma matris.