Ordlista med korta förklaringar

av Anders Sundell

Här är en ordlista med kortfattade förklaringar av vanliga begrepp inom statistisk analys.

ORDLISTA
GENERELLA BEGREPP
Analysenhet De enheter som vi jämför. Till exempel länder, individer, år, aktier, kommuner, osv.
Variabel Egenskap hos analysenheterna som varierar. Till exempel längd, ålder eller partillhörighet hos individer, eller befolkning, grad av demokrati eller klimat hos länder.
Variabelvärde Det faktiska värde en analysenhet har på en variabel.
Kausalitet Orsaksförhållande. I ett kausalt samband förväntas den ena variabeln ha påverkat den andra.
Centralmått Ett värde som sammanfattar tendensen i ett datamaterial.
Fördelning Hur värdena fördelar sig över alla möjliga värden. Kan se ut på alla möjliga sätt.
Normalfördelning En specifik fördelning, där de flesta värdena återfinns i mitten, och förre ute i kanterna.
Spridning Hur värdena är fördelade kring centralmåttet.
Korrelation Grad av samvariation mellan två variabler.
Kovarians Grad av samvariation mellan två variabler, fast uttryckt i den skala som variablerna är mätta i, dvs svårare att jämföra än korrelation.
URVAL OCH INFERENS
Population Den grupp vi vill dra slutsatser om, till exempel väljare i Sverige.
Urval  Den del av populationen (som kan väljas ut på olika sätt) som vi faktiskt studerar. Engelska: sample.
Slumpmässigt urval När vi slumpmässigt drar enheter ur populationen till urvalet. Generellt sett det urvalssätt som ger bäst möjligheter till generalisering.
Kvoturval När vi sätter ihop urvalet för att fylla vissa kvoter, som matchar populationen.
Självselekterat urval När analysenheterna själva får anmäla sig till urvalet. Ger mycket dåliga möjligheter att generalisera till populationen, eftersom de som anmäler sig ofta inte är representativa.
Inferens Att generalisera slutsatser om urvalet till populationen som helhet.
Centrala gränsvärdessatsen Teori som säger att när vi tar många urval ur en population kommer medelvärdet i urvalen bilda en normalfördelning centrerat på det sanna medelvärdet i populationen. Ligger till grund för signifikansberäkningar. Engelska: Central limit theorem.
Konfidensintervall  Intervall av värden som uttrycker graden av osäkerhet. Till exempel kring vad det sanna medelvärdet är i en population, eller vad det sanna sambandet mellan två variabler är.
VARIABELTYPER (SKALNIVÅ)
Nominalskala Kategorisering utan rangording. Variabeln "frukt" kan ha värdena "apelsin," "päron" eller "äpple" men de kan inte rangordnas.
Ordinalskala Kategorisering med rangordning, men utan ekvidistans (dvs det är olika avstånd mellan de olika skalstegen). Till exempel kan variabeln "Inställning till förslag" ha värdena "Mycket bra," "Ganska bra," "Varken bra eller dåligt," "Ganska dåligt" eller "Mycket dåligt." Mycket bra är bättre än ganska bra, och ganska bra är bättre än varken bra eller dåligt, men vi vet inte att hoppen däremellan är lika stora.
Intervallskala Kategorisering med rangordning och ekvidistans. Till exempel längd i centimeter. Varje steg uppåt på skalan är lika långt.
CENTRALMÅTT
Typvärde Det enskilt vanligaste värdet. Lämpligt för nominalskalor.
Median Det värde man får om man arrangerar alla värden i storleksordning, och tar det som är på mitten (eller mittemellan de två som är i mitten). Lämpligt för ordinalskalor, men går även att använda på intervallskalor.
Medelvärde Det värde man får om man summerar alla enskilda värden och dividerar med antalet enheter. Kan bara användas på intervallskalor.
Formel: $\bar{x} = \frac{1}{n}\sum_{i=1}^n x_i$
SPRIDNINGSMÅTT
Varians
Ett mått på avvikelsen från medelvärdet, som används i många andra beräkningar.
Formel: $V = \frac{\sum_{i=1}^n (x_i - \bar{x})^2)}{n-1}$
Formeln betyder att man tar varje enskild observations avvikelse från medelvärdet, kvadrerar den, och sedan summerar man alla de kvadrerade avvikelserna, delar med n-1, och tar sedan roten ur detta.
Standardavvikelse Ett mått på den typiska avvikelsen från medelvärdet. Beräknas som roten av variansen.
Formel: $s = \sqrt{V}$
VARIABELSPRÅKET
Beroende variabel Den variabel vi vill förklara. Kallas ibland utfallsvariabel, eller på engelska dependent variable eller outcome variable.
Oberoende variabel Den variabel vi tror förklarar den beroende variabeln. Kallas ibland prediktor, eller på engelska independent varaible, determinant eller predictor.
Kontrollvariabel Ytterligare variabel som förs in i analysen, oftast för att utesluta spuriositet.
Bakomliggande variabel Variabel som kommer före den oberoende variabeln i den tänkta orsakskedjan. Kan ofta vara bra att kontrollera för.
Mellanliggande variabel Variabel som kommer mellan den oberoende variabeln och den beroende variabeln i den tänkta orsakskedjan. Ska inte kontrolleras för om man vill utesluta spuriositet.
Interaktionsvariabel Variabel som styr vilken effekt den oberoende variabeln har. Kallas ibland för modererande variabel.
Dummyvariabel Variabel som visar om en analysenhet har en egenskap (1), eller inte (0).
TYPER AV SAMBAND
Nollsamband Brist på korrelation mellan två variabler.
Positivt samband Samband där mer av den ena variabeln hänger ihop med mer av den andra, och där mindre av den ena variabeln hänger ihop med mindre av den andra.
Negativt samband Samband där mer av den ena variabeln hänger ihop med mindre av den andra, och där mindre av den ena variabeln hänger ihop med mer av den andra.
Kausalt samband Samband där den oberoende variabeln orsakar den beroende.
Spuriöst samband Samband mellan två variabler som orsakats av att en tredje variabel orsakat både oberoende och beroende.
Undertryckt samband Egentligen existerande samband mellan två variabler, som döljs av att en tredje variabel hänger ihop med mindre värden på den ena variabeln och högre på den andra, eller tvärtom.
Ickelinjärt samband Samband som förändras beroende på variabelns värde. Till exempel sambandet mellan ålder och valdeltagande. Sannolikheten att rösta ökar när man blir äldre, men bara till en viss gräns: riktigt gamla röstar i mindre utsträckning än de i medelåldern.
ANALYSTEKNIKER
Univariat analys Analys av en variabel. Till exempel beräkning av medelvärde.
Bivariat analys Analys av samband mellan två variabler.
Korrelationsanalys Analys som visar sambandets riktning och styrka mellan två variabler. Det finns många olika korrelationsmått, men det vanligaste är Pearson's R.
Regressionsanalys Analys där linje passas till en mängd punkter. Ger uppgifter om linjens lutning, sambandets styrka, osäkerhet i skattningen av linjen, m.m.
Multipel regressionsanalys Regressionsanalys med fler än en oberoende variabel.
Logistisk regressionsanalys Typ av regressionsanalys anpassat för fall där den beroende variabeln bara har värdet 0 eller 1.
Faktoranalys Analys där man försöker hitta gemensamma nämnare mellan olika variabler. Dvs reducera datan för att se om det finns någon latent variabel, som vi inte observerat, som kan förklara variationen i flera variabler.
DESIGNTYPER
Experimentell design När vi har kontroll över den oberoende variabeln, och slumpar analysenheter in i experimentgrupp (som utsätts för en behandling) och kontrollgrupp (som inte utsätts för behandling eller utsätts för en annan behandling). Ger goda möjligheter att uttala sig om kausalitet.
Pseudoexperimentell design När vi utnyttjar naturlig variation för att hitta specialfall där det blivit ungefär som slumpmässig tilldelning till någon "behandling."
Regression discontinuity design När det finns någon skarp gräns som styr tilldelning till någon specifik variabel, och vi antar att analysenheter precis ovan och under gränsen är ungefär lika, och att slumpen avgör vilka som hamnar ovan och under.
Matchning När analysenheter matchas ihop med sina "statistiska tvillingar," dvs enheter som har samma värden på alla relevanta variabler förutom den oberoende.
Tvärsnittsdesign När vi jämför många analysenheter vid ett tillfälle. Engelska: Crosssectional analysis.
Longitudinell design När vi jämför analysenheter med sig själva över tid.
Paneldesign När vi jämför många enheter med varandra, och över tid. Kallas också Time Series-Cross Section.
BEGREPP INOM REGRESSIONSANALYS
Regressionslinje Den linje som passar bäst till punktmängden.
b-koefficient Lutning på regressionslinjen. Hur mycket den beroende variabeln förväntas öka när den oberoende variabeln ökar med ett steg.
Konstant/intercept Det förväntade värdet på den beroende variabeln när alla oberoende variabler i analysen har värdet 0.
$R^2$ Ett mått på hur mycket av variationen i den beroende variabeln som kan förklaras av de oberoende variablerna. Går mellan 0 och 1. 0.5 kan tolkas som "50% av variationen i den beroende variabeln förklaras av de oberoende variablerna."
Standardfel Ett mått på osäkerheten i skattningen av b-koefficienten. Engelska: Standard error.
t-värde B-koefficienten delat med standardfelet. Används för att beräkna signifikansvärdet.
p-värde Signifikansvärdet. Visar hur osannolikt det är att man skulle få en b-koefficient som är minst så stor, givet att nollhypotesen stämmer. Är egentligen bara intressant när man analyserar ett urval, eller har en slumpmässig tilldelning i ett experiment. Men trots detta används det ofta som beslutsregel för att avgöra när samband är starka nog att tolkas. Den vanliga beslutsregeln är att p-värden under 0.05 räknas som signifikanta. Räknas fram genom att jämföra t-värdet med en t-fördelning, som beror på hur många analysenheter man har med i analysen.
n-tal Hur många analysenheter som ingick i analysen.
Ostandardiserad regressionskoefficient  Den vanliga b-koefficienten, som då är uttryckt i den beroende variabelns enhet. Om tex beroende variabel är BNP per capita visar koefficienten hur mycket BNP per capita förväntas öka om den oberoende variabeln ökar med ett skalsteg.
Standardiserad regressionskoefficient b-koefficienten, fast standardiserad så att variansen i både oberoende och beroende variabel är 1. Möjliggör jämförelse mellan koefficienter mätta med olika skalor, vilket annars är svårt.
DIAGRAM
Histogram Visar fördelningen av en variabel. Heter samma på engelska.
Spridningsdiagram Visar sambandet mellan två variabler genom att rita ut analysenheterna som punkter utifrån två axlar. Engelska: Scatterplot.