Ordlista med korta förklaringar¶

Här är en ordlista med kortfattade förklaringar av vanliga begrepp inom statistisk analys.

ORDLISTA
GENERELLA BEGREPP
Analysenhet	De enheter som vi jämför. Till exempel länder, individer, år, aktier, kommuner, osv.
Variabel	Egenskap hos analysenheterna som varierar. Till exempel längd, ålder eller partillhörighet hos individer, eller befolkning, grad av demokrati eller klimat hos länder.
Variabelvärde	Det faktiska värde en analysenhet har på en variabel.
Kausalitet	Orsaksförhållande. I ett kausalt samband förväntas den ena variabeln ha påverkat den andra.
Centralmått	Ett värde som sammanfattar tendensen i ett datamaterial.
Fördelning	Hur värdena fördelar sig över alla möjliga värden. Kan se ut på alla möjliga sätt.
Normalfördelning	En specifik fördelning, där de flesta värdena återfinns i mitten, och förre ute i kanterna.
Spridning	Hur värdena är fördelade kring centralmåttet.
Korrelation	Grad av samvariation mellan två variabler.
Kovarians	Grad av samvariation mellan två variabler, fast uttryckt i den skala som variablerna är mätta i, dvs svårare att jämföra än korrelation.
URVAL OCH INFERENS
Population	Den grupp vi vill dra slutsatser om, till exempel väljare i Sverige.
Urval	Den del av populationen (som kan väljas ut på olika sätt) som vi faktiskt studerar. Engelska: sample.
Slumpmässigt urval	När vi slumpmässigt drar enheter ur populationen till urvalet. Generellt sett det urvalssätt som ger bäst möjligheter till generalisering.
Kvoturval	När vi sätter ihop urvalet för att fylla vissa kvoter, som matchar populationen.
Självselekterat urval	När analysenheterna själva får anmäla sig till urvalet. Ger mycket dåliga möjligheter att generalisera till populationen, eftersom de som anmäler sig ofta inte är representativa.
Inferens	Att generalisera slutsatser om urvalet till populationen som helhet.
Centrala gränsvärdessatsen	Teori som säger att när vi tar många urval ur en population kommer medelvärdet i urvalen bilda en normalfördelning centrerat på det sanna medelvärdet i populationen. Ligger till grund för signifikansberäkningar. Engelska: Central limit theorem.
Konfidensintervall	Intervall av värden som uttrycker graden av osäkerhet. Till exempel kring vad det sanna medelvärdet är i en population, eller vad det sanna sambandet mellan två variabler är.
VARIABELTYPER (SKALNIVÅ)
Nominalskala	Kategorisering utan rangording. Variabeln "frukt" kan ha värdena "apelsin," "päron" eller "äpple" men de kan inte rangordnas.
Ordinalskala	Kategorisering med rangordning, men utan ekvidistans (dvs det är olika avstånd mellan de olika skalstegen). Till exempel kan variabeln "Inställning till förslag" ha värdena "Mycket bra," "Ganska bra," "Varken bra eller dåligt," "Ganska dåligt" eller "Mycket dåligt." Mycket bra är bättre än ganska bra, och ganska bra är bättre än varken bra eller dåligt, men vi vet inte att hoppen däremellan är lika stora.
Intervallskala	Kategorisering med rangordning och ekvidistans. Till exempel längd i centimeter. Varje steg uppåt på skalan är lika långt.
CENTRALMÅTT
Typvärde	Det enskilt vanligaste värdet. Lämpligt för nominalskalor.
Median	Det värde man får om man arrangerar alla värden i storleksordning, och tar det som är på mitten (eller mittemellan de två som är i mitten). Lämpligt för ordinalskalor, men går även att använda på intervallskalor.
Medelvärde	Det värde man får om man summerar alla enskilda värden och dividerar med antalet enheter. Kan bara användas på intervallskalor. Formel: $\bar{x} = \frac{1}{n}\sum_{i=1}^n x_i$
SPRIDNINGSMÅTT
Varians	Ett mått på avvikelsen från medelvärdet, som används i många andra beräkningar. Formel: $V = \frac{\sum_{i=1}^n (x_i - \bar{x})^2)}{n-1}$ Formeln betyder att man tar varje enskild observations avvikelse från medelvärdet, kvadrerar den, och sedan summerar man alla de kvadrerade avvikelserna, delar med n-1, och tar sedan roten ur detta.
Standardavvikelse	Ett mått på den typiska avvikelsen från medelvärdet. Beräknas som roten av variansen. Formel: $s = \sqrt{V}$
VARIABELSPRÅKET
Beroende variabel	Den variabel vi vill förklara. Kallas ibland utfallsvariabel, eller på engelska dependent variable eller outcome variable.
Oberoende variabel	Den variabel vi tror förklarar den beroende variabeln. Kallas ibland prediktor, eller på engelska independent varaible, determinant eller predictor.
Kontrollvariabel	Ytterligare variabel som förs in i analysen, oftast för att utesluta spuriositet.
Bakomliggande variabel	Variabel som kommer före den oberoende variabeln i den tänkta orsakskedjan. Kan ofta vara bra att kontrollera för.
Mellanliggande variabel	Variabel som kommer mellan den oberoende variabeln och den beroende variabeln i den tänkta orsakskedjan. Ska inte kontrolleras för om man vill utesluta spuriositet.
Interaktionsvariabel	Variabel som styr vilken effekt den oberoende variabeln har. Kallas ibland för modererande variabel.
Dummyvariabel	Variabel som visar om en analysenhet har en egenskap (1), eller inte (0).
TYPER AV SAMBAND
Nollsamband	Brist på korrelation mellan två variabler.
Positivt samband	Samband där mer av den ena variabeln hänger ihop med mer av den andra, och där mindre av den ena variabeln hänger ihop med mindre av den andra.
Negativt samband	Samband där mer av den ena variabeln hänger ihop med mindre av den andra, och där mindre av den ena variabeln hänger ihop med mer av den andra.
Kausalt samband	Samband där den oberoende variabeln orsakar den beroende.
Spuriöst samband	Samband mellan två variabler som orsakats av att en tredje variabel orsakat både oberoende och beroende.
Undertryckt samband	Egentligen existerande samband mellan två variabler, som döljs av att en tredje variabel hänger ihop med mindre värden på den ena variabeln och högre på den andra, eller tvärtom.
Ickelinjärt samband	Samband som förändras beroende på variabelns värde. Till exempel sambandet mellan ålder och valdeltagande. Sannolikheten att rösta ökar när man blir äldre, men bara till en viss gräns: riktigt gamla röstar i mindre utsträckning än de i medelåldern.
ANALYSTEKNIKER
Univariat analys	Analys av en variabel. Till exempel beräkning av medelvärde.
Bivariat analys	Analys av samband mellan två variabler.
Korrelationsanalys	Analys som visar sambandets riktning och styrka mellan två variabler. Det finns många olika korrelationsmått, men det vanligaste är Pearson's R.
Regressionsanalys	Analys där linje passas till en mängd punkter. Ger uppgifter om linjens lutning, sambandets styrka, osäkerhet i skattningen av linjen, m.m.
Multipel regressionsanalys	Regressionsanalys med fler än en oberoende variabel.
Logistisk regressionsanalys	Typ av regressionsanalys anpassat för fall där den beroende variabeln bara har värdet 0 eller 1.
Faktoranalys	Analys där man försöker hitta gemensamma nämnare mellan olika variabler. Dvs reducera datan för att se om det finns någon latent variabel, som vi inte observerat, som kan förklara variationen i flera variabler.
DESIGNTYPER
Experimentell design	När vi har kontroll över den oberoende variabeln, och slumpar analysenheter in i experimentgrupp (som utsätts för en behandling) och kontrollgrupp (som inte utsätts för behandling eller utsätts för en annan behandling). Ger goda möjligheter att uttala sig om kausalitet.
Pseudoexperimentell design	När vi utnyttjar naturlig variation för att hitta specialfall där det blivit ungefär som slumpmässig tilldelning till någon "behandling."
Regression discontinuity design	När det finns någon skarp gräns som styr tilldelning till någon specifik variabel, och vi antar att analysenheter precis ovan och under gränsen är ungefär lika, och att slumpen avgör vilka som hamnar ovan och under.
Matchning	När analysenheter matchas ihop med sina "statistiska tvillingar," dvs enheter som har samma värden på alla relevanta variabler förutom den oberoende.
Tvärsnittsdesign	När vi jämför många analysenheter vid ett tillfälle. Engelska: Crosssectional analysis.
Longitudinell design	När vi jämför analysenheter med sig själva över tid.
Paneldesign	När vi jämför många enheter med varandra, och över tid. Kallas också Time Series-Cross Section.
BEGREPP INOM REGRESSIONSANALYS
Regressionslinje	Den linje som passar bäst till punktmängden.
b-koefficient	Lutning på regressionslinjen. Hur mycket den beroende variabeln förväntas öka när den oberoende variabeln ökar med ett steg.
Konstant/intercept	Det förväntade värdet på den beroende variabeln när alla oberoende variabler i analysen har värdet 0.
$R^2$	Ett mått på hur mycket av variationen i den beroende variabeln som kan förklaras av de oberoende variablerna. Går mellan 0 och 1. 0.5 kan tolkas som "50% av variationen i den beroende variabeln förklaras av de oberoende variablerna."
Standardfel	Ett mått på osäkerheten i skattningen av b-koefficienten. Engelska: Standard error.
t-värde	B-koefficienten delat med standardfelet. Används för att beräkna signifikansvärdet.
p-värde	Signifikansvärdet. Visar hur osannolikt det är att man skulle få en b-koefficient som är minst så stor, givet att nollhypotesen stämmer. Är egentligen bara intressant när man analyserar ett urval, eller har en slumpmässig tilldelning i ett experiment. Men trots detta används det ofta som beslutsregel för att avgöra när samband är starka nog att tolkas. Den vanliga beslutsregeln är att p-värden under 0.05 räknas som signifikanta. Räknas fram genom att jämföra t-värdet med en t-fördelning, som beror på hur många analysenheter man har med i analysen.
n-tal	Hur många analysenheter som ingick i analysen.
Ostandardiserad regressionskoefficient	Den vanliga b-koefficienten, som då är uttryckt i den beroende variabelns enhet. Om tex beroende variabel är BNP per capita visar koefficienten hur mycket BNP per capita förväntas öka om den oberoende variabeln ökar med ett skalsteg.
Standardiserad regressionskoefficient	b-koefficienten, fast standardiserad så att variansen i både oberoende och beroende variabel är 1. Möjliggör jämförelse mellan koefficienter mätta med olika skalor, vilket annars är svårt.
DIAGRAM
Histogram	Visar fördelningen av en variabel. Heter samma på engelska.
Spridningsdiagram	Visar sambandet mellan två variabler genom att rita ut analysenheterna som punkter utifrån två axlar. Engelska: Scatterplot.