Övningsuppgifter 1

Av Anders Sundell

Här är ett gäng övningsuppgifter som täcker några av grunderna i datahantering, beskrivande statistik samt enkel korrelations- och regressionsanalys. Du behöver QoG Basic-datamängden för att göra uppgifterna, adressen anges nedan. Klicka här för att se lösningarna till uppgifterna.

In [36]:
use "https://www.qogdata.pol.gu.se/dataarchive/qog_bas_cs_jan18.dta", clear
(Quality of Government Basic dataset 2018 - Cross-Section)

Datahantering

Fråga 1. Skapa en variabel, dum_demokrati, som har värdet 1 om fh_status har värdet 1, och 0 annars.

Fråga 2. Variablerna wdi_expedu och wdi_exph visar statens utgifter för utbildning respektive sjukvård som andel av BNP. Skapa en variabel som visar statens utgifter för utbildning och sjukvård. Kalla den eduhealth.

Fråga 3. Gör en variabel som visar hur mycket mer stater lägger på sjukvård jämfört med utbildning. Kalla den eduhealthdiff.

Fråga 4. Variabeln gle_rgdpc visar BNP per capita i antal dollar. Gör en variabel gdpc_1000 som visar BNP per capita, fast i tusentals dollar.

Fråga 5. Variabeln ht_colonial visar vem landet tidigare varit koloniserad av. Ersätt alla 0 (aldrig koloniserat) med tecknet för missing, .

Beskrivande statistik

Fråga 1. Variablerna wdi_lifexpf och wdi_lifexpm visar förväntad livslängd vid födseln för kvinnor respektive män. Vad är medelvärdet för var och en de två variablerna?

Fråga 2. Gör ett histogram för variabeln unna_pop, som visar landets befolkningsantal.

Fråga 3. Variabeln fh_status visar om landet kategoriseras som Free, Partly free eller Not free. Gör en frekvenstabell som visar hur många länder som faller i varje kategori.

Fråga 4. Variabeln ti_cpi visar Transparency Internationals korruptionsindex, där låga värden betyder att landet är mer korrupt. Sortera datamängden utifrån indexet, och gör en topplista på de 10 mest korrupta länderna.

Fråga 5. Sortera nu istället efter fallande ordning, och gör en topplista på de tio minst korrupta länderna.

Fråga 6. Variabeln ti_cpi visar Transparency Internationals korruptionsindex. För varje kategori i variabeln fh_status, vad är medelvärdet på korruptionsindexet?

Fråga 7. Variabeln gol_est visar vilken typ av valsystem landet har. Gör en korstabell som visar hur stor andel av länderna med olika valsystem som kan räknas som fria enligt variabeln fh_status.

Korrelation och regression

Fråga 1. Gör en korrelationsmatris som visar de parvisa korrelationerna mellan de tre variablerna ti_cpi, p_polity2 och wdi_lifexp. Är sambanden positiva eller negativa?

Fråga 2. Gör en scatterplot som visar sambandet mellan p_polity2 (på x-axeln) och ti_cpi på (y-axeln). Lägg också till en regressionslinje.

Fråga 3. Gör en regressionsanalys där ti_cpi är beroende variabel och p_polity2 är oberoende variabel. Vad är b-koefficienten för p_polity2, dvs lutningen på linjen?

Fråga 4. Använd b-koefficienten och interceptet i ovanstående analys och räkna ut vad ett land som har värdet 7 i demokrati förväntas ha för värde på korruptionsindexet.

Fråga 5. Upprepa föregående analys, men lägg nu till variabeln som visar avstånd från ekvatorn, lp_lat_abst. Vad händer med koefficienten för p_polity2?