Regressionsanalys med interaktionseffekter - kontinuerliga variabler

av Anders Sundell

I ett annat inlägg gick vi igenom regressionsanalys med interaktionseffekter. Variablerna hade där bara två värden. Men hur gör man när en eller båda variablerna i interaktionen är kontinuerliga skalor, med många värden? I princip gör man samma sak, men man får presentera och tolka resultaten på lite annat sätt. Det kommer vi att gå igenom i det här inlägget. För den som vill läsa mer rekommenderas också denna standardartikel på området.

För att ha något att jobba med kommer vi i det här exemplet att använda oss av data från den amerikanska General Social Survey, som är en enkätundersökning med vanliga medborgare, med frågor om allt möjligt. Vi kommer använda versionen från 2016. Ladda ned den och lägg den i projektmappen för att följa med i exemplet. Jag har lagt den i en undermapp som heter data, och anger därför också det när jag öppnar filen.

För att spara plats i inlägget har koden för omkodningar komprimerats, och förklaras inte här. Om du vill läsa mer om vad det är som händer, se det tidigare inlägget.

In [57]:
cd "/Users/xsunde/Dropbox/Jupyter/stathelp"
use "data/GSS2016.dta", clear
recode sex (1=0) (2=1), generate(woman)
recode childs (0=0) (1/8 = 1), generate(dum_kids)
/Users/xsunde/Dropbox/Jupyter/stathelp


(2867 differences between sex and woman)

(1603 differences between childs and dum_kids)

Interaktionsanalys med kontinuerliga variabler

I det tidigare inlägget såg vi att effekten av att ha barn skiljde sig åt mellan kvinnor och män. Men variabeln för barn vi använde där var en så kallad dummyvariabel, med värdena 0 (inga barn) och 1 (ett eller fler barn). Nu ska vi istället använda en kontinuerlig barnvariabel, childs, som visar hur många barn man har i siffror. Variabeln är dock kapad så att värdet 8 indikerar 8 eller fler barn.

Först gör vi en vanlig regressionsanalys, utan interaktion:

In [24]:
reg realrinc woman childs age
      Source |       SS           df       MS      Number of obs   =     1,627
-------------+----------------------------------   F(3, 1623)      =     24.96
       Model |  6.1202e+10         3  2.0401e+10   Prob > F        =    0.0000
    Residual |  1.3264e+12     1,623   817265487   R-squared       =    0.0441
-------------+----------------------------------   Adj R-squared   =    0.0423
       Total |  1.3876e+12     1,626   853396969   Root MSE        =     28588

------------------------------------------------------------------------------
    realrinc |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
       woman |   -9474.27   1418.312    -6.68   0.000    -12256.19   -6692.354
      childs |  -108.2144   502.1071    -0.22   0.829    -1093.061    876.6319
         age |   282.4416   52.96583     5.33   0.000      178.553    386.3302
       _cons |   16147.79   2435.659     6.63   0.000     11370.42    20925.15
------------------------------------------------------------------------------

Koefficienten för childs visar nu den förväntade effekten av att öka variabeln ett steg, dvs ha ett barn till. Den är svagt negativ och inte signifikant. Det verkar alltså inte vara någon större skillnad mellan de som har få och de som har många barn. Nu lägger vi till interaktionen med woman-variabeln. Det gör vi automatiskt genom att skriva in i regressionskommandot att de två variablerna hör ihop. Vi måste dock nu lägga till ett c. framför childs-variabeln, för att visa att det är en continous variabel, en skala.

In [60]:
reg realrinc woman##c.childs age
      Source |       SS           df       MS      Number of obs   =     1,627
-------------+----------------------------------   F(4, 1622)      =     19.93
       Model |  6.5005e+10         4  1.6251e+10   Prob > F        =    0.0000
    Residual |  1.3226e+12     1,622   815424344   R-squared       =    0.0468
-------------+----------------------------------   Adj R-squared   =    0.0445
       Total |  1.3876e+12     1,626   853396969   Root MSE        =     28556

--------------------------------------------------------------------------------
      realrinc |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
---------------+----------------------------------------------------------------
       1.woman |  -6100.754   2108.763    -2.89   0.004    -10236.94   -1964.569
        childs |   855.1288   671.1906     1.27   0.203    -461.3629    2171.621
               |
woman#c.childs |
            1  |  -2060.054   953.8345    -2.16   0.031    -3930.931   -189.1764
               |
           age |   275.4991    53.0037     5.20   0.000     171.5362     379.462
         _cons |   14916.98   2498.767     5.97   0.000     10015.82    19818.13
--------------------------------------------------------------------------------

Som vanligt när man gör interaktioner gäller det att komma ihåg att man inte kan tolka koefficienterna i interaktionen på vanligt sätt. Woman betyder nu "effekten" av att vara kvinna för de som har noll barn. Childs betyder nu effekten av att få ett barn till för de som har 0 variabeln woman, dvs män. Termen c.woman#c.childs är interaktionstermen, och visar alltså effekten av den nya variabeln som är värdet på woman gånger värdet på childs. I praktiken blir det hur koefficienterna förändrar sig när man ändrar på den andra variabeln.

För att räkna ut effekten av barnafödande för båda värdena av woman tar vi grundkoefficienten för childs, och adderar sedan koefficienten för interaktionstermen, gånger värdet på womanvariabeln. Alltså:
För woman = 0 (män): $855.1288 -2060.054*0 = 855.1288$
För woman = 1 (kvinnor): $855.1288 -2060.054*1 = -1204.9252$

Vi ser alltså att män som får ett barn till tjänar lite mer, medan kvinnor tjänar mindre. Skillnaden i effekt mellan grupperna är signifikant, ser vi på signifikansvärdet på interaktionstermen. Men - det betyder inte att effekterna i sig är signifikanta, om vi jämför med noll. Dvs, i gruppen kvinnor, är effekten av barnafödande signifikant negativ? Och i gruppen män, är effekten av barnafödande signifikant positiv? För att räkna ut det använder vi marginskommandot, och kör direkt efter kommandot marginsplot för att illustrera koefficienterna.

In [61]:
margins, dydx(childs) at(woman=(0 1))
marginsplot, yline(0)

Average marginal effects                        Number of obs     =      1,627
Model VCE    : OLS

Expression   : Linear prediction, predict()
dy/dx w.r.t. : childs

1._at        : woman           =           0

2._at        : woman           =           1

------------------------------------------------------------------------------
             |            Delta-method
             |      dy/dx   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
childs       |
         _at |
          1  |   855.1288   671.1906     1.27   0.203    -461.3629    2171.621
          2  |  -1204.925   713.7205    -1.69   0.092    -2604.836    194.9863
------------------------------------------------------------------------------


  Variables that uniquely identify margins: woman
Stata Graph - Graph -3000 -2000 -1000 0 1000 2000 Effects on Linear Prediction 0 1 RECODE of sex (respondents sex) Average Marginal Effects of childs with 95% CIs

Som vi räknade ut manuellt ser vi att effekten av childs är positiv för de som har noll på variabeln woman, dvs männen, och negativ för kvinnorna. Men effekterna i sig är inte signifikant skilda från noll. Det betyder att vi kan vara rätt säkra på att effekten av barnafödande i populationen (och inte bara i urvalet) är olika för kvinnor och män, men vi kan samtidigt inte vara säkra på att någon av dem är något annat än noll! Det här kan vara lite svårt att greppa.

Men det man behöver tänka är att "inte signifikant skild från noll" inte betyder att den definitivt är noll. Det är bara mer än 5% risk att den är noll. Men om man ser på grafen ser vi att konfidensintervallen för de två koefficienterna bara överlappar lite grann. För att de sanna effekterna ska vara desamma måste alltså effekten för män vara i den nedersta delen av intervallet, samtidigt som effekten för kvinnor är i den översta. Sammanlagt blir den sannolikheten mindre än 5%. Klurigt, men rimligt.

Nu ska vi räknar ut vad skillnaden mellan män och kvinnor är, för olika värden av variabeln childs. Det gör vi på genom att ta grundkoefficienten för woman, och sedan addera interaktionstermen gånger olika värden av barn.

0 barn: -6100.754 -2060.054 0 = -6100.754
1 barn: -6100.754 -2060.054
1 = -8160.808
2 barn: -6100.754 -2060.054 2 = -10220.862
3 barn: -6100.754 -2060.054
3 = -12280.916
4 barn: -6100.754 -2060.054 4 = -14340.97
5 barn: -6100.754 -2060.054
5 = -16401.024
6 barn: -6100.754 -2060.054 6 = -18461.078
7 barn: -6100.754 -2060.054
7 = -20521.132
8 barn: -6100.754 -2060.054 * 8 = -22581.186

Det blir alltså åtta olika koefficienter, och varje blir 2060.054 mindre än den föregående. Nu kan man inte ha 3.5 barn, men det går lika bra att göra interaktioner även med variabler som har decimalvärden. Då är det bara att sätta in dem i multiplikationen.

Nu tar vi fram koefficienterna med marginskommandot för att också få ut signifikansnivåer och konfidensintervall:

In [62]:
margins, dydx(woman) at(childs=(0/8))
marginsplot, yline(0)

Average marginal effects                        Number of obs     =      1,627
Model VCE    : OLS

Expression   : Linear prediction, predict()
dy/dx w.r.t. : 1.woman

1._at        : childs          =           0

2._at        : childs          =           1

3._at        : childs          =           2

4._at        : childs          =           3

5._at        : childs          =           4

6._at        : childs          =           5

7._at        : childs          =           6

8._at        : childs          =           7

9._at        : childs          =           8

------------------------------------------------------------------------------
             |            Delta-method
             |      dy/dx   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
0.woman      |  (base outcome)
-------------+----------------------------------------------------------------
1.woman      |
         _at |
          1  |  -6100.754   2108.763    -2.89   0.004    -10236.94   -1964.569
          2  |  -8160.807   1541.729    -5.29   0.000     -11184.8   -5136.819
          3  |  -10220.86   1458.278    -7.01   0.000    -13081.17   -7360.555
          4  |  -12280.91   1922.452    -6.39   0.000    -16051.67   -8510.164
          5  |  -14340.97   2661.704    -5.39   0.000    -19561.71   -9120.228
          6  |  -16401.02   3506.154    -4.68   0.000    -23278.09   -9523.954
          7  |  -18461.08   4395.585    -4.20   0.000     -27082.7   -9839.454
          8  |  -20521.13    5307.43    -3.87   0.000    -30931.27   -10110.99
          9  |  -22581.18   6231.859    -3.62   0.000    -34804.52   -10357.84
------------------------------------------------------------------------------
Note: dy/dx for factor levels is the discrete change from the base level.


  Variables that uniquely identify margins: childs
Stata Graph - Graph -40000 -30000 -20000 -10000 0 Effects on Linear Prediction 0 1 2 3 4 5 6 7 eight or more number of children Average Marginal Effects of 1.woman with 95% CIs

De åtta punkterna med konfidensintervall visar alltså de åtta koefficienterna vi nyss räknade ut. Vi ser att koefficienten för woman - alltså skillnaden mellan kvinnor och män - blir större och större ju fler barn man har. Alla konfidensintervall är också skilda från noll, vilket betyder att effekten är signifikant överallt.

Att konfidensintervallen varierar har att göra med var observationerna befinner sig. Regressionslinjen kommer dras genom observationernas tyngdpunkt, och varierar mer i ändarna kring den. Därför är intervallen som smalast där det finns flest observationer - mellan 1 och 3 barn. Medelvärdet i datan är 1,8 barn.

Slutligen tar vi fram predicerade värden, med hjälp av marginskommandot. Det enklaste sättet är då att visa förväntad inkomst för kvinnor och män, vid olika antal barn. Tänk här på att det spelar roll i vilken ordning man skriver variablerna inom at-option. Variabeln som står först kommer hamna på x-axeln, och den andra styr linjernas färger. Tabellen blir också rätt stor, eftersom vi nu ber om 18 (9 * 2) olika koefficienter.

In [41]:
margins, at(childs=(0/8) woman=(0 1))
marginsplot

Predictive margins                              Number of obs     =      1,627
Model VCE    : OLS

Expression   : Linear prediction, predict()

1._at        : woman           =           0
               childs          =           0

2._at        : woman           =           0
               childs          =           1

3._at        : woman           =           0
               childs          =           2

4._at        : woman           =           0
               childs          =           3

5._at        : woman           =           0
               childs          =           4

6._at        : woman           =           0
               childs          =           5

7._at        : woman           =           0
               childs          =           6

8._at        : woman           =           0
               childs          =           7

9._at        : woman           =           0
               childs          =           8

10._at       : woman           =           1
               childs          =           0

11._at       : woman           =           1
               childs          =           1

12._at       : woman           =           1
               childs          =           2

13._at       : woman           =           1
               childs          =           3

14._at       : woman           =           1
               childs          =           4

15._at       : woman           =           1
               childs          =           5

16._at       : woman           =           1
               childs          =           6

17._at       : woman           =           1
               childs          =           7

18._at       : woman           =           1
               childs          =           8

------------------------------------------------------------------------------
             |            Delta-method
             |     Margin   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
         _at |
          1  |   27141.21   1476.111    18.39   0.000     24245.93     30036.5
          2  |   27996.34   1089.904    25.69   0.000     25858.57    30134.11
          3  |   28851.47   1047.794    27.54   0.000      26796.3    30906.64
          4  |    29706.6   1381.611    21.50   0.000     26996.67    32416.53
          5  |   30561.73   1902.845    16.06   0.000     26829.44    34294.02
          6  |   31416.86   2496.754    12.58   0.000     26519.65    36314.06
          7  |   32271.99   3122.136    10.34   0.000     26148.14    38395.83
          8  |   33127.11   3763.334     8.80   0.000     25745.61    40508.62
          9  |   33982.24    4413.46     7.70   0.000     25325.56    42638.93
         10  |   21040.46   1549.293    13.58   0.000     18001.63    24079.29
         11  |   19835.53   1099.371    18.04   0.000      17679.2    21991.87
         12  |   18630.61   1017.701    18.31   0.000     16634.46    20626.76
         13  |   17425.68   1371.717    12.70   0.000     14735.16    20116.21
         14  |   16220.76   1935.535     8.38   0.000     12424.35    20017.17
         15  |   15015.83   2574.835     5.83   0.000     9965.481    20066.19
         16  |   13810.91   3245.312     4.26   0.000     7445.464    20176.35
         17  |   12605.98   3931.046     3.21   0.001     4895.522    20316.45
         18  |   11401.06   4625.255     2.46   0.014     2328.956    20473.16
------------------------------------------------------------------------------


  Variables that uniquely identify margins: childs woman
Stata Graph - Graph 0 10000 20000 30000 40000 Linear Prediction 0 1 2 3 4 5 6 7 eight or more number of children woman=0 woman=1 Predictive Margins with 95% CIs

Interaktion med två kontinuerliga variabler

Nu är det dags att komplicera det hela ytterligare. Hur blir det om vi har två variabler som båda är skalor med många värden? I grund och botten gör vi exakt samma sak som vi gjort i de två tidigare fallen. Vi får bara tänka på att tolka det hela rätt.

Säg att vi nu vill titta på sambandet mellan barnafödande och ålder, istället för kön. Det blir lite mystiskt i och med att hur många barn man har är så starkt förknippat med ålder, men vi prövar, för exemplets skull. Vi kör en regression där vi interagerar antal barn med ålder (och skriver c. framför båda variablerna, eftersom de är skalor):

In [63]:
reg realrinc woman c.childs##c.age
      Source |       SS           df       MS      Number of obs   =     1,627
-------------+----------------------------------   F(4, 1622)      =     23.32
       Model |  7.5451e+10         4  1.8863e+10   Prob > F        =    0.0000
    Residual |  1.3122e+12     1,622   808984506   R-squared       =    0.0544
-------------+----------------------------------   Adj R-squared   =    0.0520
       Total |  1.3876e+12     1,626   853396969   Root MSE        =     28443

--------------------------------------------------------------------------------
      realrinc |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
---------------+----------------------------------------------------------------
         woman |  -10027.18   1417.245    -7.08   0.000       -12807   -7247.353
        childs |   6347.314   1617.275     3.92   0.000     3175.145    9519.482
           age |   474.4715   69.78933     6.80   0.000     337.5848    611.3583
               |
c.childs#c.age |  -138.2845   32.94967    -4.20   0.000    -202.9129   -73.65609
               |
         _cons |    8337.64   3055.404     2.73   0.006     2344.686    14330.59
--------------------------------------------------------------------------------

Faktum är alltså att det finns en interaktionseffekt. Eftersom interaktionstermen är negativ blir effekten av barnafödande mer negativ ju äldre man blir, och motsvarande blir effekten av ålder mer negativ ju fler barn man har.

För att till exempel få fram effekten av att få ett barn till vid olika åldrar räknar vi på följande sätt: 20 år gammal: 6347.314 - 138.2845 20 = 3581.624
30 år gammal: 6347.314 - 138.2845
30 = 2198.779
40 år gammal: 6347.314 - 138.2845 40 = 815.934
50 år gammal: 6347.314 - 138.2845
50 = -566.9108
60 år gammal: 6347.314 - 138.2845 * 60 = -1949.756

Det kan som vanligt illustreras med margins och marginsplot:

In [64]:
margins, dydx(childs) at(age=(20(10)60))
marginsplot, yline(0)

Average marginal effects                        Number of obs     =      1,627
Model VCE    : OLS

Expression   : Linear prediction, predict()
dy/dx w.r.t. : childs

1._at        : age             =          20

2._at        : age             =          30

3._at        : age             =          40

4._at        : age             =          50

5._at        : age             =          60

------------------------------------------------------------------------------
             |            Delta-method
             |      dy/dx   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
childs       |
         _at |
          1  |   3581.624   1011.207     3.54   0.000     1598.214    5565.033
          2  |   2198.779   742.7817     2.96   0.003     741.8664    3655.691
          3  |   815.9341   545.9354     1.49   0.135    -254.8787    1886.747
          4  |  -566.9108   511.3732    -1.11   0.268    -1569.932    436.1107
          5  |  -1949.756   664.9028    -2.93   0.003    -3253.914   -645.5969
------------------------------------------------------------------------------


  Variables that uniquely identify margins: age
Stata Graph - Graph -4000 -2000 0 2000 4000 6000 Effects on Linear Prediction 20 30 40 50 60 age of respondent Average Marginal Effects of childs with 95% CIs

Och för att få fram effekten av att bli ett år äldre vid olika antal barn räknar vi:

0 barn: 474.4715 - 138.2845 0 = 474.4715
2 barn: 474.4715 - 138.2845
2 = 197.9026
4 barn: 474.4715 - 138.2845 4 = -78.6664
6 barn: 474.4715 - 138.2845
6 = -355.2354
8 barn: 474.4715 - 138.2845 * 8 = 631.8044

In [54]:
margins, dydx(age) at(childs=(0(2)8))
marginsplot, yline(0)

Average marginal effects                        Number of obs     =      1,627
Model VCE    : OLS

Expression   : Linear prediction, predict()
dy/dx w.r.t. : age

1._at        : childs          =           0

2._at        : childs          =           2

3._at        : childs          =           4

4._at        : childs          =           6

5._at        : childs          =           8

------------------------------------------------------------------------------
             |            Delta-method
             |      dy/dx   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
age          |
         _at |
          1  |   474.4715   69.78933     6.80   0.000     337.5848    611.3583
          2  |   197.9026   56.41555     3.51   0.000     87.24755    308.5576
          3  |  -78.66641   100.8976    -0.78   0.436    -276.5697    119.2369
          4  |  -355.2354    160.821    -2.21   0.027    -670.6741   -39.79669
          5  |  -631.8044   224.1247    -2.82   0.005    -1071.409   -192.1999
------------------------------------------------------------------------------


  Variables that uniquely identify margins: childs
Stata Graph - Graph -1000 -500 0 500 Effects on Linear Prediction 0 2 4 6 eight or more number of children Average Marginal Effects of age with 95% CIs

Klurigast blir det om vi ska räkna ut predicerade värden. Låt oss säga att vi vill ha ålder på x-axeln. Då får vi en linje för varje antal barn. Men för att det inte ska bli för plottrigt ritar vi bara ut några valda värden, till exempel 0, 3 och 6 barn. De andra linjerna dras ju emellan.

In [65]:
margins, at(age=(20(10)70) childs=(0 3 6))
marginsplot

Predictive margins                              Number of obs     =      1,627
Model VCE    : OLS

Expression   : Linear prediction, predict()

1._at        : childs          =           0
               age             =          20

2._at        : childs          =           0
               age             =          30

3._at        : childs          =           0
               age             =          40

4._at        : childs          =           0
               age             =          50

5._at        : childs          =           0
               age             =          60

6._at        : childs          =           0
               age             =          70

7._at        : childs          =           3
               age             =          20

8._at        : childs          =           3
               age             =          30

9._at        : childs          =           3
               age             =          40

10._at       : childs          =           3
               age             =          50

11._at       : childs          =           3
               age             =          60

12._at       : childs          =           3
               age             =          70

13._at       : childs          =           6
               age             =          20

14._at       : childs          =           6
               age             =          30

15._at       : childs          =           6
               age             =          40

16._at       : childs          =           6
               age             =          50

17._at       : childs          =           6
               age             =          60

18._at       : childs          =           6
               age             =          70

------------------------------------------------------------------------------
             |            Delta-method
             |     Margin   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
         _at |
          1  |   12699.47   1777.144     7.15   0.000     9213.729    16185.21
          2  |   17444.18   1282.334    13.60   0.000     14928.98    19959.39
          3  |    22188.9   1051.014    21.11   0.000     20127.41    24250.39
          4  |   26933.61    1240.56    21.71   0.000     24500.34    29366.88
          5  |   31678.33   1716.817    18.45   0.000     28310.92    35045.74
          6  |   36423.04   2308.688    15.78   0.000     31894.72    40951.37
          7  |   23444.34   2412.406     9.72   0.000     18712.58     28176.1
          8  |   24040.52   1751.345    13.73   0.000     20605.38    27475.66
          9  |    24636.7   1197.448    20.57   0.000     22287.99    26985.41
         10  |   25232.88   959.0215    26.31   0.000     23351.83    27113.93
         11  |   25829.06     1234.8    20.92   0.000     23407.09    28251.03
         12  |   26425.24   1802.472    14.66   0.000     22889.82    29960.66
         13  |   34189.21   5185.257     6.59   0.000      24018.7    44359.72
         14  |   30636.86    3797.51     8.07   0.000     23188.32     38085.4
         15  |    27084.5   2669.823    10.14   0.000     21847.84    32321.17
         16  |   23532.15   2237.744    10.52   0.000     19142.98    27921.32
         17  |    19979.8   2838.965     7.04   0.000     14411.37    25548.22
         18  |   16427.44   4035.421     4.07   0.000     8512.254    24342.63
------------------------------------------------------------------------------


  Variables that uniquely identify margins: age childs
Stata Graph - Graph 10000 20000 30000 40000 50000 Linear Prediction 20 30 40 50 60 70 age of respondent 0 3 6 Predictive Margins with 95% CIs

Här ser vi alltså att de som har 0 barn förväntas tjäna mer och mer ju äldre de blir. Och de som har tre barn tjänar lika mycket hela tiden. Medan de som har 6 barn tjänar mindre och mindre.

Sen får man tänka på att vi nu har delat in datan i ganska många undergrupper, och vi hade bara ca 1600 observationer att jobba med. Ju fler interaktioner man gör, desto känsligare blir datan för outliers, observationer med extrema värden. Om det till exempel är någon person som är väldigt gammal eller har väldigt många barn kommer den få stor betydelse för hur linjerna dras. Ofta är det därför bättre att slå ihop värden så att man till exempel jämför de med och utan barn, eller de över och under 40 år, osv.

Avslutning

Interaktionsanalyser är ofta teoretiskt motiverade, och kan visa på intressanta skillnader i datan. Men tänk på att målsättningen vanligtvis inte är att bygga en karta i skala 1:1 av verkligheten, utan att koka ner stora mängder data till något enkelt och begripligt. Bara för att det går att hitta en signifikant interaktion betyder inte det att den är intressant, eftersom det alltid finns en risk för "overfitting", att man bygger en modell som passar perfekt till just det urval vi jobbar med för stunden.

In [ ]: