Cours Econométrie

Les différentes parties du cours

Introduction

Résultat :

q1. Dans les graphes ci-dessus que représente un élément graphique en bleu ?

q2. Dans les graphes ci-dessus que représente un élément graphique en rouge ?

q3. Comment nomme-t'on $\widehat{u}_i$ associé à la iême donnée?

q3. Comment nomme-t'on $\widehat{y}_i$ associé à la iême donnée?

Les estimations par la méthode des Moindres Carrés (Ordinaire)

Les tests de significativité

Points importants à retenir (après avoir suivi le cours)
  1. Test de significativité locale : lorsqu'on exprime une relation entre la variable à expliquer y et les variables explicatives x(1), ⋯, x(p), c'est un test d'hypothèses, fait de manière systématique, consistant à se demander au vu des données si le coefficient multiplicatif βj (la pente) devant le régresseur x(j) est non nul exprimant ainsi le fait que x(j) apporterait de l'information dans l'explication de la variable à expliquer y. En outil d'aide à la décision, cela se fait en étudiant l'affirmation d'intérêt H1 : βj ≠ 0 et dont la réponse se lit directement en dernière colonne de la partie "coefficients" d'un summary(lm(...)) comme expliqué ci-dessous.
  2. Le succès de l'outil d'aide à la décision en Statistique Inférentielle que l'on retrouve dans tous les pans de la Statistique dont fait partie l'économétrie repose sur sa simplicité d'application dès lors que l'on introduit la notion de p-valeur.
    Après avoir suivi la construction pas à pas d'un test d'hypothèses, il se dégage la notion de p-valeur définie comme le risque à prendre au vu des données pour accepter l'affirmation d'intérêt (H1). Il est alors immédiat d'affirmer H1 dès lors que ce risque est raisonnablement faible (généralement, p − valeur < α avec α = 5%).
  3. En plus d'être facile à appliquer et à interpréter, la notion de p-valeur est un indicateur d'intensité de la fiabilité de la décision :
    plus la p-valeur est faible plus la décision est fiable!
  4. Il y a généralement 3 types d'affirmations d'intérêt H1 :
    • βj < βj0 (cas A : unilatéral gauche)
    • βj > βj0 (cas B : unilatéral droit)
    • βj ≠ βj0 (cas B : bilatéral)
      βj0 est la valeur de référence (par exemple, égale à 0 pour un test de significativité locale). Il en découle trois p-valeurs associées appelées respectivement p-valeur gauche (cas A), p-valeur droite (cas B) et p-valeur bilatérale (cas C) reliées entre elles par les deux relations suivantes :
    • La somme des p-valeurs droite et gauche est égale à 100% (ou 1).
    • La p-valeur bilatérale est le double de la plus petite des p-valeurs droite et gauche.
  1. la propension marginale à consommer est-elle inférieure à 1 ? On pourra répondre aux questions suivantes :
    1. comment se décrit l'affirmation d'intérêt en fonction du paramètre d'intérêt β1 ? en fonction du paramètre d'écart $\delta_{\beta_1,1}:=\frac{\beta_1-1}{\sigma_{\widehat{\beta_1}}}$ ?

      Réponse

      H1 : β1 < 1 équivalent à H1 : δβ1, 1 < 0

    2. quelle est la pire des (mauvaises) situations pour décider l'affirmation d'intérêt au vu des données ?

      Réponse

      H0 : β1 = 1

    3. quel est le comportement aléatoire de $\widehat{\delta}_{\beta_1,1}(\mathbf{Y}|\underline{\mathbf{x}})$ dans la pire des situations ?

      Réponse

      Sous H0, $\widehat{\delta}_{\beta_1,1}(\mathbf{Y}|\underline{\mathbf{x}})=\frac{\widehat{\beta_1}(\mathbf{Y}|\underline{\mathbf{x}})-1}{\widehat{\sigma}_{\widehat\beta_1}(\mathbf{Y}|\underline{\mathbf{x}})}\stackrel{approx.}{\leadsto} \mathcal{N}(0,1)$.

    4. pourquoi se place-t'on dans la pire des situations pour construire la règle de décision ?

      Réponse

      Parce dans cette situation H0, appelée la pire des mauvaises situations (non H1), le risque de décider l'affirmation d'intérêt (H1) à tort avec les données est maximal.

    5. peut-on construire la règle de décision à un seuil α en raisonnant sur le paramètre d'intérêt ? sur le paramètre d'écart ?

      Réponse

      Uniquement à partir du paramètre d'écart δβ1, 1 car à partir du paramètre d'intérêt β1 on ne pourrait connaître la loi de probabilité de son estimateur $\widehat\beta_1(\mathbf{Y}|\underline{\mathbf{x}})$ même sous H0

    6. si vous avez répondu oui à l'une des deux questions précédentes (ce que nous espérons), calculez le quantile associé à la règle de décision pour un seuil de signification de 5% ?

      Réponse

      Sous la loi 𝒩(0, 1) représentant l'ensemble de toutes les estimations possibles de $\widehat{\delta}_{\beta_1,1}(\mathbf{Y}|\underline{\mathbf{x}})$ sous H0, on veut écarter 5% (les plus à gauche) qui nous conduiraient de dire à tort que l'affirmation d'intérêt est vraie. Cela revient à choisir $\delta_{lim,5\%}^-\stackrel{R}{=}qnorm(.05)=-qnorm(.95)=-1.644854$
      La Règle de Décision s'exprime donc : accepter H1 si $\widehat{\delta}_{\beta_1,1}(\mathbf{y}|\underline{\mathbf{x}})<\delta_{lim,5\%}^-$

    7. nous sommes le jour J, quelles sont les estimations des paramètres et en particulier les valeurs de $\widehat{\beta}_1(\mathbf{y}|\underline{\mathbf{x}})$ et $\widehat{\delta}_{\beta_1,1}(\mathbf{y}|\underline{\mathbf{x}})$ ? Appliquez alors la règle de décision (voir indication ci-dessous).

      Réponse

      En conclusion, puisque $\widehat{\beta}_1(\mathbf{y}|\underline{\mathbf{x}})=0.6654$ et $\widehat{\delta}_{\beta_1,1}(\mathbf{y}|\underline{\mathbf{x}})=-90.4$

    8. quelle est la règle de décision alternative basée sur l'indicateur du niveau de fiabilité de la règle de décision ?

      Réponse

      A α = 5%, nous avons accepté l'affirmation d'intérêt H1 avec notre jeu de données. On peut ensuite s'intéresser au plus petit risque α à encourir au vu des données pour accepter H1. En fait, ce risque, appelé p-valeur (p-value en anglais) est d'une certaine manière le risque d'intérêt associé l'affirmation d'intérêt.
      En effet, on peut reformuler la Règle de Décision encore plus intuitivement de la manière équivalente suivante :
      Accepter H1 si p-valeur < α (littéralement : le risque pour accepter H1 est raisonnablement faible).

    9. rédigez le test sous une forme standard.

      Réponse

      Rassemblons tous les éléments même techniques sous un format assez standard :
      Hypothèses de test : H0 : β1 = 1 contre H1 : β1 < 1
      Statistique de test sous H0 : $\widehat{\delta}_{\beta_1,1}(\mathbf{Y}|\underline{\mathbf{x}})=\frac{\widehat{\beta_1}(\mathbf{Y}|\underline{\mathbf{x}})-1}{\widehat{\sigma}_{\widehat\beta_1}(\mathbf{Y}|\underline{\mathbf{x}})}\stackrel{approx.}{\leadsto} \mathcal{N}(0,1)$
      Règle de Décision : Accepter H1 si p − valeur < α (ou $\widehat{\delta}_{\beta_1,1}(\mathbf{y}|\underline{\mathbf{x}})<\delta_{lim,\alpha}^-$)
      Conclusion : Puisqu'au vu des données,
      $p-valeur (gauche)\stackrel{R}{=}pnorm((0.6654-1)/0.003702)=0<5\%$
      on peut plutôt penser que la propension marginale à consommer est strictement inférieure à 1.$

  2. La propension marginale à consommer est-elle strictement positive au seuil de 5% ?

    Réponse

    En complément de la rédaction standard, il est plus intéressant de proposer une rédaction abrégée qui n'extrait que l'essentiel sur un plan pratique (sans se soucier des aspects techniques).
    Rédaction abrégée
    Affirmation d'intérêt : H1 : β1 > 0
    Conclusion : Puisqu'au vu des données, $p-valeur (droite)\stackrel{R}{=}1-pnorm((0.6654-0)/0.003702)=1-pnorm(179.7)=0<5\%$
    on peut plutôt penser que la propension marginale à consommer est strictement positive.
    Rmq : la p-valeur précédente n'était pas fournie directement dans l'énoncé. Pour obtenir sa valeur, il faut s'appuyer sur les relations entre p-valeurs (ici) droite et bilatérale. En effet, la p-valeur bilatérale correspond ici à celle relative au test de significativité locale associé à H1 : β1 ≠ 0 et fourni dans le summary(lm(CONSO~REVENU)). Comme la p-valeur droite est (ici) 2 fois plus petite que la p-valeur bilatérale qui vaut 0 (dernière colonne de la partie "coefficients"), on en déduit sa valeur 0/2 = 0.

  3. Sans calcul suppléméntaire montrez que la propension marginale est différente de zéro au seuil de 5%. Ce test porte le nom plus connu de test de significativité locale car il permet de montrer que le régresseur REVENU apporte une information significative dans l'explication de la variable à expliquer CONSO.

    Réponse

    La réponse est directement à lire en 4ème ou dernière colonne de la partie "coefficients" du summary(lm(CONSO~REVENU)) ci-dessous. Rmq : si on n'avait pas proposé en indication la sortie du summary(lm(CONSO~REVENU)) mais uniquement l'instruction R pnorm((0.6654-0)/0.003702) (ce qui peut être le cas en examen), il aurait fallu pour déduire la p-valeur du test de significativité locale faire en R 2*(1-pnorm((0.6654-0)/0.003702)).

  4. La consommation incompressible est-elle strictement positive (toujours au seuil de 5%) ?
  5. Un néophyte a souhaité effectuer un test au seuil de 5% pour essayer de savoir si β1 > 0.7 et a obtenu avec ses données et son logiciel préféré une p-valeur de l'ordre de 99.2%.
    1. Proposez l'instruction R qui permet d'obtenir la valeur de cette pvaleur.
    2. Comment doit-il conclure au test qu'il a mis en place ?
    3. Peut-il conclure autre chose ?
    4. Quel est le risque mimimum qu'il doit prendre s'il souhaite montrer que β1 ≠ 0.7 ?

Indication: (Pour jouer avec R, éxecuter : attach("dataLM.RData");attach(canada))

R> summary(lm(CONSO~REVENU))

Call:
lm(formula = CONSO ~ REVENU)

Residuals:
     Min       1Q   Median       3Q      Max 
-14477.4  -1322.4    713.9   2168.2  11107.3 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) 3.723e+03  1.280e+03   2.909  0.00645 ** 
REVENU      6.654e-01  3.702e-03 179.744  < 2e-16 ***
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 4773 on 33 degrees of freedom
Multiple R-squared:  0.999,	Adjusted R-squared:  0.9989 
F-statistic: 3.231e+04 on 1 and 33 DF,  p-value: < 2.2e-16

R> (0.6654-1)/0.003702
[1] -90.38358
R> pt(-90.38358,35-2)
[1] 2.06455e-41
R> pnorm(-90.38358)
[1] 0


log(Ci)=β0 + β1log(Ri)+β2log(Pi)+β3log(PLi)+Ui

On supposera que le bruit Ui est centré et de variance σU2.

  1. Ce modèle est-il très loin du modèle linéaire (traité depuis le début de l'année) ?
  2. Quelles sont les estimations des paramètres basés sur le jeu de données champ ?
  3. Complétez : lorsque le revenu _ _ _ _ _ _ _ de 10%, la consommation de champagne _ _ _ _ _ _ _ approximativement de _ _ _ _ _ _ _.
  4. Peut-on penser que le régresseur prix du champagne (P) apporte de l'information dans l'explication de la consommation de champagne, i.e. est-il significatif ? (Indication : conditions mathématiques d'utilisation à préciser si nécessaire)
  5. Même question pour le régresseur revenu (R).
  6. Même question pour le régresseur prix des liqueurs (PL).
  7. Peut-on penser au seuil de 5% que le champagne est un produit de luxe ?

Indication: (Pour jouer avec R, éxecuter : attach("dataLM.RData") SAUF si déjà fait avant!)

R> champ
       C     R      P    PL
1   42.5  57.2  76.60  73.6
2   38.7  59.1  80.70  72.9
3   40.0  61.5  86.80  67.0
4   45.4  64.0  85.40  63.2
5   51.7  67.6  84.10  55.1
6   65.4  71.7  81.70  59.2
7   72.4  75.5  80.90  65.6
8   59.0  76.2  91.70  59.5
9   61.3  78.0  96.50  56.8
10  75.6  81.9  95.40  61.3
11  82.5  86.6  96.20  73.0
12  90.5  93.0  98.41  88.9
13 100.0 100.0 100.00 100.0
14 110.5 105.4  99.30 111.4
15 127.9 109.8  97.80 123.3
16 139.0 115.0  96.00 136.9
17 143.8 120.5 104.30 150.6
R> summary(lm(log(C)~log(R)+log(P)+log(PL),data=champ))

Call:
lm(formula = log(C) ~ log(R) + log(P) + log(PL), data = champ)

Residuals:
      Min        1Q    Median        3Q       Max 
-0.066608 -0.031357 -0.006315  0.022400  0.067713 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  0.48769    0.74597   0.654   0.5247    
log(R)       2.36686    0.13037  18.155 1.28e-10 ***
log(P)      -1.36409    0.24213  -5.634 8.15e-05 ***
log(PL)     -0.10679    0.06013  -1.776   0.0991 .  
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.04215 on 13 degrees of freedom
Multiple R-squared:  0.9923,	Adjusted R-squared:  0.9906 
F-statistic: 560.5 on 3 and 13 DF,  p-value: 5.408e-14

R> qt(.975,17-3-1)
[1] 2.160369
R> qnorm(.975)
[1] 1.959964
R> ####################
R> 1-pt( (2.36686-1)/0.13037,13 )
[1] 5.181925e-08

Phénomène de colinéarité

Considérons le jeu de données pédagogique colinEx. Ce jeu de données de taille 100 décrit quatre variables totalement fictives : une variable à expliquer y et trois régresseurs quantitatifs x1, x2 et x3.

  1. A partir des traitements préliminaires ci-dessous quels commentaires êtes-vous amenés à faire ?
R> summary(lm(y~x1+x2+x3,data=colinEx))

Call:
lm(formula = y ~ x1 + x2 + x3, data = colinEx)

Residuals:
     Min       1Q   Median       3Q      Max 
-2.89993 -0.70514  0.06399  0.76046  2.10918 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   0.7173     0.2640   2.717  0.00782 ** 
x1            7.7565     9.3562   0.829  0.40915    
x2            3.4461     0.3808   9.051 1.63e-14 ***
x3           -1.5123     9.3557  -0.162  0.87193    
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.027 on 96 degrees of freedom
Multiple R-squared:  0.8149,	Adjusted R-squared:  0.8091 
F-statistic: 140.8 on 3 and 96 DF,  p-value: < 2.2e-16

  1. Un praticien non expérimenté au vu des résultats précédents poursuit son analyse de la manière suivante. Qu'en pensez-vous ?
R> summary(lm(y~x2,data=colinEx))

Call:
lm(formula = y ~ x2, data = colinEx)

Residuals:
    Min      1Q  Median      3Q     Max 
-4.4023 -1.5064  0.0714  1.5932  4.7542 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   3.3093     0.4389   7.540 2.39e-11 ***
x2            4.1315     0.7646   5.403 4.59e-07 ***
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 2.073 on 98 degrees of freedom
Multiple R-squared:  0.2295,	Adjusted R-squared:  0.2217 
F-statistic:  29.2 on 1 and 98 DF,  p-value: 4.594e-07

Analysez en particulier la chute du coeffcient de détermination.

  1. Particulièrement surpris par ces résultats, il demande conseil à un de ses collègues qui lui conseille de calculer la matrice de corrélation et d'afficher tous les nuages de points croisant les deux variables.
R> cor(colinEx)
           y        x1        x2        x3
y  1.0000000 0.8104127 0.4790971 0.8094144
x1 0.8104127 1.0000000 0.1032505 0.9992734
x2 0.4790971 0.1032505 1.0000000 0.1028280
x3 0.8094144 0.9992734 0.1028280 1.0000000

image

Au vu de ces résultats, il s'empresse alors de lancer les deux régressions simples suivantes apparemment rejetées par sa première analyse. Quelle conclusion peut-on en tirer ?

R> summary(lm(y~x1,data=colinEx))

Call:
lm(formula = y ~ x1, data = colinEx)

Residuals:
    Min      1Q  Median      3Q     Max 
-3.4622 -0.8642  0.0737  0.9347  3.0870 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   2.3006     0.2652   8.673 9.09e-14 ***
x1            6.5803     0.4805  13.694  < 2e-16 ***
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.383 on 98 degrees of freedom
Multiple R-squared:  0.6568,	Adjusted R-squared:  0.6533 
F-statistic: 187.5 on 1 and 98 DF,  p-value: < 2.2e-16

R> summary(lm(y~x3,data=colinEx))

Call:
lm(formula = y ~ x3, data = colinEx)

Residuals:
    Min      1Q  Median      3Q     Max 
-3.4386 -0.8432  0.1037  0.9589  3.1305 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   2.2960     0.2664   8.619 1.19e-13 ***
x3            6.5721     0.4817  13.645  < 2e-16 ***
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.387 on 98 degrees of freedom
Multiple R-squared:  0.6552,	Adjusted R-squared:  0.6516 
F-statistic: 186.2 on 1 and 98 DF,  p-value: < 2.2e-16

Son collègue lui rappelle alors une règle d'or : il est dangereux dans une sélection de modèle pas à pas (descendante) de retirer plus d'un régresseur. Il applique alors cette règle en repartant de sa première analyse et en ne retirant que le regresseur étant le moins significatif.

R> summary(lm(y~x1+x2,data=colinEx))

Call:
lm(formula = y ~ x1 + x2, data = colinEx)

Residuals:
    Min      1Q  Median      3Q     Max 
-2.8599 -0.7236  0.0752  0.7499  2.1256 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   0.7146     0.2622   2.726  0.00762 ** 
x1            6.2452     0.3567  17.509  < 2e-16 ***
x2            3.4467     0.3788   9.098 1.19e-14 ***
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.021 on 97 degrees of freedom
Multiple R-squared:  0.8148,	Adjusted R-squared:  0.811 
F-statistic: 213.4 on 2 and 97 DF,  p-value: < 2.2e-16

  1. Il demande alors à son collègue s'il connaît la raison de tels résultats. Ce dernier lui indique alors qu'une colinéarité forte des régresseurs peut engendrer une très forte variabilité des estimateurs et ainsi une difficulté à rejeter l'hypothèse de significativité de certains paramètres de régression (même ceux très corrélés à la variable à expliquer). A partir de la matrice de corrélation, détecter une forte corrélation entre certains régresseurs et à partir des calculs matriciels ci-dessous (où A%\*%B, solve(A) et t(A) calcule respectivement le produit matriciel entre A et B, l'inverse et la transposée de la matrice A) mettre en évidence le changement des variabilité des estimateurs.
R> x<-cbind(1,x1,x2,x3)
R> solve(t(x)%*%x)
                         x1           x2           x3
    0.04413933 -0.026367687 -0.026475822 -0.026311662
x1 -0.02636769  0.056777258 -0.003928439 -0.001642811
x2 -0.02647582 -0.003928439  0.059855360 -0.002860594
x3 -0.02631166 -0.001642811 -0.002860594  0.060521811
R> solve(t(x[,-4])%*%x[,-4])
                         x1           x2
    0.03270042 -0.027081894 -0.027719456
x1 -0.02708189  0.056732665 -0.004006087
x2 -0.02771946 -0.004006087  0.059720153

L'idée est de considérer un modèle théorique dont les régresseurs possèdent un "certain" niveau de colinéarité entre eux, ceci afin d'appréhender les conséquences que cela peut engendrer sur les comportements des estimateurs des paramètres du modèle de régression.

On se propose d'étudier des modèles de régression linéaire à trois régresseurs satisfaisant les hypothèses classiques. Étant donné un vecteur β, et une taille d'échantillon n, on définit trois vecteurs indépendants, réalisations d'une loi uniforme sur [0, 1], notés x1, x2, x3. Le modèle considéré s'écrit alors :
Y = β0 + β1x1 + β2x2 + β3x3 + U,
où l'on définit x3 comme une "quasi"-combinaison linéaire de x1, x2 et x3 :
x3 = α1x1 + α2x2 + (1 − α1 − α2)x3 + U.
Le vecteur U constitue une petite perturbation de la combinaison linéaire "pure" qui permet que la matrice (1,x1,x2,x3) soit inversible!

Le vecteur β, la taille d'échantillon n ainsi que l'écart-type σ relatif bruit U sont fixés comme ci-dessous :
β = (1, 2, 3, 4)T, n = 200, σ = .2

On donne quatre vecteurs αA, αB, αC, αD définissant 4 modèles (A, B, C et D) distincts de colinéarité.


αA = (0.05, 0.95, 0), αB = (0, 0, 1), αC = (0.5, 0.5, 0)  et  αD = (0.95, 0.05, 0).

  1. Pour chacun des quatres modèles, exprimez le niveau de colinéarité entre les régresseurs : absence de colinéarité, forte colinéarité,...

  2. On observe quatre matrices de corrélation M1, M2, M3 et M4 correspondant chacune à un modèle (A,B,C,D), quelles associations peut-on espérer?

R> M1
                x1         x2    xPrime3
x1      1.00000000 0.06253862 0.96014670
x2      0.06253862 1.00000000 0.08805359
xPrime3 0.96014670 0.08805359 1.00000000
R> M2
                x1         x2   xPrime3
x1      1.00000000 0.06253862 0.7060393
x2      0.06253862 1.00000000 0.6505921
xPrime3 0.70603934 0.65059208 1.0000000
R> M3
                 x1          x2     xPrime3
x1       1.00000000  0.06253862 -0.10538403
x2       0.06253862  1.00000000 -0.03339283
xPrime3 -0.10538403 -0.03339283  1.00000000
R> M4
                x1         x2   xPrime3
x1      1.00000000 0.06253862 0.1256600
x2      0.06253862 1.00000000 0.9539574
xPrime3 0.12566000 0.95395738 1.0000000

  1. Pensez-vous pouvoir à la seule vue des matrices de corrélation pouvoir détecter tous les types de colinéarité ?

  2. Rappelez d'où vient la définition du VIF (Variance Inflation Factor). En analysant le calcul des vif de chaque modèle dans l'analyse, et sachant que le VIF1 (resp. VIF2, VIF3 et VIF4) est calculé avec les régresseurs intervenant dans M1 (resp. M2, M3 et M4), retrouvez les associations faites à la question précédente.

R> VIF1
       x1        x2   xPrime3 
 1.058945 11.582197 11.735832 
R> VIF2
      x1       x2  xPrime3 
4.417289 3.822700 7.657322 
R> VIF3
       x1        x2   xPrime3 
12.989023  1.015794 13.045355 
R> VIF4
      x1       x2  xPrime3 
1.014705 1.005321 1.010833

  1. L'analyse du vif permet-elle de mieux appréhender la colinéarité entre régresseurs ?

La problématique est de savoir quels sont les facteurs influençant l'utilisation mondiale d'internet (via le nombre d'internautes). L'analyse sera basée sur un . Dans un premier temps, on va regarder l'influence de la taille de la population et du nombre d'ordinateurs individuels pour 37 pays. On tente alors une modélisation de type log-linéaire sous la forme
(log(int))i = β0 + β1(log(ord))i + β2(log(pop))i + Ui,  i = 1, …, 37.

Rappelons qu'envisager un tel modèle revient à supposer que l'élasticité de ord sur int et de pop sur int sont constantes. Par la suite, on supposera (sans y prêter une quelconque attention) que le bruit U satisfait les hypothèses classiques des modèles linéaires (présentées dans le polycopié de cours).

Analysez les sorties ci-dessous

R> require(car)
R> attach(internet)

R> summary(lm(log(int)~log(ord)+log(pop))->reg)

Call:
lm(formula = log(int) ~ log(ord) + log(pop))

Residuals:
     Min       1Q   Median       3Q      Max 
-0.96836 -0.38059 -0.01449  0.21075  2.02775 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  1.31267    0.79065   1.660 0.106063    
log(ord)     0.66784    0.06644  10.052 1.02e-11 ***
log(pop)     0.30136    0.06877   4.382 0.000107 ***
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.628 on 34 degrees of freedom
Multiple R-squared:  0.7913,	Adjusted R-squared:  0.779 
F-statistic: 64.45 on 2 and 34 DF,  p-value: 2.708e-12

R> vif(reg)
log(ord) log(pop) 
1.007644 1.007644 
R> 1-1/vif(reg)
   log(ord)    log(pop) 
0.007586332 0.007586332

On envisage alors en plus d'indicateurs descriptifs d'intégrer un indicateur économique à savoir le de chaque pays. Au vu de la sortie ci-dessous écrire l'équation du modèle et interprétez les résultats. Que confirme la figure en fin d'énoncé ?

R> summary(lm(log(int)~log(ord)+log(pop)+log(pib))->reg2)

Call:
lm(formula = log(int) ~ log(ord) + log(pop) + log(pib))

Residuals:
     Min       1Q   Median       3Q      Max 
-0.93074 -0.26083 -0.09216  0.25388  1.05011 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  2.82328    0.67975   4.153 0.000217 ***
log(ord)     0.20389    0.10662   1.912 0.064538 .  
log(pop)    -0.03787    0.08647  -0.438 0.664242    
log(pib)     0.85683    0.17286   4.957 2.09e-05 ***
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.4826 on 33 degrees of freedom
Multiple R-squared:  0.8804,	Adjusted R-squared:  0.8695 
F-statistic: 80.94 on 3 and 33 DF,  p-value: 2.691e-15

R> vif(reg2)
log(ord) log(pop) log(pib) 
4.393758 2.697517 6.492686 
R> 1-1/vif(reg2)
 log(ord)  log(pop)  log(pib) 
0.7724044 0.6292887 0.8459805

Quelle règle de conduite a été adoptée pour obtenir la sortie ci-dessous ? Interprétez.

R> summary(lm(log(int)~log(ord)+log(pib))->reg3)

Call:
lm(formula = log(int) ~ log(ord) + log(pib))

Residuals:
    Min      1Q  Median      3Q     Max 
-0.9242 -0.2619 -0.1007  0.2438  1.0186 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  2.58132    0.39136   6.596 1.47e-07 ***
log(ord)     0.23515    0.07827   3.005  0.00497 ** 
log(pib)     0.79690    0.10438   7.634 7.15e-09 ***
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.4768 on 34 degrees of freedom
Multiple R-squared:  0.8797,	Adjusted R-squared:  0.8726 
F-statistic: 124.3 on 2 and 34 DF,  p-value: 2.327e-16

R> vif(reg3)
log(ord) log(pib) 
2.425311 2.425311 
R> 1-1/vif(reg3)
 log(ord)  log(pib) 
0.5876818 0.5876818

  1. Comment retrouver la p-valeur du test de significativité locale du régresseur (indication : on pourra, pour ceux qui le souhaitent, répondre en fournissant l'instruction permettant de la calculer).

  2. A l'aide d'une calculatrice (ou par simple calcul mental), peut-on penser au vu des données que β2 < 1 au seuil de 5% (remarquez que n est suffisamment grand pour ) ? Faites un dessin (à main levée) représentant la règle de décision et la pvaleur de ce test.

  3. (question pour les experts) Sans AUCUN CALCUL, proposez une bonne approximation de la pvaleur du test H1 : β2 < 1.6 (indication : 2 × 0.7969 ≃ 1.6).
R> internet
           pays        int         pop       ord  pib
1    etats-unis 123326.000  278058.881 49896.200 7746
2         japon  63955.200  126771.662  7485.780 4202
3     allemagne  28876.900   83029.536  3914.060 2100
...
33        chine  28697.200 1280775.530   140.599  996
34    thailande   1567.700   61797.751    66.000  157
35     colombie    634.055   40349.388    52.160   85
36         inde   4748.760 1029991.150    45.420  360
37  philippines    410.127   82841.518    29.460   83

image

Variables explicatives qualitatives

Trois praticiens sont désireux d'étudier le salaire (noté Sal) d'un individu en fonction d'un indice sur son niveau d'expérience professionnelle (noté Exp) (compris entre 0 et 1 et créé par de brillants spécialistes). Cette étude se limite à des individus dans un certain secteur d'activité. Une variable IndExp a été introduite pour fabriquer des groupes de niveau d'expérience à partir de la variable Exp :


$$ IndExp=\left\{ \begin{array}{ll} Bas & \mbox{si } 0\leq Exp<\frac 13\\ Moyen & \mbox{si } \frac 13\leq Exp<\frac 23\\ Haut & \mbox{si } \frac 23\leq Exp\leq1 \end{array}\right. $$

Enfin, ils disposent aussi de la variable Sex (1=Homme et 0=Femme). Pour se divertir, ils décident que chacun d'entre eux propose leur propre traitement à partir d'un même jeu de données :

R> attach(dfCovMod)
R> require(xtable)

Traitement du premier praticien : Appréciant les traitements simples, il tente une régression simple de Sal en fonction de Exp dont le résumé est fourni par la commande R suivante :

R> summary(lm(Sal~Exp))

Call:
lm(formula = Sal ~ Exp)

Residuals:
    Min      1Q  Median      3Q     Max 
-859.44 -282.47    9.84  297.94  821.64 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   866.44      42.05   20.61   <2e-16 ***
Exp          1815.91      71.99   25.22   <2e-16 ***
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 366.3 on 298 degrees of freedom
Multiple R-squared:  0.681,	Adjusted R-squared:   0.68 
F-statistic: 636.3 on 1 and 298 DF,  p-value: < 2.2e-16

Traitement du deuxième praticien : Ce praticien plus expérimenté connaît mieux les modèles de régression. Il décide de traiter le modèle ci-dessous faisant intervenir à la fois la variable a priori qualitative Sex (pouvant être considéré comme une variable quantitative) et l'indice Exp d'expérience professionnelle :
Sali = β0 + β1Expi + β2Sexi + β3(Expi × Sexi)+Ui

R>  summary(lm(Sal~Exp*Sex))

Call:
lm(formula = Sal ~ Exp * Sex)

Residuals:
    Min      1Q  Median      3Q     Max 
-478.06 -142.38   -9.41  143.13  595.07 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   756.96      32.35  23.400  < 2e-16 ***
Exp          1448.66      57.48  25.201  < 2e-16 ***
Sex           294.45      46.98   6.267 1.29e-09 ***
Exp:Sex       575.75      80.46   7.156 6.57e-12 ***
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 204.1 on 296 degrees of freedom
Multiple R-squared:  0.9016,	Adjusted R-squared:  0.9007 
F-statistic: 904.6 on 3 and 296 DF,  p-value: < 2.2e-16

Comparer le coefficient de détermination R2. Pour les deux modèles, quelle(s) valeur(s) prédiriez-vous pour les salaires d'une femme et d'un homme ayant un indice d'expérience professionnelle égal à 0.5 ?

Traitement du troisième praticien : Spécialisé dans les modèles ANOVA (moins dans les modèles de régression), il se propose d'expliquer le Salaire (Sal) en fonction des facteurs (variables qualitatives) Sex et IndExp. L'instruction R (avec sa sortie standard) conduisant à une telle analyse est donnée ci-dessous:

R> summary(aov(Sal~IndExp*Sex))
             Df   Sum Sq  Mean Sq F value   Pr(>F)    
IndExp        2 74368397 37184199  493.40  < 2e-16 ***
Sex           1 26370087 26370087  349.91  < 2e-16 ***
IndExp:Sex    2  2463488  1231744   16.34 1.86e-07 ***
Residuals   294 22156811    75363                     
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1

Afin de comparer ses résultats avec ceux de ses collègues, ce praticien (malgré sa moins bonne connaissance des modèles de régression) sait toutefois qu'un modèle ANOVA peut s'écrire comme un modèle de régression linéaire et propose l'analyse suivante :

R> summary(lm(Sal~IndExp*Sex))

Call:
lm(formula = Sal ~ IndExp * Sex)

Residuals:
    Min      1Q  Median      3Q     Max 
-643.05 -193.87   -3.37  177.69  667.47 

Coefficients:
                Estimate Std. Error t value Pr(>|t|)    
(Intercept)      1006.97      37.36  26.955  < 2e-16 ***
IndExpMoyen       490.07      52.59   9.318  < 2e-16 ***
IndExpHaut        965.24      56.11  17.203  < 2e-16 ***
Sex               348.07      55.08   6.319 9.72e-10 ***
IndExpMoyen:Sex   309.93      76.89   4.031 7.08e-05 ***
IndExpHaut:Sex    436.40      78.97   5.526 7.21e-08 ***
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 274.5 on 294 degrees of freedom
Multiple R-squared:  0.8233,	Adjusted R-squared:  0.8202 
F-statistic: 273.9 on 5 and 294 DF,  p-value: < 2.2e-16

A partir de la dernière sortie, écrire l'équation du modèle ( en , correspond à l'indicatrice associée à l'événement IndExp = Moyen).

Quelle(s) valeur(s) prédiriez-vous pour les salaires d'une femme et d'un homme ayant un indice d'expérience professionnelle égal à 0.5 ?

Conclusions : Les trois praticiens confrontent enfin leurs résultats.

Quel(s) modèle(s) vous semble(nt) être le(s) plus intéressant(s) pour le but que se sont fixés les trois praticiens ? (Justifier votre réponse)

Pour comparer les résultats, ils proposent de représenter sur un même graphique les différents modèles ajustés ainsi que le nuage des individus (Triangle=Homme et Croix=Femme) :

Espace Variables

Identifier sur le graphique les droites et segments de droites représentant les trois modèles proposés par ces praticiens.

Un praticien se propose d'expliquer le salaire d'une certaine catégorie de la population active en fonction du niveau d'étude et de l'expérience professionnelle. Il s'appuie pour cette analyse sur un jeu de données recueilli auprès de n = 200 individus constitué du salaire mensuel (variable Sal), d'un indicateur du niveau d'études (variable IndEtu) et d'un indicateur de l'expérience professionnelle (variable IndExp). Ces deux indicateurs ont été calculés par un expert de sorte qu'ils varient entre 0 et 1.

On envisage un modèle linéaire standard
Sali = β0 + β1IndEtui + β2IndExpi + Ui
Analysez les résultats de la régression présentés dans le tableau ci-après.

R> attach(salaire)

R> summary(lm(Sal~IndEtu+IndExp))

Call:
lm(formula = Sal ~ IndEtu + IndExp)

Residuals:
    Min      1Q  Median      3Q     Max 
-539.07 -265.83    1.85  273.36  644.93 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   928.93      55.56  16.720  < 2e-16 ***
IndEtu        238.91      71.25   3.353 0.000959 ***
IndExp       1489.23      73.94  20.140  < 2e-16 ***
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 309.8 on 197 degrees of freedom
Multiple R-squared:  0.6787,	Adjusted R-squared:  0.6755 
F-statistic: 208.1 on 2 and 197 DF,  p-value: < 2.2e-16

N'ayant pas les moyens d'observer le nuage de points, le praticien sait qu'un bon réflexe est d'observer la répartition des résidus (premier histogramme en haut du graphique ci-après). Que remarquez-vous?

Residus

Le praticien décide alors d'introduire une variable binaire S (égale à 1 ou 0) permettant ainsi de classer les individus en deux catégories. Après avoir récolté les informations supplémentaires relatives à S, il ``plot'' les deux autres histogrammes ci-dessus représentant les répartitions des résidus par catégorie. Pourriez-vous expliquer l'analyse du praticien? Et compte tenu de la problématique, quel vous semble être la nature de cette variable discriminante S?

Fort de cette interprétation graphique, le praticien décide d'intégrer S dans le modèle. Cependant, il manque d'expérience dans le traitement de ce type de problème. Lorsqu'il y a deux régresseurs quantitatifs, il sait que la méthode MCO consiste à déterminer dans l'espace de représentation porté par les trois variables le plan le plus proche (``verticalement'') du nuage de points. En revanche, il ne visualise pas très bien ce que fera la méthode après introduction de la variable S. Dans cet espace de représentation (avec les trois mêmes variables), pourriez-vous lui expliquer comment s'interprète la méthode MCO?

Après s'être informé, le praticien envisage alors deux nouveaux modèles :

  1. Modèle A : on ajoute S au modèle initial.
  2. Modèle B: on ajoute S × IndEtu (noté S:IndEtu en R) et S × IndExp (noté S:IndExp en R) au modèle A.

Exprimez géométriquement (via les caractéristiques des plans associés aux deux catégories) la différence entre les deux nouveaux modèles?

Déterminez l'équation de chaque modèle, analysez les résultats de chaque régression et comparez-les avec ceux du modèle initial.

R> summary(lm(Sal~IndEtu+IndExp+S))

Call:
lm(formula = Sal ~ IndEtu + IndExp + S)

Residuals:
    Min      1Q  Median      3Q     Max 
-309.08 -104.64    6.17  101.56  364.73 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   621.74      27.22  22.845  < 2e-16 ***
IndEtu        250.43      31.95   7.839 2.83e-13 ***
IndExp       1525.13      33.17  45.976  < 2e-16 ***
S             550.78      19.67  28.005  < 2e-16 ***
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 138.9 on 196 degrees of freedom
Multiple R-squared:  0.9358,	Adjusted R-squared:  0.9348 
F-statistic: 951.7 on 3 and 196 DF,  p-value: < 2.2e-16

R> summary(lm(Sal~S+IndEtu+IndExp+S:IndEtu+S:IndExp))

Call:
lm(formula = Sal ~ S + IndEtu + IndExp + S:IndEtu + S:IndExp)

Residuals:
     Min       1Q   Median       3Q      Max 
-225.057  -77.273   -2.623   72.424  261.169 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   819.70      27.73  29.562  < 2e-16 ***
S             155.63      38.53   4.039 7.73e-05 ***
IndEtu        108.22      36.53   2.963  0.00343 ** 
IndExp       1275.40      35.25  36.178  < 2e-16 ***
S:IndEtu      265.97      49.48   5.375 2.18e-07 ***
S:IndExp      530.59      51.25  10.354  < 2e-16 ***
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 107.1 on 194 degrees of freedom
Multiple R-squared:  0.9622,	Adjusted R-squared:  0.9612 
F-statistic:   987 on 5 and 194 DF,  p-value: < 2.2e-16

Intervalle de confiance et Prédiction

Les supports de cours

Cours et TDs

Complément

Data

Anciens examens

Attention : pas au format QCM mais contenus similaires au futur Examen sous forme de QCM

11/12/2017