Esta é uma pré-visualização de arquivo. Entre para ver o arquivo original
Econometria
Aula 9
Marta AreosaMarta Areosa
marta@econ.puc-rio.br
Modelo de Regressão Multipla
Considere o caso de dois regressores:
Yi = β0 + β1X1i + β2X2i + ui, i = 1,…,n
• Y é a variável dependente
2
• X1, X2 são as duas variáveis independentes (regressores)
• β0 = intercepto populacional desconhecido
• β1 = efeito em Y de uma variação em X1, dado X2 constante
• β2 = efeito em Y de uma variação em X2, dado X1 constante
• ui = o erro da regressão (variáveis omitidas)
Interpretando os coeficientes em
regressões múltiplas
Yi = β0 + β1X1i + β2X2i + ui, i = 1,…,n
Considere a variação em X1 de ∆X1 mantendo X2 constante:
A linha de regressão populacional antes da variação:
3
A linha de regressão populacional antes da variação:
Y = β0 + β1X1 + β2X2
A linha de regressão populacional depois da variação:
Y + ∆Y = β0 + β1(X1 + ∆X1) + β2X2
Antes: Y = β0 + β1 X1 + β2X2
Depois: Y + ∆Y = β0 + β1(X1 + ∆X1) + β2X2
Diferença: ∆Y = β1∆X1
Então:
β = Y∆ , mantendo X constante
4
β1 =
1
Y
X
∆
∆
, mantendo X2 constante
β2 =
2
Y
X
∆
∆
, mantendo X1 constante
β0 = valor predito de Y quando X1 = X2 = 0.
Exemplo
Log(salário) = 0,284 + 0,092 Educ + 0,0041 Exper +
0,022 Tempo emprego
Como interpretamos o coeficiente 0,092 em Educação?
5
Exemplo
Log(salário) = 0,284 + 0,092 Educ + 0,0041 Exper +
0,022 Tempo emprego
Como interpretamos o coeficiente 0,092 em Educação?
6
Significa que se observamos duas pessoas com a mesma
experiência no mercado de trabalho e o mesmo tempo no
emprego, um ano a mais de educação aumenta o salário, na
média, em 9,2%.
O Estimador de MQO em Regressões
Multiplas
Com dois regressores, o estimador de MQO é a solução de:
0 1 2
2
, , 0 1 1 2 2
1
min [ ( )]
n
b b b i i i
i
Y b b X b X
=
− + +∑
7
O Estimador de MQO em Regressões
Multiplas
Com dois regressores, o estimador de MQO é a solução de:
0 1 2
2
, , 0 1 1 2 2
1
min [ ( )]
n
b b b i i i
i
Y b b X b X
=
− + +∑
8
• O estimador de MQO minimiza a diferença quadrática média
entre os valores reais de Yi e o valor predito com base na linha
estimada.
• Isto nos dá os estimadores de ββββ0 , ββββ1 e ββββ2
Medidas de ajuste em regressões
múltiplas
Atual = predito + resíduo: Yi = ˆiY + ˆiu
Erro Padrão Regressão (SER) = desvio padrão de ˆiu (com
correção de g.l.)
9
correção de g.l.)
Raiz Erro Quadrático Médio (RMSE) = std. deviation of ˆiu (sem
correção g.l.)
R2 = fração da variância de Y explicada por X
2R = “R2 ajustado” = R2 com correção de graus de liberdade
EPR e REQM
Assim como em regresses com um só regressor, o EPR e a
REQM são medidas da dispersão de Y ao redor da linha de
regressão:
10
EPR = 2
1
1
ˆ
1
n
i
i
u
n k
=
− −
∑
REQM = 2
1
1
ˆ
n
i
i
u
n
=
∑
R2 e R2 ajustado
O R2 é a fração da variação explicada pelos regressores– mesma
definição do caso com um regressor único:
R2 = SQE/SQT = 1-SQR/SQT,
11
onde SQE = 2
1
ˆ ˆ( )
n
i
i
Y Y
=
−∑ , SQR = 2
1
ˆ
n
i
i
u
=
∑ , SQT = 2
1
( )
n
i
i
Y Y
=
−∑ .
• o R2 sempre aumenta quando adicionamos outro regressor
(por que?) – problema para medir “ajuste”
R2 e R2 ajustado
O 2R ( “R2 ajustado”) corrige este problema “penalizando” a
inclusão de outro regressor – o 2R pode não aumentar ao
adicionarmos outro regressor.
12
R 2 ajustado:
SQT
SQE
kn
nR
1
11
−−
−
−=
Regressão Múltipla: forma matricial
• Em forma matricial:
k
k
u
u
XX
XX
Y
Y
+
=
MMMMM
L
L
M
2
1
1
0
2,2,1
1,1,1
2
1
1
1
β
β
uXY += β
Obs: n é o tamanho da amostra e k é o número de regressores
13
{ { {
u
nk
X
nkn
Y
n uXXY
MM
444 3444 21
L
MMMM
,,11
β
β
Derivação matricial
( )=→
ℜ→ℜn
xfyx
f :
dx
dy
dx
dy
dx
dy
n
= M
1
• Função real:
14
( ) ( ) ∑
=
=
==
n
j
ii
n
n
T
xb
x
x
bbxbxf
1
1
1 ML b
b
b
xb
dx
d
xb
dx
d
dx
xdb
n
n
j
ii
n
n
j
ii
T
n
=
=
=
∑
∑
=
=
MM
1
1
11
• Caso particular:
Derivação matricial
( )
( )
( )
==→
ℜ→ℜ
k
kn
xf
xf
xfyx
f
1
:
M
k
dx
df
dx
df
dx
df
dx
df
dx
dy
=
11
11
1
L
MM
L
• Função vetorial:
15
( )
=
=
=
=
=
∑
∑
=
=
n
j
ikik
n
j
ii
nknk
n
xbf
xbf
x
x
bb
bb
Bxxf
1
1
11
1
1
111
MM
L
MM
L
T
knn
k
nn
B
bb
bb
dx
dBx
dxdx
=
=
1
111
L
• Caso particular:
{ }
[ ] [ ] [ ]
[ ][ ] [ ]ββββββ
ββ
ββ
βββββ
XXXYYXYYXYXY
XYXY
u
u
uuu
TTTTTTTTT
T
n
n
n
i
i
k
+−−=−−=
−−=
=∑
=
minmin
minminmin
1
1
1
2
,,, 10
ML
K
Regressão Múltipla: forma matricial
• Derivações
• CPO
16
( ) YXYX TTT =
∂
∂ ββ ( ) ( ) YXXYXY T
TTT
==
∂
∂ ββ
( ) ( ) ( ) ( ) ( ) ( )ββββββββ XXXXXXXXXXXX TTT
TTTTT 2=+=+=
∂
∂
( ) ( ) ( ) YXXXYXXXXXYX TTTTTT 1022 −=⇒=⇒=+− βββ
• CPO
{ }
( )∑∑
==
−−−−=
n
i
kikii
n
i
i XXYu
k 1
2
110
1
2
,,,
minmin
10
βββ
ββββ
L
K
Regressão Múltipla
( )
( ) { }kjXXXY
XXY
n
n
i
kikii
,,1,02
02
1
110
KL
L
∈∀=−−−−−
=−−−−−
∑
∑
=
βββ
βββ
• O problema de MQO:
• CPOs
( ) { }kjXXXY ji
i
kikii ,,1,02
1
110 KL ∈∀=−−−−− ∑
=
βββ
=
∑
∑
∑
∑
∑∑∑∑
∑∑∑∑
∑∑∑∑
∑∑∑
=
=
=
=
====
====
====
===
i
n
i i
i
n
i i
i
n
i i
n
i i
k
n
i in
n
i iki
n
i iki
n
i ik
n
i iki
n
i i
n
i ii
n
i i
n
i iki
n
i ii
n
i i
n
i i
n
i ik
n
i i
n
i i
YX
YX
YX
Y
XXXXXX
XXXXXX
XXXXXX
XXXn
1 ,1
1 ,1
1 ,1
1
2
1
0
1
2
,1 ,,21 ,,11 ,
1 ,,21
2
,21 ,2,11 ,2
1 ,,11 ,2,11
2
,11 ,1
1 ,1 ,21 ,1
MM
L
MOMMM
L
L
L
β
β
β
β
• Forma Matricial
Regressão Múltipla
=
∑
∑
∑
∑∑∑∑
∑∑∑∑
∑∑∑
=
=
=
====
====
===
i
n
i i
i
n
i
i
n
i i
n
i iki
n
i i
n
i ii
n
i i
n
i iki
n
i ii
n
i i
n
i i
n
i ik
n
i i
n
i i
YX
YX
Y
XXXXXX
XXXXXX
XXXn
1 ,1
1 ,1
1
2
1
0
1 ,,21
2
,21 ,2,11 ,2
1 ,,11 ,2,11
2
,11 ,1
1 ,1 ,21 ,1
MMMOMMM
L
L
L
β
β
β
• Mas
∑∑∑∑∑ ===== i
n
i i
k
n
i in
n
i iki
n
i iki
n
i ik
YXXXXXXX
1 ,11
2
,1 ,,21 ,,11 ,
M
L
MOMMM
β
pode ser escrito com
{ {
Y
n
X
nkkkk
X
nkn
k
k
X
nkkk Y
Y
Y
XXX
XX
XX
XX
XX
XXX
XX
TT
=
M
4444 34444 21
L
MMM
L
L
M
444 3444 21
L
MMM
L
L
4444 34444 21
L
MMM
L
L
2
1
,2,1,
2,11,11
0
,,1
2,2,1
1,1,1
,2,1,
2,11,1
111
1
1
1111
β
β
β
β
Pressupostos de MQO em Regressões
Múltiplas
Yi = β0 + β1X1i + β2X2i + … + βkXki + ui, i = 1,…,n
19
Pressupostos de MQO em Regressões
Múltiplas
Yi = β0 + β1X1i + β2X2i + … + βkXki + ui, i = 1,…,n
1. A distribuição condicional de u dado os X’s tem média zero,
ou seja, E(u|X1 = x1,…, Xk = xk) = 0.
20
2. (X1i,…,Xki,Yi), i =1,…,n, são i.i.d.
3. Outliers são raros: X1,…, Xk, e Y tem quarto momento finito:
E( 41iX ) < ∞,…, E( 4kiX ) < ∞, E( 4iY ) < ∞.
Pressupostos de MQO em Regressões
Múltiplas
Yi = β0 + β1X1i + β2X2i + … + βkXki + ui, i = 1,…,n
1. A distribuição condicional de u dado os X’s tem média zero,
ou seja, E(u|X1 = x1,…, Xk = xk) = 0.
21
2. (X1i,…,Xki,Yi), i =1,…,n, são i.i.d.
3. Outliers são raros: X1,…, Xk, e Y tem quarto momento
finito: E( 41iX ) < ∞,…, E( 4kiX ) < ∞, E( 4iY ) < ∞.
4. Não há multicolinearidade perfeita.
Pressuposto 1
E(u|X1 = x1,…, Xk = xk) = 0
• Tem a mesma interpretação do caso de um regressor.
• Esta condição falha quando (1) uma variável omitida
22
pertence à equação (e consequentemente está em u) e (2) é
correlacionada com X
• Falha desta condição gera vies de variável omitida
• A solução – se possível – é incluir a variável omitida na
regressão.
Pressuposto 2: (X1i,…,Xki,Yi), i =1,…,n, são i.i.d.
Satisfeita se os dados são coletados por amostragem aleatória
simples.
23
Pressuposto 2: (X1i,…,Xki,Yi), i =1,…,n, são i.i.d.
Satisfeita se os dados são coletados por amostragem aleatória
simples.
Pressuposto 3: outliers são raros (quarto momento finito)
24
Mesmo pressuposto que o caso de regressão simples.
Pressuposto 4: Não há multicolinearidade perfeita
multicolinearidade perfeita acontece quando um regressor é
exatamente uma função linear de outro(s) regressor(es).
Com estes pressupostos, podemos agora derivar a distribuição
amostral de 1ˆβ , 2ˆβ ,…, ˆkβ .
25
amostral de 1ˆβ , 2ˆβ ,…, ˆkβ .
Multicolinearidade:
perfeita e imperfeita
Alguns exemplos de multicolinearidade perfeita
• Incluir a mesma variável duas vezes na regressão.
26
• Fazer uma regressão de Nota em uma constante, D, e B, onde:
Di = 1 se Turma ≤ 20, = 0 caso contrário; Bi = 1 se Turma
>20, = 0 caso contrário, assim Bi = 1 – Di e teríamos
multicolinearidade perfeita.
Multicolinearidade:
perfeita e imperfeita
Alguns exemplos de multicolinearidade perfeita
• Teríamos multicolinearidade perfeita se tirássemos o
intercepto da regressão?
27
• Este exemplo é um caso especial de …
Armadilha da variável dummy
Suponha que temos uma série de variáveis binárias (dummy), que
são mutuamente exclusivas e exaustivas
Ou seja, há categorias múltiplas e toda observação cai em uma e
somente uma categoria (analfabeto, primário completo,
28
somente uma categoria (analfabeto, primário completo,
secundário completo, universitário ou mais).
Armadilha da variável dummy
Suponha que temos uma série de variáveis binárias (dummy), que
são mutuamente exclusivas e exaustivas
Ou seja, há categorias múltiplas e toda observação cai em uma e
somente uma categoria (analfabeto, primário completo,
29
somente uma categoria (analfabeto, primário completo,
secundário completo, universitário ou mais).
Suponha estimamos a seguinte regressão:
Log(salário)=β0+ β1 Analf+ β2 Prim+ β3 Sec + β4Univ + u
Armadilha da variável dummy
Se incluímos todas estas dummies e a constante teremos
multicolinearitdade perfeita– as vezes este problema é chamado
de armadilha das dummies.
• Por que teríamos multicolinearidade neste exemplo?
30
Interpretação das dummies
• Soluções:
1. Omitir um grupo (exemplo Analfabeto)
A interpretação se faz aqui em relação à categoria omitida.
31
Exemplo: salário e educação
. reg lhwage analf prim sec sup
Source | SS df MS Number of obs = 1923
-------------+------------------------------ F( 3, 1919) = 281.04
Model | 457.486466 3 152.495489 Prob > F = 0.0000
Residual | 1041.26597 1919 .542608637 R-squared = 0.3052
-------------+------------------------------ Adj R-squared = 0.3042
Total | 1498.75244 1922 .77978795 Root MSE = .73662
32
Total | 1498.75244 1922 .77978795 Root MSE = .73662
------------------------------------------------------------------------------
lhwage | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
analf | (dropped)
prim | .2708688 .051286 5.28 0.000 .1702867 .3714508
sec | .7659469 .0545977 14.03 0.000 .6588697 .873024
sup | 1.71889 .0681994 25.20 0.000 1.585137 1.852642
_cons | 1.489564 .0449125 33.17 0.000 1.401481 1.577646
------------------------------------------------------------------------------
Interpretação das dummies
• Soluções:
1. Omitir um grupo (exemplo Analfabeto)
A interpretação se faz aqui em relação à categoria omitida.
Exemplo:
33
Exemplo:
Passar de analfabeto para primário está associado a um aumento
no salário de 27%.
Passar de analfabeto para superior, o aumento médio é de 172%.
Armadilha da variável dummy
• Soluções:
1. Omitir um grupo (exemplo Analfabeto), ou
2. Omitir o intercepto
34
Exemplo: salário e educação
. reg lhwage analf prim sec sup, noc
Source | SS df MS Number of obs = 1923
-------------+------------------------------ F( 4, 1919) = 3835.34
Model | 8324.34718 4 2081.0868 Prob > F = 0.0000
Residual | 1041.26597 1919 .542608637 R-squared = 0.8888
-------------+------------------------------ Adj R-squared = 0.8886
Total | 9365.61316 1923 4.87031365 Root MSE = .73662
35
Total | 9365.61316 1923 4.87031365 Root MSE = .73662
------------------------------------------------------------------------------
lhwage | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
analf
| 1.489564 .0449125 33.17 0.000 1.401481 1.577646
prim | 1.760433 .0247612 71.10 0.000 1.711871 1.808994
sec | 2.255511 .0310448 72.65 0.000 2.194626 2.316396
sup | 3.208454 .0513227 62.52 0.000 3.107799 3.309108
------------------------------------------------------------------------------
Armadilha da variável dummy
• Soluções:
1. Omitir um grupo (exemplo Analfabeto), ou
2. Omitir o intercepto
36
Iremos falar mais sobre variáveis dummy nas próximas aulas...
Multicolinearidade
• Multicolinearidade perfeita geralmente reflete algum erro na
definição dos regressores, ou algo esquisito nos dados.
• Nesse caso, o software estatístico deixará claro o problema –
37
não conseguirá estimar o modelo ou dará uma mensagem
“dropando” uma das variáveis arbitrariamente.
• A solução neste caso é modificar os regressores.
Multicolinearidade Imperfeita
Acontece com mais freqüência na análise de dados.
Ocorre quando dois regressores ou mais têm uma alta correlação.
38
• Se dois regressores são altamente correlacionados, o
“scatterplot” irá parecer uma linha – variáveis colineares –
mas se a correlação não é 1 ou -1, a colinearidade não será
perfeita.
Multicolinearidade Imperfeita
• Multicolinearidade imperfeita implica que um ou mais
coeficientes serão estimados de forma imprecisa.
• Intuição: o coeficiente de X1 é o efeito de X1 mantendo X2
constante;mas se X e X são altamente correlacionados, há
39
constante;mas se X1 e X2 são altamente correlacionados, há
muito pouca variação em X1 quando mantemos X2 constante.
Multicolinearidade Imperfeita
• Multicolinearidade imperfeita implica que um ou mais
coeficientes serão estimados de forma imprecisa.
• Intuição: o coeficiente de X1 é o efeito de X1 mantendo X2
constante;mas se X e X são altamente correlacionados, há
40
constante;mas se X1 e X2 são altamente correlacionados, há
muito pouca variação em X1 quando mantemos X2 constante.
• Assim os dados não serão informativos sobre o que acontece
quando variamos X1 mas X2 não varia-- a variância do
estimador de MQO do coeficiente em X1 será muito grande
(erro padrão muito grande).
Incluindo variáveis irrelevantes
• Já falamos sobre o viés de variáveis omitidas—o viés causado
pela ausência de uma variável X2, determinante de Y e
correlacionada com X1.
• Mas o que acontece se incluímos no modelo uma variável
41
• Mas o que acontece se incluímos no modelo uma variável
irrelevante (que não deveria determinar Y)? Isto é chamado, as
vezes, de sobre-especificação do modelo.
Incluindo variáveis irrelevantes
• Suponha que especificamos o seguinte modelo:
Y = β0 + β1X1 + β2X2 + β3X3 +u
Na regressão populacional (desconhecida), a variável X3 não
determina Y depois de controlarmos por X e X .
42
determina Y depois de controlarmos por X1 e X2.
Incluindo variáveis irrelevantes
• Suponha que especificamos o seguinte modelo:
Y = β0 + β1X1 + β2X2 + β3X3 +u
Na regressão populacional (desconhecida), a variável X3 não
determina Y depois de controlarmos por X e X . Ou seja,
43
determina Y depois de controlarmos por X1 e X2. Ou seja,
E(Y|X1, X2, X3)= E(Y|X1, X2)= β0 + β1X1 + β2X2
Incluindo variáveis irrelevantes
• Suponha que especificamos o seguinte modelo:
Y = β0 + β1X1 + β2X2 + β3X3 +u
Na regressão populacional (desconhecida), a variável X3 não
determina Y depois de controlarmos por X e X . Ou seja,
44
determina Y depois de controlarmos por X1 e X2. Ou seja,
E(Y|X1, X2, X3)= E(Y|X1, X2)= β0 + β1X1 + β2X2
• O que acontece com os coeficientes β1 e β2 quando incluímos
uma variável irrelevante (X3) na regressão (sem saber)?
Incluindo variáveis irrelevantes
• Nada !
45
Incluindo variáveis irrelevantes
• Nada !
• Então podemos incluir tudo o que quisermos sempre numa
regressão?
46
• Não. Vamos ver mais adiante que a inclusão de variáveis
irrelevantes afeta a precisão de β1 e β2 (o erro padrão).