Esta é uma pré-visualização de arquivo. Entre para ver o arquivo original
Econometria
Aula 5
Marta AreosaMarta Areosa
marta@econ.puc-rio.br
Teoria da Probabilidade para
Regressões Lineares
População
O grupo de interesse (ex: todas as escolas urbanas do Brasil)
Variáveis aleatórias: Y, X
Ex: (Nota em matemática,Tamanho de turma)
Distribuição conjunta de (Y, X)
2
Distribuição conjunta de (Y, X)
A função de regressão populacional é linear:
E(u|X) = 0 (1o pressuposto de MQO)
X, Y têm momentos finitos (3o pressuposto MQO)
Dados Coletados por amostra aleatória simples:
{(Xi, Yi)}, i = 1,…, n, são i.i.d. (2o pressuposto MQO)
Distribuição Amostral de
• O que é E( 1ˆβ )?
• Se E( 1ˆβ ) = β1, então MQO é não viesado
• O que é var( 1ˆβ )? (medida da incerteza amostral)
• Qual é a distribuição de ˆβ em amostras pequenas?
1
ˆβ
3
• Qual é a distribuição de 1ˆβ em amostras pequenas?
• Pode ser complicada em geral
• Qual é a distribuição de 1ˆβ em amostras grandes?
• Relativamente simples – 1ˆβ é distribuído como uma
Normal.
Expressando em função de
Vamos mostrar que 1ˆβ é ume estimador não-viesado para β1:
Yi = β0 + β1Xi + ui
Y = β0 + β1X + u Yi – Y = β1(Xi – X ) + (ui – u )
Podemos expressar β1 como:
1
ˆβ
→
1β
4
Podemos expressar β1 como:
1
ˆβ = 1
2
1
( )( )
( )
n
i i
i
n
i
i
X X Y Y
X X
=
=
− −
−
∑
∑
( ) ( ) ( )[ ]
( )∑
∑
=
=
−
−+−−
=
n
i
i
n
i
iii
XX
uuXXXX
1
2
1
1β
( ) ( )( )
( )
( )( )
( )
( ) ( ) ( )∑∑∑
∑
∑
∑
∑ ∑
=
=
=
= =
−−−
−
−−
+=
−
−−+−
=
n
ii
n
i
n
ii
n
i
i
n
i
ii
n
i
i
n
i
n
i
iii
uXXXXuuXX
XX
uuXX
XX
uuXXXX
1
2
1
1
1
2
1 1
2
1
β
β
Expressando em função de 1
ˆβ 1β
5
( )
( )
( )
( )
( )
( )∑
∑
∑
∑
∑
∑
=
=
=
=
=
=
−
−
+=
−
−
−
−
−
+=
n
i
i
i
ii
n
i
i
i
i
n
i
i
i
ii
XX
uXX
XX
XXu
XX
uXX
1
2
1
1
1
2
1
1
2
1
1 ββ
Ou seja:
1
ˆβ = β1 + 1
2
1
( )
( )
n
i i
i
n
i
i
X X u
X X
=
=
−
−
∑
∑
Agora podemos calcular E( ):
1
ˆβ
[ ] ( )( )
( ) [ ]
( )
1
2
1
1
1
1
2
1
11
,...,|
ˆ βββ
−
−
+=
−
−
+=
∑
∑
∑
∑
=
=
=
=
n
i
i
n
i
nii
n
i
i
n
i
ii
XX
XXuEXX
E
XX
uXX
EE
6
( ) [ ]
( ) 1
1
2
1
1
|
ββ =
−
−
+=
∑
∑
=
=
n
i
i
n
i
iii
XX
XuEXX
E
Isso é, 1ˆβ é um estimador não-viesado de ββββ1.
Agora podemos calcular Var( ):1
ˆβ
Podemos escrever
1
ˆβ – β1 = 1
2
1
( )
( )
n
i i
i
n
i
i
X X u
X X
=
=
−
−
∑
∑
Se assumirmos que n é grande, temos X µ≈ , 2s ≈ 2σ e 1n− ≈ 1.
7 OBS: é i.i.d e iv [ ] 0=ivE
Se assumirmos que n é grande, temos XX µ≈ , 2Xs ≈ 2Xσ e
1n
n
−
≈ 1.
Logo, ( ) ( ) 21 21
22 1
1
111
X
n
i
X
n
i
ii s
n
nXX
nn
nXX
n
σ≈
−
=
−
−
−
=−∑ ∑
= =
e, portanto,
1
ˆβ ≈ β1 + 12
1 n
i
i
X
v
n
σ
=
∑
, onde vi = (Xi – Xµ )ui
Var( ):1
ˆβ
Então var( 1ˆβ ) = 2 2var( ) /( )X
v n
σ
assim
var( 1ˆβ ) = 4var[( ) ]1 i x iX un
µ
σ
−
× .
8
Xn σ
Resumo até agora
• 1
ˆβ é não-viesado: E( 1ˆβ ) = β1
• var( 1ˆβ ) é inversamente proporcional a n
Qual é a Distribuição Amostral de ?1
ˆβ
A distribuição amostral exata de β1 é complicada—depende das
distribuições populacionais de (Y, X)—Mas para n grande
obtemos aproximações boas e simplificadas:
9
(1) var( 1ˆβ ) ∝ 1/n e E( 1ˆβ ) = β1, 1ˆβ
p
→ β1
(2) Quando n é grande, a distribuição amostral de 1ˆβ é
bem aproximada por uma distribuição normal (TCL)
Qual é a Distribuição Amostral de ?1
ˆβ
Lembremos o TCL:
suponha {vi}, i = 1,…, n é i.i.d. com E(v) = 0 e var(v) = σ2.
Então, quando n é grande, 1
n
v∑ é aproximadamente distribuído
10
Então, quando n é grande,
1
i
i
v
n
=
∑ é aproximadamente distribuído
como N(0, 2 /v nσ ).
Qual é a Distribuição Amostral de ?
• Então, para n grande, 1ˆβ
é aproximadamente distribuido:
1
ˆβ ~
2
1 4,
v
X
N
n
σβ
σ
, onde vi = (Xi – µX)ui
1
ˆβ
11
Quanto maior a variância de X, menor
a variância de
Matematicamente
var( 1ˆβ – β1) = 4var[( ) ]1 i x i
X
X u
n
µ
σ
−
×
onde 2Xσ = var(Xi). A variância de X aparece com quadrado no
1
ˆβ
12
denominador – então um aumento na dispersão de X diminui a
variância de β1.
Quanto maior a variância de X, menor
a variância de
Intuitivamente
Se há mais variação em X, então há mais informação nos dados
que pode ser utilizada para estimar a linha de regressão. Isto
pode ser visto na seguinte figura…
1
ˆβ
13
pode ser visto na seguinte figura…
Quanto maior a variância de X, menor
a variância de 1
ˆβ
14
Temos o mesmo número de pontos azuis e pretos. Usando quais
dados podemos obter uma estimação mais precisa?
Resumo da Distribuição Amostral de 1
ˆβ
Se os pressupostos de MQO se cumprem então:
• A distribuição exata de 1ˆβ tem:
• E( 1ˆβ ) = β1 (ou seja, 1ˆβ é não-viesado)
• var( 1ˆβ ) = 4var[( ) ]1 i x i
X
X u
n
µ
σ
−
× ∝
1
n
.
15
X
Resumo da Distribuição Amostral de 1
ˆβ
Se os pressupostos de MQO se cumprem então:
• A distribuição exata de 1ˆβ tem:
• E( 1ˆβ ) = β1 (ou seja, 1ˆβ é não-viesado)
• var( 1ˆβ ) = 4var[( ) ]1 i x i
X
X u
n
µ
σ
−
× ∝
1
n
.
16
X
• 1
ˆβ p→ β1 (ou seja, 1ˆβ é consistente)
• Quando n é grande, 1 1
1
ˆ ˆ( )
ˆvar( )
Eβ β
β
−
~ N(0,1) (TCL)
Prontos para Testar Hipóteses
• Agora que sabemos a distribuição amostral dos estimadores
de MQO, estamos prontos para testar hipóteses e construir
intervalos de confiança para β1.
17
O que estamos fazendo…
Queremos obter informações sobre a inclinação da linha de
regressão populacional usando informações sobre a amostra. Por
isso, temos incerteza amostral. Temos que seguir quatro passos:
1. Definir precisamente a população de interesse.
18
1. Definir precisamente a população de interesse.
O que estamos fazendo…
Queremos obter informações sobre a inclinação da linha de
regressão populacional usando informações sobre a amostra. Por
isso, temos incerteza amostral. Temos que seguir quatro passos:
1. Definir precisamente a população de interesse.
19
1. Definir precisamente a população de interesse.
2. Derivar a distribuição amostral dos estimadores (para isso
precisamos fazer alguns pressupostos).
O que estamos fazendo…
3. Estimar a variância da distribuição amostral (pelo TCL é
tudo o que precisamos saber quando n é grande) – ou seja,
encontrar o erro padrão (EP) do estimador usando
somente a amostra que temos nas nossas mãos.
20
O que estamos fazendo…
3. Estimar a variância da distribuição amostral (pelo TLC é
tudo o que precisamos saber
quando n é grande) – ou seja,
encontrar o erro padrão (EP) do estimador usando
somente a amostra que temos nas nossas mãos.
21
4. Usar o estimador ( 1ˆβ ) para obter estimativas pontuais e,
com seu erro padrão (EP), fazer testes de hipótese e
construir intervalos de confiança.
Objeto de interesse: β1
Yi = β0 + β1Xi + ui, i = 1,…, n
β1 = ∆Y/∆X, para uma variação exógena em X (efeito causal)
22
Objeto de interesse: β1
Yi = β0 + β1Xi + ui, i = 1,…, n
β1 = ∆Y/∆X, para uma variação exógena em X (efeito causal)
Pressupostos de MQO:
1. E(u|X = x) = 0.
2. (Xi,Yi), i =1,…,n, e i.i.d.
23
2. (Xi,Yi), i =1,…,n, e i.i.d.
3. Outliers são raros (E(X4) < ∞, E(Y4) < ∞.
Objeto de interesse: β1
Yi = β0 + β1Xi + ui, i = 1,…, n
β1 = ∆Y/∆X, para uma variação exógena em X (efeito causal)
Pressupostos de MQO:
1. E(u|X = x) = 0.
2. (Xi,Yi), i =1,…,n, e i.i.d.
24
2. (Xi,Yi), i =1,…,n, e i.i.d.
3. Outliers são raros (E(X4) < ∞, E(Y4) < ∞.
A distribuição amostral de 1ˆβ :
Para n grande, 1ˆβ
é distribuído aproximadamente,
Objeto de interesse: β1
Yi = β0 + β1Xi + ui, i = 1,…, n
β1 = ∆Y/∆X, para uma variação exógena em X (efeito causal)
Pressupostos de MQO:
1. E(u|X = x) = 0.
2. (X ,Y ), i =1,…,n, e i.i.d.
25
2. (Xi,Yi), i =1,…,n, e i.i.d.
3. Outliers são raros (E(X4) < ∞, E(Y4) < ∞.
A distribuição amostral de 1ˆβ :
Para n grande, 1ˆβ
é distribuído aproximadamente,
1
ˆβ
~
2
1 4,
v
X
N
n
σβ
σ
, onde vi = (Xi – µX)ui
Teste de Hipótese e o Erro Padrão de
Nosso objetivo é testar uma hipótese do tipo β1 = 0, usando
dados – queremos chegar a uma conclusão se a hipótese nula é
correta ou incorreta.
1
ˆβ
26
Teste de Hipótese e o Erro Padrão de
Nosso objetivo é testar uma hipótese do tipo β1 = 0, usando
dados – queremos chegar a uma conclusão se a hipótese nula é
correta ou incorreta.
Estrutura
1
ˆβ
27
Estrutura
Hipótese nula e alternativa com dois-lados:
H0: β1 = β1,0 vs. H1: β1 ≠ β1,0
onde β1,0 é o valor na hipótese nula.
Teste de Hipótese e o Erro Padrão de
Nosso objetivo é testar uma hipótese do tipo β1 = 0, usando
dados – queremos chegar a uma conclusão se a hipótese nula é
correta ou incorreta.
Estrutura
1
ˆβ
28
Estrutura
Hipótese nula e alternativa com dois-lados:
H0: β1 = β1,0 vs. H1: β1 ≠ β1,0
onde β1,0 é o valor na hipótese nula.
Hipótese nula e alternativa com um lado:
H0: β1 = β1,0 vs. H1: β1 < β1,0
Teste de Hipótese e o Erro Padrão de
Estratégia geral: construir estatística t, e calcular p-valor (ou
comparar com valor crítico de uma N(0,1))
• Em geral: t =Estimador/Erro padrão do estimador
1
ˆβ
29
Teste de Hipótese e o Erro Padrão de
Estratégia geral: construir estatística t, e calcular p-valor (ou
comparar com valor crítico de uma N(0,1))
• Em geral: t =Estimador/Erro padrão do estimador
1
ˆβ
30
onde EP do estimador é a raiz quadrada de um estimador da
variância do estimador.
Teste de Hipótese e o Erro Padrão de
• Para testar a média de Y: t = ,0
/
Y
Y
Y
s n
µ−
1
ˆβ
31
Teste de Hipótese e o Erro Padrão de
• Para testar a média de Y: t = ,0
/
Y
Y
Y
s n
µ−
• Para testar ββββ1, t = 1 1,0
ˆ
ˆ( )SE
β β
β
−
,
1
ˆβ
32
1
ˆ( )SE β
onde SE( 1ˆβ ) = raiz quadrada de um estimador da variância da
distribuição amostral de 1ˆβ .
Intuitivamente
• Estimamos β1.
• Precisamos da Var(β1), podemos estimar com dados
amostrais.
33
amostrais.
• Usamos este estimador da Var(β1), tiramos a raiz quadrada
para ter o Erro Padrão.
Formula para o EP( )1
ˆβ
Lembremos da expressão para a variância de 1ˆβ (com n grande):
var( 1ˆβ ) = 2 2var[( ) ]( )
i x i
X
X u
n
µ
σ
−
34
Formula para o EP( )1
ˆβ
Lembremos da expressão para a variância de 1ˆβ (com n grande):
var( 1ˆβ ) = 2 2var[( ) ]( )
i x i
X
X u
n
µ
σ
−
=
2
4
v
Xn
σ
σ
, onde vi = (Xi – µX)ui.
35
Formula para o EP( )1
ˆβ
Lembremos da expressão para a variância de 1ˆβ (com n grande):
var( 1ˆβ ) = 2 2var[( ) ]( )
i x i
X
X u
n
µ
σ
−
=
2
4
v
Xn
σ
σ
, onde vi = (Xi – µX)ui.
O problema é que não conhecemos os valores populacionais de
36
O problema é que não conhecemos os valores populacionais de
2
νσ and
4
Xσ .
O que podemos fazer?
Formula para o EP( )1
ˆβ
Lembremos da expressão para a variância de 1ˆβ (com n grande):
var( 1ˆβ ) = 2 2var[( ) ]( )
i x i
X
X u
n
µ
σ
−
=
2
4
v
Xn
σ
σ
, onde vi = (Xi – µX)ui.
O problema é que não conhecemos os valores populacionais de
37
O problema é que não conhecemos os valores populacionais de
2
νσ e de
4
Xσ .
Para estimar a variância de 1ˆβ substituímos os valores
desconhecidos de 2νσ e
4
Xσ por estimadores construídos dos
nossos dados:
Formula para o EP( )1
ˆβ
Lembremos da expressão para a variância de 1ˆβ (com n grande):
var( 1ˆβ ) = 2 2var[( ) ]( )
i x i
X
X u
n
µ
σ
−
=
2
4
v
Xn
σ
σ
, onde vi = (Xi – µX)ui.
38
1
2
ˆ
ˆβσ =
2
2 2
1 estimator of
(estimator of )
v
Xn
σ
σ
×
Formula para o EP( )1
ˆβ
1
2
ˆ
ˆβσ =
2
2 2
1 estimator of
(estimator of )
v
Xn
σ
σ
× =
2
1
2
2
1
1
ˆ
1 2
1 ( )
n
i
i
n
i
i
v
n
n
X X
n
=
=
−
×
−
∑
∑
onde vˆ = ˆ( )X X u− .
39
onde ˆiv = ˆ( )i iX X u− .
Formula para o EP( )1
ˆβ
1
2
ˆ
ˆβσ =
2
2 2
1 estimator of
(estimator of )
v
Xn
σ
σ
× =
2
1
2
2
1
1
ˆ
1 2
1 ( )
n
i
i
n
i
i
v
n
n
X X
n
=
=
−
×
−
∑
∑
onde vˆ = ˆ( )X X u− .
40
onde ˆiv = ˆ( )i iX X u− .
De onde tiramos o valor estimado de u?
Formula para o EP( )1
ˆβ
1
2
ˆ
ˆβσ =
2
1
2
2
1
1
ˆ
1 2
1 ( )
n
i
i
n
i
i
v
n
n
X X
n
=
=
−
×
−
∑
∑
, onde ˆiv = ˆ( )i iX X u− .
41
EP( 1ˆβ ) = 12ˆˆβσ = erro padrão de 1ˆβ
Resumo
• Parece mais complicado de que efetivamente é. O numerador
estima a var(v), o denominador estima var(X).
42
Resumo
• Parece mais complicado de que efetivamente é. O numerador
estima a var(v), o denominador estima var(X).
• Por que ajustamos os graus de liberdade por n – 2? Por que
43
• Por que ajustamos os graus de liberdade por n – 2? Por que
já estimamos 2 coeficientes na regressão (β0 e β1).
Resumo
• Parece mais complicado de que efetivamente é. O numerador
estima a var(v), o denominador estima var(X).
• Por que ajustamos os graus de liberdade por n – 2? Por que
44
• Por que ajustamos os graus de liberdade por n – 2? Por que
já estimamos 2 coeficientes na regressão (β0 e β1).
• Na prática, EP( 1ˆβ ) é calculado pelo software de regressão
(Gretl, Stata). Por isso, não é preciso decorar a formula, só
entender o que ela representa.
Exemplo
Linha de regressão: Nota= 698.9 – 2.28×Tamanho
Software nos dá o EP:
SE( 0ˆβ ) = 10.4 SE( 1ˆβ ) = 0.52
45
SE( 0β ) = 10.4 SE( 1β ) = 0.52
Exemplo
Linha de regressão: Nota= 698.9 – 2.28×Tamanho
Software nos dá o EP:
SE( 0ˆβ ) = 10.4 SE( 1ˆβ ) = 0.52
46
SE( 0β ) = 10.4 SE( 1β ) = 0.52
t-statistic β1,0 = 0 = 1 1,0
1
ˆ
ˆ( )SE
β β
β
−
=
2.28 0
0.52
− −
= –4.38
• Para o nível de 1%, (teste com 2 lados), o valor de significância
é 2.58, então rejeitamos a hipótese nula no nível de 1%.