Logo Passei Direto
Buscar

Econometria I Mestrado 2007

User badge image

Enviado por Cristiano Martins em

Esta é uma pré-visualização de arquivo. Entre para ver o arquivo original

Econometria/CLT.pdf
Universidade de Sa˜o Paulo - Departamento de Economia
EAE 5811 - Econometria I
Prof. Dr. Ricardo Avelino
1o Semestre de 2007
Teoremas Centrais do Limite
Teorema Central do Limite de Lindberg-Levy: Seja {Xn} uma sequ¨eˆncia
de varia´veis aleato´rias independentes e identicamente distribu´ıdas e suponha que
E (Xn) = µ e V (Xn) = σ
2 <∞. Enta˜o
Y¯n =
√
n
µ
X¯n − µ
σ
¶
d→ N (0, 1)
Prova: Seja φ (t) a func¸a˜o caracter´ıstica de Xn − µ. Como os dois primeiros
momentos existem, podemos aplicar uma expansa˜o de Taylor:
φ (t) = E exp (it (Xn − µ)) = 1 + tE [i (Xn − µ) exp (it (Xn − µ))] |t=0
+
1
2
t2E
h
i2 (Xn − µ)2 exp (it (Xn − µ))
i
|t=0 + o
¡
t2
¢
= 1− 1
2
t2σ2 + o
¡
t2
¢
A func¸a˜o caracter´ıstica de Y¯n e´
φn (t) = E exp
¡
itY¯n
¢
= E exp
Ã
it
σ
√
n
nX
i=1
(Xi − µ)
!
=
nY
i=1
E exp
µ
it
σ
√
n
(Xi − µ)
¶
=
·
φ
µ
t
σ
√
n
¶¸n
=
·
1− t
2
2n
+ o
µ
1
n
¶¸n
Utilizando o fato de que
lim
n→∞
³
1 +
an
n
´n
= exp
³
lim
n→∞
an
´
conclui-se que
lim
n→∞
φn (t) = exp
µ
lim
n→∞
µ
− t
2
2
+ o (1)
¶¶
= exp
µ
− t
2
2
¶
que e´ a func¸a˜o caracter´ıstica de uma N (0, 1) . O resultado segue do Teorema da
continuidade de Le´vy.
1
Exemplo 1: Considere uma amostra de varia´veis aleato´rias {Xn} indepen-
dentes e identicamente distribu´ıdas com distribuic¸a˜o gamma, com paraˆmetros
θ e α, cuja func¸a˜o geradora de momentos e´ dada por
MXi (t) = (1− tθ)
−α
Note que os dois primeiros momentos sa˜o dados por
E (Xi) =
dMXi (t)
dt
º
t=0
=
θα
(1− tθ)α−1
%
t=0
= θα
e
E
¡
X2i
¢
=
d2MXi (t)
dt2
º
t=0
=
θ2α (α− 1)
(1− tθ)α+2
%
t=0
= θ2α2 + θ2α
Logo,
V (Xi) = E
¡
X2i
¢
− [E (Xi)]2 = θ2α2 + θ2α− θ2α2 = θ2α
Pelo Teorema Central do Limite de Lindberg-Levy,
√
n
µ
X¯n − θα
θ
√
α
¶
d→ N (0, 1)
Teorema Central do Limite de Lindberg-Feller: Suponha que, para
cada n,
Xn1, ...,Xnrn
sejam independentes e que
E [Xnk] = 0, σ
2
nk = E
£
X2nk
¤
, s2n =
rnX
k=1
σ2nk
Se, para todo ε positivo,
lim
n→∞
rnX
k=1
1
s2n
Z n
|Xnk|≥εsn
X2nkdP = 0
enta˜o
Sn
sn
d→ N (0, 1) , Sn = Xn1 + ...+Xnrn
Prova: Substituindo Xnk por Xnk/sn mostra que na˜o ha´ nenhuma perda de
generalidade em assumir que s2n =
rnX
k=1
σ2nk = 1.
2
Lema 1: ¯¯¯¯
¯eix −
nX
k=0
(ix)
k
k!
¯¯¯¯
¯ ≤ min
(
|x|n+1
(n+ 1)!
,
2 |x|n
n!
)
Como, para n = 2,¯¯¯¯
eitx −
µ
1 + itx− 1
2
t2x2
¶¯¯¯¯
≤ min
n
|tx|2 , |tx|3
o
e ¯¯¯¯Z
adP −
Z
bdP
¯¯¯¯
=
¯¯¯¯Z
(a− b) dP
¯¯¯¯
≤
Z
|a− b| dP
a func¸a˜o caracter´ıstica φnk (t) de Xnk satisfaz¯¯¯¯
φnk (t)−
µ
1− 1
2
t2σ2nk
¶¯¯¯¯
≤ E
h
min
n
|tXnk|2 , |tXnk|3
oi
Para ε positivo, o lado direito da desigualdade acima e´ igual a
E
h
min
n
|tx|2 , |tx|3
oi
=
Z
|Xnk|<ε
min
n
|tXnk|2 , |tXnk|3
o
dP
+
Z
|Xnk|≥ε
min
n
|tXnk|2 , |tXnk|3
o
dP
≤
Z
|Xnk|<ε
|tXnk|3 dP +
Z
|Xnk|≥ε
|tXnk|2 dP
≤ ε |t|3 σ2nk + t2
Z
|Xnk|≥ε
X2nkdP
Portanto,
rnX
k=1
¯¯¯¯
φnk (t)−
µ
1− 1
2
t2σ2nk
¶¯¯¯¯
≤ ε |t|3
rnX
k=1
σ2nk + t
2
rnX
k=1
1
s2n
Z
|Xnk|≥ε
X2nkdP
= ε |t|3 + t2
rnX
k=1
1
s2n
Z
|Xnk|≥ε
X2nkdP
Como ε e´ arbitra´rio,
rnX
k=1
¯¯¯¯
φnk (t)−
µ
1− 1
2
t2σ2nk
¶¯¯¯¯
→ 0
para todo t fixo. O objetivo agora e´ mostrar que
rnY
k=1
φnk (t) =
rnY
k=1
µ
1− 1
2
t2σ2nk
¶
+ o (1) =
rnY
k=1
e−t
2σ2nk/2 + o (1) = e−t
2/2 + o (1)
3
Para todo ε positivo
σ2nk ≤ ε2 +
Z
|Xnk|≥ε
X2nkdP
Da condic¸a˜o de Lindberg, conclui-se que
max
1≤k≤rn
σ2nk → 0
Para n suficientemente grande, 1 − 12 t2σ2nk esta´ compreendido entre 0 e 1
para todo n.
Lema 2: Sejam z1, ..., zm e w1, ..., wm nu´meros complexos com mo´dulo na˜o
excedendo 1. Enta˜o
|z1...zm − w1...wm| ≤
nX
k=1
|zk − wk|
Logo, pelo lema acima,
rnY
k=1
φnk (t) e
rnY
k=1
¡
1− 12 t
2σ2nk
¢
diferem por, no ma´ximo,
rnX
k=1
¯¯¯¯
φnk (t)−
µ
1− 1
2
t2σ2nk
¶¯¯¯¯
→ 0
o que implica que
rnY
k=1
φnk (t) =
rnY
k=1
µ
1− 1
2
t2σ2nk
¶
+ o (1)
Ale´m disso, segue-se tambe´m do lema que¯¯¯¯
¯
rnY
k=1
e−t
2σ2nk/2 −
rnY
k=1
µ
1− 1
2
t2σ2nk
¶¯¯¯¯
¯ ≤
rnX
k=1
¯¯¯¯
e−t
2σ2nk/2 − 1 + 1
2
t2σ2nk
¯¯¯¯
Lema 3: Para z complexo:
|ez − 1− z| ≤ |z|2
∞X
k=2
|z|k−2
k!
≤ |z|2 e|z|
Segue-se do lema 2 que
rnX
k=1
¯¯¯¯
e−t
2σ2nk/2 − 1 + 1
2
t2σ2nk
¯¯¯¯
≤
rnX
k=1
t4σ4nk
4
et
2/2 ≤ t4et
2/2
rnX
k=1
σ4nk
≤ t4et
2/2
rnX
k=1
σ2nkmax
k
σ2nk
= t4et
2/2 max
1≤k≤rn
σ2nk
rnX
k=1
σ2nk
= t4et
2/2 max
1≤k≤rn
σ2nk → 0
4
Teorema Central do Limite de Lyapunov: Suponha que, para cada n,
Xn1, ...,Xnrn
sejam independentes e que
E [Xnk] = 0, σ
2
nk = E
£
X2nk
¤
, s2n =
rnX
k=1
σ2nk
Suponha que |Xnk|2+δ seja integra´vel para algum δ positivo e que a condic¸a˜o
de Lyapunov seja satisfeita
lim
n→∞
rnX
k=1
1
s2+δn
E
h
|Xnk|2+δ
i
= 0
Enta˜o
Sn
sn
d→ N (0, 1) , Sn = Xn1 + ...+Xnrn
Prova: Note que
rnX
k=1
1
s2n
Z n
|Xnk|≥εsn
X2nkdP ≤
rnX
k=1
1
s2n
Z n
|Xnk|≥εsn
X2+δnk
sδnε
δ
dP
=
1
εδ
rnX
k=1
1
s2+δn
E
h
|Xnk|2+δ
i
Teorema (procedimento de Cra´mer-Wold): Seja {Xn}∞n=1 uma sequ´eˆncia
de vetores aleato´rios (kx1) e suponha que para todo vetor real λ tal que λ0λ = 1,
λ0Xn
d→ λ0X, onde X e´ um vetor aleato´rio (kx1) com func¸a˜o de distribuic¸a˜o
F (x) = F (x1, ..., xk). Enta˜o, a distribuic¸a˜o limite de Xn existe e e´ igual a
F (x) .
Apeˆndice
Lema 1: ¯¯¯¯
¯eix −
nX
k=0
(ix)
k
k!
¯¯¯¯
¯ ≤ min
(
|x|n+1
(n+ 1)!
,
2 |x|n
n!
)
Prova: Seja u = eis e dv = (x− s)n , de modo que du = ieis e v = − (x−s)
n+1
n+1 .
Enta˜o, integrando por partes, segue-se queZ x
0
(x− s)n eisds = −(x− s)
n+1
n+ 1
eis
%x
0
−
Z x
0
ieis
Ã
−(x− s)
n+1
n+ 1
!
ds
=
xn+1
n+ 1
+
i
n+ 1
Z x
0
(x− s)n+1 eisds
5
Portanto, Z x
0
(x− s)n eisds = n
i
Z x
0
(x− s)n−1 eisds− 1
i
xn
Expandindo eix numa se´rie de Taylor em torno de x = 0,
eix =
nX
k=0
(ix)k
k!
+
in+1
n!
xn+1
n+ 1
+
in+2
(n+ 1)!
xn+2
n+ 2
+ ...
=
nX
k=0
(ix)
k
k!
+
in+1
n!
Z x
0
(x− s)n eisds− i
n+1
n!
i
n+ 1
Z x
0
(x− s)n+1 eisds
+
in+2
(n+ 1)!
Z x
0
(x− s)n+1 eisds− i
n+2
(n+ 1)!
i
n+ 2
Z x
0
(x− s)n+2 eisds+ ...
=
nX
k=0
(ix)k
k!
+
in+1
n!
Z x
0
(x− s)n eisds
Substituindo
Z x
0
(x− s)n eisds na expressa˜o acima,
eix =
nX
k=0
(ix)
k
k!
+
in+1
n!
µ
n
i
Z x
0
(x− s)n−1 eisds− 1
i
xn
¶
=
nX
k=0
(ix)
k
k!
+
in
(n− 1)!
µZ
x
0
(x− s)n−1 eisds− x
n
n
¶
=
nX
k=0
(ix)k
k!
+
in
(n− 1)!
µZ x
0
(x− s)n−1
¡
eis − 1
¢
ds
¶
pois Z x
0
(x− s)n−1 ds = −(x− s)
n
n
ºx
0
=
xn
n
Portanto, para x > 0,
eix −
nX
k=0
(ix)
k
k!
=
in+1
n!
Z x
0
(x− s)n eisds⇒
¯¯¯¯
¯eix −
nX
k=0
(ix)
k
k!
¯¯¯¯
¯
=
¯¯¯¯
in+1
n!
Z x
0
(x− s)n eisds
¯¯¯¯
≤
¯¯¯¯
in+1
n!
¯¯¯¯ Z x
0
|(x− s)n| ¯¯eis¯¯ ds
=
1
n!
Z x
0
(x− s)n |cox (ix) + isen (ix)| ds
=
1
n!
Z x
0
(x− s)n ds = 1
n!
xn+1
n+ 1
=
xn+1
(n+ 1)!
6
Ale´m disso,
eix −
nX
k=0
(ix)k
k!
=
in
(n− 1)!
Z x
0
(x− s)n−1
¡
eis − 1
¢
ds
⇒
¯¯¯¯
¯eix −
nX
k=0
(ix)k
k!
¯¯¯¯
¯ =
¯¯¯¯
in
(n− 1)!
Z x
0
(x− s)n−1
¡
eis − 1
¢
ds
¯¯¯¯
≤
¯¯¯¯
in
(n− 1)!
¯¯¯¯ Z x
0
¯¯¯
(x− s)n−1
¯¯¯ ¯¯¡
eis − 1
¢¯¯
ds
=
1
(n− 1)!
Z x
0
(x− s)n−1 (|cox (ix) + isen (ix)|+ |1|) ds
=
1
(n− 1)!2
xn
n
= 2
xn
n!
Por outro lado, para x < 0,
eix −
nX
k=0
(ix)k
k!
=
in+1
n!
Z x
0
(x− s)n eisds = − i
n+1
n!
Z 0
x
(x− s)n eisds
⇒
¯¯¯¯
¯eix −
nX
k=0
(ix)
k
k!
¯¯¯¯
¯ ≤ 1n!
Z 0
x
¯¯
(x− s)n eis
¯¯
ds
=
1
n!
Z 0
x
|(s− x)n| ¯¯eis¯¯ ds = 1
n!
Z 0
x
(s− x)n ds
=
(s− x)n+1
n+ 1
%0
x
1
n!
=
(−x)n+1
n+ 1
1
n!
Ale´m disso,
eix −
nX
k=0
(ix)k
k!
=
in
(n− 1)!
Z x
0
(x− s)n−1
¡
eis − 1
¢
ds
= − i
n
(n− 1)!
Z 0
x
(x− s)n−1
¡
eis − 1
¢
ds
⇒
¯¯¯¯
¯eix −
nX
k=0
(ix)k
k!
¯¯¯¯
¯ ≤ 1(n− 1)!
Z 0
x
¯¯¯
(x− s)n−1
¡
eis − 1
¢¯¯¯
ds
≤ 2
(n− 1)!
Z 0
x
¯¯¯
(x− s)n−1
¯¯¯
ds =
2
(n− 1)!
Z 0
x
(s− x)n−1 ds
=
(−x)n
n
2
(n− 1)! =
2 (−x)n
n!
Portanto, ¯¯¯¯
eix −
µ
1 + ix− 1
2
x2
¶¯¯¯¯
≤ min
(
|x|n+1
(n+ 1)!
, 2
|x|n
n!
)
7
Para n = 2, ¯¯¯¯
eix −
µ
1 + ix− 1
2
x2
¶¯¯¯¯
≤ min
½
1
6
|x|3 , |x|2
¾
Lema 2: Sejam z1, ..., zm e w1, ..., wm nu´meros complexos com mo´dulo na˜o
excedendo 1. Enta˜o
|z1...zm − w1...wm| ≤
nX
k=1
|zk − wk|
Prova:
z1...zm − w1...wm = (z1 − w1) (z2...zm) + w1 (z2...zm − w2...wm)
= (z1 − w1) (z2...zm)
+w1 ((z2 − w2) (z3...zm) + w2 (z3...zm − w3...wm))
= (z1 − w1) (z2...zm)
+w1 (z2 − w2) (z3...zm) + w1w2 (z3...zm − w3...wm)
=
nX
k=1
(zk − wk)
Y
j<k
wj
Y
j>k
zj
Lema 3: Para z complexo:
|ez − 1− z| ≤ |z|2
∞X
k=2
|z|k−2
k!
≤ |z|2 e|z|
Prova: Expandindo ez numa se´rie de Taylor, temos que
ez =
∞X
k=0
zk
k!
⇒ ez − 1− z = z2
∞X
k=2
zk−2
k!
⇒ |ez − 1− z| =
¯¯¯¯
¯z2
∞X
k=2
zk−2
k!
¯¯¯¯
¯
⇒ |ez − 1− z| ≤ |z|2
∞X
k=2
|z|k−2
k!
= |z|2
∞X
k=0
|z|k
(k + 2)!
≤ |z|2
∞X
k=0
|z|k
k!
= |z|2 e|z|
8
Econometria/convergencia.pdf
Universidade de Sa˜o Paulo - Departamento de Economia
EAE 5811 - Econometria I
Prof. Dr. Ricardo Avelino
1o Semestre de 2007
Convergeˆncia de Varia´veis Aleato´rias
Modos de Convergeˆncia
Convergeˆncia em Distribuic¸a˜o: {Xn}∞n=1 converge em distribuic¸a˜o para X,
denotado por Xn
d→ X, se e somente se
lim
n→∞
Fn (x) = F (x) para todo ponto de continuidade de F (x)
Exemplo 1: Suponha que a func¸a˜o de distribuic¸a˜o de Xn seja definida por
Fn (x) =
½ n
2
¡
x− τ + n−1
¢
se τ − n−1 ≤ x ≤ τ + n−1
1 se τ + n−1 < x
Enta˜o,
lim
n→∞
Fn (x) =
½
1
2 se x = τ
1 se x > τ
Portanto, Xn
d→ X, para
F (x) =
½
0 se x < τ
1 se x ≥ τ
Note que lim
n→∞
Fn (x) e F (x) coincidem em todos os pontos em que F (x) e´
cont´ınua.
Convergeˆncia em Probabilidade: {Xn}∞n=1 converge em probabilidade para
X, denotado por Xn
P→ X ou plim (Xn) = X se e somente se para
∀ε > 0,
lim
n→∞
P (ω : |Xn (ω)−X (ω)| > ε) = 0
ou, alternativamente,
lim
n→∞
P (ω : |Xn (ω)−X (ω)| ≤ ε) = 1
Exemplo 2: Suponha que {Xn} seja uma sequ¨eˆncia com func¸o˜es densidade
de probabilidade fn (x) , definida por
fn (x) =
½
n−1 se x = 0
1− n−1 se x = 1
1
Enta˜o
lim
n→∞
P (|Xn − 1| = 0) = limn→∞
¡
1− n−1
¢
= 1
o que implica que lim
n→∞
P (|Xn − 1| < ε) = 1, ou seja, Xn P→ 1
Exemplo 3: Suponha que Y ∼ N (0, 1) e que Zn tenha uma sequ¨eˆncia de
func¸o˜es de densidade associadas fn, com E (Zn) = 0 e V (Zn) = n
−1. Defina a
sequ¨eˆncia aleato´ria
Yn = Y + Zn, e assuma que Y e Zn sejam independentes, de modo que
E (Yn) = 0 e V (Yn) = 1 + n
−1. Enta˜o, Yn
P→ Y, pois, para qualquer ε > 0,
lim
n→∞
P (|Yn − Y | < ε) = limn→∞P (|Zn| < ε) = 1− limn→∞P (|Zn| ≥ ε) = 1
uma vez que, pela desiguualdade de Chebyshev,
lim
n→∞
P (|Zn| ≥ ε) ≤ limn→∞
E
¡
Z2n
¢
ε2
=
1
ε2
lim
n→∞
n−1 = 0
Convergeˆncia Quase Certa: {Xn}∞n=1 converge quase certamente para X,
denotado por Xn
a.s.→ X, se e somente se
P
³
ω : lim
n→∞
Xn (ω) = X (ω)
´
= 1
ou, alternativamente, se e somente se, para todo ε > 0,
lim
n→∞
P
µ
sup
n≥N
|Xn −X| < ε
¶
= 1
Convergeˆncia na r-e´sima me´dia: Seja {Xn}∞n=1 e X integra´veis de ordem r,
0 < r <∞, i.e. E [|Xn|r] <∞ para todo n e E [|X|r] <∞. {Xn}∞n=1 converge
na r-e´sima me´dia (em Lr) para X, denotado por Xn
Lr→ X se e somente se
lim
n→∞
E [|Xn (ω)−X (ω)|r] = 0. Para r = 2, dizemos que Xn converge em me´dia
quadra´tica para X.
Exemplo 4: Suponha que Y ∼ N (0, 1) , E (Yn) = 0, ∀n, V (Yn) → 1 e que
Cov (Yn, Y )→ 1. Enta˜o
E (Yn − Y )2 = V (Yn) + V (Y )− 2Cov (Yn, Y ) + [E (Yn)−E (Y )]2 → 0
Portanto, Yn
L2→ Y e, consequ¨entemente, Yn
P→ Y e Yn
d→ Y.
Convergeˆncia em distribuic¸a˜o e´ o modo mais fraco de convergeˆncia, pois na˜o
garante que Xn e X esta˜o pro´ximos, mesmo para n grande. Enquanto
Xn
a.s.→ X ⇐⇒ Xn −X
a.s.→ 0
Xn
P→ X ⇐⇒ Xn −X
P→ 0
Xn
Lr→ X ⇐⇒ Xn −X
Lr→ 0
2
e´ apenas verdade que Xn −X
d→ 0 ⇒ Xn
d→ X. Entretanto, a rec´ıproca na˜o e´
verdadeira.
Exemplo 5: Suponha que Xn ∼ N (0, 1 + 1/n), X ∼ N (0, 1) e que Xn e X
sejam independentes. Obviamente, Xn
d→ X, mas Xn − X ∼ N (0, 2 + 1/n) .
Portanto, Xn −X
d→ N (0, 2) , na˜o para 0.
Algumas relac¸o˜es entre os modos de convergeˆncia
Proposic¸a˜o 1: Se Xn
Lr→ X para algum r > 0, enta˜o Xn
P→ X.
Prova: ComoE [|Xn (ω)−X (ω)|r]→ 0 quando n→∞, E [|Xn (ω)−X (ω)|r] <
∞ para n suficientemente grande. Para ∀ε > 0, pela desigualdade de Chebyshev
generalizada,
P (|Xn −X| ≥ ε) ≤ E [|Xn −X|r] /εr
Portanto,
0 ≤ lim
n→∞
P (|Xn −X| ≥ ε) ≤ 1
εr
lim
n→∞
E [|Xn −X|r] = 0
Exemplo 6: Seja
Xn =
½
α com probabilidade 1− 1/n
n com probabilidade 1/n
Enta˜o, Xn
P→ α, pois, para ∀ε > 0
lim
n→∞
P (|Xn − α| > ε) = limn→∞
1
n
= 0
No entanto, para r = 1,
lim
n→∞
E [|Xn − α|] = limn→∞ [|α− α| (1− 1/n) + |n− α| (1/n)]
= lim
n→∞
|1− α/n| = 1 6= 0
e, para r > 1,
lim
n→∞
E [|Xn − α|r] = limn→∞ [|α− α|
r
(1− 1/n) + |n− α|r (1/n)] =∞ 6= 0
Portanto, Xn na˜o converge na r-e´sima me´dia para qualquer r ≥ 1.
Exemplo 7: Suponha que P (Yn = 0) = 1 − n−2 e que P (Yn = n) = n−2.
Enta˜o
lim
n→∞
P (Yn = 0) = limn→∞
1− 1
n2
= 1
3
e, portanto, Yn
P→ 0, o que implica que Yn
d→ 0. Pore´m, Yn
L2→ 0. De fato,
E (Yn − 0)2 = 0
¡
1− n−2
¢
+ n2n−2 = 1
Proposic¸a˜o 2: Se Xn
a.s.→ X , enta˜o Xn
P→ X.
Prova: |Xn −X| > ε implica que sup
n≥N
|Xn −X| > ε. Portanto,
P (|Xn −X| > ε) ≤ P
µ
sup
n≥N
|Xn −X| > ε
¶
e, consequentemente,
0 ≤ lim
N→∞
P (|Xn −X| > ε) ≤ lim
N→∞
P
µ
sup
n≥N
|Xn −X| > ε
¶
= 0
Exemplo 8: Seja {Xn} uma sequ¨eˆncia de varia´veis aleato´rias independentes
tais que
fn (x) =
½
1− n−1 se x = 0
n−1 se x = 1
Enta˜o
lim
n→∞
P (|Xn − 0| = 0) = limn→∞
¡
1− n−1
¢
= 1
o que implica que lim
n→∞
P (|Xn − 0| < ε) = 1, ou seja, Xn P→ 0⇒ Xn d→ 0. Ale´m
disso, E (Xn) = n
−1 → 0 e
V (Xn) = n
−2 ¡1− n−1¢+ ¡1− n−1¢2 n−1
= n−2 − n−3 +
¡
n−2 − 2n−1 + 1
¢
n−1
= n−2 − n−3 + n−3 − 2n−2 + n−1 = n−1 − n−2 → 0
Portanto, Xn
L2→ 0. Mas
P (|Xi| < ε, n < i < s) =
sY
i=n
¡
1− i−1
¢
=
sY
i=n
i− 1
i
=
n− 1
n
n
n+ 1
...
s− 1
s
=
n− 1
s
→ 0 quando s→∞
Enta˜o
lim
n→∞
P (|Xi| < ε, i > n) = 0
4
Proposic¸a˜o 3: Se Xn
Lr→ X e r > s, enta˜o Xn
Ls→ X.
Prova: E [|Xn −X|s] = E
h
(|Xn −X|r)s/r
i
≤ {E [(|Xn −X|r)]}s/r pela
desigualdade de Jensen aplicada a` func¸a˜o coˆncava, pois s/r < 1. Portanto
0 ≤ lim
N→∞
E [|Xn −X|s] ≤ limN→∞ {E [(|Xn −X|
r
)]}s/r = 0
Exemplo 9: Seja {Xn} uma sequ¨eˆncia de varia´veis aleato´rias independentes
tais que
fn (x) =
½
1− n−2 se x = 0
n−2 se x = n
Enta˜o
P (|Xi| < ε, n < i < s) =
sY
i=n
¡
1− i−2
¢
=
sY
i=n
i2 − 1
i2
=
(n− 1) (n+ 1)
n2
n (n+ 2)
(n+ 1)2
...
(s− 1) (s+ 1)
s2
=
(n− 1) (s+ 1)
ns
→ n− 1
n
quando s→∞
Enta˜o
lim
n→∞
P (|Xi| < ε, i > n) = limn→∞
n− 1
n
= 1
isto e´, Xn
a.s.→ 0. No entanto, E (Xn) = n−1 → 0 e
V (Xn) =
¡
n− n−1
¢2
n−2 +
¡
−n−1
¢2 ¡
1− n−2
¢
=
¡
n2 − 2 + n−2
¢
n−2 + n−2 − n−4
= 1− 2n−2 + n−4 + n−2 − n−4 = 1− n−2 → 1
Portanto, Xn na˜o converge em me´dia quadra´tica para 0.
Proposic¸a˜o 4 (Equivaleˆncia Assinto´tica): Sejam {Xn} e {Yn} sequeˆncias de
varia´veis aleato´rias (ou vetores). Se Xn − Yn
P→ 0 e Yn
d→ Y, enta˜o Xn
d→ Y.
Prova: Seja Yn −Xn = Zn e x um ponto de continuidade de FY .
FXn (x) = P (Xn < x) = P (Yn < x+ Zn)
= P (Yn < x+ Zn, Zn < ε) + P (Yn < x+ Zn, Zn ≥ ε)
≤ P (Yn < x+ ε) + P (Zn ≥ ε)
para qualquer ε > 0. Segue-se que lim supFXn (x) ≤ FY (x+ ε) + 0 porque
P (Zn ≥ ε) → 0 e P (Yn < x+ ε) → FY (x+ ε) caso x + ε seja um ponto de
continuidade de FY . Por outro lado, seja Xn − Yn =Wn,
FXn (x) = P (Xn < x) = P (Yn < x−Wn)
≥ P (Yn < x− ε)− P (Wn ≥ ε)
5
porque
P (Yn < x− ε) = P (Yn < x−Wn +Wn − ε)
= P (Yn < x−Wn +Wn − ε,Wn < ε)
+P (Yn < x−Wn +Wn − ε,Wn ≥ ε)
≤ P (Yn < x−Wn,Wn < ε) + P (Wn ≥ ε)
≤ P (Yn < x−Wn) + P (Wn ≥ ε)
Segue-se que
lim inf FXn (x) ≥ lim inf P (Yn < x− ε) = FY (x− ε)
quando x− ε e´ um ponto de continuidade de FY , pois lim inf P (Wn ≥ ε) = 0.
Portanto,
FY (x− ε) ≤ lim inf FXn (x) ≤ lim supFXn (x) ≤ FY (x+ ε)
Resta mostrar que x + ε e x + ε sa˜o pontos de continuidade de FY para
ε arbitrariamente pro´ximo de zero. Isso resulta do fato de que a func¸a˜o de
distribuic¸a˜o so´ pode ser descont´ınua em um conjunto enumera´vel de pontos e
do fato de que todo intervalo em torno de x conte´m um nu´mero na˜o enumera´vel
de pontos.
Exemplo 10: Suponha que Xn ∼ N (0, (n− 1) /n) , de modo que Xn
d→
X ∼ N (0, 1) , e que Zn ∼ χ2n, com Xn e Zn independentes. Defina Yn =¡
1 + n−1
¢
Xn + n
−1Zn − 1. Note que Xn − Yn = 1 − n−1 (Xn + Zn). Pelo
Teorema de Mahn-Wald, plim (Xn − Yn) = 1 − plim (Xn/n) − plim (Zn/n) .
Como E (Xn/n) = 0 e V (Xn/n) = (n− 1) /n3, plim (Xn/n) = 0. Semel-
hantemente, como E (Zn/n) = 1 e V (Zn/n) = 2/n, plim (Zn/n) = 1. Enta˜o,
plim (Xn − Yn) = 0, o que, juntamente com Xn
d→ X, implica que Yn
d→ X.
Corola´rio: Xn
P→ X implica que Xn
d→ X.
Prova: Como Xn −X
P→ 0 e X d→ X, enta˜o Xn
d→ X.
Proposic¸a˜o 5 (Teorema de Helly-Bray): Fn → F (i.e., Xn
d→ X) implica queZ +∞
−∞
gdFn →
Z +∞
−∞
gdF para toda func¸a˜o cont´ınua limitada g.
Prova: Sejam a e b dois pontos de continuidade de F , a < bZ +∞
−∞
gdFn−
Z +∞
−∞
gdF =
Z a
−∞
g (dFn − dF )+
Z b
a
g (dFn − dF )+
Z +∞
b
g (dFn − dF )
Seja c o limite de g tal que |g| < c.
6
¯¯¯¯Z a
−∞
gdFn −
Z a
−∞
gdF
¯¯¯¯
< c
Z a
−∞
dFn + c
Z a
−∞
dF = c [Fn (a) + F (a)] < ε/5
para um a apropriado e n ≥ n0. Similarmente,
Z +∞
b
g (dFn − dF ) < ε/5 para
b e n0 apropriados. g e´ uniformemente cont´ınua em [a, b] . Divida [a, b] em
m intervalos x0 = a < x1 < ... < xm−1 < b = xm, onde x1, ..., xm−1 sa˜o
todos pontos de continuidade de F tais que |g (x)− g (xi)| < ε/5 para todo
x ∈ (xi, xi+1) . Defina gm (x) = g (xi) para x ∈ (xi, xi+1) . Enta˜oZ b
a
gm (x) dFn (x) =
m−1X
i=0
g (xi) [Fn (xi+1)− Fn (xi)]
→
m−1X
i=0
g (xi) [F (xi+1)− F (xi)] =
Z b
a
gm (x) dF (x)
Portanto,
¯¯¯¯
¯
Z b
a
gm (x) dFn (x)−
Z b
a
gm (x) dF (x)
¯¯¯¯
¯ < ε/5 para n suficiente-
mente grande.
¯¯¯¯
¯
Z b
a
gdFn −
Z b
a
gdF
¯¯¯¯
¯ =
¯¯¯¯
¯
Z b
a
(g − gm) dFn +
Z b
a
gm (dFn − dF ) +
Z b
a
(gm − g) dF
¯¯¯¯
¯
<
Z b
a
ε/5dFn + ε/5 +
Z b
a
ε/5dF < 3ε/5
o que implica que¯¯¯¯Z +∞
−∞
gdFn −
Z +∞
−∞
gdF
¯¯¯¯
< ε/5 + 3ε/5 + ε/5 = ε
Proposic¸a˜o 6: Se Xn
d→ c e c e´ constante, enta˜o Xn
P→ c.
Prova: Para todo ε > 0,
P (|Xn − c| > ε) = E [1 {|Xn − c| > ε}] =
Z +∞
−∞
hdFn ≤
Z +∞
−∞
gdFn
para
h =
½
1 se |Xn − c| > ε
0 caso contra´rio
e uma func¸a˜o cont´ınua limitada g com as seguintes propriedades: 1 ≥ g (x) ≥ 0,
g (c) = 0 e g (x) = 1 toda vez que |Xn − c| > ε. Pelo teorema de Helly-Bray,
0 ≤ lim
n→∞
P (|Xn − c| > ε) ≤ limn→∞
Z +∞
−∞
gdFn =
Z +∞
−∞
gdF = g (c) = 0
7
pois F e´ degenerada em c.
Exemplo 11: Suponha que {Yn} seja uma sequ¨eˆncia de varia´veis aleato´rias
e que Yn
d→ c, isto e´, Fn (Y )→ F (Y ) = 1A (Y ) , para A = {Y : Y ≥ c} . Enta˜o,
quando n→∞,
lim
n→∞
P (|Yn − c| < ε) ≥ Fn (c+ τ)− Fn (c− τ)→ 1
para τ ∈ (0, ε) e ∀ε > 0, o que implica que Yn
P→ c.
Exemplo 12: Seja X uma varia´vel aleato´ria com distribuic¸a˜o de Bernoulli
assumindo os valores 0 e 1 com probabilidade igual a 1/2. Seja {Xn} uma
sequ¨eˆncia de varia´veis aleato´rias ideˆnticas, isto e´, Xn = X para todo n. Por
construc¸a˜o, Xn
d→ X. Defina Y = 1−X. ComoX e Y teˆm a mesma distribuic¸a˜o,
no´s sabemos que Xn
d→ Y. Mas |Xn − Y | = 1 sempre. Portanto, Xn na˜o pode
convergir para Y em nenhum outro modo de convergeˆncia.
Exemplo 13: Como no exemplo 5, suponha que Xn ∼ N (0, 1 + 1/n), X ∼
N (0, 1) e que Xn e X sejam independentes. Novamente, Xn
d→ X, mas
Xn − X ∼ N (0, 2 + 1/n) . Para n grande, Xn − X
d→ N (0, 2) e, portanto,
P
¡|Xn −X| > √2¢ ≈ 0.32. Consequ¨entemente,
lim
n→∞
P
³
|Xn −X| >
√
2
´
≈ 0.32 6= 0
Teoremas U´teis
Mahn-Wald: Seja g : Rk → Rm cont´ınua em todos os pontos de um conjunto
C tal que P (X ∈ C) = 1. Se Xn
P→ X,enta˜o g (Xn)
P→ g (X) .
Prova: Fixe um ε > 0 arbitra´rio. Para cada δ > 0, seja Bδ o conjunto dos
pontos x para os quais existe y tal que |x− y| < δ e |g (x)− g (y)| > ε. Se
X /∈ Bδ e |g (x)− g (y)| > ε, enta˜o |x− y| ≥ δ. Consequ¨entemente,
P (|g (x)− g (y)|
> ε) ≤ P (X ∈ Bδ) + P (|x− y| ≥ δ)
O segundo termo do lado direito da equac¸a˜o acima converge para zero quando
n→∞ para todo δ > 0, por hipo´tese. Como Bδ ∩C → φ quando δ → 0, pois g
e´ cont´ınua, o primeiro termo do lado direito converge para zero quando δ → 0.
Slutsky: Sejam {Xn, Yn} uma sequ¨eˆncia de pares de varia´veis aleato´rias.
Enta˜o
a) Se Xn
d→ X e Yn
P→ 0, enta˜o XnYn
P→ 0
8
b) Se Xn
d→ X e Yn
P→ c, enta˜o Xn + Yn
d→ X + c, XnYn
d→ cX e Xn/Yn
d→
X/c se c 6= 0.
Prova:
a)
P (|XnYn| ≥ ε) = P (|XnYn| ≥ ε, |Yn| ≤ ε/k) + P (|XnYn| ≥ ε, |Yn| > ε/k)
≤ P (|Xn| ≥ k) + P (|Yn| > ε/k)
para k >0, pois |XnYn| ≥ ε e |Yn| ≤ ε/k implicam que ε ≤ |XnYn| = |Xn| |Yn| ≤
ε/k |Xn| , o que, por sua vez, implica que k ≤ |Xn| . Portanto,
lim sup
n→∞
P (|XnYn| ≥ ε) ≤ limn→∞Fn (−k) + limn→∞ (1− Fn (k))
+ lim
n→∞
P (|Yn| > ε/k)
= F (−k) + (1− F (k))
pois Xn
d→ X (escolha k de modo que F (x) seja cont´ınua em k e −k) e Yn
P→ 0.
No limite, quando k →∞,
0 ≤ lim sup
n→∞
P (|XnYn| ≥ ε) ≤ 0
b) Xn
d→ X ⇒ Xn + c
d→ X + c. Como (Xn + Yn)− (Xn + c) = Yn − c
P→ 0,
pela equivaleˆncia assinto´tica, Xn + Yn
d→ X + c.
Ale´m disso, Xn
d→ X ⇒ cXn
d→ cX. Pela parte (a), XnYn − cXn =
Xn (Yn − c)
P→ 0. Portanto, por equivaleˆncia assinto´tica, XnYn
d→ cX.
Finalmente, Xn
d→ X ⇒ Xn/c
d→ X/c, pois c 6= 0. Xn/Yn − Xn/c =
Xn (1/Yn − 1/c)
P→ 0 pelo Teorema de Mahn-Wald e pela parte (a). Portanto,
Xn/Yn
d→ X/c.
Exemplo 14: Suponha que Yn
P→ 4, que Xn
d→ X e que
F (X) =
½
θ−1 exp (−X/θ) se X > 0
0 caso contra´rio
Enta˜o XnYn
d→ 4X. Como φ (X) = (1− itθ)−1 , φ (4X) = E [exp (it4X)] =
(1− it4θ)−1 , ou seja, XnYn converge em distribuic¸a˜o para uma exponencial
com paraˆmetro 4θ.
Me´todo Delta: Suponha que αn (Xn − b)
d→ X e que αn → ∞. Seja g (.)
uma func¸a˜o continuamente diferencia´vel em b (possivelmente assumindo valores
em Rn). Enta˜o
αn (g (Xn)− g (b))
d→ ∂g (b)
∂b0
X
9
Prova:
Xn − b =
1
αn
αn (Xn − b)
d→ 0X = 0
pelo Teorema de Slutsky. Portanto, Xn
d→ b, o que implica que Xn
P→ b. Pelo
Teorema do Valor Me´dio,
g (Xn) = g (b) +
∂g (X∗n)
∂X∗0n
(Xn − b)
para algum X∗n na linha conectando Xn e b. Como Xn
d→ b implica que Xn
P→ b,
pelo Teorema de Mahn-Wald,
∂g(X∗n)
∂X∗0n
P→ ∂g(b)∂b0 . Enta˜o, aplicando-se novamente
o Teorema de Slutsky, segue-se que
αn (g (Xn)− g (b)) =
∂g (X∗n)
∂X∗0n
αn (Xn − b)
d→ ∂g (b)
∂b0
X
Exemplo 15: Suponha que
√
n
³
θˆ − θ
´
d→ N
¡
0, σ2
¢
e que queiramos estimar
g (θ) = exp (θ) atrave´s de g
³
θˆ
´
= exp
³
θˆ
´
. Nesse caso, g0 (θ) = exp (θ) e
√
n
³
g
³
θˆ
´
− g (θ)
´
d→ exp (θ)N
¡
0, σ2
¢
= N
¡
0, exp (2θ)σ2
¢
Exemplo 16: Suponha que θ =
·
θ1
θ2
¸
,
√
n
³
θˆ − θ
´
d→ N (0,Σ) e que no´s
estejamos interessados em estimar g (θ) =


√
θ1
θ1 + 3θ2
θ1θ2

 atrave´s de g
³
θˆ
´
. Nesse
caso,
∂g (θ)
∂θ0
=


1
2
√
θ1
0
1 3
θ2 θ1


e
√
n
³
g
³
θˆ
´
− g (θ)
´
d→ ∂g (θ)
∂θ0
N (0,Σ)
= N

0,


1
2
√
θ1
0
1 3
θ2 θ1


·
σ11 σ12
σ21 σ22
¸ · 1
2
√
θ1
1 θ2
0 3 θ1
¸

10
Econometria/exerc_cios_cap_6_romer.pdf
Econometria/extremum.pdf
Universidade de Sa˜o Paulo - Departamento de Economia
EAE 5811 - Econometria I
Prof. Dr. Ricardo Avelino
1o Semestre de 2007
Teoria Assinto´tica, Motivac¸a˜o, Instrumental e
Resultados Gerais para Estimadores Extremos
Motivac¸a˜o para o estudo de teoria assinto´tica
Relembre os resultados ba´sicos de estimac¸a˜o pontual. No´s t´ınhamos uma
amostra x = (x1, ..., xn) de observac¸o˜es que era, por hipo´tese, uma observac¸a˜o
particular do vetor aleato´rio X = (X1, ...,Xn). X tinha uma distribuic¸a˜o con-
junta de probabilidade P pertencente a uma famı´lia conhecida. A famı´lia de
distribuic¸o˜es P era indexada por um paraˆmetro θ ∈ Θ, onde Θ denotava o
espac¸o de paraˆmetros, isto e´, P = {Pθ : θ ∈ Θ}.
Nosso objetivo era estimar θ. No´s quer´ıamos escolher uma estat´ıstica, isto
e´, uma func¸a˜o real do vetor aleato´rio X, chamada de estimador, que estivesse
“pro´xima” de θ. O estimador, denotado por δ (X) , era uma varia´vel aleato´ria.
Escolher um estimador significava, portanto, escolher uma distribuic¸a˜o amostral
da qual obter uma realizac¸a˜o. Um bom estimador estava “pro´ximo” do valor
verdadeiro com uma grande probabilidade. Para quantificar a proximidade e
ser capaz de escolher entre estimadores alternativos, no´s utilizamos o conceito
de func¸a˜o risco.
No´s assumimos que uma func¸a˜o perda L (θ, d) estava dispon´ıvel e que, para
cada valor poss´ıvel de θ ∈ Θ e para cada estimativa poss´ıvel d ∈ Θ, L (θ, d) media
a perda incorrida pelo econometrista quando o valor verdadeiro do paraˆmetro
era θ e sua estimativa d. Baseado nisso, no´s definimos a func¸a˜o risco associada
a` func¸a˜o perda L e ao estimador δ como o valor esperado da func¸a˜o perda (com
a esperanc¸a calculada com relac¸a˜o a X, na˜o com relac¸a˜o a θ):
R (θ, d) = Eθ [L (θ, δ (X))] =
R
L (θ, δ (X)) dPθ
No´s vimos que o problema de minimizac¸a˜o do risco uniformemente em θ
na˜o tinha uma soluc¸a˜o. No´s introduzimos enta˜o restric¸o˜es de imparcialidade
na esperanc¸a de que fosse poss´ıvel achar um (u´nico) estimador que minimizasse
o risco uniformemente dentro da classe de estimadores satisfazendo a restric¸a˜o
em questa˜o. No´s nos concentramos em estimadores na˜o viesados para a me´dia
e fornecemos condic¸o˜es suficientes para a existeˆncia e unicidade de um esti-
mador na`o viesado que minimizasse o risco uniformemente. As condic¸o˜es sufi-
cientes eram: (i) existeˆncia de uma estat´ıstica suficiente completa para P e (ii)
convexidade (estritamente para unicidade) da func¸a˜o perda. No´s focamos em
func¸o˜es perda (estritamente convexas) dadas pelo erro quadra´tico me´dio, para
a qual a minimizac¸a˜o do risco equivalia a` minimizac¸a˜o da variaˆncia quando
considera´vamos estimadores na˜o viesados. Portanto, no´s procuramos por esti-
madores na˜o viesados que minimizavam uniformemente a variaˆncia.
1
Entretanto, estimadores na˜o viesados que minimizam a variaˆncia uniforme-
mente podem na˜o existir. Para estimadores na˜o viesados com variaˆncia finita,
no´s ainda fomos capazes de determinar qua˜o “bom” era um estimador sugerido
atrave´s da comparac¸a˜o de sua variaˆncia com o limite inferior de Cramer-Rao
para a variaˆncia de qualquer estimador dado pela desigualdade da informac¸a˜o.
Infelizmente, alguns problemas persistem:
1. As distribuic¸o˜es exatas sa˜o frequ¨entemente dif´ıceis de derivar. Ale´m disso,
em modelos com distribuic¸o˜es na˜o especificadas (na˜o parame´tricas), resultados
exatos na˜o esta˜o dispon´ıveis.
2. Considerar somente estimadores na˜o viesados para a me´dia tambe´m trazia
problemas.
a) Estimadores na˜o viesados a`s vezes na˜o existem.
b) Nenhum me´todo geral para deriva´-los existe.
c) Pode existir um estimador viesado com menor risco ∀θ ∈ Θ
3. Em geral, resultados baseados na teoria amostral exata sa˜o sens´ıveis a`
escolha da func¸a˜o perda.
A teoria assinto´tica ajuda a aliviar esses problemas.
A teoria assinto´tica, como discutido anteriormente, considera uma amostra
x = (x1, ..., xn) (uma observac¸a˜o de um vetor aleato´rio X = (X1, ...,Xn)) na˜o
para um n fixo, mas como membro de uma sequ¨eˆncia correspondendo a n =
1, 2, ... e avalia a performance da sequ¨eˆncia de estimadores {δn (X)}∞n=1 quando
n→∞.
Crite´rios de estimac¸a˜o
em amostras grandes
Definic¸a˜o (consisteˆncia): Uma sequ¨eˆncia de estimadores θˆn (X1, ...,Xn) e´
fracamente consistente para θ0 se ∀θ0 ∈ Θ, θˆn converge em probabilidade para
θ0, denotado por θˆn
P→ θ0
Para economizar na notac¸a˜o, na sequ¨eˆncia eu usarei “um estimador θˆn” ao
inve´s de uma sequ¨eˆncia de estimadores θˆn (X1, ...,Xn) . θ0 ao inve´s de apenas θ
e´ usado para denotar o valor verdadeiro para evitar confusa˜o adiante.
O termo “fraca” na definic¸a˜o e´ inclu´ıdo para distingui-la do termo con-
sisteˆncia forte, usado para descrever a propriedade θˆn
a.s.→ θ0. No´s nos concen-
traremos em consisteˆncia fraca.
Para um vetor de paraˆmetros ser estimado consistentemente, ele precisa ser
identificado.
Definic¸a˜o (identificac¸a˜o de um vetor de paraˆmetros): Suponha que X =
(X1, ...,Xn) tenha distribuic¸a˜o Pθ . O valor do paraˆmetro θ1 e´ dito identificado
se na˜o existir nenhum outro valor do paraˆmetro θ2 de θ tal que Pθ1 = Pθ2 .
2
Se houver valores dos paraˆmetros que na˜o sa˜o identificados, no´s dizemos que
θ na˜o e´ identificado. Intuitivamente, um paraˆmetro na˜o identificado na˜o pode
ser estimado consistentemente porque, se a distribuic¸a˜o de X e´ a mesma para θ1
e θ2, no´s na˜o podemos utilizar as observac¸o˜es para decidir se o valor verdadeiro
de θ e´ θ1 ou θ2.
Consisteˆncia e´ uma propriedade muito fraca. Ela nos diz que, quando o
nu´mero de observac¸o˜es tende ao infinito, a probabilidade do erro de estimac¸a˜o
ser maior do que qualquer ε > 0 tende a zero, mas na˜o nos diz qua˜o ra´pido isso
ocorre. Num caso extremo, se θˆn e´ um estimador consistente de θ, o mesmo e´
verdade para θˆn + 1000000/n, θˆn − 1000000/n, θˆn + 7/
√
n ou θˆn + 19/
¡
n0.2
¢
.
Um estimador que na˜o e´ nem consistente e´ frequ¨entemente considerado ruim.
Auseˆncia de vie´s nos diz que, na me´dia, em amostras repetidas da populac¸a˜o,
o estimador estara´ pro´ximo do valor verdadeiro do paraˆmetro. Consisteˆncia nos
diz que o estimador deve estar arbitrariamente pro´ximo do valor verdadeiro
com probabilidade aproximando-se de 1 quando o nu´mero de observac¸o˜es tende
ao infinito. Esses conceitos esta˜o relacionados mas diferem. Estimadores con-
sistentes sa˜o frequ¨entemente substancialmente mais fa´ceis de encontrar do que
estimadores na˜o viesados. Portanto, o estudo da teoria assinto´tica nos ajuda
a solucionar um dos problemas encontrados na teoria amostral para amostras
finitas.
Normalidade assinto´tica
Para obter uma ide´ia da taxa de convergeˆncia de um estimador consistente
θˆn, considere a probabilidade
Pn (c) = P
³
αn
¯¯¯
θˆn − θ
¯¯¯
≤ c
´
na qual αn e´ uma sequ¨eˆncia crescente. Se αn e´ limitado, enta˜o Pn (c) → 1
pela consisteˆncia de θˆn. Por outro lado, se αn → ∞ suficientemente ra´pido,
enta˜o Pn (c)→ 0. Isso sugere que, para um dado c, talvez exista uma sequ¨eˆncia
intermedia´ria αn →∞ que fornec¸a a taxa correta, de modo que Pn (c) convirja
para um limite estritamente entre 0 e 1. Na maioria dos casos, essa intuic¸a˜o
conduz ao resultado correto.
Tipicamente, existe uma sequ¨eˆncia αn e uma func¸a˜o de distribuic¸a˜o cont´ınua
F tal que, para todo c ∈ Rk,
P = P
³
αn
³
θˆn − θ
´
≤ c
´
→ F (c) isto e´, αn
³
θˆn − θ
´
d→ F
No´s enta˜o dizemos que o erro
¯¯¯
θˆn − θ
¯¯¯
tende a zero a` taxa 1/αn e que o
estimador θˆn e´ αn− consistente.
3
Tipicamente, αn =
√
n e F (c) e´ uma normal multivariada. Nesse caso,
√
n
³
θˆn − θ
´
d→ N (0,Σ (θ)) .No´s nos referimos como
√
n-normalidade assinto´tica
a essa propriedade. Note que quando no´s dizemos que θˆn e´
√
n assintotica-
mente normal. no´s queremos dizer que
√
n
³
θˆn − θ
´
e´ assintoticamente normal.
√
n
³
θˆn − θ
´
d→ N (0,Σ (θ)) implica que, em amostras grandes, e´ aproximada-
mente verdade que θˆn ∼ N
¡
0, 1
n
Σ (θ)
¢
, denotado por θˆn
A∼ N
¡
0, 1
n
Σ (θ)
¢
.
Definic¸a˜o (normalidade assinto´tica do estimador): θˆn e´ (αn−) assintotica-
mente normalmente distribu´ıdo se e somente se existe uma sequ¨eˆncia crescente
αn tal que
√
αn
³
θˆn − θ
´
d→ N (0,Σ (θ)) .
A matriz Σ (θ) e´ chamada de matriz de variaˆncia covariaˆncia assinto´tica de
θˆn.
Estimadores assintoticamente normais na˜o sa˜o unicos. Considere, por exem-
plo, as distribuic¸o˜es assinto´ticas de dois estimadores: θˆ1n e θˆ2n. Se
√
n
³
θˆ1n − θ
´
d→ N (0,Σ (θ)) e
√
n
³
θˆ2n − θˆ1n
´
P→ 0
enta˜o
√
n
³
θˆ2n − θ
´
=
√
n
³
θˆ2n − θˆ1n
´
+
√
n
³
θˆ1n − θ
´
d→ N (0,Σ (θ))
Note que para estimadores consistentes e assintoticamente normais, a dis-
tribuic¸a˜o assinto´tica e´ completamente determinada por Σ (θ) no sentido de que
Σ (θ) determina a probabilidade de que o erro de estimac¸a˜o θˆn − θ esteja com-
preendido num dado intervalo. Para qualquer func¸a˜o perda plaus´ıvel, no´s quere-
mos escolher um estimador consistente com a menor variaˆncia assinto´tica. Nesse
sentido, a ana´lise assinto´tica na˜o e´ sens´ıvel a` escolha da func¸a˜o perda.
Os resultados de normalidade assinto´tica, juntamente com uma estimativa
consistente de Σ (θ), nos permite obter intervalos de confianc¸a va´lidos assintot-
icamente e conduzir testes de hipo´tese.
Eficieˆncia assinto´tica
Em amostras finitas, no´s estabelecemos, sob certas condic¸o˜es, a desigualdade
da informac¸a˜o para um estimador na˜o viesado θˆn de θ. No caso de uma amostra
X = (X1, ...,Xn) i.i.d., t´ınhamos que, se θˆn era um estimador na˜o viesado de θ
com segundo momento finito, enta˜o, sob condic¸o˜es de regularidade,
V
³
θˆn
´
≥ [nI1 (θ)]−1 ⇔ nV
³
θˆn
´
≥ [I1 (θ)]−1 (1)
I1 (θ) e´ a informac¸a˜o de cada observac¸a˜o. (V
³
θˆn
´
depende do verdadeiro θ,
mas no´s suprimimos essa dependeˆncia para evitar adicionar mais subscritos).
4
Sob certas hipo´teses, uma desigualdade da informac¸a˜o ana´loga pode ser
derivada para amostras grandes. Se θˆn e´ assintoticamente normal, isto e´,√
n
³
θˆn − θ
´
d→ N (0,Σ (θ)) , enta˜o, sob condic¸o˜es de regularidade,
Σ (θ) ≥ [I1 (θ)]−1 (2)
exceto num conjunto com medida de Lebesgue zero.
Definic¸a˜o (eficieˆncia assinto´tica): Um estimador θˆn (ou, mais precisamente,
uma sequ¨eˆncia de estimadores
n
θˆn
o
) satisfazendo
√
n
³
θˆn − θ
´
d→ N (0,Σ (θ))
e´ dito assintoticamente eficiente se Σ (θ) = [I1 (θ)]
−1
.
Como no´s veremos a seguir, existira˜o frequ¨entemente estimadores assintot-
icamente normais que atingem o limite inferior [I1 (θ)]
−1
dado na desigual-
dade assinto´tica da informac¸a˜o, mais especificamente, estimadores de ma´xima
verossimilhanc¸a. Tipicamente, existira˜o estimadores que sa˜o assintoticamente
normais mas com uma variaˆncia assinto´tica menor do que [I1 (θ)]
−1 para pelo
menos alguns valores de θ, chamados de pontos de supereficieˆncia. Mas o con-
junto desses pontos tem medida de Lebesgue igual a zero.
No´s a`s vezes consideraremos uma classe particular de estimadores assintot-
icamente normais. Um estimador θˆn e´ dito assintoticamente eficiente na classe
de estimadores assintoticamente normais se e somente se qualquer outro esti-
mador θ˜n dentro da classe tem uma variaˆncia assinto´tica Σ˜ (θ) e Σ˜ (θ)−Σ (θ) e´
positiva semi-definida.
Note as diferenc¸as entre (1) e (2).
√
n
³
θˆn − θ
´
d→ N (0,Σ (θ)) implica
consisteˆncia de θˆn. Por queˆ? Porque implica que, para n grande, e´ aproximada-
mente verdade que θˆn
A∼ N
¡
θ, 1
n
Σ (θ)
¢
. Portanto, θˆn converge em distribuic¸a˜o
para a constante θ. Mas no´s sabemos que isso implica convergeˆncia em proba-
bilidade para a mesma constante.
Portanto, (2) assume
consisteˆncia de θ, enquanto (1) assume que θˆn e´ na˜o
viesado para qualquer tamanho da amostra n, E
³
θˆn
´
= θ, ∀n.
Auseˆncia de vie´s na˜o implica consisteˆncia e consisteˆncia na˜o implica auseˆncia
de vie´s.
Em particular, consisteˆncia de um estimador na˜o implica que o estimador
e´ na˜o viesado para qualquer tamanho da amostra n, nem que a me´dia da dis-
tribuic¸a˜o assinto´tica de αn
³
θˆn − θ
´
e´ zero, isto e´, que o estimador e´ assintoti-
camente na˜o viesado.
Por exemplo, considere um estimador θˆn que e´ consistente (isto e´, θˆn
P→ θ),
na˜o viesado (isto e´, E
³
θˆn
´
= θ) e
√
n-assintoticamente normal (
√
n
³
θˆn − θ
´
d→
5
N (0,Σ (θ))). Agora, considere o estimador θ˜n = θˆn + c√n , para uma con-
stante finita c 6= 0. Enta˜o, θ˜n P→ θ, mas E
³
θ˜n
´
= θ + c√
n
6= θ para todo n
finito. Portanto, θ˜n e´ consistente, mas e´ viesado para todo n finito. Ale´m disso,√
n
³
θ˜n − θ
´
d→ N (c,Σ (θ)) . Portanto, θ˜n e´
√
n− assintoticamente normal, mas
e´ assintoticamente viesado. Em geral, o limite em probabilidade, o limite da
esperanc¸a e a esperanc¸a assinto´tica (a esperanc¸a da distribuic¸a˜o assinto´tica) na˜o
coincidem.
V
³
θˆn
´
em (1) e´ a variaˆncia do estimador, enquanto Σ (θ) e´ sua variaˆncia
assinto´tica. E´ poss´ıvel mostrar que
Σ (θ) ≤ lim inf
n
³
nV
³
θˆn
´´
com a desigualdade talvez sendo estrita.
(1) implica (2) se nV
³
θˆn
´
= V
³√
n
³
θˆn − θ
´´
→ Σ (θ)) e E
³
θˆn
´
= θ ou
lim
n→∞
E
³
θˆn
´
= θ.
Estimadores extremos: um instrumental geral
Uma caracter´ıstica central da estimac¸a˜o por mı´nimos quadrados ordina´rios
e´ a minimizac¸a˜o de uma func¸a˜o objetivo que depende dos dados, do tamanho da
amostra e dos paraˆmetros a serem estimados. Va´rios estimadores compartilham
essa estrutura de minimizac¸a˜o/maximizac¸a˜o e e´ u´til analisar essa classe geral de
estimadores a fim de entender os elementos centrais nas provas de consisteˆncia
e normalidade assinto´tica e nas derivac¸o˜es de variaˆncias assinto´ticas. Em ter-
mos de provas, a ana´lise abaixo e´ mais u´til para estimadores para os quais na˜o
e´ poss´ıvel obter uma soluc¸a˜o fechada. Quando e´ poss´ıvel obter uma soluc¸a˜o
anal´ıtica, como, por exemplo, no caso do estimador de MQO, e´ frequ¨entemente
poss´ıvel aplicar leis dos grandes nu´meros e teoremas centrais do limite direta-
mente nas fo´rmulas para consisteˆncia e normalidade assinto´tica.
Sob uma perspectiva mais ba´sica, considerar estimadores como casos es-
peciais dentro de um instrumental geral evita que pensemos que econometria
consiste de uma colec¸a˜o confusa de estimadores diferentes e aparentemente na˜o
relacionados.
A discussa˜o a seguir sobre estimadors extremos segue de modo pro´ximo
Newey e McFadden (1994).
Definic¸a˜o (estimador extremo): Um estimador θˆn e´ um estimador extremo
se existe uma func¸a˜o objetivo Qˆn (θ) tal que
θˆn maximiza Qˆn (θ) sujeito a θ ∈ Θ
onde Θ e´ o conjunto de valores poss´ıveis do paraˆmetro.
6
Novamente, para na˜o carregar na notac¸a˜o, suprimimos a dependeˆncia dos
dados X de θˆn e Qˆn (θ). O subscrito 0 denotara´ o valor verdadeiro do paraˆmetro
em questa˜o.
Exemplos:
Mı´nimos Quadrados Ordina´rios:
Observac¸o˜es: (yi, xi) , i = 1, 2, ... com E [y|X] = Xβ, portanto θ = β
Func¸a˜o objetivo: Qˆn (θ) = − 1n
Pn
i=1 (yi − x0iβ)
2
Mı´nimos Quadrados Na˜o Lineares:
Observac¸o˜es: (yi, xi) , i = 1, 2, ... com E [y|X] = h (xi, θ)
Func¸a˜o objetivo: Qˆn (θ) = − 1n
Pn
i=1 (yi − h (xi, θ))
2
Ma´xima Verossimilhanc¸a:
Observac¸o˜es: (yi, xi) , i = 1, 2, ... no caso mais simples i.i.d., por hipo´tese,
com f.d.p. f (x, θ0) pertencente a uma famı´lia de f.d.p.
0s f (x, θ)
Func¸a˜o objetivo: Qˆn (θ) =
1
n
Pn
i=1 ln f (xi, θ) (a func¸a˜o de log verossimil-
hanc¸a normalizada)
O objetivo de ma´xima verossimilhanc¸a e´ escolher como estimativa o vetor de
paraˆmetros que maximiza a probabilidade da amostra dispon´ıvel ser observada.
Ma´xima verossimilhanc¸a e´ bastante utilizada. Alguns exemplos incluem: mod-
elos de escolha discreta, modelos com varia´vel dependente limitada, modelos
para durac¸a˜o.
Me´todo generalizado dos momentos
Observac¸o˜es: xi, i = 1, 2, ... Suponha que exista uma func¸a˜o g (x, θ) tal que
os momentos populacionais satisfac¸am E [g (x, θ0)] = 0. O estimador do me´todo
generalizado dos momentos minimiza o quadrado da distaˆncia Euclidiana dos
momentos amostrais correspondentes com relac¸a˜o a` contrapartida populacional
de zero utilizando uma matriz de ponderac¸a˜o W.
Func¸a˜o objetivo: Qˆn (θ) = −
£
1
n
Pn
i=1 g (xi, θ)
¤0
Wˆ
£
1
n
Pn
i=1 g (xi, θ)
¤
.
Wˆ e´ uma estimativa consistente de W e deve ser positiva semi-definida. O
estimador do me´todo generalizado dos momentos e´ frequ¨entemente utilizado
para estimar os paraˆmetros de equac¸o˜es de Euler de problemas de otimizac¸a˜o
dos consumidores, pois elas da˜o origem a condic¸o˜es de momento precisamente
da forma E [g (x, θ0)] = 0. No´s consideraremos um caso simples do me´todo
generalizado dos momentos mais a` frente denominado de varia´veis instrumentais
lineares.
7
Distaˆncia mı´nima cla´ssica
Suponha que exista um vetor de estimadores πˆ
P→ π0 e um vetor de func¸o˜es
h (θ) com π0 = h (θ0). No´s desejamos estimar θ baseado em πˆ e conhecimento
da func¸a˜o h.
Func¸a˜o objetivo: Qˆn (θ) = − [πˆ − h (θ)]0 Wˆ [πˆ − h (θ)] .
Novamente, Wˆ e´ uma matriz de ponderac¸a˜o positiva semi-definida. No´s
consideraremos o estimador de distaˆncia mı´nima cla´ssica no contexto do modelo
de equac¸o˜es simultaˆneas, no qual π consiste de paraˆmetros da forma reduzida,
θ consiste de paraˆmetros estruturais em que estamos interessados e h (θ) nos
fornece a relac¸a˜o entre a forma reduzida e a forma estrutural.
Estimadores que assumem a forma ilustrada pelo me´todo generalizado dos
momentos ou pelo estimador de distaˆncia mı´nima cla´ssica sa˜o a`s vezes denom-
inados estimadores de distaˆncia mı´nima. Eles sa˜o definidos como a soluc¸a˜o
da minimizac¸a˜o de uma func¸a˜o objetivo da forma Qˆn (θ) = −gn (θ)0 Wˆgn (θ) ,
em que gn (θ) =
1
n
Pn
i=1 g (xi, θ) para o me´todo generalizado dos momentos e
gn (θ) = πˆ − h (θ) para o estimador de distaˆncia mı´nima cla´ssica.
Note que mı´nimos quadrados ordina´rios, mı´nimos quadrados na˜o lineares e
ma´xima verossimilhanc¸a sa˜o casos especiais do me´todo generalizado dos mo-
mentos quando vistos como soluc¸o`es das condic¸o˜es de primeira ordem.
Mı´nimos quadrados ordina´rios: A condic¸a˜o de momento populacional baseia-
se em E (xiεi) = 0 (isto e´, g (x, θ0) = xiεi = xi (yi − x0iβ)).
βˆ iguala o momento amostral correspondente a zero:Pn
i=1 xiεi =
Pn
i=1 xi
³
yi − x0iβˆ
´
= 0
Mı´nimos quadrados na˜o lineares: A condic¸a˜o de momento populacional
baseia-se em E [xi (yi − h (xi, θ))] = 0
Ma´xima verossimilhanc¸a: A condic¸a˜o de momento populacional baseia-se
em E
³
∂ ln f(xi,θ)
∂θ
´
= 0
θˆ iguala o momento amostral correspondente a zero:
1
n
Pn
i=1
∂ ln f (xi, θ)
∂θ
= 0
Propriedades assinto´ticas de estimadores extremos
Consisteˆncia
θˆn maximiza Qˆn (θ) em θ ∈ Θ. Sob que condic¸o˜es e´ verdade que θˆn
P→ θ0
para todos os valores poss´ıveis de θ0?
8
A ide´ia ba´sica e´ que se Qˆn (θ) converge em probbilidade para Q0 (θ) e Q0 (θ)
e´ maximizada no valor verdadeiro do paraˆmetro θ0, enta˜o o limite do ma´ximo
θˆn deve ser o ma´ximo do limite θ0, sob condic¸o˜es para troca das operac¸o˜es de
limite e maximizac¸a˜o.
Definic¸a˜o (convergeˆncia uniforme
em probabilidade)
Qˆn (θ) converge em probabilidade uniformemente para Q0 (θ) se
sup
θ∈Θ
¯¯¯
Qˆn (θ)−Q0 (θ)
¯¯¯
P→ 0
Teorema (consisteˆncia de estimadores estremos, NM (1994) Teorema 2.1)
Se existir uma func¸a˜o Q0 (θ) tal que
i) Q0 (θ) e´ unicamente maximizada em θ0
ii) Θ e´ compato
iii) Q0 (θ) e´ continua
iv) Qˆn (θ) converge uniformemente em probabilidade para Q0 (θ)
enta˜o θˆn
P→ θ0.
Prova:
Primeiro passo: Para ∀ε > 0, no´s temos, com probabilidade aproximando-se
de 1,
a) Qˆn
³
θˆn
´
> Qˆn (θ0)− ε/3, pois θˆn maximiza Qˆn (θ)
b) Q0
³
θˆn
´
> Qˆn
³
θˆn
´
− ε/3, pois, por (iv), supθ∈Θ
¯¯¯
Qˆn (θ)−Q0 (θ)
¯¯¯
< ε/3
para n suficientemente grande.
c) Qˆn (θ0) > Q0 (θ0)− ε/3, tambe´m por (iv).
Portanto, com probabilidade aproximando-se de 1,
Q0
³
θˆn
´ b)
> Qˆn
³
θˆn
´
− ε/3
a)
> Qˆn (θ0)− 2ε/3
c)
> Q0 (θ0)− ε (∗)
Enta˜o, para qualquer ε > 0, Q0
³
θˆn
´
> Q0 (θ0) − ε com probabilidade
aproximando-se de 1.
Segundo passo: No´s queremos mostrar que θˆn
P→ θ0, isto e´, para qualquer
ε > 0, limP
³¯¯¯
θˆn − θ0
¯¯¯
≤ ε
´
= 1 ou, em outras palavras, θˆn ∈ Nε (θ0) com
probabilidade aproximando-se de 1.
Considere qualquer subconjunto aberto N ⊂ Θ, θ0 ∈ N (em particular,
podemos considerar qualquer vizinhanc¸aNε (θ0) necessa´ria). Enta˜o, N
c e´ fechado
9
e, portanto, Θ ∩ Nc compacto. Considere θ∗ dado por supθ∈Θ∩Nc Q0 (θ) =
Q0 (θ
∗). Como Θ ∩ Nc e´ compacto, e Q0 (θ) e´ cont´ınua, θ∗ ∈ Θ ∩ Nc. Como
Q0 (θ) e´ unicamente maximizada em θ0, Q0 (θ
∗) < Q0 (θ0). Portanto, ε definido
por ε = Q0 (θ0) − Q0 (θ∗) e´ positivo e, por (∗), Q0
³
θˆn
´
> Q0 (θ0) − ε =
Q0 (θ0)− (Q0 (θ0)−Q0 (θ∗)) = Q0 (θ∗) = supθ∈Θ∩Nc Q0 (θ) com probabilidade
aproximando-se de 1, o que implica que θˆn /∈ Θ ∩ Nc, isto e´, θˆn ∈ N com
probabilidade aproximando-se de 1.
Normalidade assinto´tica
Teorema (normalidade assinto´tica de estimadores estremos, NM (1994)
Teorema 3.1)
Se θˆn
P→ θ0 e
i) θ0 ∈ interior (Θ)
ii) Qˆn (θ) e´ duas vezes continuamente diferencia´vel numa vizinhanc¸a N de
θ0.
iii)
√
n∇θQˆn (θ0)
d→ N (0,Σ)
iv) existe H (θ) cont´ınua em θ0 satisfazendo supθ∈N
°°°∇θθQˆn (θ)−H (θ)°°° P→
0
v) H = H (θ0) e´ na˜o singular
enta˜o
√
n
³
θˆn − θ0
´
d→ N
¡
0,H−1ΣH−1
¢
Prova: Como Qˆn (θ) e´ diferencia´vel numa vizinhanc¸a de θ0, um ponto inte-
rior, e θˆn maximiza Qˆn (θ), no´s sabemos que ∇θQˆn
³
θˆn
´
= 0. Uma expansa˜o
de Taylor de primeira ordem em torno de θ0 produz
0 =
√
n∇θQˆn
³
θˆn
´
=
√
n∇θQˆn (θ0) +∇θθQˆn
¡
θ¯
¢√
n
³
θˆn − θ0
´
(∗)
⇔
√
n
³
θˆn − θ0
´
= −
h
∇θθQˆn
¡
θ¯
¢i−1√
n∇θQˆn (θ0)
onde θ¯ esta´ compreendido na linha conectando θˆn e θ0.
θˆn
P→ θ0 ⇒ θ¯
P→ θ0 e, consequ¨entemente, θ¯ ∈ N.
Resta mostrar que ∇θθQˆn
¡
θ¯
¢ P→ H (θ0) (≡ H)
Denote ∇θθQˆn
¡
θ¯
¢
por Hˆ
¡
θ¯
¢
. Enta˜o°°°∇θθQˆn ¡θ¯¢−H (θ0)°°° = °°°Hˆ ¡θ¯¢−H (θ0)°°°
≤
°°°Hˆ ¡θ¯¢−H ¡θ¯¢°°°+ °°H ¡θ¯¢−H (θ0)°°
≤ sup
θ∈N
°°°Hˆ (θ)−H (θ)°°°
P→0 por (iv)
+
°°H ¡θ¯¢−H (θ0)°°
P→0 pois θ¯ P→θ0 e H e´ cont´ınua
P→ 0
10
isto e´, Hˆ
¡
θ¯
¢ P→ H (θ0) .
Cada um dos elementos de H (θ0)
−1 existe pela hipo´tese (v). Portanto,
Hˆ
¡
θ¯
¢−1 P→ H (θ0)−1 .
Utilizando o teorema de Slutsky,
√
n
³
θˆn − θ0
´
= − Hˆ
¡
θ¯
¢−1
P→H(θ0)−1
√
n∇θQˆn (θ0)
d→N(0,Σ) por (iii)
d→ N
³
0,H (θ0)
−1ΣH (θ0)
−1
´
Eficieˆncia assinto´tica
Resultados de eficieˆncia assinto´tica famosos incluem:
1. Eficieˆncia do estimador de ma´xima verossimilhanc¸a dentro da classe de
estimadores do me´todo generalizado dos momentos.
2. A forma da matriz o´tima de ponderac¸a˜o para estimac¸a˜o por distaˆncia
mı´nima.
3. Eficieˆncia de mı´nimos quadrados generalizados dentro da classe de esti-
madores de mı´nimos quadrados ponderados na presenc¸a de heteroscedasticidade.
4. Mı´nimos quadrados em dois esta´gios como um estimador eficiente de
varia´veis instrumentais.
11
Econometria/gls1.pdf
Universidade de Sa˜o Paulo - Departamento de Economia
EAE 5811 - Econometria I
Prof. Dr. Ricardo Avelino
1o Semestre de 2007
Erros Na˜o Esfe´ricos no Modelo de Regressa˜o
Linear, Resultados Gerais
Violac¸a˜o das hipo´teses cla´ssicas
Se a hipo´tese de que posto(X) = k (amostras finitas) ou X
0X
n
p→ M, na˜o
singular (a hipo´tese assinto´tica equivalente para o caso em que o regressor e´
estoca´stico), for violada, o estimador de MQO ou seu limite em probabilidade
na˜o e´ u´nico. O modelo deve ser especificado novamente de modo correto. Se a
hipo´tese de posto completo e´ aproximadamente violada (multicolinearidade), a
unica soluc¸a˜o e´ obter mais dados.
Se a hipo´tese de linearidade na˜o for va´lida, MQO em geral sera´ viesado e
inconsistente. Em alguns casos, o modelo pode ser transformado num modelo
linear (por exemplo, aplicando o logaritmo). Caso isso na˜o seja poss´ıvel, e´
necessa´rio utilizar me´todos de estimac¸ao alternativos para estimar o modelo
na˜o linear (ma´xima verossimilhanc¸a, mı´nimos quadrados na˜o lineares, me´todo
generalizado dos momentos, etc).
Ale´m disso, no´s sabemos o que acontece se ε|X na˜o for normal (amostras
finitas) ou X 0ε/
√
n na˜o for assintoticamente normal (amostras grandes). Em
amostras finitas, MQO e´ o melhor estimador linear na˜o viesado, mas na˜o possui
variaˆncia mı´nima entre todos os estimadores quando a hipo´tese de normali-
dade e´ violada. Adicionalmente, na˜o e´ poss´ıvel derivar nenhuma distribuic¸a˜o
exata para realizar infereˆncia. Com relac¸a˜o aos resultados assinto´ticos, no´s
ainda obtemos consisteˆncia sem a hipo´tese de normalidade. Note que a hipo´tese
X 0ε/
√
n
d→ N (0, V ) e´ muito mais fraca do que ε|X ∼ N (0,Ω). No´s obtemos
normalidade assinto´tica do estimador de MQO e distribuic¸o˜es para realizar in-
fereˆncia sem assumir normalidade exata, desde que os dados satisfac¸am hipo´teses
primitivas garantindo que X 0ε/
√
n
d→ N (0, V ) , aplicando-se um teorema cen-
tral do limite. Para mostrar eficieˆncia assinto´tica de MQO, a hipo´tese de nor-
malidade “exata” e´ necessa´ria. Enta˜o, na auseˆncia de heteroscedasticidade e
autocorrelac¸a˜o, MQO coincide com o estimador de ma´xima verossimilhanc¸a,
que, sob condic¸o˜es apropriadas discutidas anteriormente, e´ assintoticamente efi-
ciente.
Restam portanto as seguintes hipo´teses:
(OLS2,s) E [ε|X] = 0 (amostras pequenas) (OLS2,l) X 0ε/n p→ 0 (amostras
grandes)
1
Sem E [ε|X] = 0, no´s sabemos que MQO e´ viesado. Sem X 0ε/n p→ 0, MQO
e´ inconsistente.
(OLS3,s) Ω = E(εε0|X) = σ2I, isto e´,
a) Homoscedasticidade E(ε2i |X) = σ2, i = 1, ..., n
b) Auseˆncia de autocorrelac¸a˜o E(εiεj |X) = 0, i 6= j, i, j = 1, ..., n
Em amostras grandes, a hipo´tese equivalente era a mesma, exceto que no´s
condiciona´vamos apenas em xi e em xi e xj ao inve´s de condicionar em todo o
vetor X.
(OLS3,l) a) Homoscedasticidade E(ε2i |xi) = σ2 <∞, i = 1, ..., n
b) Auseˆncia de autocorrelac¸a˜o E(εiεj |xi, xj) = 0, i 6= j, i, j = 1, ..., n
(OLS3,s) e´ necessa´ria para mostrar que em amostras finitas MQO e´ o esti-
mador linear na˜o viesado com variaˆncia mı´nima e que s2 (X 0X)−1 e´ uma esti-
mativa na˜o viesada da variaˆncia de βˆ. Os resultados assinto´ticos eram exemplos
de resultados envolvendo consisteˆncia e normalidade assinto´tica de MQO, mas
outros resultados existem, dependendo das hipo´teses feitas. Portanto, no´s ter-
emos que reconsiderar essa questa˜o mais cuidadosamente. A pro´xima sec¸a˜o
examina mais cuidadosamente os efeitos
de erros na˜o esfe´ricos para o estimador
de MQO. O ponto fundamenal da discussa˜o e´ que no´s consideraremos alterna-
tivas a` MQO justamente porque MQO e´ ineficiente na presenc¸a de erros na˜o
esfe´ricos.
Erros na˜o esfe´ricos
Consequ¨eˆncias para MQO
Propriedades em amostras finitas
As hipo´teses eram
(OLS0,s) y = Xβ + ε
(OLS1,s) Posto(X)=K
(OLS2,s) E(ε|X) = 0
(OLS3,s) Ω = E(εε0|X) = σ2I
(OLS4,s) ε|X ∼ N (0,Ω)
Qual dos resultados de MQO em amostras finitas depende de (OLS3,s)?
(OLS0,s)-(OLS2,s): E
h
βˆ|X
i
= β,E
h
βˆ
i
= β
Adicionando (OLS4,s), mas na˜o (OLS3,s):
E
h
βˆ|X
i
= β,E
h
βˆ
i
= β
2
βˆ|X ∼ N
³
β, (X 0X)−1X 0ΩX (X 0X)−1
´
A distribuic¸a˜o marginal de βˆ na˜o precisa ser normal. Nenhum teste em
amostras finitas sem hipo´teses adicionais.
Adicionando (OLS3,s), mas na˜o (OLS4,s):
1) E
h
βˆ|X
i
= β,E
h
βˆ
i
= β
2) V
h
βˆ|X
i
= σ2 (X 0X)−1 , V
h
βˆ
i
= σ2E
h
(X 0X)−1
i
3) βˆ e´ o estimador linear na˜o viesado de β com menor variaˆncia (Teorema
de Gauss-Markov).
4) E
£
s2|X¤ = σ2, E £s2¤ = σ2, s2 = εˆ0εˆ
n−k
5) Um estimador na˜o viesado de V
h
βˆ|X
i
(e de V
h
βˆ
i
) e´
\
V
h
βˆ|X
i
= s2 (X 0X)−1
(OLS0,s)-(OLS4,s):
1) E
h
βˆ|X
i
= β,E
h
βˆ
i
= β
2) βˆ|X ∼ N
³
β, σ2 (X 0X)−1
´
3) βˆ e´ o estimador de ma´xima verossimilhanc¸a condicional de β e o estimador
na˜o viesado de β com menor variaˆncia entre todos os estimadores.
4) (n−K)s
2
σ2
|X ∼ χ2n−K , (n−K)s
2
σ2
∼ χ2n−K
5) Um estimador na˜o viesado de V
h
βˆ|X
i
(e de V
h
βˆ
i
) e´
\
V
h
βˆ|X
i
= s2 (X 0X)−1
6) s2 e βˆ sa˜o independentes, dado X.
Esses resultados foram utilizados para derivar intervalos de confianc¸a, testes
t, testes F , etc.
Conclusa˜o: Sem (OLS3,s), ainda e´ poss´ıvel mostrar que βˆ na˜o e´ viesado.
O teorema de Gauss-Markov na˜o se aplica, e a variaˆncia condicional do esti-
mador de Mı´nimos quadrados ordina´rios na˜o e´ V
h
βˆ|X
i
= σ2 (X 0X)−1 , mas
sim V
h
βˆ|X
i
= (X 0X)−1X 0ΩX (X 0X)−1 . Os intervalos de confianc¸a e testes
de hipo´tese precisam ser modificados para levar isso em conta. Finalmente,
MQO na˜o e´ ideˆntico a ma´xima verossimilhanc¸a e, portanto, na˜o e´ o estimador
na˜o viesado com menor variaˆncia.
3
Propriedades em amostras grandes
Regressores estoca´sticos
As hipo´teses eram:
(OLS0,l) y = Xβ + ε
(OLS1,l) X 0X/n p→M, na˜o singular
µ
M = E
³
X0X
n
´
= E
µPn
i=1 xix
0
i
n
¶¶
(OLS2,l) X 0ε/n
p→ 0
(OLS3,l) a) Homoscedasticidade E(ε2i |xi) = σ2 <∞, i = 1, ..., n
b) Auseˆncia de autocorrelac¸a˜o E(εiεj |xi, xj) = 0, i 6= j, i, j = 1, ..., n
(OLS4,l) X 0ε/
√
n
d→ N (0, V )
³
V = E
³
X0εε0X
n
´´
Sob (OLS3,l), V = E
³
X0εε0X
n
´
= E
³
E
³
X0εε0X
n
´
|X
´
= σ2M
Portanto, no´s ainda obtemos consisteˆncia e normalidade assinto´tica de βˆ
sem (OLS3,l). Sem (OLS3,l), a variaˆncia assinto´tica de βˆ e´M−1VM−1 ao inve´s
de σ2M−1. Os intervalos de confianc¸a e testes precisam ser modificados para
levar isso em conta. Finalmente, mesmo se no´s impormos normalidade “exata”,
MQO na˜o coincide com ma´xima verossimilhanc¸a sem (OLS3,l) e, portanto, na˜o
e´ assintoticamente eficiente.
A questa˜o de se no´s ainda obtemos consisteˆncia e normalidade assinto´tica
com heteroscedasticidade e autocorrelac¸a˜o dos erros e´ muito mais delicada do
que o discutido acima sugere. Com excec¸a˜o de (OLS3,l), as hipo´teses listadas
na˜o sa˜o primitivas. No´s consideramos hipo´teses primitivas que garantiam que as
hipo´teses acima eram satisfeitas. Estas eram, entretanto, condic¸o˜es suficientes
(a fim de manter as provas razoavelmente simples). Por exemplo, no´s geral-
mente assumı´amos observac¸o˜es i.i.d. ao longo de toda a discussa˜o. Mas com
heteroscedasticidade e/ou autocorrelac¸a˜o dos erros, essa hipo´tese e´ violada.
Uma outra observac¸a˜o: Quando as observac¸o˜es na˜o sa˜o identicamente dis-
tribu´ıdas, no´s devemos escrever X 0X/n
p→ Mn e X 0ε/
√
n
d→ N (0, Vn) . Por-
tanto, √
n
³
βˆ − β
´
d→ N
¡
0,M−1n VnM
−1
n
¢
ou, mais precisamente,
V −1/2n X
0ε/
√
n
d→ N (0, I)
e ¡
M−1n VnM
−1
n
¢−1/2√
n
³
βˆ − β
´
d→ N (0, I)
4
Regressores na˜o estoca´sticos
Comenta´rios similares aplicam-se. As condic¸o˜es necessa´rias para provar con-
sisteˆncia, normalidade assinto´tica, etc podem ser modificadas a fim de provar
esses resultados quando o erro exibe heteroscedasticidade e/ou autocorrelac¸a˜o.
No tocante a` variaˆncia assinto´tica, ela deve ser modificada de maneira ana´loga
ao feito acima, isto e´, de
√
n
³
βˆ − β
´
d→ N
¡
0, σ2M−1
¢
para
√
n
³
βˆ − β
´
d→ N
¡
0,M−1n VnM
−1
n
¢
, com Mn = lim
n→∞
1
n
Pn
i=1 xix
0
i
Estimac¸a˜o eficiente
Quando Ω e´ conhecido
Tanto resultados em amostras finitas quanto resultados assinto´ticos podem
ser derivados nesse caso.
Me´todo 1: Mı´nimos quadrados generalizados
No´s vimos que MQO ordina´rios na˜o e´ o estimador linear na˜o viesado com
variaˆncia mı´nima quando o erro e´ heterosceda´stico ou autocorrelacionado. Mas
como no´s podemos encontrar um estimador linear na˜o viesado melhor?
E(εε0|X) = Ω ¡6= σ2I¢ . Ω e´ uma matriz sime´trica positiva definida.
Portanto, no´s sabemos da decomposic¸a˜o spectral que Ω−1 = P 0P, para P 0 =
CΛ−1/2. As colunas de C sa˜o os autovetores de Ω e Λ e´ uma matriz diagonal
com os autovalores de Ω (estritamente positivos) na diagonal.
Ale´m disso,
Ω = P−1 (P 0)−1 ⇒ PΩP 0 = I
Pre´ multiplique o modelo de regressa˜o linear por P :
Py = PXβ + Pε ou y∗ = X∗β + ε∗
O modelo transformado satisfaz as hipo´teses (OLS0,s)-(OLS3,s). Satisfaz
(OLS1,s), pois X tem posto completo por hipo´tese e X∗ = PX, com P na˜o
singular, e (OLS2,s), pois E(ε∗|X) = E(Pε|X) = 0. Finalmente, ε∗ e´ ho-
mosceda´stico e na˜o exibe autocorrelac¸a˜o, pois
E [ε∗ε∗0] = E [Pεε0P 0] = PΩP 0 = I
5
Portanto, estime β por mı´nimos quadrados ordina´rios no modelo transfor-
mado e obtenha
βˆGLS = (X
∗0X∗)−1X∗0y∗ = (X 0P 0PX)−1X 0P 0Py =
¡
X 0Ω−1X
¢−1
X 0Ω−1y
Como (OLS0,s)-(OLS3,s) sa˜o satisfeitas para esse modelo, no´s sabemos que
βˆGLS e´ na˜o viesado, E
h
βˆGLS
i
= β, e que βˆGLS tem a menor variaˆncia entre
todos os estimadores na˜o viesados que sa˜o lineares em y∗. Mas estimadores que
sa˜o lineares em y∗ sa˜o tambe´m lineares em y . Portanto, βˆGLS e´ na˜o viesado e
tem a menor variaˆncia entre todos os estimadores na˜o viesados que sa˜o lineares
em y. Esse resultado e´ conhecido como teorema de Aitken.
A variaˆncia condicional de βˆGLS e´
V
³
βˆGLS |X
´
= E
·³
βˆGLS − β
´³
βˆGLS − β
´0
|X
¸
= E
h
(X∗0X∗)−1X∗0ε∗ε∗0X∗ (X∗0X∗)−1 |X
i
= (X∗0X∗)−1 =
¡
X 0Ω−1X
¢−1
Como βˆGLS e´ o estimador linear na˜o viesado com variaˆncia mı´nima, no´s sabemos
que V
³
βˆGLS |X
´
na˜o e´ maior do que
V
³
βˆOLS |X
´
= (X 0X)−1X 0ΩX (X 0X)−1
Propriedades assinto´ticas de βˆGLS
Consisteˆncia:
βˆGLS − β =
¡
X 0Ω−1X
¢−1
X 0Ω−1ε =
µ
X 0Ω−1X
n
¶−1
X 0Ω−1ε
n
Portanto, βˆGLS
p→ β se X0Ω−1X
n
p→M∗n, na˜o singular e X
0Ω−1ε
n
p→ 0.
Normalidade assinto´tica:
√
n
³
βˆGLS − β
´
=
µ
X 0Ω−1X
n
¶−1
X 0Ω−1ε√
n
Portanto,
√
n
³
βˆGLS − β
´
d→ N
³
0, (M∗n)
−1
V ∗n (M
∗
n)
−1
´
= N
³
0, (M∗n)
−1
´
se X
0Ω−1X
n
p→M∗n, na˜o singular, e X
0Ω−1ε√
n
d→ N (0, V ∗n ) (enta˜o, V ∗n =M∗n).
6
Comenta´rios:
1. Note que
βˆGLS = argmin
β
(y∗ −X∗β)0 (y∗ −X∗β)
= argmin
β
(y −Xβ)0Ω−1 (y −Xβ)
Portanto, βˆGLS e´ um exemplo de um estimador de mı´nimos quadrados pon-
derados.
2. Basta conhecer qualquer mu´ltiplo de Ω com relac¸a˜o a um escalar para
estimar β e a variaˆncia desse estimador sem vie´s.
3. No´s podemos realizar infereˆncia com base no modelo transformado de
maneira exatamente igual a` que fizemos anteriormente na auseˆncia de
heteroscedasticidade e autocorrelac¸a˜o.
Me´todo 2: Ma´xima verossimilhanc¸a
Estimac¸a˜o por ma´xima verossimilhanc¸a assumindo normalidade e´ ideˆntico
a mı´nimos quadrados generalizados para β desde que Ω e β na˜o contenham
nenhum paraˆmetro em comum.
Note que, sob (OLS0,s)-(OLS2,s) e (OLS4,s), ε|X ∼ N (0,Ω) . Portanto, a
densidade conjunta de ε e´ dada por
f (ε) =
1
(2π)n/2
|Ω|−1/2 e− 12ε0Ω−1ε
e a func¸a˜o de log verossimilhanc¸a (condicional em X) e´
lnL (y, β,Ω) = −n
2
ln (2π)− 1
2
ln |Ω|− 1
2
(y −Xβ)0 Ω−1 (y −Xβ)
Logo, o estimador de ma´xima verossimilhanc¸a de β minimiza
(y −Xβ)0Ω−1 (y −Xβ)
exatamente como βˆGLS .
Quando Ω e´ desconhecido
Apenas resultados assinto´ticos esta˜o dispon´ıveis para esse caso.
Me´todo 1: Mı´nimos quadrados generalizados fact´ıveis
Na pra´tica, Ω e´ deconhecido. Mas Ω e´ nxn e, portanto, tem ate´ n(n+1)2
elementos diferentes. Como no´s podemos estimar Ω consistentemente, con-
juntamente com os k elementos em β, com somente n observac¸o˜es? No´s na˜o
7
podemos, a menos que seja imposta mais estrutura para reduzir o nu´mero de
paraˆmetros desconhecidos. Portanto, suponha que Ω = Ω (θ), para um vetor de
paraˆmetros desconhecidos θ de dimensa˜o px1 e que p seja “pequeno”. Exemplos
sera˜o discutidos para os casos especiais de heteroscedasticidade e autocorrelac¸a˜o.
Suponha que uma estimativa consistente de θ possa ser obtida. Enta˜o Ωˆ =
Ωˆ (θ) e´ uma estimativa consistente de Ω e o estimador de mı´nimos quadrados
generalizados fact´ıveis de β e´
βˆFGLS =
³
X 0Ωˆ−1X
´−1
X 0Ωˆ−1y
Sob que condic¸o˜es as propriedades assinto´ticas de βˆFGLS e βˆGLS sa˜o as
mesmas?
√
n
³
βˆFGLS − β
´
−
√
n
³
βˆGLS − β
´
=
Ã
X 0Ωˆ−1X
n
!−1
X 0Ωˆ−1ε√
n
−
µ
X 0Ω−1X
n
¶−1
X 0Ω−1ε√
n
p→ 0
se
p lim
Ã
X 0Ωˆ−1X
n
!
= p lim
µ
X 0Ω−1X
n
¶
p lim
Ã
X 0Ωˆ−1ε√
n
!
= p lim
µ
X 0Ω−1ε√
n
¶
Como convergeˆncia em probabilidade implica convergeˆncia em distribuic¸a˜o,
√
n
³
βˆFGLS − β
´
−
√
n
³
βˆGLS − β
´
d→ 0
sob essas duas condic¸o˜es. Sob essas condic¸o˜es, assintoticamente na˜o faz diferenc¸a
se Ω for conhecido.
Me´todo 2: Ma´xima verossimilhanc¸a
A func¸a˜o de verossimilhanc¸a coincide com a func¸a˜o para o caso em que Ω e´
conhecido, exceto pelo fato de que no´s na˜o precisamos estimar Ω (θ) .
lnL (y, β, θ) = −n
2
ln (2π)− 1
2
ln |Ω (θ)|− 1
2
(y −Xβ)0 (Ω (θ))−1 (y −Xβ)
Para simplificar, escreva a func¸a˜o de verossimilhanc¸a como func¸a˜o de Γ =
(Ω (θ))−1 .
lnL (y, β, θ) = −n
2
ln (2π) +
1
2
ln |Γ|− 1
2
(y −Xβ)0 Γ (y −Xβ)
8
Como
∂ ln |Γ|
∂Γ
= Γ−1 e
∂ε0Γε
∂Γ
= εε0
as condic¸o˜es de primeira ordem sa˜o
∂ lnL
∂β
= X 0Γ (y −Xβ) = 0
∂ lnL
∂Γ
=
1
2
£
Γ−1 − (y −Xβ) (y −Xβ)0
¤
= 0
Elas podem ser resolvidas para obtermos βˆMLE e ΓˆMLE . O estimador de
ma´xima verossimilhanc¸a de Ω (θ) e´ obtido a partir de ΓˆMLE por[Ω (θ)MLE =³
ΓˆMLE
´−1
.
Estimac¸a˜o consistente da variaˆncia assintotica para MQO
Se a teoria na˜o sugerir uma maneira de reduzir o nu´mero de paraˆmetros
em Ω, enta˜o no´s na˜o podemos implementar mı´nimos quadrados generalizados
fact´ıveis ou ma´xima verossimilhanc¸a. No caso de heteroscedasticidade e/ou
autocorrelac¸a˜o de forma desconhecida, no´s ainda podemos utilizar mı´nimos
quadrados ordina´rios para obter estimativas consistentes e assintoticamente nor-
mais de β. Considere a distribuic¸a˜o assinto´tica de MQO sob erros na˜o esfe´ricos
√
n
³
βˆ − β
´
d→ N
¡
0,M−1n VnM
−1
n
¢
Para utilizar esse resultado para infereˆncia, no´s precisamos de uma estima-
tiva consistente da variaˆncia assinto´tica de βˆ, isto e´, de M−1n VnM
−1
n .
Supondo que as condic¸o˜es que asseguram que uma lei dos grandes nu´meros
apropriada possa ser aplicada sejam satisfeitas, no´s temos um estimador consis-
tente de M−1n :
Mˆn = X
0X/n =
1
n
Pn
i=1 xix
0
i
P→Mn
Portanto, pela continuidade da matriz inversa³
Mˆn
´−1
= (X 0X/n)−1 =
µ
1
n
Pn
i=1 xix
0
i
¶−1
P→M−1n
A parte dif´ıcil e´ achar um estimador consistente de Vn = V
³
1√
n
Pn
i=1 xiεi
´
.
Vn = V
µ
1√
n
Pn
i=1 xiεi
¶
=
1
n
E
h
(
Pn
i=1 xiεi) (
Pn
i=1 xiεi)
0i
pois E (
Pn
i=1 xiεi) = 0 por (OLS2,l).
9
Portanto,
Vn =
1
n
E
£Pn
i=1 ε
2
ixix
0
i
¤
+
1
n
E
hPn
j 6=i εjεixjx
0
i
i
=
1
n
E
£Pn
i=1 ε
2
ixix
0
i
¤
+
Pn−1
l=1
1
n
Pn
i=l+1
£
E
¡
εiεi−lxix
0
i−l
¢
+E (εi−lεixi−lx
0
i)
¤
Heteroscedasticidade e auseˆncia de autocorrelac¸a˜o (White)
Nesse caso, o u´ltimo termo e´ zero. Portanto,
Vn =
1
n
E
£Pn
i=1 ε
2
ixix
0
i
¤
White sugere estimar esse termo por
Vˆn =
1
n
Pn
i=1 εˆ
2
ixix
0
i, εˆi =
³
yi − x0iβˆOLS
´
White mostrou que Vˆn
P→ Vn. Assumindo que as condic¸o˜es suficientes para
que se aplique uma lei dos grandes nu´meros sejam satisfeitas, a ide´ia da prova
e´ a seguinte (para o caso em que haja apenas um regressor):
Vˆn =
1
n
Pn
i=1 εˆ
2
ixix
0
i =
1
n
Pn
i=1
h
yi − x0iβ − x0i
³
βˆ − β
´i2
xix
0
i
=
1
n
Pn
i=1 ε
2
ix
2
i +
³
βˆ − β
´2 1
n
Pn
i=1 x
4
i − 2
³
βˆ − β
´ 1
n
Pn
i=1 εix
3
i
Enta˜o, e´ preciso mostrar que
1
n
Pn
i=1 ε
2
ix
2
i
P→ 1
n
Pn
i=1E
¡
ε2ix
2
i
¢
= Vn
Se as observac¸o˜es sa˜o independentes, isso segue-se de uma lei dos grandes
nu´meros para observac¸o˜es independentes mas na˜o identicamente distribu´ıdas.
1
n
Pn
i=1 x
4
i
P→ 1
n
Pn
i=1E
¡
x4i
¢
, finita
1
n
Pn
i=1 εix
3
i
P→ 0
Enta˜o, como βˆ
P→ β, Vˆn
P→ Vn.
Resultado
O estimador de White da matriz de covariaˆncia robusto a` heteroscedastici-
dade para MQO e´
AdV ar ³βˆOLS´ = Mˆ−1n Vˆ −1n Mˆ−1n
=
µ
1
n
Pn
i=1 xix
0
i
¶−1
1
n
Pn
i=1 εˆ
2
ixix
0
i
µ
1
n
Pn
i=1 xix
0
i
¶−1
10
Heteroscedasticidade e autocorrelac¸a˜o (Newey-West)
Nesse caso, no´s precisamos utilizar a fo´rmula geral
Vn =
1
n
E
£Pn
i=1 ε
2
ixix
0
i
¤
+
Pn−1
l=1
1
n
Pn
i=l+1
£
E
¡
εiεi−lxix
0
i−l
¢
+E (εi−lεixi−lx
0
i)
¤
Newey-West sugerem estimar esse termo por
Vn =
1
n
E
£Pn
i=1 ε
2
ixix
0
i
¤
+
Pm(n)
l=1 ' (l,m (n))
1
n
Pn
i=l+1
£
E
¡
εiεi−lxix
0
i−l
¢
+E (εi−lεixi−lx
0
i)
¤
onde ' (l,m (n)) = 1− l
m(n)+1 e m satisfaz limn→∞
m(n)
n1/4
= 0.
Eles provaram que Vˆn
P→ Vn e que Vˆn e´ positiva semi-definida.
Comenta´rios
1. m (n)
e´ a mais alta ordem de autocorrelac¸a˜o que no´s permitimos. Em
outras palavras, no´s assumimos que somente a diagonal e as m super e sub
diagonais de Ω sa˜o positivas. m (n) pode crescer com n, mas a uma taxa mais
devagar do que n1/4.
2. Os pesos sa˜o chamados de pesos de Bartlett. Eles da˜o menos peso a`
medida que a distaˆncia entre os erros aumenta. Mas qual a raza˜o de utilizar
uma ponderac¸a˜o e esses pesos em particular? Porque no´s queremos que Vˆn seja
positiva semi-definida, ale´m de consistente. Caso contra´rio, a variaˆncia estimada
do estimador de MQO de βˆ pode ser negativa! A escolha dos pesos assegura
que isso na˜o ocorra.
Resultado
O estimador de Newey-West da matriz de covariaˆncia robusto a` heteroscedas-
ticidade e autocorrelac¸a˜o para MQO e´
AdV ar ³βˆOLS´ = Mˆ−1n Vˆ −1n Mˆ−1n
para Mˆ−1n =
¡
1
n
Pn
i=1 xix
0
i
¢−1
e
Vˆn =
1
n
Pn
i=1 εˆ
2
ixix
0
i+
Pm(n)
l=1 ' (l,m (n))
1
n
Pn
i=l+1
£
εˆiεˆi−lxix
0
i−l + εˆi−lεˆixi−lx
0
i
¤
Note que os estimadores acima sa˜o para Vn e na˜o para Ω = E [εε0|X] . A
vantagem e´ que Vˆn e´ kxk e na˜o nxn.
11
Econometria/gls2.pdf
Universidade de Sa˜o Paulo - Departamento de Economia
EAE 5811 - Econometria I
Prof. Dr. Ricardo Avelino
1o Semestre de 2007
Erros Na˜o Esfe´ricos no Modelo de Regressa˜o
Linear, Casos Especiais
Caso 1: Heteroscedasticidade
Comum em regresso˜es cross-section. Implica que a variaˆncia do erro, condi-
cional nos regressores, difere entre as observac¸o˜es.
Ω = E [εε0|X] =


V (ε1|X) cov (ε1, ε2|X) · · · cov (ε1, εn|X)
cov (ε1, ε2|X) V (ε2|X) · · · cov (ε2, εn|X)
...
...
...
cov (ε1, εn|X) cov (ε2, εn|X) · · · V (εn|X)


=


σ21 0 · · · 0
0 σ22 · · · 0
...
...
...
0 0 · · · σ2n


Para ser mais preciso, dever´ıamos nos referir a ela como heteroscedasticidade
condicional.
Exemplo 1: Uma regressa˜o cross-section de consumo das famı´lias em renda
familiar, ci = α + βyi + εi. Famı´lias com uma renda e consumo mais altos
provavelmente teˆm uma variaˆncia maior do erro. Assumindo a mesma variaˆncia
para todas as famı´lias implica que, na me´dia, o erro quadra´tico me´dio teria que
ter a mesma magnitude para algue´m com yi = $1.000.000 ou para algue´m com
yi = $100.
Exemplo 2: Dados agrupados. Suponha que tenhamos dados agrupados para
um dado nu´mero de famı´lias dentro de cada um dos estados brasileiros e que o
modelo verdadeiro seja
yij = x0ijβ + εij
onde i indexa os estados e j as famı´lias. Todos os ε0ijs na˜o sa˜o correlacionados
e teˆm variaˆnca condicional σ2. Suponha que decidamos agrupar os dados por
estado e rodar a seguinte regressa˜o
yi = x0iβ + εi
onde yi = 1nj
Pnj
j=1 yij , xi =
1
nj
Pnj
j=1 xij , εi =
1
nj
Pnj
j=1 εij e nj e´ o nu´mero de
observac¸o˜es do estado j.
1
εi sera´ heterosceda´stico se o nu´mero de famı´lias diferir por estado:
V (εi) = V
µ
1
nj
Pnj
j=1 εij
¶
=
1
nj
σ2
Portanto, agrupar os dados induz heteroscedasticidade.
Estimac¸a˜o eficiente
Quando Ω e´ conhecido
Me´todo 1: Mı´nimos quadrados generalizados
O estimador
Ω−1 =


1
σ21
0 · · · 0
0 1σ22
· · · 0
...
...
...
0 0 · · · 1σ2n


⇒ P =


1√
σ21
0 · · · 0
0 1√
σ22
· · · 0
...
...
...
0 0 · · ·
q
1
σ2n


Pre´ multiplique o modelo de regressa˜o linear por P :
Py = PXβ + Pε ou y∗ = X∗β + ε∗
onde
y∗ =


y1
σ1y2
σ2
...
yn
σn


n×1
, X∗ =


x11
σ1
x12
σ1
. . . x1Kσ1
x21
σ2
x22
σ2
. . . x2Kσ2
...
...
...
xn1
σn
xn2
σn
. . . xnKσn


n×K
, ε∗ =


ε1
σ1
ε2
σ2
...
εn
σn


n×1
Portanto, GLS corresponde a uma regressa˜o de mı´nimos quadrados ordina´rios
de y∗i = yi/σi em x
∗
i = xi/σi. Essa regressa˜o e´ a forma mais simples de mı´nimos
quadrados ponderados. Note como essa transformac¸a˜o torna os erros ε∗ ho-
mosceda´sticos.
O estimador de mı´nimos quadrados generalizados nesse caso e´ dado por
βˆGLS = (X
∗0X∗)−1X∗0y∗ =
¡
X 0Ω−1X
¢−1
X 0Ω−1y
=
µ
nP
i=1
1
σ2i
xix0i
¶−1µ nP
i=1
1
σ2i
xiyi
¶
A variaˆncia de βˆGLS e´
V
³
βˆGLS
´
= (X∗0X∗)−1 =
¡
X 0Ω−1X
¢−1
=
µ
nP
i=1
1
σ2i
xix
0
i
¶−1
2
que, por sua vez, e´ menor que
V
³
βˆOLS
´
= (X 0X)−1X 0ΩX (X 0X)−1
=
µ
nP
i=1
xix
0
i
¶−1µ nP
i=1
σ2ixix
0
i
¶µ
nP
i=1
xix
0
i
¶−1
como sabemos.
Intuic¸a˜o
Por que a ponderac¸a˜o produz um estimador mais eficiente? Voceˆ tem n
observac¸o˜es de x e y, relacionadas por yi = x0iβ + εi. Voceˆ deseja inferir β.
O erro adiciona perturbac¸a˜o adicional a` relac¸a˜o, tornando o seu trabalho mais
dif´ıcil. Que observac¸o˜es de xi e yi conteˆm mais informac¸o˜es sobre β? Aquelas
para as quais as equac¸o˜es contenham menor perturbac¸a˜o, isto e´, aquelas para as
quais a variaˆncia do erro seja menor. Dando um peso maior a essas observac¸o˜es,
voceˆ obte´m um estimador mais preciso (com menor variaˆncia).
Exemplo
Suponha que as diferenc¸as em σ2i entre as observac¸a˜o na˜o tendem a ser
correlacionadas com as diferenc¸as em xi. Enta˜o e´ aproximadamente verdade
para n grande que
V
³
βˆGLS
´
=
µ
nP
i=1
1
σ2i
xix0i
¶−1
'
µµ
1
n
nP
i=1
1
σ2i
¶µ
nP
i=1
xix0i
¶¶−1
=
µ
nP
i=1
xix
0
i
¶−1µ
1
n
nP
i=1
1
σ2i
¶−1
V
³
βˆOLS
´
=
µ
nP
i=1
xix
0
i
¶−1µ nP
i=1
σ2ixix
0
i
¶µ
nP
i=1
xix
0
i
¶−1
'
µ
nP
i=1
xix
0
i
¶−1µ
1
n
nP
i=1
σ2i
¶µ
nP
i=1
xix
0
i
¶µ
nP
i=1
xix
0
i
¶−1
=
µ
nP
i=1
xix0i
¶−1µ
1
n
nP
i=1
σ2i
¶
Portanto,
V
³
βˆOLS
´
V
³
βˆGLS
´ =
µ
1
n
nP
i=1
σ2i
¶
µ
1
n
nP
i=1
1
σ2i
¶−1 = µ 1n nPi=1σ2i
¶µ
1
n
nP
i=1
1
σ2i
¶
≥ 1
3
pois, pela desigualdade de Jensen, E
h
1
σ2i
i
≥ 1
E[σ2i ]
⇔ E
£
σ2i
¤
E
h
1
σ2i
i
≥ 1.
Note como MQO se torna progressivamente mais ineficiente a` medida que σ2i
difere mais entre as observac¸o˜es. Assumindo uma dada distribuic¸a˜o para σ2i na
populac¸a˜o, e´ poss´ıvel calcular exatamente a eficieˆncia relativa de mı´nimos quadra-
dos generalizados com relac¸a˜o a mı´nimos quadrados ordina´rios.
A matriz de variaˆncia de MQO calculada incorretamente e´ maior
ou menor do que a matriz correta?
Quando as diferenc¸as em σi entre as observac¸o˜es na˜o tendem a ser rela-
cionadas com as diferenc¸as em xi, ela na˜o e´ sistematicamente menor ou maior.
Mas se as diferenc¸as em σi entre as observac¸o˜es estiverem relacionadas com as
diferenc¸as em xi, sera´ importante calcularmos os desvios-padro˜es corretos dados
pela fo´rmula de White.
Me´todo 2: Ma´xima verossimilhanc¸a. Mesmo que mı´nimos quadrados gener-
alizados
Quando Ω e´ desconhecido
Me´todo 1: Mı´nimos quadrados generalizados fact´ıveis (FGLS)
Como discutido anteriormente, no´s precisamos impor alguma estrutura em
Ω a fim de estima´-la consistentemente. Considere os seguintes exemplos de
mı´nimos quadrados generalizados fact´ıveis.
Exemplo:
Assuma que a heteroscedasticidade tenha a seguinte forma:
σ2i = E
£
ε2i |X
¤
= E
£
ε2i |xi
¤
=
α0+α1zi = z¯0iα, para z¯i =
·
1
zi
¸
, α =
·
α0
α1
¸
z e´ uma varia´vel aleato´ria que pode coincidir ou na˜o com um dos regressores.
Para implementar mı´nimos quadrados generalizados fact´ıveis, procedemos da
seguinte maneira:
1. Estime o modelo yi = x0iβ + εi usando MQO e compute os res´ıduos εˆi.
2. Use εˆ2i para obter estimativas consistentes de α0 e α1 (e, portanto, de
σ2i ) atrave´s de uma regressa˜o por MQO de εˆ
2
i em uma constante e zi. Enta˜o
calcule Ωˆ e o estimador de mı´nimos quadrados generalizados fact´ıveis βˆFGLS =³
X 0Ωˆ−1X
´−1
X 0Ωˆ−1y.
4
Como no´s sabemos que o segundo passo produz estimativas consistentes de
α0 e α1 e, portanto, de σ2i ?
αˆ =
³X
z¯iz¯0i
´−1 ³X
z¯0iεˆ
2
i
´
εˆi = yi − x0iβˆOLS = yi − x0iβ − x0i
³
βˆOLS − β
´
= εi − x0i
³
βˆOLS − β
´
Portanto,
εˆ2i = ε
2
i +
³
x0i
³
βˆOLS − β
´´2
− 2εix0i
³
βˆOLS − β
´
Como
ε2i = E
£
ε2i |xi
¤
+
¡
ε2i −E
£
ε2i |xi
¤¢
= α0 + α1zi + ui, ui = ε
2
i −E
£
ε2i |xi
¤
segue-se que
εˆ2i = α0+α1zi+ui+
³
x0i
³
βˆOLS − β
´´2
−2εix0i
³
βˆOLS − β
´
= z¯0iα+ui+v1i+v2i
Os dois u´ltimos termos na˜o importam para a distribuic¸a˜o assinto´tica de αˆ
pela consisteˆncia de mı´nimos quadrados ordina´rios no primeiro esta´gio. A dis-
tribuic¸a˜o assinto´tica de
√
n (αˆ− α) e´, portanto, igual a` distribuic¸a˜o assinto´tica
de
¡
1
n
P
z¯iz¯0i
¢−1 ³ 1√
n
P
z¯0iui
´
.
Assuma que µ
1
n
X
z¯iz¯0i
¶−1
=
µ
Z¯0Z¯
n
¶−1
p→ QZ¯0Z¯
por uma lei dos grandes nu´meros apropriada e que
1√
n
X
z¯0iui =
1√
n
Z¯0u d→ N (0, B) (e, portanto, Z¯
0u
n
p→ 0)
por um teorema central do limite apropriado.
As observac¸o˜es teˆm uma distribuic¸a˜o heterogeˆnea, pois ui e´ heterosceda´stico:
E (ui|xi) = 0
mas
V (ui|xi) = E
h¡
ε2i −E
£
ε2i |xi
¤¢2 |xii = E £ε4i |xi¤− ¡E £ε2i |X¤¢2
= E
£
ε4i |xi
¤
−
¡
σ2i
¢2
Enta˜o, αˆ e´ consistente e assintoticamente normal:
√
n (αˆ− α) d→ N
¡
0, QZ¯0Z¯BQ
0¯
Z0Z¯
¢
5
Importante
Embora mı´nimos quadrados generalizados fact´ıveis assintoticamente seja
mais eficiente do que mı´nimos quadrados ordina´rios, e´ poss´ıvel que a variaˆncia
do estimador de MQO seja menor do que a variaˆncia do estimador de FGLS em
amostras pequenas. Isso porque FGLS requer a estimac¸a˜o de mais paraˆmetros.
Suponha, por exemplo, que a variaˆncia dos primeiros n/2 termos de erro seja
σ2a e que a variaˆncia dos u´ltimos n/2 termos de erro seja σ
2
b . No´s sabemos duas
coisas:
1) Do teorema de Gauss-Markov, se σ2a = σ
2
b , MQO e´ eficiente. Portanto, se
σ2a = σ
2
b , FGLS, permitindo que σ
2
a 6= σ2b , e´ ineficiente.
2) Da eficieˆncia assinto´tica de FGLS, se σ2a 6= σ2b , para n suficientemente
grande, a variaˆncia do estimador de FGLS e´ menor do que a variaˆncia do esti-
mador de MQO.
Portanto, a questa˜o e´ qua˜o diferente σ2a e σ
2
b devem ser para que a variaˆncia
de FGLS seja menor do que a variaˆncia de MQO para uma dada amostra finita.
Isso dependera´ de como σ2i depende dos x
0s
Me´todo 2: Ma´xima verossimilhanc¸a.
A func¸a˜o de log-verossimilhanc¸a, assumindo normalidade dos erros com Ω =
Ω (θ), era dada por
lnL (y, β, θ) = −n
2
ln (2π)− 1
2
ln |Ω (θ)|− 1
2
(y −Xβ)0 (Ω (θ))−1 (y −Xβ)
e, no caso de heteroscedasticidade, mas auseˆncia de autocorrelac¸a˜o, podia ser
simplificada para
lnL (y, β, θ) = −n
2
ln (2π)− 1
2
nP
i=1
µ
lnσ2i (θ) +
1
σ2i (θ)
(yi − x0iβ) (yi − x0iβ)
¶
No exemplo anterior, σ2i = E
£
ε2i |X
¤
= E
£
ε2i |xi
¤
= α0 + α1zi. Portanto,
lnL (y, β, θ) = −n
2
ln (2π)− 1
2
nP
i=1
(ln (α0 + α1zi)
+
1
α0 + α1zi
(yi − x0iβ) (yi − x0iβ)
¶
que e´ enta˜o maximizada a fim de obter βˆMLE , αˆ0MLE e αˆ1MLE .
No presente caso, ε2i = E
£
ε2i |X
¤
= E
£
ε2i |xi
¤
= α0 + α1zi na˜o depende
de β. Portanto, mı´nimos quadrados generalizados e mı´nimos quadrados gener-
alizados fact´ıveis sa˜o assintoticamente equivalentes a` ma´xima verossimilhanc¸a
e, consequ¨entemente, assintoticamente eficientes. Isso pode ser comprovado
6
calculando-se a matriz de informac¸a˜o I = −E
h
∂2 lnL(y,β,α0,α1)
∂ϕ∂ϕ0
i
(ϕ0 = β, α0, α1)
e invertendo-a. O elemento no canto superior esquerdo de I−1 e´ precisamente
a variaˆncia de mı´nimos quadrados generalizados e de mı´nimos quadrados gen-
eralizados fact´ıveis para esse exemplo.
Testes de Heteroscedasticidade
Teste de White
H0 : σ2i = σ
2, ∀i
H1 : H0 e´ falso
a) Estime o modelo yi = x0iβ + εi por OLS e compute os res´ıduos εˆ
2
i
b) Regresse εˆ2i em uma constante e em todas as combinac¸o˜es de xi ⊗ xi,
excluindo-se a constante. Denote o nu´mero de regressores, excluindo-se a con-
stante, por P e compute o R2. Sob H0,
nR2
d→ χ2P
Rejeite H0 se o valor observado de nR2 e´ maior do que o valor cr´ıtico.
Teste de Goldfeld-Quandt
Assume normalidade dos erros e divide os dados em dois grupos, com n1 e
n2 observac¸o˜es.
H0 : σ21 = σ
2
2
H1 : σ21 > σ
2
2 (inverta os subscritos se suspeita-se que a variaˆncia do grupo
2 seja maior).
a) Estime o modelo yi = x0iβ + εi por OLS separadamente para cada grupo
e compute os res´ıduos εˆ21 e εˆ
2
2.
b) Sob H0,
F =
εˆ01εˆ1/ (n1 − k)
εˆ02εˆ2/ (n2 − k)
∼ Fn1−k,n2−k
Rejeite H0 se o valor observado de F e´ maior do que o valor cr´ıtico.
Teste de Breusch-Pagan
H1 : σ2i = σ
2f (α0 + z0iα1) (heteroscedasticidade), com p varia´veis em zi.
H0 : α1 = 0 (homoscedasticidade)
a) Estime o modelo yi = x0iβ + εi por OLS e compute os res´ıduos εˆ
2
i .
7
b) Regresse
εˆ2i
εˆ0εˆ
n
em uma constante e zi e compute a soma dos quadrados
explicados. Sob H0,
LM =
1
2
(soma dos quadrados explicados)
d→ χ2P
Rejeite H0 se o valor observado da estat´ıstica e´ maior do que o valor cr´ıtico.
Teste LR para heteroscedasticidade entre grupos
Assume normalidade dos erros e divide os dados em G grupos, com n1, ..., nG
observac¸o˜es.
Assume normalidade dos erros e divide os dados em dois gupos, com n1 e
n2 observac¸o˜es.
H0 : σ21 = ... = σ
2
G
H1 : H0 e´ falso
Sob H0 : lnL0 = −n2 ln (2π)−
n
2 ln
¡
σ2
¢
− 12σ2
Pn
i=1 ε
2
i (modelo restrito)
Sob H1 : lnL1 = −n2 ln (2π) −
1
2
PG
g=1 ng ln
¡
σ2g
¢
− 12
PG
g=1
³
1
σ2g
Png
i=1 ε
2
ig
´
(modelo irrestrito)
Portanto, sob H0,
LR = −2 (lnL0 − lnL1) = n ln σˆ2 −
PG
g=1 ng ln σˆ
2
g
d→ χ2G−1
onde σˆ2 = εˆ
0εˆ
n (σˆ
2
MLE do modelo restrito) e σˆ
2
g =
εˆ0g εˆg
ng
(σˆ2g,MLE do modelo
irrestrito)
RejeiteH0 se o valor observado de LR e´ maior do que o valor cr´ıtico da χ2G−1.
Podemos utilizar βˆ da regressa˜o utilizando todas as observac¸o˜es para calcular
tanto εˆ quanto εˆg, ∀g, a fim de aumentar o poder do teste.
Caso 2: Correlac¸a˜o serial
Ω = E [εε0|X] =


V (ε1|X) cov (ε1, ε2|X) · · · cov (ε1, εn|X)
cov (ε1, ε2|X) V (ε2|X) · · · cov (ε2, εn|X)
...
...
...
cov (ε1, εn|X) cov (ε2, εn|X) · · · V (εn|X)


=


σ21 σ12 · · · σ1n
σ21 σ22 · · · σ2n
...
...
...
σn1 σn2 · · · σ2n


8
Para o modelo AR(1), no´s temos
yt = x0tβ + εt, εt = ρεt−1 + ut, ut ∼ N
¡
0, σ2u
¢
, |ρ| < 1, t = 1, ..., T
Nesse caso, σ2ε = γ0 =
σ2u
1−ρ2 , γj = E [εtεt−j ] = ρ
j σ
2
u
1−ρ2 , j > 1. Portanto,
Ω = E [εε0|X] =


σ21 σ12 · · · σ1n
σ21 σ22 · · · σ2n
...
...
...
σn1 σn2 · · · σ2n


=
σ2u
1− ρ2


1 ρ · · · ρT−1
ρ 1 · · · ρT−2
...
...
...
ρT−1 ρT−2 · · · 1


Derivac¸a˜o de σ2ε e γj para um processo AR(1).
Xt = c+ ρXt−1 + εt
onde εt e´ um ru´ıdo branco. Por substituic¸a˜o,
Xt = c+ ρ (c+ ρXt−2 + εt−1) + εt = c+ ρc+ ρ
2Xt−2 + εt + ρεt−1
= c+ ρc+ ρ2 (c+ ρXt−3 + εt−2) + εt + ρεt−1
= c+ ρc+ ρ2c+ ρ3Xt−3 + εt + ρεt−1 + ρ
2εt−2
= c+ ρc+ ρ2c+ ...+ εt + ρεt−1 + ρ
2εt−2 + ...
O termo do lado direito envolvendo X converge para 0 a` medida que con-
tinuamos substituindo se |ρ| < 1. Portanto,
E [Xt] =
c
1− ρ
γ0 = V [Xt] =
σ2
1− ρ2
γj = cov (Xt,Xt−j) = E [(Xt − µ) (Xt−j − µ)]
= E
£¡
εt + ρεt−1 + ρ
2εt−2 + ...
¢ ¡
εt−j + ρεt−j−1 + ρ
2εt−j−2 + ...
¢¤
= ρjσ2 + ρj+2σ2 + ρj+4σ2 + ... =
ρjσ2
1− ρ2
9
Estimac¸a˜o eficiente
Quando Ω e´ conhecido
Me´todo 1: Mı´nimos quadrados generalizados
O estimador
Ω−1 =
1
σ2u


1 −ρ 0 · · · 0
−ρ 1 + ρ2 −ρ
...
0 −ρ . . . 0
... 1 + ρ2 −ρ
0 · · · 0 −ρ 1 + ρ2


⇒ P = Ω−1/2 = 1
σu


p
1− ρ2 0 0 · · · 0
−ρ 1 0
...
0 −ρ 0
... 1 0
0 · · · 0 −ρ 1


Pre´ multiplique o modelo de regressa˜o linear por P :
Py = PXβ + Pε ou y∗ = X∗β + ε∗
onde
y∗ =


p
1− ρ2y1
y2 − ρy1
...
yT − ρyT−1


n×1
, X∗ =


p
1− ρ2x01
x02 − ρx01
...
x0T − ρx0T−1


n×K
,
ε∗ =


p
1− ρ2ε1
ε2 − ρε1
...
εT − ρεT−1


n×1
Note como essa transformac¸a˜o torna os erros ε∗ na˜o auto correlacionados.
O estimador de mı´nimos quadrados generalizados e´ calculado da maneira usual
por
βˆGLS = (X
∗0X∗)−1X∗0y∗ = (X 0P 0PX)−1X 0P 0Py =
¡
X 0Ω−1X
¢−1
X 0Ω−1y
10
Intuic¸a˜o
Por que esse procedimento produz um estimador mais eficiente que MQO?
βˆOLS = argmin
β
ε0ε = argmin
β
¡
ε21 + ...+ ε
2
T
¢
βˆGLS = argmin
β
(y∗ −X∗β)0 (y∗ −X∗β) = argmin
β
(y −Xβ)0Ω−1 (y −Xβ)
= argmin
β
ε0Ω−1ε
= argmin
β
³¡
1− ρ2
¢
ε21 + (ε2 − ρε1)
2
+ ...+ (εT − ρεT−1)2
´
Portanto, MQO tenta escolher β de modo que cada um dos ε0ts seja zero. Se
yt e xt, para uma observac¸a˜o particular, sa˜o tais que εt seria grande, a menos que
β estivesse pro´ximo de um determinado valor, isso fara´ com que MQO escolha
como estimativa de β um valor βˆ pro´ximo dessa observac¸a˜o particular.
Esse e´, no entanto, um uso sub o´timo da informac¸a˜o dispon´ıvel. Suponha que
ρ seja positivo e que εt−1 tambe´m seja positivo. Enta˜o E [εt|εt−1] = ρεt−1 >
0 e o valor verdadeiro de β satisfaz E [yt − x0tβ|εt−1] = ρεt−1. Portanto, no´s
devemos tentar escolher βˆ de modo que εt = yt−x0tβ seja pro´ximo de ρεt−1, na˜o
de zero. Isso e´ precisamente o que GLS faz, exceto para a primeira observac¸a˜o.
Me´todo 2: Ma´xima verossimilhanc¸a. Mesmo que mı´nimos quadrados gener-
alizados
Quando Ω e´ desconhecido
Me´todo 1: Mı´nimos quadrados generalizados fact´ıveis (FGLS)
Na pra´tica, ρ e´ desconhecido. O seguinte procedimento de mı´nimos quadra-
dos generalizados fact´ıveis e´ denominado Prais-Winsten (Cochrane-Orcutt se
excluirmos a primeira observac¸a˜o).
1. Estime o modelo yt = x0tβ + εt usando MQO e compute os res´ıduos εˆt.
2. Estime o modelo εˆt = ρεˆt−1+vt usando MQO e compute ρˆ =
PT
t=2 εˆtεˆt−1PT
t=2 εˆ
2
t−1
3. Transforme os dados da seguinte forma:
y∗1 =
q
1− ρˆ2y1, x∗1 =
q
1− ρˆ2x1
y∗t = yt − ρˆyt−1, x∗t = xt − ρˆxt−1, t = 2, ..., T
11
4. Regresse y∗ em X∗ e obtenha βˆFGLS
Se os erros forem AR(1), o primeiro passo e´ justificado pelo fato de que
MQO e´ ainda consistente. Isso implica que ρ no segundo passo tambe´m e´ con-
sistente e isso e´ tudo que e´ necessa´rio para implementar mı´nimos quadrados
generalizados fact´ıveis. A exclusa˜o da primeira observac¸a˜o na˜o afeta as pro-
priedades assinto´ticas do estimador, mas as propriedades em amostras finitas
podem ser afetadas severamente se os regressores apresentarem uma tendeˆncia.
Me´todo 2: Ma´xima verossimilhanc¸a.
Se ε ∼ N (0,Ω (ρ)) (condicional em X), no´s podemos estimar β, ρ e σ2u por
ma´xima verossimilhanc¸a. A func¸a˜o de log-verossimilhanc¸a e´ dada por
lnL (y, β, ρ) = −T
2
ln (2π)− 1
2
ln |Ω (ρ)|− 1
2
ε0 (Ω (ρ))−1 ε
= −T
2
ln (2π)− 1
2
ln |Ω (ρ)|− 1
2
(y −Xβ)0 (Ω (ρ))−1 (y −Xβ)
Na˜o e´ conveniente maximizar a func¸a˜o de log-verossimilhanc¸a nessa forma.
Reescreva-a como
f (yt, ..., y1) = f (yt|yt−1, ..., y1) f (yt−1, ..., y1)
= f (yt|yt−1, ..., y1) f (yt−1|yt−2..., y1) f (yt−2, ..., y1)
=
Qt
s=2 f (ys|ys−1..., y1) f (y1)
Como a distribuic¸a˜o conjunta de (y1, ..., yT ) , condicional em X, e´ normal,
as distribuic¸o˜es condicionais na fo´rmula acima tambe´m sa˜o normais.
Se |ρ| < 1 no modelo AR(1) , a distribuic¸a˜o de εt e´ independente de t e dada
por εt ∼ N
³
0, σ
2
u
1−ρ2
´
, t=1,...,T
Portanto, para t = 1
y1 = x
0
1β + ε1, ε1 ∼ N
µ
0,
σ2u
1− ρ2
¶
⇒ y1 = x01β + ε1 ∼ N
µ
x01β,
σ2u
1− ρ2
¶
Para t ≥ 2
yt − ρyt−1 = x0tβ − ρx0t−1β + εt − ρεt−1, εt − ρεt−1 ∼ N
¡
0, σ2u
¢
⇒ yt|yt−1, ..., y1 = yt|yt−1 = ρyt−1 + x0tβ − ρx0t−1β + εt − ρεt−1
∼ N
¡
ρyt−1 + x0tβ − ρx0t−1β, σ2u
¢
Portanto,
f (y1) =
1p
2πσ2u/ (1− ρ)
exp
Ã
−1
2
(y1 − x01β)
2
σ2u/ (1− ρ)
!
12
f (yt|yt−1, ..., y1) = 1p
2πσ2u
exp
Ã
−1
2
¡
yt − ρyt−1 + x0tβ − ρx0t−1β
¢2
σ2u
!
e, consequ¨entemente, a func¸a˜o de log-verossimilhanc¸a pode ser escrita como
lnL (y, β, ρ) =
Ã
−1
2
ln (2π)− 1
2
lnσ2u +
1
2
¡
1− ρ2
¢
− 1
2
(y1 − x01β)
2
σ2u/ (1− ρ)
!
−T − 1
2
ln (2π)− T − 1
2
lnσ2u
− 1
2σ2u
PT
t=2
¡
y1 − ρyt−1 + x0tβ − ρx0t−1β
¢2
Assintoticamente, na˜o importa se no´s ignorarmos o primeiro termo.
Se no´s simplesmente rodarmos MQO no modelo transformado, obteremos
estimadores consistentes de ρ, β e ρβ, mas no´s temos uma restric¸a˜o entre os
coeficientes (pois ρ vezes β e´ igual a ρβ). Para impor essa restric¸a˜o, no´s devemos
estimar atrave´s de mı´nimos quadrados na˜o lineares.
Testes de Autocorrelac¸a˜o
Teste de Durbin-Watson
Assume normalidade dos erros. Na˜o e´ va´lido se a regressa˜o incluir varia´veis
dependentes defasadas entre os regressores. Va´lido para testar autocorrelac¸a˜o
de primeira ordem mesmo se correlac¸o˜es de ordem superior estiverem presentes.
H0 : Auseˆncia de autocorrelac¸a˜o
H1 : Autocorrelac¸a˜o positiva de primeira ordem (e´ poss´ıvel testar autocor-
relac¸a˜o de primeira ordem negativa utilizando 4−DW )
a) Estime o modelo yt = x0tβ + εt por OLS e compute os res´ıduos εˆt
b) Estat´ıstica do teste:
DW =
PT
t=2 (εˆt − εˆt−1)
2PT
t=1 εˆ
2
t
(≈ 2(1− r), 0 ≤ DW ≤ 4)
onde r e´ a autocorrelac¸a˜o amostral de primeira ordem.
Rejeite H0 se DW < dL,T,k,α.
Na˜o rejeite H0 se DW > dU,T,k,α.
O teste e´ inconclusivo se dL,T,k,α ≤ DW ≤ dU,T,k,α.
α e´ o n´ıvel de significaˆncia e dL,T,k,α e dU,T,k,α sa˜o tabulados.
13
Teste de Breusch-Godfrey
H0 : Auseˆncia de autocorrelac¸a˜o
H1 : εt e´ AR(p) ou MA(p)
a) Estime o modelo yt = x0tβ + εt por OLS e compute os res´ıduos εˆt
b) Regresse εˆt em xt e εˆt−1, ..., εˆt−p e compute o R2.
A estat´ıstica do teste e´ dada por
nR2
d→ χ2p
sob H0. Note a similaridade com o teste de White para heteroscedasticidade.
14
Econometria/gmm.pdf
Universidade de Sa˜o Paulo - Departamento de Economia
EAE 5811 - Econometria I
Prof. Dr. Ricardo Avelino
1o Semestre de 2007
Me´todo Generalizado dos Momentos
Suponha que o modelo econome´rico postule um conjunto deM condic¸o˜es de
ortogonalidade:
E [f (xt, β0)] = 0
β0 : vetor de paraˆmetros K × 1 (K ≤M)
O estimator do me´todo generalizado dos momentos βT do paraˆmetro β0 e´
dado por:
βT = argmin
β
TgT (β)
0WgT (β)
onde
gT (β) =
1
T
TX
t=1
f (xt, β)
e W e´ uma matriz sime´trica positiva definida de dimensa˜o M ×M.
As condic¸o˜es de momento utilizadas na estimac¸a˜o sa˜o determinadas por
aT gT (βT ) = 0
onde a0 e´ uma matriz de selec¸a˜o de dimensa˜o K por M . A matriz de selec¸a˜o
isola as condic¸o˜es de momento que sera˜o utilizadas na estimac¸a˜o e indexa esti-
madores alternativos do me´todo generalizado dos momentos. Estimadores com
a mesma matriz de selec¸a˜o tem a mesma eficieˆncia assinto´tica. E´ importante
ressaltar que a pre´-multiplicac¸a˜o da matriz de selec¸a˜o por uma matriz na˜o sin-
gular resulta no mesmo sistema na˜o linear de equac¸o˜es. Os estimadores do
me´todo generalizado dos momentos sa˜o assintoticamente equivalentes a esti-
madores (possivelmente na˜o fact´ıveis) em que a matriz de selec¸a˜o e´ substitu´ıda
por seu limite em probabilidade.
A relac¸a˜o entre a matriz de ponderac¸a˜o W e a matriz de selec¸a˜o e´ vista a
partir das condic¸o˜es de primeira ordem:
aT =
1
T
TX
t=1
∂f (xt, βT )
∂β
0
W
ou da contrapartida populacional
a0 = d00W, d0 = E
·
∂f (xt, β0)
∂β
¸
= 0
Exemplo 1: Mı´nimos Quadrados Ordina´rios
y = Xβ + ε, E [ε|X] = 0
1
E [ε|X] = 0 =⇒ E [εX] = 0
E [xt (yt − x0tβ0)] = 0
βGMMT soluciona
1
T
TX
t=1
xt
³
yt − x0tβGMMT
´
= 0 =⇒ βGMMT =
Ã
1
T
TX
t=1
xtx0t
!−1Ã
1
T
TX
t=1
xtyt
!
Exemplo 2: Estimador de Varia´veis Instrumentais
y = Xβ + ε, E [X 0ε] 6= 0, E [Z0ε] = 0, E [Z 0X] 6= 0
βGMMT soluciona
1
T
TX
t=1
zt
³
yt − x0tβGMMT
´
= 0 =⇒ βGMMT =
Ã
1
T
TX
t=1
ztx0t
!−1Ã
1
T
TX
t=1
ztyt
!
Exemplo 3: Ma´xima Verossimilhanc¸aZ
f (xt, β0) dxt = 1
Diferenciando com relac¸a˜o a β0 :Z
∂f (xt, β0)
∂β0
dxt = 0 =⇒
Z
∂f (xt, β0)
∂β0
1
f (xt, β0)
f (xt, β0) dxt = 0
=⇒
Z
∂ ln f (xt, β0)
∂β0
f (xt, β0) dxt = 0
=⇒ E
·
∂ ln f (xt, β0)
∂β0
¸
= 0
βGMMT soluciona
1
T
TX
t=1
∂ ln f
³
xt, β
GMM
T
´
∂β
= 0
Distribuic¸a˜o Assinto´tica
1√
T
TX
t=1
f (xt, β0)
d→ N (0, V0)
√
T (βT − β0) ≈ − (a0d0)
−1 a0
1√
T
TX
t=1
f (xt, β0)
1√
T
TX
t=1
f (xt, βT ) ≈
³
I − d0 (a0d0)−1 a0
´ 1√
T
TX
t=1
f (xt, β0)
2
Prova
Expandindo 1T
TX
t=1
f (xt, βT ) numa se´rie de Taylor de primeira ordem, obte´m-
se
1
T
TX
t=1
f (xt, βT ) =
1
T
TX
t=1
f (xt, β0) +
1
T
TX
t=1
∂f (xt, βT )
∂β
¯¯¯¯
¯
βT=β0
(βT − β0)
Pre´-multiplicando por aT resulta em
0 = aT gT (βT ) ≈ aT gT (β0) + aT d0 (βT − β0)
=⇒
√
T (βT − β0) ≈ − (aTd0)
−1 aT
√
TgT (β0)
=⇒
√
T (βT − β0) ≈ − (a0d0)
−1 a0
1√
T
TX
t=1
f (xt, β0)
gT (βT ) ≈ gT (β0)+d0 (βT − β0) =⇒
√
TgT (βT ) ≈
√
TgT (β0)+d0
√
T (βT − β0)
=⇒
√
TgT (βT ) ≈
√
TgT (β0)− d0 (a0d0)
−1 a0
√
TgT (β0)
=⇒
√
TgT (βT ) ≈
³
I − d0 (a0d0)−1 a0
´ 1√
T
TX
t=1
f (xt, β0)
Prova da Matriz de Ponderac¸a˜o Eficiente
√
T (βT − β0)
d→ N
³
0, (a0d0)
−1 a0V0a
0
0 (d
0
0a
0
0)
−1
´
Defina Ω = (a0d0)
−1 a0V0a00 (d00a00)
−1 . Se V = V −10 ,
Ω =
¡
d00V
−1
0 d0
¢−1
d00V
−1
0 V0V
−1
0 d0
¡
d00V
−1
0 d0
¢−1
=
¡
d00V
−1
0 d0
¢−1
Caso contra´rio, se V =W,
Ω = (d00Wd0)
−1 d00WV0Wd0 (d
0
0Wd0)
−1
Basta mostrar que
£
Ω
¡
V −10
¢¤−1− [Ω (W )]−1 e´ positiva semi-definida. Como
V0 e´ sime´trica, tem M vetores caracter´ısticos distintos, que sa˜o ortogonais.
Reescrevendo V0 como V0 = CC0, no´s obtemos£
Ω
¡
V −10
¢¤−1 − [Ω (W )]−1
= d00C
−10
h
I − C0Wd0 [d00WV0Wd0]
−1 d00WC
i
C−1d0
3
Seja A = C 0Wd0 e M = I − A (A0A)−1A0. Como M e´ idempotente e
sime´trica, M 0M =M. Isso implica que M e´ positiva semi-definida.
Testando as Condic¸o˜es de Ortogonalidade
TgT (βT )
0 V −10 gT (βT )
d→ χ2M−K
Prova
√
TgT (βT ) ≈
³
I − d0 (a0d0)−1 a0
´√
TgT (β0)
⇒
√
TC−1gT (βT ) ≈
³
I − C−1d0 (a0d0)−1 d00C−10
´√
TC−1gT (β0)
⇒
√
TC−1gT (βT ) ≈
h
I −G (G0G)−1G0
i√
TC−1gT (β0)
para G = C−1d0.
Mas I −G (G0G)−1G0 e´ uma matriz idempotente com posto M −K e, pelo
teorema central do limite,
√
TC−1gT (β0)
d→ N (0, IM ) . Portanto, aplicando-se
o teorema de Fischer-Cochran, segue-se que
Tg0T (βT )V
−1
0 gT (βT ) = Tg
0
T (βT )C
−10C−1gT (βT )
=
√
Tg0T (β0)C
−10
d→N(0,IM )
h
I −G (G0G)−1G0
i
idempotente com posto M-K
√
TC−1gT (β0)
d→N(0,IM )
d→ χ2M−K
Estimador daMatriz de Variaˆncia-Covariaˆncia dos Paraˆmetros (Newey-West,
Econometrica (1987))
Vˆ0 = Γˆ0,T +
qX
v=1
{1− [v/ (q + 1)]}
³
Γˆv,T + Γˆ
0
v,T
´
para
Γˆv,T =
1
T
TX
t=v+1
f (xt, βT ) f (xt−v, βT )
Exemplo 4: Modelo de Expectativas Racionais Na˜o Linear (Hansen e Sin-
gleton, Econometrica (1982))
max
{Ct}
Et
" ∞X
s=t
δtU (Ct)
#
4
sujeito a
Ct +
NX
j=1
PjtQjt ≤
NX
j=1
RjtQjt−Mj +Wt
Ct : consumo no per´ıodo t
δ ∈ (0, 1) : fator de desconto
Qjt : quantidade do ativo j no final do per´ıodo t
Pjt : prec¸o do ativo j no per´ıodo t
Rjt : payoff de deter uma unidade de um ativo com maturac¸a˜oMj comprado
no instante t−Mj
Wt : renda real do trabalho no per´ıodo t
max
{Qjt}
Et
∞X
s=t
δtU


NX
j=1
RjtQjt−Mj +Wt −
NX
j=1
PjtQjt


As condic¸o˜es necessa´rias de primeira ordem para maximizac¸a˜o sa˜o dadas por
−δtU 0 (Ct)Pjt + δt+MjEt
£
U 0
¡
Ct+Mj
¢
Rjt+Mj
¤
= 0
=⇒ PjtU 0 (Ct) = δMjEt
£
Rjt+MjU
0 ¡Ct+Mj¢¤ = 0
Se tivermos acesso a ativos com maturac¸a˜o n1, ..., nm e definirmos o retorno
como Xjt+nj = Rnjt+nj/Pnjt,
Et
"
δnj
U 0
¡
Ct+nj
¢
U 0 (Ct)
Xjt+nj − 1
#
= 0
Qualquer vetor de varia´veis que estiver no conjunto de informac¸a˜o do agente
e for observado pelo econometrista pode ser utilizado como instrumento.
E [f (Xt+n, β0)⊗ zt] = 0
onde
f (Xt+n, β0) =


δn1
U 0(Ct+n1)
U 0(Ct) X1t+n1 − 1
...
δnm U
0(Ct+nm)
U 0(Ct) X1t+nm − 1


No caso particular da func¸a˜o poteˆncia, em que U (Ct) =
Cγt
γ , γ < 1, o vetor
de paraˆmetros e´ dado por β0 = (δ0, γ0)
0 .
Exemplo 5: Modelo de Selec¸a˜o (Heckman, Econometrica (1979))
O estimador do me´todo generalizado dos momentos e´ suficientemente geral
para incluir estimadores em dois esta´gios em que as condic¸o˜es de ortogonali-
dade do primeiro e do segundo esta´gios sa˜o agrupadas para formar um vetor de
condic¸o˜es de ortogonalidade.
5
Suponha que o mecanismo de selec¸a˜o seja determinado pela seguinte equac¸a˜o:
z∗i = x
0
iγ + ui
isto e´,
di = 1⇔ z∗i > 0
Adicionalmente, suponha que a equac¸a˜o de interesse seja expressa por
yi = w0iβ + εi
e que µ
ui
εi
¶
∼ N
µµ
0
0
¶
,
µ
1 σuε
σuε σ2ε
¶¶
A varia´vel aleato´ria yi sera´ observada apenas se z∗i
> 0. Mı´nimos quadrados
quadrados ordina´rios na amostra toda estima a me´dia de yi, condicional em wi
e di = 1 :
E [yi|wi, di = 1] = w0iβ +E [εi|wi, di = 1]
Se a me´dia de εi fosse independente de di, condicional em wi, ter´ıamos
E [εi|wi, di = 1] = 0 e, consequ¨entemente, E [yi|wi, di = 1] = w0iβ. Nesse caso,
mı´nimos quadrados ordina´rios na amostra toda produziria estimativas consis-
tentes de β. Mas como a me´dia de εi na˜o e´ independente de di, condicional em
wi, mı´nimos quadrados ordina´rios e´ inconsistente.
Definic¸a˜o: A densidadade conjunta de y e z truncada em z e´ dada por
f (y, z|z > a) = f (y, z)
Pr(z > a)
Teoema: Se y e z possuem uma distribuic¸a˜o normal bivariada com me´dias
µY e µZ , desvios-padro˜es σY e σZ e correlac¸a˜o ρ, enta˜o
E [y|z > a] = µY + ρσY λ (αz)
V [y|z > a] = σ2Y
£
1− ρ2δ (αz)
¤
para αz =
a−µZ
σZ , λ (αz) =
φ(αz)
1−Φ(αz) e δ (αz) = λ (αz) [λ (αz)− αz] . λ (αz) e´
denominada raza˜o de Mills invertida.
A varia´vel aleato´ria yi sera´ observada apenas se z∗i > 0. Como εi e ui teˆm
uma distribuic¸a˜o normal bivariada, podemos utilizar o teorema anterior para
derivar a distribuic¸a˜o das observac¸o˜es na amostra.
E [yi|yi e´ obsevado] = E [yi|z∗i > 0] = E [yi|ui > −x0iγ]
= w0iβ +E [εi|ui > −x0iγ] = w0iβ + ρσελi (x0iγ)
= w0iβ + αλi (x
0
iγ)
6
Portanto, λi (x0iγ) pode ser visto como um regressor adicional que corrige
para a endogeneidade da subamostra.
O modelo de selec¸a˜o pode ser estimado em dois esta´gios, a partir do pro-
cedimento proposto por Heckman (Econometrica, 1979). Num primeiro esta´gio,
estima-se por ma´xima verossimilhanc¸a os coeficientes da equac¸a˜o que determina
o mecanismo de selec¸a˜o. A partir das estimativas de γ, calculam-se para cada
observac¸a˜o na amostra selecionada os valores de λˆi = φ (x0iγ) /Φ (−x0iγ) . Num
segundo esta´gio, mediante mı´nimos quadrados, estimam-se β e α ≡ ρσε a partir
da regressa˜o de y contra x e λˆ.
10 Esta´gio: Modelo Probit:
z∗i = x
0
iγ + ui, ui ∼ N (0, 1)
No´s observamos di = 1 se e somente se z∗i > 0. Portanto,
P (di = 1) = P (z∗i > 0) = P (ui > −x0iγ) = P (ui < x0iγ) = Φ (x0iγ)
Similarmente,
P (di = 0) = P (z
∗
i ≤ 0) = P (ui ≤ −x0iγ) = Φ (−x0iγ) = 1− Φ (x0iγ)
Logo,
P (D1 = d1,D2 = d2, ...,Dn = dn|X, γ) =
Qn
i=1 [Φ (x
0
iγ)]
di [1− Φ (x0iγ)]
1−di
Enta˜o, a func¸a˜o de log verossimilhanc¸a e´ dada por
lnL =
Pn
i=1 di ln [Φ (x
0
iγ)] + (1− di) ln [1− Φ (x0iγ)]
Derivando com relac¸a˜o a` γ e igualando a zero, obtemos
∂ lnL
∂γ
= 0⇒
Pn
i=1 xi
·
diφ (x0iγ)
Φ (x0iγ)
− (1− di)φ (x
0
iγ)
1− Φ (x0iγ)
¸
= 0
⇒ 0 =
Pn
i=1 xi
·
diφ (x0iγ)− diφ (x0iγ)Φ (x0iγ)− φ (x0iγ)Φ (x0iγ)
Φ (x0iγ) (1− Φ (x0iγ))
+
diφ (x0iγ)Φ (x
0
iγ)
Φ (x0iγ) (1− Φ (x0iγ))
¸
⇒
Pn
i=1 xi
·
diφ (x0iγ)− φ (x0iγ)Φ (x0iγ)
Φ (x0iγ) (1− Φ (x0iγ))
¸
= 0
⇒
Pn
i=1 xi
φ (x0iγ)
1− Φ (x0iγ)
Φ−1 (x0iγ) [di − Φ (x0iγ)] = 0
⇒
Pn
i=1 xiλ (x
0
iγ)Φ
−1 (x0iγ) [di − Φ (x0iγ)] = 0
para
λ (x0iγ) =
φ (x0iγ)
1− Φ (x0iγ)
7
Portanto, temos as seguintes condic¸o˜es de ortogonalidade:
E0
·
gi (z, θ, γ)
mi (z, γ)
¸
= 0
para
gi (z, θ, γ) = di
·
wi
λ (x0iγ)
¸
[yi − w0iβ − αλ (x0iγ)] , θ =
¡
β0, α0
¢0
(1)
e
mi (z, γ) = λ (x0iγ)Φ
−1 (x0iγ)xi [di − Φ (x0iγ)] (2)
Enta˜o, a equac¸a˜o (1) torna-se a condic¸a˜o de primeira ordem para mı´nimos
quadrados na amostra selecionada e a equac¸a˜o (2) a condic¸a˜o de primeira ordem
para o modelo probit.
Defina
Gθ = E [∇θgi (z, θ0, γ0)] , Gγ = E [∇γgi (z, θ0, γ0)] , g (z) = gi (z, θ0, γ0)
M = E [∇γmi (z, γ0)] , ψ (z) = −M−1mi (z, γ0)
Se as equac¸o˜es (1) e (2) sa˜o satisfeitas com probabilidade aproximando-se de
1, θˆ
P→ θ e γˆ P→ γ0. Enta˜o θˆ e γˆ sa˜o assintoticamente normais e a distribuic¸a˜o
assinto´tica e´ dada por
√
n
µ
θˆ − θ
γˆ − γ
¶
d→ N
³
0, G˜−1V G˜−10
´
onde
G˜ = E
"
∂gi (z, θ, γ) /∂
¡
θ0, γ0
¢0
∂mi (z, γ) /∂
¡
θ0, γ0
¢0 # = · Gθ Gγ0 M
¸
e
V = E
·
gi (z, θ, γ) gi (z, θ, γ)
0 gi (z, θ, γ)mi (z, γ)
0
mi (z, γ) gi (z, θ, γ)
0 mi (z, γ)mi (z, γ)
0
¸
Portanto,
G˜−1 =
·
G−1θ −G
−1
θ GγM
−1
0 M−1
¸
Note que
∂gi (z, θ, γ)
∂θ
= di
·
−wiw0i −wiλ (x0iγ)
−λ (x0iγ)w0i −λ (x0iγ)λ (x0iγ)
¸
e
∂gi (z, θ, γ)
∂γ
= di
·
−αwiλv (x0iγ)x0i
−αλv (x0iγ)λ (x0iγ)x0i + λv (x0iγ) (yi − w0iβ − αλ (x0iγ))
¸
onde
λv (x0iγ) = λ (x
0
iγ) (λ (x
0
iγ)− x0iγ)
8
Portanto
Gθ = −E [diWiW 0i ] , Wi =
£
w0i λ (x
0
iγ)
¤0
e
Gγ = −αE
·
di
·
wi
λ (x0iγ)
¸
λv (x
0
iγ)x
0
i
¸
Ale´m disso,
E
£
mi (z, γ)mi (z, γ)
0¤
= E
£
λ (x0iγ)Φ
−1 (x0iγ)xi [di − Φ (x0iγ)] [di − Φ (x0iγ)]x0iΦ−1 (x0iγ)λ (x0iγ)
¤
= E
£
λ (x0iγ)Φ
−1 (x0iγ)xiE {[di − Φ (x0iγ)] [di − Φ (x0iγ)] |x}x0iΦ−1 (x0iγ)λ (x0iγ)
¤
= E
·
λ2 (x0iγ)
Φ2 (x0iγ)
xi [1− Φ (x0iγ)]
2 x0iΦ (x
0
iγ) +
λ2 (x0iγ)
Φ2 (x0iγ)
xiΦ (x
0
iγ)
2 x0i [1− Φ (x0iγ)]
¸
= E
··
φ2 (x0iγ)
Φ (x0iγ)
+
φ2 (x0iγ)
[1− Φ (x0iγ)]
¸
xix
0
i
¸
= E
··
φ2 (x0iγ)− φ
2 (x0iγ)Φ (x
0
iγ) + φ
2 (x0iγ)Φ (x
0
iγ)
Φ (x0iγ) [1− Φ (x0iγ)]
¸
xix
0
i
¸
= E
··
φ2 (x0iγ)
Φ (x0iγ) [1− Φ (x0iγ)]
¸
xix
0
i
¸
= E
··
φ2 (x0iγ)
[1− Φ (−x0iγ)] [1− Φ (x0iγ)]
¸
xix
0
i
¸
= E [λ (x0iγ)λ (−x0iγ)xix0i] = −M
onde a u´ltima igualdade e´ consequ¨eˆncia da desigualdade da informac¸a˜o.
O primeiro termo da diagonal de V, assumindo homoscedasticidade, e´ sim-
plesmente
E
£
gi (z, θ, γ) gi (z, θ, γ)
0¤
= E [diWiεiε0iW
0
i ] = E [E [diWiεiε
0
iW
0
i |d,W ]]
= σ2E [diWiW 0i ]
pois εi = yi − w0iβ − αλ (x0iγ) e E [εiε0i|d,W ] = σ2
Finalmente, note que
E
£
gi (z, θ, γ)mi (z, γ)
0¤
= E
£
diWiE [εi|w, d, x]λ (x0iγ)Φ−1 (x0iγ)xi (di − Φ (x0iγ))
¤
= 0
pois E [εi|w, d, x] = 0.
Em particular, como a primeira linha de G˜−1 e´ dada porG−1θ
£
I −GγM−1
¤
,
temos a seguinte fo´rmula para a variaˆncia assinto´tica de θˆ:
G−1θ
£
I −GγM−1
¤
E
µ·
g (z)
mi
¸ £
g (z) mi
¤¶· I
−GγM−1
¸
G−1θ
= G−1θ E
µ£
I −GγM−1
¤ · g (z)
mi
¸ £
g (z) mi
¤ · I
−GγM−1
¸¶
G−1θ
= G−1θ E
³£
g (z)−GγM−1mi
¤ £
g (z)−GγM−1mi
¤0´
G−1θ
= G−1θ E
¡
[g (z) +Gγψ (z)] [g (z) +Gγψ (z)]
0¢G−1θ
9
Testes de Hipo´tese
Wald
Seja R0 = rθ (β0) o gradiente de r, de dimensa˜o qxk. Pelo me´todo delta,
√
T
³
r
³
βˆ
´
− r (β0)
´
d→ R0N (0,Ω) = N (0, R0ΩR00) , Ω =
¡
d00V
−1
0 d0
¢−1
Defina Rˆ = R
³
βˆ
´
. Sob a hipo´tese nula, a estat´ıstica de Wald e´ dada por
W = Tr
³
βˆ
´0 h
RˆΩˆRˆ0
i−1
r
³
βˆ
´
d→ χ2q
para um estimador consistente Ωˆ de Ω.
Gradiente (Multiplicador de Lagrange)
O estimador restrito do me´todo generalizado dos momentos e´ dado por
βˆR = argmin
{β:r(β)=0}
QT (β) = argmin
{β:r(β)=0}
gT (β)
0 V −10 gT (β)
O gradiente da func¸a˜o objetivo e´ simplesmente
∂QT (β)
∂β
= dT (β)
0 V −10 gT (β)
A estat´ıstica do teste e´ definida como
G = Tg0
³
βˆR
´
Vˆ −1dT
³
d0T Vˆ
−1dT
´−1
d0T Vˆ
−1g
³
βˆR
´
Diferenc¸a da Distaˆncia
O teste da diferenc¸a da distaˆncia baseia-se em
DD = T
h
QT
³
βˆR
´
−QT
³
βˆ
´i
Esse teste e´ similar a` estat´ıstica da raza˜o de verossimilhanc¸a. Requer tanto
a estimac¸a˜o do modelo irrestrito quanto do modelo restrito.
Mı´nimo Qui-Quadrado
Esse teste compara os estimadores restrito e irrestrito do me´todo genera-
lizado dos momentos. Escolhe o estimador do modelo restrito de maneira a
minimizar o seguinte crite´rio:
MC = Tmin
α
³
βˆ − r (α)
´0
Ωˆ−1
³
βˆ − r (α)
´
= Tmin
α
³
βˆ − r (α)
´0
d0T Vˆ
−1dT
³
βˆ − r (α)
´
= T
³
βˆ − βˆR
´0
d0T Vˆ
−1dT
³
βˆ − βˆR
´
10
O teste utiliza a inversa da matriz de variaˆncia-covariaˆncia assinto´tica do
estimador irrestrito do me´todo generalizado dos momentos como ponderac¸a˜o.
O teste converge em distribuic¸a˜o para uma χ2q. Seja α˜ o estimador de α0 que
corresponde a β0 = r (α0) sob a restric¸a˜o. A condic¸a˜o necessa´ria de primeira
ordem para minimizac¸a˜o da estat´ıstica e´
0 =
∂r0 (α˜)
∂α
Ωˆ−1
³
βˆ − r (α˜)
´
⇒ ∂r
0 (α˜)
∂α
0
Ωˆ−1
µ
βˆ − r (α0)−
∂r0 (α0)
∂α
(α˜− α0)
¶
≈ 0
⇒ ∂r
0 (α˜)
∂α
0
Ωˆ−1
³
βˆ − r (α0)
´
− ∂r
0 (α˜)
∂α
0
Ωˆ−1
∂r0 (α0)
∂α
(α˜− α0) ≈ 0
⇒ (α˜− α0) ≈
µ
∂r0 (α˜)
∂α
0
Ωˆ−1
∂r0 (α0)
∂α
¶−1
∂r0 (α˜)
∂α
0
Ωˆ−1
³
βˆ − r (α0)
´
Portanto,
βˆ − r (α˜) ≈ βˆ − r (α0)−
∂r (α0)
∂α0
(α˜− α0)
≈ βˆ − r (α0)
−∂r (α0)
∂α0
µ
∂r0 (α˜)
∂α
0
Ωˆ−1
∂r0 (α0)
∂α
¶−1
∂r0 (α˜)
∂α
0
Ωˆ−1
³
βˆ − r (α0)
´
≈
"
I − ∂r (α0)
∂α0
µ
∂r0 (α˜)
∂α
0
Ωˆ−1
∂r0 (α0)
∂α
¶−1
∂r0 (α˜)
∂α
0
Ωˆ−1
#³
βˆ − β0
´
e, consequ¨entemente,
Ωˆ−1/2
³
βˆ − r (α˜)
´
≈
"
I − Ωˆ−1/2 ∂r
∂α0
µ
∂r0
∂α
0
Ωˆ−1
∂r0
∂α
¶−1
∂r0
∂α
0
Ωˆ−1/2
#
Ωˆ−1/2
³
βˆ − β0
´
Como Ωˆ−1/2
³
βˆ − β0
´
d→ N (0, I) e a matriz entre colchetes e´ idempotente,
com posto q, segue-se que³
βˆ − r (α˜)
´0
Ωˆ−1
³
βˆ − r (α˜)
´
d→ χ2q
Equivaleˆncia assinto´tica das 4 estat´ısticas do teste.
Sob a hipo´tese nula, pode ser mostrado que as estat´ısticas de Wald, Gra-
diente, Diferenc¸a e Mı´nimo Qui-Quadrado sa˜o assintoticamente equivalentes e,
portanto, distribu´ıdas assintoticamente como χ2q. A equivaleˆncia assinto´tica do
11
teste da Diferenc¸a e do teste de Mı´nimo Qui-Quadrado e´ baseado no seguinte
resultado:
Para qualquer estimador
√
T consistente β˜ de β0,
TQT
³
β˜
´
= TQT
³
βˆ
´
+ T
³
βˆ − β˜
´0
d0T Vˆ
−1dT
³
βˆ − β˜
´
+ op (1)
onde βˆ denota o estimador do me´todo generalizado dos momentos que utliza a
matriz de ponderac¸a˜o o´tima.
Considere a seguinte func¸a˜o objetivo geral do me´todo generalizado dos mo-
mentos:
QT (β) =
1
T
g0 (β)Wg (β)
e o estimador de GMM associado
βˆ = argmin
β
1
T
g0 (β)Wg (β)
Expandindo a condic¸a˜o necessa´ria de primeira ordem para minimizac¸a˜o
G0
³
βˆ
´
Wg
³
βˆ
´
= 0 numa se´rie de Taylor em torno de β˜, obte´m-se
0 = G0
³
βˆ
´
W
·
g
³
β˜
´
+G
³
β˜
´³
βˆ − β˜
´
+ op
µ°°°βˆ − β˜°°°2¶¸
⇒ G0
³
βˆ
´
Wg
³
β˜
´
+G0
³
βˆ
´
WG
³
θ˜
´³
βˆ − β˜
´
+ op
µ°°°βˆ − β˜°°°2¶
⇒
√
T
³
βˆ − β˜
´
= −
³
G0
³
βˆ
´
WG
³
β˜
´´−1
G0
³
βˆ
´
W
√
Tg
³
β˜
´
+ op (1) (3)
Defina
P =W 1/2G
³
βˆ
´³
G0
³
βˆ
´
WG
³
β˜
´´−1
G0
³
βˆ
´
W 1/2 (4)
Enta˜o
√
TW 1/2g
³
βˆ
´
=
√
TW 1/2g
³
β˜
´
+
√
TW 1/2G
³
β˜
´³
βˆ − β˜
´
+ op (1)
(3)
=
√
TW 1/2g
³
β˜
´
−W 1/2G
³
β˜
´³
G0
³
βˆ
´
WG
³
β˜
´´−1
G0
³
βˆ
´
W
√
Tg
³
β˜
´
+op (1)
(4)
= (I − P )W 1/2
√
Tg
³
β˜
´
+ op (1) (5)
Portanto,
Tg0
³
β˜
´
Wg
³
β˜
´
= Tg0
³
β˜
´
W 1/2 (I − P )W 1/2g
³
β˜
´
+Tg0
³
β˜
´
W 1/2PW 1/2g
³
β˜
´
12
(5)
=
√
Tg0
³
βˆ
´
W 1/2
√
TW 1/2g
³
βˆ
´
+ Tg0
³
β˜
´
W 1/2PPW 1/2g
³
β˜
´
+ op (1) (6)
utilizando, na u´ltima igualdade, o fato de que P e´ idempotente.
Mas
√
TPW 1/2g
³
β˜
´
(4)
=
√
TW 1/2G
³
βˆ
´³
G0
³
βˆ
´
WG
³
β˜
´´−1
G0
³
βˆ
´
W 1/2W 1/2g
³
β˜
´
=W 1/2G
³
βˆ
´³
G0
³
βˆ
´
WG
³
β˜
´´−1
G0
³
βˆ
´
W
√
Tg
³
β˜
´
(3)
= −W 1/2G
³
βˆ
´√
T
³
βˆ − β˜
´
+ op (1) (7)
Combinando (6) e (7), obtemos
Tg0
³
β˜
´
Wg
³
β˜
´
= Tg0
³
β˜
´
Wg
³
βˆ
´
+T
³
βˆ − β˜
´0
G0
³
βˆ
´
WG
³
βˆ
´³
βˆ − β˜
´
+op (1)
Tomando W = Vˆ −1 e β˜ = βˆR, conclui-se que
TQT
³
βˆR
´
= TQT
³
βˆ
´
+ T
³
βˆ − βˆR
´0
d0T Vˆ
−1dT
³
βˆ − βˆR
´
+ op (1)
isto e´,
DD =MC + op (1)
A equivaleˆncia assinto´tica da estat´ıstica do teste Gradiente e do teste de
Mı´nimo Qui-Quadrado baseia-se no estimador de segundo esta´gio:
βˆ
∗
= βˆR −
³
G0
³
βˆR
´
Vˆ −1G
³
βˆR
´´−1
G0
³
βˆR
´
Vˆ −1g
³
βˆR
´
que e´ assintoticamente equivalente ao estimador o´timo de GMM irrestrito sob
a hipo´tese nula. Como √
T
³
βˆ − βˆ
∗´
= op (1)
segue-se que
MC = T
³
βˆ
∗
− βˆR
´0
d0T Vˆ
−1dT
³
βˆ
∗
− βˆR
´
+ op (1)
= Tg0
³
βˆR
´
Vˆ −1dT
³
0d0T Vˆ
−1dT
´−1
d0T Vˆ
−1dT³
d0T Vˆ
−1dT
´−1
d0T Vˆ
−1g
³
βˆR
´
+ op (1)
= Tg0
³
βˆR
´
Vˆ −1dT
³
d0T Vˆ
−1dT
´−1
d0T Vˆ
−1g
³
βˆR
´
+ op (1)
13
Finalmente, a equivaleˆncia assinto´tica dos testes de Wald e de Mı´nimo Qui-
Quadrado baseia-se na derivac¸a˜o do estimador do modelo restrito a partir do
estimador do modelo irrestrito.
βˆR = βˆ −
³
d0T Vˆ
−1dT
´−1
Rˆ0
·
Rˆ
³
d0T Vˆ
−1dT
´−1
Rˆ0
¸−1
rˆ
que e´ assintoticamente equivalente ao estimador restrito o´timo de GMM βˆR.
Portanto,
MC = T
³
βˆ − r (α)
´0
d0T Vˆ
−1dT
³
βˆ − r (α)
´
= T rˆ0
·
Rˆ
³
d0T Vˆ
−1dT
´−1
Rˆ0
¸−1
Rˆ
³
d0T Vˆ
−1dT
´−1
d0T Vˆ
−1dT³
d0T Vˆ
−1dT
´−1
Rˆ0
·
Rˆ
³
d0T Vˆ
−1dT
´−1
Rˆ0
¸−1
rˆ + op (1)
= T rˆ0
·
Rˆ
³
d0T Vˆ
−1dT
´−1
Rˆ0
¸−1
rˆ + op (1) =W + op (1)
Continuous Updating GMM
βT = argmin
β
TgT (β)
0 V −1 (β) gT (β)
As condic¸o˜es de ortogonalidade utilizadas na estimac¸a˜o sa˜o determinadas
por
2aT gT (βT ) + g
0
T (βT )DV
−1 (β) gT (βT ) = 0
Expandindo gT (βT ) em torno de gT (β0) no primeiro termo do lado esquerdo
da equac¸a˜o acima, segue-se que:
aT gT (β0) + aTd0 (βT − β0) +
1
2
g0T (βT )DV
−1 (β) gT (βT ) ≈ 0
=⇒ (βT − β0) ≈ − (a0d0)
−1 a0gT (β0)−
1
2
(a0d0)
−1 g0T (βT )DV
−1 (β) gT (βT )
=⇒
√
T (βT − β0) ≈ − (a0d0)
−1 a0
1√
T
TX
t=1
f (xt, β0)
−1
2
(a0d0)
−1 g0T (βT )DV
−1 (β)
1√
T
TX
t=1
f (xt, β0)
14
=⇒
√
T (βT − β0) ≈ − (a0d0)
−1 a0
1√
T
TX
t=1
f (xt, β0)
pois
p lim gT (βT ) = p lim
1
T
TX
t=1
f (xt, β0) = 0
15
Econometria/iv.pdf
Universidade de Sa˜o Paulo - Departamento de Economia
EAE 5811 - Econometria I
Prof. Dr. Ricardo Avelino
1o Semestre de 2007
Estimador de Varia´veis Instrumentais e Testes de
Especificac¸a˜o
Violac¸a˜o da Hipo´tese E [ε|X] = 0: Implicac¸o˜es para MQO e razo˜es
da violac¸a˜o
Implicac¸o˜es para MQO:
Para auseˆncia de vie´s de MQO, no´s precisamos E [ε|X] = 0.
Para consisteˆncia, no´s precisamos E [xiεi] = 0, pois x
0ε
n
P→ 0 assumindo que
as condic¸o˜es
necessa´rias para que se aplique uma lei dos grandes nu´meros seja
satisfeita. Uma condic¸a˜o suficiente para isso e´ que E [εi|xi] = 0
Casos t´ıpicos em que E [ε|X] = 0 e E [εi|xi] = 0 sa˜o violados sa˜o:
1. Erros de medida em X
2. X conte´m varia´veis dependentes defasadas (⇒ E [ε|X] 6= 0,MQO viesado),
e, pior ainda, X conte´m varia´veis dependentes defasadas e ε e´ autocorrela-
cionado (⇒ E [εi|xi] 6= 0, MQO viesado e inconsistente)
3. y e X sa˜o determinados conjuntamente.
4. Forma funcional errada.
5. Varia´veis omitidas: Seja o modelo verdadeiro
yi = x01iβ1 + x
0
2iβ2 + εi = x
0
1iβ1 + vi
no qual vi = x02iβ2 + εi.
Se no´s erroneamente omitirmos x2i, a estimativa de β1 de MQO sera´
βˆ1 = (X
0
1X1)
−1X 01y = β1 + (X
0
1X1)
−1X 01v = β1 +
µ
X 01X1
n
¶−1 X 01v
n
Mas
X01v
n =
X01X2
n β2 +
X01ε
n . Portanto, consisteˆncia de βˆ1 requer na˜o apenas
que
X01ε
n
P→ 0 e que X
0
1X1
n
P→ M, na˜o singular, mas tambe´m que X
0
1X2
n
P→ 0. No
caso com dois regressores,
βˆ1
P→ β1 + β2
Cov (x1i, x2i)
V ar (x1i)
sob condic¸o˜es apropriadas para que se aplique uma lei dos grandes nu´meros.
No´s consideramos (4) e (5) na lista de exerc´ıcios 2. Resta, portanto, (1), (2)
e (3).
1
Varia´veis dependentes defasadas
Considere alguns exemplos de modelos de se´ries de temporais:
(1) yt = φyt−1 + x
0
tβ + εt
(2) yt = x0tβ + x
0
t−1γ + εt
(3) yt = x
0
tβ + εt + θεt−1 ⇔ yt = x0tβ + ut, ut = εt + θεt−1
(4) yt = φyt−1 + x
0
tβ + εt + θεt−1 ⇔ yt = φyt−1 + x0tβ + ut, ut = εt + θεt−1
No´s ainda podemos utilizar a metodologia desenvolvida ate´ aqui para
analisar esses modelos dinaˆmicos? MQO ainda produz estimadores na˜o viesados
ou mesmo estimativas consistentes de β, φ e γ? Em cada caso, denote por Z a
matriz de todas as observac¸o˜es das varia´veis explicativas.
Auseˆncia de Vie´s
(1) MQO na˜o pode ser na˜o viesado mesmo se E [εt|yt−1, xt] = 0
Para que MQO (para φ e β) seja na˜o viesado, no´s precisamos que E [εt|Z] =
0. Mas
E [εt|Z] = E [yt − φyt−1 − x0tβ|Z] = yt − φyt−1 − x0tβ = εt 6= 0 (em geral)
Em outras palavras, a hipo´tese E [εt|Z] = 0 (OLS2,s) na˜o pode ser satisfeita
nummodelo desse tipo. Portanto, varia´veis dependentes defasadas causam
vie´s de MQO.
(2) MQO e´ na˜o viesado se E [εt|Z] = 0
(3) MQO e´ na˜o viesado se E [ut|Z] = 0
(4) MQO e´ viesado. Mesmo argumento utilizado para (1).
Consisteˆncia
(1) MQO e´ consistente se E [εt|yt−1, xt] = 0 (supondo que os processos
estoca´sticos satisfac¸am condic¸o˜es apropriadas que permitam a aplicac¸a˜o de uma
lei dos grandes nu´meros)
(2) MQO e´ consistente se E [εt|xt−1, xt] = 0 (e desde que uma lei dos grandes
nu´meros possa ser usada)
(3) MQO e´ consistente se E [ut|xt] = 0 (e desde que uma lei dos grandes
nu´meros possa ser usada)
(4) MQO na˜o pode ser consistente.
E [utyt−1] = cov (utyt−1) = θcov (εt−1yt−1)
para E [ut] = 0 e cov (yt−1εt) = 0. Mas cov (εt−1yt−1) 6= 0, pois εt−1 afeta
yt−1 de acordo com a equac¸a˜o (4), defasada um per´ıodo.
2
Portanto, varia´veis dependentes defasadas entre os regressores e
erros autocorrelacionados causam inconsisteˆncia de MQO.
Erros nas Varia´veis
Suponha que o modelo verdadeiro seja
y∗i = β1 + x
∗
i
1×1
β2 + εi
mas que no´s apenas tenhamos medidas imperfeitas de y∗i e x
∗
i
yi = y∗i + vi, xi = x
∗
i + ui
e que decidamos regredir yi em xi.
Fac¸a as seguintes hipo´teses a respeito dos erros de medida:
E [vi|y∗i ] = 0, E [ui|x∗i ] = 0, E [uivi] = 0, E [ui|y∗i ] = 0, E [vi|x∗i ] = 0
Segue-se do modelo verdadeiro que
yi − vi = β1 + (xi − ui)β2 + εi
yi = β1 + xiβ2 + εi − uiβ2 + vi
yi = β1 + xiβ2 + ωi, ωi = εi − uiβ2 + vi
MQO nesse modelo produz estimativas inconsistentes de β1 e β2, porque xi
e´ correlacionado com ωi. Intuitivamente, o erro de medida ui afeta xi, mas na˜o
e´ inclu´ıdo no termo de erro, o que faz com que cov (xi, ωi) 6= 0. Especificamente,
cov (xi, ωi) = cov (x∗i + ui, εi − uiβ2 + vi)
= E [(x∗i + ui) (εi − uiβ2 + vi)]−E [x∗i + ui]E [εi − uiβ2 + vi]
= −β2V (ui)
Portanto,
p lim βˆ2 = p lim
1
n
Pn
i=1 (xi − x¯) (yi − y¯)
1
n
Pn
i=1 (xi − x¯)
2
= β2 + p lim
1
n
Pn
i=1 (xi − x¯) (ωi − ω¯)
1
n
Pn
i=1 (xi − x¯)
2
= β2 +
cov (xi, ωi)
V (xi)
= β2 − β2
σ2ui
σ2x∗i + σ
2
ui
= β2
σ2x∗i
σ2x∗i + σ
2
ui
Conclusa˜o: βˆ2 e´ viesado em direc¸a˜o a zero. Voceˆ pode pensar nesse problema
em termos da fo´rmula para o vie´s de varia´vel omitida, na qual −uiβ2 e´ a varia´vel
omitida.
3
Comenta´rios:
1. Note que sa˜o erros de medida em xi que fazem com que βˆ2 (e βˆ1) seja
(viesado) inconsistente. Erros de medida na varia´vel dependente na˜o causam
inconsisteˆncia, desde que as hipo´teses assumidas sejam satisfeitas.
2. Com mu´ltiplas varia´veis explicativas, pouco pode ser dito a respeito dos
sinais das inconsisteˆncias. O coeficiente da varia´vel explicativa medida com erro
e´ ainda viesado em direc¸a˜o a zero no caso de mu´ltiplos regressores com somente
uma varia´vel medida com erro.
Modelos de equac¸o˜es simultaˆneas
Considere um modelo em que a demanda por um produto seja determinada
pelo prec¸o e pela renda e no qual a oferta do produto seja determinada pelo
prec¸o e pela taxa salarial. (i denota ano ou estado).
y1i = β1y2i + β2x1i + ε1i
y2i = β3y1i + β4x2i + ε2i
Suponha que
E [(ε1i, ε2i) | (x1i, x2i)] = 0
Entretanto,
E [ε1i| (x1i, y2i)] 6= 0
pois ε1i → y1i → y2i e
E [ε2i| (x1i, y1i)] 6= 0
pois ε2i → y2i → y1i.
Portanto, MQO equac¸a˜o por equac¸a˜o ou no sistema como um todo e´ viesado
e inconsistente. Novamente, estimac¸a˜o por varia´veis instrumentais e´ a soluc¸a˜o.
Varia´veis Instrumentais
Hipo´teses
Suponha que voceˆ tenha dispon´ıvel uma matriz Z
n×l
de varia´veis que satisfac¸a:
(IV 1) a) Z
0X
n
p→ Qzx finita com posto k (isso requer que l ≥ k)
b) Z
0Z
n
p→ Qzz finita, positiva definida
(IV 2) Z
0ε
n
p→ 0
Mais precisamente, {zix0i} , {ziz0i} e {ziεi} satisfazem uma lei dos grandes
nu´meros de modo que as duas suposic¸o˜es acima sa˜o satisfeitas.
4
(IV 3) a) E
£
ε2i |xi
¤
= σ2 ∀i : homoscedasticidade
b) E [εi, εi0 |xi, xi0 ] = 0 ∀i 6= i0 : auseˆncia de autocorrelac¸a˜o
(IV 4) Z
0ε√
n
d→ N (0, V )
Mais precisamente, {ziεi} satisfaz um teorema central do limite de modo
que essa suposic¸a˜o e´ satisfeita.
Portanto, embora X
0ε
n
P9 0, no´s assumimos que Z
0ε
n
p→ 0 e que Z e´ correla-
cionado com X, Z
0X
n
p→ Qzx finita com posto k.
Para que isso seja verdadeiro, basta que {xi, zi, εi} seja i.i.d., que E [εi|zi] =
0, e que os segundos momentos de {xi, zi} sejam finitos.
Definic¸a˜o
O estimador de varia´veis instrumentais associado a` matriz A
l×k
, estimada
consistentemente por Aˆ, e a instrumentos W
n×k
= Z
n×l
A
l×k
e´ dado por
βˆIV = (W
0X)−1W 0y
Denote ZA por W ∗. Multiplicando o modelo y = Xβ + ε por W ∗
0
e com-
putando a esperanc¸a de ambos os lados, obte´m-se
E (W 0∗y) = E (W 0∗X)β +E (W 0∗ε) = E (W 0∗X)β +E (A0Z0ε)
= E (W 0∗X)β
⇔ β = [E (W 0∗X)]−1E (W 0∗y)
O estimador de varia´veis instrumentais substitui momentos populacionais
por momentos amostrais. Se os momentos amostrais convergirem em probabil-
idade para os momentos populacionais, obtemos consisteˆncia.
Consisteˆncia de βˆIV
Sob (IV 1) , (IV 2) ,
βˆIV
p→ β
Prova:
βˆIV =
µ
W 0X
n
¶−1 W 0y
n
=
µ
W 0X
n
¶−1 W 0 (Xβ + ε)
n
= β +
µ
W 0X
n
¶−1 W 0ε
n
= β +
Ã
Aˆ0Z 0X
n
!−1
Aˆ0Z0ε
n
p→ β + (A0Qzx )−1A00 = β
5
Normalidade assinto´tica de βˆIV
Sob (IV 1)− (IV 2) , (IV 4) ,
√
n
³
βˆIV − β
´
d→ N
³
0, (A0Qzz )
−1A0V A (Q0zz A)
−1
´
Prova:
√
n
³
βˆIV − β
´
=
√
n
³
(W 0X)−1W 0y − β
´
=
√
n
³
(W 0X)−1W 0ε
´
=
µ
W 0X
n
¶−1 W 0ε√
n
=
µ
Aˆ0
Z0X
n
¶−1
Aˆ0
Z0ε√
n
d→ (A0Qzx )−1A0N (0, V )
= N
³
0, (A0Qzz )
−1A0V A (Q0zz A)
−1
´
Estimador O´timo de Varia´veis Instrumentais
Que escolha de A minimiza a variaˆncia assinto´tica dentro da classe de es-
timadores de varia´veis instrumentais da forma βˆIV = (W
0X)−1W 0y, W
n×k
=
Z
n×l
A
l×k
? Relembre que a utilizac¸a˜o de Aˆ ao inve´s de A para calcular o estimador
na pra´tica na˜o altera a distribuic¸a˜o assinto´tica, desde que p lim Aˆ = A.
Resultado 1
Sob (IV 1) − (IV 2) , (IV 4) , qualquer escolha de A com posto completo tal
que A = V −1Qzx F, para uma matriz na˜o singular F , e´ o´tima. A distribuic¸a˜o
assinto´tica do estimador de varia´veis instrumentais resultante e´
√
n
³
βˆIV − β
´
d→ N
³
0,
¡
Q0zx V
−1Qzx
¢−1´
Em particular, A = V −1Qzx e´ o´timo.
Prova: Para essa escolha de A, no´s temos
√
n
³
βˆIV − β
´
d→ N (0,Σ)
para
Σ =
¡
FQ0zx V
−1Qzx
¢−1
FQ0zx V
−1V V −1Qzx F
¡
Q0zx V
−1Qzx F
¢−1
=
¡
Q0zx V
−1Qzx
¢−1
6
A afirmac¸a˜o nos diz que, para qualquer escolha alternativa A que na˜o
satisfac¸a A = V −1Qzx F , a variaˆncia assinto´tica de βˆIV na˜o e´ menor do que¡
Q0zx V
−1Qzx
¢−1
, isto e´,
Avar
³
βˆIV,A
¯
´
−Avar
³
βˆIV,A
´
e´ positiva semi-definida.
Avar
³
βˆIV,A
¯
´
−Avar
³
βˆIV,A
´
= (A0Qzz )
−1A0V A (Q0zz A)
−1
−
¡
Q0zx V
−1Qzx
¢−1
= (A0Qzz )
−1A0V 1/2
h
I − V −1/2Qzx
¡
Q0zx V −1/2V −1/2Qzx
¢−1
Q0zx V −1/2
i
V 1/2A (Q0zz A)
−1
= H 0
h
I −R (R0R)−1R0
i
H = (MRH)
0
(MRH)
para H = V 1/2A (Q0zz A)
−1 , R = V −1/2Qzx e MR = I −R (R0R)−1R0.
(MRH)
0 (MRH) e´ positiva semi-definida, pois, para qualquer vetor a 6= 0,
a0 (MRH)
0
(MRH) a = (aMRH)
0
(aMRH) = b
0b ≥ 0
Implementac¸a˜o: Para um estimador consistente de A = V −1Qzx , no´s
precisamos de estimadores consistentes de V e de Qzx .
Por hipo´tese, Z
0X
n =
Pn
i=1 zix
0
i
n
p→ Qzx
Para V , no´s podemos usar o estimador de Newey-West (substitua x por z)
Vˆ =
1
n
E
£Pn
i=1 εˆ
2
i ziz
0
i
¤
+
Pm(n)
l=1 ' (l,m (n))
1
n
Pn
i=l+1
£
E
¡
εˆiεˆi−lziz0i−l
¢
+E (εˆi−lεˆizi−lz0i)
¤
no qual εˆi sa˜o os res´ıduos de qualquer estimador consistente, mas na˜o necessari-
amente eficiente. Por exemplo, o procedimento de mı´nimos quadrados em dois
esta´gios simples descrito a seguir pode ser utilizado.
Enta˜o
βˆOPT.IV = (W
0X)−1W 0y =
³
Qˆ0zx Vˆ
−1Z0X
´−1
Qˆ0zx Vˆ
−1Z 0y
=
³
X 0ZVˆ −1Z0X
´−1
X 0ZVˆ −1Z0y
Sob homoscedasticidade e auseˆncia de autocorrrelac¸a˜o, o estimador de varia´veis
instrumentais o´timo simplifica para o que e´ conhecido comomı´nimos quadra-
dos em dois esta´gios.
7
Resultado 2
Sob (IV 1) − (IV 4) , qualquer escolha de A com posto completo tal que
A = Q−1zz Qzx F, para uma matriz na˜o singular F , e´ o´tima. A distribuic¸a˜o
assinto´tica do estimador de varia´veis instrumentais e´
√
n
³
βˆIV − β
´
d→ N
³
0, σ2
¡
Q0zx Q
−1
zz Qzx
¢−1´
Isso segue do resultado anterior, pois, sob (IV 3) , V = σ2Qzz . Em particu-
lar, A = Q−1zz Qzx e´ o´timo.
Implementac¸a˜o
Um estimador consistente de A e´
Aˆ =
µ
1
n
Pn
i=1 ziz
0
i
¶−1µ
1
n
Pn
i=1 zix
0
i
¶
= (Z 0Z)−1 Z0X
Enta˜o, W = ZAˆ = Z (Z0Z)−1 Z0X. Note que W e´ uma matriz n×k na qual
a j-e´sima coluna e´ o valor previsto de uma regressa˜o da j-e´sima coluna de X
nos l instrumentos.
Enta˜o
βˆOPT.IV = (W
0X)−1W 0y =
³
Qˆ0zx Qˆ
−1
zz Z
0X
´−1
Qˆ0zx Qˆ
−1
zz Z
0y
=
³
X 0Z (Z0Z)−1 Z 0X
´−1
X 0Z (Z 0Z)−1 Z0y
=
³
Xˆ 0X
´−1
Xˆ 0y =
³
Xˆ 0Xˆ
´−1
Xˆ 0y = βˆ2SLS
para Xˆ = Z (Z0Z)−1 Z 0X = PZX. Note que Xˆ 0X = X 0PZX = X 0PZPZX =
Xˆ 0Xˆ pois PZ e´ idempotente.
O estimador de varia´veis instrumentais comW = Z (Z0Z)−1 Z0X = Xˆ como
matriz de instrumentos e´ denominado estimador de mı´nimos quadrados em dois
esta´gios, pois pode ser obtido a partir do seguinte procedimento em dois esta´gios.
1o Esta´gio: Regresse a j-e´sima coluna de X nos l instrumentos. Calcule a
matriz W = Xˆ.
2o Esta´gio: Regresse y em Xˆ e obtenha a estimativa βˆ2SLS =
³
Xˆ 0Xˆ
´−1
Xˆ 0y
Qualquer regressor que na˜o for correlacionado com o erro pode ser inclu´ıdo
em Z. A coluna de Xˆ correspondente a esse regressor e´ simplesmente o pro´prio
regressor.
8
Finalmente, considere o caso em que l = k, isto e´, a situac¸a˜o em que ha´ o
nu´mero mı´nimo de instrumentos necessa´rio para estimar β. Nesse caso,
βˆIV = (W
0X)−1W 0y = (A0Z 0X)−1A0Z 0y
= (Z0X)−1 (A0)−1A0Z0y = (Z0X)−1 Z0y
pois W
n×k
= Z
n×k
A
k×k
. Portanto, qualquer escolha de A produz o mesmo estimador.
Isso prova que o estimador de varia´veis instrumentais “simples” e´ o´timo no caso
em que o nu´mero de instrumentos coincide com o nu´mero de regressores.
Testes de Especificac¸a˜o
E´ poss´ıvel testar se E [ε|X] = 0 ou, assintoticamente, se p lim 1TX 0ε = 0.
Hausman (1978) mostrou como conduzir esse teste e descreveu um procedimento
gene´rico para testes de especificac¸a˜o. No´s usaremos esse instrumental para
testar a existeˆncia de erros de medida nas varia´veis e, posteriormente, para
testar restric¸o˜es de sobre identificac¸a˜o em modelos de equac¸o˜es simultaˆneas. O
procedimento geral e´ descrito a seguir.
Considere um modelo de regressa˜o linear y = Xβ + ε, onde β e´ kx1
H0 : Especificac¸a˜o correta.
H1 : Especificac¸a˜o incorreta
Ache dois estimadores βˆ0 e βˆ1 com as propriedades:
H0 H1
βˆ0
Consistente,
assintoticamente eficiente
Inconsistente
βˆ1
Consistente,
assintoticamente ineficiente
Consistente
Considere a diferenc¸a qˆ = βˆ1− βˆ0. Se a especificac¸a˜o estiver correta, o limite
em probabilidade de qˆ e´ zero. Caso contra´rio, p lim qˆ 6= 0. Para construir um
teste, precisamos derivar a distribuic¸a˜o assinto´tica de qˆ.
Se
√
T
³
βˆ0 − β
´
d→ N (0, V0) e
√
T
³
βˆ1 − β
´
d→ N (0, V1) , enta˜o
√
T qˆ =
√
T
³
βˆ1 − βˆ0
´
d→ N (0, Vq)
sob H0 e, portanto, ³√
T qˆ
´0
V −1q
³√
T qˆ
´
= T qˆ0V −1q qˆ
d→ χ2k
sob H0, onde k dependera´ do contexto espec´ıfico.
9
Teorema: Sob H0,
Cov
³
βˆ1, βˆ0
´
= V
³
βˆ0
´
Portanto,
Vq = V
³
βˆ1 − βˆ0
´
= V
³
βˆ1
´
− V
³
βˆ0
´
Prova: Suponha, por contradic¸a˜o, que Cov
³
βˆ1, βˆ0
´
6= V
³
βˆ0
´
. Considere o
estimador definido por
βˆ
∗
= βˆ0 +
³
V
³
βˆ0
´
− cov
³
βˆ0, βˆ1
´´ h
V
³
βˆ0 − βˆ1
´i−1 ³
βˆ1 − βˆ0
´
A variaˆncia de βˆ
∗
e´ dada por
V
³
βˆ
∗´
= V
³
βˆ0
´
+
³
V
³
βˆ0
´
− cov
³
βˆ0, βˆ1
´´h
V
³
βˆ0 − βˆ1
´i−1
V
³
βˆ1 − βˆ0
´ h
V
³
βˆ0 − βˆ1
´i−1 ³
V
³
βˆ0
´
− cov
³
βˆ0, βˆ1
´´0
−
³
V
³
βˆ0
´
− cov
³
βˆ0, βˆ1
´´ h
V
³
βˆ0 − βˆ1
´i−1 ³
V
³
βˆ0
´
− cov
³
βˆ0, βˆ1
´´0
+
h
cov
³
βˆ0, βˆ1
´
− V
³
βˆ0
´i h
V
³
βˆ0 − βˆ1
´i−1 ³
V
³
βˆ0
´
− cov
³
βˆ0, βˆ1
´´0
= V
³
βˆ0
´
−
h
cov
³
βˆ0, βˆ1
´
− V
³
βˆ0
´i
h
V
³
βˆ0 − βˆ1
´i−1 h
cov
³
βˆ0, βˆ1
´
− V
³
βˆ0
´i0
< V
³
βˆ0
´
contrariando a suposic¸a˜o de que βˆ0 e´ assintoticamente eficiente.
Portanto,
Cov
³
βˆ1, βˆ0
´
= V
³
βˆ0
´
Exemplo: Teste para erros nas varia´veis
Considere um modelo de regressa˜o linear yt = βxt + ε1t, onde β e´ 1x1.
Suponha que queiramos testar a hipo´tese de ortogonalidade
p lim
1
T
x0ε1 = 0
Em particular, suspeitamos que xt seja uma medida imperfeita do valor
verdadeiro x∗t , xt = x
∗
t +ε2t. Nesse caso, o erro de medida, ε2t, e´ parte do termo
de erro, ε1t, e p lim 1T x
0ε1 6= 0. (Modelo verdadeiro: yt = βx∗t + ut ⇔ yt =
βxt + ut − βε2t, isto e´, ε1t = ut − βε2t).
No´s supomos que as outras hipo´teses assinto´ticas de MQO sa˜o satisfeitas e
testamos
10
H0 : p lim 1T x
0ε1 = 0
H1 : p lim 1T x
0ε1 6= 0
Sob H0, βˆOLS e´ eficiente e consistente. Sob H1, βˆOLS e´ inconsistente.
Suponha que tenhamos um instrumento va´lido z (isto e´, z satisfaz p lim 1T z
0ε1 =
0 e p lim 1T z
0x 6= 0). Sob H0, βˆIV e´ ineficiente mas consistente. Sob H1, βˆIV e´
consistente. Isso sugere o seguinte teste de especificac¸a˜o
m = T
³
βˆIV − βˆOLS
´0
Vˆ −1q
³
βˆIV − βˆOLS
´
d→ χ21 sob H0, Vˆq = VˆIV−VˆOLS
No´s podemos utilizar
VˆOLS = s
2
ÃPT
t=1 xtx
0
t
T
!−1
= s2
ÃPT
t=1 x
2
t
T
!−1
VˆIV = s2


ÃPT
t=1 ztx
0
t
T
!0ÃPT
t=1 ztz
0
t
T
!−1ÃPT
t=1 ztx
0
t
T
!

−1
= s2


ÃPT
t=1 ztxt
T
!0ÃPT
t=1 z
2
t
T
!−1ÃPT
t=1 ztxt
T
!

−1
Para s2, podemos usar os valores obtidos a patir do estimador de varia´veis
instrumentais, s2IV .
11
Econometria/listas/data.mat
Econometria/listas/lista1.pdf
Universidade de Sa˜o Paulo - Departamento de Economia
EAE 5811 - Econometria I
Prof. Ricardo Avelino
1o Semestre de 2007
Lista de Exerc´ıcios 1 - Data de Entrega 22/03/2007
1. Suponha que a f.d.p conjunta de duas varia´veis X e Y seja
f (x, y) =
½
c
¡
x2 + y
¢
, para 0 ≤ y ≤ 1− x2
0, caso contra´rio
Ache o valor da constante c, P (0 ≤ X ≤ 1/2) , P (Y ≤ X + 1) e P
¡
Y = X2
¢
.
2. Sejam X e Y duas varia´veis aleato´rias cont´ınuas independentes. Defina
a varia´vel aleato´ria Z por
Z =
½
X, com probabilidade p
Y, com probabilidade 1− p
Ache a func¸a˜o de distribuic¸a˜o de Z em termos das func¸o˜es de distribuic¸a˜o
de X e Y . Z e´ discreta? Z e´ cont´ınua?
3. Suponha que um ponto (X,Y ) e´ escolhido aleatoriamente no retaˆngulo S
definido como
S = {(x, y) : 0 ≤ x ≤ 2 e 1 ≤ y ≤ 4}
a) Determine a f.d.p conjunta de X e Y , a f.d.p marginal de X e a f.d.p
marginal de Y.
b) X e Y sa˜o independentes? Na˜o correlacionadas?
4. Sejam X e Y varia´veis aleato´rias com f.d.p conjunta
f (x, y) =
½
2 (x+ y) , para 0 ≤ x ≤ y ≤ 1
0, caso contra´rio
Ache a f.d.p de Z = X + Y.
5. Suponha que as varia´veis aleato´rias X1, ...,Xn sejam i.i.d, cada uma com
distribuic¸a˜o uniforme no intervalo [0, 1] . Seja Y1 = min {X1, ...,Xn} e Yn =
max {X1, ...,Xn} . Ache E [Y1] e E [Yn] .
6. Suponha que exista uma ac¸a˜o que na˜o e´ negociada frequ¨entemente. No
instante de tempo zero, o prec¸o da ac¸a˜o e´ conhecido e igual a P (0) . Denote
por N o nu´mero de vezes em que a ac¸a˜o sera´ negociada durante o intervalo
de tempo [0, T ] e suponha que N seja uma varia´vel aleato´ria com distribuic¸a˜o
de Poisson com paraˆmetro λ. Na i-e´sima vez em que a ac¸a˜o e´ negociada, seu
1
prec¸o varia ∆i porcento em relac¸a˜o ao prec¸o anterior. Por exemplo, se t1
e´ a primeira vez em que a ac¸a˜o e´ transacionada, P (t1) = P (0) (1 +∆1) .
Suponha adicionalmente que (1 +∆i) sejam varia´veis aleato´rias independentes
com distribuic¸a˜o log-normal para i = 1, ..., N . Uma varia´vel aleato´ria com dis-
tribuic¸a˜o log-normal tem distribuic¸a˜o normal apo´s aplicar-se o logaritmo, isto
e´, log(1 +∆i) ∼ N
¡
µ, σ2
¢
.
a) A quantidade R≡ 1T [logP [T ]− logP [0]] e´ o retorno continuamente com-
posto da ac¸a˜o no per´ıodo [0, T ]. Ache uma expressa˜o para R em func¸a˜o das
varia´veis aleato´rias N e ∆i.
b) Considere a expressa˜o para a decomposic¸a˜o da variaˆncia
V (Y ) = V [E [Y |X]] +E [V [Y |X]]
para quaisquer varia´veis aleato´rias X e Y para as quais a esperanc¸a e a variaˆncia
existam. Use essa expressa˜o para calcular V (R) , a variaˆncia do retorno, em
func¸a˜o dos paraˆmetros λ, µ e σ2.
c) O que acontece com a variaˆncia do retorno R quando a intensidade das
transac¸o˜es λ aumenta?
7. Suponha que X1, ...,Xm sejam varia´veis aleato´rias i.i.d, cada uma com
distribuic¸a˜o N
¡
µ1, σ
2
¢
, e que Y1, ..., Yn sejam varia´veis aleato´rias i.i.d, cada
uma com distribuic¸a˜o N
¡
µ2, σ
2
¢
. Defina S2X =
Pm
i=1
¡
X1 − X¯m
¢2
e S2Y =Pn
i=1
¡
Y1 − Y¯n
¢2
.
a) Para que pares de valores de α e β, αS2X+ βS
2
Y e´ um estimador na˜o
viesado de σ2?
b) Determine os valores de α e β para os quais αS2X+ βS
2
Y e´ um estimador
na˜o viesado com variaˆncia mı´nima dentro da classe de estimadores dados por
αS2X+ βS
2
Y , para algum α e β.
8. Suponha que Y1 e Y2 sejam varia´veis aleato´rias independentes com me´dia
comum µ, mas com diferentes variaˆncias V (Y1) = σ21 e V (Y2) = σ
2
2. Por
hipo´tese, σ21 e σ
2
2 sa˜o conhecidos. O valor de µ e´ desconhecido e propo˜e-se
estima´-lo por uma me´dia ponderada de Y1 e Y2, isto e´, αY1 + (1− α) Y2. Qual
valor de α produz o estimador com a menor variaˆncia poss´ıvel nessa classe?
Qual e´ a intuic¸a˜o para se usar esse valor de α?
9. Suponha que X1, ...,Xn seja uma amostra de varia´veis aleato´rias i.i.d,
cada uma com distribuic¸a˜o uniforme no intervalo [θ, θ + 3] .
Defina T1 = min {X1, ...,Xn} e Tn = max {X1, ...,Xn} . Mostre que T1 e Tn
sa˜o conjuntamente suficientes para θ.
10. Suponha que X1, ...,Xn seja uma amostra de varia´veis aleato´rias i.i.d,
cada uma com distribuic¸a˜o N
¡
µ, σ2
¢
2
a) Calcule a informac¸a˜o que X conte´m sobre θ =
¡
µ, σ2
¢
.
b) Mostre que X¯ = 1n
Pn
i=1Xi e´ um estimador na˜o viesado de µ e que X¯
atinge o limite inferior de Cramer-Rao.
11. (Desigualdade de Ho¨lder) Mostre que se p > 1, 1p +
1
q = 1, E [|X|p] <∞
e E [|X|q] <∞, enta˜o
E [|XY |] ≤ {E [|X|p]}1/p {E [|X|q]}1/q
3
Econometria/listas/lista1sol.pdf
Universidade de Sa˜o Paulo - Departamento de Economia
EAE 5811 - Econometria I
Prof. Ricardo Avelino
1o Semestre de 2007
Lista de Exerc´ıcios 1 - Soluc¸o˜es
Monitoras: Paula Pereda
Jaqueline de Oliveira
1) Se f(x, y) e´ uma f.d.p., enta˜o
R∞
−∞
R∞
−∞ f(x, y)dydx = 1.Como x ∈ [−1, 1]
e y ∈ [0, 1− x2] temos:Z ∞
−∞
Z ∞
−∞
f(x, y)dydx =
Z 1
−1
Z 1−x2
0
c(x2 + y)dydx =
Z 1
−1
·
cx2y +
cy2
2
¸1−x2
0
dx
=
Z 1
−1
(cx2(1− x2) + c(1− x
2)2
2
)dx
=
h c
2
x− c
10
x5
i1
−1
= 1
Portanto, h c
2
− c
10
i
−
h
− c
2
+
c
10
i
= 1 =⇒ c = 5/4
Agora, vamos calcular P (0 ≤ X ≤ 1/2)Z 1/2
0
Z 1−x2
0
f(x, y)dydx =
Z 1/2
0
c
2
(1− x4)dx =
Z 1/2
0
5
8
(1− x4)dx
=
·
5
8
x− 5
8
x2
5
¸1/2
0
=
5
8
1
2
−
µ
1
2
¶5
1
8
=
79
256
Para calcular P (Y ≤ X+1), temos que atentar para os limites de integrac¸a˜o.
Para satisfazer as duas restric¸o˜es simultaneamente, temos que:
0 ≤ y ≤ 1− x2 e 0 ≤ y ≤ x+ 1
Logo,
x+ 1 ≤ 1− x2 =⇒ x2 + x ≤ 0 =⇒ x(x+ 1) ≤ 0 =⇒ x ≤ 0
e
x+ 1 ≥ 0 =⇒ −1 ≤ x ≤ 0
Assim, calculamos
a probabilidade P (Y ≤ X + 1) :Z 0
−1
Z x+1
0
f(x, y)dydx =
Z 0
−1
·
cx2y + c
y2
2
¸x+1
0
=
Z 0
−1
5
8
(2x3 + 3x2 + 2x+ 1)dx
=
·
5
8
(
x4
2
+ x3 + x2 + x
¸0
−1
= 5/16
1
Por fim, temos que
P (Y = X2) = 1− P (Y > X2)− P (Y < X2)
Mas,
P (Y > X2) + P (Y < X2) = 1
pois a varia´vel e´ cont´ınua.
Portanto,
P (Y = X2) = 0
2)
Fz(z) = P (Z ≤ z) = p.P (X ≤ z) + (1− p).P (Y ≤ z)
= p.Fx(z) + (1− p).Fy(z)
onde: Fx(z) e´ a func¸a˜o distribuic¸a˜o deX e Fy(z) a de Y . Fz(.) sera´ cont´ınua uma
vez que ela sera´ a me´dia ponderada de duas func¸o˜es de distribuic¸a˜o cont´ınuas.
3) Por definic¸a˜o, sabemos que (X,Y ) e´ escolhido aleatoriamente no retaˆngulo
S. Portanto, a f.d.p.de X e Y sera´ o produto de duas distribuic¸o˜es uniformes
definidas no intervalo [0, 2] e [1, 4], ou seja,
f(x, y) =
1
2− 0 +
1
4− 1 =
1
6
A densidade e´ a mesma para todos os pontos e e´ inversamente proporcional
a` a´rea do retaˆngulo:
fY (y) =
Z 2
0
1
6
dx =
1
6
x|20 =
1
3
Por sua vez:
fX(x) =
Z 4
1
1
6
dy =
1
6
y|41 =
1
2
Para todo (X,Y ), temos:
f(x, y) =
1
6
=
1
2
.
1
3
= fX(x).fY (y)
Como a densidade conjunta pode ser fatorada como produto das distribuic¸o˜es
marginais ∀(x, y),temos que X ⊥ Y e, portanto, sa˜o na˜o correlacionados.
4) Seja fX,Y (x, y) a func¸a˜o densidade conjunta de X eY e Z = g(X,Y ) e
W = h(X,Y ) transformac¸o˜es mensura´veis, sendo g(., .) e h(., .) continuamente
diferencia´veis. Enta˜o, a func¸a˜o de densidade conjunta de z e w e´ dada por:
fZ,W (z, w) = fX,Y [G(z, w),H(u, v)]
¯¯¯¯
∂(X,Y )
∂(Z,W )
¯¯¯¯
2
onde G(z, w) e H(u, v) sa˜o as transformac¸o˜es inversas. Usando o resultado
acima para Z = X + Y e W = X, temos:
J =
∂(X,Y )
∂(Z,W )
=
¯¯¯¯
0 1
0 −1
¯¯¯¯
= −1
Portanto,
fZ,W (z, w) = fX,Y (z − w,w). |−1| = fX,Y (z − w,w)
A func¸a˜o densidade de Z sera´ a distribuic¸a˜o marginal de (Z,W ) com relac¸a˜o
a Z. Assim:
fZ(z) =
Z
w
fX,Y (z − w,w)dw
Para analisarmos o intervalo de integrac¸a˜o, temos que levar em conta que
0 ≤ x ≤ y ≤ 1.Como Z = X + Y , sabemos que
Z ≥ 2X = 2W =⇒ Z/2 ≥W
Como Y ≤ 1, temos que
X + Y ≤ 1 +X =⇒ Z ≤ 1 +XouZ − 1 ≤W
Colocando as duas restric¸o˜es no gra´fico, temos:
colocar gra´fico
Portanto, teremos intervalos de integrac¸a˜o diferentes para 0 ≤ Z ≤ 1 e
1 ≤ Z ≤ 2.Assim,
0 ≤ Z ≤ 1 :
Z z/2
0
2(z − w,w)dw = [2zw]z/20 = z
2
1 ≤ Z ≤ 2 :
Z z/2
z−1
2(z − w,w)dw = [2zw]z/2z−1 = 2z − z
2
Enta˜o:
fZ(z) =
½
z2, 0 ≤ z ≤ 1
2z − z2, 1 ≤ z ≤ 2
5) A f.d.p. de Y(1) em x e´ a soma de i = 1, 2, ..., n dos produtos das f.d.p de
X em x e da probabilidade que Xj ≥ x,∀j 6= i, ou seja,
f(Y(1) = x) =
nX
i=1

f(Xi = x).
nY
j=1,j 6=i
(1− F (Xj = x)

 =
nX
i=1
1.
nY
j=1,j 6=i
(1−
xZ
0
dt)
=
nX
i=1


nY
j=1,j 6=i
(1− x)

 =
nX
i=1
(1− x)n−1 = n(1− x)n−1
3
Portanto,
E(Y(1)) =
1Z
0
xn(1− x)n−1dx
Usando integrac¸a˜o por partes:
E(Y(1)) = [−x(1− x)n]10 +
1Z
0
(1− x)ndx =
·
−(1− x)n−1
n+ 1
¸1
0
=
1
n+ 1
A f.d.p. de Y(n) em x sera´ a soma de i = 1, 2, ..., n do produto das f.d.p. de
Xi e da P (Xj ≤ x), ∀j 6= i, isto e´,
f(Y(n) = x) =
nX
i=1

f(Xi = x).
nY
j=1,j 6=i
F (Xj = x)

 =
nX
i=1


nY
j=1,j 6=i
(
xZ
0
dt)


=
nX
i=1


nY
j=1,j 6=i
(x)

 =
nX
i=1
(x)n−1 = n(x)n−1
Assim,
E(Y(n)) =
1Z
0
xn(x)n−1dx =
1Z
0
nxndx =
·
nxn+1
n+ 1
¸1
0
=
n
n+ 1
6) a) No instante T , sabemos que a ac¸a˜o sera´ negociada N vezes. Portanto,
P (T ) = P (0)× (1 +∆1)× (1 +∆2)× ...× (1 +∆N )
Transformando em log, temos:
lnP (T ) = lnP (0) +
NP
i=1
ln(1 +∆i)
Logo,
R =
1
T
[lnP (T )− lnP (0)] = 1
T
·
NP
i=1
ln(1 +∆i)
¸
b) Sabemos que Xi sa˜o varia´veis aleato´rias i.i.d. ∼ N(µ, σ2). Enta˜o Z =
NP
i=1
Xi ∼ N(nµ;nσ2).Como ln(1 + ∆i) sa˜o v.a. com me´dia µ e variaˆncia σ2,
enta˜o:
E(R/N) =
1
T
Nµ
V (R/N) =
1
T 2
Nσ2
4
Assim,
V (R) = V
·
1
T
Nµ
¸
+E
·
1
T 2
Nσ2
¸
=
µ2
T 2
V (N) +
σ2
T 2
E(N)
Como E(N) = V (N) = λ (pois N segue uma distribuic¸a˜o Poisson), temos:
V (R) =
µ2 + σ2
T 2
.λ
Para encontrarmos o efeito de λ em V (R) basta derivar a u´ltima com relac¸a˜o
a λ. Assim:
∂V (R)
∂λ
=
µ2 + σ2
T 2
> 0
Logo a variaˆncia de R cresce quando a intensidade de transac¸o˜es aumenta.
7) a) Para αS2x + βS
2
y ser um estimador na˜o viesado de σ
2, sabemos que
E
¡
αS2x + βS
2
y
¢
= σ2. Assim:
E
¡
αS2x + βS
2
y
¢
= αE(S2x) + βE(S
2
y) = α(m− 1)σ2 + β(n− 1)σ2
= σ2[α(m− 1) + β(n− 1)]
Para o estimador ser na˜o viesado, temos que:
α(m− 1) + β(n− 1) = 1 =⇒ α = 1
(m− 1) −
(n− 1)
(m− 1)β
Portanto, o estimador sera´ na˜o viesado½
∀(α, β) =
µ
1
(m− 1) −
(n− 1)
(m− 1)β, β
¶
;β ∈ R
¾
b) Para encontrarmos o estimador de variaˆncia mı´nima, devemos minimizar
a variaˆncia do estimador em relac¸a˜o aos pareˆmetros, verificando se a condic¸a˜o
de mı´nimo e´ satisfeita. Assim:
V ar(αS2x + βS
2
y) = α
2V ar(S2x) + β
2V ar(S2y) = α
2V ar(
m
m
S2x) + β
2V ar(
n
n
S2y)
= α2m2
(m− 1)
m2
σ4 + β2n2
(n− 1)
n2
σ4
= σ4
£
α2(m− 1) + β2(n− 1)
¤
Substituindo α =
1
(m− 1) −
(n− 1)
(m− 1)β, temos:
V ar(αS2x + βS
2
y) = σ
4
"µ
1− (n− 1)β
(m− 1)
¶2
(m− 1) + β2(n− 1)
#
= σ4
"
(1− (n− 1)β)2
(m− 1) + β
2(n− 1)
#
5
Minimizando a variaˆncia com relac¸a˜o a β, temos:
∂V ar(.)
∂β
= σ4
·
2 (1− (n− 1)β) (−(n− 1))
(m− 1) + 2β(n− 1)
¸
(1)
= σ4
·
−1− (n− 1)β
(m− 1) + β
¸
= 0 (2)
Assim,
−1 + (n− 1)β + (m− 1)β = 0
portanto,
β =
1
n+m− 2
Disto segue que:
α =
1
(m− 1) −
(n− 1)
(m− 1)β =
1
(m− 1) −
(n− 1)
(m− 1) .
1
n+m− 2
=
1
(m− 1) −
(n− 1)
(m− 1) .
1
[(n− 1) + (m− 1)]
=
(n− 1) + (m− 1)− (n− 1)
(m− 1)[(n− 1) + (m− 1)] =
1
n+m− 2
Para verificarmos se estes pontos sa˜o mı´nimos devemos mostrar que a condic¸a˜o
de 2a ordem tambe´m e´ atendida:
∂2V ar(.)
∂β2
= σ4
·
(n− 1)
(m− 1) + 1
¸
> 0
Portanto, os valores de α e β que minimizam a variaˆncia do estimador sa˜o:
(α, β) =
µ
1
n+m− 2 ,
1
n+m− 2
¶
8)
µˆ = αY1 + (1− α)Y2
V (µˆ) = α2V (Y1) + (1− α)2V (Y2) = α2σ21 + (1− α)2σ22
Para encontrar o estimador de variaˆncia mı´nima devemos resolver o seguinte
problema:
min
α
V (µˆ) = α2σ21 + (1− α)2σ22
CPO :
∂V (µˆ)
∂α
= 0 =⇒ 2ασ21 − 2(1− α)σ22 = 0⇒ α =
σ22
σ22 + σ
2
1
CSO :
∂2V (µˆ)
∂α2
= 2σ21 + 2σ
2
2 > 0
6
Intuic¸a˜o: colocar pesos inversamente proporcionais a` variaˆncia das varia´veis.
Se a variaˆncia de Y2 aumenta, por exemplo, a precisa˜o da me´dia estimada de
Y2 diminui. Consequentemente, da´-se um peso maior para Y1.
9) Seja fn(Xi, θ) a densidade conjunta de X1, ...,Xn. O vetor (T1, T2) e´ uma
estat´ıstica suficiente para θ se e so´ se a densidade conjunta, condicional a` (T1, T2)
pode ser fatorada como o produto de dois termos: τ(X) e g(h(X), θ), onde τ(X)
depende de X1, ...,Xn. mas na˜o de θ e g(h(X), θ) depende de θ
e de X1, ...,Xn.
apenas por meio da estat´ıstica suficiente h(X).
Defina as func¸o˜es h1(X) e h2(X) como:
h1(T1(X)) =
½
1 se {X1,X2, ...,Xn} ≥ θ
0, caso contra´rio
e
h2(T2(X)) =
½
1 se {X1,X2, ...,Xn} ≤ θ + 3
0, caso contra´rio
Enta˜o,
fn(Xi, θ/(T1, T2)) =
·
1
(θ + 3)− θ
¸n
h1(T1(X)).h2(T2(X))
=
1
3n
h1(T1(X)).h2(T2(X))
As func¸o˜es τ(X) e g(h(X), θ) na definic¸a˜o de uma estat´ıstica suficiente cor-
respondem a`
1
3n
e h1(T1(X)).h2(T2(X)) respectivamente. O primeiro termo do
lado direito na˜o depende de θ e o segundo depende de θ e X1,X2, ...,Xn apenas
por meio de T1(X) e T2(X). Logo, o vetor (T1(X), T1(X)) e´ uma estat´ıstica
suficiente para θ.
10) a) A func¸a˜o de verossimilhanc¸a da amostra e´:
L(µ, σ2) = ln
nQ
i=1
1
(2πσ2)1/2
exp
½
−1
2σ2
(Xi − µ)2
¾
=
nP
i=1
ln
·
1
(2πσ2)1/2
exp
½
−1
2σ2
(Xi − µ)2
¾¸
= −n
2
ln(2π)− n
2
lnσ2 − 1
2σ2
nP
i=1
(Xi − µ)2
As derivadas com relac¸a˜o a` µ e σ2 sa˜o:
∂L
∂µ
=
nP
i=1
(Xi − µ)
σ2
∂L
∂σ2
= −n
2
.
1
σ2
+
1
2(σ2)2
nP
i=1
(Xi − µ)2
7
As segundas derivadas sa˜o:
∂2L
∂µ2
= − n
σ2
∂2L
∂(σ2)2
=
n
2(σ2)2
−
nP
i=1
(Xi − µ)2
(σ2)3
∂2L
∂µ∂σ2
=
∂2L
∂σ2∂µ
= −
nP
i=1
(Xi − µ)
(σ2)2
A matriz de informac¸a˜o de Fischer e´:
I(θ) =
½
−E
·
∂2 lnL
∂θ∂θ0
¸¾
=


n
σ2
0
0
n
2σ4


b) A desigualdade de Cramer-Rao estabelece que
Cov(θ) ≥ [I(θ)]−1 =⇒ Cov(θ) ≥


σ2
n
0
0
2σ4
n


Temos que mostrar que E(X¯) = µ e que V (X¯) =
σ2
n
E(X¯) = E
µ
1
n
nP
i=1
Xi
¶
=
1
n
nP
i=1
E(Xi) =
1
n
(µ+ µ+ ...+ µ) =
n
n
µ = µ
V (X¯) = V
µ
1
n
nP
i=1
Xi
¶
=
1
n2
nP
i=1
V (Xi) =
1
n2
nσ2 =
σ2
n
Logo X¯ e´ estimador na˜o viesado de µ e atinge o limite inferior de Cramer-
Rao.
11) Suponha que o primeiro termo do lado direito da desigualdade seja zero.
Enta˜o, X = 0 com probabilidade 1. Assim, o lado direito da desigualdade
tambe´m e´ zero, e isto satisfaz a desigualdade acima. Suponha agora que o lado
direito da desigualdade seja positivo. Se a e b sa˜o positivos, enta˜o existem s e
t tais que a = e
s
p e b = e
t
q . Como ex e´ uma func¸a˜o convexa, pela desigualdade
de Jensen,
e(
1
p s+
1
q t) ≤ 1
p
es +
1
q
et ou a.b ≤ a
p
p
+
bq
q
(∗)
Para a = |X| e b = |Y | ,
|XY | ≤ 1
p
|X|p + 1
q
|Y |q
Suponha que
E(|X|p) = E(|Y |q) = 1
8
Enta˜o
E |XY | ≤ 1
p
E(|X|p) + 1
q
E(|Y |q) = 1
p
+
1
q
= 1
Defina
X 0 =
X
(E |X|p)
1
p
e Y 0 =
Y
(E |Y |q)
1
q
Obviamente,
E(|X 0|p) = E |X|
p
E |X|p = 1 e E(|Y
0|q) = E |Y |
q
E |Y |q = 1
Portanto,
E |X 0Y 0| ≤ 1⇒ E
¯¯¯¯
¯¯ X
(E |X|p)
1
p
Y
(E |Y |q)
1
q
¯¯¯¯
¯¯ ≤ 1⇒ E |XY | ≤ (E |X|p) 1p (E |Y |q) 1q
9
Econometria/listas/lista2.pdf
Universidade de Sa˜o Paulo - Departamento de Economia
EAE 5811 - Econometria I
Prof. Dr. Ricardo Avelino
1o Semestre de 2007
Lista de Exerc´ıcios 2 - Data de Entrega 03/04/2007
1. Considere o modelo de regressa˜o
yt = xtβ + εt, t = 1, ..., T
onde xt e´ 1x1. Sejam x = [x1, ..., xT ]
0 e ε = [ε1, ..., εT ]
0 . Assuma que E [ε|x] = 0
e E [εε0|x] = σ2I. Ao longo de todo o problema, derive os resultados condicio-
nando em x.
Defina x¯ = 1n
PT
t=1 xt e y¯ similarmente.
a) Considere o estimador β∗ = y¯x¯ . Mostre que β
∗ e´ linear e na˜o viesado.
Calcule sua variaˆncia e compare com a variaˆncia do estimador de MQO.
b) Suponha que voceˆ decida usar as primeiras τ < T observac¸o˜es e aplique
MQO. Mostre que o estimador resultante β∗∗ e´ linear e na˜o viesado, mas na˜o
possui variaˆncia mı´nima.
c) Derive o estimador linear com variaˆncia mı´nima (na˜o necessariamente na˜o
viesado).
2. (Varia´veis irrelevantes)
Suponha que o modelo verdadeiro seja
yt = x0tβ + εt, t = 1, ..., T
mas que um econometrista erroneamente postule
yt = x0tβ + z
0
tγ + εt, t = 1, ..., T
onde xt e´ kx1 e zt e´ mx1. Sejam x = [x1, ..., xT ]
0 , z = [z1, ..., zT ]
0 e ε =
[ε1, ..., εT ]
0 . Assuma que E [ε|x, z] = 0 e E [εε0|x, z] = σ2I. Novamente, derive
os resultados condicionando nos valores dos regressores.
Denote por βˆ o estimador de MQO no modelo correto. Denote por β˜ e γ˜ os
estimadores de MQO no modelo incorretamente especificado.
a) β˜ e´ na˜o viesado para β?
b) Compute a matriz de covariaˆncia de
³
β˜, γ˜
´
. Compare o bloco da matriz
de covariaˆncia correspondente a β˜ com a matriz de covariaˆncia de βˆ. Quando
eles sa˜o iguais?
1
3. Considere o modelo
yt = α+ xtβ + εt, t = 1, ..., T
onde xt e´ kx1. Sejam x = [x1, ..., xT ]
0
e ε = [ε1, ..., εT ]
0 . Assuma que E [ε|x] = 0
e E [εε0|x, z] = σ2I. Novamente, derive os resultados condicionando em x.
Denote por βˆ o estimador de MQO de β e use σˆβˆ para denotar o desvio
padra˜o estimado. Suponha que no´s multipliquemos todas as observac¸o˜es (yt, xt)
por λ e reestimemos a regressa˜o por MQO para obter β˜ e use σ˜β˜ .
a) No´s obtemos a mesma estimativa para β?
b) O R2 muda?
c) O valor da estat´ıstica t de Student para H0 : β = 0 muda?
d) O vetor estimado dos res´ıduos εˆt = yt − αˆ− xtβˆ muda?
4. Considere o modelo
yt = α+ x1tβ1 + x2tβ2 + εt, t = 1, ..., T
onde x1t e´ kx1 e x2t e´ mx1. Sejam x1 = [x11, ..., x1T ]
0 , x2 = [x21, ..., x2T ]
0 , y =
[y1, ..., yT ]
0 e ε = [ε1, ..., εT ]
0 . Assuma que E [ε|x1, x2] = 0, E [εε0|x1, x2] = σ2I
e que x01x2 = 0. Novamente, derive os resultados condicionando em x1, x2.
a) Mostre que o u´nico estimador linear, na˜o viesado, com variaˆncia mı´nima
de (β1, β2) pode ser escrito como
β˜1 = (x
0
1x1)
−1 x01y, β˜2 = (x
0
2x2)
−1 x02y
Note que esses sa˜o os estimadores de MQO para os modelos yt = α1+x1tβ1+
εt e yt = α2 + x2tβ2 + εt, respectivamente.
b) β˜1 e β˜2 sa˜o na˜o viesados se x
0
1x2 6= 0? Caso na˜o sejam, compute o vie´s
de cada um deles.
c) Suponha agora que x01x2 6= 0. Seja M2 = I − x2 (x02x2)−1 x02 e defina M1
similarmente. Qual e´ a interpretac¸a˜o de M1 e M2? Mostre que a estimativa de
MQO de β1 pode ser escrita como
βˆ1 = (x
0
1M2x1)
−1 x01M2y
e similarmente para βˆ2. Compute as matrizes de variaˆncia de βˆ1 e βˆ2.
d) Considere o caso em que k = 1, m = 1 e x01x2 6= 0. Expresse a variaˆncia
de βˆ1 como uma func¸a˜o do coeficiente de correlac¸a˜o amostral entre x1 e x2, r
2
12.
O que ocorre quando r212 → 1?
2
5. Considere os dois modelos
yt = a+ xtb+ et (1)
xt = α+ ytβ + εt (2)
t = 1, ..., T , onde xt e yt sa˜o 1x1. Sejam x = [x1, ..., xT ]
0 , z = [z1, ..., zT ]
0 ,
ε = [ε1, ..., εT ]
0 e e = [e1, ..., eT ]
0 . Assuma que E [e|x] = 0, E [ee0|x] = σ2eI,
E [ε|y] = 0 e que E [εε0|x] = σ2εI. Seja bˆ o estimador de MQO de b e βˆ o
estimador de MQO de β. Sejam R21 e R
2
2 os valores de R
2 dos modelos (1) e (2) ,
respectivamente.
a) Suponha que voceˆ ache bˆ > 0. Compare βˆ e 1
bˆ
?
b) Compare R21 e R
2
2.
6. (Forma funcional errada)
Suponha que o modelo verdadeiro seja
yt = α+ ln (xt)β + εt (1)
t = 1, ..., T , onde xt e´ 1x1. Sejam ln (x) = [ln (x1) , ..., ln (xT )]
0 , x = [x1, ..., xT ]
0 , y =
[y1, ..., yT ]
0
e ε = [ε1, ..., εT ]
0 . Entretanto, voceˆ erroneamente estima
yt = a+ xtb+ ut (2)
a) Mostre
que E [ut|x] 6= 0.
b) Seja bˆ o estimador de MQO de b em (2) . bˆ e´ na˜o viesado para b (condicional
em x)?
7. Suponha que o governo local queira implementar uma taxa sobre os
proprieta´rios de resideˆncia igual a 1% do valor dos imo´veis. Infelizmente, o
governo na˜o sabe o valor das casas. Ele, entretanto, tem acesso a um vetor
de caracter´ısticas das resideˆncias. Voceˆ e´ contratado como um consultor para
apresentar as estimativas dos valores das resideˆncias.
Primeiro, voceˆ coleta de imobilia´rias os prec¸os de venda e as caracter´ısticas
das resideˆncias para uma amostra aleato´ria de resideˆncias negociadas no u´ltimo
ano. Voceˆ enta˜o estima uma regressa˜o dos prec¸os de venda nas caracter´ısticas
(tamanho do imo´vel, nu´mero de banheiros, localizac¸a˜o, etc).
Segundo, voceˆ usa as estimativas dos paraˆmetros e a informac¸a˜o que o gov-
erno lhe cedeu acerca de cada resideˆncia na cidade para prever os prec¸os de cada
imo´vel. O governo implementa o imposto usando os seus reultados.
Dois anos mais tarde, o governo e´ processado por um grupo de cidada˜os.
Eles afirmam que foram taxados excessivamente, pois suas casas foram sub-
sequ¨entemente negociadas por um valor inferior ao que voceˆ estimou. Voceˆ e´
chamado como testemunha para defender seus resultados. O que voceˆ diz? O
que o especialista contratado pelos cidada˜os possivelmente dira´?
3
Econometria/listas/lista2.xls
Plan2
				Índice da taxa de câmbio efetiva real (IPCA) - Jun/1994=100
				txrealdecambioR$/US$						IMPORTAÇÃO US$				EXPORTAÇÃO US$				PIB MENSAL EM US$
		Jan-88		132,26				Jan-88		1.111.400.000		Jan-88		2.157.938.939
		Fev-88		133,93				Fev-88		1.163.955.000		Fev-88		2.060.357.802
		Mar-88		134,91				Mar-88		1.240.993.000		Mar-88		2.471.532.175
		Abr-88		133,42				Abr-88		917.265.000		Abr-88		2.812.873.800
		Mai-88		136,6				Mai-88		1.154.275.000		Mai-88		2.904.311.249
		Jun-88		133,12				Jun-88		1.277.620.000		Jun-88		3.103.458.409
		Jul-88		132,73				Jul-88		1.114.294.000		Jul-88		2.971.607.113
		Ago-88		135,83				Ago-88		1.377.869.000		Ago-88		3.462.674.796
		Set-88		130,88				Set-88		1.284.293.000		Set-88		3.311.780.849
		Out-88		131,94				Out-88		1.172.114.000		Out-88		2.679.965.175
		Nov-88		131,92				Nov-88		1.243.106.000		Nov-88		2.950.025.793
		Dez-88		130,92				Dez-88		1.548.070.000		Dez-88		2.902.839.121
		Jan-89		128,79				Jan-89		1.235.647.299		Jan-89		2.751.139.080
		Fev-89		122,63				Fev-89		1.164.147.240		Fev-89		2.262.854.556
		Mar-89		115,46				Mar-89		1.280.294.945		Mar-89		2.846.266.468
		Abr-89		108,89				Abr-89		1.030.431.654		Abr-89		2.398.243.853
		Mai-89		100,55				Mai-89		1.481.006.790		Mai-89		2.832.211.961
		Jun-89		95,32				Jun-89		1.601.313.338		Jun-89		3.685.928.316
		Jul-89		107,08				Jul-89		1.680.224.337		Jul-89		3.200.024.700
		Ago-89		103,72				Ago-89		1.909.358.978		Ago-89		3.364.293.736
		Set-89		99,85				Set-89		1.789.718.877		Set-89		2.951.100.517
		Out-89		98,65				Out-89		1.686.750.949		Out-89		2.744.119.764
		Nov-89		93,09				Nov-89		1.652.846.190		Nov-89		2.575.230.707
		Dez-89		91,2				Dez-89		1.751.692.141		Dez-89		2.771.206.052
		Jan-90		85,01		0,08501		Jan-90		1.678.274.554		Jan-90		2.279.822.697		Jan-90		37.932		0,0442442938		0,0601028867
		Fev-90		80,35		0,08035		Fev-90		1.251.569.870		Fev-90		1.974.460.602		Fev-90		36.947		0,033874736		0,0534403497
		Mar-90		70,58		0,07058		Mar-90		1.646.230.450		Mar-90		2.231.975.909		Mar-90		37.204		0,0442487488		0,0599929015
		Abr-90		77,73		0,07773		Abr-90		1.362.700.701		Abr-90		2.558.374.314		Abr-90		33.823		0,0402891731		0,0756400767
		Mai-90		78,97		0,07897		Mai-90		1.534.042.438		Mai-90		3.231.774.810		Mai-90		38.409		0,039939661		0,0841410818
		Jun-90		77,7		0,0777		Jun-90		1.369.160.648		Jun-90		2.509.955.243		Jun-90		39.509		0,0346543989		0,0635286958
		Jul-90		80,44		0,08044		Jul-90		1.576.211.087		Jul-90		3.081.963.921		Jul-90		40.199		0,0392102064		0,0766676763
		Ago-90		77,59		0,07759		Ago-90		1.999.407.084		Ago-90		3.061.546.504		Ago-90		42.866		0,0466431924		0,0714213247
		Set-90		71,99		0,07199		Set-90		1.898.574.858		Set-90		2.592.084.719		Set-90		42.370		0,0448094137		0,0611773594
		Out-90		79,78		0,07978		Out-90		2.037.734.813		Out-90		2.332.737.929		Out-90		42.492		0,0479557284		0,0548982851
		Nov-90		88,57		0,08857		Nov-90		2.263.086.380		Nov-90		2.664.596.423		Nov-90		41.357		0,0547207578		0,0644291516
		Dez-90		93,88		0,09388		Dez-90		2.044.369.156		Dez-90		2.894.462.969		Dez-90		36.209		0,056460249		0,0799376666
		Jan-91		97,74		0,09774		Jan-91		1.622.334.378		Jan-91		2.929.306.371		Jan-91		30.398		0,0533697736		0,096365102
		Fev-91		93,08		0,09308		Fev-91		1.245.037.634		Fev-91		2.269.792.477		Fev-91		29.251		0,042563934		0,0775970899
		Mar-91		86,41		0,08641		Mar-91		1.462.993.499		Mar-91		2.612.517.898		Mar-91		29.682		0,0492889124		0,0880169092
		Abr-91		90,34		0,09034		Abr-91		1.619.011.565		Abr-91		3.023.747.172		Abr-91		32.855		0,0492774788		0,09203309
		Mai-91		91,3		0,0913		Mai-91		1.577.352.001		Mai-91		2.911.547.911		Mai-91		34.565		0,0456343701		0,0842339913
		Jun-91		89,87		0,08987		Jun-91		1.837.797.338		Jun-91		2.810.771.386		Jun-91		35.066		0,0524096657		0,0801566014
		Jul-91		88,41		0,08841		Jul-91		1.789.321.946		Jul-91		2.561.131.698		Jul-91		36.559		0,0489434051		0,0700547525
		Ago-91		86,56		0,08656		Ago-91		2.152.628.221		Ago-91		2.804.630.892		Ago-91		37.793		0,0569583844		0,0742103271
		Set-91		86,86		0,08686		Set-91		1.671.899.230		Set-91		2.069.590.372		Set-91		35.940		0,0465191772		0,0575845958
		Out-91		98,48		0,09848		Out-91		2.247.610.754		Out-91		2.655.557.830		Out-91		36.885		0,0609356311		0,0719956034
		Nov-91		100,03		0,10003		Nov-91		2.005.551.237		Nov-91		2.457.609.156		Nov-91		35.111		0,0571203109		0,069995419
		Dez-91		104,69		0,10469		Dez-91		1.808.932.989		Dez-91		2.514.236.280		Dez-91		31.581		0,0572791548		0,0796123074
		Jan-92		104,06		0,10406		Jan-92		1.651.851.325		Jan-92		2.568.678.733		Jan-92		29.582		0,0558397446		0,0868324905
		Fev-92		103,74		0,10374		Fev-92		1.521.411.775		Fev-92		2.388.865.590		Fev-92		30.315		0,0501867648		0,0788014379
		Mar-92		105,39		0,10539		Mar-92		1.457.374.521		Mar-92		2.886.553.797		Mar-92		30.954		0,0470819449		0,0932530141
		Abr-92		106,55		0,10655		Abr-92		1.504.126.699		Abr-92		2.681.374.803		Abr-92		31.144		0,048295874		0,0860960314
		Mai-92		102,25		0,10225		Mai-92		1.564.050.980		Mai-92		2.915.734.414		Mai-92		32.192		0,0485850826		0,0905732609
		Jun-92		102,29		0,10229		Jun-92		1.656.885.873		Jun-92		2.954.022.594		Jun-92		32.916		0,0503367928		0,0897442762
		Jul-92		102,29		0,10229		Jul-92		1.956.259.686		Jul-92		3.441.123.535		Jul-92		33.753		0,0579580981		0,1019501536
		Ago-92		102,48		0,10248		Ago-92		1.622.022.263		Ago-92		3.024.446.393		Ago-92		33.624		0,048240015		0,0899490362
		Set-92		101,86		0,10186		Set-92		1.643.644.589		Set-92		3.016.089.684		Set-92		33.590		0,048932557		0,0897912975
		Out-92		102,03		0,10203		Out-92		1.992.171.394		Out-92		3.220.010.036		Out-92		33.845		0,058861616		0,0951399036
		Nov-92		104,6		0,1046		Nov-92		1.761.569.575		Nov-92		3.276.234.044		Nov-92		33.803		0,0521128176		0,0969213988
		Dez-92		102,87		0,10287		Dez-92		2.222.722.371		Dez-92		3.419.852.221		Dez-92		31.577		0,0703905492		0,108301999
		Jan-93		99,99		0,09999		Jan-93		1.798.236.566		Jan-93		2.813.338.500		Jan-93		32.179		0,0558823011		0,087427779
		Fev-93		102,04		0,10204		Fev-93		1.431.796.524		Fev-93		2.889.473.005		Fev-93		31.909		0,044871244		0,090553543
		Mar-93		101,18		0,10118		Mar-93		2.000.557.434		Mar-93		3.508.669.214		Mar-93		35.319		0,0566425276		0,0993422581
		Abr-93		101,55		0,10155		Abr-93		2.124.756.634		Abr-93		3.027.828.512		Abr-93		35.452		0,0599333362		0,0854064231
		Mai-93		102,67		0,10267		Mai-93		1.590.052.299		Mai-93		2.884.488.074		Mai-93
36.072		0,0440799595		0,0799647392
		Jun-93		102,66		0,10266		Jun-93		2.292.208.212		Jun-93		3.238.276.306		Jun-93		36.181		0,0633539209		0,0895021228
		Jul-93		102,48		0,10248		Jul-93		2.770.439.219		Jul-93		3.423.383.514		Jul-93		37.266		0,074342275		0,091863455
		Ago-93		101,88		0,10188		Ago-93		2.340.892.116		Ago-93		3.502.691.494		Ago-93		37.884		0,0617910494		0,0924583332
		Set-93		101,1		0,1011		Set-93		2.217.389.499		Set-93		3.444.725.580		Set-93		37.748		0,0587419068		0,0912558435
		Out-93		103,1		0,1031		Out-93		2.094.219.896		Out-93		3.240.464.764		Out-93		37.291		0,0561588559		0,086896698
		Nov-93		103,58		0,10358		Nov-93		2.039.596.468		Nov-93		3.171.193.415		Nov-93		37.266		0,0547307591		0,0850961578
		Dez-93		102,76		0,10276		Dez-93		2.555.856.060		Dez-93		3.410.236.669		Dez-93		35.118		0,0727790894		0,0971079409
		Jan-94		102,01		0,10201		Jan-94		1.768.675.231		Jan-94		2.747.187.653		Jan-94		40.415		0,0437628413		0,0679744563
		Fev-94		102,83		0,10283		Fev-94		2.030.100.974		Fev-94		2.778.288.879		Fev-94		39.335		0,0516105497		0,0706314702
		Mar-94		100,8		0,1008		Mar-94		2.248.937.491		Mar-94		3.350.391.558		Mar-94		43.588		0,0515953357		0,0768649986
		Abr-94		102,19		0,10219		Abr-94		2.151.981.505		Abr-94		3.634.841.763		Abr-94		42.375		0,0507842243		0,0857779767
		Mai-94		101,45		0,10145		Mai-94		2.624.852.192		Mai-94		3.862.059.965		Mai-94		44.227		0,059349542		0,0873235798
		Jun-94		100		0,1		Jun-94		2.498.707.144		Jun-94		3.727.904.800		Jun-94		44.983		0,0555478102		0,0828736367
		Jul-94		87,56		0,08756		Jul-94		2.514.352.437		Jul-94		3.738.057.136		Jul-94		45.497		0,0552641369		0,0821605191
		Ago-94		83,17		0,08317		Ago-94		2.775.732.351		Ago-94		4.282.100.334		Ago-94		48.526		0,0572009304		0,0882434228
		Set-94		79,03		0,07903		Set-94		2.641.132.607		Set-94		4.162.083.280		Set-94		48.915		0,0539943291		0,0850880769
		Out-94		75,37		0,07537		Out-94		3.186.329.072		Out-94		3.842.498.153		Out-94		49.317		0,0646091423		0,077914272
		Nov-94		73,06		0,07306		Nov-94		4.114.517.725		Nov-94		3.706.207.709		Nov-94		49.005		0,083961182		0,0756291748
		Dez-94		72,51		0,07251		Dez-94		4.523.371.403		Dez-94		3.713.527.632		Dez-94		46.904		0,0964389264		0,0791729412
		Jan-95		71,33		0,07133		Jan-95		3.283.871.691		Jan-95		2.980.189.648		Jan-95		55.720		0,0589352421		0,0534850978
		Fev-95		70,39		0,07039		Fev-95		4.012.483.902		Fev-95		2.951.705.224		Fev-95		54.592		0,0734994853		0,0540684574
		Mar-95		73,52		0,07352		Mar-95		4.721.391.753		Mar-95		3.798.681.210		Mar-95		60.069		0,0785994732		0,0632386291
		Abr-95		73,55		0,07355		Abr-95		3.863.499.716		Abr-95		3.393.925.048		Abr-95		58.436		0,0661150612		0,0580793526
		Mai-95		70,91		0,07091		Mai-95		4.897.139.765		Mai-95		4.204.778.920		Mai-95		58.588		0,0835860546		0,0717686031
		Jun-95		70,8		0,0708		Jun-95		4.896.576.559		Jun-95		4.119.904.081		Jun-95		59.329		0,0825325989		0,0694416572
		Jul-95		70,3		0,0703		Jul-95		4.002.873.561		Jul-95		4.004.041.602		Jul-95		59.648		0,0671082611		0,0671278434
		Ago-95		70,77		0,07077		Ago-95		4.461.347.220		Ago-95		4.558.093.534		Ago-95		60.717		0,0734777281		0,0750711256
		Set-95		71,03		0,07103		Set-95		3.687.438.016		Set-95		4.166.886.329		Set-95		60.660		0,0607886254		0,0686924881
		Out-95		70,79		0,07079		Out-95		4.076.040.237		Out-95		4.405.190.260		Out-95		60.484		0,0673903882		0,0728323236
		Nov-95		70,01		0,07001		Nov-95		4.136.940.625		Nov-95		4.047.844.579		Nov-95		60.662		0,0681965749		0,0667278458
		Dez-95		69,17		0,06917		Dez-95		3.932.293.162		Dez-95		3.875.041.979		Dez-95		63.043		0,0623747785		0,0614666494
		Jan-96		69,16		0,06916		Jan-96		3.439.787.016		Jan-96		3.472.938.473		Jan-96		63.000		0,0545997939		0,0551260075
		Fev-96		69,1		0,0691		Fev-96		3.434.791.032		Fev-96		3.404.705.497		Fev-96		63.660		0,0539552471		0,05348265
		Mar-96		69,57		0,06957		Mar-96		3.876.447.215		Mar-96		3.408.143.883		Mar-96		67.656		0,0572964292		0,0503745992
		Abr-96		69,26		0,06926		Abr-96		4.073.777.083		Abr-96		4.271.322.377		Abr-96		67.748		0,0601313261		0,0630472099
		Mai-96		68,91		0,06891		Mai-96		4.249.152.517		Mai-96		4.505.748.028		Mai-96		70.238		0,0604964907		0,0641497199
		Jun-96		68,55		0,06855		Jun-96		4.167.947.665		Jun-96		3.839.945.609		Jun-96		68.865		0,0605234541		0,0557604822
		Jul-96		68,31		0,06831		Jul-96		4.806.883.178		Jul-96		4.458.942.508		Jul-96		73.332		0,0655495988		0,060804867
		Ago-96		68,58		0,06858		Ago-96		4.661.593.905		Ago-96		4.380.857.474		Ago-96		75.071		0,0620958014		0,0583561891
		Set-96		69,09		0,06909		Set-96		4.748.326.554		Set-96		4.115.239.467		Set-96		73.881		0,064269928		0,0557009172
		Out-96		69,5		0,0695		Out-96		5.496.716.406		Out-96		4.187.927.360		Out-96		74.674		0,0736095081		0,0560828047
		Nov-96		69,77		0,06977		Nov-96		4.755.666.572		Nov-96		3.911.558.859		Nov-96		73.059		0,0650935076		0,0535397262
		Dez-96		69,9		0,0699		Dez-96		5.634.678.013		Dez-96		3.789.398.623		Dez-96		69.084		0,0815627065		0,0548520442
		Jan-97		69,68		0,06968		Jan-97		2.512.124.153		Jan-97		3.684.586.329		Jan-97		67.443		0,0372481081		0,0546325983
		Fev-97		69,98		0,06998		Fev-97		4.249.308.184		Fev-97		3.146.244.637		Fev-97		66.179		0,0642093139		0,0475414352
		Mar-97		70,29		0,07029		Mar-97		4.727.504.270		Mar-97		3.826.132.782		Mar-97		69.722		0,0678050582		0,0548769797
		Abr-97		70,04		0,07004		Abr-97		5.534.607.111		Abr-97		4.628.821.188		Abr-97		71.452		0,077459093		0,0647822481
		Mai-97		70,2		0,0702		Mai-97		4.721.520.682		Mai-97		4.658.958.507		Mai-97		73.160		0,0645369147		0,0636817729
		Jun-97		70,32		0,07032		Jun-97		5.208.071.998		Jun-97		4.844.460.901		Jun-97		73.200		0,0711485246		0,0661811598
		Jul-97		70,65		0,07065		Jul-97		5.782.869.007		Jul-97		5.238.795.799		Jul-97		74.341		0,077788421		0,0704698053
		Ago-97		71,27		0,07127		Ago-97		5.369.525.218		Ago-97		5.074.799.308		Ago-97		75.612		0,0710141938		0,0671163216
		Set-97		71,78		0,07178		Set-97		5.435.408.787		Set-97		4.588.311.030		Set-97		76.265		0,0712700293		0,0601627356
		Out-97		72,22		0,07222		Out-97		5.644.715.601		Out-97		4.793.012.347		Out-97		79.229		0,0712455742		0,0604956815
		Nov-97		72,52		0,07252		Nov-97		5.262.503.581		Nov-97		3.975.930.433		Nov-97		75.205		0,0699754482		0,0528679002
		Dez-97		72,53		0,07253		Dez-97		5.299.068.496		Dez-97		4.534.287.266		Dez-97		69.466		0,0762829081		0,0652734757
		Jan-98		72,56		0,07256		Jan-98		4.641.272.855		Jan-98		3.916.861.090		Jan-98		65.184		0,0712026395		0,0600893024
		Fev-98		72,83		0,07283		Fev-98		3.943.235.604		Fev-98		3.715.926.053		Fev-98		63.825		0,0617819914		0,0582205414
		Mar-98		73,15		0,07315		Mar-98		5.167.087.047		Mar-98		4.273.985.367		Mar-98		69.297		0,0745643685		0,0616763405
		Abr-98		73,59		0,07359		Abr-98		4.629.068.494		Abr-98		4.576.580.125		Abr-98		70.266		0,0658792089		0,0651322137
		Mai-98		73,8		0,0738		Mai-98		4.736.139.222		Mai-98		4.611.933.252		Mai-98		72.453		0,065368435		0,0636541379
		Jun-98		74,3		0,0743		Jun-98		4.703.891.762		Jun-98		4.886.364.504		Jun-98		71.381		0,065898373		0,0684546939
		Jul-98		74,92		0,07492		Jul-98		5.394.787.069		Jul-98		4.970.110.086		Jul-98		72.783		0,0741215266		0,068286689
		Ago-98		76,06		0,07606		Ago-98		4.155.992.635		Ago-98		3.985.621.684		Ago-98		73.341		0,0566667026		0,0543437052
		Set-98		76,92		0,07692		Set-98		5.741.168.184		Set-98		4.538.094.015		Set-98		72.871		0,078785363		0,0622757203
		Out-98		77,58		0,07758		Out-98		5.460.080.480		Out-98		4.016.893.914		Out-98		73.718		0,0740671272		0,0544900013
		Nov-98		78,02		0,07802		Nov-98		4.736.030.454		Nov-98		3.703.504.560		Nov-98		71.741		0,0660156738		0,0516232637
		Dez-98		78,48		0,07848		Dez-98		4.454.722.168		Dez-98		3.943.986.895		Dez-98		67.126		0,0663635874		0,0587549816
		Jan-99		97,34		0,09734		Jan-99		3.667.312.990		Jan-99		2.949.154.776		Jan-99		44.829		0,0818067097		0,0657867625
		Fev-99		122,89
0,12289		Fev-99		3.166.425.156		Fev-99		3.266.867.013		Fev-99		44.042		0,0718955805		0,074176173
		Mar-99		120,85		0,12085		Mar-99		4.057.036.252		Mar-99		3.829.412.981		Mar-99		48.716		0,0832793385		0,0786068844
		Abr-99		108,11		0,10811		Abr-99		3.675.602.407		Abr-99		3.706.750.870		Abr-99		48.740		0,0754124417		0,0760515156
		Mai-99		107,11		0,10711		Mai-99		4.087.415.915		Mai-99		4.386.466.597		Mai-99		49.105		0,0832382836		0,0893283087
		Jun-99		112,11		0,11211		Jun-99		4.460.858.184		Jun-99		4.312.612.911		Jun-99		49.352		0,0903885999		0,0873847648
		Jul-99		113,44		0,11344		Jul-99		4.032.469.776		Jul-99		4.117.096.889		Jul-99		49.252		0,0818742341		0,0835924813
		Ago-99		118,13		0,11813		Ago-99		4.466.090.407		Ago-99		4.277.089.174		Ago-99		50.669		0,088142462		0,0844123463
		Set-99		119,42		0,11942		Set-99		4.243.634.595		Set-99		4.187.087.694		Set-99		50.709		0,0836860241		0,0825708985
		Out-99		122,67		0,12267		Out-99		4.460.002.264		Out-99		4.304.132.509		Out-99		51.546		0,0865247015		0,0835008053
		Nov-99		119,15		0,11915		Nov-99		4.535.745.970		Nov-99		4.001.797.406		Nov-99		51.010		0,0889187604		0,0784512332
		Dez-99		113,09		0,11309		Dez-99		4.448.963.776		Dez-99		4.674.321.127		Dez-99		48.807		0,0911542151		0,0957715313
		Jan-00		110,34		0,11034		Jan-00		3.568.862.639		Jan-00		3.453.879.475		Jan-00		48.231		0,0739952031		0,0716111935
		Fev-00		109,1		0,1091		Fev-00		4.046.750.398		Fev-00		4.124.889.858		Fev-00		50.178		0,0806479014		0,0822051468
		Mar-00		107,7		0,1077		Mar-00		4.452.388.562		Mar-00		4.473.245.145		Mar-00		53.255		0,0836050805		0,0839967166
		Abr-00		108,93		0,10893		Abr-00		3.996.925.496		Abr-00		4.183.741.237		Abr-00		51.914		0,0769912836		0,0805898455
		Mai-00		112,72		0,11272		Mai-00		4.697.876.646		Mai-00		5.065.528.883		Mai-00		54.347		0,0864422442		0,0932071482
		Jun-00		111,84		0,11184		Jun-00		4.605.748.293		Jun-00		4.863.568.081		Jun-00		54.847		0,0839744798		0,0886751888
		Jul-00		109,68		0,10968		Jul-00		4.887.298.954		Jul-00		5.005.990.739		Jul-00		54.718		0,0893179384		0,0914870927
		Ago-00		108,95		0,10895		Ago-00		5.425.167.233		Ago-00		5.522.393.935		Ago-00		56.038		0,0968122922		0,098547306
		Set-00		111,08		0,11108		Set-00		5.054.179.504		Set-00		4.727.432.602		Set-00		54.743		0,0923255851		0,086356842
		Out-00		113,56		0,11356		Out-00		5.188.245.047		Out-00		4.641.288.911		Out-00		57.078		0,0908974569		0,0813148483
		Nov-00		117,38		0,11738		Nov-00		5.052.874.250		Nov-00		4.394.431.433		Nov-00		56.064		0,0901268952		0,07838241
		Dez-00		117,54		0,11754		Dez-00		4.874.346.116		Dez-00		4.662.529.566		Dez-00		53.572		0,0909868236		0,0870329569
		Jan-01		117,09		0,11709		Jan-01		5.022.206.001		Jan-01		4.541.623.764		Jan-01		43.239		0,116149911		0,1050353561
		Fev-01		119,85		0,11985		Fev-01		4.003.034.945		Fev-01		4.086.790.148		Fev-01		43.487		0,0920513014		0,093977284
		Mar-01		124,88		0,12488		Mar-01		5.449.181.143		Mar-01		5.173.027.536		Mar-01		46.708		0,1166648356		0,110752495
		Abr-01		130,83		0,13083		Abr-01		4.611.516.774		Abr-01		4.735.323.043		Abr-01		46.644		0,0988662373		0,101520518
		Mai-01		137,14		0,13714		Mai-01		5.160.802.754		Mai-01		5.372.620.976		Mai-01		48.189		0,1070950373		0,1114906094
		Jun-01		141,33		0,14133		Jun-01		4.761.391.842		Jun-01		5.047.763.762		Jun-01		44.905		0,1060325541		0,1124098377
		Jul-01		144,37		0,14437		Jul-01		4.856.540.870		Jul-01		4.970.156.817		Jul-01		46.506		0,1044282645		0,106871303
		Ago-01		145,96		0,14596		Ago-01		5.098.809.280		Ago-01		5.733.053.483		Ago-01		47.723		0,1068417593		0,1201318753
		Set-01		155,58		0,15558		Set-01		4.159.854.994		Set-01		4.759.850.802		Set-01		46.358		0,0897332714		0,1026759308
		Out-01		157,73		0,15773		Out-01		4.758.997.661		Out-01		5.008.557.126		Out-01		48.008		0,0991292631		0,1043275522
		Nov-01		145,1		0,1451		Nov-01		4.213.531.606		Nov-01		4.506.283.984		Nov-01		47.450		0,0887994016		0,094969104
		Dez-01		133,41		0,13341		Dez-01		3.505.889.252		Dez-01		4.351.541.580		Dez-01		44.554		0,0786885409		0,0976689316
		Jan-02		133,88		0,13388		Jan-02		3.803.140.301		Jan-02		3.975.967.550		Jan-02		38.624		0,0984657286		0,1029403363
		Fev-02		136,27		0,13627		Fev-02		3.397.513.343		Fev-02		3.662.989.817		Fev-02		38.652		0,0879000658		0,0947684419
		Mar-02		132,12		0,13212		Mar-02		3.663.201.453		Mar-02		4.266.107.599		Mar-02		41.458		0,0883593384		0,1029019152
		Abr-02		130,33		0,13033		Abr-02		4.140.122.107		Abr-02		4.647.813.517		Abr-02		42.168		0,0981816094		0,1102213412
		Mai-02		139,02		0,13902		Mai-02		4.063.478.596		Mai-02		4.447.740.894		Mai-02		42.549		0,0955011539		0,1045322074
		Jun-02		151,56		0,15156		Jun-02		3.399.588.245		Jun-02		4.084.584.760		Jun-02		41.531		0,0818566431		0,0983502627
		Jul-02		162,14		0,16214		Jul-02		5.024.547.888		Jul-02		6.230.571.298		Jul-02		42.643		0,117828199		0,1461100602
		Ago-02		171,29		0,17129		Ago-02		4.174.508.020		Ago-02		5.758.053.735		Ago-02		43.521		0,0959193957		0,1323051799
		Set-02		183,05		0,18305		Set-02		4.002.250.041		Set-02		6.497.975.108		Set-02		43.053		0,0929610025		0,1509296706
		Out-02		206,11		0,20611		Out-02		4.283.325.666		Out-02		6.482.182.856		Out-02		44.785		0,0956419709		0,1447400437
		Nov-02		188		0,188		Nov-02		3.848.469.707		Nov-02		5.134.789.656		Nov-02		43.859		0,087746408		0,1170749369
		Dez-02		186,27		0,18627		Dez-02		3.442.508.768		Dez-02		5.249.876.245		Dez-02		41.515		0,0829220467		0,1264573346
		Jan-03		173,51		0,17351		Jan-03		3.650.538.361		Jan-03		4.811.181.392		Jan-03		43.488		0,0839435789		0,1106323904
		Fev-03		179,77		0,17977		Fev-03		3.891.052.706		Fev-03		5.009.028.475		Fev-03		43.229		0,0900102409		0,1158719488
		Mar-03		171,5		0,1715		Mar-03		3.702.909.697		Mar-03		5.246.395.514		Mar-03		45.297		0,0817473496		0,1158221408
		Abr-03		153,35		0,15335		Abr-03		3.989.640.635		Abr-03		5.720.005.413		Abr-03		45.650		0,0873962899		0,1253013234
		Mai-03		144,22		0,14422		Mai-03		3.855.279.744		Mai-03		6.381.488.142		Mai-03		46.851		0,0822880994		0,1362081523
		Jun-03		141,04		0,14104		Jun-03		3.521.547.239		Jun-03		5.882.943.168		Jun-03		45.836		0,0768292879		0,1283476562
		Jul-03		140,75		0,14075		Jul-03		4.049.624.105		Jul-03		6.114.523.476		Jul-03		46.461		0,0871617939		0,1316055073
		Ago-03		146,8		0,1468		Ago-03		3.734.089.225		Ago-03		6.413.605.268		Ago-03		46.822		0,0797507416		0,136978456
		Set-03		142,26		0,14226		Set-03		4.624.716.527		Set-03		7.291.199.616		Set-03		47.755		0,0968425616		0,1526792926
		Out-03		138,72		0,13872		Out-03		5.032.619.513		Out-03		7.578.687.865		Out-03		48.610		0,1035305393		0,1559079997
		Nov-03		140,4		0,1404		Nov-03		4.269.258.407		Nov-03		5.993.129.201		Nov-03		47.382		0,0901029591		0,1264853573
		Dez-03		140,07		0,14007		Dez-03		4.004.376.204		Dez-03		6.761.034.545		Dez-03		46.221		0,0866354299		0,1462762499
		Jan-04		136,19		0,13619		Jan-04		4.217.055.211		Jan-04		5.809.792.353		Jan-04		51.477		0,0819211534		0,1128619063
		Fev-04		139,84		0,13984		Fev-04		3.761.400.163		Fev-04		5.733.238.238		Fev-04		50.439		0,0745732501		0,1136667705
		Mar-04		138,89		0,13889		Mar-04		5.345.306.648		Mar-04		7.944.136.093		Mar-04		55.787		0,0958163488		0,1424012062
		Abr-04		138,85		0,13885		Abr-04		4.634.631.536		Abr-04		6.606.292.414		Abr-04		54.963		0,0843227541		0,1201952662
		Mai-04		148,25		0,14825		Mai-04		4.835.513.254		Mai-04		7.960.023.354		Mai-04		56.935		0,0849304163		0,1398089638
		Jun-04		149,04		0,14904		Jun-04		5.530.225.685		Jun-04		9.347.432.832		Jun-04		56.796		0,0973699853		0,1645790695
		Jul-04		143,11		0,14311		Jul-04		5.530.206.059		Jul-04		9.011.284.343		Jul-04		55.106		0,1003557881		0,1635263736
		Ago-04		140,62		0,14062		Ago-04		5.623.489.343		Ago-04		9.073.756.285		Ago-04		56.281		0,0999180779		0,1612223714
		Set-04		135,23		0,13523		Set-04		5.753.223.765		Set-04		8.939.578.126		Set-04		56.683		0,1014982228		0,1577118029
		Out-04
133,55		0,13355		Out-04		5.840.486.950		Out-04		8.861.627.594		Out-04		57.361		0,1018198244		0,1544887222
		Nov-04		129,6		0,1296		Nov-04		6.078.106.745		Nov-04		8.177.331.497		Nov-04		56.758		0,1070881064		0,1440736371
		Dez-04		124,9		0,1249		Dez-04		5.685.970.270		Dez-04		9.213.345.647		Dez-04		55.197		0,1030123063		0,1669175072
		Jan-05		123,29		0,12329		Jan-05		5.262.674.702		Jan-05		7.457.189.902		Jan-05		69.117		0,0761415383		0,1078922682
		Fev-05		118,92		0,11892		Fev-05		4.979.386.828		Fev-05		7.771.878.760		Fev-05		67.088		0,0742217211		0,1158460345
		Mar-05		124,02		0,12402		Mar-05		5.909.740.544		Mar-05		9.270.434.926		Mar-05		73.300		0,0806240183		0,1264725092
		Abr-05		118,03		0,11803		Abr-05		5.331.865.601		Abr-05		9.220.566.717		Abr-05		73.924		0,0721263135		0,1247303544
		Mai-05		111,59		0,11159		Mai-05		6.372.331.226		Mai-05		9.835.725.485		Mai-05		74.859		0,0851244503		0,1313900197
		Jun-05		109,88		0,10988		Jun-05		6.176.002.427		Jun-05		10.224.832.499		Jun-05		75.253		0,0820698501		0,1358727559
		Jul-05		108,29		0,10829		Jul-05		6.056.909.816		Jul-05		11.079.534.680		Jul-05		73.235		0,0827051248		0,1512874265
		Ago-05		108,07		0,10807		Ago-05		7.695.788.927		Ago-05		11.366.262.079		Ago-05		75.775		0,1015610548		0,1500001594
		Set-05		105,95		0,10595		Set-05		6.314.921.976		Set-05		10.654.222.622		Set-05		74.721		0,0845133493		0,1425867242
		Out-05		103,63		0,10363		Out-05		6.228.019.750		Out-05		9.922.943.795		Out-05		75.588		0,0823942921		0,1312767079
		Nov-05		100,16		0,10016		Nov-05		6.712.248.586		Nov-05		10.809.253.532		Nov-05		75.842		0,0885030535		0,1425233186
		Dez-05		102,76		0,10276		Dez-05		6.560.485.284		Dez-05		10.916.339.902		Dez-05		74.027		0,0886228712		0,1474643022
		Jan-06		102,41		0,10241		Jan-06		6.451.801.701		Jan-06		9.286.850.191		Jan-06		82.248		0,0784432655		0,1129127783
		Fev-06		97,17		0,09717		Fev-06		5.971.301.604		Fev-06		8.774.460.707		Fev-06		82.432		0,0724391208		0,1064448358
		Mar-06		96,84		0,09684		Mar-06		7.706.514.049		Mar-06		11.396.765.577		Mar-06		89.651		0,0859612726		0,127123686
		Abr-06		96,43		0,09643		Abr-06		6.741.614.473		Abr-06		9.830.693.648		Abr-06		86.804		0,0776647905		0,1132516203
		Mai-06		99,03		0,09903		Mai-06		7.287.536.761		Mai-06		10.304.884.611		Mai-06		89.654		0,0812851268		0,1149406007
		Jun-06		102,64		0,10264		Jun-06		7.365.294.756		Jun-06		11.463.247.538		Jun-06		88.540		0,0831860713		0,1294697034
		Jul-06		100,06		0,10006		Jul-06		7.991.566.911		Jul-06		13.651.047.549		Jul-06		89.162		0,0896297404		0,1531038733
		Ago-06		98,67		0,09867		Ago-06		9.116.948.420		Ago-06		13.671.699.785		Ago-06		92.897		0,0981403966		0,1471705199
		Set-06		98,56		0,09856		Set-06		8.108.634.491		Set-06		12.576.856.844		Set-06		90.566		0,0895328765		0,1388695188
		Out-06		96,79		0,09679		Out-06		8.738.109.835		Out-06		12.689.255.149		Out-06		93.128		0,0938290292		0,1362560685
		Nov-06		96,78		0,09678		Nov-06		8.657.094.624		Nov-06		11.896.874.788		Nov-06		92.824		0,0932635377		0,1281659354
		Dez-06		96,1		0,0961		Dez-06		7.213.143.363		Dez-06		12.264.833.144		Dez-06		89.419		0,0806667863		0,1371613767
		Jan-07		95,46		0,09546		Jan-07		8.466.200.706		Jan-07		10.983.867.609		Jan-07		95.684		0,0884808401		0,1147931484
		Fev-07		93,67		0,09367		Fev-07		7.225.434.932		Fev-07		10.129.505.211		Fev-07		94.002		0,0768646936		0,107758401
		Mar-07		93,83		0,09383		Mar-07		9.545.377.253		Mar-07		12.888.955.944		Mar-07		103.006		0,0926681674		0,1251282056
		Abr-07		91,65		0,09165		Abr-07		8.254.921.139		Abr-07		12.446.172.314		Abr-07		101.036		0,0817027707		0,1231855211
		Mai-07		89,67		0,08967		Mai-07		9.780.682.417		Mai-07		13.647.281.258		Mai-07		104.552		0,0935484966		0,1305310397
		Jun-07		87,34		0,08734		Jun-07		9.302.949.130		Jun-07		13.118.083.296		Jun-07		102.493		0,090766678		0,1279900412
		Jul-07		84,9		0,0849		Jul-07		10.772.702.303		Jul-07		14.119.547.669		Jul-07		103.318		0,1042674297		0,1366610626
		Ago-07		88,41		0,08841		Ago-07		11.565.857.691		Ago-07		15.100.028.780		Ago-07		107.676		0,1074135155		0,1402357887
Plan2
		0,08501		0,0442442938		0,0601028867
		0,08035		0,033874736		0,0534403497
		0,07058		0,0442487488		0,0599929015
		0,07773		0,0402891731		0,0756400767
		0,07897		0,039939661		0,0841410818
		0,0777		0,0346543989		0,0635286958
		0,08044		0,0392102064		0,0766676763
		0,07759		0,0466431924		0,0714213247
		0,07199		0,0448094137		0,0611773594
		0,07978		0,0479557284		0,0548982851
		0,08857		0,0547207578		0,0644291516
		0,09388		0,056460249		0,0799376666
		0,09774		0,0533697736		0,096365102
		0,09308		0,042563934		0,0775970899
		0,08641		0,0492889124		0,0880169092
		0,09034		0,0492774788		0,09203309
		0,0913		0,0456343701		0,0842339913
		0,08987		0,0524096657		0,0801566014
		0,08841		0,0489434051		0,0700547525
		0,08656		0,0569583844		0,0742103271
		0,08686		0,0465191772		0,0575845958
		0,09848		0,0609356311		0,0719956034
		0,10003		0,0571203109		0,069995419
		0,10469		0,0572791548		0,0796123074
		0,10406		0,0558397446		0,0868324905
		0,10374		0,0501867648		0,0788014379
		0,10539		0,0470819449		0,0932530141
		0,10655		0,048295874		0,0860960314
		0,10225		0,0485850826		0,0905732609
		0,10229		0,0503367928		0,0897442762
		0,10229		0,0579580981		0,1019501536
		0,10248		0,048240015		0,0899490362
		0,10186		0,048932557		0,0897912975
		0,10203		0,058861616		0,0951399036
		0,1046		0,0521128176		0,0969213988
		0,10287		0,0703905492		0,108301999
		0,09999		0,0558823011		0,087427779
		0,10204		0,044871244		0,090553543
		0,10118		0,0566425276		0,0993422581
		0,10155		0,0599333362		0,0854064231
		0,10267		0,0440799595		0,0799647392
		0,10266		0,0633539209		0,0895021228
		0,10248		0,074342275		0,091863455
		0,10188		0,0617910494		0,0924583332
		0,1011		0,0587419068		0,0912558435
		0,1031		0,0561588559		0,086896698
		0,10358		0,0547307591		0,0850961578
		0,10276		0,0727790894		0,0971079409
		0,10201		0,0437628413		0,0679744563
		0,10283		0,0516105497		0,0706314702
		0,1008		0,0515953357		0,0768649986
		0,10219		0,0507842243		0,0857779767
		0,10145		0,059349542		0,0873235798
		0,1		0,0555478102		0,0828736367
		0,08756		0,0552641369		0,0821605191
		0,08317		0,0572009304		0,0882434228
		0,07903		0,0539943291		0,0850880769
		0,07537		0,0646091423		0,077914272
		0,07306		0,083961182		0,0756291748
		0,07251		0,0964389264		0,0791729412
		0,07133		0,0589352421		0,0534850978
		0,07039		0,0734994853		0,0540684574
		0,07352		0,0785994732		0,0632386291
		0,07355		0,0661150612		0,0580793526
		0,07091		0,0835860546		0,0717686031
		0,0708		0,0825325989		0,0694416572
		0,0703		0,0671082611		0,0671278434
		0,07077		0,0734777281		0,0750711256
		0,07103		0,0607886254		0,0686924881
		0,07079		0,0673903882		0,0728323236
		0,07001		0,0681965749		0,0667278458
		0,06917		0,0623747785		0,0614666494
		0,06916		0,0545997939		0,0551260075
		0,0691		0,0539552471		0,05348265
		0,06957		0,0572964292		0,0503745992
		0,06926		0,0601313261		0,0630472099
		0,06891		0,0604964907		0,0641497199
		0,06855		0,0605234541		0,0557604822
		0,06831		0,0655495988		0,060804867
		0,06858		0,0620958014		0,0583561891
		0,06909		0,064269928		0,0557009172
		0,0695		0,0736095081		0,0560828047
		0,06977		0,0650935076		0,0535397262
		0,0699		0,0815627065		0,0548520442
		0,06968		0,0372481081		0,0546325983
		0,06998		0,0642093139		0,0475414352
		0,07029		0,0678050582		0,0548769797
		0,07004		0,077459093		0,0647822481
		0,0702		0,0645369147		0,0636817729
		0,07032		0,0711485246		0,0661811598
		0,07065		0,077788421		0,0704698053
		0,07127		0,0710141938		0,0671163216
		0,07178		0,0712700293		0,0601627356
		0,07222		0,0712455742		0,0604956815
		0,07252		0,0699754482		0,0528679002
		0,07253		0,0762829081
0,0652734757
		0,07256		0,0712026395		0,0600893024
		0,07283		0,0617819914		0,0582205414
		0,07315		0,0745643685		0,0616763405
		0,07359		0,0658792089		0,0651322137
		0,0738		0,065368435		0,0636541379
		0,0743		0,065898373		0,0684546939
		0,07492		0,0741215266		0,068286689
		0,07606		0,0566667026		0,0543437052
		0,07692		0,078785363		0,0622757203
		0,07758		0,0740671272		0,0544900013
		0,07802		0,0660156738		0,0516232637
		0,07848		0,0663635874		0,0587549816
		0,09734		0,0818067097		0,0657867625
		0,12289		0,0718955805		0,074176173
		0,12085		0,0832793385		0,0786068844
		0,10811		0,0754124417		0,0760515156
		0,10711		0,0832382836		0,0893283087
		0,11211		0,0903885999		0,0873847648
		0,11344		0,0818742341		0,0835924813
		0,11813		0,088142462		0,0844123463
		0,11942		0,0836860241		0,0825708985
		0,12267		0,0865247015		0,0835008053
		0,11915		0,0889187604		0,0784512332
		0,11309		0,0911542151		0,0957715313
		0,11034		0,0739952031		0,0716111935
		0,1091		0,0806479014		0,0822051468
		0,1077		0,0836050805		0,0839967166
		0,10893		0,0769912836		0,0805898455
		0,11272		0,0864422442		0,0932071482
		0,11184		0,0839744798		0,0886751888
		0,10968		0,0893179384		0,0914870927
		0,10895		0,0968122922		0,098547306
		0,11108		0,0923255851		0,086356842
		0,11356		0,0908974569		0,0813148483
		0,11738		0,0901268952		0,07838241
		0,11754		0,0909868236		0,0870329569
		0,11709		0,116149911		0,1050353561
		0,11985		0,0920513014		0,093977284
		0,12488		0,1166648356		0,110752495
		0,13083		0,0988662373		0,101520518
		0,13714		0,1070950373		0,1114906094
		0,14133		0,1060325541		0,1124098377
		0,14437		0,1044282645		0,106871303
		0,14596		0,1068417593		0,1201318753
		0,15558		0,0897332714		0,1026759308
		0,15773		0,0991292631		0,1043275522
		0,1451		0,0887994016		0,094969104
		0,13341		0,0786885409		0,0976689316
		0,13388		0,0984657286		0,1029403363
		0,13627		0,0879000658		0,0947684419
		0,13212		0,0883593384		0,1029019152
		0,13033		0,0981816094		0,1102213412
		0,13902		0,0955011539		0,1045322074
		0,15156		0,0818566431		0,0983502627
		0,16214		0,117828199		0,1461100602
		0,17129		0,0959193957		0,1323051799
		0,18305		0,0929610025		0,1509296706
		0,20611		0,0956419709		0,1447400437
		0,188		0,087746408		0,1170749369
		0,18627		0,0829220467		0,1264573346
		0,17351		0,0839435789		0,1106323904
		0,17977		0,0900102409		0,1158719488
		0,1715		0,0817473496		0,1158221408
		0,15335		0,0873962899		0,1253013234
		0,14422		0,0822880994		0,1362081523
		0,14104		0,0768292879		0,1283476562
		0,14075		0,0871617939		0,1316055073
		0,1468		0,0797507416		0,136978456
		0,14226		0,0968425616		0,1526792926
		0,13872		0,1035305393		0,1559079997
		0,1404		0,0901029591		0,1264853573
		0,14007		0,0866354299		0,1462762499
		0,13619		0,0819211534		0,1128619063
		0,13984		0,0745732501		0,1136667705
		0,13889		0,0958163488		0,1424012062
		0,13885		0,0843227541		0,1201952662
		0,14825		0,0849304163		0,1398089638
		0,14904		0,0973699853		0,1645790695
		0,14311		0,1003557881		0,1635263736
		0,14062		0,0999180779		0,1612223714
		0,13523		0,1014982228		0,1577118029
		0,13355		0,1018198244		0,1544887222
		0,1296		0,1070881064		0,1440736371
		0,1249		0,1030123063		0,1669175072
		0,12329		0,0761415383		0,1078922682
		0,11892		0,0742217211		0,1158460345
		0,12402		0,0806240183		0,1264725092
		0,11803		0,0721263135		0,1247303544
		0,11159		0,0851244503		0,1313900197
		0,10988		0,0820698501		0,1358727559
		0,10829		0,0827051248		0,1512874265
		0,10807		0,1015610548		0,1500001594
		0,10595		0,0845133493		0,1425867242
		0,10363		0,0823942921		0,1312767079
		0,10016		0,0885030535		0,1425233186
		0,10276		0,0886228712		0,1474643022
		0,10241		0,0784432655		0,1129127783
		0,09717		0,0724391208		0,1064448358
		0,09684		0,0859612726		0,127123686
		0,09643		0,0776647905		0,1132516203
		0,09903		0,0812851268		0,1149406007
		0,10264		0,0831860713		0,1294697034
		0,10006		0,0896297404		0,1531038733
		0,09867		0,0981403966		0,1471705199
		0,09856		0,0895328765		0,1388695188
		0,09679		0,0938290292		0,1362560685
		0,09678		0,0932635377		0,1281659354
		0,0961		0,0806667863		0,1371613767
		0,09546		0,0884808401		0,1147931484
		0,09367		0,0768646936		0,107758401
		0,09383		0,0926681674		0,1251282056
		0,09165		0,0817027707		0,1231855211
		0,08967		0,0935484966		0,1305310397
		0,08734		0,090766678		0,1279900412
		0,0849		0,1042674297		0,1366610626
		0,08841		0,1074135155		0,1402357887
Plan3
		
Econometria/listas/lista2sol.pdf
Universidade de Sa˜o Paulo - Departamento de Economia
EAE 5811 - Econometria I
Prof. Ricardo Avelino
1o Semestre de 2007
Lista de Exerc´ıcios 2 - Soluc¸o˜es
Monitoras: Paula Pereda
Jaqueline de Oliveira
1.
a) Seja i um vetor de 1’s de dimensa˜o Tx1. Podemos escrever β∗ como
β∗ = [(i0i)−1i0x]−1[(i0i)−1i0y]. Como β∗pode ser escrito na forma Ay + C, onde
A=[(i0i)−1i0x]−1(i0i)−1i0 e C=0, β∗e´ linear em y.
Manipulando a relac¸a˜o linear, chegamos a outra expressa˜o do estimador β∗:
β∗ = [(i0i)−1i0x]−1[(i0i)−1i0(xβ + ε)]. = β + [(i0i)−1i0x]−1[(i0i)−1i0ε],
o que implica que:
E(β∗/x) = β + [(i0i)−1i0x]−1[(i0i)−1i0]E(ε/x)
Segue da hipo´tese E(ε/x) = 0 que E(β∗/x) = β.
Assim, conclu´ımos que β∗ e´ um estimador linear na˜o viesado de β.
A variaˆncia de β∗ e´ igual a:
V (β∗/x) = E[(β∗ −E(β∗/x))(β∗ −E(β∗/x))0/x]
= E{[(i0i)−1i0x]−1[(i0i)−1i0εε0i(i0i)−1][(i0i)−1i0x]−1/x}
= [(i0i)−1i0x]−1[(i0i)−1i0E(εε0/x)i(i0i)−1][(i0i)−1i0x]−1
= σ2[(i0i)−1i0x]−1(i0i)−1[(i0i)−1i0x]−1
= σ2[(i0x)−1(i0i)(i0i)−1(i0x)−1(i0i)
= σ2
T
(
P
xi)
2 = σ
2 ThS
xi
T T
i2 = σ2
Tx
2
Sabemos que a variaˆncia do estimador de OLS e´ igual a:
V (
ˆ
β
OLS
/x) = σ2(x0x)−1 =
σ2X
x2i
Desenvolvendo o quadrado
P
(xi − x)2, temos:X
(xi − x)2 =
X
(x2i − 2xxi + x
2
) =
X
x2i − 2Tx
2
+ Tx2 =
X
x2i − Tx
2 ≥ 0,
pois o quadrado de nu´meros reais na˜o pode ser negativo.
1
Assim, X
x2i ≥ Tx
2 ⇒ σ
2P
x2i
≤ σ
2
Tx2
Portanto,
V (β∗/x) ≥ V (
ˆ
β
OLS
/x)
b) Redefina a dimensa˜o de i para τx1. Sejam
˜
x,
˜
y e
˜
ε vetores de dimensa˜o
τx1, contendo as τ primeiras observac¸o˜es. O estimador de OLS sera´:
β∗∗ = [(i0i)−1i0
˜
x]−1[(i0i)−1i0
˜
y] = A
˜
y + C,
em que A = [(i0i)−1i0
˜
x]−1(i0i)−1i0 e C = 0. Enta˜o β∗∗ e´ linear em
˜
y.
Reescrevendo β∗∗ como β∗∗ = [(i0i)−1i0
˜
x]−1[(i0i)−1i0(
˜
xβ + ε)], conclu´ımos
pelos argumentos desenvolvidos no item a) que E(β∗∗/x) = β, uma vez que a
hipo´teseE(ε/x) = 0 implica queE(
˜
ε/
˜
x) = 0, e V (β∗∗/x) = σ2[(i0
˜
x)−1(i0
˜
x)−1(i0i)] =
σ2
T
˜
x
2 , onde
˜
x e´ a media das τ primeiras observac¸o˜es.
Adicionalmente, note que:
TX
1
x2i =
τX
1
x2i +
TX
τ+1
x2i ≥
τX
1
x2i ≥ τ
˜
x
2
⇒ σ
2P
x2i
≤ σ
2
T
˜
x
2
isto e´, β∗∗ e´ na˜o viesado, mas sua variaˆncia e´ maior ou igual a V (
ˆ
β
OLS
/x).
c) Considere um estimador linear arbitra´rio
˜
β = Dy +G
Enta˜o,
E(
˜
β/x) = E[D(xβ + ε) +G/x] = Dxβ +G
e
V (
˜
β/x) = E[(
˜
β−E(
˜
β/x))(
˜
β−E(
˜
β/x))0/x]
= E[Dεε0D0/x]
= DE[εε0/x]D0 = σ2(DD0)
Essa variaˆncia e´ minimizada quando D = 0, ou seja, no caso em que
V (
˜
β/x) = 0.
Desta forma, a classe dos estimadores de mı´nima variaˆncia consiste em
nu´meros reais (constantes).
2
2. a) O modelo verdadeiro e´:
(1) yt = x
0
tβ + εt, t = 1, ..., T
O modelo incorretamente especificado
e´:
(2) yt = x
0
tβ + z
0
tγ + εt, t = 1, ..., T
Em notac¸a˜o matricial, podemos reescrever os modelos, respectivamente,
como:
(3) y = xβ + ε
(4) y = xβ + zγ + ε
As equac¸o˜es normais do modelo 4 sa˜o dadas por·
x0x x0z
z0x z0z
¸

˜
β
˜
γ

 =
·
x0y
z0y
¸
⇔ (x
0x)
˜
β + (x0z)
˜
γ = x0y
(z0x)
˜
β + (z0z)
˜
γ = z0y
(5)
(6)
De (6), temos:
˜
γ = (z0z)−1(z0y − (z0x)
˜
β)
Substituiremos
˜
γ em (5):
(x0x)
˜
β + (x0z)(z0z)−1(z0y − (z0x)
˜
β) = x0y ⇔
(x0x)
˜
β + (x0z)(z0z)−1z0y − (x0z)(z0z)−1(z0x)
˜
β = x0y ⇔
x0(I − Pz)x
˜
β = x0(I − Pz)y
Portanto,
˜
β = (x0Mzx)−1(x0Mzy)
em que Pz = z(z0z)−1z0 e Mz = I − Pz
Tirando a esperanc¸a condicional de
˜
β, temos:
E(
˜
β/x, z) = E[(x0Mzx)−1(x0Mzy)/x, z] = E[(x0Mzx)−1(x0Mz(xβ + ε))/x, z]
= β + E[(x0Mzx)−1(x0Mzε)/x, z]
= β + (x0Mzx)−1x0MzE[ε/x, z] = β
pois E[ε/x, z] = 0, por hipo´tese.
b)
V


˜
β
˜
γ
/x, z

 = σ2
·
x0x x0z
z0x z0z
¸−1
3
A matriz de covariaˆncia de
˜
β e´ dada pelo elemento (1,1) da matriz. Usando
a fo´rmula da inversa particionada, obtemos:
V (
˜
β/x, z) = σ2(x0x− x0z(z0z)−1z0x)−1
= σ2(x0(I − Pz)x)−1
= σ2(x0Mzx)−1
sendo Mz e Pz definidas anteriormente.
Portanto V (
˜
β/x, z)−V (
ˆ
β/x, z) ≥ 0.Para provarmos essa desigualdade, note
que:
σ2(x0Mzx)−1 − σ2(x0x)−1 ≥ 0⇔ σ2(x0Mzx)−1 ≥ σ2(x0x)−1
⇔ (x0Mzx) ≤ (x0x)⇔ x0(I −Mz)x ≥ 0
⇔ x0Pzx ≥ 0⇔ (Pzx)0(Pzx) ≥ 0
Como (Pzx)0(Pzx) e´ claramente uma matriz positiva semidefinida, o quadrado
dos vetores sera´ sempre na˜o-negativo.
O bloco da matriz de covariaˆncia de
˜
β sera´ igual a` matriz de covariaˆncia de
ˆ
β quando a projec¸a˜o de x no espac¸o de z for nula, o que implica que:
Mzx = x− Pzx = x.
Neste caso,
V (
˜
β/x, z) = σ2(x0Mzx)−1 = σ2(x0x)−1 = V (
ˆ
β/x, z)
3. a) Se yt = α+x0tβ+εt, t = 1, ..., T, ou em termos matriciais, y = α+xβ+ε
, o estimador OLS de β sera´ igual a:
ˆ
β = (x0M0x)−1(x0M0y),
em que M0 = I − i(i0i)−1i0
Se multiplicarmos todas as observac¸o˜es (yt, xt) por λ > 0 , obteremos:
λy = λα+ λxβ + λε ⇒ y∗ = α∗ + x∗β + ε∗
em que λy = y∗, λα = α∗, + λx = x∗ e λε = ε∗.
O estimador de OLS neste caso sera´:
˜
β = (x∗0M0x∗)−1(x∗0M0y∗) = (λx0M0λx)−1(λx0M0λy)
= λ−2(x0M0x)−1λ2(x0M0y) =
ˆ
β
4
Assim, obtemos a mesma estimativa para β.
b) Por definic¸a˜o,
R2 =
ˆ
β
0
x0M0x
ˆ
β
y0M0y
=
P
(x
ˆ
β − x
ˆ
β)2P
(y − y)2
Antes da multiplicac¸a˜o das observac¸o˜es por λ o coeficiente de determinac¸a˜o
era igual a: P
(x
ˆ
β − x
ˆ
β)2P
(x
ˆ
β − x
ˆ
β +
ˆ
ε)2
Apos a multiplicac¸a˜o, o R2 se torna:
P
(x∗
˜
β − x∗
˜
β)2P
(x∗
˜
β − x∗
˜
β +
˜
ε)2
No primeiro caso,
ˆ
α = y − x
ˆ
β ⇒ ˆε = y − ˆα− x
ˆ
β.
No segundo caso,
˜
α
∗
= y∗ − x∗
˜
β = λy − λx
ˆ
β = λ
ˆ
α
˜
ε = λy − λˆα− λx
ˆ
β = λ
ˆ
ε
Enta˜o,
P
(x∗
˜
β − x∗
˜
β)2P
(x∗
˜
β − x∗
˜
β +
˜
ε)2
=
P
(λx
ˆ
β − λx
ˆ
β)2P
(λx
ˆ
β − λx
ˆ
β + λ
ˆ
ε)2
=
P
(x
ˆ
β − x
ˆ
β)2P
(x
ˆ
β − x
ˆ
β +
ˆ
ε)2
ou seja, o coeficiente de determinac¸a˜o e´ o mesmo.
c) A variaˆncia de
ˆ
β pode ser escrita como:
V (
ˆ
β/x) =
ˆ
S
2
(x0M0x)−1
em que
ˆ
S
2
=
ˆ
ε
0ˆ
ε/(n− 2)
5
Da mesma forma,
V (
˜
β/x) =
˜
S
2
(x∗0M0x∗)−1
Entretanto,
˜
S
2
=
˜
ε
0˜
ε/(n− 2) = (λˆε)0
ˆ
λε/(n− 2) = λ2ˆε
0ˆ
ε/(n− 2) = λ2
ˆ
S
2
Enta˜o,
V (
˜
β/x) = λ2
ˆ
S
2
[(λx)0M0(λx)]−1 = λ2
ˆ
S
2
[λ2(x0M0x)]−1
= λ2
ˆ
S
2
λ−2(x0M0x)−1 =
ˆ
S
2
(x0M0x)−1 = V (
ˆ
β/x)
Foi mostrado no item a) que o estimador de β na˜o se altera tambe´m. Assim,
o valor da estat´ıstica t-Student, que e´ a raza˜o entre o estimador de β e o seu
erro-padra˜o estimado, na˜o muda.
d) Como vimos nos itens a) e b), o vetor estimado dos residuos muda, pois
e´ multiplicado por λ.
4. a) As equac¸o˜es normais para este caso podem ser escritas em termos de
desvios da me´dia, como:
·
x01x1 x
0
1x2
x02x1 x
0
2x2
¸

˜
β1
˜
β2

 =
·
x01y
x02y
¸
⇔ (x
0
1x1)
˜
β1 + (x
0
1x2)
˜
β2 = x
0
1y
(x02x1)
˜
β1 + (x
0
2x2)
˜
β2 = x
0
2y
⇔
˜
β1 = (x
0
1x1)
−1x01y − (x01x1)−1(x01x2)
˜
β2 (1)
˜
β2 = (x
0
2x2)
−1x02y − (x02x2)−1(x02x1)
˜
β1 (2)
Se (x01x2) = 0 :
˜
β1 = (x
0
1x1)
−1x01y
˜
β2 = (x
0
2x2)
−1x02y
b) Se (x01x2) 6= 0 e regredirmos y em x1 sem incluir x2 , enta˜o,
˜
β1 = (x
0
1x1)
−1x01y = (x
0
1x1)
−1x01(x1β1 + x2β2 + ε)
= β1 + (x
0
1x1)
−1x01x2β2 + (x
0
1x1)
−1x01ε
E(
˜
β1/x1, x2) = β1 + (x
0
1x1)
−1x01x2β2 + (x
0
1x1)
−1x01E(ε/x1, x2)
= β1 + (x
0
1x1)
−1x01x2β2
6
pois E(ε/x1, x2) = 0 por hipo´tese.
Portanto, o vie´s de
˜
β1 e´ (x
0
1x1)
−1x01x2β2.
Analogamente, regredimos y em x2 sem incluir x1 :
˜
β2 = (x
0
2x2)
−1x02y = (x
0
2x2)
−1x02(x1β1 + x2β2 + ε)
= β2 + (x
0
2x2)
−1x02x1β1 + (x
0
2x2)
−1x02ε
E(
˜
β2/x1, x2) = β2 + (x
0
2x2)
−1x02x1β1 + (x
0
2x2)
−1x02E(ε/x1, x2)
= β2 + (x
0
2x2)
−1x02x1β1
Portanto, o vie´s de
˜
β2 e´ (x
0
2x2)
−1x02x1β1
c) As Equac¸o˜es (1) e (2) derivadas no item a) implicam que:
βˆ1 = (x
0
1x1)
−1x01y − (x01x1)−1(x01x2)βˆ2 (3)
βˆ2 = (x
0
2x2)
−1x02y − (x02x2)−1(x02x1)βˆ1 (4)
Substituindo (4) em (3), temos:
βˆ1 = (x
0
1x1)
−1x01y − (x01x1)−1(x01x2)[(x02x2)−1x02y − (x02x2)−1(x02x1)βˆ1]
= (x01x1)
−1x01y − (x01x1)−1(x01x2)(x02x2)−1x02y
+(x01x1)
−1(x01x2)(x
0
2x2)
−1(x02x1)βˆ1
⇒ [I − (x01x1)−1(x01x2)(x02x2)−1(x02x1)]βˆ1 = (x01x1)−1x01[I − x2(x02x2)−1x02]y
⇒ (x01x1)−1[(x01x1)− (x01x2)(x02x2)−1(x02x1)]βˆ1 = (x01x1)−1x01[I − x2(x02x2)−1x02]y
⇒ x01[I − x2(x02x2)−1x02]x1βˆ1 = x01[I − x2(x02x2)−1x02]y
⇒ βˆ1 = [x01M2x1]−1[x01M2y]
em que M2 = [I − x2(x02x2)−1x02] = [I − P2]
Analogamente para
ˆ
β2,substitu´ımos (3) em (4), assim,
βˆ2 = (x
0
2x2)
−1x02y − (x02x2)−1(x02x1)[(x01x1)−1x01y − (x01x1)−1(x01x2)βˆ2]
= (x02x2)
−1x02y − (x02x2)−1(x02x1)(x01x1)−1x01y + (x02x2)−1(x02x1)(x01x1)−1(x01x2)βˆ2
⇒ (x02x2)−1[(x02x2)− (x02x1)(x01x1)−1(x01x2)]βˆ2 = (x02x2)−1x02[I − x1(x01x1)−1x01]y
⇒ x02[I − x1(x01x1)−1x01]x2βˆ2 = x02[I − x1(x01x1)−1x01]y
⇒ βˆ2 = [x02M1x2]−1[x02M1y]
em que M1 = [I − x1(x01x1)−1x01] = [I − P1]
7
A matriz de variaˆncia-covariaˆncia e´ dada por:
V


˜
β1
˜
β2
/x1, x2

 = σ2
·
x01x1 x
0
1x2
x02x1 x
0
2x2
¸−1
A variaˆncia de
˜
β1 e´ dada pelo elemento da primeira linha e primeira coluna
da matriz acima (1,1). Usando a fo´rmula da inversa particionada:
V (
˜
β1/x) = σ
2[x01x1 − x01x2(x02x2)−1x02x1]−1 = σ2[x01(I − x2(x02x2)−1x02)x1]−1
= σ2[x01M2x1]
−1
Analogamente,
V (
˜
β2/x) = σ
2[x02M1x2]
−1
A matriz M2x1 = x1 − x2(x02x2)−1x02x1e´ composta pelos res´ıduos estimados
das regresso˜es de x1 em x2 eM2y = y−x2(x02x2)−1x02y e´ composta pelos res´ıduos
estimados da regressa˜o de y em x2.
d) Neste caso particular, a variaˆncia do estimador
sera´ um escalar,
V (
˜
β1/x) = σ
2[x01M2x1]
−1 = σ2[x01x1 − x01x2(x02x2)−1x02x1]−1
= σ2[x01x1 −
(x01x2)
2
x02x2
]−1 = σ2[x01x1(I −
(x01x2)
2
(x01x1)(x02x2)
)]−1
= σ2[x01x1(1− r212)]−1
pois r12 =
(x01x2)√
(x01x1)(x
0
2x2)
.
Quando r212 → 1, (1− r212)→ 0 e, portanto, V (
˜
β1/x)→∞.
5. a) Os estimadores de OLS para b e β podem ser expressos, respectiva-
mente, por:
ˆ
b =
P
(xt − x)(yt − y)P
(xt − x)2
ˆ
β =
P
(xt − x)(yt − y)P
(yt − y)2
Enta˜o,
ˆ
b
ˆ
β =
[
P
(xt − x)(yt − y)]2P
(xt − x)2(yt − y)2
=
[COV (yt, xt)]2
V (xt)V (yt)
≤ 1
onde a u´ltima desigualdade segue da desigualdade de Cauchy-Schwartz.
Enta˜o,
ˆ
β ≤ 1
ˆ
b
, se
ˆ
b > 0.
8
b) Os coeficientes de determinac¸a˜o R21 e R
2
2 sa˜o, respectivamente, iguais a
R21 =
P
(x
ˆ
b− x
ˆ
b)2P
(y − y)2
e
R22 =
P
(y
ˆ
β − y
ˆ
β)2P
(x− x)2
Enta˜o,
R21 =
ˆ
b
2P
(x− x)2P
(y − y)2 =
·P
(xt − x)(yt − y)P
(xt − x)2
¸2 P
(x− x)2P
(y − y)2
=
[
P
(xt − x)(yt − y)]2P
(xt − x)2
P
(y − y)2 = r
2
yx
onde r2yx e´ o coeficiente de correlac¸a˜o entre y e x.
Analogamente,
R22 =
ˆ
β
2P
(y − y)2P
(x− x)2 =
·P
(xt − x)(yt − y)P
(yt − y)2
¸2 P
(y − y)2P
(x− x)2
=
[
P
(xt − x)(yt − y)]2P
(xt − x)2
P
(y − y)2 = r
2
yx
Por consequeˆncia, temos que R21 = R
2
2
6. a) Da Equac¸a˜o (2), temos:
ut = yt − a− xtb(3)
Subsituindo yt da equac¸a˜o (1) em (3), teremos:
ut = α+ ln(xt)β + εt − a− xtb
A esperanc¸a condicional de ut sera´:
E(ut/xt) = (α− a) + ln(xt)β − xtE(b/xt) +E(εt/xt) 6= 0
Portanto, na˜o podemos dizer que o erro no modelo cuja forma funcional esta´
errada tem me´dia zero.
9
b) Estimador OLS:
ˆ
b =
P
(xt − x)(yt)P
(xt − x)2
=
P
(xt − x)(α+ ln(xt)β + εt)P
(xt − x)2
= β
P
(xt − x)(lnxt)P
(xt − x)2
+
P
(xt − x)(εt)P
(xt − x)2
Tomando-se a esperanc¸a condicional em x:
E(
ˆ
b/xt) = β
P
(xt − x)(lnxt)P
(xt − x)2
+
P
(xt − x)E(εt/xt)P
(xt − x)2
= β
P
(xt − x)(lnxt)P
(xt − x)2
pois E(εt/xt) = 0 por hipo´tese.
Assim,
ˆ
b e´ viesado para b. O vie´s sendo igual a:
V ies = β
P
(xt − x)(lnxt)P
(xt − x)2
− b
7. a) Primeiramente e´ necessa´rio que se fac¸a a distinc¸a˜o entre impostos
permamentes e tempora´rios.
No primeiro caso, meu argumento seria de que o valor das casas sofreram
reduc¸a˜o apo´s a implementac¸a˜o do imposto em um montante igual ao valor pre-
sente dos impostos futuros. Os interessados nos imo´veis preveriam os impostos
que iriam pagar e, portanto, reduziriam este valor na avaliac¸a˜o do imo´vel.
No segundo caso, eu argumentaria que os valores reais dos imo´veis na˜o exibi-
ram variac¸a˜o sistema´tica dos valores previstos. Entretanto, as pessoas que foram
beneficiadas desta pol´ıtica na˜o tiveram incentivos a reclamar, enquanto que os
cidada˜os que foram prejudicados tiveram. Este argumento tambe´m se aplica ao
caso do imposto ser permanente, entretanto, neste caso, a sub-avaliac¸a˜o deve
ser alta o bastante para motivar as pessoas a reclamarem.
Espera-se que o especialista representante dos cidada˜os se atente ao efeito
de varia´veis omitidas do modelo, que poderiam viesar as estimac¸o˜es. Supondo
que algumas outras varia´veis como taxas de juros, entre outras, sejam relevantes
na determinac¸a˜o dos valores dos imo´veis. Se as estimac¸o˜es foram feitas em um
per´ıodo de expansa˜o extraordina´ria da economia e tais varia´veis foram omitidas
do meu modelo, o especialista argumentaria que, no geral, as previso˜es foram
superestimadas.
10
Econometria/listas/lista3.pdf
Universidade de Sa˜o Paulo - Departamento de Economia
EAE 5811 - Econometria I
Prof. Dr. Ricardo Avelino
1o Semestre de 2007
Lista de Exerc´ıcios 3 - Data de Entrega 17/04/2007
1.
¡
R2, R¯2
¢
Considere o modelo
yt = x
0
1tβ1 + εt, t = 1, ..., T (1)
onde E [ε|X1] = 0 e. E [εε0|X1] = σ2I. Assuma que X1 inclui uma constante ι.
a) Mostre que R2 =
³
\Corr (y, yˆ)
´2
, onde \Corr (y, yˆ) denota a correlac¸a˜o
amostral entre y e yˆ.
b) Mostre que R2 na˜o pode diminuir quando uma outra varia´vel x2t e´ adi-
cionada a` regressa˜o.
c) Portanto, considere o R2 ajustado
¡
R¯2
¢
. Seja t2 o quadrado da estat´ıstica
t usada para testar H0 : β2 = 0 no modelo
yt = x01tβ1 + x2tβ2 + εt, t = 1, ..., T (2)
Mostre que o R¯2 aumenta de (1) para (2) se e somente se t2 ≥ 1.
2. (Teste de Hipo´tese: Func¸a˜o poder do teste)
Seja X1, ...,Xn uma amostra de varia´veis aleato´rias i.i.d., cada uma com
distribuic¸a˜o N (µ, 1). Suponha que desejemos testar H0 : 0.1 ≤ µ ≤ 0.2 contra
H1 : µ < 0.1 ou.µ > 0.2.
Considere um teste δ em que a hipo´tese H0 e´ rejeitada se X¯ ≤ c1 ou X¯ ≥ c2,
e seja π (µ|δ) o poder do teste de δ. Suponha que o tamanho da amostra seja
n = 25. Determine os valores das constantes c1 e c2 para que π (0.1|δ) =
π (0.2|δ) = 0.07 (escreva as equac¸o˜es e, posteriormente, atrave´s de “tentativa e
erro”, ache os valores aproximados de c1 e c2.
3. Seja X1, ...,Xn uma amostra de varia´veis aleato´rias i.i.d., cada uma com
distribuic¸a˜o N
¡
µ, σ2
¢
. Tanto µ quanto σ2 sa˜o desconhecidos. Considere as duas
estat´ısticas X¯ = 1n
Pn
i=1Xi e X
∗ =
Pn
i=1
¡
Xi − X¯
¢2
.
a) Mostre que X¯ ∼ N
³
µ, σ
2
n
´
e que X
∗
σ2 ∼ χ
2
n−1
b) Mostre que X¯ e X
∗
σ2 sa˜o independentes.
Dica para a) e b): Pense sobre o modelo de regressa˜o linear Xi = µ+ εi
1
Suponha que n = 9 e que uma amostra x1, ..., x9 tenha sido observada, para
a qual X¯ = 22 e X∗ = 72.
c) Conduza um teste de H0 : µ ≤ 20 contra H1 : µ > 20 ao n´ıvel de
significaˆncia de 5%.
d) Conduza um teste de H0 : µ = 20 contra H1 : µ 6= 20 ao n´ıvel de
significaˆncia de 5%, usando um teste sime´trico com probabilidade 0.025 em
cada cauda.
e) Construa um intervalo de confianc¸a de 95% para µ. Qual e´ o valor obser-
vado do intervalo de confianc¸a?
4. (Teste de Hipo´tese: F-teste)
Suponha que queiramos estimar o modelo
y = X
n×k
β + W
n×1
δ + ε
e testar H0 : δ = 0. Assuma que [X :W ] tenha posto completo.
a) Assuma que E [ε|X,W ] = 0 e que E [εε0|X,W ] = σ2I. σ2 e´ desconhecido
e precisa ser estimado. Como voceˆ testaria H0 : δ = 0?
b) Suponha que ao inve´s de ter E [ε|X,W ] = 0, tenhamos E [ε|X] = 0, e que
ε seja correlacionado com W, de modo que ε = Wγ + u, com E [u|X,W ] = 0 e
E [uu0|X,W ] = σ2I..σ2 e´ novamente desconhecido e precisa ser estimado. No´s
ainda queremos testar H0 : δ = 0.
i) A regressa˜o restrita produz um estimador na˜o viesado de β?
ii) A regressa˜o irrestrita produz estimadores na˜o viesados de β e δ?
iii) Voceˆ pode ainda utilizar o mesmo teste de a)?
c) Suponha que ao inve´s de ter E [ε|X,W ] = 0 ou E [ε|X] = 0, no´s tenhamos
E [ε|W ] = 0 e que ε seja correlacionado com X, de modo que ε = Xα+ v, com
E [v|X,W ] = 0 e E [vv0|X,W ] = σ2I. σ2 e´ novamente desconhecido e precisa
ser estimado. No´s ainda queremos testar H0 : δ = 0.
Responda i), ii) e iii) para esse caso.
5. (Teorema de Gauss-Markov, teste de hipo´tese)
Considere o modelo
yt = β1 + x2tβ2 + x3tβ3 + εt
onde todas as varia´veis sa˜o escalares, E [ε|X] = 0 e E [εε0|X] = σ2I. Seja
X2 = [x21, ..., x2T ]
0 e defina similarmente X3. Seja ι um vetor de 1’s de dimensa˜o
T × 1. Enta˜o X = [ι|X2|X3] . Assuma que X tenha posto completo.
Considere duas subamostras com T1 e T2 observac¸o˜es (T1 + T2 = T ) . Na
amostra I, X2 e X3 sa˜o
bastante correlacionados. Portanto, apenas estimativas
imprecisas de β2 e β3 podem ser obtidas. Sabe-se, por outro lado, que a amostra
2
II e´ proveniente de uma populac¸a˜o na qual β3 = 0 e β2 e´ o mesmo que na amostra
I. Nenhuma suposic¸a˜o a respeito de β1 e´ feita.
a) Suponha que a amostra II seja muito grande. Enta˜o, voceˆ pode utilizar
a amostra II para obter uma boa estimativa de β2. Chame esta estimativa de
βˆ2. Agora use a amostra I para regressar yt−x2tβˆ2 em x3t e em uma constante
e obter βˆ1 e βˆ3. As estimativas sa˜o na˜o viesadas? O que o teorema de Gauss-
Markov diz sobre esse procedimento?
b) Voceˆ agora relaxa a hipo´tese de que β3 = 0 na amostra II. como voceˆ
testaria a hipo´tese de que β3 = 0 na amostra II? Voceˆ usaria ambas as amostras
ou apenas a amostra II? Por queˆ? Como voceˆ implementaria o teste se x4tβ4
tambe´m aparecesse na equac¸a˜o e voceˆ desejasse testar a hipo´tese conjunta de
que β3 = 0 e que β4 = 0 na amostra II?
6. (Exerc´ıcio emp´ırico: Estimac¸a˜o, intervalos de confianc¸a, testes de hipo´tese,
previsa˜o) Use os dados do Greene, tabela 7.1 da 4a¯ edic¸a˜o. Use Matlab para
implementar as rotinas. Salve os programas para uso futuro.
a) Estime os coeficientes e a variaˆncia do erro na func¸a˜o de produc¸a˜o Cobb-
Douglas
ln (Yi) = β1 + β2 ln (Li) + β3 ln (Ki) + εi, i=1,...,27
b) Construa um intervalo de confianc¸a de 95% para β2. Qual e´ a inter-
pretac¸a˜o?
c) Construa um intervalo de confianc¸a de 95% para β2 + β3.
d) Construa duas regio˜es de confianc¸a de 95% para β2 e β3, uma retangular
e uma que seja uma elipse usando a fo´rmula
P
ó
Rβˆ −Rβ
´0 ·
s2R
³
X
0
X
´−1
R0
¸−1 ³
Rβˆ −Rβ
´
/p ≤ F1−α,p,n−k
!
(voceˆ na˜o precisa plotar a elipse).
e) Teste H0 : β2 = 0.8 contra H1 : β2 6= 0.8 ao n´ıvel de significaˆncia de 5%.
Calcule e plote a func¸a˜o poder do teste. Qual e´ a probabilidade de efetuar um
erro do tipo I? Qual e´ a probabilidade de efetuar um erro do tipo II se o valor
verdadeiro de β2 e´ 0.5?
f) Teste as hipo´teses de retornos constantes de escala, H0 : β2 + β3 = 1
contra H1 : β2 + β3 6= 1 ao n´ıvel de significaˆncia de 5%. Qual e´ a relac¸a˜o entre
esse teste e os resultados de c) e d)?
g) Suponha que estejamos considerando a abertura de uma planta com
Li = 600 e Ki = 1000. Qual e´ a melhor previsa˜o para o logaritmo do pro-
duto, ln (Yi) , dessa planta? Construa um intervalo de previsa˜o de 95%. Qual e´
o valor observado desse intervalo?
7. Considere o modelo de regressa˜o linear
y = Xβ + ε
3
para o qual todas as hipo´teses usuais sa˜o satisfeitas. Suponha que no´s desejemos
prever o valor de y, y0, para valores dados dos regressores, x0. Denote o valor
previsto por yˆ0. No´s sabemos que o erro de previsa˜o, εˆ0 = y0 − yˆ0, condicional
em x0, tem variaˆncia dada por
V [εˆ0|x0] = σ2 + x00V
³
βˆ|x0
´
x0 = σ
2 + σ2x00 (X
0X)−1 x0
Mostre que, se X incluir uma constante, a variaˆncia condicional do erro de
previsa˜o pode ser reescrita como
V [εˆ0|x0] = σ2 + σ
2
n
+ σ2 (x0 − x¯)0 (X 0X)−1 (x0 − x¯)
4
Econometria/listas/lista3sol.pdf
Universidade de Sa˜o Paulo - Departamento de Economia
EAE 5811 - Econometria I
Prof. Ricardo Avelino
1o Semestre de 2007
Lista de Exerc´ıcios 3 - Soluc¸o˜es
Monitoras: Paula Pereda
Jaqueline de Oliveira
1) a) Sabemos que o R2 e´ dado por:
SSR
SST
=
b0XM0Xb
y0M0y
onde M0 =
£
I − i(i0i)−1i
¤
Contudo, temos:
b0XM0Xb = yˆ0M0yˆ = yˆ0M0(y − e) = yˆ0M0y − yˆ0M0e = yˆ0M0y
pois M0e = e e yˆ0e = b0X 0e = 0.
Assim, multiplicando o R2 por 1 = yˆ0M0y/yˆ0M0yˆ, temos
SSR
SST
=
yˆ0M0y
y0M0y
=
yˆ0M0y
y0M0y
.
yˆ0M0y
yˆ0M0yˆ
=
[
P
i(yi − y¯)(yˆi − y¯)]
2
[
P
i(yi − y¯)2] [
P
i(yˆi − y¯)2]
b) Considere as seguintes regresso˜es:
yt = x01tβ1 + εt =⇒ y = Xβ1 + ε (1)
yt = x01tβ
∗
1 + x
0
2tβ
∗
2 + ε
∗
t =⇒ y = Xβ∗1 + zβ∗2 + ε∗ (2)
Seja e e u o res´ıduo das regresso˜es (1) e (2). Ale´m disto, seja b o estimador
de β1 na regressa˜o (1) e d e c os estimadores de β
∗
1 e β
∗
2 ,respectivamente, na
regressa˜o (2). Enta˜o:
e = y −Xb (3)
e
u = y −Xd− zc (4)
As equac¸o˜es normais da regressa˜o (2) implicam que:·
X 0X X 0z
z0X z0z
¸ ·
d
c
¸
=
·
X 0y
z0y
¸
Logo:
(X 0X)−1d+ (X 0z)c = X 0y (5)
(z0X)d+ (z0z)c = z0y (6)
1
De (5):
d = (X 0X)−1X 0y − (X 0X)−1(X 0z)c (7)
Substituindo d em (4), segue que:
u = y −X(X 0X)−1X 0y +X(X 0X)−1X 0zc− zc
= y −Xb−
£
I −X(X 0X)−1X 0
¤
zc
= e−Mzc = e− z∗c (8)
onde M = I −X 0(X 0X)−1X 0 e z∗ =Mz.
Assim,
u0u = (e− z∗c)0(e− z∗c)
= e0e− 2e0z∗c+ cz∗0z∗c (9)
Note que as equac¸o˜es (6) e (7) implicam que:
(z0X)(X 0X)−1X 0y − (z0X)((X 0X)−1X 0zc+ z0zc = z0y =⇒
z0
£
I −X(X 0X)−1X 0
¤
zc = z0
£
I −X(X 0X)−1X 0
¤
y =⇒
c = (z∗0z∗)−1z∗0y (10)
Mas e = My = y∗, o que, por sua vez, implica que z∗0e = z∗0y = c(z∗0z∗).
Assim:
u0u = e0e− 2c2(z∗0z∗) + c2(z∗0z∗)
Como z∗0z∗ e´ o quadrado de um vetor, c2z∗0z∗ na˜o pode ser negativo. Con-
sequentemente, a soma dos quadrados dos res´ıduos na˜o pode decrescer quando
uma varia´vel e´ adicionada ao modelo. Os coeficientes de determinac¸a˜o das
regresso˜es (1) e (2) podem ser expressados respectivamente por (11) e (12):
R2 = 1− e
0e
y0M0y
(11)
R2 = 1− u
0u
y0M0y
(12)
onde M0 =
£
I − i(i0i)−1i
¤
.
Assim,
u0u ≤ e0e =⇒ 1− e
0e
y0M0y
≤ 1− u
0u
y0M0y
,
o que completa a prova.
c) O R¯2 ajustado das regresso˜es (1) e (2) sa˜o iguais a (13) e (14) respectiva-
mente:
R¯2 = 1− e
0e/(n− k)
y0M0y/(n− 1) (13)
2
R¯2 = 1− u
0u/(n− k − 1)
y0M0y/(n− 1) (14)
Assim, o R¯2 cresce de (1) para (2) se e somente se:
e0e/(n− k) > u0u/(n− k − 1) ⇐⇒
(n− k − 1)e0e > (n− k)u0u ⇐⇒
(n− k − 1) [e0e− u0u] > u0u ⇐⇒
(n− k − 1)c2(z∗0z∗) > u0u (15)
A estat´ıstica t usada para testar H0 : βz = 0 no segundo modelo e´ dada por:
tz =
cr
u0u
n− k − 1(W
0W )−12,2
onde (W 0W )−12,2 e´ o segundo elemento da diagonal da matriz (W
0W )−1 e W =£
X z
¤
. Usando a fo´rmula da inversa de uma matriz particionada, temos :
(W 0W )−12,2 = (z
∗0z∗)−1
Assim,
t2z =
c2
u0u
n− k − 1 (z
∗0z∗)−1
=⇒ c2 = t2z
u0u
n− k − 1 (z
∗0z∗)−1 (16)
Equac¸a˜o (16) implica que (15) e´ satisfeita se e somente se:
(n− k − 1)t2z
u0u
n− k − 1 (z
∗0z∗)−1 (z∗0z∗) > u0u ⇐⇒ t2z > 1
Logo, R¯2 aumenta se o somente se t2z > 1.
2) X1, ...,Xn e´ uma sequeˆncia de varia´veis aleato´rias i.i.d., cada uma com
distribuic¸a˜o N (µ, 1) . Disto segue que:
√
n(X − µ)˜N (0, 1)
A func¸a˜o poder do teste neste caso e´ dada por:
π(µ/δ) = P
£
X¯ ≤ c1
¤
+ P
£
X¯ ≥ c2
¤
= P
£
X¯ ≤ c1
¤
+ 1− P
£
X¯ ≤ c2
¤
= P
£√
n(X¯ − µ) ≤
√
n(c1 − µ)
¤
+ 1− P
£√
n(X¯ − µ) ≤
√
n(c2 − µ)
¤
= 1 +Φ
£√
n(c1 − µ)
¤
− Φ
£√
n(c2 − µ)
¤
onde Φ e´ a f.d.a. da distribuic¸a˜o Normal Padra˜o.
3
Para µ = 0, 1 e µ = 0, 2, n=25, e π (0, 1/δ) = π (0, 2/δ) = 0, 07, temos o
seguinte sistema de equac¸o˜es:
1 +Φ [5(c1 − 0, 1)]− Φ [5(c2 − 0, 1)] = 0, 07
1 +Φ [5(c1 − 0, 2)]− Φ [5(c2 − 0, 2)] = 0, 07
Os valores de c1 e c2 podem ser obtidos por tentativa e erro. Uma tentativa
inicial poss´ıvel e´ determinar valores tais que
P [
√
n(X¯ − µ) ≤ 5(c
0
1 − 0, 1)] = P [
√
n(X¯ − µ) ≥ 5(c
0
2 − 0, 1)] = 0, 035
P [
√
n(X¯ − µ) ≤ 5(c
00
1 − 0, 2)] = P [
√
n(X¯ − µ) ≥ 5(c
00
2 − 0, 2)] = 0, 035
O valor cr´ıtico da distribuic¸a˜o normal padra˜o neste caso
e´ de aproximada-
mente 1, 81. Assim, resolvendo o sistema acima obtemos c
0
1 = −0, 262; c
0
2 =
0, 462; c
00
1 = −0, 162; c
00
2 = 0, 562. Podemos agora tomar as me´dias de c
0
1 e c
00
1 e
de c
0
2 e c
00
2 , que sa˜o, respectivamente, aproximadamente iguais a −0, 212 e 0, 512.
Consultando as probabilidades das regio˜es cr´ıticas associadas a` esses valores de
c1 e c2, encontramos 0, 0791.
Prosseguindo com o processo de tentativa e erro em torno dos valores previa-
mente encontrados, teremos que uma boa aproximac¸a˜o seriam os valores −0, 225
e 0, 525 para c1 e c2 respectivamente. Substituindo os valores no sistema de
equac¸o˜es verificamos que
P [
√
n(X¯ − µ) ≤ −1, 625] + P [
√
n(X¯ − µ) ≥ 2, 125] = 0, 0526 + 0, 017
= 0, 0696
P [
√
n(X¯ − µ) ≤ −2, 125] + P [
√
n(X¯ − µ) ≥ 1, 625] = 0, 017 + 0, 0526
= 0, 0696
3) a) Para mostrar que X¯˜N
¡
µ, σ2/n
¢
, usaremos o seguinte teorema:
(F.D.P. de Combinac¸o˜es Lineares de Varia´veis Aleato´rias Normais). Seja X
um vetor aleato´rio de dimensa˜o n com func¸a˜o densidade N (µ,Σ) Seja A uma
matriz (k × n) de constantes reais com posto k, e seja b algum vetor (k × 1) de
constantes reais. Enta˜o, o vetor aleato´rio (k × 1), Y = Ax + b tem densidade
N (Aµ+ b,AΣA0)
Seja A(1×n) = (n−1, ..., n−1) e b = 0 no teorema anterior. Como
X(n×1) ∼ N(µx, σ2I)
onde X(n×1) = (X1, ...,Xn)0 e µx(n×1) = (µ, ..., µ)0, enta˜o
X¯ = AX ∼ N(Aµx, Aσ2IA0) = N
¡
µ, σ2/n
¢
4
Para demonstrar a distribuic¸a˜o de X∗/σ2, defina
B(1×n) =
£
n−1, ..., n−1
¤
e H(n×n) =


B
B
...
B

 =


n−1 n−1 . . . n−1
n−1
. . . . . .
...
... . . .
. . .
...
n−1 n−1 . . . n−1


de forma que:
(I −H)X =


X1 − X¯
X1 − X¯
...
X1 − X¯


Segue disto que:
X∗
σ2
=
1
σ2
[X 0(I −H)0(I −H)X] = 1
σ2
[(X − µx)0(I −H)0(I −H)(X − µx)]
=
1
σ2
[(X − µx)0(I −H)(X − µx)]
pois (I − H)µx = µx − µx = [0] e (I − H) e´ idempotente. A matriz (I − H)
tambe´m e´ sime´trica e seu trac¸o e´ igual a` n− 1. Agora, usaremos o fato de que
as ra´ızes caracter´ısticas de uma matriz idempotente sa˜o uma colec¸a˜o de 1’s e 0’s
e que seu posto e´ igual a` seu trac¸o. Desta forma, (n− 1) ra´ızes caracter´ısticas
de I −H sa˜o iguais a 1 e o restante e´ 0.
Diagonalizando I −H por seus vetores ortogonais caracter´ısticos, temos:
P 0(I −H)P =
·
I [0]
[0] 0
¸
= Λ
onde I e´ uma matriz de dimensa˜o (n− 1). Assim, I −H = PΛP 0 e enta˜o:
1
σ2
[(X − µx)0PΛP 0(X − µx)] = Z0ΛZ
onde Z =
1
σ
P 0(X − µx)˜N([0] , I), ja´ que P 0P = I.
Mas
X∗
σ2
=
n−1P
i=1
Z2i , dada a definic¸a˜o de Λ , isto e´, a soma dos quadrados de
(n− 1) varia´veis aleato´rias com distribuic¸a˜o Normal Padra˜o.
5
A func¸a˜o geradora de momento de Z2i e´ dada por:
MZ2i (t) = E
h
eZ
2
i t
i
=
Z +∞
−∞
exp(Z2i t)
1√
2π
exp
½
−1
2
Z2i
¾
dZi
=
Z +∞
−∞
1√
2π
exp
½
−1
2
Z2i (1− 2t)
¾
dZi
= (1− 2t)− 12
Z +∞
−∞
1√
2π(1− 2t)− 12
exp
(
−1
2
µ
Zi
(1− 2t)− 12
¶2)
dZi
= (1− 2t)− 12
Z +∞
−∞
N(0, (1− 2t)−1 = (1− 2t)− 12 , para t < 1/2
Assim, Z2i ˜χ
2
1
A func¸a˜o geradora de momento de
X∗
σ2
=
n−1P
i=1
Z2i e´ dada por:
MX∗
σ2
(t) = E
h
e
Pn
i=1 Z
2
i t
i
=
n−1Y
i=1
E
h
eZ
2
i t
i
=
n−1Y
i=1
(1− 2t)− 12 = (1− 2t)−(n−1) 12
que e´ igual a` func¸a˜o geradora de momento de uma distribuic¸a˜o qui-quadrado
com n− 1 graus de liberdade. Isto completa a prova.
b) Faremos uso do seguinte teorema:
Teorema: Seja B uma matriz (q × n) de nu´meros reais, A uma matriz
sime´trica (n×n) de nu´meros reais, com posto p, e X um vetor aleato´rio (n×1)
tal que X˜N(µx, σ
2I). Enta˜o BX e X 0AX sa˜o independentes se BA = [0].
No contexto do teorema anterior, defina B e H como no ı´tem (a). Enta˜o
X¯ = BX e
X∗
σ2
=
1
σ2
[X 0(I −H)X] = X 0AX, onde A = 1
σ2
(I − H). Ale´m
disto, A e´ sime´trica e BA = σ−2B(I −H) = σ−2(B −B) = 0.
Assim, X¯ e
X∗
σ2
sa˜o independentes.
c) O valor da estat´ıstica t e´ igual a:
t =
X¯ − µ
S/
√
n
˜tn−1
mas S2 =
X∗
n− 1 =
72
8
= 9. Assim,
t =
27− 20
3/
√
9
= 2
6
Para um teste unicaudal, a regia˜o cr´ıtica C e´ C = {x ∈ R;x > 1, 86}. Assim,
o valor da estat´ıstica se encontra na regia˜o cr´ıtica, o que nos leva a rejeitar a
hipo´tese nula.
d) Neste caso, a regia˜o cr´ıtica C e´ igual a C 0 = {x ∈ R;x < −2, 306 ou x > 2}.
O valor da estat´ıstica e´ o mesmo do ı´tem (c). Entretanto, na˜o se encontra na
regia˜o cr´ıtica C0. Assim, na˜o rejeitamos a hipo´tese nula de que µ = 20.
e)
P
µ
−2, 306 < X¯ − µ
S/
√
n
< 2, 306
¶
= 0, 95
Isto implica que
P
µ
X¯ − 2, 306 S√
n
< µ < X¯ + 2, 306
S√
n
¶
= 0, 95
O intervalo de confianc¸a de 95% para µ e´ dado por:
IC(95%) =
·
X¯ − 2, 306 S√
n
; X¯ + 2, 306
S√
n
¸
=
h
22− 2, 306(3/
√
9; 22 + 2, 306(3/
√
9
i
= [19, 694; 24, 306]
4) O modelo restrito e´ dado por:
Y = Xβ + ε
O modelo irrestrito e´:
Y = Xβ +Wδ + ε
Seja e˜0e˜ a soma dos quadrados do modelo restrito e eˆ0eˆ a soma dos quadrados
do modelo irrestrito.
Para testarH0 : δ = 0, usamos a seguinte estat´ıstica F :
F =
(e˜0e˜− eˆ0eˆ)/l
eˆ0eˆ/(n− k)
b) (i) O modelo restrito e´ dado agora por:
Y = Xβ + ε = Xβ +Wγ + u
Neste caso, se tentamos estimar Y = Xβ + ε, isto e´, Y como uma func¸a˜o
apenas deX, teremos um problema de varia´veis omitidas, dado que o verdadeiro
modelo e´ dado por (1). Assim, βˆ sera´ um estimador viesado de β, a menos que
X 0W = 0.
(ii)
Y = Xβ +Wδ + ε
7
As equac¸o˜es normais podem ser escritas como:·
X 0X X 0W
W 0X W 0W
¸ ·
βˆ
δˆ
¸
=
·
X 0Y
W 0Y
¸
=⇒·
βˆ
δˆ
¸
=
·
X 0X X 0W
W 0X W 0W
¸−1 ·
X 0Y
W 0Y
¸
Pela regra da inversa de uma matriz particionada, β e δ sa˜o dados por:
βˆ = (X 0MwX)−1(X 0MwY )
δˆ = (W 0MxW )−1(W 0MxY )
onde Mx =
£
I −X(X 0X)−1X 0
¤
e Mw = [I −W (W 0W )W 0]
Mas o verdadeiro modelo e´
Y = Xβ +W [δ + γ] + u
Substituindo este resultado nas equac¸o˜es dos estimadores temos:
βˆ = (X 0MwX)−1(X 0MwXβ) + (X 0MwX)−1(X 0MwW [δ + γ])
+(X 0MwX)−1(X 0Mwu)
= β + (X 0MwX)−1(X 0Mwu)
ja´ que MwW = 0.Isto implica que:
E(βˆ/W,X) = β
Logo βˆ ainda e´ um estimador na˜o viesado de β.
Mas
δˆ = (W 0MxW )−1(W 0MxXβ) + (W 0MxW )−1(W 0MxW ) [δ + γ]
+(W 0MxW )−1(W 0Mxu)
Como MxX = 0, o primeiro termo da soma e´ igual a` zero. Assim:
E(δˆ/W,X) = δ + γ
de maneira que δˆ e´ um estimador viesado para δ.
(iii) O teste na˜o e´ va´lido neste cado porque o numerado e o denominador
da estat´ıstica de teste na˜o sa˜o mais independentes, ja´ que ambos sera˜o correla-
cionados com W . Assim, esta estat´ıstica na˜o tera´ uma distribuic¸a˜o F .
c) (i) Modelo restrito:
Y = Xβ + ε = X(β + α) + u
8
Temos que:
βˆ = (X 0X)−1(X 0Y ) = (X 0X)−1X 0X(β + α) + (X 0X)−1X 0u
Logo:
E(βˆ/X,W ) = β + α
de onde conclu´ımos que βˆ e´ um estimador viesado de β.
(ii) Modelo irrestrito:
Y = Xβ +Wδ + ε = X(β + α) +Wδ + u
Assim,
βˆ = (X 0MwX)−1(X 0MwY )
= (X 0MwX)−1(X 0MwX)(β + α) + (X 0MwX)−1(X 0MwWδ)
+(X 0MwX)−1(X 0Mwu)
= (X 0MwX)−1(X 0MwX)(β + α) + (X 0MwX)−1(X 0Mwu)
Consequentemente:
E(βˆ/X,W ) = β + α
de maneira que βˆ ainda e´ viesado.
Por sua vez,
δˆ = (W 0MxW )−1(W 0MxY )
= (W 0MxW )−1(W 0MxXβ) + (W
0MxW )−1(W 0MxWδ)
+(W 0MxW )−1(W 0Mxu)
= (W 0MxW )−1(W 0MxWδ) + (W 0MxW )−1(W 0Mxu)
Assim,
E(δˆ/X,W ) = δ
de maneira que δˆ e´ um estimador na˜o viesado de δ.
(iii) Agora o teste e´ va´lido, ja´ que ambos os res´ıduos (dos modelos restrito e
irrestrito) sera˜o independentes de W . Assim, a estat´ıstica F dera´ distribuic¸a˜o
usual F .
5) Por hipo´tese
yt = β
∗
1 + x2tβ
∗
2 + x3tβ
∗
3 + ε
∗
t , t = T1 + 1, ..., T1 + T2,
onde β∗3 = 0 e β
∗
2 = β
∗
1. A esperanc¸a de βˆ2 e´ igual ao verdadeiro valor de β
∗
2 na
amostra II. Assim, βˆ2 e´ um estimador na˜o viesado de β2.
No segundo esta´gio, estimamos o seguinte modelo, baseado na amostra I.
yt − x2tβˆ2 = β∗∗1 + x3tβ∗∗3 + εt
9
O estimador OLS de β∗∗1 e β
∗∗
3 sa˜o, respectivamente:
βˆ1 = y¯t − x¯2tβˆ2 − x¯3tβˆ3
e
β3 = (x
0
3M
0x3)−1x
00
3M
0(y − x2βˆ2)
onde M0 foi definida na questa˜o (1).
Assim,
E(βˆ3|X) = E
h
(x03M
0x3)−1x
00
3M
0(β1 + x2β2 + x3β3 + ε− x2βˆ2|X
i
= E
h
(x03M
0x3)
−1x
00
3M
0β1|X
i
+E
h
(x03M
0x3)−1x
00
3M
0x2(β2 − βˆ2)|X
i
+E
h
(x03M
0x3)−1x
00
3M
0x3β3|X
i
+E
h
(x03M
0x3)−1x
00
3M
0ε|X
i
= β3
ja´ que M0β1 = 0, E
h
β2 − βˆ2
i
= 0 e E [ε/X] = 0
Ale´m disto,
E(βˆ1|X) = E
h
β1 + x¯2tβ2 − x¯3tβ3 + ε¯− x¯2tβˆ2 − x¯3tβˆ3|X
i
= E [β1|X] +E
h
x¯2t(β2 − βˆ2)|X
i
+E
h
x¯3t(β3 − βˆ3)|X
i
+E [ε¯|X]
= β1
ja´ que E
h
β2 − βˆ2/X
i
= β2−β2 = 0, E
h
β3 − βˆ3/X
i
= β3−β3 = 0 e E [ε¯/X] =
0. (Lembre-se de que X inclui um vetor de 1’s)
Assim, βˆ1 e βˆ3 tambe´m sa˜o na˜o viesados. Contudo, o teorema de Gauss-
Markov estabelece que os erros padra˜o dos estimadores baseados neste proced-
imento sa˜o maiores do que os erros padra˜o associados aos estimadores de OLS
de uma regressa˜o de um esta´gio baseada na amostra inteira.
b) Para testar a hipo´tese nula de que β3 = 0 na amostra II contra a hipo´tese
alternativa de que β3 6= 0, regredimos yt sobre X apenas na amostra II e
constru´ımos a seguinte estat´ıstica:
t =
βˆ3 − β3
s
p
T2−3
Esta estat´ıstica tem distribuic¸a˜o t-Student com T3−3 graus de liberdade. Se
o valor observado pertencer a` regia˜o cr´ıtica, determinado antes, enta˜o a hipo´tese
nula e´ rejeitada.
10
A amostra inteira na˜o deve ser usada para este teste porque mesmo sob a
hipo´tese nula, o estimador resultante provavelmente tem valor esperado diferente
de 0.
Se x4tβ4 tambe´m aparece na equac¸a˜o e se queremos testar a hipo´tese nula
conjunta de que β3 = β4 = 0, uma alternativa e´ rodar duas regresso˜es: uma
restrita e uma irrestrita. Seja RSS e USS as somas dos quadrados restrita e
irrestrita, respectivamente. Enta˜o, a estat´ıstica:
t =
(RSS − USS)/2
USS/(T2 − 4)
tem uma distribuic¸a˜o F com 2 e T1 + T2 − 4 graus de liberdade. Novamente se
o valor observado da estat´ıstica pertencer a regia˜o cr´ıtica, rejeitamos a hipo´tese
de que β3 = β4 = 0.
6) a) Os estimadores de OLS sa˜o obtidos a partir da fo´rmula:
b = (X 0X)−1(X 0Y )
Assim, como base nos dados da amostra, temos:


b1
b2
b3

 =


1, 1706
0, 6030
0, 3757


O estimador da variaˆncia do erro, por sua vez, e´ dado por:
s2 = (uˆ0uˆ)/n− k = (uˆ0uˆ)/24 = 0, 0355
b) E´ sabido que:
t =
b2 − β2q
s2(X 0X)−12,2
˜t(24)
Logo, um intervalo de confianc¸a de 95% para β2 e´ tal que:
P
£
tα ≤ tb2 ≤ t1−α/2
¤
= 0, 95
O valor cr´ıtico da distribuic¸a˜o t-Student, t0,05, para 24 graus de liberdade, e´
de 2, 064.Ale´m disto, temos que a matriz de variaˆncia e covariaˆncia e´ dada por:
var − cov = s2 (X 0X)−1
=


0, 1068 −0, 0198 0, 0012
−0, 0198 0, 0159 −0, 0096
0, 0012 −0, 0096 0, 0073


Podemos obter o desvio padra˜o de b2 da seguinte forma:q
s2(X 0X)−12,2 = 0, 1260
11
Assim, o intervalo de confianc¸a de 95% para β2 e´:
IC95% : b2 − tα/2
q
s2(X 0X)−12,2 ≤ β2 ≤ b2 + tα/2
q
s2(X 0X)−12,2
: 0, 3429360 ≤ β2 ≤ 0, 8630640
Interpretac¸a˜o: antes da realizac¸a˜o da amostra, o intervalo acima incluira´ o
paraˆmetro β2 com probabilidade de 95%.
c) Neste caso, queremos um intervalo de confianc¸a para uma combinac¸a˜o
linear dos paraˆmetros dada por Rβ = β2 + β3..Logo, a matriz R e´ dada por:
R =
£
0 1 1
¤
O intervalo de confianc¸a de 95% para Rβ e´ IC95%:h
b2 + b3 − tα/2
p
R(X 0X)−1R ≤ β2 + β3 ≤ b2 + b3 + t1−α/2
p
R(X 0X)−1R
i
= [0, 8493732 ≤ β2 + β3 ≤ 1, 1078268]
d) Retangular:
A regia˜o de confianc¸a retangular e´ constru´ıda utilizando-se a desigualdade
de Bonferroni, em que o problema consiste em achar intervalos
£
θj(X); θ¯j(X)
¤
tais que
Pθ
£
θj /∈
£
θj(X); θ¯j(X)
¤¤
≤ α
K
Como α = 0, 05, temos enta˜o que construir intervalos de confianc¸a separados
para β2 e β3 de 100(1−0, 025) porcento. Para tanto, devemos encontrar o valor
de tα/2 = t0,0125 na tabela da distribuic¸a˜o t. Esse valor e´ de, aproximadamente,
2, 492, de forma que temos:
β2:[0, 6030± 2, 492× 0, 1260] = [0, 289008; 0, 916992]
β3:[0, 3756± 2, 492× 0, 08544] = [0, 162684; 0, 588516]
12
0,5885
0,1626
0,2890 0,9169
β3
β2
Regia˜o de Confianc¸a Retangular
A regia˜o de confianc¸a el´ıptica e´ constru´ıda utilizando a fo´rmula:
P
µ³
Rβˆ −Rβ
´0 h
s2R (X 0X)−1R
0i−1 ³
Rβˆ −Rβ
´
/p ≤ F0.05,2,24
¶
= 0, 95
Chegamos a seguinte relac¸a˜o:
£
0, 6030− β2 0, 3757− β3
¤ ·315, 5419 416, 5765
416, 5765 687, 2502
¸ ·
0, 6030− β2
0, 3757− β3
¸
≤ 3, 39
Os valores de β2 e β3 que satisfazem a essa desigualdade formam a regia˜o
de confianc¸a el´ıptica.
Testando va´rios valores de paraˆmetros, observa-se que aqueles que satisfazem
a desigualdade concentram-se em torno do verdadeiro valor dos paraˆmetros, no
formato de uma elispe.
13
0
0.1
0.2
0.3
0.4
0.5
0.6
0.4 0.45 0.5 0.55 0.6 0.65 0.7 0.75 0.8
ß3
ß2
Regia˜o de Confianc¸a El´ıptica
e) Testar:
H0 : β2 = 0, 8
H1 : β2 6= 0, 8
Estat´ıstica do teste:
tb2 =
b2 − β2
s(b2)
˜t(24) =
0, 6030− 0, 8
0, 1260
= −1, 5634921
O valor cr´ıtico para α = 5% e 24 graus de liberdade e´ 2, 064. E´ regra
de decisa˜o e´: se |tb2 | > tα/2, rejeitamos a hipo´tese nula; caso contra´rio, na˜o
rejeitamos a hipo´tese nula. Assim, na˜o rejeitamos a hipo´tese nula a 5% de
significaˆncia.
14
A func¸a˜o poder do teste e´ dada por:
π(β2/δ) = P
·¯¯¯¯
b2 − β20
s(b2)
¯¯¯¯
> 2, 064|β2
¸
= P
·
b2 − β20
s(b2)
> 2, 064
¸
+ P
·
b2 − β20
s(b2)
≤ −2, 064
¸
= 1− P
·
b2 − β2
s(b2)
+
β2 − β20
s(b2)
< 2, 064
¸
+P
·
b2 − β2
s(b2)
+
β2 − β20
s(b2)
≤ −2, 064
¸
= 1− P
·
b2 − β2
s(b2)
< 2, 064− β2 − β20
s(b2)
¸
+P
·
b2 − β2
s(b2)
≤ −2, 064− β2 − β20
s(b2)
¸
= 1− P
·
b2 − β2
s(b2)
< 2, 064− β2 − 0, 8
0, 1260
¸
+P
·
b2 − β2
s(b2)
≤ −2, 064− β2 − 0, 8
0, 1260
¸
ßj = 0,8
1,0
0,5
0,0
a = 0,05
Func¸a˜o Poder do Teste
15
A probabilidade de cometer erro tipo I e´ dado pelo n´ıvel de significaˆncia do
teste. No nosso caso, e´ igual a` 5%.
A probabilidade de cometer erro tipo II se o valor verdadeiro de β2 e´ 0, 5 e´
dada por:
P [erro tipo II /β2 = 0, 5] = 1− P
·¯¯¯¯
b2 − β20
s(b2)
¯¯¯¯
> 2, 064|β2 = 0, 5
¸
= 1− P
·¯¯¯¯
b2 − β20
s(b2)
¯¯¯¯
> 2, 064
¸
= 1− P
·
b2 − β20
s(b2)
> 2, 064
¸
+P
·
b2 − β20
s(b2)
≤ −2, 064
¸
= 1−
½
1− P
·
b2 − β20
s(b2)
< 2,
064
¸¾
+P
·
b2 − β20
s(b2)
≤ −2, 064
¸
= P
·
b2 − β20
s(b2)
< 2, 064
¸
− P
·
b2 − β20
s(b2)
≤ −2, 064
¸
= P
·
b2 − 0, 5
s(b2)
+
0, 5− β20
s(b2)
< 2, 064
¸
−P
·
b2 − 0, 5
s(b2)
+
0, 5− β20
s(b2)
≤ −2, 064
¸
= P
·
b2 − 0, 5
s(b2)
< 2, 064− 0, 5− 0, 8
0, 1260
¸
−P
·
b2 − 0, 5
s(b2)
≤ −2, 064− 0, 5− 0, 8
0, 1260
¸
= P
·
b2 − 0, 5
s(b2)
< 4, 44
¸
− P
·
b2 − 0, 5
s(b2)
≤ 0, 3169
¸
f) Vamos testar:
H0 : β2 + β3 = 1
H1 : β2 + β3 6= 1
Alternativamente, temos que R =
£
0 1 1
¤
e q = 1, de forma que a H0 e´
expressa como:
H0 : Rβ = q
H1 : Rβ 6= q
Sob H0, temos que:
(Rβˆ − q0)0
£
s2R(X 0X)−1R0
¤−1
(Rβˆ − q0)/p˜Fp,n−k
16
Logo, a estat´ıstica do teste e´ dada por:
F (1, 24) = 0, 1157398
O valor cr´ıtico da distribuic¸a˜o Fp,n−k e´ 4, 25,Assim, na˜o rejeitamos a hipo´tese
nula de que ha´ retornos constantes de escala.
Dos resultados obtidos nos itens (c) e (d), podemos ver que o valor do
paraˆmetro sob H0, β2 + β3 = 1 se encontram nos intervalos de confianc¸a con-
stru´ıdos, o que tambe´m nos leva a na˜o rejeitar a hipo´tese nula de retornos
constantes de escala.
g) A melhor previsa˜o para o logaritmo do produto, ln(Y1), e´:
ln(Yi) = 1, 1706 + 0, 6030 ln(600) + 0, 3757 ln(1000)
= 7, 6235
Portanto,
Yi = 2045, 898
O intervalo de previsa˜o de 95% e´ dado por IP95%, cujos limites inferiores e
superiores sa˜o dados, respectivamente, por
x00βˆ − t1−α/2,n−K
s
s2
µ
1 +
1
n
+ (x0 − x¯)(X 0X)−1(x0 − x¯)
¶
e
x00βˆ + t1−α/2,n−K
s
s2
µ
1 +
1
n
+ x00(X 0X)−1x0
¶
isto e´,
IP95% = 7, 6235± 2, 064× 0, 2277
= [7, 1535; 8, 0935]
7) Com a inclusa˜o de uma constante, temos que o modelo e´ escrito como
y = α+ x0β + ε
Por sua vez,
yˆ0 = αˆ+ x00βˆ = y¯ − x¯βˆ + x00βˆ
= α+ x¯0β + ε¯− x¯βˆ + x00βˆ
Assim, escrevemos o erro de previsa˜o como:
εˆ0 = y0 − yˆ0 = α+ x00β + ε0 − α− x¯0β − ε¯+ x¯βˆ − x00βˆ
= (x0 − x¯)0β − (x0 − x¯)0βˆ + ε0 − ε¯
Logo,
V ar(εˆ0|x0) = V ar(ε0) + V ar(ε¯) + (x0 − x¯)0V ar(βˆ|x0)(x0 − x¯)
= σ2 +
σ2
n
+ σ2(x0 − x¯)0 (X 0X)−1 (x0 − x¯)
17
Econometria/listas/lista4.pdf
Universidade de Sa˜o Paulo - Departamento de Economia
EAE 5811 - Econometria I
Prof. Dr. Ricardo Avelino
1o Semestre de 2007
Lista de Exerc´ıcios 4 - Data de Entrega 03/05/2007
1. (Ordens de Magnitude) Em aula, foi visto que se Xnj = op (1) para
j = 1, ..., J e J e´ finito, enta˜o
PJ
j=1Xnj = op (1) . Suponha que Jn → ∞
quando n → ∞. E´ verdade que
PJn
j=1Xnj = op (1) quando n → ∞? Em caso
afirmativo, prove. Caso contra´rio, fornec¸a um contra exemplo.
2. (Convergeˆncia de varia´veis aleato´rias)
Seja {Xn}∞n=1 uma sequ¨eˆncia de varia´veis aleato´rias. Xn converge quase
certamente para X, denotado por Xn
a.s.→ X, se e somente se
P
³
ω : lim
n→∞
Xn (ω) = X (ω)
´
= 1
Mostre que a relac¸a˜o acima e´ satisfeita se e somente se, para todo ε > 0,
lim
n→∞
P
µ
sup
n≥N
|Xn −X| < ε
¶
= 1
3. (Procedimento de Cra´mer-Wold): Seja {Xn}∞n=1 uma sequ¨eˆncia de vetores
aleato´rios (kx1) e suponha que, para todo vetor real λ tal que λ0λ = 1, λ0Xn
d→
λ0X, onde X e´ um vetor aleato´rio (kx1) com func¸a˜o de distribuic¸a˜o F (x) =
F (x1, ..., xk). Mostre que a distribuic¸a˜o limite de Xn existe e e´ igual a F (x) .
4) (Distribuic¸a˜o binomial, distribuic¸a˜o assinto´tica do estimador, consisteˆncia
do estimador)
Suponha que no´s estejamos interessados em estimar a proporc¸a˜o da pop-
ulac¸a˜o cuja renda esteja abaixo da linha de pobreza, um n´ıvel pre´-determinado
de renda. Seja Y=renda e c=linha de pobreza. Portanto, o paraˆmetro de inter-
esse e´ θ = P (Y ≤ c) = F (c) , onde F (c) e´ a func¸a˜o de distribuic¸a˜o acumulada
da renda, e, por hipo´tese, e´ desconhecida.
No´s temos uma amostra aleato´ria de n observac¸o˜es da renda e decidimos
estimar θ por T=proporc¸a˜o das observac¸o˜es da amostra que satisfazem Y ≤ c.
a) Ache E (T ) e V (T ). T e´ na˜o viesado?
b) Mostre que
√
n (T − θ) d→ N (θ, θ (1− θ))
c) T e´ consistente?
1
5) (Comparac¸a˜o de estimadores baseada nas propriedades assinto´ticas)
Considere novamente o arcabouc¸o da questa˜o 4.
Suponha agora que se saiba que Y e´ normamelmente distribu´ıda, com variaˆncia
conhecida, mas me´dia desconhecida. Portanto, θ = Φ
¡ c−µ
σ
¢
, onde Φ (.) e´ a
func¸a˜o de distribuic¸a˜o da normal padra˜o.
No´s ainda queremos estimar θ e consideramos o estimador alternativo U =
Φ
³
c−Y¯
σ
´
, onde Y¯ =
Pn
i=1 Yi.
a) Mostre que U e´ consistente. U e´ na˜o viesado?
b) Ache a distribuic¸a˜o assinto´tica de U .
c) Com base nas distribuic¸o˜es assinto´ticas, qual estimador de θ voceˆ usaria,
T ou U? Dica: Dois fatos u´teis sobre a f.d.p. e a f.d., φ (z) e Φ (z) , sa˜o
∂Φ
∂z
= φ (z)
(φ (z))2
Φ (z) (1− Φ (z)) < 0.64 para todos os valores de z
6) (Teorema central do limite bivariado de Lindberg-Le´vy, estimac¸a˜o da
raza˜o de me´dias, experimento de Monte Carlo)
Suponha que no´s tenhamos uma amostra aleato´ria (i.i.d.) de n observac¸o˜es
de uma distribuic¸a˜o bivariada com me´dia µ =
·
µX
µY
¸
, µY 6= 0 e matriz de
variaˆncia-covariaˆncia finita e positiva definida Q =
·
σ2X σXY
σXY σ2Y
¸
.
No´s desejamos estimar a raza˜o das me´dias µXµY
, e consideramos o estimador
T = X¯Y¯ , onde X¯ =
Pn
i=1Xi e Y¯ =
Pn
i=1 Yi.
a) Esse estimador e´ na˜o viesado? Consistente?
b) Utilizando a versa˜o multivariada do teorema central do limite de Lindberg-
Le´vy, ache a distribuic¸a˜o assinto´tica de T . Plote a func¸a˜o de densidade para¡
µX , µY , σ
2
X , σ
2
Y , σXY
¢
= (3, 2, 1, 1, 0.5) .
c) (Background) Suponha que a distribuic¸a˜o verdadeira de (X,Y ) seja uma
normal bivariada com paraˆmetros
¡
µX , µY , σ
2
X , σ
2
Y , ρ
¢
= (3, 2, 1, 1, 0.5) e que a
nossa amostra tenha n = n∗ observac¸o˜es.
A distribuic¸a˜o assinto´tica de b) e´ uma boa aproximac¸a˜o para a distribuic¸a˜o
exata de T para n = n∗? Calcular a distribuic¸a˜o exata de T e´ muito dif´ıcil.
Enta˜o no´s decidimos conduzir um experimento de Monte Carlo. A ide´ia e´ a
seguine:
2
Passo 1: Obtenha uma amostra de tamanho n∗ da distribuic¸a˜o bivariada
(X,Y ) .
Passo 2: Calcule o valor de T para essa amostra.
Repita os passos 1 e 2 va´rias vezes, digamos 1000 vezes. Isso nos fornece
1000 valores de T . A distribuic¸a˜o desses 1000 valores e´ a nossa aproximac¸a˜o
nume´rica para a distribuic¸a˜o exata de T em amostras finitas para n = n∗.
Para implementar:
Conduza um estudo de Monte Carlo para n∗ = 25, para n∗ = 100 e para n∗ =
200. Para cada um, plote a distribuic¸a˜o de T em amostras finitas (histograma).
O que acontece quando voceˆ vai de n∗ = 25 para n∗ = 100 e para n∗ = 200?
Dica: Como no´s obtemos uma observac¸a˜o de uma normal bivariada? Essa e´
uma maneira simples:
Escreva X e Y como X = a+ bZ1, Y = c+ dX + eZ2, onde Z1 ∼ N (0, 1) ,
Z2 ∼ N (0, 1) e Z1 e Z2 sa˜o independentes. Calcule o que a, b, c, d e e precisam
ser a fim de assegurar que E (X) = µX , E (Y ) = µY , V (X) = σ
2
X , V (Y ) = σ
2
Y
e corr (X,Y ) = ρ.
Tendo achado os valores de a, b, c, d e e, voceˆ pode obter Z1 e Z2 da dis-
tribuic¸a˜o normal padra˜o e computar X = a+ bZ1, Y = c+ dX + eZ2.
3
Econometria/listas/lista4sol.pdf
Universidade de Sa˜o Paulo - Departamento de Economia
EAE 5811 - Econometria I
Prof. Dr. Ricardo Avelino
1o Semestre de 2007
Lista de Exerc´ıcios 4 - Soluc¸o˜es
Monitoras: Paula Pereda
Jaqueline
de Oliveira
1. Na˜o e´ verdade que
JnX
j=1
Xnj = op(1) quando n → ∞. Para provarmos tal
resultado, precisaremos das seguintes fo´rmulas de progressa˜o aritme´tica limi-
tada:
JX
j
j=1
=
J(J + 1)
2
ou
JX
j2
j=1
=
J(J + 1)(2J + 1)
6
ou
JX
j3
j=1
=
·
J(J + 1)
2
¸2
Note que
∞X
j=1
y = lim
n→∞
nX
j=1
y
Para escolher o Xjn do contra-exemplo, considere g uma varia´vel aleato´ria
limitada superiormente (por exemplo, seguindo uma distribuic¸a˜o Unif(a, b)) di-
vidida por n (o que e´ condic¸a˜o suficiente, mas na˜o necessa´ria, para obtermos a
propriedade desejada de op(1)) ou mesmo uma constante finita dividida por n,
para simplificar mais ainda o problema. Multiplique este resultado por a, onde
a pode ser j, j2 ou j3, para aplicarmos as fo´rmulas acima mencionadas.
A primeira parte da prova consiste em relembrar que op(1) + op(1) = op(1)
e aplicar recursivamente por J finitas vezes.
Para a segunda parte, a estrate´gia e´ usar Jn = n e as fo´rmulas da PA acima.
Se voceˆ escolher uma varia´vel aleato´ria com suporte superior, pegue o ı´nfimo
(g∗, que seria a constante, caso esta fosse escolhida no in´ıcio) para limitar a
somato´ria e escreva:
JnX
i=j
aXn =
JnX
i=j
a
g
n
≥
JnX
j=1
a
g∗
n
=
g∗
n
JnX
j=1
a =
g∗
n
A
Como A depende do a escolhido, utilizaremos os seguintes casos: a = j ou
j2 ou j3. Assim, temos:
JnX
i=j
Xn
Jn
≥ 1
Jn
g∗
n
Jn(Jn + 1)
2
=
g∗
2
(Jn + 1)
n
1
JnX
i=j
Xn
Jn
≥ 1
Jn
g∗
n
Jn(Jn + 1)(2Jn + 1)
6
=
g∗
6
(Jn + 1)(2Jn + 1)
n
JnX
i=j
Xn
Jn
≥ 1
Jn
g∗
n
·
Jn(Jn + 1)
2
¸2
=
Jng∗
n
·
(Jn + 1)
2
¸2
Quando Jn = n, temos:
JnX
i=j
Xn
Jn
≥ g
∗
2
(n+ 1)
n
=
g∗
2
µ
1 +
1
n
¶
JnX
i=j
Xn
Jn
≥ g
∗
6
(n+ 1)(2n+ 1)
n
JnX
i=j
Xn
Jn
≥ g∗
·
(n+ 1)
2
¸2
Tomando o limite das expresso˜es acima, para nenhuma delas o termo da
esquerda converge diretamente para zero, portanto temos treˆs exemplos que
na˜o sa˜o op(1)
2. A ide´ia desta prova e´ mostrar que: se Xn
a.s.→ X, enta˜o Xn
p→ X; e se
Xn
p→ X ra´pido o suficiente, enta˜o Xn
a.s.→ X.
⇒
Suponha que Xn
a.s.→ X. Enta˜o ∀ε > 0 :
lim
n→∞
P (w : |Xn −X| < ε, n ≥ N) = 1
(ver Teorema 5.14 - Cap.5 - Mittelhammer)
Como |Xn −X| < ε, n ≥ N ⇒ sup |Xn −X| < ε, n = N,N + 1, ..., segue
que:
P (w : |Xn −X| < ε, n ≥ N) ≤ P (w : sup |Xn −X| < ε, n ≥ N)
Como o lado esquerdo da equac¸a˜o tem valor limite de 1 ∀ε > 0, por con-
vergeˆncia quase-certa segue que o lado direito tem valor limite igual a 1,∀ε > 0.
Portanto, temos:
lim
n→∞
P (w : sup |Xn −X| < ε, n ≥ N) = 1
⇐
2
Pelo enunciado temos que:
lim
n→∞
P (w : sup |Xn −X| < ε, n ≥ N) = 1
ou, equivalentemente:
lim
n→∞
P (w : sup |Xn −X| > ε, n ≥ N) = 0
Se estas duas relac¸o˜es valem para o supremo, tambe´m valera˜o para toda a
sequeˆncia com n ≥ N. Tomemos a segunda relac¸a˜o:
lim
n→∞
P (w : |XN −X| > ε, |XN+1 −X| > ε, ..., |Xn −X| > ε) = 0
→ lim
n→∞
P (w : |Xm −X| > ε) = 0∀m > N
Portanto, se somarmos todas as probabilidades para m > N teremos o
seguinte limite:
lim
n→∞
nX
m=N
P (w : |Xm −X| > ε) = 0 <∞
Como o limite da soma das probabilidades e´ finito, podemos utilizar o Lema
de Borel-Cantelli (LBC) enunciado a seguir:
- LBC: Se a soma das probabilidades da sequeˆncia de eventos (Yn) e´ finita,
enta˜o a probabilidade de que, infinitamente, muitos dos eventos seja zero e´:
P ( lim
n→∞
supYn) = 0
Como o nosso evento {Yn} ≡ |Xn −X| > ε, n ≥ N, pelo LBC, teremos que:
P ( lim
n→∞
sup |Xn −X| > ε, n ≥ N) = 0
ou equivalentemente:
P ( lim
n→∞
sup |Xn −X| < ε, n ≥ N) = 1
Como lim
n→∞
sup |Xn −X| < ε, n ≥ N ⇒ Limn→∞ |Xn −X| < ε, n ≥ N, temos
que vale a seguinte desigualdade:
P ( lim
n→∞
sup |Xn −X| < ε, n ≥ N) ≤ P ( limn→∞ |Xn −X| < ε, n ≥ N)
Portanto,
1 = P ( lim
n→∞
sup |Xn −X| < ε, n ≥ N) ≤ P ( limn→∞ |Xn −X| < ε, n ≥ N) ≤ 1
⇒ P ( lim
n→∞
|Xn −X| < ε, n ≥ N) = 1
Como
P ( lim
n→∞
|Xn −X| < ε, n ≥ N)⇔ P ( limn→∞Xn = X,n ≥ N)
3
seque que
P
³
lim
n→∞
Xn = X
´
= 1
3. Sejam fλ0Xn(t) e fλ0X(t) as func¸o˜es caracter´ısticas de λ
0Xn e λ0X,
respectivamente, onde:
fλ0Xn(t) = E(exp
itλ0Xn) = φλ0Xn(t) = φXn(tλ
0)
Assintoticamente, temos que:
lim
n→∞
φλ0Xn(t) = limn→∞
E(expitλ
0Xn) = φλ0X(t) = E(exp
itλ0X)
Como φλ0X(t) e´ cont´ınua em t = 0, temos, pelo teorema de continuidade de
Levy, que Xn
d→ X ≡ lim
n→∞
F (Xn) = F (X)
4 a) Pelo enunciado, temos que:
T =
P
I(Y ≤ c)
n
E(T ) =
P
E(I(Y ≤ c))
n
=
X θ
n
= θ
Portanto T e´ na˜o viesado.
V (T ) = V
µP
I(Y ≤ c)
n
¶
=
X V (I(Y ≤ c))
n2
=
X θ(1− θ)
n2
=
θ(1− θ)
n
b) Como Ti sa˜o i.i.d. e E(Ti) = θ, o Teorema do Limite Central de Lindberg-
Levy implica que
√
n(
P
Ti
n
− θ) d→ N (0, θ(1− θ))
c) Da Lei dos Grandes Nu´meros de Klinchines, segue que:
T =
X T i
n
p→ θ
5. a) Seja
U = Φ
Ã
c− Y
σ
!
- Prova da consisteˆncia:
p limU = p limΦ
Ã
c− Y
σ
!
= Φ
Ã
c− p lim(Y )
σ
!
4
onde Φ (.) e´ uma func¸a˜o continua com probabilidade 1. Como pela Lei Fraca
dos Grandes Nu´meros de Klinchine temos que:
Y =
X Yi
n
p→ µ
Assim, podemos aplicar o Teorema de Mahn-Wald:
p limU = p limΦ
Ã
c− Y
σ
!
= Φ
µ
c− µ
σ
¶
= θ
ou seja, U e´ um estimador consistente de θ.
- Vie´s:
E(U) = E


Z c−Y
σ
−∞
1√
2π
exp
·
−1
2
x2
¸
dx


=
Z
Y
Z c−Y
σ
−∞
1√
2π
exp
·
−1
2
x2
¸
dx dY 6= θ
Portanto, U e´ viesado para θ.
b) Pelo Teorema do Limite Central de Lindberg-Levy, temos:
√
n(Y − µ) d→ N
¡
0, σ2
¢
Seja
g(Y ) = Φ(
c− Y
σ
)
Como Φ e´ continuamente diferencia´vel, temos:
g‘(Y ) = −φ(c− Y
σ
)
1
σ
⇒ g‘(µ) = −φ(c− µ
σ
)
1
σ
Enta˜o, pelo me´todo delta:
√
n
h
g(Y )− g(µ)
i
d→ g0(µ)N(0, σ2) = − 1
σ
φ(
c− µ
σ
)N(0, σ2)
⇒ g(Y ) d→ N
Ã
g(µ),
1
n
·
φ(
c− µ
σ
)
¸2!
U
d→ N
Ã
θ,
1
n
·
φ(
c− µ
σ
)
¸2!
c) Como
[φ(z)]2
Φ(z)(1− Φ(z)) < 0, 64∀z
5
V (T ) =
θ(1− θ)
n
= Φ(
c− µ
σ
)
·
1− Φ(c− µ
σ
)
¸
1
n
>
1
0, 64n
·
φ(
c− µ
σ
)
¸2
>
1
n
·
φ(
c− µ
σ
)
¸2
= V (U)
Portanto, temos que ambos os estimadores sa˜o consistentes, mas assistoti-
camente U tem variancia menor que T. Entretanto, para pequenas amostras, T
e´ preferido uma vez que na˜o necessita da hipotese de normalidade da variavel e
tambe´m e´ na˜o viesado.
6. a)
E(T ) = E
Ã
X
Y
!
= E
µ
X
1
Y
¶
6= E
³
X
´
.
1
E
³
Y
´ = µX
µY
Portanto T e´ viesado.
p lim
Ã
X
Y
!
=
p limX
p limY
=
µX
µY
Portanto T e´ consistente.
b) O Teorema Central do Limite bivariado de Lindberg-Levy implica que:
√
n
"Ã
X
Y
!
−
µ
µX
µY
¶#
d→ N
·µ
0
0
¶
,
µ
σ2X σ
2
XY
σ2XY σ
2
Y
¶¸
Seja
g
³
X,Y
´
=
X
Y
Enta˜o,
G =
·
δg (µX , µY )
δX
,
δg (µX , µY )
δY
¸
=
"
1
Y
,− X
Y
2
#
Segue do me´todo delta que
√
n
Ã
X
Y
− µX
µY
!
d→
h
1
Y
− X
Y
2
i
N
·µ
0
0
¶
,
µ
σ2X σXY
σXY σ2Y
¶¸
= N
·
0,
h
1
Y
− X
Y
2
iµ σ2X σXY
σXY σ2Y
¶h
1
Y
− X
Y
2
i0¸
= N
·
0,
σ2X
µ2Y
− 2σXY
µX
µ3Y
+ σ2Y
µ2X
µ4Y
¸
T
d→ N
·
µX
µY
,
1
n
µ
σ2X
µ2Y
− 2σXY
µX
µ3Y
+ σ2Y
µ2X
µ4Y
¶¸
6
Substituindo pelos valores dados, temos:
T
d→ N
·
3
2
,
1
n
µ
1
4
− 2.0, 53
8
+ 1.
9
16
¶¸
= N
·
3
2
,
1
n
µ
7
16
¶¸
Gra´fico para n=100.000
c) O programa utilizado no Matlab (Mfile) foi o seguinte para amostra de
25 observac¸o˜es:
% Exercicio Montecarlo Simulation in Matlab
% Function T=Xbarra/Ybarra
% Generate n samples from a normal distribution
% r=(rand(n,1)*sd)+mu
% mu:mean
% sd: standard deviation
n=1000 % The number of function evaluations
% –Generate vector of random inputs
% x˜Normal distribution N(mean=3,sd=1)
% y˜Normal distribution N(mean=2,sd=1)
for i=1:n
x=(randn(25,1))+3
7
y=-0.5+0.5*x+(sqrt(3)/2)*randn(25,1)
%–Run the simulation
% Note the use of element-wise multiplication
%%
T(i)=mean(x)/mean(y)
end
% – Create a graphic of the results (100 bins)
hist(T,100)
Graficos:
1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2 2.1
0
5
10
15
20
25
30
35
n=25
8
1.3 1.4 1.5 1.6 1.7 1.8 1.9 2
0
5
10
15
20
25
30
35
n=100
9
1.35 1.4 1.45 1.5 1.55 1.6 1.65 1.7 1.75
0
5
10
15
20
25
30
35
n=200
10
Econometria/listas/lista5.pdf
Universidade de Sa˜o Paulo - Departamento de Economia
EAE 5811 - Econometria I
Prof. Dr. Ricardo Avelino
1o Semestre de 2007
Lista de Exerc´ıcios 5 - Data de Entrega 22/05/2007
1. Considere o teste F no modelo de regressa˜o linear cla´ssico Y = Xβ + ε
envolvendo p restric¸o˜es lineares dos paraˆmetros: H0 : Rβ = q0. A estat´ıstica
pode ser escrita como
F = (Rβ − q0)0
h
s2R (X 0X)−1R0
i−1
(Rβ − q0) /p
d→ χ2p
Suponha que a amostra contenha n observac¸o˜es e que a dimensa˜o do vetor
de paraˆmetros β seja k × 1
a) Mostre que a estat´ıstica do teste da raza˜o de verossimilhanc¸a da mesma
hipo´tese H0 : Rβ = q0 e´ igual a LR = n ln
h
1 + pn−kF
i
b) Mostre que a estat´ıstica do teste do multiplicador de Lagrange da mesma
hipo´tese H0 : Rβ = q0 e´ igual a LM =
n pn−kF
[1+ pn−kF ]
c) Denote a estat´ıstica do teste de Wald da hipo´tese H0 : Rβ = q0 por
W = nn−kpF. Mostre que W ≥ LR ≥ LM.
2. Uma varia´vel aleato´ria X tem distribuic¸a˜o exponencial com paraˆmetro β
(β > 0) se X tem uma distribuic¸a˜o cont´ınua com f.d.p. f (x, β) dada por
f (x, β) =
½
βe−βx para x > 0
0 caso contra´rio
Para uso futuro, note que isso implica que a func¸a˜o de distribuic¸a˜o e´ igual a
F (x, β) =
½
1− βe−βx para x > 0
0 caso contra´rio
A me´dia e a variaˆncia de uma distribuic¸a˜o exponencial com paraˆmetro β e´
E (X) = 1β e V (X) =
1
β2 .
a) Suponha que X1, ...,Xn forme uma amostra aleato´ria de uma distribuic¸a˜o
exponencial com paraˆmetro desconhecido β (β > 0). Ache o estimador de
ma´xima verossimilhanc¸a de β.
b) Usando o princ´ıpio da invariaˆncia, ache o estimador de ma´xima verossim-
ilhanc¸a de 1β e de
1
β2 .
3. Suponha que X1, ...,Xn forme uma amostra aleato´ria de uma distribuic¸a˜o
uniforme no intervalo [θ1, θ2], onde θ1 e θ2 sa˜o desconhecidos (0 < θ1 < θ2 <∞).
1
a) Ache os estimadores de ma´xima verossimilhanc¸a de θ1 e θ2, θˆ1 e θˆ2
b) Os estimadores de ma´xima verossimilhanc¸a sa˜o consistentes?
c) Mostre que os estimadores de ma´xima verossimilhanc¸a na˜o sa˜o assintoti-
camente normais. Por que a prova de normalidade assinto´tica dos estimadores
de ma´xima verossimilhanc¸a na˜o e´ va´lida?
Dica para c): Considere a varia´vel aleato´ria n
³
θ2 − θˆ2
´
. Derive a sua func¸a˜o
de distribuic¸a˜o e use o resultado. lim
n→∞
¡
1 + xn
¢n
= ex.
4. Suponha que X1, ...,Xn sejam varia´veis aleato´rias i.i.d. com distribuic¸a˜o
de Bernoulli com
Xi =
½
1 com probabilidade θ
0 com probabilidade 1− θ
a) Ache o estimador de ma´xima verossimilhanc¸a de θ e sua distribuic¸a˜o
assinto´tica.
b) Como voceˆ testaria a hipo´tese H0 : θ = 0.4 usando os testes LR, Wald e
LM? Como voceˆ testaria a hipo´tese H0 : θ
2 = 0.5?
5. Seja
yt = φyt−1 + εt, εt
i.i.d.∼ N
¡
0, σ2ε
¢
e |φ| < 1
a) Escreva a func¸a˜o de log-verossimilhanc¸a para uma amostra de T ob-
servac¸o˜es f (y1, ..., yT ) proveniente do processo acima, condicionando no valor
da primeira observac¸a˜o y1. Para tanto, note que voceˆ pode sempre escrever a
func¸a˜o de verossimilhanc¸a como
f (yt, yt−1, ..., y1) = f (yt|yt−1, ..., y1) f (yt−1, ..., y1)
= f (yt|yt−1, ..., y1) f (yt−1|yt−2, ..., y1) f (yt−2, ..., y1)
= ...
= f (yt|yt−1, ..., y1) f (yt−1|yt−2, ..., y1) ...f (y2|y1) f (y1)
Para o processo acima, os valores de Y1, ..., Yt−1 impactam Yt somente atrave´s
do valor de Yt−1. Portanto, f (yt|yt−1, ..., y1) = f (yt|yt−1) .
b) Mostre que φˆMLE = φˆOLS = φˆ, onde φˆOLS e´ obtido a partir de uma
regressa˜o de yt em yt−1 e φˆMLE e´ o estimador de ma´xima verossimilhanc¸a
condicional (condicional em y1)
c) Mostre que φˆ e´ um estimador viesado de φ.
d) Mostre que φˆ e´ consistente para φ.
e) Obtenha a distribuic¸a˜o assinto´tica de φˆ.
f) Agora suponha que o processo e´ modificado de forma que
yt = φyt−1 + εt, εt = ut + θut−1, ut
i.i.d.∼ N
¡
0, σ2u
¢
e |θ| , |φ| < 1
2
O estimador de MQO de φ e´ ainda consistente? Derive o limite da proba-
bilidade de φ.
6. Considere o seguinte modelo:
Dt = apt + xtb+ ut
St = αpt + ztβ + vt
Qt = min (Dt, St)
em que µ
ut
vt
¶
∼ N
µ·
0
0
¸
,
·
σ2u 0
0 σ2v
¸¶
Escreva a func¸a˜o de verossimilhanc¸a supondo que observamos somente Qt,
pt, xt e zt.
7. Seja ((Y1,X1) , ..., (Yn,Xn)) uma amostra aleato´ria de n observac¸o˜es, onde
Xi e´ uma varia´vel aleato´ria escalar e Yi e´ uma varia´vel aleato´ria de Bernoulli
que assuma apenas dois valores, 0 ou 1, com probabilidades
P (Yi = 1|Xi) = exp (θ1 + θ2Xi)
1 + exp (θ1 + θ2Xi)
P (Yi = 0|Xi) = 1
1 + exp (θ1 + θ2Xi)
Esse modelo e´ conhecido como um modelo de resposta bina´ria logit.
a) Ache a func¸a˜o esperanc¸a condicional de Y dado X = (X1, ...,Xn) .
b) Escreva a func¸a˜o de log-verossimilhanc¸a para esse modelo.
c) Escreva um programa de Matlab que estime θ1 e θ2 para o conjunto de
dados enviado em anexo. Como voceˆ obteria uma estimativa consistente dos
erros padro˜es dos estimadores? Programe isso tambe´m e construa um intervalo
de confianc¸a de 95% para θ2.
3
Econometria/listas/lista5sol.pdf
Universidade de Sa˜o Paulo - Departamento de Economia
EAE 5811 - Econometria I
Prof. Dr. Ricardo Avelino
1o Semestre de 2007
Lista de Exerc´ıcios 5 - Soluc¸o˜es
Monitoras: Paula Pereda
Jaqueline de Oliveira
1) A estat´ıstica LR e´:
LR = −2 ln
Ã
L(x, θ˜)
L(x, θˆ)
!
Temos que:
L(x, θ˜) =
³
1/
√
2πσ˜
´n
exp
(
−1
2
Ã
Y −Xβ˜
σ˜
!)
=
³
1/
√
2πσ˜
´n
exp
½
−1
2
µ
e˜0e˜
σ˜
¶¾
e
L(x, θˆ) =
³
1/
√
2πσˆ
´n
exp
(
−1
2
Ã
Y −Xβˆ
σˆ
!)
=
³
1/
√
2πσˆ
´n
exp
½
−1
2
µ
eˆ0eˆ
σˆ
¶¾
onde σ˜2 =
e˜0e˜
n
e σˆ2 =
eˆ0eˆ
n
, estimadores de MV de σ2 dos modelos restrito e
irrestrito.
Assim,
L(x, θ˜)
L(x, θˆ)
=
¡
1/
√
2πσ˜
¢n
exp
½
−12
µ
e˜0e˜
σˆ
¶¾
¡
1/
√
2πσˆ
¢n
exp
½
−12
µ
eˆ0eˆ
σˆ
¶¾
=
µ
σˆ2
σ˜2
¶n
2
exp
½
−1
2
µ
e˜0e˜
σˆ
− eˆ
0eˆ
σˆ
¶¾
=
µ
eˆ0eˆ
e˜0e˜
¶n
2
Ja´ sabemos que o estimador do modelo restrito pode ser escrito como:
β˜ = βˆ − (X 0X)−1R0
£
R(X 0X)−1R0
¤
(Rβˆ − qo)
Enta˜o,
e˜ = Y −Xβ˜
= Y −X
n
βˆ − (X 0X)−1R0
£
R(X 0X)−1R0
¤−1
(Rβˆ − qo)
o
= Y −Xβˆ +X(X 0X)−1R0
£
R(X 0X)−1R0
¤−1
(Rβˆ − qo)
= eˆ+X(X 0X)−1R0
£
R(X 0X)−1R0
¤−1
(Rβˆ − qo)
1
Desta forma, temos que
e˜0e˜ = eˆ0eˆ+ eˆ0X(X 0X)−1R0
£
R(X 0X)−1R0
¤−1
(Rβˆ − qo)
+(Rβˆ − qo)0
£
R(X 0X)−1R0
¤−1
R(X 0X)−1X 0eˆ
+(Rβˆ − qo)0
£
R(X 0X)−1R0
¤−1
R(X 0X)−1X 0X(X 0X)−1R0£
R(X 0X)−1R0
¤−1
(Rβˆ − qo)
= eˆ0eˆ+ (Rβˆ − qo)0
£
R(X 0X)−1R0
¤−1
(Rβˆ − qo)
ja´ que X 0eˆ = 0.
Assim,
LR = −2 ln
Ã
L(x, θ˜)
L(x, θˆ)
!
= 2 ln
Ã
L(x, θˆ)
L(x, θ˜)
!
= 2 ln
µ
e˜0e˜
eˆ0eˆ
¶n
2
= n ln
Ã
eˆ0eˆ+ (Rβˆ − qo)0
£
R(X 0X)−1R0
¤−1
(Rβˆ − qo)
eˆ0eˆ
!
= n ln
³
1 + (Rβˆ − qo)0
£
nσˆ2R(X 0X)−1R0
¤−1
(Rβˆ − qo)
´
= n ln
µ
1 +
p
n− kF
¶
b) A estat´ıstica LM e´ dada por:
LM = −λ˜0 ∂h(θ˜)
∂θ
Ã
∂2 lnL(x, θ˜)
∂θ∂θ0
!−1
∂h(θ˜)
∂θ
0
λ˜
onde λ˜ e´ o vetor de multiplicadores de lagrange do problema de maximizac¸a˜o
da func¸a˜o de log-verossimilhanc¸a com restric¸a˜o.
Sabemos que λ˜ e´
λ˜ =
£
R(X 0X)−1R0
¤−1
(Rβˆ − qo)
Ale´m disto, temos que
∂2 lnL(x, θ˜)
∂θ∂θ0
= − 1
σ˜2
(X 0X)−1
e
∂h(θ˜)
∂θ
= R
Enta˜o,
LM = −
(Rβˆ − qo)
£
R(X 0X)−1R0
¤−1
R(X 0X)−1R0
£
R(X 0X)−1R0
¤−1
(Rβˆ − qo)
σ˜2
=
(Rβˆ − qo)
£
R(X 0X)−1R0
¤−1
(Rβˆ − qo)
σ˜2
=
(Rβˆ − qo)
£
R(X 0X)−1R0
¤−1
(Rβˆ − qo)/σˆ2
σ˜2/σˆ2
2
Podemos escrever o numerador da seguinte forma:
(Rβˆ − qo)
£
R(X 0X)−1R0
¤−1
(Rβˆ − qo)/σˆ2
= (Rβˆ − qo)
·
n
n− k s
2R(X 0X)−1R0
¸−1
(Rβˆ − qo)/σˆ2
=
n
n− kp.F
Ale´m disto, temos que o denominador pode ser escrito como:
σ˜2
σˆ2
=
e˜0e˜
eˆ0eˆ
=
eˆ0eˆ+ (Rβˆ − qo)0
£
R(X 0X)−1R0
¤−1
(Rβˆ − qo)
eˆ0eˆ
= 1 +
p
n− kF
Assim, a estat´ıstica LM torna-se:
LM =
n
n− kp.F·
1 +
p
n− kF
¸
c) Vamos usar o fato de que ln(x) ≤ x− 1.
Sabemos que:
W =
n
n− kp.F
LR = n ln
µ
1 +
p
n− kF
¶
LM =
n
n− kp.F·
1 +
p
n− kF
¸
Fac¸amos y = 1 +
p
n− kF. Assim,
W = n.(y − 1)
LR = n ln(y)
e
LM = n.
y − 1
y
= n.
µ
1− 1
y
¶
Logo, temos que
ln(y) ≤ (y − 1) =⇒ n ln(y) ≤ n(y − 1) =⇒ LR ≤W
Da mesma forma, temos que
ln(x) ≤ (x− 1) =⇒ − ln(x) ≥ 1− x =⇒ ln
µ
1
x
¶
≥ 1− x
3
Portanto,
ln (y) ≥ 1− 1
y
=⇒ n ln(y) ≥ n
µ
1− 1
y
¶
=⇒ LR ≥ LM
Logo, temos que:
W ≥ LR ≥ LM
2) A func¸a˜o de verossimilhanc¸a e´ igual a
L =
nY
i=1
βe−βxi
nY
i=1
I[0,∞](xi)
onde I e´ uma func¸a˜o indicadora. A func¸a˜o de log-verossimilhanc¸a pode ser
expressa como:
lnL =
nX
i=1
lnβ −
nX
i=1
βxi +
nX
i=1
ln I[0,∞](xi)
= n lnβ − β
nX
i=1
xi +
nX
i=1
ln I[0,∞](xi)
Diferenciando com respeito a β e igualando a zero, temos:
∂ lnL
∂β
=
n
β
−
nX
i=1
xi = 0 =⇒ βˆ =
nPn
i=1 xi
Como
∂2 lnL
∂β2
= − n
β2
< 0, a func¸a˜o de verossimilhanc¸a e´ maximizada para
βˆ =
nXn
i=1
xi
. Assim, βˆ
MLE
=
nPn
i=1 xi
e´ o estimador de ma´xima verossimil-
hanc¸a de β.
b) A propriedade da invariaˆncia estabelece que se Θˆ e´ o MLE do vetor de
paraˆmetros (k × 1), Θ, e q(Θ) e´ um vetor real (r × 1), func¸a˜o de Θ ∈ Ω, onde
r ≤ k, enta˜o q(Θˆ) e´ o MLE de q(Θ).
Seja Θ = β e q(Θ) =
1
Θ
. Disto segue que o MLE de
1
β
e´
1
βˆ
=
Pn
i=1 xi
n
.
Da mesma forma, seja Θ = β e q(Θ) =
1
Θ2
. Disto segue que o MLE de
1
β2
e´
1
βˆ
2 =
µPn
i=1 xi
n
¶2
3) a) A func¸a˜o de log-verossimilhanc¸a e´ dada por:
L(θ1, θ2, x1, ..., xn) =
1
(θ2 − θ1)n
nY
i=1
I[θ2−θ1](xi)
4
onde I e´ a func¸a˜o indicadora. Para L ser maximizada, θ1 e θ2 devem ser
determinados de tal forma a fazer (θ2−θ1) ser tal pequena quando poss´ıvel, mas
mantendo
nY
i=1
I[θ2−θ1](xi) = 1. Enta˜o, a menor escolha para θ2 e´ max {x1, ..., xn},
enquanto a maior escolha para θ1 e´ min {x1, ..., xn}, o que gera o menor valor
para θ2 − θ1 = max {x1, ..., xn}−min {x1, ..., xn}.
Assim, os estimadores de MV θˆ1 e θˆ2 sa˜o dados pela maior e pela menor
estat´ıstica de ordem:
θˆ1 = min {x1, ..., xn}
θˆ2 = max {x1, ..., xn}
b) Seja Y1 = min {x1, ..., xn} e Y2 = max {x1, ..., xn}. A f.d.p. de Y1 em um
ponto arbitra´rio x e´ igual a soma ao longo de i = {1, ..., n} do produto da f.d.p.
de Xi em x e da probabilidade de que Xj ≥ x para todo j 6= i, isto e´:
f(Y1 = x) =
nX
i=1

f (Xi = x)
nY
j=1,j 6=i
(1− F (Xj = x)


=
nX
i=1

 1
θ2 − θ1
nY
j=1,j 6=i
µ
1−
Z x
θ1
1
θ2 − θ1
dt
¶

=
nX
i=1

 1
θ2 − θ1
nY
j=1,j 6=i
µ
1− x− θ1
θ2 − θ1
¶

=
nX
i=1
"
1
θ2 − θ1
µ
1− x− θ1
θ2 − θ1
¶n−1#
=
n
θ2 − θ1
µ
1− x− θ1
θ2 − θ1
¶n−1
A esperanc¸a de Y1 e´ dada por:
E(Y1) =
Z θ2
θ1
nx
θ2 − θ1
µ
1− x− θ1
θ2 − θ1
¶n−1
dx
Integrando por partes, temos:
E(Y1) = −x
µ
1− x− θ1
θ2 − θ1
¶n
|θ2θ1 −
Z θ2
θ1
−
µ
1− x− θ1
θ2 − θ1
¶n
dx
= −x
µ
1− x− θ1
θ2 − θ1
¶n
|θ2θ1 −
µ
1− x− θ1
θ2 − θ1
¶n+1 θ2 − θ1
n+ 1
|θ2θ1
= θ1 +
θ2 − θ1
n+ 1
5
O segundo momento de Y1 e´ dado por:
E(Y 21 ) =
Z θ2
θ1
nx2
θ2 − θ1
µ
1− x− θ1
θ2 − θ1
¶n−1
dx
Integrando por partes, temos:
E(Y 21 ) = −x2
µ
1− x− θ1
θ2 − θ1
¶n
|θ2θ1 −
Z θ2
θ1
−2x
µ
1− x− θ1
θ2 − θ1
¶n
dx
= −x2
µ
1− x− θ1
θ2 − θ1
¶n
|θ2θ1 − 2x
µ
1− x− θ1
θ2 − θ1
¶n+1 θ2 − θ1
n+ 1
|θ2θ1
+2
Z θ2
θ1
µ
1− x− θ1
θ2 − θ1
¶n+1 θ2 − θ1
n+ 1
dx
= −x2
µ
1− x− θ1
θ2 − θ1
¶n
|θ2θ1 − 2x
µ
1− x− θ1
θ2 − θ1
¶n+1 θ2 − θ1
n+ 1
|θ2θ1
−2(θ2 − θ1)
2
n+ 1
µ
1− x− θ1
θ2 − θ1
¶n+2
1
n+ 2
|θ2θ1
= θ21 +
2θ1(θ2 − θ1)
n+ 1
+
2(θ2 − θ1)2
(n+ 1)(n+ 2)
Assim,
V (Y1) = θ
2
1 +
2θ1(θ2 − θ1)
n+ 1
+
2(θ2 − θ1)2
(n+ 1)(n+ 2)
− θ21 −
2θ1(θ2 − θ1)
n+ 1
−(θ2 − θ1)
2
(n+ 1)2
=
(θ2 − θ1)2n
(n+ 1)2(n+ 2)
Temos enta˜o que
lim
n→∞
E(Y1) = lim
n→∞
µ
θ1 +
θ2 − θ1
n+ 1
¶
= θ1
lim
n→∞
V (Y1) = lim
n→∞
(θ2 − θ1)2n
(n+ 1)2(n+ 2)
= lim
n→∞
(θ2 − θ1)
(n+ 1)2(1 + 2/n)
= 0
Logo, Y1
m→ θ1 =⇒ Y1
P→ θ1
Da mesma forma, a f.d.p. de Y2 em um ponto arbitra´rio x e´ igual a soma
ao longo de i = {1, ..., n} do produto da f.d.p. de Xi em x e da probabilidade
6
de Xj ≤ x para todo j 6= i, isto e´:
f(Y2 = x) =
nX
i=1

f (Xi = x)
nY
j=1,j 6=i
(F (Xj = x)


=
nX
i=1

 1
θ2 − θ1
nY
j=1,j 6=i
Z x
θ1
1
θ2 − θ1
dt


=
nX
i=1

 1
θ2 − θ1
nY
j=1,j 6=i
µ
x− θ1
θ2 − θ1
¶

=
nX
i=1
"
1
θ2 − θ1
µ
x− θ1
θ2 − θ1
¶n−1#
=
n
θ2 − θ1
µ
x− θ1
θ2 − θ1
¶n−1
O valor esperado de Y2 e´ dado por:
E(Y2) =
Z θ2
θ1
nx
θ2 − θ1
µ
x− θ1
θ2 − θ1
¶n−1
dx
Integrando por partes, temos:
E(Y2) = x
µ
x− θ1
θ2 − θ1
¶n
|θ2θ1 −
Z θ2
θ1
µ
x− θ1
θ2 − θ1
¶n
dx
= x
µ
1− x− θ1
θ2 − θ1
¶n
|θ2θ1 −
µ
x− θ1
θ2 − θ1
¶n+1 θ2 − θ1
n+ 1
|θ2θ1
= θ2 −
θ2 − θ1
n+ 1
O segundo momento de Y2 e´ dado por:
E(Y 22 ) =
Z θ2
θ1
nx2
θ2 − θ1
µ
x− θ1
θ2 − θ1
¶n−1
dx
7
Integrando por partes, temos:
E(Y 22 ) = x
2
µ
x− θ1
θ2 − θ1
¶n
|θ2θ1 −
Z θ2
θ1
2x
µ
x− θ1
θ2 − θ1
¶n
dx
= x2
µ
x− θ1
θ2 − θ1
¶n
|θ2θ1 − 2x
µ
x− θ1
θ2 − θ1
¶n+1 θ2 − θ1
n+ 1
|θ2θ1
+2
Z θ2
θ1
µ
x− θ1
θ2 − θ1
¶n+1 θ2 − θ1
n+ 1
dx
= x2
µ
x− θ1
θ2 − θ1
¶n
|θ2θ1 − 2x
µ
x− θ1
θ2 − θ1
¶n+1 θ2 − θ1
n+ 1
|θ2θ1
+2
(θ2 − θ1)2
n+ 1
µ
x− θ1
θ2 − θ1
¶n+2
1
n+ 2
|θ2θ1
= θ22 −
2θ2(θ2 − θ1)
n+ 1
+
2(θ2 − θ1)
(n+ 1)(n+ 2)
Assim,
V (Y2) = θ
2
2 −
2θ2(θ2 − θ1)
n+ 1
+
2(θ2 − θ1)
(n+ 1)(n+ 2)
− θ22 −
(θ2 − θ1)2
(n+ 1)2
+2
θ2(θ2 − θ1)
n+ 1
=
(θ2 − θ1)2n
(n+ 1)2(n+ 2)
Temos enta˜o que,
lim
n→∞
E(Y2) = lim
n→∞
θ2 −
θ2 − θ1
n+ 1
= θ2
lim
n→∞
V (Y2) = lim
n→∞
(θ2 − θ1)2n
(n+ 1)2(n+ 2)
= lim
n→∞
(θ2 − θ1)
(n+ 1)2(1 + 2/n)
= 0
Logo, Y2
m→ θ2 =⇒ Y2
P→ θ2
Tanto θˆ1 quanto θˆ2 sa˜o estimadores consistentes de θ1 e θ2
c)
P (n(θ2 − θˆ2) < Y ) = P (θˆ2 > θ2 −
Y
n
)
= 1−
Z θ2−Yn
θ1
n
θ2 − θ1
µ
x− θ1
θ2 − θ1
¶n−1
dx
= 1−
µ
x− θ1
θ2 − θ1
¶n
|θ2−Ynθ1 = 1−
µ
−Y/n+ θ2 − θ1
θ2 − θ1
¶n
= 1−
µ
1− Y/(θ2 − θ1)
n
¶n
8
Temos enta˜o que,
lim
n→∞
1−
µ
1− Y/(θ2 − θ1)
n
¶n
= 1− exp
µ
Y
θ2 − θ1
¶
Consequentemente, a varia´vel aleato´ria n(θ2− θˆ2) converge assintoticamente
para uma distribuic¸a˜o exponencial.
Da mesma forma,
P (n(θˆ1 − θ1) < Y ) = P (θˆ1 <
Y
n
+ θ1)
=
Z Y
n+θ1
θ1
n
θ2 − θ1
µ
1− x− θ1
θ2 − θ1
¶n−1
dx
= −
µ
1− x− θ1
θ2 − θ1
¶n
|Yn+θ1θ1 = 1−
µ
1− Y/n
θ2 − θ1
¶n
= 1−
µ
1− Y/(θ2 − θ1)
n
¶n
Temos enta˜o que,
lim
n→∞
1−
µ
1− Y/(θ2 − θ1)
n
¶n
= 1− exp
µ
Y
θ2 − θ1
¶
A varia´vel aleato´ria n(θˆ1− θ1) tambe´m converge assintoticamente para uma
distribuic¸a˜o exponencial.
A prova da normalidade assinto´tica na˜o e´ va´lida por que a func¸a˜o de verossim-
ilhanc¸a na˜o e´ duas vezes continuamente diferencia´vel na vizinhanc¸a de θˆ1 e θˆ2.
4) A func¸a˜o de verossimilhanc¸a da amostra e´ dada por:
L =
nY
i=1
θxi(1− θ)1−xi
lnL =
nX
i=1
xi ln θ +
nX
i=1
(1− xi) ln(1− θ)
Diferenciando com respeito a θ e igualando a 0,
∂ lnL
∂Θ
= 0 =⇒
Pn
i=1 xi
θ
−
nX
i=1
(1− xi)
1− θ = 0
=⇒
nX
i=1
xi − θ
nX
i=1
xi = nθ − θ
nX
i=1
xi =⇒ θˆ =
Pn
i=1 xi
n
V ar(θˆ) = V ar
µPn
i=1 xi
n
¶
=
1
n2
nX
i=1
V ar(xi) =
1
n2
nθ(1− θ) = θ(1− θ)
n
9
E(θˆ) = E
µPn
i=1 xi
n
¶
=
1
n
nX
i=1
E(xi) =
1
n
nθ = θ
Segue do TCL de Lindberg-Levi que:
√
n(θˆ − θ)p
θ(1− θ)
d→ N(0, 1)
Assim,
θˆ ∼ N
µ
θ,
θ(1− θ)
n
¶
b) Seja R(θ) = θ e r = 0, 4. Sob a hipo´tese nula de que θ = 0, 4, a estat´ıstida
Wald e´ dada por:
W =
h
R(θˆ)− r
i0 "dR(θˆ)
dθ
V (θˆ)
dR(θˆ)
dθ
#−1 h
R(θˆ)− r
i
∼ χ21
Do item (a), V (θˆ) =
θ(1− θ)
n
. Ale´m disto,
dR(θˆ)
dθ
= 1.
Assim, rejeitamos a hipo´tese nula a 5% de significaˆncia se
W =
h
θˆ − 0, 4
i " θˆ(1− θˆ)
n
.
#−1 h
θˆ − 0, 4
i
> χ21,1−α
Com relac¸a˜o ao teste LM, denotemos por θˆr o valor do estimador de MV
que satisfaz o seguinte problema de maximizac¸a˜o com restric¸a˜o:
max
θ
L(θ, x) sujeito a θ = θ0
Assim,
LM =
∂ ln(θˆr, x)
∂θ
"
−∂
2 ln(θˆr, x)
∂θ2
#−1
∂ ln(θˆr, x)
∂θ
˜χ21
∂ ln(θ, x)
∂θ
=
Pn
i=1 xi
θ
−
nX
i=1
(1− xi)
1− θ =⇒
∂ ln(θˆr, x)
∂θ
=
Pn
i=1 xi
0, 4
−
nX
i=1
(1− xi)
0, 6
∂2 ln(θ, x)
∂θ2
= −
Pn
i=1 xi
θ2
−
nX
i=1
(1− xi)
(1− θ)2 =⇒ −
Pn
i=1 xi
0, 42
−
nX
i=1
(1− xi)
0, 62
10
Rejeitamos a hipo´tese nula H0 : θ = 0, 4 a 5% de significaˆncia se
χ21,1−α < LM =
"Pn
i=1 xi
0, 4
−
nX
i=1
(1− xi)
0, 6
#"
−
Pn
i=1 xi
0, 42
−
nX
i=1
(1− xi)
0, 62
#−1
"Pn
i=1 xi
0, 4
−
nX
i=1
(1− xi)
0, 6
#
Finalmente, vamos considerar a estat´ıstica LR. Seja θˆr o estimador de MV
sob H0 e θˆ o estimador de MV irrestrito. Enta˜o,
LR = 2 lnL(θˆ, x)− 2 lnL(θˆr, x)˜˜χ21
Rejeitamos a hipo´tese nula de que θ = 0, 4 se
2 lnL(θˆ, x)− 2 lnL(θˆr, x) > χ21,1−α
Para testar a hipo´tese de que H0 = θ
2 = 0, 5, definimos R(θ) = θ2 e r = 0, 5.
Para o teste Wald, como
dR(θˆ)
dθ
= 2θ,
W =
h
R(θˆ)− r
i0 "
2θˆ
θˆ(1− θˆ)
n
2θˆ
#−1 h
R(θˆ)− r
i
=
n
h
θˆ
2
− 0, 5
i2
4θˆ
3
(1− θˆ)
˜χ21
Para o teste LM, note que a hipo´tese H0 : θ
2 = 0, 5 e´ equivale a H0 : θ =√
2/2, ja´ que θ e´ na˜o-negativo. Assim, podemos proceder da mesma forma em
que H0 : θ = 0, 4.
Para construir o teste LR, podemos usar um argumento ana´logo ao empre-
gado na construc¸a˜o do teste LM.
5) a) A func¸a˜o de verossimilhanc¸a condicional e´ dada por:
L = f(yT , yT−1, ..., y1;φ) =
TY
t=2
f(yt/yt−1;φ) =⇒
lnL =
TX
t=2
ln f(yt/yt−1;φ)
E [yt/yt−1] = φyt−1 +E [εt] = φyt−1
V ar [yt/yt−1] = V ar [εt] = σ
2
Assim,
lnL =
TX
t=2
ln
"
1√
2πσ
exp
(
−1
2
µ
yt − φyt−1
σ
¶2)#
= −(T − 1)
2
ln 2π − (T − 1)
2
lnσ2 − 1
2
TX
t=2
µ
yt − φyt−1
σ
¶2
11
b)
∂ lnL
∂φ
= 0 =⇒
TX
t=2
·µ
yt − φyt−1
σ
¶
yt−1
¸
= 0 =⇒ φˆ
MLE
=
PT
t=2 ytyt−tPT
t=2 y
2
t−1
O estimador de MQO, φˆ
OLS
, minimiza:
TX
t=2
ε2t =
TX
t=2
(yt − φyt−1)2
As condic¸o˜es de primeira ordem para a minimizac¸a˜o e´:
−2
TX
t=2
(yt − φyt−1)yt−1 = 0 =⇒ φˆ
OLS
=
PT
t=2 ytyt−tPT
t=2 y
2
t−1
= φˆ
MLE
c)
φˆ =
PT
t=2 ytyt−tPT
t=2 y
2
t−1
=
PT
t=2 yt(φyt−1 + εt)PT
t=2 y
2
t−1
= φ+
PT
t=2(yt−1εt)PT
t=2 y
2
t−1
E(φˆ) = φ+E
"PT
t=2(yt−1εt)PT
t=2 y
2
t−1
#
O segundo termo da expressa˜o acima e´, em geral, diferente de zero por que o
regressor na˜o pode ser tratado como na˜o-estoca´stico. Assim, φˆe´ um estimador
viesado de φ.
d)
φˆ− φ =
PT
t=2(yt−1εt)PT
t=2 y
2
t−1
Provaremos consisteˆncia mostrando que o termo T−1
PT
t=2(yt−1εt) converge
em probabilidade para zero e que o termo T−1
PT
t=2 y
2
t−1 converge para uma
constante positiva.
Note que:
yt = εt + φεt−1 + φ
2εt−2 + ... =
∞X
i=0
φiεt−i
E(yt) = E
à ∞X
i=0
φiεt−i
!
= 0
e
V ar(yt) = E(y2t ) = E


à ∞X
i=0
φiεt−i
!2
 = σ2
£
1 + φ2 + φ4 + ...
¤
12
ja´ que E(εt−i, εt−j) = 0, i 6= j.
Assim, dado que |φ| < 1,
E(y2t ) =
σ2
1− φ2
<∞
E(yt−1, εt) = E
£¡
εt−1 + φεt−2 + φ
2εt−3 +
...
¢
εt
¤
= E
£¡
εtεt−1 + φεtεt−2 + φ
2εtεt−3 + ...
¢
εt
¤
= 0
Pela Lei dos Grandes Nu´meros:
p lim
T→∞
T−1
TX
t=2
yt−1εt = E(yt−1εt) = 0
p lim
T→∞
T−1
TX
t=2
y2t−1 = E(y
2
t−1) =
σ2
1− φ2
Assim,
p lim
T→∞
(φˆ− φ) = p lim
T→∞
Ã
T−1
PT
t=2 yt−1εt
T−1
PT
t=2 y
2
t−1
!
Pelo Teorema de Slutsky:
p lim
T→∞
Ã
T−1
PT
t=2 yt−1εt
T−1
PT
t=2 y
2
t−1
!
=
p limT→∞ T−1
PT
t=2 yt−1εt
p limT→∞ T−1
PT
t=2 y
2
t−1
=
0
σ2
1−φ2
Portanto,
p lim
T→∞
(φˆ− φ) = 0 =⇒ φˆ P→ φ
ou seja, φˆ e´ consistente.
e)
√
T − 1(φˆ− φ) = (T − 1)
−1/2PT
t=2 yt−1εt
(T − 1)−1
PT
t=2 y
2
t−1
Temos que,
(T − 1)−1/2
TX
t=2
yt−1εt
d→ N(0, σ
4
1− φ2
)
Ale´m disto, temos,
(T − 1)−1
TX
t=2
y2t−1
P→ σ
2
1− φ2
13
Assim,
√
T − 1(φˆ−φ) d−→
1− φ2
σ2
N
µ
0,
σ4
1− φ2
¶
=⇒
√
T − 1(φˆ−φ) d−→ N
¡
0, 1− φ2
¢
f)
φˆ
OLS
− φ = (T − 1)
−1PT
t=2 yt−1εt
(T − 1)−1
PT
t=2 y
2
t−1
O modelo agora deve ser escrito como:
yt = φyt−1 + ut + θut−1
Assim,
E(yt) = φE(yt−1) =⇒ µy = φµy =⇒ µy = 0
E(y2t ) = V (yt) = φ
2σ2y + σ
2
u + θ
2σ2u + 2φcov(yt−1, ut)
+2φθcov(yt−1, ut−1) + 2θcov(ut, ut−1)
= φ2σ2y + σ
2
u + θ
2σ2u + 2φθcov(yt−1, ut−1)
Mas,
cov(yt−1, ut−1) = cov(φyt−2 + ut−1 + θut−2, ut−1) = cov(ut−1.ut−1) = σ2u
Portanto,
σ2y = V (yt) =
(1 + θ2 + 2φθ)σ2u
1− φ2
Ale´m disto,
E(yt−1εt) = E [(ut + θut−1) yt−1] = cov(ut + θut−1, yt−1)
= cov(ut, yt−1) + θcov(ut−1, yt−1) = θσ2u
Pela Lei dos Grandes Nu´meros:
p lim
T→∞
T−1
TX
t=2
yt−1εt = E(yt−1εt) = θσ
2
u
p lim
T→∞
T−1
TX
t=2
y2t−1 = E(y
2
t−1) =
(1 + θ2 + 2φθ)σ2u
1− φ2
Logo,
p limφOLS = φ+
(1− φ2)θ
1 + θ2 + 2φθ
14
6) A probabilidade de que a observac¸a˜o t pertenc¸a a func¸a˜o de demanda e´:
λt = Pr(Dt < St)
= Pr(ut − vt < αpt + ztβ − apt − xtb)
A func¸a˜o de distribuic¸a˜o conjunta de D e S e´ dada por:
g(Dt, St) = f(Dt, St, α, β, a, b)
=
1
2πσuσv
exp
½
−1
2
µ
Dt − apt − xtb
σ2u
¶
+
µ
St − αpt − ztβ
σ2v
¶¾
Se a observac¸a˜o t esta´ na func¸a˜o de demanda, sabemos que St = Qt e
St > Qt.Assim,
h(Qt|Qt = Dt) =
Z ∞
Qt
g(Qt, St)dSt/λt
O denominador λt e´ a constante de normalizac¸a˜o.e e´ igual ao numerador
integrado em Qt ao longo dos valores poss´ıveis.
Da mesma forma, se a observac¸a˜o t esta´ na func¸a˜o de oferta, sabemos que
St = Qt e Dt > Qt. Enta˜o,
h(Qt|Qt = St) =
Z ∞
Qt
g(Dt,Qt)dDt/(1− λt)
A func¸a˜o densidade na˜o condicional de Qt e´:
h(Qt) = λh(Qt|Qt = Dt) + (1− λt)h(Qt|Qt = St)
=
Z ∞
Qt
g(Qt, St)dSt +
Z ∞
Qt
g(Dt, Qt)dDt
Logo, a func¸a˜o de verossimilhanc¸a e´ dada por:
L =
Y
t
h(Qt)
7) a)
E(Yi|X) = P (Yi = 1|Xi).1 + P (Yi = 0|Xi) = exp(θ1 + θ2Xi)
1 + exp(θ1 + θ2Xi)
b)
f(Yi|Xi) =
·
exp(θ1 + θ2Xi)
1 + exp(θ1 + θ2Xi)
¸Yi · 1
1 + exp(θ1 + θ2Xi)
¸1−Yi
=
[exp(θ1 + θ2Xi)]
Yi
1 + exp(θ1 + θ2Xi)
15
Assim, a func¸a˜o de log-verossimilhanc¸a para toda a amostra e´:
lnL =
nX
i=1
ln f(Yi|Xi) =
nX
i=1
{Yi(θ1 + θ2Xi)− ln [1 + exp(θ1 + θ2Xi)]}
c) Para encontrar os estimadores de MV de θ1 e θ2, utilizaremos o algor´ıtimo
de Newton-Raphson. Para tanto, precisamos encontrar o vetor de scores e a
matriz Hessiana para a func¸a˜o de verossimilhanc¸a acima.
O vetor de scores e´ dado pela primeira derivada da func¸a˜o log-verossimilhanc¸a
em relac¸a˜o aos paraˆmetros θ1 e θ2:
g(θ1, θ2) =


∂ lnL
θ1
∂ lnL
θ2




Pn
i=1 Yi −
exp(θ1 + θ2Xi)
1 + exp(θ1 + θ2Xi)Pn
i=1 YiXi −
exp(θ1 + θ2Xi)
1 + exp(θ1 + θ2Xi)
Xi


Amatriz Hessiana e´ dada pelas segundas derivadas da func¸a˜o de log-verossimi
lhanc¸a:
H(θ1, θ2) =


− exp(θ1 + θ2Xi)
[1 + exp(θ1 + θ2Xi)]
2 −
exp(θ1 + θ2Xi)
[1 + exp(θ1 + θ2Xi)]
2Xi
− exp(θ1 + θ2Xi)
[1 + exp(θ1 + θ2Xi)]
2Xi −
exp(θ1 + θ2Xi)
[1 + exp(θ1 + θ2Xi)]
2X
2
i


O me´todo de Newton-Raphson consiste em treˆs passos:
1o : Definimos valores iniciais para os coeficientes, θˆk = θˆ0
2o :Calculamos θˆk+1 = θˆk −H(θˆk)−1g(θˆk).
3o :Repetimos o procedimento enquanto o erro for maior que um valor de
toleraˆncia, que definimos ser 10−12, ou seja, enquanto g(θˆk)0H(θˆk)−1g(θˆk) >
10−12.
Rotina Matlab:
Primeiro oferecemos os valores iniciais e indicamos ao programa que dese-
jamos que os passos sejam repetidos enquanto o erro for maior que a toleraˆncia:
teta=[0.5;0.5]
errolim=10ˆ(-12)
cont=0;
erro=errolim+10;
while abs(erro)>errolim
clear erro
cont=cont+1;
teta1=teta(1:1,1)
teta2=teta(2:2,1)
Em seguida, calculamos as matrizes g(θˆk) e H(θˆk), H(θˆk)−1g(θˆk), e, com
isso, obtemos os novos valores dos coeficientes:
16
one=ones(500,1);
g=inv(diag([one+exp(teta1*one+teta2*x)]))*[exp(teta1*one+teta2*x)];
grad1=one’*(ystar-g);
grad2=x’*(ystar-g);
grad=[grad1;grad2];
hess11=[((-1)*g)’*diag(one-g)]*one
hess21=[((-1)*g)’*diag(one-g)]*x
hess12=hess21
hess22=[((-1)*g)’*diag(one-g)]*[diag(x)*diag(x)*one]
hess=[hess11 hess12;hess21 hess22]
teta=[teta1;teta2];
corretor=inv(hess)*grad
teta=teta-corretor
teta1=teta(1:1,1)
teta2=teta(2:2,1)
erro=grad’*inv(hess)*grad
end
teta1=teta(1:1,1)
teta2=teta(2:2,1)
Repetindo o processo ate´ obter convergeˆncia, encontramos que os coeficientes
estimados sa˜o θ1 = 0, 7946 e θ2 = 0, 6089
Para encontrar a variaˆncia dos estimadores, utilizamos o estimador consis-
tente dado por
h
−H(θˆ)
i−1
Rotina no Matlab:
varcov=inv((-1)*hess)
O resultado e´ a seguinte matriz de variaˆncia-covariaˆncia:
V arcov(θˆ) =
·
0, 0118 0, 0021
0, 0021 0, 0048
¸
O intervalo de confianc¸a de 95% para θ2 e´:
IC(95%) : θˆ2 ± 1, 96.
p
0, 0048
: 0, 6089± 1, 36416
: [0, 4725; 0, 7453]
17
Econometria/listas/lista6.pdf
Universidade de Sa˜o Paulo - Departamento de Economia
EAE 5811 - Econometria I
Prof. Dr. Ricardo Avelino
1o Semestre de 2007
Lista de Exerc´ıcios 6 - Data de Entrega 06/06/2007
1. Considere o modelo
yt = µ+ εt, ...t = 1, ..., T
com εt i.i.d, E [εt|xt] = 0, E
£
ε2t |xt
¤
= σ2 + δ2, cov (εt, εs) = δ
2 para s 6= t. O
estimador eficiente de µ e´ GLS. Compute a eficieˆncia relativa de OLS, definida
por
V (µˆOLS)
V (µˆGLS)
2. No´s gostar´ıamos de estimar o modelo
yt = x1t
1×1
β1 + x2t
1×1
β2 + εt, ...t = 1, ..., T
onde
E [εt|xt] = 0, xt = [x1t : x2t] (1)
E
£
ε2t |xt
¤
= x21tα1 + x
2
2tα2 (2)
E [εtεs|xt, xs] = 0, ∀t 6= s (3)
a) Suponha que voceˆ rode OLS.
Derive a distribuic¸a˜o assinto´tica de βˆOLS.
Como voceˆ estimaria a matriz de variaˆncia assinto´tica de βˆ?
Como voceˆ testaria a hipo´tese de que β1/β2 = 1?
b) Suponha agora que voceˆ decida rodar FGLS
Explique como construir o estimator βˆFGLS e derive a sua distribuic¸a˜o
assinto´tica.
Como voceˆ estimaria a matriz de variaˆncia assinto´tica de βˆFGLS?
Como voceˆ testaria a hipo´tese de que β1/β2 = 1?
c) Suponha agora que voceˆ na˜o deseje fazer uma suposic¸a˜o espec´ıfica sobre
a natureza da heteroscedasticidade (hipo´tese (2)). Voceˆ ainda esta´ interessado
em estimar β1 e β2 e testar se β1/β2 = 1. Como voceˆ faria isso?
3. Considere o modelo
yt = x1t
1×1
β1 + x2t
1×1
β2 + β3 + ε1t, ...t = 1, ..., T
1
onde E [ε|X] = 0 e E [εε0|X] = σ21I. Para a varia´vel x1, voceˆ na˜o dispo˜e das
u´ltimas
Tb = T − Ta observac¸o˜es. Avalie os treˆs procedimentos a seguir.
a) Estime o modelo usando as primeiras Ta observac¸o˜es. Esse estimador sera´
necessariamente na˜o viesado?
b) Suponha que voceˆ acredite que x1 e´ determinado pela relac¸a˜o x1 = ztγ+
ε2t, com E [ε2|Z] = 0, E [ε2ε02|Z] = σ22I e E [ε1ε02|X,Z] = 0. Enta˜o, com
base nas primeiras Ta observac¸o˜es de x1, voceˆ estima γ e, para as u´ltimas Tb
observac¸o˜es, voceˆ usa xˆ1t = ztγˆ e roda a regressa˜o original com todas as T
observac¸o˜es. Esse procedimento conduz a estimadores na˜o viesados de β1, β2 e
β3? Produz estimadores consistentes?
c) Quando xˆ1 e´ utilizado, um componente extra, (x1 − xˆ1)β1, e´ adicionado
ao erro para as u´ltimas Tb observac¸o˜es. Considere isso um problema de
heteroscedasticidade e desenvolva um procedimento de mı´nimos quadrados
generalizados fact´ıveis. Esse procedimento sera´ assintoticamente eficiente?
4) Suponha que voceˆ tenha a seguinte especificac¸a˜o
yi = x
0
iβ + εi
que satisfaz todas as suposic¸o˜es do teorema de Gauss-Markov. Entretanto,
ao inve´s dos dados originais i = 1, ..., N , voceˆ tem J grupos de diferentes
tamanhos. O primeiro grupo tem uma pessoa, o segundo grupo duas pessoas e
o j-e´simo grupo tem j pessoas, sendo que
PJ
j=1 j = N. Tudo que voceˆ tem a`
sua disposic¸a˜o sa˜o as me´dias dos grupos y¯je x¯j .
a) Ache o estimador de mı´nimos quadrados generalizados e determine os
pesos para implementar mı´nimos quadrados ponderados.
b) Suponha que, apo´s voceˆ computar βˆGLS , voceˆ calcula o R
2 usual. Voceˆ
enta˜o tem acesso aos dados originais e roda mı´nimos quadrados ordina´rios. Mas
o R2 resultante e´ muito inferior. O que voceˆ conclui? Voceˆ achou um contra
exemplo para o teorema de Gauss-Markov?
5. Derive a func¸a˜o de log-verossimilhanc¸a, as condic¸o˜es de primeira ordem
para maximizac¸a˜o e a matriz de informac¸a˜o para o modelo
yi = x0iβ + εi, εi ∼ N
³
0, (z0iγ)
2
´
Qual e´ a distribuic¸a˜o assinto´tica de βˆMLE? Como voceˆ estimaria consisten-
temente a variaˆncia assinto´tica de βˆMLE?
6. Suponha que voceˆ esteja estimando o modelo
y1 = γy2 + βx1 + ε1
em que o regressor y2 e´ correlacionado com o erro ε1 e que, ale´m disso, o erro e´
heterosceda´stico
V (ε1t) = σ2x21t
2
Suponha que haja dois candidatos va´lidos para instrumentos no modelo, x2
e x3. O objetivo e´ estimar γ e β e testar hipo´teses envolvendo-os.
a) Quais sa˜o as propriedades de mı´nimos quadrados em dois esta´gios nesse
caso?
b) Como voceˆ estimaria esse modelo e por queˆ?
c) Fornec¸a uma estat´ıstica que possa ser utilizada para testar a hipo´tese de
que γ = 0 e deˆ a sua distribuic¸a˜o.
3
Econometria/listas/lista6sol.pdf
Universidade de Sa˜o Paulo - Departamento de Economia
EAE 5811 - Econometria I
Prof. Dr. Ricardo Avelino
1o Semestre de 2007
Lista de Exerc´ıcios 5 - Soluc¸o˜es
Monitoras: Paula Pereda
Jaqueline de Oliveira
1. Seja i um vetor de 1’s de dimensa˜o Tx1. Assim, o estimador de OLS para
µ e a variaˆncia do mesmo sa˜o iguais a:
ˆ
µOLS = (i
0i)−1i0y =
X yt
T
V AR(
ˆ
µOLS) = (i
0i)−1(i0Ωi)(i0i)−1
onde
Ω = E(εε0) =


δ2 + σ2 δ2 ... δ2
δ2 δ2 + σ2 ... δ2
... ... ... ...
δ2 ... ... δ2 + σ2


Enta˜o, a variaˆncia de
ˆ
µOLSsera´:
V AR(
ˆ
µOLS) =
1
T
[ σ2 + Tδ2 σ2 + Tδ2 ... σ2 + Tδ2 ]i
1
T
=
1
T
(Tσ2 + T 2δ2)
1
T
=
σ2
T
+ δ2
O estimador de GLS para µ e´ igual a:
ˆ
µGLS = (i
0Ω−1i)−1i0Ω−1y
Seja
Ω−1 =


a11 a12 ... a1T
a21 a22 ... a2T
... ... ... ...
aT1 aT2 ... aTT


Enta˜o,


δ2 + σ2 δ2 ... δ2
δ2 δ2 + σ2 ... δ2
... ... ... ...
δ2 ... ... δ2 + σ2

 .


a11 a12 ... a1T
a21 a22 ... a2T
... ... ... ...
aT1 aT2 ... aTT


=


1 0 ... 0
0 1 ... 0
... ... ... ...
0 0 ... 1


1
Assim, ¡
δ2 + σ2
¢
a11 + δ
2a21 + ...+ δ
2aT1 = 1
δ2a11 +
¡
δ2 + σ2
¢
a21 + ...+ δ
2aT1 = 0
...
δ2a11 + δ
2a21 + ...+
¡
δ2 + σ2
¢
aT1 = 1
Seguem deste sistema de equac¸o˜es alguns resultados como:
a21 = a31 = ... = aT1 = a
σ2a11 − σ2a21 = 1⇒ a11 =
1
σ2
+ a
¡
Tδ2 + σ2
¢
a11 +
¡
Tδ2 + σ2
¢
(T − 1)a = 1¡
Tδ2 + σ2
¢
(
1
σ2
+ a) +
¡
Tδ2 + σ2
¢
(T − 1)a = 1¡
Tδ2 + σ2
¢ 1
σ2
+
¡
Tδ2 + σ2
¢
Ta = 1
⇒ a =
1− (Tδ
2+σ2)
σ2
T
¡
Tδ2 + σ2
¢ ⇒ a = −δ2
σ2
¡
Tδ2 + σ2
¢
Assim, os elementos da primeira coluna da matriz inversa sera˜o:
a11 =
1
σ2
− δ
2
σ2
¡
Tδ2 + σ2
¢ = (T − 1)δ2 + σ2
σ2
¡
Tδ2 + σ2
¢
a21 = a31 = ... = aT1 = −
δ2
σ2
¡
Tδ2 + σ2
¢
Devido a` simetria existente nessa matriz, conclue-se que:
Ω−1 =


(T−1)δ2+σ2
σ2(Tδ2+σ2) −
δ2
σ2(Tδ2+σ2) ... −
δ2
σ2(Tδ2+σ2)
− δ2σ2(Tδ2+σ2)
(T−1)δ2+σ2
σ2(Tδ2+σ2) ... −
δ2
σ2(Tδ2+σ2)
... ... ... ...
− δ2σ2(Tδ2+σ2) −
δ2
σ2(Tδ2+σ2) ...
(T−1)δ2+σ2
σ2(Tδ2+σ2)


=
1
σ2
¡
Tδ2 + σ2
¢


(T − 1)δ2 + σ2 −δ2 ... −δ2
−δ2 (T − 1)δ2 + σ2 ... −δ2
... ... ... ...
−δ2 −δ2 ... (T − 1)δ2 + σ2


Como
ˆ
µGLS = (i
0Ω−1i)−1i0Ω−1y
=
¡£
σ2 σ2 ... σ2
¤
i
¢−1 £
σ2 σ2 ... σ2
¤
y
=
1
Tσ2
.σ2
X
yt =
X yt
T
= y
2
Note que o estimador de GLS para µ e´ igual ao estmador OLS. Consequente-
mente, as variaˆncias tambe´m sera˜o, ou seja:
V AR(
ˆ
µGLS) = V AR(
ˆ
µOLS) =
σ2
T
+ δ2
Portanto, a eficieˆncia relativa do OLS e´ 1.
2. a) OLS
Seja xt = [x1t : x2t], temos que o estimador OLS para o beta e´:
ˆ
βOLS = (
X
xtx0t)
−1(
X
xtyt) = β + (
X
xtx0t)
−1(
X
xtεt)
Portanto, temos que:
√
n
µ
ˆ
βOLS − β
¶
= (
X xtx0t
n
)−1(
X xtεt√
n
)
Pela Lei dos Grandes Nu´meros, p lim
P xtx0t
n =Mn, que e´ uma matriz posi-
tiva definida.
Assim, p lim
³P xtx0t
n
´−1
=M−1n
O segundo termo, tera´ distribuic¸a˜o assinto´tica igual a:X xtεt√
n
d−→ N(0, Vn)
para
Vn = V
·X xtεt√
n
¸
=
1
n
E(ε2txtx
0
t)
Deste modo, temos que a distribuic¸a˜o assinto´tica do estimador de OLs sera´:
√
n
µ
ˆ
βOLS − β
¶
d−→ N(0,M−1n VnM−1n )
A matriz de variaˆncia-covariaˆncia assinto´tica de
ˆ
βOLS e´ dada por:
AssV (
ˆ
βOLS) =M
−1
n VnM
−1
n
em que M−1n pode ser consistentemente estimado por
ˆ
M
−1
n =
µX xtx0t
n
¶−1
Ja´ a matriz Vn pode ser estimada utilizando a abordagem de White, de
maneira a obter um estimador robusto da variaˆncia:
Para obtermos o estimador de White, devemos seguir os seguintes passos:
3
i) Rodar a equac¸a˜o por OLS para estimar os paraˆmetros:
ˆ
β1 e
ˆ
β2
ii).Calcular os res´ıduos
ˆ
εt = yt − x1t
ˆ
β1 − x2t
ˆ
β2
iii) Utilizando os res´ıduos, estima-se a matriz Vn como a seguir:
ˆ
V n =
1
n
X ˆ
ε
2
txtx
0
t
Portanto, a matriz de variaˆncia-covariaˆncia assinto´tica estimada sera´
ˆ
AssV (
ˆ
βOLS) =
µX xtx0t
n
¶−1
1
n
X ˆ
ε
2
txtx
0
t
µX xtx0t
n
¶−1
Como queremos testar a hipo´tese de que β1β2
= 1, ou seja, β1−β2 = 0, temos
que nossa hipo´tese se baseia em uma combinac¸a˜o linear dos paraˆmetros:
H0 : Rβ = q
H1 : Rβ 6= q
onde
R =
£
1 −1
¤
β0 =
£
β1 β2
¤
q = 0
Para testar podemos utilizar a estatistica t:
t =
R
ˆ
βOLSr
R
ˆ
AssV (
ˆ
βOLS)R0
Se |t| > t1−α,n−2, rejeita-se a H0
b)
Para estimarmos
ˆ
βGLS , devemos seguir os seguintes passos:
i) Rodar a equac¸a˜o por OLS para estimar os paraˆmetros:
ˆ
β1 e
ˆ
β2
ii).Calcular os res´ıduos
ˆ
εt = yt − x1t
ˆ
β1 − x2t
ˆ
β2
iii) Estimar por OLS
ˆ
ε
2
t =
ˆ
α1x1t +
ˆ
α2x2t.
iv) Construir a matriz de variancia-covariancia:
ˆ
Ω =


ˆ
α1x11 +
ˆ
α2x21 0 ... 0
0
ˆ
α1x12 +
ˆ
α2x22 ... 0
... ... ... ...
0 0 ...
ˆ
α1x1T +
ˆ
α2x2T


4
v) Calcular o estimador FGLS
ˆ
βGLS =
Ã
X 0
ˆ
Ω
−1
X
!−1
X 0
ˆ
Ω
−1
Y
ÃX xtx0t
ˆ
wt
!−1ÃX xtyt
ˆ
wt
!
onde
ˆ
wt =
ˆ
α1x1t +
ˆ
α2x2t
Portanto, temos que:
√
n
µ
ˆ
βGLS − β
¶
=
Ã
1
n
X xtx0t
ˆ
wt
!−1Ã
1√
n
X xtεt
ˆ
wt
!
Pela Lei dos Grandes Nu´meros,
plim
X xtx0t
n
ˆ
wt
= E[
xtx0t
wt
],
e o segundo termo, tera´ distribuic¸a˜o assinto´tica igual a:X xtεt
ˆ
wt
√
n
d−→ N
µ
0, E(
1
w2t
x0tε
2
txt)
¶
onde
E

x
0
tε
2
txt
ˆ
w
2
t
/x

 = E(ε
2
t/x)xtx
0
t
ˆ
w
2
t
= E

xtx
0
t
ˆ
w
2
t


Deste modo, temos que a distribuic¸a˜o assinto´tica do estimador de OLS sera´:
√
n
µ
ˆ
βGLS − β
¶
d−→ N
"
0,
µ
E
µ
xtx0t
wt
¶¶−1#
onde
V
·√
n
µ
ˆ
βGLS − β
¶¸
=
·
E
µ
xtx0t
wt
¶¸−1
E
µ
xtx0t
wt
¶·
E
µ
xtx0t
wt
¶¸−1
=
·
E
µ
xtx0t
wt
¶¸−1
h
E
³
xtx
0
t
wt
´i−1
pode ser consistemente estimado por
ˆ
V
·
ˆ
βGLS
¸
=
"X 1
n
Ã
xtx0t
ˆ
wt
!#−1
5
Como anteriormente, queremos testar a hipo´tese de que β1 − β2 = 0. Por-
tanto,
H0 : Rβ = q
H1 : Rβ 6= q
onde
R =
£
1 −1
¤
β0 =
£
β1 β2
¤
q = 0
Para testar podemos utilizar a estatistica t:
t =
R
ˆ
βGLSr
R
ˆ
V (
ˆ
βGLS)R0
Se |t| > t1−α,n−2, rejeita-se a H0
c) Neste caso, como na˜o conhecemos a forma funcional da heterocedastici-
dade, podemos corrigir a ineficieˆncia do estimador OLS utilizando o estimador
robusto da variaˆncia, proposto por White. Este estimador foi utilizado no item
a, portanto a estimac¸a˜o da matriz de variaˆncia-covariaˆncia robusta e o teste de
hipo´tese ja´ foram realizados.
3. a) Sejam xa1 e x
a
2 vetores (Tax1) que conteˆm as Ta primeiras observac¸o˜es
de x1t e x2t, respectivamente. Da mesma maneira, defina ya e εa. SejaXa = [xa01
xa02 1a0]0 e β = [β1 β2 β3].
O estimador de OLS para os betas e´ igual a
ˆ
βOLS = (X
a0Xa)−1(Xa0ya) = (Xa0Xa)−1Xa0(Xaβ + εa)
= β + (Xa0Xa)−1Xa0εa
Portanto, o estimador de OLS e´ na˜o viesado se E[(Xa0Xa)−1Xa0εa/Xa] = 0.
Note que isso na˜o e´ uma implicac¸a˜o direta da hipo´tese inicial de que E[ε/X] = 0.
Consequentemente, na˜o podemos afirmar que o estimador de OLS e´ na˜o viesado.
b) Sejam
˜
X =
"
xa1 x
a
2 1
a
ˆ
x
b
1 x
b
2 1
b
#
e
˜
ε =
"
εa1
εb1 + (x
b
1 −
ˆ
x
b
1)β1
#
6
onde
ˆ
x
b
1 = z
b ˆγ e
ˆ
γ = (
TaP
t=1
zat z
a0
t )
−1(
TaP
t=1
zat x
a0
1t)
O estimador
ˆ
β resultante sera´
ˆ
β = (
˜
X
0 ˜
X)−1(
˜
X
0
y) = β + (
˜
X
0 ˜
X)−1(
˜
X
0
˜
ε)
e e´ na˜o viesado se
E
"
(
˜
X
0 ˜
X)−1(
˜
X
0
˜
ε)/X
#
= (
˜
X
0 ˜
X)−1
˜
X
0
E(
˜
ε/X) = 0
Entretanto,
E(ε˜/X˜) = E
·
εa1
εb1 + (x
b
1 − xˆb1)β1
/X˜
¸
= E
·
εa1
εb1
/X˜
¸
+E
·
0
(zbγ + εb2 − zbγˆ)β1
/X˜
¸
= E(ε1/X˜) +E
·
0
zb(γ − γˆ)β1
/X˜
¸
+E
·
0
εb2β1
/X˜
¸
Segue, de E(ε1ε02/X,Z) = 0, que E(ε1(x−zγ)0/X,Z) = 0, o que implica que
E(ε1/X,Z)ε02 = 0 =⇒ E(ε1/X,Z) = 0, a menos que X e Z sejam perfeitamente
correlacionados. Entretanto, E(ε1/X,Z) = 0; E(ε1/X˜) = 0, uma vez que X˜
e´ um subconjunto de (X,Z).
Analisando agora o termo E
h
zb(γ − γˆ)β1/X˜
i
= zb
h
γ −E(γˆ/X˜)
i
β1. Por-
tanto este termo sera´ zero somente se E(γˆ/X˜) = γ.
Finalmente, E
h
εb2β1/X˜
i
= E
h
εb2/X˜
i
β1 = E
h
xb1 − zbγ/X˜
i
, que provavel-
mente e´ diferente de zero.
Portanto, baseando-se nas esperanc¸as acima, na˜o se pode garantir que o
estimador de β seja na˜o viesado.
A consisteˆncia do estimador requere que plim(
˜
X
0 ˜
X)−1(
˜
X
0
˜
ε) = 0.Assumindo-
se que plim(
˜
X
0 ˜
X
T )
−1 = Q−1, em que esta matriz e´ positiva definida, a con-
sisteˆncia de
˜
β passa a depender do plim(
˜
X
0
˜
ε
T ).
7
Entretanto,
˜
X
0
˜
ε
T
=
1
T


xa01
ˆ
x
b0
1
xa02 x
b0
2
1a0 1b0


"
εa1
εb1 + (x
b
1 −
ˆ
x
b
1)β1
#
=
1
T


xa01 εa1 +
ˆ
x
b0
1 [ε
b
1 + (x
b
1 −
ˆ
x
b
1)β1]
xa02 ε
a
1 + x
b0
2 [ε
b
1 + (x
b
1 −
ˆ
x
b
1)β1]
1a0εa1 + 1b0[εb1 + (xb1 −
ˆ
x
b
1)β1]


=
1
T


xa01 εa1 +
ˆ
x
b0
1 ε
b
1 +
ˆ
x
b0
1 [(x
b
1 −
ˆ
x
b
1)β1]
xa02 ε
a
1 + x
b0
2 ε
b
1 + x
b0
2 [(x
b
1 −
ˆ
x
b
1)β1]
1a0εa1 + 1b0εb1 + 1b0[(xb1 −
ˆ
x
b
1)β1]


=
X 0ε1
T
+
1
T


(
ˆ
x
b0
1 − xb1)εb1
0
0

+ 1
T


ˆ
x
b0
1 [(x
b
1 −
ˆ
x
b
1)β1]
xb02 [(xb1 −
ˆ
x
b
1)β1]
1b0[(xb1 −
ˆ
x
b
1)β1]


= A+B+C
Analisaremos os termos A, B e C, separadamente:
A: Temos, por hipo´tese, que p lim(X
00ε1
T ) = 0.
B: Sabemos que
ˆ
x
b
1 = z
b ˆγ = zb(za
0
za)−1(za
0
xa) = zbγ + zb(za
0
za)−1(za
0
εa2)
xb1 = z
bγ + εb2
Portanto,
ˆ
x
b
1 − xb1 = zb(za
0
za)−1(za
0
εa2)− εb2
=⇒ (ˆx
b
1 − xb1)0εb1 = εa02 za(za
0
za)−1zb
0
εb1 − εb02 εb1
=⇒ (
ˆ
x
b
1 − xb1)0εb1
T
=
Tb
T
"
εa02 za
Ta
(
za
0
za
Ta
)−1
zb
0
εb1
Tb
− ε
b0
2 ε
b
1
Tb
#
=⇒ p lim

 (
ˆ
x
b
1 − xb1)0εb1
T


= p lim
µ
Tb
T
¶"
p lim
µ
εa02 za
Ta
¶
p lim
"
(
za
0
za
Ta
)−1
#
p lim
Ã
zb
0
εb1
Tb
!
−p lim
µ
εb02 ε
b
1
Tb
¶¸
8
Se o p lim
¡Tb
T
¢
= 0 e todos os outros termos convergerem para matrizes
finitas, a expressa˜o acima sera´ zero.
Por outro lado, se p lim
¡Tb
T
¢
> 0 , teremos que examinar os demais termos.
p lim
Ã
zb
0
εb1
Tb
!
= E
"
zb
0
εb1
Tb
/X,Z
#
=
zb
0
E(εb1/X,Z)
Tb
= 0
p lim
µ
εb02 εb1
Tb
¶
= E
·
εb02 εb1
Tb
/X,Z
¸
=
E(εb02 εb1/X,Z)
Tb
= 0
Assim, se os demais termos convergirem para matrizes finitas, teremos a
convergeˆncia.
C:
1
T
xˆb01 (x
b
1 − xˆb1)β1 =
1
T
[γ0zb0 + εa02 z
a(za
0
za)−1zb
0
[εb2 − zb(za
0
za)−1(za
0
εa2)]β1
=
1
T
h
γ0zb0εb2 − γ0zb0zb(za
0
za)−1(za
0
εa2) + ε
a0
2 z
a(za
0
za)−1zb
0
εb2
−εa02 za(za
0
za)−1zb
0
zb(za
0
za)−1(za
0
εa2)
i
β1
=
Tb
T
"
γ0zb0εb2
Tb
− γ
0zb0zb
Tb
(
za
0
za
Ta
)−1(
za
0
εa2
Ta
)
+
εa02 z
a
Ta
(
za
0
za
Ta
)−1
zb
0
εb2
Tb
−ε
a0
2 z
a
Ta
(
za
0
za
Ta
)−1
zb
0
zb
Tb
(
za
0
za
Ta
)−1(
za
0
εa2
Ta
)
#
β1
Se o p lim
¡Tb
T
¢
= 0 e todos os outros termos convergerem para matrizes
finitas, a expressa˜o acima sera´ zero.
Por outro lado, se p lim
¡
Tb
T
¢
> 0 , teremos que examinar os demais termos.
Suponha que Ta −→∞,
p lim
zb0εb2
Tb
= E
"
zb
0
εb2
Tb
/Z
#
=
zb
0
E(εb2/Z)
Tb
= 0
p lim
za
0
εa2
Ta
= E
"
za
0
εa2
Ta
/Z
#
=
za
0
E(εb2/Z)
Ta
= 0
Assim, se Ta −→∞, toda a expressa˜o ira´ convergir para zero.
1
T
ˆ
x
b0
2 (x
b
1 −
ˆ
x
b
1)β1 =
Tb
T
[
xb02 εb2
Tb
− x
b0
2 z
b
Tb
(
za
0
za
Ta
)−1(
za
0
εa2
Ta
)]β1
p lim
xb02 εb2
Tb
= E
·
xb02 εb2
Tb
/X
¸
=
xb02 E(εb2/X)
Tb
= 0
p lim
za
0
εa2
Ta
= E
"
za
0
εa2
Ta
/Z
#
=
za
0
E(εb2/Z)
Ta
= 0, se Ta −→∞
9
e, por fim,
1
T
1b0(xb1 −
ˆ
x
b
1)β1 =
Tb
T
[
1b0εb2
Tb
− 1
b0zb
Tb
(
za
0
za
Ta
)−1(
za
0
εa2
Ta
)]β1
Se o p lim
¡Tb
T
¢
= 0 e todos os outros termos convergerem para matrizes
finitas, a expressa˜o acima sera´ zero.
Por outro lado, se p lim
¡
Tb
T
¢
> 0 , mas Ta −→∞,
p lim
1b0εb2
Tb
= E
·
1b0εb2
Tb
/Z
¸
=
1b0E(εb2/Z)
Tb
= 0
p lim
za
0
εa2
Ta
= E
"
za
0
εa2
Ta
/Z
#
=
za
0
E(εb2/Z)
Ta
= 0, se Ta −→∞
Neste caso, o u´ltimo termo tambe´m convergira´ para zero.
Em resumo, o estimador de β sera´ consistente se p lim
¡
Tb
T
¢
= 0 ou p limTa =
0
4. a) Para o j-e´simo grupo, temos:
yj = x
0
jβ + εj
Onde yj , x
,
j e εjsa˜o vetores de dimensa˜o jx1.
Premultiplicando ambos os lados da equac¸a˜o por [1/j]i0, onde i e´ um vetor
de 1’s de dimensa˜o jx1, encontramos:
1
j
i0yj =
1
j
i0x0jβ +
1
j
i0εj ⇒ yj = x
0
jβ + εj
Para todos grupos a equac¸a˜o fica: y = x0β + ε,
onde y = [y1y2...yJ ], x = [x1x2...xJ ] e ε = [ε1ε2...εJ ].
Ω = E[εε0] = E


ε1ε1 ε1ε2 ... ε1εJ
ε2ε1 ε2ε2 ... ε2εJ
... ... ... ...
εJε1 εJε2 ... εJεJ

 =


σ2 0 ... 0
0 σ
2
2 ... 0
... ... ... ...
0 0 ... σ
2
J


Assim, o estimador de minimos quadrados generalizados (GLS) e´:
ˆ
βGLS = (x
0Ω−1x)−1(x0Ω−1y)
Como a inversa da matriz oˆmega e´ dada por:
Ω−1 =


1
σ2 0 ... 0
0 2σ2 ... 0
... ... ... ...
0 0 ... Jσ2


10
Podemos reescrever o estimador GLS:
ˆ
βGLS = (x¯
0Ω−1x¯)−1(x¯0Ω−1y¯) = (
X xjxj
σ2/j
)−1(
X xj y¯j
σ2/j
)
= (
X
jxj x¯j)
−1(
X
jxj y¯j)
Portanto, os grupos de observac¸o˜es sa˜o ponderados pelo nu´mero de ob-
servac¸o˜es de cada grupo, isto porque a me´dia dos grupos que teˆm mais ob-
servac¸o˜es possuem menores variaˆncias e, portanto, recebem maiores pesos.
b) O coeficiente de determinac¸a˜o (R2) e´ uma medida nume´rica do ajuste da
regressa˜o e espera-se que os valores me´dios dos dados agrupados estejam mais
pro´ximos a` regressa˜o quando comparados com todas as observac¸o˜es da amostra,
gerando assim um melhor ajuste, ou seja, apresentando um R2 maior.
Mas isso na˜o contradiz o Teorema de Gauss-Markov. Para verificarmos isso,
reescreveremos
ˆ
βGLS como:
βˆGLS = (x
0H 0Hx)−1(x0H 0Hy)
onde
H =


1 0 0 ... 0 0 ... 0
0 12
1
2 ... 0 0 ... 0
... ... ... ... ... ... ... ...
0 0 0 ... 1J
1
J ...
1
J


A variaˆncia do estimador GLS sera´: V AR(
ˆ
βGLS/x) = σ
2(x0H 0Hx)−1
Enta˜o, a diferenc¸a entre as variaˆncias de OLS e GLS e´:
V AR(
ˆ
βOLS/x)− V AR(
ˆ
βGLS/x) = σ
2(x0x)−1 − σ2(x0H 0Hx)−1
Para descobrirmos o sinal da diferenc¸a basta analisarmos as matrizes inver-
tidas, ou seja, o sinal da expresa˜o abaixo:
x0x− x0H 0Hx = x0(I −H 0H)x
Como (I −H 0H) e´ idempotente, x0(I −H 0H)x ≡ x0(I −H 0H)0(I −H 0H)x,
que e´ uma matriz positiva definida. Portanto, x0x ≥ x0H 0Hx, o que implica que
V AR(
ˆ
βOLS/x) ≤ V AR(
ˆ
βGLS/x). Assim, a variaˆncia do estimador de OLS na˜o
e´ maior que a variaˆncia do estimador GLS.
5. A densidade conjunta de (y1, y2,..., yn) e´ igual a:
f(y1, y2,..., yn/x) =
nY
i=1
1√
2π(z0iγ)
exp
·
−1(yi − x0iβ)2
2(z0iγ)2
¸
11
Assim, a func¸a˜o de log-verossimilhanc¸a e´ dada por:
⇒ lnL(θ) = −n
2
ln(2π)−
X
ln(z0iγ)−
1
2
X·yi − x0iβ
(z0iγ)
¸2
Para maximizarmos a func¸a˜o acima, devemos deriva´-la nos paraˆmetros de
interesse θ0 =
£
β γ
¤
e igualar a zero. Desta forma, derivamos as seguintes
Condic¸o˜es de Primeira Ordem (CPO):
∂ lnL
∂β
=
X
xi
·
yi − x0iβ
(z0iγ)2
¸
= 0
∂ lnL
∂γ
= −
X zi
(z0iγ)
+
X
zi
(yi − x0iβ)2
(z0iγ)3
= 0
As derivadas segundas sa˜o
∂2 lnL
∂β∂β0
= −
X xix0i
(z0iγ)2
∂2 lnL
∂β∂γ0
=
∂2 lnL
∂γ∂β0
= −2
X·xi(yi − x0iβ)z0i
(z0iγ)3
¸
∂2 lnL
∂γ∂γ0
=
X ziz0i
(z0iγ)2
− 3
X (yi − x0iβ)2ziz0i
(z0iγ)4
Enta˜o, a matriz de informac¸a˜o sera´
I(θ) = E
·
−∂
2 lnL
∂θ∂θ0
¸
= E


P xix0i
(z0iγ)2
2
Phxi(yi−x0iβ)z0i
(z0iγ)3
i
2
Phxi(yi−x0iβ)z0i
(z0iγ)3
i
−
P ziz0i
(z0iγ)2
+ 3
P (yi−x0iβ)2ziz0i
(z0iγ)4


=
" P xix0i
(z0iγ)2
0
0 2
P ziz0i
(z0iγ)2
#
pois
E
·X xi(yi − x0iβ)z0i
(z0iγ)3
¸
=
·X xiE(yi − x0iβ)z0i
(z0iγ)3
¸
= 0
e
E
·
−
X ziz0i
(z0iγ)2
+ 3
X (yi − x0iβ)2ziz0i
(z0iγ)4
¸
= −
X ziz0i
(z0iγ)2
+ 3
X E[(yi − x0iβ)2]ziz0i
(z0iγ)4
= −
X ziz0i
(z0iγ)2
+ 3
X (z0iγ)2ziz0i
(z0iγ)4
= 2
X ziz0i
(z0iγ)2
12
O Limite Inferior de Crame´r-Rao para a variaˆncia do estimador na˜o viesado
e´ a inversa da matriz de informac¸a˜o, que no caso sera´ a matriz diagonal cu-
jos elementos da diagonal sa˜o exatamente os elementos inversos da matriz de
informac¸a˜o
V (θ) = [I(θ)]−1 =
µ
E
·
−∂
2 lnL
∂θ∂θ0
¸¶−1
=
Ã" P xix0i
(z0iγ)2
0
0 2
P ziz0i
(z0iγ)2
#!−1
=


(z0iγ)
2
S
xix0i
0
0
(z0iγ)
2
2
S
ziz0i


Segue pelo TLC de Lindberg-Levy temos
√
n(
ˆ
θ − θ) d−→ N
³
0, n [I(θ)]−1
´
o que implica que a distribuic¸a˜o assinto´tica de
ˆ
θ sera´
ˆ
θ
d−→ N
³
θ, [I(θ)]−1
´
Consequentemente,
ˆ
βMLE
d−→ N(β, [I(θ)]−1)
Como
ˆ
θ e´ estimador consistente para θ, a variaˆncia assinto´tica de
ˆ
βMLE
pode ser consistentemente estimada por
AssV (
ˆ
βMLE) =
(z0i
ˆ
γ)2P
xix0i
6. a) No primeiro esta´gio de 2SLS, calculamos os valores estimados de x1 e
y2, baseados na regressa˜o de x1 e y2 contra x1, x2 e x3, ou seja:"
ˆ
x1
ˆ
y2
#
= Z(Z 0Z)−1Z0
·
x1
y2
¸
= PZ
·
x1
y2
¸
,
onde PZ = Z(Z0Z)−1Z0 e Z0 =
£
x01 x
0
2 x
0
3
¤
.
No segundo esta´gio, estimamos
·
γ
β
¸
baseados na regressa˜o de y1, em
ˆ
y2e
13
ˆ
x1:


ˆ
γ
ˆ
β

 =
·µ
y02PZ
x01PZ
¶¡
PZy2 PZx1
¢¸−1
µ
y02PZ
x01PZ
¶·¡
y2 x1
¢µ γ
β
¶
+ ε1
¸
=
·µ
y02PZy2 y02PZx1
x01PZy2 x01PZx1
¶¸−1µ
y02PZy2 y02PZx1
x01PZy2 x01PZx1
¶µ
γ
β
¶
+
·µ
y02PZy2 y
0
2PZx1
x01PZy2 x01PZx1
¶¸−1µ
y02PZε1
x01PZε1
¶
=
µ
γ
β
¶
+
·µ
y02PZy2 y
0
2PZx1
x01PZy2 x
0
1PZx1
¶¸−1µ
y02PZε1
x01PZε1
¶
Sendo
p lim
1
n
µ
y02PZy2 y02PZx1
x01PZy2 x
0
1PZx1
¶
= Q
onde Q e´ uma matriz positiva definida, o estimador 2SLS e´ consistente desde
que
p lim
1
n
(x01PZε1) = p lim
1
n
(x01ε1) = 0 (por hipo´tese),
p lim
1
n
(y02PZε1) = 0
e que x1, x2 e x3 sejam instrumentos va´lidos.
Entretanto, o estimador 2SLS na˜o utiliza as informac¸o˜es contidas na hete-
rocedasticidade do termo aleato´rio. Portanto, na˜o e´ eficiente.
E´ poss´ıvel demonstrar que o estimador 2SLS e´ um caso especial do estimador
GMM, quando estimamos GMM utilizando como matriz de pesos a inversa de
σ2(Z´Z). Para este caso, o estimador GMM minimiza a seguinte expressa˜o:
1
T
X
(yt − x0tβ)0z0t
1
σ2
³X
ztz
0
t
´−1 1
T
X
zt(yt − x0tβ)
A condic¸a˜o de primeira ordem e´ dada por:X
xtz
0
t
³X
ztz
0
t
´−1X
zt(yt − x0tβ) = 0
Seja
ˆ
δ
0
=
P
xtz0t (
P
ztz0t)
−1
o coeficiente da regressa˜o de xt contra zt esti-
mada por MQO, enta˜o
ˆ
δ0zt e´ o valor previsto de xt, o que implica que a C.P.O
pode ser escrita por: X ˆ
xt(yt − x0tβ) = 0
14
Resolvendo para β temos:
ˆ
β =
X
(
ˆ
xtx0t)
−1
X
(
ˆ
xtyt) =
X
(
ˆ
xt
ˆ
x
0
t)
−1
X
(
ˆ
xtyt)
que e´ exatamente o estimador 2SLS.
b) Vimos no item a) que o estimador 2SLS na˜o utiliza a matriz de pon-
derac¸o˜es o´tima, que no caso e´ igual a:
E
·X ˆ
xtutu0t
ˆ
x
0
t
¸
=
X ˆ
xtE (utu0t)
ˆ
x
0
t =
X ˆ
xtσ2x21t
ˆ
x
0
t = σ
2
X ˆ
xtx21t
ˆ
x
0
t
Portanto, para obtermos um estimador mais eficiente, o modelo deve ser
estimado por GMM usando a seguinte matriz de ponderac¸a˜o:
1
σ2
µX ˆ
xtx
2
1t
ˆ
x
0
t
¶−1
onde x1t =
·
y2
x1
¸
Neste caso, o estimador GMM minimiza:
1
T
X
(yt − x0tβ)0z0t
1
σ2
³X
xˆtx21txˆ
0
t
´−1 1
T
X
ztyt
c) A matriz de variaˆncia-covariaˆncia do estimador de 2SLS e´ dada por:
V


ˆ
γ2SLS
ˆ
β2SLS

 = E
h
(Xˆ 0Xˆ)−1(Xˆ 0εε0Xˆ)(Xˆ 0Xˆ)−1/Xˆ
i
= (Xˆ 0Xˆ)−1Xˆ 0ΩXˆ(Xˆ 0Xˆ)−1
onde Ω = E(εitε0it) = σ
2diag
£
x211 x
2
12 ... x
2
1T
¤
Enta˜o,
√
n


ˆ
γ2SLS
ˆ
β2SLS
− γ
β

 d−→ N [0, Q−1Q∗Q−1]
ˆ
γ2SLS
ˆ
β2SLS
d−→ N
·
γ
β
,
Q−1Q∗Q−1
n
¸
onde Q−1 = p lim(
ˆ
X
0 ˆ
X
T )
−1 e Q∗ = p lim(
ˆ
X
0
Ω
ˆ
X
T )
−1.
O teste cuja hipo´tese nula e´ γ = 0, pode ser baseado na seguinte estat´ıstica:
γˆ[(Xˆ 0Xˆ)−1Xˆ 0ΩXˆ(Xˆ 0Xˆ)−1]a11
ˆ
γ
d−→ κ21
onde a11 indica que e´ o elemento da primeira linha e primeira coluna da matriz.
A hipo´tese nula e´ rejeitada ao n´ıvel de significaˆncia de 5% se a estat´ıstica acima
tiver valor observado maior que o valor tabelado κ295%,1.
15
Econometria/listas/lista7.pdf
Universidade de Sa˜o Paulo - Departamento de Economia
EAE 5811 - Econometria I
Prof. Dr. Ricardo Avelino
1o Semestre de 2007
Lista de Exerc´ıcios 7 - Data de Entrega 21/06/2007
1. (Identificac¸a˜o e estimac¸a˜o de modelos de equac¸o˜es simultaˆneas)
Discuta identificac¸a˜o e estimac¸a˜o do seguinte modelo de equac¸o˜es simultaˆneas.
y1t + γ12y2t + γ13y3t + β11x1t + β13x3t = ε1t
y2t + γ23y3t + β22x2t + β23x3t = ε2t
γ31y1t + y3t + β32x2t = ε3t
(Voceˆ na˜o tem nenhuma restric¸a˜o envolvendo as covariaˆncias).
Certifique-se de que voceˆ esta´ considerando tanto as condic¸o˜es de ordem
quanto de posto e de explicitar as suposic¸o˜es necessa´rias para a estimac¸a˜o dos
paraˆmetros do modelo.
2. (Identificac¸a˜o e estimac¸a˜o de modelos de equac¸o˜es simultaˆneas)
Considere o seguinte modelo de oferta e demanda:
qs = α0 + α1p+ α2ω + µs
qd = β0 + β1p+ β2y + µd
qs = qd
onde ω denota um vetor de observac¸o˜es de dimensa˜o T × 1 do clima e y e´ um
vetor de observac¸o˜es T × 1 da renda. Ambos sa˜o exo´genos, por hipo´tese.
a) Discuta a identificac¸a˜o dos paraˆmetros nas equac¸o˜es de oferta e demanda.
b) A restric¸a˜o α2 = 0 impo˜e alguma restric¸a˜o nos paraˆmetros da forma
reduzida? Cuidadosamente descreva um teste de H0 : α2 = 0 contra H1 :
α2 6= 0 utilizando os paraˆmetros da forma reduzida. Dica: Escreva H0 como
H0 : RΠ = q0.
c) Suponha que a primeira equac¸a˜o e´ estimada por um estimador de in-
formac¸a˜o limitada, isto e´, varia´veis instrumentais. Voceˆ pode determinar se a
primeira equac¸a˜o e´ uma curva de oferta ou de demanda examinando o sinal de
α1?
d) Suponha que uma ageˆncia governamental a cada ano fixe o prec¸o em
p0t e que esse prec¸o possa diferir ano a ano. Que efeito essa pol´ıtica teria na
identificac¸a˜o e estimac¸a˜o do modelo?
1
3. (Identificac¸a˜o atrave´s de restric¸o˜es na matriz de covariaˆncia)
Considere o seguinte sistema de equac¸o˜es sob as hipo´teses usuais
y1 = γ12y2 + ε1 (1)
y2 = γ21y1 + β21x1 + ε2 (2)
a) As equac¸o˜es (1) e (2) sa˜o identificadas se no´s na˜o fizermos nenhuma
suposic¸a˜o a respeito da distribuic¸a˜o de probabilidade, exceto que E (ε1|x1) =
E (ε2|x1) = 0?
b) Mostre que se a covariaˆncia dos erros e´ zero, enta˜o ambas as equac¸o˜es sa˜o
identificadas.
4. (Estimac¸a˜o e teste de especificac¸a˜o para o modelo de equac¸o˜es simultaˆneas)
Voceˆ tem um sistema com treˆs equac¸o˜es, no qual cada equac¸a˜o e´ identificada.
y1 = Y1γ1 +X1β1 + ε1 (1)
y2 = Y2γ2 +X2β2 + ε2 (2)
y3 = Y3γ3 +X3β3 + ε3 (3)
onde εt ∼ N (0,Σ) . Seja X = [X1,X2,X3] .
Voceˆ esta´ confiante de que a especificac¸a˜o das duas primeiras equac¸o˜es esta´
correta, mas na˜o tem certeza se E [X 0tε3t] = 0. Para construir um teste, voceˆ
decide rodar uma regressa˜o de mı´minos quadrados em dois esta´gios em cada
equac¸a˜o e compara´-la com os resultados de mı´minos quadrados em treˆs esta´gios
para o sistema todo.
a) Explique intuitivamente por que voceˆ pode construir um teste de es-
pecificac¸a˜o a partir desse procedimento, demonstrando o efeito da especificac¸a˜o
incorreta.
b) Para construir um teste formal, voceˆ considera as estimativas de cada
equac¸a˜o
δi =
·
γˆi
βˆi
¸
e constro´i a estat´ıstica
W =
·
δˆ1
δˆ2
¸
2SLS
−
·
δˆ1
δˆ2
¸
3SLS
Construa um teste assinto´tico sob a hipo´tese nula de que a especificac¸a˜o esta´
correta, incluindo os graus de liberdade apropriados.
c) Voceˆ pode pensar num teste baseado numa estrate´gia de estimac¸a˜o mais
eficiente?
2
5. (Estimac¸a˜o por ma´xima verossimilhanc¸a de modelos de equac¸o˜es si-
multaˆneas)
Considere o modelo Keynesiano simplificado
Ct = αYt + ut
Yt = It + Ct
onde C denota o consumo, Y a renda e I o investimento (exo´geno). Todas as
varia´veis sa˜o transformadas de modo que tenham me´dia zero e ut
i.i.d.∼ N
¡
0, σ2
¢
a) Mostre que MQO na equac¸a˜o Ct = αYt + ut conduz a uma estimativa
inconsistente de α. O p lim e´ muito grande ou muito pequeno? Como o seu
resultado pode ser comparado com o caso em que ha´ erros de medida no regres-
sor?
b) Escreva a func¸a˜o de log-verossimilhanc¸a para uma amostra de tamanho
T como uma func¸a˜o de α e σ2. Calcule a matriz de informac¸a˜o (assinto´tica)
para α e σ2 (Defina M = lim 1T
PT
t=1 I
2
t )
c) Inverta a matriz de informac¸a˜o e determine o limite da distribuic¸a˜o
de
αˆMLE . Verifique que o estimador de varia´veis instrumentais αˆIV , que utiliza
como instrumento It, e´ assintoticamente eficiente. Isso e´ esperado? Compare o
estimador de ma´xima verossimilhanc¸a e o estimador de varia´veis instrumentais
em amostras finitas.
d) Suponha que σ2 seja conhecido. Mostre que a reduc¸a˜o percentual na
variaˆncia da distribuic¸a˜o assinto´tica para αˆ e´ 2σ
2
M+2σ2 se ma´xima verossimilhanc¸a
for usada. (Dica: Compute o limite inferior de Crame´r-Rao). Derive o estimador
de ma´xima verossimilhanc¸a nesse caso.
6. (Me´todo dos momentos cla´ssico, me´todo generalizado dos momentos)
A distribuic¸a˜o gama tem a seguinte func¸a˜o de densidade:
f (x|α, β) =
(
βα
Γ(α)x
α−1e−βx para x > 0
0 caso contra´rio
na qual α e β sa˜o paraˆmetros positivos e Γ (α) e´ a func¸a˜o gama definida como
Γ (α) =
R∞
0
xα−1e−xdx
Suponha que X1, ...,Xn seja uma amostra de varia´veis aleato´rias i.i.d. de
uma distribuic¸a˜o gama com paraˆmetros desconhecidos α e β.
a) Prove que para uma varia´vel aleato´ria X com distribuic¸a˜o gama
E
¡
Xk
¢
=
α (α+ 1) ... (α+ k − 1)
βk
3
b) Os dois primeiros momentos sa˜o 1n
Pn
i=1Xi = 7, 29 e
1
n
Pn
i=1X
2
i = 85, 59.
Derive o estimador do me´todo de momentos de
·
α
β
¸
baseado nos dois primeiros
momentos e calcule as estimativas. Derive a distribuic¸a˜o assinto´tica do esti-
mador.
c) Suponha que os dois primeiros momentos amostrais sejam como em b).
Mas agora no´s tambe´m consideramos o terceiro momento. Usando as estima-
tivas de b), descreva em linhas gerais como voceˆ estimaria α e β utilizando o
me´todo generalizado dos momentos com a matriz o´tima de ponderac¸a˜o. Escreva
a fo´rmula para a distribuic¸a˜o assinto´tica do estimador e fornec¸a um estimador
consistente da variaˆncia assinto´tica.
7. Seja (X1, Y1) , ..., (Xn, Yn) uma amostra aleato´ria de uma distribuic¸a˜o
normal bivariada com coeficiente de correlac¸a˜o ρ. O coeficiente de correlac¸a˜o
amostral e´ definido como
rn =
Pn
i=1
¡
Xi − X¯
¢ ¡
Yi − X¯
¢nPn
i=1
¡
Xi − X¯
¢2 ¡
Yi − X¯
¢2o1/2
Prove que √
n (rn − ρ)
d→ N
³
0,
¡
1− ρ2
¢2´
Assuma, por simplicidade, que as me´dias sejam iguais a 0 e as variaˆncias iguais
a 1.
8. Suponha que o modelo econome´trico postule um conjunto deM condic¸o˜es
de ortogonalidade:
E [f (xt, β0)] = 0
onde β0 e´ um vetor de paraˆmetros K × 1 (K ≤M) . Adicionalmente, suponha
que no´s desejemos testar um conjunto de restric¸o˜es envolvendo β0 : r (β0) = 0.
Para tanto, estimamos num primeiro esta´gio os paraˆmetros impondo a restric¸a˜o,
a partir de
βˆR = argmin
{β:r(β)=0}
QT (β) = argmin
{β:r(β)=0}
gT (β)
0 V −10 gT (β)
onde V0 denota a matriz de variaˆncia covariaˆncia de f (xt, β0) e
gT (β) = 1T
PT
t=1 f (xt, β) .
i) Seja βˆ o estimador irrestrito do me´todo generalizado dos momentos e Vˆ
um estimador consistente de V0. Mostre que
MC = Tmin
α
³
βˆ − r (α)
´0
d0T Vˆ
−1dT
³
βˆ − r (α)
´
= T
³
βˆ − βˆR
´0
d0T Vˆ
−1dT
³
βˆ − βˆR
´
4
para dT =
∂gT (β)
∂β .
ii) Prove que
βˆR = βˆ −
³
d0T Vˆ
−1dT
´−1
Rˆ0
·
Rˆ
³
d0T Vˆ
−1dT
´−1
Rˆ0
¸−1
rˆ
para
Rˆ = R
³
βˆ
´
=
∂r
³
βˆ
´
∂β
5
Econometria/listas/lista7sol.pdf
Universidade de Sa˜o Paulo - Departamento de Economia
EAE 5811 - Econometria I
Prof. Dr. Ricardo Avelino
1o Semestre de 2007
Lista de Exerc´ıcios 7 - Soluc¸o˜es
Monitoras: Paula Pereda
Jaqueline de Oliveira
1) Assumimos que as varia´veis y1, y2, e y3 sa˜o endo´genas e que x1, x2, e x3
sa˜o exo´genas. O sistema pode ser reescrito por
£
y1 y2 y3
¤ 1 0 y31y12 1 0
y13 y23 1

+
£
x1 x2 x3
¤ β11 0 00 β22 β32
β13 β23 0

 =


ε1
ε2
ε3


A condic¸a˜o de ordem considera que a condic¸a˜o necessa´ria para a identificac¸a˜o
da equac¸a˜o j e´ que o nu´mero de varia´veis exo´genas exclu´ıdas da equac¸a˜o j seja ao
menos ta˜o grande quanto o nu´mero de varia´veis endo´genas inclu´ıdas na equac¸a˜o
j menos um. A tabela abaixo resume os resultados:
Primeira Equação y1 y2 y3 y2 
Segunda Equação y2 y3 y1 
Terceira Equação y1 y3 y1 y3 
Variáveis Endógenas 
Incluídas
Variáveis Exógenas 
Excluídas
Assim, a segunda e terceira equac¸o˜es satisfazem a condic¸a˜o de ordem, mas
a primeira na˜o.
Sejam A3 e A5 , respectivamente, os coeficientes das j − 1 equac¸o˜es das
varia´veis endo´genas e exo´genas exclu´ıdas da equac¸a˜o j. A condic¸a˜o de posto diz
que a condic¸a˜o suficiente para identificac¸a˜o e´:
posto
·
A3
A5
¸
=M − 1
onde M e´ o nu´mero de varia´veis endo´genas no sistema.
Para a segunda equac¸a˜o:
posto
·
A3
A5
¸
= posto
·
1 y31
β11 0
¸
= 2
Para a terceira equac¸a˜o:
posto
·
A3
A5
¸
= posto


y12 1
β11 0
β13 β23

 = 2
1
Portanto, ambas as equac¸o˜es satisfazem a condic¸a˜o de posto.
Consequentemente, a primeira equac¸a˜o e´ subidentificada, a segunda e´ ex-
atamente identificada e a terceira, sobreidentificada (uma vez que o nu´mero de
exo´genas exclu´ıdas excede o nu´mero de endo´genas inclu´ıdas menos um).
As u´ltimas duas equac¸o˜es podem ser estimadas por 2SLS. Sejam X uma ma-
triz Tx3 contendo as observac¸o˜es das varia´veis exo´genas, Yj uma matriz TxMj
contendo as observac¸o˜es das varia´veis endo´genas que aparecem na equac¸a˜o j,
com excec¸a˜o daquela cujo coeficiente e´ normalizado para um, e Xj uma matriz
TxKj contendo as observac¸o˜es das varia´veis exo´genas inclu´ıdas na equac¸a˜o j,
podemos escrever o estimador de 2SLS dos paraˆmetros da equac¸a˜o j como:
δˆ
2SLS
j =
·
Yˆj´ Yˆj Yˆj´Xj
Xj´ Yˆj Xj´Xj
¸−1 ·
Yˆj´yj
Xj´yj
¸
onde
ˆ
Y j = X(X´X)−1X´Yj e yj e´ um vetor Tx1 contendo as observac¸o˜es da
varia´vel endo´gena cujo coeficiente foi normalizado para um.
O estimador 2SLS consistente se baseia nas seguintes hipo´teses:
(i) p lim
1
T


ˆ
Y j´
ˆ
Y j
ˆ
Y j´Xj
Xj´
ˆ
Y j Xj´Xj

 = Σ
sendo Σ uma matriz finita na˜o-singular.
(ii) p lim
1
T
"
ˆ
Y j´
Xj´
#
ε = 0
onde ε e´ o vetor de res´ıduos da equac¸a˜o j.
2) a)
Equac¸a˜o de oferta: q − α1p = α0 + α2ω + µs
Equac¸a˜o de demanda : q − β1p = β0 + β2y + µ0
Condic¸o˜es de ordem para identificac¸a˜o: K∗j ≥ Mj , isto e´, o nu´mero de
varia´veis exo´genas exclu´ıdas deve ser pelo menos ta˜o grande quanto o nu´mero
de varia´veis endo´genas inclu´ıdas na j-e´sima equac¸a˜o.
Tanto na equac¸a˜o de oferta quanto na de demanda, K∗j =Mj , de forma que
ambas satisfazem as condic¸o˜es de ordem.
Condic¸o˜es de posto para identificac¸a˜o: Posto
·
A3
A5
¸
=M − 1
Rearranjando o sistema horizontalmente, obtemos:
£
q p
¤ · 1 1
−α1 −β1
¸
=
£
1 ω y
¤α0 β0α2 0
0 β2

+
£
µs µd
¤
2
Equac¸a˜o de oferta:
posto
·
A3
A5
¸
= posto
£
β2
¤
= 1
posto
·
A3
A5
¸
= posto
£
α2
¤
= 1
Assim, ambas as equac¸o˜es satisfazem as condic¸o˜es de posto e, comoK∗j =Mj
em ambos os casos, sa˜o exatamente identificadas.
b)
£
q p
¤
=
£
1 ω y
¤α0 β0α2 0
0 β2


·
1 1
−α1 −β1
¸−1
+
£
µs µd
¤ · 1 1
−α1 −β1
¸−1
=⇒
£
q p
¤
=
1
α1 − β1
£
1 ω y
¤α0 β0α2 0
0 β2


·
β1 −1
α1 −1
¸
+
1
α1 − β1
£
µs µd
¤ ·β1 −1
α1 −1
¸
=⇒
£
q p
¤
=
1
α1 − β1
£
1 ω y
¤α0β1 + β0α1 −α0 − β0β1α2 −α2
α1β2 −β2


+
1
α1 − β1
£
β1µs + α1µd −µs − µd
¤
Seja
Π =


Π11 Π12
Π21 Π22
Π31 Π32

 =


α0β1 + β0α1 −α0 − β0
β1α2 −α2
α1β2 −β2


A restric¸a˜o α2 = 0 impo˜e que Π21 = Π22 = 0 na matriz de paraˆmetros da
forma reduzida.
Como ambas as equac¸o˜es sa˜o exatamente identificadas, mı´nimos quadra-
dos indiretos sa˜o eficientes. Seja zt =
£
qt pt
¤
, xt =
£
1 ωt yt
¤
, Z =£
Z01 Z02 ... Z0T
¤0
eX =
£
X 01 X 02 ... X 0T
¤0
. Enta˜o, o estimador de mı´nimos
quadrados indiretos de Π pode ser escrito como:
Πˆ = (X 0X)−1 (X 0Y )
Um teste da hipo´tese de que H0 : α2 = 0 contra H1 : α2 6= 0 pode ser
baseada num teste Wald. Seja R =
£
0 1 0
¤
. Assim,
H0 : α2 = 0 =⇒ H0 : RΠ = 0
H1 : α2 6= 0 =⇒ H1 : RΠ 6= 0
3
A estat´ıstica do teste e´ dada por:
W =
³
RΠˆ
´0 h
RV ar
³
Πˆ
´
R0
i ³
RΠˆ
´
˜χ21
Rejeitamos a hipo´tese nula se W > χ21−α,1
c) No caso de equac¸o˜es exatamente identificadas, o estimador o´timo se reduz
ao estimador de mı´nimos quadrados indiretos equac¸a˜o por equac¸a˜o. Como o
estimador e´ consistente e a teoria estabelece que α1 > 0 e β1 < 0, exceto pela
da variabilidade aleato´ria, a inspec¸a˜o do sinal de α1 fornece uma forma simples
de determinar se a a equac¸a˜o e´ uma curva de ofeta ou de demanda.
d) Se a ageˆncia governamental fixa o prec¸o a cada ano em p0y, p na˜o sera´
mais correlacionado com os termos de erro. Assim, ambas as equac¸o˜es podem
ser consistentemente estimadas por OLS neste caso.
3.a) Se fizermos as seguintes suposic¸o˜es sobre a distribuic¸a˜o de probabili-
dade, exceto que E(ε1/x1) = E(ε2/x2), as u´nicas restric¸o˜es dispon´ıveis sa˜o as
restric¸o˜es de exclusa˜o.
A segunda equac¸a˜o e´ claramente subidentificada, uma vez que na˜o satisfaz a
condic¸a˜o de ordem. Na˜o ha´ varia´veis exo´genas exclu´ıdas da equac¸a˜o e ha´ duas
varia´veis endo´genas inclu´ıdas.
A primeira equac¸a˜o satisfaz a condic¸a˜o de ordem porque ha´ uma varia´vel
exo´gena exclu´ıda, que e´ o mesmo nu´mero de varia´veis endo´genas inclu´ıdas menos
um.
Partindo para a condic¸a˜o de posto para a primeira equac¸a˜o, temos:
posto
·
A3
A5
¸
= posto(β21) = 1 = n
o endo´genas-1
Portanto, a primeira equac¸a˜o e´ exatamente identificada.
Escrevendo o sistema horizontalmente, obtemos:£
y1 y2
¤ · 1 −y21
−y12 1
¸
+ x1
£
0 β21
¤
=
£
ε1 ε2
¤
Seja F =
·
f11 f12
f21 f22
¸
, uma matriz na˜o-singular. Ambas as equac¸o˜es sa˜o
identificadas se e somente se F = I. Pos-multiplicando o sistema por F , temos:£
y1 y2
¤ · 1 −y21
−y12 1
¸ ·
f11 f12
f21 f22
¸
+ x1
£
0 β21
¤ · f11 f12
f21 f22
¸
=
£
ε1 ε2
¤ · f11 f12
f21 f22
¸
F e´ admiss´ıvel se e somente se:
(1) :
·
1 −y21
−y12 1
¸ ·
f11 f12
f21 f22
¸
=
·
1 a12
a21 1
¸
4
(2) :
£
0 β21
¤ · f11 f12
f21 f22
¸
=
£
0 b12
¤
(3) : E
µ·
f11 f21
f12 f22
¸ ·
ε1
ε2
¸ £
ε1 ε2
¤ · f11 f12
f21 f22
¸¶
=
·
c11 0
0 c22
¸
Segue de (2) que β21.f21 = 0, o que implica que f21 = 0.
A equac¸a˜o 1 implica que:·
f11 − y21f21 f12 − y21f22
f21 − y12f11 f22 − y12f12
¸
=
·
1 a12
a21 1
¸
·
f11 f12 − y21f22
−y12f11 f22 − y12f12
¸
=
·
1 a12
a21 1
¸
⇒ f11 = 1
Finalmente, a equac¸a˜o 3 implica que:·
1 0
f21 f22
¸ ·
σ11 0
0 σ22
¸ ·
1 f12
0 f22
¸
=
·
c11 0
0 c22
¸
⇒·
σ11 0
f21σ11 f22σ22
¸ ·
1 f12
0 f22
¸
=
·
c11 0
0 c22
¸
·
σ11 σ11f12
f21σ11 f212σ11 + f
2
22σ22
¸
=
·
c11 0
0 c22
¸
⇒ f12 = 0
Mas se f12 = 0, segue de (1) que f22 = 1. Assim, a u´nica matriz admiss´ıvel
seria a matriz identidade, como quer´ıamos demonstrar.
4) a) Esta e´ uma aplicac¸a˜o particular do teste de especificac¸a˜o de Haussman.
Sob a hipo´tese nula, 3SLS para todo o sistema e´ consistente e assintoticamente
eficiente, enquanto que 2SLS para todo o sistema e´ consistente mas assintoti-
camente ineficiente, ja´ que ignora a correlac¸a˜o entre os termos de erro das treˆs
equac¸o˜es.
Por outro lado. sob as hipo´tese alternativa, estimac¸a˜o de 2SLS equac¸a˜o
por equac¸a˜o permanece consistente, mas 3SLS se torna inconsistente. Para
ver isto, defina Y =
£
Y1 Y2 Y3
¤
, y =
£
y
0
1 y
0
2 y
0
3
¤0
, Z =
£
Yi Xi
¤
e ε =£
ε
0
1 ε
0
2 ε
0
3
¤
.
O sistema pode ser expresso como
y =


Z1 0 0
0 Z2 0
0 0 Z3




S1
S2
S3

+


ε1
ε2
ε3

 , onde Si =
·
γi
βi
¸
Agora, seja W =


X 0 0
0 X 0
0 0 X

 uma matriz de instrumentos e Σ = V (εt|Z).
5
O estimador 3SLS e´ igual a
δˆ3SLS = (Z
0 (Σ⊗ PX)Z)−1 Z0 (Σ⊗ PX) y
= δ + (Z 0 (Σ⊗ PX)Z)−1 Z0 (Σ⊗ PX) ε
Como Z inclui Xt e ε inclui ε3t, no limite o segundo termo do lado direito
da igualdade na˜o tende a zero sob a hipo´tese alternativa, ja´ que E(X 0tε3t) 6= 0.
b)
Ho : E [X 0tε3t] = 0
H1 : E [X 0tε3t] 6= 0
O teste e´ baseado em
W 0
³
V ar
h
δˆ2SLS
i
− V ar
h
δˆ3SLS
i´
W˜χ2k
onde k e´ o nu´mero de paraˆmetros estimados,
V ar
h
δˆ2SLS
i
=
³
Z0iX (X
0X)−1X 0Zi
´
, i = 1, 2, 3
e
V ar
h
δˆ3SLS
i
= (Z0 (Σ⊗ PX)Z)−1
c) Sob a hipo´tese alternativa, 3SLS restrito a`s primeiras duas equac¸o˜es
produz estimadores assintoticamente eficientes. Assim, podemos estimar as
primeiras duas equac¸o˜es por 3SLS e estimar a terceira por 2SLS e comparar os
estimadores resultantes com aqueles resultantes da estimac¸a˜o de todo o sistema
por 3SLS, procedendo de forma similar ao descrito no item anterior.
5) a) Seja αˆOLS o estimador de OLS para α,
αˆOLS = (Y Y´ )
−1Y C´ = (Y Y´ )−1Y (´αY + U) = α+ (Y Y´ )−1Y U´
Enta˜o, o p lim de αˆOLS e´:
p lim(αˆOLS) = α+
·
p lim
(Y Y´ )
T
¸−1
p lim
·
Y U´
T
¸
Mas p lim
£
Y U´
T
¤
= Cov(Yt, Ut) e
Cov(Yt, Ut) = COV (It + Ct, Ut) = COV (Ct, Ut) (1)
Cov(Ct, Ut) = COV (αYt + Ut, Ut) = αCOV (Yt, Ut) + V AR(Ut) (2)
De (1) e (2), Cov(Yt, Ut) =
V AR(Ut)
1−α =
σ2
1−α 6= 0, o que completa a prova.
6
Suponha agora que Yt e´ exo´geno, mas e´ medido com erro. Em particular,
suponha que observamos apenas Y ∗t e que:
Y ∗t = Yt + vt,
E(vt) = E(vtut) = E(vtYt) = 0,
E(v2t ) = σ
2
v
Neste caso, podemos reescrever o modelo como:
Ct = α(Y ∗t − vt) + ut = αY ∗t + (ut − αvt)
O estimador de OLS para α sera´:
αˆ∗OLS = (Y
∗´Y ∗)−1Y ∗´C = (Y ∗´Y ∗)−1Y ∗´(αY ∗ + U − αV )
= α+ (Y ∗´Y ∗)−1Y ∗´(U − αV )
Consequentemente,
p lim(αˆ∗OLS) = α+
·
p lim
(Y ∗´Y ∗)
T
¸−1
p lim
·
Y ∗´(U − αV )
T
¸
p lim
·
(Y + V )´(U − αV )
T
¸
= −ασ2V
Enta˜o,
p lim(αˆ∗OLS) = α− α
σ2V
σ2Y ∗
, pois σ2Y ∗ = p lim
(Y ∗´Y ∗)
T
⇒ p lim(αˆ∗OLS) = α− α
σ2V
σ2Y + σ
2
V
= α
σ2Y
σ2Y + σ
2
V
=
α
1 +
σ2V
σ2Y
< α
Enta˜o, o erro de medida na varia´vel explicativa produz um vie´s de atenuac¸a˜o.
Por outro lado, se Y na˜o e´ medido com erro, mas e´ endo´geno,
p lim(αˆ∗OLS) = α+
σ2
(1− α)σ2Y
> α
Contanto que α esteja entre zero e um. Assim, no caso de equac¸o˜es si-
multaˆneas, p lim(α) e´ muito grande.
b) A densidade conjunta de (u1, ...,uT ) e´
f(u1,..., uT ) = Π
1√
2πσ2
exp
µ
−1
2
u2t
σ2
¶
Mas uT = Ct − αYt ⇒ uT = Yt − It − αYt ⇒ uT = (1− α)Yt − It.
7
Como ∂uT∂Yt = (1− α), a densidade conjunta de (Y1,...,
YT ) sera´:
f(Y1,..., YT ) = Π
1√
2πσ2
(1− α) exp
µ
−1
2
((1− α)Yt − It)2
σ2
¶
⇒ lnL(α, σ2) = −T
2
ln(2π)− T
2
ln(σ2) + T ln(1− α)
−1
2
Xµ((1− α)Yt − It)2
σ2
¶
As derivadas primeiras sa˜o:
∂ lnL(α, σ2)
∂α
= − T
(1− α) +
1
σ2
X¡
(1− α)Y 2t − ItYt
¢
(3)
∂ lnL(α, σ2)
∂σ2
= − T
2σ2
+
1
2σ4
X
((1− α)Yt − It)2 (4)
As derivadas segundas sa˜o:
∂2 lnL(α, σ2)
∂α2
= − T
(1− α)2 +
1
σ2
X¡
Y 2t
¢
∂2 lnL(α, σ2)
∂ (σ2)2
=
T
2σ4
− 1
σ6
X
((1− α)Yt − It)2
∂2 lnL(α, σ2)
∂ (σ2) ∂α
= − 1
σ4
X¡
(1− α)Y 2t − ItYt
¢
Seja θ´ = (α σ2)´. A matriz de informac¸a˜o assinto´tica de θ sera´ igual a:
p lim
1
T
"
−∂
2 lnL(α,σ2)
∂α2 −
∂2 lnL(α,σ2)
∂(σ2)∂α
−∂
2 lnL(α,σ2)
∂(σ2)∂α −
∂2 lnL(α,σ2)
∂(σ2)2
#
= p lim
1
T
· T
(1−α)2 −
1
σ2
P¡
Y 2t
¢
1
σ4
P¡
(1− α)Y 2t − ItYt
¢
1
σ4
P¡
(1− α)Y 2t − ItYt
¢
− T2σ4 +
1
σ6
P
((1− α)Yt − It)2
¸
=
· 1
(1−α)2 −
1
σ2E
¡
Y 2t
¢
1
σ4
£
(1− α)E(Y 2t )−E(ItYt)
¤
1
σ4
¡
(1− α)E(Y 2t )−E(ItYt)
¢
− 12σ4 +
1
σ6E(ut
2)
¸
Como ut = (1− α)Yt − It ⇒ Yt = ut+It(1−α)
Enta˜o,
E(Y 2t ) = E
µ
ut + It
(1− α)
¶2
=
σ2 +M
(1− α)2 , e
E(YtIt) = E
µµ
ut + It
(1− α)
¶
It
¶
=
M
(1− α) ,
8
Enta˜o,
I(θ) =
"
2σ2+M
σ2(1−α)2
1
σ2(1−α)
1
σ2(1−α)
1
2σ4
#
c)
[I(θ)]−1 =
1
2σ2+M
2σ6(1−α)2 −
1
σ4(1−α)2
"
1
2σ4 −
1
σ2(1−α)
− 1σ2(1−α)
2σ2+M
σ2(1−α)2
#
=
2σ6(1− α)2
M
"
1
2σ4 −
1
σ2(1−α)
− 1σ2(1−α)
2σ2+M
σ2(1−α)2
#
Desta maneira,
√
n(αˆ− α) d−→ N
µ
0,
σ2(1− α)2
M
¶
⇒ αˆMLE
d−→ N
µ
α,
σ2/T (1− α)2
M
¶
O estimador de Variaveis Instrumentais de α e´ igual a:
αˆV I = (I
0Y )−1I 0C = (I 0Y )−1I 0(αY + U) = α+ (I 0Y )−1I 0U
onde I 0U =
TX
t=1
ItUt, E(ItUt) = 0 e E(I 0tUtU 0tIt) = σ2M.
Enta˜o,
√
T I
0U
T
d−→ N(0, σ2M), o que implica que:
√
n(αˆV I − α) =
µ
I 0Y
T
¶−1 I 0U√
T
d−→ N
"
0, σ2
µ
M
(1− α)
¶−1
M
µ
M
(1− α)
¶−1#
⇒
√
n(αˆV I − α)
d−→ N
µ
0,
σ2(1− α)2
M
¶
⇒ αˆV I
d−→ N
µ
α,
σ2/T (1− α)2
M
¶
Como a matriz de var-covariaˆncia assinto´tica do estimador de VI e´ igual a`
matriz de var-covariaˆncia assinto´tica do estimador de ma´xima verossimilhanc¸a,
o estimador de varia´veis instrumentais e´ assintoticamente eficiente.
Segue da condic¸a˜o de primeira ordem (3) que αˆMLE resolve:
T
(1− α) =
1
σ2
[(1− α)Y − I]0 Y
(30) ⇒ (1− α)2Y 0Y − (1− α)I 0Y = σ2T
9
Segue da condic¸a˜o de primeira ordem (4) que σˆ2MLE resolve:
T
2σ2
=
1
2σ4
[(1− α)Y − I]0 [(1− α)Y − I]
(40) ⇒ σ2T = (1− α)2Y 0Y − 2(1− α)Y 0I + I 0I
As equac¸o˜es (3’) e (4’) implicam que:
(1− α)2Y 0Y − 2(1− α)Y 0I + I 0I = (1− α)2Y 0Y − (1− α)I 0Y ⇒
(1− α) = (I 0Y )−1 I 0I =⇒
αˆMLE = 1− (I 0Y )−1 I 0I
= (I 0Y )−1 I 0Y − (I 0Y )−1 I 0I =⇒
ˆ
αMLE = (I 0Y )
−1 I 0C =
ˆ
αV I
Enta˜o, os estimadores de VI e MLE sa˜o ideˆnticos. Logo, eles sa˜o igualmente
bons para pequenas amostras tambe´m.
d) Se σ2 na˜o e´ conhecido, a matriz de informac¸a˜o assinto´tica e´ reduzida a
um elemento apenas, ou seja:
I(θ) = I(α) =
·
p lim
1
T
− ∂
2 lnL
∂α2
¸
=
·
2σ2 +M
σ2(1− α)2
¸
Como foi mostrado no item anterior, a matriz de variaˆncia assinto´tica de
ˆ
αMLE e´ dada por:
T−1 [I(α)]−1 = T−1
·
σ2(1− α)2
2σ2 +M
¸
O percentual de decre´scimo da distribuic¸a˜o assinto´tica de
ˆ
α e´:h
σ2(1−α)2
TM −
σ2(1−α)2
2σ2+M
1
T
i
σ2(1−α)2
TM
=
h
σ2(1−α)2(2σ2+M−M)
M(2σ2+M)
i
σ2(1−α)2
M
=
2σ2
2σ2 +M
6) a)
E(Xk) =
Z ∞
0
xk
βα
Γ(α)
xα−1e−βxdx
=
1
Γ(α)
Z ∞
0
xk+α−1βαe−βxdx
10
Seja u = xk+α−1 e dv = e−βx, o que implica que du = (k + α− 1)xk+α−1 e
v = − 1
β
e−βx. Integrando por partes, temosZ ∞
0
xk+α−1e−βxdx = −xk+α−1 e
−βx
β
|∞0 +
Z ∞
0
1
β
e−βx(k + α− 1)xk+α−2dx
=
1
β
(k + α− 1)
Z ∞
0
e−βxxk+α−2dx
Procedendo de forma similar, depois de k passos, temosZ ∞
0
xk+α−1e−βxdx =
1
βk
(k + α− 1)(k + α− 2)...(α+ 1)α
Z ∞
0
e−βxxα−1dx
Assim,
E(Xk) =
βα
Γ(k)
1
βk
(k + α− 1)(k + α− 2)...(α+ 1)α
Z ∞
0
e−βxxα−1dx
=
.(α+ 1)α...(α+ k − 1)
βk
b) Os primeiros dois momentos da distribuic¸a˜o gama sa˜o respectivamente
α
β
e
α(α+ 1)
β2
.
O estimador do me´todo dos momentos de
·
α
β
¸
seleciona α e β de forma a
igualar os momentos amostrais aos momentos populacionais. Assim,
µˆ1 =
αˆ
βˆ
(1)
µˆ2 =
αˆ(αˆ+ 1)
βˆ
2 (2)
Equac¸a˜o (1) implica que βˆ
2
=
αˆ2
µˆ1
. Substituindo βˆ em (2),
µˆ2 =
αˆ2 + αˆ
αˆ2
µˆ21 =
µ
1 +
1
αˆ
¶
µˆ21 =⇒
1
αˆ
=
µˆ2
µˆ21
− 1
=⇒ αˆ = µˆ
2
1
µˆ2 − µˆ21
e βˆ =
µˆ21
µˆ2 − µˆ21
1
µˆ1
=
µˆ1
µˆ2 − µˆ21
Substituindo pelos valores dos primeiros dois momentos:
αˆ =
7, 292
85, 59− 7, 292 =
53, 1441
85, 59− 53, 1441 =
53, 1441
32, 4459
= 1, 63
βˆ =
7, 29
85, 59− 7, 292 =
αˆ
7, 29
=
1, 63
7, 29
= 0, 22
11
Seja θˆ =
µ
αˆ
βˆ
¶
e m(θˆ) =
µ
µˆ1
µˆ2
¶
∂θˆ
∂m
=


2µˆ1
µˆ2 − µˆ21
+
µˆ21
(µˆ2 − µˆ21)2
− µˆ
2
1
(µˆ2 − µˆ21)2
1
µˆ2 − µˆ21
+
2µˆ21
(µˆ2 − µˆ21)2
− µˆ1
(µˆ2 − µˆ21)2


=


µˆ21 + 2µˆ1µˆ2 − 2µˆ31
(µˆ2 − µˆ21)2
− µˆ
2
1
(µˆ2 − µˆ21)2
µˆ2 + µˆ
2
1
(µˆ2 − µˆ21)2
− µˆ1
(µˆ2 − µˆ21)2


Como
√
n
µ·
µˆ1
µˆ2
¸
−
·
µ1
µ2
¸¶
d→ N(0,Σ)
onde
Σ = E
·
x21 − µ21 (x1 − µ1)(x21 − µ2)
(x1 − µ1)(x21 − µ2) x41 − µ21
¸
= E
·
µ2 − µ21 x31 − x1µ2 − µ1x21 + µ1µ2
x31 − x1µ2 − µ1x21 + µ1µ2 µ4 − µ22
¸
=
·
µ2 − µ21 µ3 − 2µ1µ2 + µ1µ2
µ3 − 2µ1µ2 + µ1µ2 µ4 − µ22
¸
√
n(θˆ − θ) d→ N(0, AΣA0) =⇒ θˆ˜N(θ, n−1AΣA0)
onde A =
∂θˆ
∂m
|µˆ=µ
c) Condic¸o˜es de ortogonalidade
E [g (θ, ωi)] = E


µ1 − α/β
µ2 − α(α+ 1)/β2
µ3 − α(α+ 1)(α+ 2)/β3

 = 0
O estimador de GMM e´ igual a
θˆ
GMM
n = argmin
θ
·
1
n
nP
i=1
g(θ, ωi)
¸0
Ωˆ−1
·
1
n
nP
i=1
g(θ, ωi)
¸
onde Ωˆ e´ uma estimativa consistente de
1
n
·
nP
i=1
g(θ, ωi)
¸ ·
nP
i=1
g(θ, ωi)
¸0
, obtida,
por exemplo, de
θˆ
inicial
n = argmin
θ
·
1
n
nP
i=1
g(θ, ωi)
¸0 ·
1
n
nP
i=1
g(θ, ωi)
¸
12
calculando g(θˆ
inicial
n , ωi) para cada i, e enta˜o calculando uma estimativa consis-
tente de Ω usando o Newey-West.
A distribuic¸a˜o assinto´tica de θˆ
GMM
n e´ igual a
√
n(θˆ
GMM
n − θ)
d→ N(0, (G0Ω−1G)−1)
Uma estimativa consistente de G = E
µ
1
n
nP
i=1
∇θg(θ, ωi)
¶
e´
1
n
nP
i=1
∇θg(θ, ωi)
7) Seja
rn =
P³
Xi −X
´³
Yi − Y
´
·P³
Xi −X
´2P³
Yi − Y
´2¸1/2 = X 0MiY(X 0MiX)1/2 (Y 0MiY )1/2
ondeMi = I−i0(i0i)−1i e´ uma matriz idempotente, que centra o vetor na me´dia.
Assim, o limite de probabilidade de rn e´:
p lim
"
X 0MiY
(X 0MiX)
1/2
(Y 0MiY )
1/2
#
= p lim
"
X0MiY
n¡
X0MiX
n
¢1/2 ¡Y 0MiY
n
¢1/2
#
=
Cov(X,Y )
[V AR(X)V AR(Y )]1/2
= ρ
Portanto rn e´ um estimador consistente para ρ.
(rn − ρ) =
P³
Xi −X
´³
Yi − Y
´
·P³
Xi −X
´2P³
Yi − Y
´2¸1/2 − ρ
Como (X, Y) seguem uma distribuicao normal bivariada, podemos escrever
Y em funcao de X como:
Yi = ρXi + ei
⇒ Yi − Y = ρ
³
Xi −X
´
+ (ei − e)
onde ei
d−→ N(0, 1).
13
Econometria/LLN.pdf
Universidade de Sa˜o Paulo - Departamento de Economia
EAE 5811 - Econometria I
Prof. Dr. Ricardo Avelino
1o Semestre de 2007
Leis dos Grandes Nu´meros
Teorema de Helly: para toda sequ¨eˆncia {Fn} de func¸o˜es de distribuic¸a˜o,
existe uma subsequ¨eˆncia
©
Fnj
ª
e uma func¸a˜o F cont´ınua a` direita, na˜o decres-
cente, tal que lim
j→∞
Fnj (x) = F (x) em todos os pontos de continuidade x de
F .
Prova: Seja Q = {q1, q2, ...} o conjunto de todos os nu´meros racionais. Como
a sequ¨eˆncia Fn (q1) esta´ contida no intervalo [0, 1], ela possui uma subsequ¨eˆncia
convergente. Chame a subsequ¨encia associada de
©
n1j
ª∞
j=1
e o limite de G (q1).
Em seguida, extraia uma subsequ¨eˆncia adicional
©
n2j
ª
⊂
©
n1j
ª
ao longo da qual
Fn (q2) converge para o limite G (q2), uma outra subsequ¨eˆncia
©
n3j
ª
⊂
©
n2j
ª
ao longo da qual Fn (q3) converge para o limite G (q3) , e assim por diante. A
“cauda” da sequ¨eˆncia diagonal nj := n
j
j pertence a toda sequ¨eˆncia n
i
j . Portanto,
Fnj (qi)→ G (qi) para todoi = 1, 2, .... Como cada Fn e´ na˜o decrescente, G (q) ≤
G (q0) se q ≤ q0. Defina
F (x) = inf
q>x
G (q)
Enta˜o, F e´ na˜o decrescente.
F e´ tambe´m cont´ınua a` direita em todo ponto x, pois, pela definic¸a˜o de
ı´nfimo, para todo ε > 0, existe q > x com
G (q)− ε < F (x)
o que implica que, para todo x ≤ y ≤ q,
0 < F (y)− F (x) < F (y)−G (q) + ε < ε
Continuidade de F em x implica, para todo ε > 0, a existeˆncia de q ≤ x ≤ q0
com G (q0)−G (q) < ε. Por monotonicidade, no´s temos G (q) ≤ F (x) ≤ G (q0)
e
G (q) = limFnj (q) ≤ lim inf Fnj (x) ≤ limFnj (q0) = G (q0)
Conclua que
¯¯
lim inf Fnj (x)− F (x)
¯¯
< ε. Como isso e´ verdade para todo
ε > 0 e resultado ana´logo pode ser obtido para lim sup, segue-se que Fnj (x)→
F (x) em todo ponto de continuidade de F.
Teorema da Continuidade de Le´vy: Seja fn (t) a func¸a˜o caracter´ıstica de Xn.
Se Xn
d→ X, enta˜o fn (t)→ f (t) , a func¸a˜o caracter´ıstica de X. Se fn (t)→ f (t)
e o limite da func¸a˜o e´ cont´ınua em t = 0, enta˜o Xn
d→ X e f (t) e´ a func¸a˜o
caracter´ıstica de X.
1
Prova: Como exp (itx) = cos (tx) + i sin (tx) e cos (tx) e sin (tx) sa˜o func¸o˜es
cont´ınuas limitadas de x, pelo Teorema de Helly-Bray, se Xn
d→ X, enta˜o
fn (t)→ f (t) .
Seja Fn a func¸a˜o de distribuic¸a˜o de Xn. {Fm} e´ uma subsequ¨eˆncia que
converge para G em todos os pontos de continuidade de G. G e´ uma func¸a˜o
limitada na˜o decrescente cont´ınua a` direita (G existe pelo Teorema de Helly).
Resta provar que G e´ uma func¸a˜o de distribuic¸a˜o e que f (t) e´ uma func¸a˜o
caracter´ıstica. Para qualquer 0 < v <∞,
R v
0
fm (t) dt =
R v
0
R
eitxdFm (x) dt =
R R v
0
eitxdtdFm (x) =
R eivx − 1
ix
dFm (x)
Por uma versa˜o extendida do Teorema de Helly-Bray (isto e´, Fn → G, na˜o
necessariamente uma func¸a˜o de distribuic¸a˜o, e g uma func¸a˜o cont´ınua tal que
g (+∞)− g (−∞) = 0 ⇒
R
gdFn →
R
gdG)
lim
m→∞
R eivx − 1
ix
dFm (x) =
R eivx − 1
ix
dG (x)
Ale´m disso, pelo “dominated convergence theorem”, lim
m→∞
R v
0
fm (t) dt =R v
0
lim
m→∞
fm (t) dt =
R v
0
f (t) dt.
R v
0
f (t) dt =
R eivx − 1
ix
dG (x)⇒ 1
v
R v
0
f (t) dt =
R eivx − 1
ixv
dG (x)
⇒ f (0) = lim
v→0
1
v
R v
0
f (t) dt =
R
lim
v→0
eivx − 1
ixv
dG (x)
=
R
lim
v→0
ixeivx
ix
dG =
R
dG = G (+∞)−G (−∞)
Como fm (0) = 1, isso implica que f (0) = lim
m→∞
fm (0) = 1; ou seja, G (+∞)−
G (−∞) = 1 e que G e´ uma func¸a˜o de distribuic¸a˜o. Como Fm → G, pelo Teo-
rema de Helly-Bray,
f (t) = lim
m→∞
fm (t) = lim
m→∞
R
eitxdFm =
R
eitxdG
Como G e´ uma func¸a˜o de distribuic¸a˜o, segue-se que f (t) e´ uma func¸ao carac-
ter´ıstica. Como f (x) e´ u´nica, G e´ u´nica para todas subsequ¨eˆncias convergentes
de Fn. Portanto, Fn → G.
Exemplo 1: Seja {Xn} uma sequ¨eˆncia de varia´veis aleato´rias tais que Xn ∼
χ2n, ∀n. A func¸a˜o caracter´ıstica associada a` sequ¨eˆncia {Xn} e´ dada por φXn (t) =
(1− 2it)−n/2 . Defina a sequ¨eˆncia aleato´ria Zn = (Xn − n) /
√
2n, com func¸a˜o
2
caracter´ıstica correspondente
φZn (t) = E
h
exp
³
it (Xn − n) /
√
2n
´i
= E
h
exp
³
itXn/
√
2n
´i
exp
µ
−it
r
n
2
¶
=
³
1− 2it/
√
2n
´−n/2
exp
µ
−it
r
n
2
¶
Portanto
lnφZn (t) = −
n
2
ln
³
1− 2it/
√
2n
´
− it
r
n
2
Mas
ln
³
1− 2it/
√
2n
´
=
−2i/
√
2n¡
1− 2it/
√
2n
¢%
t=0
t+
1
2
2/n¡
1− 2it/
√
2n
¢2
%
t=0
t2
− 2
3!
4i/
√
2n3¡
1− 2it/
√
2n
¢3
%
t=0
t3 + ...
=
−2i√
2n
t− 1
2
2
n
t2 + o
³
n−3/2
´
Logo,
lnφZn (t) = −
n
2
µ
−2i√
2n
t+
1
n
t2 + o
³
n−3/2
´¶
− it
r
n
2
= it
r
n
2
− 1
2
t2 + o
³
n−1/2
´
− it
r
n
2
= −1
2
t2 + o
³
n−1/2
´
→ −1
2
t2
Enta˜o,
lim
n→∞
φZn (t) = limn→∞
exp
¡
lnφZn (t)
¢
= exp
³
lim
n→∞
lnφZn (t)
´
= exp
µ
−1
2
t2
¶
que e´ a func¸a˜o caracter´ıstica de uma N (0, 1) . Portanto, pelo Teorema da Con-
tinuidade de Le´vy, Zn = (Xn − n) /
√
2n
d→ N (0, 1) .
Lei Fraca dos Grandes Nu´meros de Klinchine: Seja {Xn} uma sequ¨eˆncia de
varia´veis aleato´rias independentes e identicamente distribu´ıdas e suponha que
EXi = µ <∞,∀i. Enta˜o X¯n
P→ µ.
Prova: A func¸a˜o caracter´ıstica de Xi e´ dada por
φXi (t) = E exp (itXi) = 1 + tE [iXi exp (itXi)] |t=0 + o (t)
= 1 + itµ+ o (t)
3
Portanto,
φX¯n (t) = E exp
¡
itX¯n
¢
= E exp
Ã
it
n
nX
i=1
Xi
!
=
nY
i=1
E exp
µ
it
n
Xi
¶
=
·
φXi
µ
t
n
¶¸n
=
·
1 + i
t
n
µ+ o
µ
1
n
¶¸n
=
·
1 +
itµ+ o (1)
n
¸n
pois os X 0is sa˜o independentes e identicamente distribu´ıdos. Consequ¨entemente,
lim
n→∞
φX¯n (t) = exp
³
lim
n→∞
(itµ+ o (1))
´
= exp (itµ)
utilizando o fato de que
lim
n→∞
³
1 +
an
n
´n
= exp
³
lim
n→∞
an
´
A func¸a˜o exp (itµ) e´ a func¸a˜o caracter´ıstica de uma varia´vel constante µ.
Pelo teorema de Le´vy, X¯n converge em distribuic¸a˜o para µ. Convergeˆncia em
distribuic¸a˜o para uma constante e´ o mesmo que convergeˆncia em probabilidade.
Exemplo 2: Considere uma amostra de varia´veis aleato´rias {Xn} indepen-
dentes e identicamente distribu´ıdas com densidade dada por
f (x) =
½
2x−3 se x > 1
0 caso contra´rio
Note que a me´dia e´ igual a 2
E (X) =
Z ∞
1
x2x−3dx = −2x−1
¦∞
1
= 0− (−2) = 2
e que a variaˆncia na˜o existe, pois
E
¡
X2
¢
=
Z ∞
1
x22x−3dx = 2 lnxc∞1 =∞
Pela Lei dos Grandes Nu´meros de Klinchine, X¯n
P→ 2
Lei Fraca dos Grandes Nu´meros de Chebyshev: Seja E (Xi) = µi, V (Xi) =
σ2i , Cov (Xi,Xj) = 0, i 6= j . Enta˜o
lim
n→∞
1
n2
nX
i=1
σ2i = 0⇒ X¯n − µ¯n
P→ 0
para X¯n =
1
n
nX
i=1
Xi e µ¯n =
1
n
nX
i=1
µi.
4
Prova: Como xi e xj na˜o sa˜o correlacionados para todo i 6= j, V
¡
X¯n
¢
=
1
n2
nX
i=1
V (xi) =
1
n2
nX
i=1
σ2i . Pela desigualdade de Chebyshev,
P
¡¯¯
X¯n − µ¯n
¯¯
> ε
¢
≤
V
¡
X¯n
¢
ε2
=
1
ε2n2
nX
i=1
σ2i
Portanto,
0 ≤ lim
n→∞
P
¡¯¯
X¯n − µ¯n
¯¯
> ε
¢
≤ lim
n→∞
V
¡
X¯n
¢
ε2
= ε−2 lim
n→∞
1
n2
nX
i=1
σ2i = 0
Exemplo 3: Considere uma amostra de varia´veis aleato´rias {Xn} indepen-
dentes com distribuic¸a˜o de Bernoulli, isto e´,
f (xi) =
½
pi se x = 1
1− pi se x = 0
Como os X 0is na˜o sa˜o identicamente distribu´ıdos, na˜o podemos aplicar a Lei
dos Grandes Nu´meros de Klinchine. Mas note que V (Xi) = pi (1− pi) ≤ 0.25,
∀i. Consequ¨entemente,
lim
n→∞
1
n2
nX
i=1
σ2i ≤ lim
n→∞
0.25
n
= 0
e, pela Lei dos Grandes Nu´meros de Chebyshev, X¯n−µ¯n
P→ 0, para µ¯n = 1n
nX
i=1
pi
Lei Forte dos Grandes Nu´meros de Kolmogorov: Seja {Xn} uma sequ¨eˆncia
de varia´veis aleato´rias independentes e suponha que E (Xi) = µi e V (Xi) = σ
2
i .
Enta˜o
∞X
i=1
σ2i
i2
<∞⇒ X¯n − µ¯n
a.s→ 0
Lema (Desigualdade de Hajek-Renyi): Seja {Xn} uma sequ¨eˆncia de varia´veis
aleato´rias independentes e suponha que E (Xi) = 0 e V (Xi) = σ
2
i < ∞. Se
c1,c2, ... e´ uma sequ¨eˆncia na˜o crescente de constantes positivas, enta˜o para quais-
quer nu´meros inteiros positivos m,n (m < n) e ε > 0 arbitra´rio
P
µ
max
m≤i≤n
ci |Y1 + ...+ Yi| ≥ ε
¶
≤ 1
ε2
Ã
c2m
mX
i=1
σ2i +
nX
i=m+1
c2iσ
2
i
!
5
Lema (Kronecker): Seja {Xn} uma sequ¨eˆncia de nu´meros reais e {ak} uma
sequ¨eˆncia de nu´meros positivos que cresce para infinito. Enta˜o
∞X
n=1
xn
an
≤ ∞⇒ 1
an
nX
j=1
xj → 0
Prova: Seja Yi = Xi − µi. Pela desigualdade de Hajek-Renyi,
P
µ
max
m≤i≤n
ci |Y1 + ...+ Yi| ≥ ε
¶
≤ 1
ε2
Ã
c2m
mX
i=1
σ2i +
nX
i=m+1
c2iσ
2
i
!
Escolha ci = 1/i. Nesse caso,
P
µ
max
m≤i≤n
¯¯
Y¯i
¯¯
≥ ε
¶
≤ 1
ε2
Ã
1
m2
mX
i=1
σ2i +
nX
i=m+1
σ2i
i2
!
Portanto,
lim
n→∞
P
µ
max
m≤i≤n
¯¯
Y¯i
¯¯
≥ ε
¶
≤ 1
ε2
Ã
1
m2
mX
i=1
σ2i +
∞X
i=m+1
σ2i
i2
!
Pela continuidade da medida de probabilidade, lim
n→∞
P
µ
max
m≤i≤n
¯¯
Y¯i
¯¯
≥ ε
¶
=
P
µ
max
m≤i
¯¯
Y¯i
¯¯
≥ ε
¶
. Computando o limite de ambos os lados:
0 ≤ lim
m→∞
P
µ
max
m≤i
¯¯
Y¯i
¯¯
≥ ε
¶
≤ 1
ε2
lim
m→∞
Ã
1
m2
mX
i=1
σ2i +
∞X
i=m+1
σ2i
i2
!
=
1
ε2
lim
m→∞
1
m2
mX
i=1
σ2i
pois, por hipo´tese,
∞X
i=1
σ2i
i2
converge. Ale´m disso, pelo lema de Kronecker,
∞X
i=1
σ2i
i2
<∞⇒ lim
m→∞
1
m2
mX
i=1
σ2i = 0
Portanto,
lim
m→∞
P
µ
max
m≤i
¯¯
Y¯i
¯¯
≥ ε
¶
= 0
6
Econometria/mle.pdf
Universidade de Sa˜o Paulo - Departamento de Economia
EAE 5811 - Econometria I
Prof. Dr. Ricardo Avelino
1o Semestre de 2007
Ma´xima Verossimilhanc¸a
Definic¸o˜es
Dificuldades potenciais
Seja x = (x1, ..., xn) o valor realizado de um vetor aleato´rioX = (X1, ...,Xn),
com distribuic¸a˜o conjunta Pθ pertencente a uma famı´lia de distribuic¸o˜es
parame´tricas P =
©
Pθ : θ ∈ Θ ⊂ Rk
ª
. Seja f (x, θ) a func¸a˜o de densidade con-
junta descrevendo a distribuic¸a˜o Pθ, a distribuic¸a˜o de X.
Definic¸a˜o: f (x, θ) considerada como uma func¸a˜o de θ para x fixo e´ denom-
inada de func¸a˜o de verossimilhanc¸a das observac¸o˜es, isto e´,
L (x, θ) = f (x, θ)
A func¸a˜o de log verossimilhanc¸a e´ definida como L (x, θ) = lnL (x, θ) =
ln f (x, θ) .
Se X1, ...,Xn sa˜o i.i.d. com densidade comum f (xi, θ), a func¸a˜o de verossim-
ilhanc¸a e´
L (x, θ) =
Qn
i=1 f (xi, θ)
e f (xi, θ) e´ a func¸a˜o de verossimilhanc¸a para a i-e´sima observac¸a˜o. Enta˜o,
a func¸a˜o de log verossimilhanc¸a e´ simplesmente lnL (x, θ) =
Pn
i=1 ln f (xi, θ).
Note como o uso da func¸a˜o de log verossimilhanc¸a simplifica o problema quando
as func¸o˜es de densidade envolvem exponenciais.
Definic¸a˜o: A estimativa de θ de ma´xima verossimilhanc¸a e´ dada por
θˆn (x) = argmax
θ∈Θ
L (x, θ) = argmax
θ∈Θ
L (x, θ)
e no´s chamamos θˆn (x) de estimador de ma´xima verossimilhanc¸a de θ.
Terminologia
∂L(x,θ)
∂θ0 =
∂ lnL(x,θ)
∂θ0
³
= ∂ ln f(x,θ)
∂θ0
´
: score
∂L(x,θ)
∂θ0 = 0 : equac¸o˜es de verossimilhanc¸a
I (θ) = Eθ
·³
∂ ln f(x,θ)
∂θ0
´³
∂ ln f(x,θ)
∂θ0
´0¸
: matriz de informac¸a˜o ou esperanc¸a
do produto externo do score.
1
Sob condic¸o˜es discutidas anteriormente, I (θ) e´ igual a−Eθ
h
∂2
∂θ∂θ0 ln f (x, θ)
i
,
isto e´, menos o valor esperado do Hessiano.
Na˜o unicidade da func¸a˜o de verossimilhanc¸a
Quando o espac¸o amostral e´ discreto, a func¸a˜o de verossimilhanc¸a e´ definida
unicamente, pois a func¸a˜o de probabilidade conjunta e´ u´nica. Esse na˜o e´ o caso
quando a distribuic¸a˜o das observac¸o˜es tem uma parte cont´ınua. Nesse caso, a
densidade de X e´ u´nica com excec¸a˜o de conjuntos de medida zero.
Exemplo:
Suponha queXi ∼ N (θ, 1) e que osX 0is sejam independentes. Frequ¨entemente,
no´s consideramos a densidade conjunta.
L1 (x, θ) =
1
(2π)
n/2
exp
µ
−1
2
nP
i=1
(xi − θ)2
¶
< 1
mas outras escolhas de denisdades que conduzem a` mesma famı´lia de dis-
tribuic¸o˜es sa˜o poss´ıveis. Por exemplo, no´s poder´ıamos usar
L2 (x, θ) =
½
L1 (x, θ) se
Pn
i=1 x
2
i 6= θ
100 se
Pn
i=1 x
2
i = θ
A func¸a˜o de verossimilhanc¸a e´ modificada no conjunto
©Pn
i=1 x
2
i = θ
ª
, que
tem probabilidade zero. Portanto, L2 (x, θ) e´ outra densidade para Pθ.
A maximizac¸a˜o de L1 (x, θ) conduz a θˆ
1
(X) = X¯, enquanto a maximizac¸a˜o
de L2 (x, θ) resulta em θˆ
2
(X) =
Pn
i=1X
2
i . Portanto, a modificac¸a˜o da densi-
dade em um conjunto que tem probabilidade zero pode modificar o estimador
resultante. Para evitar essa dificuldade, toda vez que for poss´ıvel, podemos re-
querer que as densidades sejam cont´ınuas em θ ou parcialmente cont´ınuas em
conjuntos compactos com interiores na˜o vazios.
Na˜o existeˆncia de soluc¸a˜o para o problema de maximizac¸a˜o
θˆn (x) pode na˜o existir para alguns valores de x ou para todos eles. Em
geral, isso se deve ao fato do espac¸o de paraˆmetros Θ ser aberto ou ao fato da
func¸a˜o de verossimilhanc¸a ser descont´ınua em θ.
Exemplo 1 (Na˜o existeˆncia da soluc¸a˜o para todos os valores de x)
Suponha que no´s tenhamos uma amostra aleato´ria e que cada observac¸a˜o
tenha densidade
f (xi, θ) =
½
1
θ
para 0 < xi < θ
0 caso contra´rio
2
O estimador de ma´xima verossimilhanc¸a soluciona
max
θ>xi ∀i
µ
1
θ
¶n
mas esse problema na˜o tem uma soluc¸a˜o (para qualquer θ satisfazendo as re-
stric¸o˜es, e´ poss´ıvel achar um valor que e´ menor e tambe´m satisfaz as restric¸o˜es).
Entretanto, a func¸a˜o de densidade alternativa
f (xi, θ) =
½
1
θ
para 0 < xi ≤ θ
0 caso contra´rio
e´ uma func¸a˜o de densidade va´lida para a distribuic¸a˜o Pθ. Ela conduz ao esti-
mador de ma´xima verossimilhanc¸a θˆ (X) = max {X1, ...,Xn}, frequ¨entemente
denotado por X(n).
Exemplo 2 (Na˜o existeˆncia da soluc¸a˜o para alguns valores de x).
Considere duas varia´veis aleato´riasX1 eX2 que sa˜o independentes e teˆm uma
distribuic¸a˜o binomial B
³
1, 11+exp(θ)
´
, θ ∈ Θ = R. A func¸a˜o de verossimilhanc¸a
e´
L ((x1, x2) , θ) =
Q2
i=1 f (xi, θ) =
µ
1
1 + exp (θ)
¶x1+x2 µ
1− 1
1 + exp (θ)
¶2−x1−x2
Portanto, L ((1, 1) , θ) = 1
(1+exp(θ))2
, que e´ decrescente em θ e na˜o atinge
um ma´ximo em R. Um ma´ximo seria atingido se o espac¸o de paraˆmetros
fosse fechado, o que seria o caso se Θ = R ∪ {+∞,−∞} . A estimativa de
ma´xima verossimilhanc¸a seria−∞. Racioc´ınio ana´logo se aplica para (X1,X2) =
(0, 0) . Para (X1,X2) = (1, 0) ou (0, 1) , no´s temos L ((0, 1) , θ) = L ((1, 0) , θ) =
exp(θ)
(1+exp(θ))2
, que atinge um u´nico ma´ximo em θ = 0. Portanto, θˆ (1, 0) = θˆ
(0, 1) = 0.
Como esses exemplos deixam claro, uma condic¸a˜o suficiente para a existeˆncia
do estimador de ma´xima verossimilhanc¸a e´ que Θ seja compacto e L (x, θ)
cont´ınua em Θ.
Mu´ltiplas soluc¸o˜es para o problema de maximizac¸a˜o
Exemplo 1: No´s vimos anteriormente que, quando Y
n×1
∼ N
µ
X
n×k
β, σ2I
¶
, o
estimador de MQO de β coincide com o estimador de ma´xima verossimilhanc¸a
de β. No´s tambe´m vimos que, quando posto (X) < k, existem infinitas soluc¸o˜es
para as condic¸o˜es de primeira ordem X 0Xβˆ = X 0y. Portanto, o estimador de
ma´xima verossimilhanc¸a de β na˜o e´ u´nico quando posto (X) < k.
3
Exemplo 2: Suponha que X1, ...,Xn sejam independentes, cada um com
distribuic¸a˜o U (θ, θ + 1). A func¸a˜o de verossimilhanc¸a e´
L ((x1, ..., xn) , θ) =
Qn
i=1 f (xi, θ) =
½
1 para θ ≤ xi ≤ θ + 1
0 caso contra´rio
=
½
1 se min {X1, ...,Xn} ≥ θ e max {X1, ...,Xn} ≤ θ + 1
0 caso contra´rio
Portanto, qualquer θ satisfazendo max {X1, ...,Xn}−1 ≤ θ ≤ min {X1, ...,Xn}
e´ uma estimativa de ma´xima verossimilhanc¸a. Consequ¨entemente, ha´ um nu´mero
infinito de soluc¸o˜es.
Uma condic¸a˜o suficiente para unicidade e´ que Θ seja convexo e L (x, θ) es-
tritamente coˆncava em ξ = h (θ) , onde h e´ uma func¸a˜o bijetora.
Propriedade de invariaˆncia de ma´xima verossimilhanc¸a
Suponha novamente que xi, i = 1, 2, ... sejam i.i.d. com f.d.p. f (xi, θ) ,
θ ∈ Θ. Entretanto, suponha que ao inve´s de expressar a densidade em termos
do vetor de paraˆmetros θ, no´s a expressemos em termos de um novo vetor de
paraˆmetros λ = g (θ) . g e´ uma func¸a˜o de Θ num conjunto Λ e e´ bijetora. Enta˜o,
para cada valor de λ ∈ Λ, existe um u´nico valor de θ ∈ Θ tal que θ = g−1 (λ).
Portanto, a func¸a˜o de verossimilhanc¸a pode ser escrita como
L (x, θ) =
Qn
i=1 f (xi, θ)
ou
L
¡
x, g−1 (λ)
¢
=
Qn
i=1 f
¡
xi, g
−1 (λ)
¢
Como L (x, θ) e´ maximizada em θˆ, a estimativa de ma´xima verossimilhanc¸a
de θ, segue-se que a func¸a˜o de verossimilhanc¸a expressa em termos de λ sera´
maximizada no valor de λ que satisfaz g−1
³
λˆ
´
= θˆ, isto e´, λˆ = g
³
θˆ
´
.
Conclusa˜o: No´s mostramos que o estimador de ma´xima verossimilhanc¸a de
g (θ) e´ g
³
θˆ
´
.
Propriedades assinto´ticas de ma´xima verossimilhanc¸a
Consisteˆncia
Teorema (Consisteˆncia do estimador de ma´xima verossimilhanc¸a): Suponha
que xi, i = 1, 2, ... sejam i.i.d. com f.d.p. f (xi, θ) e
(MLE, i) se θ 6= θ0, enta˜o f (xi, θ) 6= f (xi, θ0)
(MLE, ii) θ0 ∈ Θ, que e´ compacto
(MLE, iii) ln f (xi, θ) e´ cont´ınua em cada θ ∈ Θ com probabilidade 1.
(MLE, iv) E [supθ∈Θ |ln f (xi, θ)|] <∞
4
Enta˜o, θˆn
P→ θ0.
Prova:
No´s podemos provar esse teorema verificando se as condic¸o˜es acima impli-
cam as condic¸o˜es para consisteˆncia de estimadores extremos. Relembrando as
condic¸o˜es suficientes (“EE” denota estimadores extremos): Existe uma func¸a˜o
Q0 (θ) tal que
(EE, i) Q0 (θ) e´ unicamente maximizada em θ0
(EE, ii) Θ e´ compacto
(EE, iii) Q0 (θ) e´ cont´ınua
(EE, iv) Qˆn (θ) converge uniformemente em probabilidade para Q0 (θ)
Essas condic¸o˜es, com excec¸a˜o de (EE, ii), na˜o sa˜o condic¸o˜es primitivas. Para
um dado estimador, e´ necessa´rio procurar por condic¸o˜es “primitivas” que im-
pliquem estas. Essa e´ a func¸a˜o de (MLE, i) - (MLE, iv).
Passo 1: (MLE, i) - (MLE, iv) e o seguinte lema implicam (EE, i) (NM
(1994), Lema 2.2):
Se θ0 e´ identificado (isto e´, θ 6= θ0 e θ ∈ Θ implicam f (x, θ) 6= f (x, θ0) e
E [|ln f (x, θ)|] <∞ para todo θ, enta˜o E [ln f (x, θ)] tem um u´nico ma´ximo em
θ0. Portanto, E [ln f (x, θ)] desempenha a func¸a˜o de Q0 (θ) no caso de ma´xima
verossimilhanc¸a.
Nota: Q0 (θ) e´ a func¸a˜o para a qual a func¸a˜o objetivo deve convergir uni-
formemente em probabilidade. No´s mostraremos na prova mais adiante que,
para ma´xima verossimilhanc¸a, Q0 (θ) = E [ln f (x, θ)] .
Prova: Como o logaritmo e´ uma func¸a˜o coˆncava, pela desigualdade de Jensen
estrita, para todo θ 6= θ0,
E
µ
log
f (x, θ)
f (x, θ0)
¶
< logE
µ
f (x, θ)
f (x, θ0)
¶
= 0
pois
E
µ
f (x, θ)
f (x, θ0)
¶
=
Z +∞
−∞
f (x, θ)
f (x, θ0)
f (x, θ0) dx =
Z +∞
−∞
f (x, θ) dx = 1
Mas,
E
µ
log
f (x, θ)
f (x, θ0)
¶
< 0⇒ E (log f (x, θ)− log f (x, θ0)) < 0
⇒ E [log f (x, θ)] < E [log f (x, θ0)]
⇒ Q0 (θ) < Q0 (θ0)
5
Passo 2: (EE, ii) e´ satisfeita por (MLE, ii)
Passo 3: (EE, iii) e (EE, iv) sa˜o consequ¨eˆncias de (MLE, ii), (MLE, iii) e
(MLE, iv) e do seguinte lema, que e´ uma lei dos grandes nu´meros uniforme.
Lema (NM (1994), Lema 2.4): Seja a (x, θ) uma matriz de func¸o˜es da ob-
servac¸a˜o x e do paraˆmetro θ.
Se as observac¸o˜es x1, x2, ... sa˜o i.i.d, Θ e´ compacto, a (xi, θ) e´ cont´ınua para
cada θ ∈ Θ com probabilidade 1, e existe d (x) tal que ka (x, θ)k ≤ d (x) para
todo θ ∈ Θ e E [d (x)] <∞, enta˜o E [a (x, θ)] e´ cont´ınua e
sup
θ∈Θ
°°°° 1nPni=1 a (xi, θ)−E [a (x, θ)]
°°°° P→ 0
No nosso caso, Θ e´ compacto por (MLE, iii), a (xi, θ) = ln f (xi, θ0) e´
cont´ınua para cada θ ∈ Θ com probabilidade 1 por (MLE, iii). Escolha d (x) =
supθ∈Θ |ln f (x, θ)| < ∞. Enta˜o E [d (x)] = E [supθ∈Θ |ln f (x, θ)|] < ∞ por
(MLE, iv). O lema enta˜o implica que E [ln f (x, θ)] e´ cont´ınua, isto e´, (EE, iii).
Isso tambe´m implica que a func¸a˜o de log verossimilhanc¸a
Qˆn (θ) =
1
n
Pn
i=1 ln f (xi, θ) converge uniformemente em probabilidade para
E [ln f (x, θ)] . Portanto, Q0 (θ) = E [ln f (x, θ)] , e (EE, iv) e´ satisfeita. Note
que no´s multiplicamos a func¸a˜o de verossimilhanc¸a por 1
n
. Isso na˜o modifica a
soluc¸a˜o, mas nos permite derivar as propriedades assinto´ticas.
Normalidade assinto´tica e eficieˆncia assinto´tica
Teorema (Normalidade assinto´tica e eficieˆncia assinto´tica do estimador
de ma´xima verossimilhanc¸a): Suponha que xi, i = 1, 2, ... sejam i.i.d, que as
hipo´teses utilizadas para provar consisteˆncia do estimador de ma´xima
verossimilhanc¸a sejam satisfeitas e que
(MLE, i) θ0 ∈ interior (Θ)
(MLE, ii) f (x, θ) e´ duas vezes continuamente diferencia´vel e f (x, θ) > 0
numa vizinhanc¸a N de θ0.
(MLE, iii)
R
sup
θ∈N
k∇θf (x, θ)k dx <∞
(MLE, iv) J = E
°°{∇θ ln f (x, θ0)} {∇θ ln f (x, θ0)}0°° existe e e´ na˜o singular.
(MLE, v) E
·
sup
θ∈N
k∇θθ ln f (x, θ)k
¸
<∞
Enta˜o,
√
n
³
θˆn − θ0
´
d→ N
¡
0, J−1
¢
Prova: Para provar o teorema, basta verificar se as condic¸o˜es primitivas
acima implicam as condic¸o˜es suficientes para normalidade assinto´tica de esti-
madores extremos. Essas condic¸o˜es eram
6
θˆn
P→ θ0 e
(EE, i) θ0 ∈ interior (Θ)
(EE, ii) Qˆn (θ) e´ duas vezes continuamente diferencia´vel numa vizinhanc¸a N
de θ0.
(EE, iii)
√
n∇θQˆn (θ0)
d→ N (0,Σ)
(EE, iv) ∃ H (θ) cont´ınua em θ0 satisfazendo
sup
θ∈N
°°°∇θθQˆn (θ)−H
(θ)°°° P→ 0
(EE, v) H = H (θ0) e´ na˜o singular
Nesse caso,
√
n
³
θˆn − θ0
´
d→ N
¡
0,H−1ΣH−1
¢
Passo 1: θˆn
P→ θ0 pois no´s assumimos que as condic¸o˜es para consisteˆncia do
estimador de ma´xima verossimilhanc¸a sa˜o satisfeitas.
Passo 2: (MLE, i)-(MLE, ii) implicam (EE, i)-(EE, ii)
Passo 3: (EE, iii) e´ satisfeita por (MLE, iii)-(MLE, iv):
No´s provamos anteriormente que E [∇θ ln f (x, θ)] = 0, desde que no´s pos-
samos diferenciar sob a integral em
R
f (x, θ) dx = 1. (MLE, iii) assegura que esse
e´ o caso (veja NM (1994), Lema 3.6). Ale´m disso, por (MLE, iv),
J = E
°°{∇θ ln f (x, θ0)} {∇θ ln f (x, θ0)}0°° existe e e´ na˜o singular. Portanto,
(EE, iii) e´ consequ¨eˆncia do teorema central do limite multivariado de Lindberg-
Le´vy e Σ = J.
Passo 4: (EE, iv) e´ satisfeita por (MLE, ii)-(MLE, v)
Seja Θ um conjunto compacto contido em N , contendo θ0 em seu interior.
Defina a matriz a (x, θ) por a (x, θ) = ∇θθ ln f (x, θ). Enta˜o a (x, θ) satisfaz
as condic¸o˜es do lema 2.4 por (MLE, ii) e (MLE, v). Portanto, E [a (x, θ)] =
E [∇θθ ln f (x, θ)] e´ cont´ınua e
sup
θ∈Θ
°°°° 1nPni=1 a (xi, θ)−E [a (x, θ)]
°°°°
= sup
θ∈Θ
°°°° 1nPni=1∇θθ ln f (xi, θ)−E [∇θθ ln f (x, θ)]
°°°° P→ 0
Consequ¨entemente, (EE, iv) e´ satisfeita com H = E [∇θθ ln f (x, θ)] Ale´m disso,
(MLE, ii) e (MLE, iii) asseguram que no´s podemos diferenciar duas vezes sob a
integral
R
f (x, θ) dx = 1 . Portanto, no´s sabemos que
E
£{∇θ ln f (x, θ0)} {∇θ ln f (x, θ0)}0¤ = −E [∇θθ ln f (x, θ)]
7
e J = −H.
Passo 5: (EE, v) e´ satisfeita pois H = −J e J e´ na˜o singular por (MLE, iv).
No´s mostramos que (EE, i)-(EE, v) sa˜o satisfeitas com H = −J e, portanto,
√
n
³
θˆn − θ0
´
d→ N
¡
0,H−1JH−1
¢
= N
¡
0, J−1
¢
.
Relembrando da desigualdade da informac¸a˜o assinto´tica que se θˆn e´
assintoticamente normal, isto e´,
√
n
³
θˆn − θ0
´
d→ N (0,Σ (θ)) , enta˜o, sob certas
condic¸o˜es, o limite inferior de Σ (θ) e´
Σ (θ) ≥ [I1 (θ)]−1
exceto num conjunto com medida de Lebesgue zero.
Mas I1 (θ) = J . Portanto, o resultado
√
n
³
θˆn − θ0
´
d→ N
¡
0, J−1
¢
prova
que ma´xima verossimilhanc¸a e´ assintoticamente eficiente.
E´ importante ressaltar que no´s achamos um me´todo para derivar o melhor
estimador dentro da classe de estimadores assintoticamente normais, mas que,
em contrapartida, e´ preciso especificar uma famı´lia de distribuic¸o˜es parame´tricas
P a fim de escrever a func¸a˜o de verossimilhanc¸a.
O que ocorre se no´s fizermos uma hipo´tese de distribuic¸a˜o incorreta, assu-
mindo que a f.d.p. conjunta verdadeira na˜o e´ membro da famı´lia de distribuic¸o˜es
que assumimos? Por exemplo, se a distribuic¸a˜o correta e´ uma distribuic¸a˜o t,
mas no´s escrevermos a func¸a˜o de verossimilhanc¸a assumindo uma distribuic¸a˜o
normal. Ou se no´s assumirmos que as observac¸o˜es sa˜o i.i.d. com distribuic¸a˜o
normal, mas os dados forem independentes, pore´m provenientes de distribuic¸o˜es
normais com diferentes variaˆncias (isto e´, heteroscedasticidade e, portanto,
na˜o identicamente distribu´ıdas). No´s obtemos estimativas consistentes se no´s
maximizarmos uma func¸a`o de verossimilhanc¸a incorretamente especificada?
White (1982) mostrou que, em alguns casos, no´s ainda obtemos estimativas
consistentes dos paraˆmetros de interesse. Entretanto, os desvios-padro˜es para
os coeficientes estimados calculados sob a hipo´tese de normalidade na˜o sa˜o cor-
retos, pois a igualdade da matriz de informac¸a˜o na˜o e´ mais va´lida. Nesse caso,
o resultado geral
√
n
³
θˆn − θ0
´
d→ N
¡
0,H−1JH−1
¢
na˜o pode ser simplificado
para
√
n
³
θˆn − θ0
´
d→ N
¡
0, J−1
¢
e no´s devemos utilizar uma estimativa de
H−1JH−1 para calcular os desvios-padro˜es das estimativas.
Uma estimativa que maximize a func¸a˜o de verossimilhanc¸a incorretamente
especificada e´ conhecida como uma estimativa de quase ma´xima verossimilhanc¸a
ou de pseudo ma´xima verossimilhanc¸a.
8
Infereˆncia
Estimac¸a˜o consistente da variaˆncia assinto´tica
Infereˆncia assinto´tica pode se basear no resultado de normalidade assinto´tica.
A fim de construir intervalos de confianc¸a e conduzir testes, no´s precisaremos
estimar a variaˆncia assinto´tica J−1. Qualquer estimador consistente pode ser
utilizado, pois as propriedades assinto´ticas dos intervalos de confianc¸a e testes
sera˜o as mesmas independentemente do estimador consistente de J−1 que for
utilizado.
Como
J−1 =
¡
E
£{∇θ ln f (x, θ0)} {∇θ ln f (x, θ0)}0¤¢−1 = − (E [∇θθ ln f (x, θ)])−1
o me´todo dos momentos sugere
Jˆ−11 =
µ
1
n
Pn
i=1
£{∇θ ln f (xi, θ0)} {∇θ ln f (xi, θ0)}0¤¶−1
ou
Jˆ−12 =
µ
− 1
n
Pn
i=1 [∇θθ ln f (x, θ)]
¶−1
Jˆ−12
P→ J−1 sob as condic¸o˜es assumidas no teorema de normalidade assinto´tica
de ma´xima verossimilhanc¸a. Para que Jˆ−11
P→ J−1, no´s precisamos da condic¸a˜o
adicional de que haja uma vizinhanc¸a N de θ0 tal que
E
·
sup
θ∈N
k∇θ ln f (x, θ)k2
¸
<∞
Numa dada situac¸a˜o, pode ser mais fa´cil calcular um ou outro estimador.
Embora a teoria assinto´tica na˜o guie a escolha, os dois candidatos podem diferir
em termos de qua˜o pro´ximo a teoria assinto´tica aproxima a distribuic¸a˜o do
intervalo de confianc¸a verdadeiro.
Testes Assinto´ticos
Suponha que no´s estimamos θ ∈ Θ ⊂ Rk por ma´xima verossimilhanc¸a e
desejamos testar H0 : h (θ) = 0 contra H1 : h (θ) 6= 0, para uma func¸a˜o difer-
encia´vel h : Rk → Rp. Adicionalmente, suponha que a restric¸a˜o posa ser escrita
alternativamente como θ = r (α) . Ha´ treˆs testes assinto´ticos que podem ser em-
pregados. Para os treˆs, o resultado da distribuic¸a˜o dado e´ somente va´lido sob
as condic¸o˜es que garantem consisteˆncia e normalidade assinto´tica de ma´xima
verossimilhanc¸a.
1. Teste da raza˜o de verossimilhanc¸a: Se a restric¸a˜o h (θ) = 0 e´ va´lida,
impondo-a na estimac¸a˜o na˜o deve resultar numa grande reduc¸a˜o da func¸a˜o
9
de verossimilhanc¸a (ou log-verossimilhanc¸a). Seja θˆ o estimador de ma´xima
verossimilhanc¸a do problema de maximizac¸a˜o irrestrito e θ˜ o estimador de
ma´xima verossimilhanc¸a do problema de maximizac¸a˜o impondo a restric¸a˜o
h (θ) = 0.
A raza˜o de verossimilhanc¸a
λ =
L
³
x, θ˜
´
L
³
x, θˆ
´
deve estar entre 0 e 1, pois ambas as verossimilhanc¸as sa˜o positivas e o valor da
func¸a˜o objetivo na˜o pode ser maior para o problema de maximizac¸a˜o restrito.
Um valor pequeno de λ coloca em du´vida a validade da restric¸a˜o.
A regia˜o cr´ıtica baseia-se no resultado
LR = −2 lnλ = 2
h
lnL
³
x, θˆ
´
− lnL
³
x, θ˜
´i
d→ χ2p
e no´s rejeitamos H0 se LR > χ
2
1−α,p.
Prova da distribuic¸a˜o assinto´tica:
lnL (x, θ) = lnL
³
x, θˆ
´
+
∂ lnL
³
x, θˆ
´
∂θ0
³
θ − θˆ
´
+
1
2
³
θ − θˆ
´0 ∂2 lnL³x, θˆ´
∂θ∂θ0
³
θ − θˆ
´
+ op (1)
Defina I (θ) = − lim
n→∞
E
µ
1
n
∂2 lnL(x,θˆ)
∂θ∂θ0
¶
. Como
∂ lnL(x,θˆ)
∂θ0 = 0,
lnL
³
x, θˆ
´
− lnL (x, θ) = −1
2
³
θˆ − θ
´0 ∂2 lnL³x, θˆ´
∂θ∂θ0
³
θˆ − θ
´
+ op (1)
= −1
2
n
³
θˆ − θ
´0
I (θ)
³
θˆ − θ
´
+ op (1)
Similarmente, para o estimador de ma´xima verossimilhanc¸a restrito, como
∂ lnL(x,αˆ)
∂α0 = 0,
lnL (x, αˆ)− lnL (x, α) = −1
2
n (αˆ− α)0 I (α) (αˆ− α) + op (1)
para I (α) = − lim
n→∞
E
³
1
n
∂2 lnL(x,αˆ)
∂α∂α0
´
.
Sob a hipo´tese nula, lnL (x, θ) = lnL (x, r (α)) = lnL (x, α) . Portanto,
2
h
lnL
³
x, θˆ
´
− lnL (x, αˆ)
i
= n
³
θˆ − θ
´0
I (θ)
³
θˆ − θ
´
−n (αˆ− α)0
I (α) (αˆ− α) + op (1)
10
Como
√
n
³
θˆ − θ
´
= I (θ)
−1 1√
n
∂ lnL (x, θ)
∂θ0
+ op (1) ,
√
n (αˆ− α) = I (α)−1 1√
n
∂ lnL (x, α)
∂α0
+ op (1)
e
∂ lnL (x, α)
∂α0
= R0
∂ lnL (x, θ)
∂θ0
,
para R = ∂r(α)
∂α0 ,
2
h
lnL
³
x, θˆ
´
− lnL (x, αˆ)
i
=
1√
n
∂ lnL (x, θ)
∂θ0
I (θ)−1 I (θ) I (θ)−1
1√
n
∂ lnL (x, θ)
∂θ0
− 1√
n
∂ lnL (x, α)
∂α0
I (α)
−1
I (α) I (α)
−1 1√
n
∂ lnL (x, α)
∂α0
+ op (1)
=
1√
n
∂ lnL (x, θ)
∂θ0
³
I (θ)
−1 −RI (α)−1R0
´ 1√
n
∂ lnL (x, θ)
∂θ0
+ op (1)
Defina ε = I (θ)−1/2 1√
n
∂ lnL(x,θ)
∂θ0
d→ N (0, I) , de modo que
2
h
lnL
³
x, θˆ
´
− lnL (x, αˆ)
i
= ε0
³
I − I (θ)1/2RI (α)−1R0I (θ)1/2
´
ε+ op (1)
Como I (α) = R0I (θ)R, a matriz I − I (θ)1/2R (R0I (θ)R)−1R0I (θ)1/2 e´
idempotente com posto p. Portanto,
2
h
lnL
³
x, θˆ
´
− lnL (x, αˆ)
i
d→ χ2p
2. Teste de Wald: Se a restric¸a˜o e´ va´lida, h
³
θˆ
´
deve estar pro´ximo de zero,
pois o estimador de ma´xima verossimilhanc¸a e´ consistente. Portanto, pode-
mos testar se h
³
θˆ
´
e´ significativamente diferente de zero utilizando o seguinte
resutado:
W = −h
³
θˆ
´0

∂h
³
θˆ
´
∂θ0


∂2 lnL
³
x, θˆ
´
∂θ∂θ0


−1

∂h
³
θˆ
´
∂θ0


0

−1
h
³
θˆ
´
d→ χ2p
Prova: O resultado resulta do me´todo delta.
Primeiro passo:
√
n
³
θˆn − θ
´
d→ N
¡
0, J−1
¢
, h (θ) = 0
11
⇒
√
n
³
h
³
θˆn
´
− 0
´
d→ ∂h(θ)
∂θ0 N
¡
0, J−1
¢
= N
µ
0, ∂h(θ)
∂θ0 J
−1
³
∂h(θ)
∂θ0
´0¶
⇒
√
nh
³
θˆn
´0µ
∂h(θ)
∂θ0 J
−1
³
∂h(θ)
∂θ0
´0¶−1√
nh
³
θˆn
´
d→ χ2p
Segundo passo: Como
Jˆ−12 =
µ
− 1
n
Pn
1=1
h
5θθ ln f
³
xi, θˆ
´i¶−1
=

− 1
n
∂2 lnL
³
x, θˆ
´
∂θ∂θ0


−1
P→ J−1
no´s podemos substituir J−1 por Jˆ−12 sem alterar a distribuic¸a˜o assinto´tica. Por-
tanto,
√
nh
³
θˆn
´0∂h (θ)
∂θ0

− 1
n
∂2 lnL
³
x, θˆ
´
∂θ∂θ0


−1µ
∂h (θ)
∂θ0
¶0
−1
√
nh
³
θˆn
´
= −h
³
θˆn
´0∂h (θ)
∂θ0


∂2 lnL
³
x, θˆ
´
∂θ∂θ0


−1µ
∂h (θ)
∂θ0
¶0
−1
h
³
θˆn
´
d→ χ2p
3. Teste do multiplicador de Lagrange
Se a restric¸a˜o e´ va´lida, o estimador restrito deve estar pro´ximo do valor que
maximiza a log verossimilhanc¸a. Portanto, a declividade da log verossimilhanc¸a,
isto e´, o score, avaliado no estimador restrito, deve estar pro´ximo de zero.
Suponha que no´s maximizemos a log verossimilhanc¸a sujeito a restric¸a˜o
h (θ) = 0. Seja λ o vetor de multiplicadores de Lagrange de dimensa˜o px1.
Enta˜o
lnLR (x, θ) = lnL (x, θ) + λ
0h (θ)
As condic¸o˜es de primeira ordem sa˜o
∂ lnLR (x, θ)
∂θ
=
∂ lnL (x, θ)
∂θ
+
µ
∂h (θ)
∂θ0
¶0
λ = 0
⇒
∂ lnL
³
x, θ˜
´
∂θ
= −


∂h
³
θ˜
´
∂θ0


0
λ˜
∂ lnLR (x, θ)
∂λ
= h (θ) = 0
12
Se as restric¸o˜es sa˜o va´lidas, λ deve ser pequeno. Portanto, no´s podemos
realizar o teste baseado no teste da hipo´tese de que λ = 0. Assintoticamente,
LM = −


∂ lnL
³
x, θ˜
´
∂θ


0

∂2 lnL
³
x, θ˜
´
∂θ∂θ0


−1

∂ lnL
³
x, θ˜
´
∂θ


= −λ˜0
∂h
³
θ˜
´
∂θ0


∂2 lnL
³
x, θ˜
´
∂θ∂θ0


−1

∂h
³
θ˜
´
∂θ0


0
λ˜
d→ χ2p
O teste do multiplicador de Lagrange e´ assintoticamente equivalente ao teste
da raza˜o de verossimilhanc¸a.
∂ lnL
³
x, θ˜
´
∂θ
=
∂ lnL
³
x, θˆ
´
∂θ
+
∂2 lnL (x, θ∗)
∂θ∂θ0
³
θ˜ − θˆ
´
=
∂2 lnL (x, θ∗)
∂θ∂θ0
³
θ˜ − θˆ
´
Portanto,
LM = −


∂ lnL
³
x, θ˜
´
∂θ


0

∂2 lnL
³
x, θ˜
´
∂θ∂θ0


−1

∂ lnL
³
x, θ˜
´
∂θ


= −
³
θ˜ − θˆ
´0 ∂2 lnL (x, θ∗)
∂θ∂θ0


∂2 lnL
³
x, θ˜
´
∂θ∂θ0


−1µ
∂2 lnL (x, θ∗)
∂θ∂θ0
¶³
θ˜ − θˆ
´
= −
³
θ˜ − θˆ
´0µ∂2 lnL (x, θ)
∂θ∂θ0
¶³
θ˜ − θˆ
´
+ op (1)
Por fim, note que
LR = 2
h
lnL
³
θ˜
´
− lnL
³
θˆ
´i
= 2
∂ lnL
³
x, θˆ
´
∂θ
³
θ˜ − θˆ
´
+
³
θ˜ − θˆ
´0 ∂2 lnL (x, θ∗∗)
∂θ∂θ0
³
θ˜ − θˆ
´
=
³
θ˜ − θˆ
´0 ∂2 lnL (x, θ∗∗)
∂θ∂θ0
³
θ˜ − θˆ
´
=
³
θ˜ − θˆ
´0 ∂2 lnL (x, θ)
∂θ∂θ0
³
θ˜ − θˆ
´
+ op (1)
Comparac¸a˜o
a) LR, Wald e LM sa˜o assintoticamente equivalentes.
b) LR: requer a estimac¸a˜o dos modelos restrito e irrestrito.
13
Wald: requer somente a estimac¸a˜o do modelo irrestrito.
LM: requer somente a estimac¸a˜o do modelo restrito.
Normalmente, a estimac¸a˜o do modelo restrito e´ mais dif´ıcil, o que favorece
o teste de Wald.
c) Propriedades em amostras finitas: O teste LR apresenta a melhor perfor-
mance, seguido de perto pelo teste LM. O teste de Wald rejeita a hipo´tese
nula muito frequ¨entemente. Ale´m disso, o teste de Wald na˜o e´ invariante
a reparametrizac¸o˜es da hipo´tese nula, o que causa a performance ruim em
amostras pequenas.
Como os testes LR, Wald e LM de p restric¸o˜es lineares envolvendo β no
modelo de regressa˜o linear se relacionam com os testes F vistos anteriormente?
Resultado
(i) LR = n ln
h
1 + p
n−kF
i
(ii) W = n
n−kpF
(iii) LM =
n
p
n−kF
[1+ pn−kF ]
Portanto, LR = n ln
£
1 + W
n
¤
, LM = W
[1+Wn ]
, de onde pode ser mostrado
que W ≥ LR ≥ LM.
Prova de (ii): H0 : Rβ = q0, isto e´, h (θ) = Rβ − q0. Da prova de que o
estimador de MQO de β e´ o estimador de ma´xima verossimilhanc¸a condicional
de β sob (OLS0,s)-(OLS4,s), no´s temos que
∂2 lnL(β,σ2)
∂β∂β0 = −
1
σ2
X 0X. Ale´m
disso, no´s vimos que
∂ lnL(β,σ2)
∂σ2
= −n2
1
σ2
+ 1
2(σ2)2
(y −Xβ)0 (y −Xβ), de modo
que o estimador de ma´xima verossimilhanc¸a de σ2 e´ dado por
∂ lnL
³
βˆ, σˆ2
´
∂σ2
= −n
2
1
σˆ2
+
1
2
¡
σˆ2
¢2 ³y −Xβˆ´0 ³y −Xβˆ´ = 0
⇔ σˆ2 = εˆ
0εˆ
n
=
n− k
n
s2
14
Portanto ,
∂2 lnL(x,θˆ)
∂θ∂θ0 =
∂2 lnL(βˆ,σˆ2)
∂β∂β0 = −
1
σˆ2
X 0X e
W = −h
³
θˆ
´0

∂h
³
θˆ
´
∂θ0


∂2 lnL
³
x, θˆ
´
∂θ∂θ0


−1

∂h
³
θˆ
´
∂θ0


0

−1
h
³
θˆ
´
= − (Rβ − q0)0
(
R
µ
− 1
σˆ2
X 0X
¶−1
R0
)−1
(Rβ − q0)
= − (Rβ − q0)0
½
s2
n− k
n
R (X 0X)−1R0
¾−1
(Rβ − q0)
d→ χ2p
Como o teste F de H0 : Rβ = q0 era
F = (Rβ − q0)0
n
s2R (X 0X)−1R0
o−1
(Rβ − q0) /p
no´s temos que
W =
n
n− kpF
Coˆmputo do estimador de ma´xima verossimilhanc¸a
Os estimadores de ma´xima verossimilhanc¸a sa˜o frequ¨entemente calculados
a partir das condic¸o˜es de primeira ordem do problema de maximizac¸a˜o (as
equac¸o˜es de verossimilhanc¸a). Entretanto, e´ importante ressaltar que as
condic¸o˜es de primeira ordem na˜o sa˜o necessa´rias nem suficientes, a menos que
hipo´teses adicionais sejam satisfeitas.
Exemplo 1: Uma func¸a˜o de verossimilhanc¸a continuamente diferencia´vel
definida num conjunto compacto pode ser maximizada na fronteira do espac¸o
de paraˆmetros, onde a primeira derivada na˜o e´ necessariamente zero.
Exemplo 2: Um valor para o qual a primeira
derivada e´ zero pode ser um
ponto de mı´nimo ou um ponto de inflexa˜o ao inve´s de um ponto de ma´ximo.
Esses casos podem ser facilmente distinguidos atrave´s do exame do Hessiano,
que num pontode ma´ximo deve ser negativo definido.
Exemplo 3: Mesmo se o Hessiano numa raiz das condic¸o˜es de primeira ordem
for negativo definido, a soluc¸a˜o pode corresponder a um ma´ximo local e na˜o a
um ma´ximo global.
As condic¸o˜es de primeira ordem se tornam suficientes para um ma´ximo
global se a func¸a˜o de verossimilhanc¸a ou log verossimilhanc¸a e´ concava. As
condic¸o˜es de primeira ordem se tornam necessa´rias se a log verossimilhanc¸a e´
diferencia´vel em θ e o ma´ximo pertence ao interior de Θ. Nesse caso, a esti-
mativa de ma´xima verossimilhanc¸a satisfaz o sistema de k equac¸o˜es dado pelas
equac¸o˜es de verossimilhanc¸a.
15
Em muitos problemas, as condic¸o˜es de primeira ordem sa˜o um conjunto de
equac¸o˜es na˜o lineares que na˜o podem ser resolvidas explicitamente para θ e
devem ser solucionadas numericamente.
Ma´xima verossimilhanc¸a condicional e marginal
Suponha que o vetor xi seja dividido em duas partes: x
a
i e x
b
i . No´s podemos
reescrever a f.d.p. (f.p.) de xi como
f (xi, θ) = f
¡
xai |xbi , θ
¢
f
¡
xbi , θ
¢
e, portanto, reescrever a func¸a˜o de verossimilhanc¸a como
lnL (x, θ) =
Pn
i=1 ln f (xi, θ) =
Pn
i=1 ln f
¡
xai |xbi , θ
¢
+
Pn
i=1 ln f
¡
xbi , θ
¢
Definic¸a˜o
(i) A estimativa de ma´xima verossimilhanc¸a condicional de θ e´ dada por
θˆc,n (x) = argmax
θ∈Θ
Pn
i=1 ln f
¡
xai |xbi , θ
¢
e no´s denominamos θˆc,n (x) de estimador de ma´xima verossimilhanc¸a condicional
de θ.
(ii) A estimativa de ma´xima verossimilhanc¸a marginal de θ e´ dada por
θˆm,n (x) = argmax
θ∈Θ
Pn
i=1 ln f
¡
xbi , θ
¢
e no´s denominamos θˆm,n (x) de estimador de ma´xima verossimilhanc¸a marginal
de θ.
Se o vetor de paraˆmetros θ puder ser dividido em θ =
µ
α
γ
¶
, de modo que
f (xi, θ) = f
¡
xai |xbi , α
¢
f
¡
xbi , γ
¢
Enta˜o, o estimador de ma´xima verossimilhanc¸a de θ e´
θˆn (x) =
µ
αˆc,n (x)
γˆm,n (x)
¶
Exemplo: No modelo de regressa˜o linear, no´s consideramos a func¸a˜o de
ma´xima verossimilhanc¸a condicional de y, dado X,.
L
¡
y|X,β, σ2¢ = fy (y|X) = fy1 (y1|X) fy2 (y2|X) ...fyn (yn|X)
No´s mostramos que (sob as hipo´teses assumidas) o estimador de MQO de β
era ideˆntico ao estimador de ma´xima verossimilhanc¸a condicional de β e que a
variaˆncia do estimador de ma´xima verossimilhanc¸a condicional atingia o limite
inferior de Cramer-Rao.
16
Econometria/ols1.pdf
Universidade de Sa˜o Paulo - Departamento de Economia
EAE 5811 - Econometria I
Prof. Dr. Ricardo Avelino
1o Semestre de 2007
Mı´nimos Quadrados Ordina´rios, Modelo e
Estimador
O modelo de regressa˜o linear
yi = xi1β1 + ...+ xikβk + ε, i = 1, ..., n
Em notac¸a˜o matricial,
yi = x
0
iβ + εi, i = 1, ..., n
onde
xi =


xi1
xi2
...
xiK


K×1
, β =


β1
β2
...
βK


K×1
ou
y = Xβ + ε
onde
y =


y1
y2
...
yn


n×1
, X =


x11 x12 . . . x1K
x21 x22 . . . x2K
...
...
...
xn1 xn2 . . . xnK


n×K
, ε =


ε1
ε2
...
εn


n×1
a) Obter as estimativas dos paraˆmetros e testar hipo´teses.
Exemplos:
- estimar a elasticidade prec¸o em um problema de maximizac¸a˜o de lucro e
testar se a elasticidade prec¸o e´ 1.
- estimar os paraˆmetros em uma equac¸a˜o salarial e testar se ha´ discriminac¸a˜o
no mercado de trabalho.
- estimar os coeficientes em uma func¸a˜o de produc¸a˜o Cobb-Douglas e testar
se ha´ retornos constantes de escala.
b) Prever uma varia´vel
Exemplos:
1
- BC tentando prever o desenvolvimento econoˆmico para decidir se aumenta
ou diminui a taxa de juros.
- prever o retorno de ac¸o˜es a fim de melhorar a alocac¸a˜o do portfo´lio.
c) Testar uma teoria contra outra
Exemplo:
- o formato de U invertido do consumo ao longo do ciclo de vida deve-se
a` mudanc¸as nos rendimentos oriundos do trabalho, a` restric¸o˜es de liquidez ou
alguma outra coisa.
Hipo´teses do modelo de regressa˜o linear
(OLS0,s) y = Xβ + ε
(OLS1,s) Posto(X)=K
(OLS2,s) E(ε|X) = 0
(OLS3,s) Ω = E(εε0|X) = σ2I
(OLS4,s) ε|X ∼ N (0,Ω)
Comenta´rios sobre as hipo´teses
O modelo e´ uma afirmac¸a˜o a respeito da esperanc¸a condicional de y dado
X, isto e´,
y|X ∼ N ¡Xβ, σ2I¢
Em nenhum momento diz que X causa y. Por exemplo, suponha que a dis-
tribuic¸a˜o conjunta de duas varia´veis Z1 e Z2 seja normal, N
¡
µ1, µ2, σ
2
1, σ
2
2, ρ
¢
.
Enta˜o
Z1|Z2 ∼ N
µ
µ1 +
σ12
σ22
(Z2 − µ2) , σ21
¡
1− ρ2
¢¶
Z2|Z1 ∼ N
µ
µ2 +
σ12
σ21
(Z1 − µ1) , σ22
¡
1− ρ2
¢¶
onde
σ12 = ρσ1σ2
Portanto, ambos os modelos
zi1 = α+ βzi2 + εi
zi2 = γ + δzi1 + u
satisfazem as hipo´teses do modelo de regressa˜o linear
(OLS0,s) Lineariedade
O modelo de regressa˜o e´ linear nos paraˆmetros e no termo de erro. Por
exemplo,
yi = AK
α
i L
β
i e
εi ⇒ ln yi = lnA+ α lnKi + β lnLi + εi
2
e´ um modelo de regressa˜o linear. Entretanto,
yi = α+
1
β + xi
+ εi
na˜o satisfaz as hipo´teses do modelo de regressa˜o linear.
(OLS1,s) Identificac¸a˜o de β
Se houver multicolineariedade perfeita,
Posto(X) < K
e, consequ¨entemente,
∃c ∈ Rk tal que c 6= 0 e Xc = 0
Portanto, se y = Xβ + ε, enta˜o tambe´m e´ verdade que y = X (β + c) + ε.
Consequ¨entemente, β na˜o e´ identificado.
No caso de multicolineariedade quase perfeita, uma combinac¸a˜o linear dos
paraˆmetros e´ pro´xima de zero. A u´nica soluc¸a˜o e´ obter mais dados, pois as
propriedades do estimador de MQO nesse caso continuam va´lidas. Algumas
consequ¨eˆncias sa˜o:
i) erros padro˜es grandes das estimativas, mesmo se os coeficientes dos re-
gressores forem conjuntamente significativos.
ii) frequ¨entemente ocorrem grandes mudanc¸as nas estimativas quando algu-
mas observac¸oes sa˜o adicionadas.
iii) as estimativas dos coeficientes podem ser altamente improva´veis.
iv) intervalos de confianc¸a extensos para os β0s
v) baixo poder dos testes a respeito de β
(OLS2,s) Me´dia condicional do erro igual a zero
Juntamente com a hipo´tese de lineariedade, E(ε|X) = 0 implica que a me´dia
condicional E(y|X) e´ uma func¸a˜o linear de Xβ. E(ε|X) = 0 e´ uma hipo´tese
crucial. Para determinar se ela e´ plaus´ıvel, e´ preciso considerar o que o termo
de erro esta´ capturando. Casos t´ıpicos em que E(ε|X) = 0 e´ violada sa˜o
1) Erro de medida em X
2) X conte´m varia´veis dependentes defasadas
3) y e X sa˜o conjuntamente determinadas (por exemplo, prec¸o e quantidade
no modelo de equac¸o˜es simultaˆneas de oferta e demanda).
4) Forma funcional errada.
5) Varia´veis omitidas.
Note que E(ε|X) = 0 implica que
3
i)E(εi|xi0) = E [E(εi|xi0)|x−i0 ] = E [E (εi|xi0 , x−i0)] = E [E (εi|X)] = E [0] =
0 = 0, ∀i, i0
ii) E(εi) = E [E(ε|X)] = 0
iii) Cov (εi, xi0) = E(εixi0)−E(εi)E(xi0) = E (E (εixi0 |xi0)) = E (xi0E (εi|xi0)) =
E (xi00) = 0
(OLS3,s) Erros esfe´ricos
Devem satisfazer homocedasticidade
V (εi|X) = σ2, ∀i
e auseˆncia de autocorrelac¸a˜o
Cov (εi, εi0 |X) = 0, ∀i 6= i0
(OLS4,s) Normalidade dos erros
Sera´ u´til para derivar resultados em amostras finitas. Na˜o e´ necessa´ria para
derivar os resultados assinto´ticos.
Estimador de mı´nimos quadrados ordina´rios
O estimador de mı´nimos quadrados ordina´rios (MQO) soluciona
Min
β
S (β) =
nX
i=1
ε2i =
nX
i=1
(yi − x0iβ)
2
= (y −Xβ)0 (y −Xβ)
= y0y + β0X 0Xβ − 2β0X 0y
Condic¸a˜o de primeira ordem
∂S
∂β
³
βˆ
´
= −2X 0 (y −Xβ) = 0⇔ X 0Xβˆ = X 0y
Como para qualquer matriz A, Posto(A) = Posto(A
0
A) = Posto(AA
0
), a
inversa (X 0X)−1 existe. Portanto,
βˆ = (X 0X)−1X 0y
e´ a u´nica soluc¸a˜o
Condic¸a˜o de segunda ordem
∂2S
∂ββ0
³
βˆ
´
= 2X 0X
4
deve ser positiva definida para as condic¸o˜es de primeira ordem caracterizarem
um mı´nimo. Seja q = c0X 0Xc para um vetor arbitra´rio c 6= 0. Enta˜o
q = v0v =
nX
i=1
v2i , para v = Xc
Como X tem posto completo e v e´ uma combinac¸a˜o linear de X, nem todo
elemento de v pode ser igual a zero. Logo, q e´ positivo e, portanto, X 0X e 2X 0X
sa˜o positiva definidas.
Algumas matrizes u´teis:
P = X (X 0X)X 0 e´ uma matriz de projec¸a˜o. Pre´-multiplicando um vetor y
por P resulta nos valores de MQO estimados de uma regressa˜o de y em X, isto
e´, yˆ = Py. Note que PX = X.
M = I − P e´ uma matriz residual. Pre´-multiplicando um vetor y por M
resulta nos res´ıduos de MQO de uma regressa˜o de y em X, isto e´, εˆ = My.
Note que MX = 0.
Tanto M quanto P sa˜o sime´tricas, M = M 0 e P = P 0, e idempotentes,
MM =M e PP = P . Ale´m disso, M e P sa˜o ortogonais: MP = 0.
Melhor previsor linear como motivac¸a˜o do estimador de mı´nimos
quadrados ordina´rios
Melhor previsor
Proposic¸a˜o: O previsor P (X) com o menor erro de previsa˜o quadra´tico
me´dio e´ a esperanc¸a condicional de Y dado X, P (X) = E [Y |X] .
Prova: Escolha qualquer previsor h (X) e considere o erro quadra´tico me´dio
de previsa˜o:
E
h
(Y − h (X))2
i
= E
h
(Y −E [Y |X] +E [Y |X]− h (X))2
i
= E
h
(Y −E [Y |X])2
i
+E
h
(E [Y |X]− h (X))2
i
+2E [(Y −E [Y |X]) (E [Y |X]− h (X))]
Utilizando a lei de expectativas iteradas no u´ltimo termo,
E [(Y −E [Y |X]) (E [Y |X]− h (X))]
= E
h
Y E [Y |X]− Y h (X)−E [Y |X]2 +E [Y |X]h (X)
i
= E
h
E
h
Y E [Y |X]− Y h (X)−E [Y |X]2 +E [Y |X]h (X) |X
ii
= E
h
E [Y |X]2 −E [Y |X]h (X)− E [Y |X]2 +E [Y |X]h (X)
i
= 0
5
Portanto,
E
h
(Y − h (X))2
i
= E
h
(Y −E [Y |X])2
i
+E
h
(E [Y |X]− h (X))2
i
O primeiro termo na˜o depende de h (X) e o segundo termo e´ minimizado
quando h (X) = E [Y |X] .
Melhor previsor linear
Proposic¸a˜o: O previsor linear P (X) com o menor erro de previsa˜o quadra´tico
me´dio (o melhor previsor linear) e´ dado por
P ∗ (X) = α∗ +X 0β∗
α∗ = E [Y ]−E [X]0 β∗, β∗ = [V [X]]−1Cov (X,Y )
Prova:
Min
α,β
E
£
ε2
¤
= Min
α,β
E
h
(Y − α−X 0β)2
i
= Min
α,β
E
h
Y 2 + (α+X 0β)2 − 2Y (α+X 0β)
i
Condic¸o˜es de primeira ordem:
∂E
£
ε2
¤
∂α
= E [2 (α+X 0β)− 2Y ] = 0⇔ E [Y − α−X 0β] = 0
⇔ α∗ = E [Y ]−E [X]0 β∗
∂E
£
ε2
¤
∂β
= E [2 (α+X 0β)X − 2Y X] = 0⇔ E (X (Y − α−X 0β)) = 0
⇔ Cov (X,Y − α−X 0β) = 0⇔ Cov (X,Y )− V (X)β = 0
⇔ β∗ = [V [X]]−1Cov (X,Y )
6
Econometria/ols2.pdf
Universidade de Sa˜o Paulo - Departamento de Economia
EAE 5811 - Econometria I
Prof. Dr. Ricardo Avelino
1o Semestre de 2007
Mı´nimos Quadrados Ordina´rios, Resultados em
Amostras Finitas
Propriedades em amostras pequenas de β
(OLS0,s)-(OLS2,s):
E
h
βˆ|X
i
= β,E
h
βˆ
i
= β
Prova:
βˆ = (X 0X)−1X 0y = (X 0X)−1X 0 (Xβ + ε) = β + (X 0X)−1X 0ε
E
h
βˆ|X
i
= β +E
h
(X 0X)−1X 0ε|X
i
= β + (X 0X)−1X 0 E [ε|X]
=0 por (OLS2,s)
= β
E
h
βˆ
i
= E
h
E
h
βˆ|X
ii
= E [β] = β
(OLS0,s)-(OLS2,s), (OLS4,s):
1) E
h
βˆ|X
i
= β,E
h
βˆ
i
= β
2) βˆ|X ∼ N
³
β, (X 0X)−1X 0ΩX (X 0X)−1
´
Prova de (2)
βˆ = (X 0X)−1X 0y = (X 0X)−1X 0 (Xβ + ε) = β + (X 0X)−1X 0ε
V
h
βˆ|X
i
= E
·³
βˆ −E
h
βˆ|X
i´³
βˆ −E
h
βˆ|X
i´0
|X
¸
= E
h
(X 0X)−1X 0εε0X (X 0X)−1 |X
i
=
(X 0X)−1X 0E [εε|X 0]X (X 0X)−1 = (X 0X)−1X 0ΩX (X 0X)−1
Como, condicional em X, βˆ e´ uma func¸a˜o linear de ε e ε e´ normal, enta˜o
βˆ|X tambe´m tem distribuic¸a˜o normal. Especificamente,
βˆ|X ∼ N
³
β, (X 0X)−1X 0ΩX (X 0X)−1
´
De fato, se ε|X ∼ N (0,Ω) , enta˜o para quaisquer matrizes A e B,
Aε+B|X ∼ N (B,AΩA0)
1
(OLS0,s)-(OLS2,s), (OLS3,s):
1) E
h
βˆ|X
i
= β,E
h
βˆ
i
= β
2) V
h
βˆ|X
i
= σ2 (X 0X)−1 , V
h
βˆ
i
= σ2E
h
(X 0X)−1
i
3) βˆ e´ o estimador linear na˜o viesado de β com menor variaˆncia (Teorema
de Gauss-Markov).
Prova de (2):
V
h
βˆ|X
i
= (X 0X)−1X 0ΩX (X 0X)−1 . Substituindo Ω = σ2I resulta em
V
h
βˆ|X
i
= (X 0X)−1X 0σ2IX (X 0X)−1 = σ2 (X 0X)−1
V
h
βˆ
i
= E
h
V
h
βˆ|X
ii
+ V
h
E
h
βˆ|X
ii
= E
h
σ2 (X 0X)−1
i
+ V [β]
= σ2E
h
(X 0X)−1
i
Prova de (3):
βˆ e´ linear em y:
βˆ = (X 0X)−1X 0y = A
k×n
y
n×1
=
£
a1 a2 . . . an
¤


y1
y2
...
yn

 , onde ai e´ k × 1
- Seja b um outro estimador linear:
b = Cy = C (Xβ + ε) , C e´ uma matriz k × n
Para que b seja na˜o viesado condicional em X, e´ preciso que CX = I :
E [b|X] = E [Cy|X] = E [CXβ + Cε|X]
= CXβ + CE [ε|X] = CXβ = β para CX = I
Portanto, b = β + Cε
- V [b|X] = E £(b− β) (b− β)0 |X¤ = E [Cεε0C 0|X] = CE [εε0|X]C0 = σ2CC 0
por (OLS3,s)
Seja D = C − (X 0X)−1X 0. Enta˜o
V [b|X] = σ2
³
D + (X 0X)−1X 0
´³
D + (X 0X)−1X 0
´0
2
Mas CX = I e DX = CX − (X 0X)−1X 0X = 0. Portanto,
V [b|X] = σ2
³
DD0 +DX (X 0X)−1 + (X 0X)−1X 0D0 + (X 0X)−1X 0X (X 0X)−1
´
= σ2DD0 + σ2 (X 0X)−1 = σ2DD0 + V
h
βˆ|X
i
DD0 e´ na˜o negativa definida. Para qualquer vetor q 6= 0
q0DD0q = z0z ≥ 0
Portanto,
V [b|X] ≥ V
h
βˆ|X
i
O teorema afirma que isso e´ verdade mesmo incondicionalmente.
V
h
βˆ
i
= E
h
V
h
βˆ|X
ii
+ V
h
E
h
βˆ|X
ii
= E
h
V
h
βˆ|X
ii
V [b] = E [V [b|X]] + V [E [b|X]] = E [V [b|X]]
Portanto, V [b] ≥ V
h
βˆ
i
pois V [b|X] ≥ V
h
βˆ|X
i
⇒ E [V [b|X]] ≥ E
h
V
h
βˆ|X
ii
Corola´rio do Teorema de Gauss-Markov: ω0βˆ e´ o estimador linear na˜o viesado
de ω0β com variaˆncia mı´nima.
Prova: Considere qualquer outro estimador linear na˜o viesado θˆ = cy =
c (Xβ + ε) de θ = ω0β. c e´ 1xn. E
h
θˆ|X
i
= cXβ. para que, condicional em X,
θˆ seja na˜o viesado, cX = ω0, e, portanto, θˆ = θ + cε.
V
h
θˆ|X
i
= cE [εε0] c0 = σ2cc0 usando (OLS3,s).
V
h
ω0βˆ|X
i
= ωV
h
βˆ|X
i
ω0 = σ2ω (X 0X)−1 ω0 usando (OLS3,s).
Agora, defina D = c− ω0 (X 0X)−1X 0. Enta˜o
V
h
θˆ|X
i
= σ2
³
D + ω0 (X 0X)−1X 0
´³
D + ω0 (X 0X)−1X 0
´0
.
Como cX = ω0, DX = ω0 − ω0 = 0. Portanto,
V
h
θˆ|X
i
= σ2DD0 + σ2ω0 (X 0X)−1 ω = V
h
ω0βˆ|X
i
+ σ2DD0
Finalmente, escolha qualquer vetor q 6= 0. Enta˜o q0DD0q = z0z ≥ 0, e,
portanto, DD0 e´ na˜o negativa definida. Continuando como na prova anterior,
obtemos
V
h
θˆ
i
≥ V
h
ω0βˆ
i
3
(OLS0,s)-(OLS4,s):
1) E
h
βˆ|X
i
= β,E
h
βˆ
i
= β
2) βˆ|X ∼ N
³
β, σ2 (X 0X)−1
´
3) βˆ e´ o estimador de ma´xima verossimilhanc¸a condicional de β
4) βˆ e´ o estimador na˜o viesado de β com menor variaˆncia entre todos os
estimadores.
Prova de (3):
z = (z1, ..., zn): valor observado de um vetor aleato´rio Z = (Z1, ..., Zn)
f (z, θ): densidade conjunta descrevendo a distribuic¸a˜o Pθ de Z
L (z, θ) = ln f (z, θ): func¸a˜o de log verossimilhanc¸a
O estimador de ma´xima verossimilhanc¸a de θ e´ dado por
θˆ (z) = argmax
θ∈Θ

Teste o Premium para desbloquear

Aproveite todos os benefícios por 3 dias sem pagar! 😉
Já tem cadastro?