Esta é uma pré-visualização de arquivo. Entre para ver o arquivo original
Econometria/CLT.pdf Universidade de Sa˜o Paulo - Departamento de Economia EAE 5811 - Econometria I Prof. Dr. Ricardo Avelino 1o Semestre de 2007 Teoremas Centrais do Limite Teorema Central do Limite de Lindberg-Levy: Seja {Xn} uma sequ¨eˆncia de varia´veis aleato´rias independentes e identicamente distribu´ıdas e suponha que E (Xn) = µ e V (Xn) = σ 2 <∞. Enta˜o Y¯n = √ n µ X¯n − µ σ ¶ d→ N (0, 1) Prova: Seja φ (t) a func¸a˜o caracter´ıstica de Xn − µ. Como os dois primeiros momentos existem, podemos aplicar uma expansa˜o de Taylor: φ (t) = E exp (it (Xn − µ)) = 1 + tE [i (Xn − µ) exp (it (Xn − µ))] |t=0 + 1 2 t2E h i2 (Xn − µ)2 exp (it (Xn − µ)) i |t=0 + o ¡ t2 ¢ = 1− 1 2 t2σ2 + o ¡ t2 ¢ A func¸a˜o caracter´ıstica de Y¯n e´ φn (t) = E exp ¡ itY¯n ¢ = E exp à it σ √ n nX i=1 (Xi − µ) ! = nY i=1 E exp µ it σ √ n (Xi − µ) ¶ = · φ µ t σ √ n ¶¸n = · 1− t 2 2n + o µ 1 n ¶¸n Utilizando o fato de que lim n→∞ ³ 1 + an n ´n = exp ³ lim n→∞ an ´ conclui-se que lim n→∞ φn (t) = exp µ lim n→∞ µ − t 2 2 + o (1) ¶¶ = exp µ − t 2 2 ¶ que e´ a func¸a˜o caracter´ıstica de uma N (0, 1) . O resultado segue do Teorema da continuidade de Le´vy. 1 Exemplo 1: Considere uma amostra de varia´veis aleato´rias {Xn} indepen- dentes e identicamente distribu´ıdas com distribuic¸a˜o gamma, com paraˆmetros θ e α, cuja func¸a˜o geradora de momentos e´ dada por MXi (t) = (1− tθ) −α Note que os dois primeiros momentos sa˜o dados por E (Xi) = dMXi (t) dt º t=0 = θα (1− tθ)α−1 % t=0 = θα e E ¡ X2i ¢ = d2MXi (t) dt2 º t=0 = θ2α (α− 1) (1− tθ)α+2 % t=0 = θ2α2 + θ2α Logo, V (Xi) = E ¡ X2i ¢ − [E (Xi)]2 = θ2α2 + θ2α− θ2α2 = θ2α Pelo Teorema Central do Limite de Lindberg-Levy, √ n µ X¯n − θα θ √ α ¶ d→ N (0, 1) Teorema Central do Limite de Lindberg-Feller: Suponha que, para cada n, Xn1, ...,Xnrn sejam independentes e que E [Xnk] = 0, σ 2 nk = E £ X2nk ¤ , s2n = rnX k=1 σ2nk Se, para todo ε positivo, lim n→∞ rnX k=1 1 s2n Z n |Xnk|≥εsn X2nkdP = 0 enta˜o Sn sn d→ N (0, 1) , Sn = Xn1 + ...+Xnrn Prova: Substituindo Xnk por Xnk/sn mostra que na˜o ha´ nenhuma perda de generalidade em assumir que s2n = rnX k=1 σ2nk = 1. 2 Lema 1: ¯¯¯¯ ¯eix − nX k=0 (ix) k k! ¯¯¯¯ ¯ ≤ min ( |x|n+1 (n+ 1)! , 2 |x|n n! ) Como, para n = 2,¯¯¯¯ eitx − µ 1 + itx− 1 2 t2x2 ¶¯¯¯¯ ≤ min n |tx|2 , |tx|3 o e ¯¯¯¯Z adP − Z bdP ¯¯¯¯ = ¯¯¯¯Z (a− b) dP ¯¯¯¯ ≤ Z |a− b| dP a func¸a˜o caracter´ıstica φnk (t) de Xnk satisfaz¯¯¯¯ φnk (t)− µ 1− 1 2 t2σ2nk ¶¯¯¯¯ ≤ E h min n |tXnk|2 , |tXnk|3 oi Para ε positivo, o lado direito da desigualdade acima e´ igual a E h min n |tx|2 , |tx|3 oi = Z |Xnk|<ε min n |tXnk|2 , |tXnk|3 o dP + Z |Xnk|≥ε min n |tXnk|2 , |tXnk|3 o dP ≤ Z |Xnk|<ε |tXnk|3 dP + Z |Xnk|≥ε |tXnk|2 dP ≤ ε |t|3 σ2nk + t2 Z |Xnk|≥ε X2nkdP Portanto, rnX k=1 ¯¯¯¯ φnk (t)− µ 1− 1 2 t2σ2nk ¶¯¯¯¯ ≤ ε |t|3 rnX k=1 σ2nk + t 2 rnX k=1 1 s2n Z |Xnk|≥ε X2nkdP = ε |t|3 + t2 rnX k=1 1 s2n Z |Xnk|≥ε X2nkdP Como ε e´ arbitra´rio, rnX k=1 ¯¯¯¯ φnk (t)− µ 1− 1 2 t2σ2nk ¶¯¯¯¯ → 0 para todo t fixo. O objetivo agora e´ mostrar que rnY k=1 φnk (t) = rnY k=1 µ 1− 1 2 t2σ2nk ¶ + o (1) = rnY k=1 e−t 2σ2nk/2 + o (1) = e−t 2/2 + o (1) 3 Para todo ε positivo σ2nk ≤ ε2 + Z |Xnk|≥ε X2nkdP Da condic¸a˜o de Lindberg, conclui-se que max 1≤k≤rn σ2nk → 0 Para n suficientemente grande, 1 − 12 t2σ2nk esta´ compreendido entre 0 e 1 para todo n. Lema 2: Sejam z1, ..., zm e w1, ..., wm nu´meros complexos com mo´dulo na˜o excedendo 1. Enta˜o |z1...zm − w1...wm| ≤ nX k=1 |zk − wk| Logo, pelo lema acima, rnY k=1 φnk (t) e rnY k=1 ¡ 1− 12 t 2σ2nk ¢ diferem por, no ma´ximo, rnX k=1 ¯¯¯¯ φnk (t)− µ 1− 1 2 t2σ2nk ¶¯¯¯¯ → 0 o que implica que rnY k=1 φnk (t) = rnY k=1 µ 1− 1 2 t2σ2nk ¶ + o (1) Ale´m disso, segue-se tambe´m do lema que¯¯¯¯ ¯ rnY k=1 e−t 2σ2nk/2 − rnY k=1 µ 1− 1 2 t2σ2nk ¶¯¯¯¯ ¯ ≤ rnX k=1 ¯¯¯¯ e−t 2σ2nk/2 − 1 + 1 2 t2σ2nk ¯¯¯¯ Lema 3: Para z complexo: |ez − 1− z| ≤ |z|2 ∞X k=2 |z|k−2 k! ≤ |z|2 e|z| Segue-se do lema 2 que rnX k=1 ¯¯¯¯ e−t 2σ2nk/2 − 1 + 1 2 t2σ2nk ¯¯¯¯ ≤ rnX k=1 t4σ4nk 4 et 2/2 ≤ t4et 2/2 rnX k=1 σ4nk ≤ t4et 2/2 rnX k=1 σ2nkmax k σ2nk = t4et 2/2 max 1≤k≤rn σ2nk rnX k=1 σ2nk = t4et 2/2 max 1≤k≤rn σ2nk → 0 4 Teorema Central do Limite de Lyapunov: Suponha que, para cada n, Xn1, ...,Xnrn sejam independentes e que E [Xnk] = 0, σ 2 nk = E £ X2nk ¤ , s2n = rnX k=1 σ2nk Suponha que |Xnk|2+δ seja integra´vel para algum δ positivo e que a condic¸a˜o de Lyapunov seja satisfeita lim n→∞ rnX k=1 1 s2+δn E h |Xnk|2+δ i = 0 Enta˜o Sn sn d→ N (0, 1) , Sn = Xn1 + ...+Xnrn Prova: Note que rnX k=1 1 s2n Z n |Xnk|≥εsn X2nkdP ≤ rnX k=1 1 s2n Z n |Xnk|≥εsn X2+δnk sδnε δ dP = 1 εδ rnX k=1 1 s2+δn E h |Xnk|2+δ i Teorema (procedimento de Cra´mer-Wold): Seja {Xn}∞n=1 uma sequ´eˆncia de vetores aleato´rios (kx1) e suponha que para todo vetor real λ tal que λ0λ = 1, λ0Xn d→ λ0X, onde X e´ um vetor aleato´rio (kx1) com func¸a˜o de distribuic¸a˜o F (x) = F (x1, ..., xk). Enta˜o, a distribuic¸a˜o limite de Xn existe e e´ igual a F (x) . Apeˆndice Lema 1: ¯¯¯¯ ¯eix − nX k=0 (ix) k k! ¯¯¯¯ ¯ ≤ min ( |x|n+1 (n+ 1)! , 2 |x|n n! ) Prova: Seja u = eis e dv = (x− s)n , de modo que du = ieis e v = − (x−s) n+1 n+1 . Enta˜o, integrando por partes, segue-se queZ x 0 (x− s)n eisds = −(x− s) n+1 n+ 1 eis %x 0 − Z x 0 ieis à −(x− s) n+1 n+ 1 ! ds = xn+1 n+ 1 + i n+ 1 Z x 0 (x− s)n+1 eisds 5 Portanto, Z x 0 (x− s)n eisds = n i Z x 0 (x− s)n−1 eisds− 1 i xn Expandindo eix numa se´rie de Taylor em torno de x = 0, eix = nX k=0 (ix)k k! + in+1 n! xn+1 n+ 1 + in+2 (n+ 1)! xn+2 n+ 2 + ... = nX k=0 (ix) k k! + in+1 n! Z x 0 (x− s)n eisds− i n+1 n! i n+ 1 Z x 0 (x− s)n+1 eisds + in+2 (n+ 1)! Z x 0 (x− s)n+1 eisds− i n+2 (n+ 1)! i n+ 2 Z x 0 (x− s)n+2 eisds+ ... = nX k=0 (ix)k k! + in+1 n! Z x 0 (x− s)n eisds Substituindo Z x 0 (x− s)n eisds na expressa˜o acima, eix = nX k=0 (ix) k k! + in+1 n! µ n i Z x 0 (x− s)n−1 eisds− 1 i xn ¶ = nX k=0 (ix) k k! + in (n− 1)! µZ x 0 (x− s)n−1 eisds− x n n ¶ = nX k=0 (ix)k k! + in (n− 1)! µZ x 0 (x− s)n−1 ¡ eis − 1 ¢ ds ¶ pois Z x 0 (x− s)n−1 ds = −(x− s) n n ºx 0 = xn n Portanto, para x > 0, eix − nX k=0 (ix) k k! = in+1 n! Z x 0 (x− s)n eisds⇒ ¯¯¯¯ ¯eix − nX k=0 (ix) k k! ¯¯¯¯ ¯ = ¯¯¯¯ in+1 n! Z x 0 (x− s)n eisds ¯¯¯¯ ≤ ¯¯¯¯ in+1 n! ¯¯¯¯ Z x 0 |(x− s)n| ¯¯eis¯¯ ds = 1 n! Z x 0 (x− s)n |cox (ix) + isen (ix)| ds = 1 n! Z x 0 (x− s)n ds = 1 n! xn+1 n+ 1 = xn+1 (n+ 1)! 6 Ale´m disso, eix − nX k=0 (ix)k k! = in (n− 1)! Z x 0 (x− s)n−1 ¡ eis − 1 ¢ ds ⇒ ¯¯¯¯ ¯eix − nX k=0 (ix)k k! ¯¯¯¯ ¯ = ¯¯¯¯ in (n− 1)! Z x 0 (x− s)n−1 ¡ eis − 1 ¢ ds ¯¯¯¯ ≤ ¯¯¯¯ in (n− 1)! ¯¯¯¯ Z x 0 ¯¯¯ (x− s)n−1 ¯¯¯ ¯¯¡ eis − 1 ¢¯¯ ds = 1 (n− 1)! Z x 0 (x− s)n−1 (|cox (ix) + isen (ix)|+ |1|) ds = 1 (n− 1)!2 xn n = 2 xn n! Por outro lado, para x < 0, eix − nX k=0 (ix)k k! = in+1 n! Z x 0 (x− s)n eisds = − i n+1 n! Z 0 x (x− s)n eisds ⇒ ¯¯¯¯ ¯eix − nX k=0 (ix) k k! ¯¯¯¯ ¯ ≤ 1n! Z 0 x ¯¯ (x− s)n eis ¯¯ ds = 1 n! Z 0 x |(s− x)n| ¯¯eis¯¯ ds = 1 n! Z 0 x (s− x)n ds = (s− x)n+1 n+ 1 %0 x 1 n! = (−x)n+1 n+ 1 1 n! Ale´m disso, eix − nX k=0 (ix)k k! = in (n− 1)! Z x 0 (x− s)n−1 ¡ eis − 1 ¢ ds = − i n (n− 1)! Z 0 x (x− s)n−1 ¡ eis − 1 ¢ ds ⇒ ¯¯¯¯ ¯eix − nX k=0 (ix)k k! ¯¯¯¯ ¯ ≤ 1(n− 1)! Z 0 x ¯¯¯ (x− s)n−1 ¡ eis − 1 ¢¯¯¯ ds ≤ 2 (n− 1)! Z 0 x ¯¯¯ (x− s)n−1 ¯¯¯ ds = 2 (n− 1)! Z 0 x (s− x)n−1 ds = (−x)n n 2 (n− 1)! = 2 (−x)n n! Portanto, ¯¯¯¯ eix − µ 1 + ix− 1 2 x2 ¶¯¯¯¯ ≤ min ( |x|n+1 (n+ 1)! , 2 |x|n n! ) 7 Para n = 2, ¯¯¯¯ eix − µ 1 + ix− 1 2 x2 ¶¯¯¯¯ ≤ min ½ 1 6 |x|3 , |x|2 ¾ Lema 2: Sejam z1, ..., zm e w1, ..., wm nu´meros complexos com mo´dulo na˜o excedendo 1. Enta˜o |z1...zm − w1...wm| ≤ nX k=1 |zk − wk| Prova: z1...zm − w1...wm = (z1 − w1) (z2...zm) + w1 (z2...zm − w2...wm) = (z1 − w1) (z2...zm) +w1 ((z2 − w2) (z3...zm) + w2 (z3...zm − w3...wm)) = (z1 − w1) (z2...zm) +w1 (z2 − w2) (z3...zm) + w1w2 (z3...zm − w3...wm) = nX k=1 (zk − wk) Y j<k wj Y j>k zj Lema 3: Para z complexo: |ez − 1− z| ≤ |z|2 ∞X k=2 |z|k−2 k! ≤ |z|2 e|z| Prova: Expandindo ez numa se´rie de Taylor, temos que ez = ∞X k=0 zk k! ⇒ ez − 1− z = z2 ∞X k=2 zk−2 k! ⇒ |ez − 1− z| = ¯¯¯¯ ¯z2 ∞X k=2 zk−2 k! ¯¯¯¯ ¯ ⇒ |ez − 1− z| ≤ |z|2 ∞X k=2 |z|k−2 k! = |z|2 ∞X k=0 |z|k (k + 2)! ≤ |z|2 ∞X k=0 |z|k k! = |z|2 e|z| 8 Econometria/convergencia.pdf Universidade de Sa˜o Paulo - Departamento de Economia EAE 5811 - Econometria I Prof. Dr. Ricardo Avelino 1o Semestre de 2007 Convergeˆncia de Varia´veis Aleato´rias Modos de Convergeˆncia Convergeˆncia em Distribuic¸a˜o: {Xn}∞n=1 converge em distribuic¸a˜o para X, denotado por Xn d→ X, se e somente se lim n→∞ Fn (x) = F (x) para todo ponto de continuidade de F (x) Exemplo 1: Suponha que a func¸a˜o de distribuic¸a˜o de Xn seja definida por Fn (x) = ½ n 2 ¡ x− τ + n−1 ¢ se τ − n−1 ≤ x ≤ τ + n−1 1 se τ + n−1 < x Enta˜o, lim n→∞ Fn (x) = ½ 1 2 se x = τ 1 se x > τ Portanto, Xn d→ X, para F (x) = ½ 0 se x < τ 1 se x ≥ τ Note que lim n→∞ Fn (x) e F (x) coincidem em todos os pontos em que F (x) e´ cont´ınua. Convergeˆncia em Probabilidade: {Xn}∞n=1 converge em probabilidade para X, denotado por Xn P→ X ou plim (Xn) = X se e somente se para ∀ε > 0, lim n→∞ P (ω : |Xn (ω)−X (ω)| > ε) = 0 ou, alternativamente, lim n→∞ P (ω : |Xn (ω)−X (ω)| ≤ ε) = 1 Exemplo 2: Suponha que {Xn} seja uma sequ¨eˆncia com func¸o˜es densidade de probabilidade fn (x) , definida por fn (x) = ½ n−1 se x = 0 1− n−1 se x = 1 1 Enta˜o lim n→∞ P (|Xn − 1| = 0) = limn→∞ ¡ 1− n−1 ¢ = 1 o que implica que lim n→∞ P (|Xn − 1| < ε) = 1, ou seja, Xn P→ 1 Exemplo 3: Suponha que Y ∼ N (0, 1) e que Zn tenha uma sequ¨eˆncia de func¸o˜es de densidade associadas fn, com E (Zn) = 0 e V (Zn) = n −1. Defina a sequ¨eˆncia aleato´ria Yn = Y + Zn, e assuma que Y e Zn sejam independentes, de modo que E (Yn) = 0 e V (Yn) = 1 + n −1. Enta˜o, Yn P→ Y, pois, para qualquer ε > 0, lim n→∞ P (|Yn − Y | < ε) = limn→∞P (|Zn| < ε) = 1− limn→∞P (|Zn| ≥ ε) = 1 uma vez que, pela desiguualdade de Chebyshev, lim n→∞ P (|Zn| ≥ ε) ≤ limn→∞ E ¡ Z2n ¢ ε2 = 1 ε2 lim n→∞ n−1 = 0 Convergeˆncia Quase Certa: {Xn}∞n=1 converge quase certamente para X, denotado por Xn a.s.→ X, se e somente se P ³ ω : lim n→∞ Xn (ω) = X (ω) ´ = 1 ou, alternativamente, se e somente se, para todo ε > 0, lim n→∞ P µ sup n≥N |Xn −X| < ε ¶ = 1 Convergeˆncia na r-e´sima me´dia: Seja {Xn}∞n=1 e X integra´veis de ordem r, 0 < r <∞, i.e. E [|Xn|r] <∞ para todo n e E [|X|r] <∞. {Xn}∞n=1 converge na r-e´sima me´dia (em Lr) para X, denotado por Xn Lr→ X se e somente se lim n→∞ E [|Xn (ω)−X (ω)|r] = 0. Para r = 2, dizemos que Xn converge em me´dia quadra´tica para X. Exemplo 4: Suponha que Y ∼ N (0, 1) , E (Yn) = 0, ∀n, V (Yn) → 1 e que Cov (Yn, Y )→ 1. Enta˜o E (Yn − Y )2 = V (Yn) + V (Y )− 2Cov (Yn, Y ) + [E (Yn)−E (Y )]2 → 0 Portanto, Yn L2→ Y e, consequ¨entemente, Yn P→ Y e Yn d→ Y. Convergeˆncia em distribuic¸a˜o e´ o modo mais fraco de convergeˆncia, pois na˜o garante que Xn e X esta˜o pro´ximos, mesmo para n grande. Enquanto Xn a.s.→ X ⇐⇒ Xn −X a.s.→ 0 Xn P→ X ⇐⇒ Xn −X P→ 0 Xn Lr→ X ⇐⇒ Xn −X Lr→ 0 2 e´ apenas verdade que Xn −X d→ 0 ⇒ Xn d→ X. Entretanto, a rec´ıproca na˜o e´ verdadeira. Exemplo 5: Suponha que Xn ∼ N (0, 1 + 1/n), X ∼ N (0, 1) e que Xn e X sejam independentes. Obviamente, Xn d→ X, mas Xn − X ∼ N (0, 2 + 1/n) . Portanto, Xn −X d→ N (0, 2) , na˜o para 0. Algumas relac¸o˜es entre os modos de convergeˆncia Proposic¸a˜o 1: Se Xn Lr→ X para algum r > 0, enta˜o Xn P→ X. Prova: ComoE [|Xn (ω)−X (ω)|r]→ 0 quando n→∞, E [|Xn (ω)−X (ω)|r] < ∞ para n suficientemente grande. Para ∀ε > 0, pela desigualdade de Chebyshev generalizada, P (|Xn −X| ≥ ε) ≤ E [|Xn −X|r] /εr Portanto, 0 ≤ lim n→∞ P (|Xn −X| ≥ ε) ≤ 1 εr lim n→∞ E [|Xn −X|r] = 0 Exemplo 6: Seja Xn = ½ α com probabilidade 1− 1/n n com probabilidade 1/n Enta˜o, Xn P→ α, pois, para ∀ε > 0 lim n→∞ P (|Xn − α| > ε) = limn→∞ 1 n = 0 No entanto, para r = 1, lim n→∞ E [|Xn − α|] = limn→∞ [|α− α| (1− 1/n) + |n− α| (1/n)] = lim n→∞ |1− α/n| = 1 6= 0 e, para r > 1, lim n→∞ E [|Xn − α|r] = limn→∞ [|α− α| r (1− 1/n) + |n− α|r (1/n)] =∞ 6= 0 Portanto, Xn na˜o converge na r-e´sima me´dia para qualquer r ≥ 1. Exemplo 7: Suponha que P (Yn = 0) = 1 − n−2 e que P (Yn = n) = n−2. Enta˜o lim n→∞ P (Yn = 0) = limn→∞ 1− 1 n2 = 1 3 e, portanto, Yn P→ 0, o que implica que Yn d→ 0. Pore´m, Yn L2→ 0. De fato, E (Yn − 0)2 = 0 ¡ 1− n−2 ¢ + n2n−2 = 1 Proposic¸a˜o 2: Se Xn a.s.→ X , enta˜o Xn P→ X. Prova: |Xn −X| > ε implica que sup n≥N |Xn −X| > ε. Portanto, P (|Xn −X| > ε) ≤ P µ sup n≥N |Xn −X| > ε ¶ e, consequentemente, 0 ≤ lim N→∞ P (|Xn −X| > ε) ≤ lim N→∞ P µ sup n≥N |Xn −X| > ε ¶ = 0 Exemplo 8: Seja {Xn} uma sequ¨eˆncia de varia´veis aleato´rias independentes tais que fn (x) = ½ 1− n−1 se x = 0 n−1 se x = 1 Enta˜o lim n→∞ P (|Xn − 0| = 0) = limn→∞ ¡ 1− n−1 ¢ = 1 o que implica que lim n→∞ P (|Xn − 0| < ε) = 1, ou seja, Xn P→ 0⇒ Xn d→ 0. Ale´m disso, E (Xn) = n −1 → 0 e V (Xn) = n −2 ¡1− n−1¢+ ¡1− n−1¢2 n−1 = n−2 − n−3 + ¡ n−2 − 2n−1 + 1 ¢ n−1 = n−2 − n−3 + n−3 − 2n−2 + n−1 = n−1 − n−2 → 0 Portanto, Xn L2→ 0. Mas P (|Xi| < ε, n < i < s) = sY i=n ¡ 1− i−1 ¢ = sY i=n i− 1 i = n− 1 n n n+ 1 ... s− 1 s = n− 1 s → 0 quando s→∞ Enta˜o lim n→∞ P (|Xi| < ε, i > n) = 0 4 Proposic¸a˜o 3: Se Xn Lr→ X e r > s, enta˜o Xn Ls→ X. Prova: E [|Xn −X|s] = E h (|Xn −X|r)s/r i ≤ {E [(|Xn −X|r)]}s/r pela desigualdade de Jensen aplicada a` func¸a˜o coˆncava, pois s/r < 1. Portanto 0 ≤ lim N→∞ E [|Xn −X|s] ≤ limN→∞ {E [(|Xn −X| r )]}s/r = 0 Exemplo 9: Seja {Xn} uma sequ¨eˆncia de varia´veis aleato´rias independentes tais que fn (x) = ½ 1− n−2 se x = 0 n−2 se x = n Enta˜o P (|Xi| < ε, n < i < s) = sY i=n ¡ 1− i−2 ¢ = sY i=n i2 − 1 i2 = (n− 1) (n+ 1) n2 n (n+ 2) (n+ 1)2 ... (s− 1) (s+ 1) s2 = (n− 1) (s+ 1) ns → n− 1 n quando s→∞ Enta˜o lim n→∞ P (|Xi| < ε, i > n) = limn→∞ n− 1 n = 1 isto e´, Xn a.s.→ 0. No entanto, E (Xn) = n−1 → 0 e V (Xn) = ¡ n− n−1 ¢2 n−2 + ¡ −n−1 ¢2 ¡ 1− n−2 ¢ = ¡ n2 − 2 + n−2 ¢ n−2 + n−2 − n−4 = 1− 2n−2 + n−4 + n−2 − n−4 = 1− n−2 → 1 Portanto, Xn na˜o converge em me´dia quadra´tica para 0. Proposic¸a˜o 4 (Equivaleˆncia Assinto´tica): Sejam {Xn} e {Yn} sequeˆncias de varia´veis aleato´rias (ou vetores). Se Xn − Yn P→ 0 e Yn d→ Y, enta˜o Xn d→ Y. Prova: Seja Yn −Xn = Zn e x um ponto de continuidade de FY . FXn (x) = P (Xn < x) = P (Yn < x+ Zn) = P (Yn < x+ Zn, Zn < ε) + P (Yn < x+ Zn, Zn ≥ ε) ≤ P (Yn < x+ ε) + P (Zn ≥ ε) para qualquer ε > 0. Segue-se que lim supFXn (x) ≤ FY (x+ ε) + 0 porque P (Zn ≥ ε) → 0 e P (Yn < x+ ε) → FY (x+ ε) caso x + ε seja um ponto de continuidade de FY . Por outro lado, seja Xn − Yn =Wn, FXn (x) = P (Xn < x) = P (Yn < x−Wn) ≥ P (Yn < x− ε)− P (Wn ≥ ε) 5 porque P (Yn < x− ε) = P (Yn < x−Wn +Wn − ε) = P (Yn < x−Wn +Wn − ε,Wn < ε) +P (Yn < x−Wn +Wn − ε,Wn ≥ ε) ≤ P (Yn < x−Wn,Wn < ε) + P (Wn ≥ ε) ≤ P (Yn < x−Wn) + P (Wn ≥ ε) Segue-se que lim inf FXn (x) ≥ lim inf P (Yn < x− ε) = FY (x− ε) quando x− ε e´ um ponto de continuidade de FY , pois lim inf P (Wn ≥ ε) = 0. Portanto, FY (x− ε) ≤ lim inf FXn (x) ≤ lim supFXn (x) ≤ FY (x+ ε) Resta mostrar que x + ε e x + ε sa˜o pontos de continuidade de FY para ε arbitrariamente pro´ximo de zero. Isso resulta do fato de que a func¸a˜o de distribuic¸a˜o so´ pode ser descont´ınua em um conjunto enumera´vel de pontos e do fato de que todo intervalo em torno de x conte´m um nu´mero na˜o enumera´vel de pontos. Exemplo 10: Suponha que Xn ∼ N (0, (n− 1) /n) , de modo que Xn d→ X ∼ N (0, 1) , e que Zn ∼ χ2n, com Xn e Zn independentes. Defina Yn =¡ 1 + n−1 ¢ Xn + n −1Zn − 1. Note que Xn − Yn = 1 − n−1 (Xn + Zn). Pelo Teorema de Mahn-Wald, plim (Xn − Yn) = 1 − plim (Xn/n) − plim (Zn/n) . Como E (Xn/n) = 0 e V (Xn/n) = (n− 1) /n3, plim (Xn/n) = 0. Semel- hantemente, como E (Zn/n) = 1 e V (Zn/n) = 2/n, plim (Zn/n) = 1. Enta˜o, plim (Xn − Yn) = 0, o que, juntamente com Xn d→ X, implica que Yn d→ X. Corola´rio: Xn P→ X implica que Xn d→ X. Prova: Como Xn −X P→ 0 e X d→ X, enta˜o Xn d→ X. Proposic¸a˜o 5 (Teorema de Helly-Bray): Fn → F (i.e., Xn d→ X) implica queZ +∞ −∞ gdFn → Z +∞ −∞ gdF para toda func¸a˜o cont´ınua limitada g. Prova: Sejam a e b dois pontos de continuidade de F , a < bZ +∞ −∞ gdFn− Z +∞ −∞ gdF = Z a −∞ g (dFn − dF )+ Z b a g (dFn − dF )+ Z +∞ b g (dFn − dF ) Seja c o limite de g tal que |g| < c. 6 ¯¯¯¯Z a −∞ gdFn − Z a −∞ gdF ¯¯¯¯ < c Z a −∞ dFn + c Z a −∞ dF = c [Fn (a) + F (a)] < ε/5 para um a apropriado e n ≥ n0. Similarmente, Z +∞ b g (dFn − dF ) < ε/5 para b e n0 apropriados. g e´ uniformemente cont´ınua em [a, b] . Divida [a, b] em m intervalos x0 = a < x1 < ... < xm−1 < b = xm, onde x1, ..., xm−1 sa˜o todos pontos de continuidade de F tais que |g (x)− g (xi)| < ε/5 para todo x ∈ (xi, xi+1) . Defina gm (x) = g (xi) para x ∈ (xi, xi+1) . Enta˜oZ b a gm (x) dFn (x) = m−1X i=0 g (xi) [Fn (xi+1)− Fn (xi)] → m−1X i=0 g (xi) [F (xi+1)− F (xi)] = Z b a gm (x) dF (x) Portanto, ¯¯¯¯ ¯ Z b a gm (x) dFn (x)− Z b a gm (x) dF (x) ¯¯¯¯ ¯ < ε/5 para n suficiente- mente grande. ¯¯¯¯ ¯ Z b a gdFn − Z b a gdF ¯¯¯¯ ¯ = ¯¯¯¯ ¯ Z b a (g − gm) dFn + Z b a gm (dFn − dF ) + Z b a (gm − g) dF ¯¯¯¯ ¯ < Z b a ε/5dFn + ε/5 + Z b a ε/5dF < 3ε/5 o que implica que¯¯¯¯Z +∞ −∞ gdFn − Z +∞ −∞ gdF ¯¯¯¯ < ε/5 + 3ε/5 + ε/5 = ε Proposic¸a˜o 6: Se Xn d→ c e c e´ constante, enta˜o Xn P→ c. Prova: Para todo ε > 0, P (|Xn − c| > ε) = E [1 {|Xn − c| > ε}] = Z +∞ −∞ hdFn ≤ Z +∞ −∞ gdFn para h = ½ 1 se |Xn − c| > ε 0 caso contra´rio e uma func¸a˜o cont´ınua limitada g com as seguintes propriedades: 1 ≥ g (x) ≥ 0, g (c) = 0 e g (x) = 1 toda vez que |Xn − c| > ε. Pelo teorema de Helly-Bray, 0 ≤ lim n→∞ P (|Xn − c| > ε) ≤ limn→∞ Z +∞ −∞ gdFn = Z +∞ −∞ gdF = g (c) = 0 7 pois F e´ degenerada em c. Exemplo 11: Suponha que {Yn} seja uma sequ¨eˆncia de varia´veis aleato´rias e que Yn d→ c, isto e´, Fn (Y )→ F (Y ) = 1A (Y ) , para A = {Y : Y ≥ c} . Enta˜o, quando n→∞, lim n→∞ P (|Yn − c| < ε) ≥ Fn (c+ τ)− Fn (c− τ)→ 1 para τ ∈ (0, ε) e ∀ε > 0, o que implica que Yn P→ c. Exemplo 12: Seja X uma varia´vel aleato´ria com distribuic¸a˜o de Bernoulli assumindo os valores 0 e 1 com probabilidade igual a 1/2. Seja {Xn} uma sequ¨eˆncia de varia´veis aleato´rias ideˆnticas, isto e´, Xn = X para todo n. Por construc¸a˜o, Xn d→ X. Defina Y = 1−X. ComoX e Y teˆm a mesma distribuic¸a˜o, no´s sabemos que Xn d→ Y. Mas |Xn − Y | = 1 sempre. Portanto, Xn na˜o pode convergir para Y em nenhum outro modo de convergeˆncia. Exemplo 13: Como no exemplo 5, suponha que Xn ∼ N (0, 1 + 1/n), X ∼ N (0, 1) e que Xn e X sejam independentes. Novamente, Xn d→ X, mas Xn − X ∼ N (0, 2 + 1/n) . Para n grande, Xn − X d→ N (0, 2) e, portanto, P ¡|Xn −X| > √2¢ ≈ 0.32. Consequ¨entemente, lim n→∞ P ³ |Xn −X| > √ 2 ´ ≈ 0.32 6= 0 Teoremas U´teis Mahn-Wald: Seja g : Rk → Rm cont´ınua em todos os pontos de um conjunto C tal que P (X ∈ C) = 1. Se Xn P→ X,enta˜o g (Xn) P→ g (X) . Prova: Fixe um ε > 0 arbitra´rio. Para cada δ > 0, seja Bδ o conjunto dos pontos x para os quais existe y tal que |x− y| < δ e |g (x)− g (y)| > ε. Se X /∈ Bδ e |g (x)− g (y)| > ε, enta˜o |x− y| ≥ δ. Consequ¨entemente, P (|g (x)− g (y)| > ε) ≤ P (X ∈ Bδ) + P (|x− y| ≥ δ) O segundo termo do lado direito da equac¸a˜o acima converge para zero quando n→∞ para todo δ > 0, por hipo´tese. Como Bδ ∩C → φ quando δ → 0, pois g e´ cont´ınua, o primeiro termo do lado direito converge para zero quando δ → 0. Slutsky: Sejam {Xn, Yn} uma sequ¨eˆncia de pares de varia´veis aleato´rias. Enta˜o a) Se Xn d→ X e Yn P→ 0, enta˜o XnYn P→ 0 8 b) Se Xn d→ X e Yn P→ c, enta˜o Xn + Yn d→ X + c, XnYn d→ cX e Xn/Yn d→ X/c se c 6= 0. Prova: a) P (|XnYn| ≥ ε) = P (|XnYn| ≥ ε, |Yn| ≤ ε/k) + P (|XnYn| ≥ ε, |Yn| > ε/k) ≤ P (|Xn| ≥ k) + P (|Yn| > ε/k) para k >0, pois |XnYn| ≥ ε e |Yn| ≤ ε/k implicam que ε ≤ |XnYn| = |Xn| |Yn| ≤ ε/k |Xn| , o que, por sua vez, implica que k ≤ |Xn| . Portanto, lim sup n→∞ P (|XnYn| ≥ ε) ≤ limn→∞Fn (−k) + limn→∞ (1− Fn (k)) + lim n→∞ P (|Yn| > ε/k) = F (−k) + (1− F (k)) pois Xn d→ X (escolha k de modo que F (x) seja cont´ınua em k e −k) e Yn P→ 0. No limite, quando k →∞, 0 ≤ lim sup n→∞ P (|XnYn| ≥ ε) ≤ 0 b) Xn d→ X ⇒ Xn + c d→ X + c. Como (Xn + Yn)− (Xn + c) = Yn − c P→ 0, pela equivaleˆncia assinto´tica, Xn + Yn d→ X + c. Ale´m disso, Xn d→ X ⇒ cXn d→ cX. Pela parte (a), XnYn − cXn = Xn (Yn − c) P→ 0. Portanto, por equivaleˆncia assinto´tica, XnYn d→ cX. Finalmente, Xn d→ X ⇒ Xn/c d→ X/c, pois c 6= 0. Xn/Yn − Xn/c = Xn (1/Yn − 1/c) P→ 0 pelo Teorema de Mahn-Wald e pela parte (a). Portanto, Xn/Yn d→ X/c. Exemplo 14: Suponha que Yn P→ 4, que Xn d→ X e que F (X) = ½ θ−1 exp (−X/θ) se X > 0 0 caso contra´rio Enta˜o XnYn d→ 4X. Como φ (X) = (1− itθ)−1 , φ (4X) = E [exp (it4X)] = (1− it4θ)−1 , ou seja, XnYn converge em distribuic¸a˜o para uma exponencial com paraˆmetro 4θ. Me´todo Delta: Suponha que αn (Xn − b) d→ X e que αn → ∞. Seja g (.) uma func¸a˜o continuamente diferencia´vel em b (possivelmente assumindo valores em Rn). Enta˜o αn (g (Xn)− g (b)) d→ ∂g (b) ∂b0 X 9 Prova: Xn − b = 1 αn αn (Xn − b) d→ 0X = 0 pelo Teorema de Slutsky. Portanto, Xn d→ b, o que implica que Xn P→ b. Pelo Teorema do Valor Me´dio, g (Xn) = g (b) + ∂g (X∗n) ∂X∗0n (Xn − b) para algum X∗n na linha conectando Xn e b. Como Xn d→ b implica que Xn P→ b, pelo Teorema de Mahn-Wald, ∂g(X∗n) ∂X∗0n P→ ∂g(b)∂b0 . Enta˜o, aplicando-se novamente o Teorema de Slutsky, segue-se que αn (g (Xn)− g (b)) = ∂g (X∗n) ∂X∗0n αn (Xn − b) d→ ∂g (b) ∂b0 X Exemplo 15: Suponha que √ n ³ θˆ − θ ´ d→ N ¡ 0, σ2 ¢ e que queiramos estimar g (θ) = exp (θ) atrave´s de g ³ θˆ ´ = exp ³ θˆ ´ . Nesse caso, g0 (θ) = exp (θ) e √ n ³ g ³ θˆ ´ − g (θ) ´ d→ exp (θ)N ¡ 0, σ2 ¢ = N ¡ 0, exp (2θ)σ2 ¢ Exemplo 16: Suponha que θ = · θ1 θ2 ¸ , √ n ³ θˆ − θ ´ d→ N (0,Σ) e que no´s estejamos interessados em estimar g (θ) = √ θ1 θ1 + 3θ2 θ1θ2 atrave´s de g ³ θˆ ´ . Nesse caso, ∂g (θ) ∂θ0 = 1 2 √ θ1 0 1 3 θ2 θ1 e √ n ³ g ³ θˆ ´ − g (θ) ´ d→ ∂g (θ) ∂θ0 N (0,Σ) = N 0, 1 2 √ θ1 0 1 3 θ2 θ1 · σ11 σ12 σ21 σ22 ¸ · 1 2 √ θ1 1 θ2 0 3 θ1 ¸ 10 Econometria/exerc_cios_cap_6_romer.pdf Econometria/extremum.pdf Universidade de Sa˜o Paulo - Departamento de Economia EAE 5811 - Econometria I Prof. Dr. Ricardo Avelino 1o Semestre de 2007 Teoria Assinto´tica, Motivac¸a˜o, Instrumental e Resultados Gerais para Estimadores Extremos Motivac¸a˜o para o estudo de teoria assinto´tica Relembre os resultados ba´sicos de estimac¸a˜o pontual. No´s t´ınhamos uma amostra x = (x1, ..., xn) de observac¸o˜es que era, por hipo´tese, uma observac¸a˜o particular do vetor aleato´rio X = (X1, ...,Xn). X tinha uma distribuic¸a˜o con- junta de probabilidade P pertencente a uma famı´lia conhecida. A famı´lia de distribuic¸o˜es P era indexada por um paraˆmetro θ ∈ Θ, onde Θ denotava o espac¸o de paraˆmetros, isto e´, P = {Pθ : θ ∈ Θ}. Nosso objetivo era estimar θ. No´s quer´ıamos escolher uma estat´ıstica, isto e´, uma func¸a˜o real do vetor aleato´rio X, chamada de estimador, que estivesse “pro´xima” de θ. O estimador, denotado por δ (X) , era uma varia´vel aleato´ria. Escolher um estimador significava, portanto, escolher uma distribuic¸a˜o amostral da qual obter uma realizac¸a˜o. Um bom estimador estava “pro´ximo” do valor verdadeiro com uma grande probabilidade. Para quantificar a proximidade e ser capaz de escolher entre estimadores alternativos, no´s utilizamos o conceito de func¸a˜o risco. No´s assumimos que uma func¸a˜o perda L (θ, d) estava dispon´ıvel e que, para cada valor poss´ıvel de θ ∈ Θ e para cada estimativa poss´ıvel d ∈ Θ, L (θ, d) media a perda incorrida pelo econometrista quando o valor verdadeiro do paraˆmetro era θ e sua estimativa d. Baseado nisso, no´s definimos a func¸a˜o risco associada a` func¸a˜o perda L e ao estimador δ como o valor esperado da func¸a˜o perda (com a esperanc¸a calculada com relac¸a˜o a X, na˜o com relac¸a˜o a θ): R (θ, d) = Eθ [L (θ, δ (X))] = R L (θ, δ (X)) dPθ No´s vimos que o problema de minimizac¸a˜o do risco uniformemente em θ na˜o tinha uma soluc¸a˜o. No´s introduzimos enta˜o restric¸o˜es de imparcialidade na esperanc¸a de que fosse poss´ıvel achar um (u´nico) estimador que minimizasse o risco uniformemente dentro da classe de estimadores satisfazendo a restric¸a˜o em questa˜o. No´s nos concentramos em estimadores na˜o viesados para a me´dia e fornecemos condic¸o˜es suficientes para a existeˆncia e unicidade de um esti- mador na`o viesado que minimizasse o risco uniformemente. As condic¸o˜es sufi- cientes eram: (i) existeˆncia de uma estat´ıstica suficiente completa para P e (ii) convexidade (estritamente para unicidade) da func¸a˜o perda. No´s focamos em func¸o˜es perda (estritamente convexas) dadas pelo erro quadra´tico me´dio, para a qual a minimizac¸a˜o do risco equivalia a` minimizac¸a˜o da variaˆncia quando considera´vamos estimadores na˜o viesados. Portanto, no´s procuramos por esti- madores na˜o viesados que minimizavam uniformemente a variaˆncia. 1 Entretanto, estimadores na˜o viesados que minimizam a variaˆncia uniforme- mente podem na˜o existir. Para estimadores na˜o viesados com variaˆncia finita, no´s ainda fomos capazes de determinar qua˜o “bom” era um estimador sugerido atrave´s da comparac¸a˜o de sua variaˆncia com o limite inferior de Cramer-Rao para a variaˆncia de qualquer estimador dado pela desigualdade da informac¸a˜o. Infelizmente, alguns problemas persistem: 1. As distribuic¸o˜es exatas sa˜o frequ¨entemente dif´ıceis de derivar. Ale´m disso, em modelos com distribuic¸o˜es na˜o especificadas (na˜o parame´tricas), resultados exatos na˜o esta˜o dispon´ıveis. 2. Considerar somente estimadores na˜o viesados para a me´dia tambe´m trazia problemas. a) Estimadores na˜o viesados a`s vezes na˜o existem. b) Nenhum me´todo geral para deriva´-los existe. c) Pode existir um estimador viesado com menor risco ∀θ ∈ Θ 3. Em geral, resultados baseados na teoria amostral exata sa˜o sens´ıveis a` escolha da func¸a˜o perda. A teoria assinto´tica ajuda a aliviar esses problemas. A teoria assinto´tica, como discutido anteriormente, considera uma amostra x = (x1, ..., xn) (uma observac¸a˜o de um vetor aleato´rio X = (X1, ...,Xn)) na˜o para um n fixo, mas como membro de uma sequ¨eˆncia correspondendo a n = 1, 2, ... e avalia a performance da sequ¨eˆncia de estimadores {δn (X)}∞n=1 quando n→∞. Crite´rios de estimac¸a˜o em amostras grandes Definic¸a˜o (consisteˆncia): Uma sequ¨eˆncia de estimadores θˆn (X1, ...,Xn) e´ fracamente consistente para θ0 se ∀θ0 ∈ Θ, θˆn converge em probabilidade para θ0, denotado por θˆn P→ θ0 Para economizar na notac¸a˜o, na sequ¨eˆncia eu usarei “um estimador θˆn” ao inve´s de uma sequ¨eˆncia de estimadores θˆn (X1, ...,Xn) . θ0 ao inve´s de apenas θ e´ usado para denotar o valor verdadeiro para evitar confusa˜o adiante. O termo “fraca” na definic¸a˜o e´ inclu´ıdo para distingui-la do termo con- sisteˆncia forte, usado para descrever a propriedade θˆn a.s.→ θ0. No´s nos concen- traremos em consisteˆncia fraca. Para um vetor de paraˆmetros ser estimado consistentemente, ele precisa ser identificado. Definic¸a˜o (identificac¸a˜o de um vetor de paraˆmetros): Suponha que X = (X1, ...,Xn) tenha distribuic¸a˜o Pθ . O valor do paraˆmetro θ1 e´ dito identificado se na˜o existir nenhum outro valor do paraˆmetro θ2 de θ tal que Pθ1 = Pθ2 . 2 Se houver valores dos paraˆmetros que na˜o sa˜o identificados, no´s dizemos que θ na˜o e´ identificado. Intuitivamente, um paraˆmetro na˜o identificado na˜o pode ser estimado consistentemente porque, se a distribuic¸a˜o de X e´ a mesma para θ1 e θ2, no´s na˜o podemos utilizar as observac¸o˜es para decidir se o valor verdadeiro de θ e´ θ1 ou θ2. Consisteˆncia e´ uma propriedade muito fraca. Ela nos diz que, quando o nu´mero de observac¸o˜es tende ao infinito, a probabilidade do erro de estimac¸a˜o ser maior do que qualquer ε > 0 tende a zero, mas na˜o nos diz qua˜o ra´pido isso ocorre. Num caso extremo, se θˆn e´ um estimador consistente de θ, o mesmo e´ verdade para θˆn + 1000000/n, θˆn − 1000000/n, θˆn + 7/ √ n ou θˆn + 19/ ¡ n0.2 ¢ . Um estimador que na˜o e´ nem consistente e´ frequ¨entemente considerado ruim. Auseˆncia de vie´s nos diz que, na me´dia, em amostras repetidas da populac¸a˜o, o estimador estara´ pro´ximo do valor verdadeiro do paraˆmetro. Consisteˆncia nos diz que o estimador deve estar arbitrariamente pro´ximo do valor verdadeiro com probabilidade aproximando-se de 1 quando o nu´mero de observac¸o˜es tende ao infinito. Esses conceitos esta˜o relacionados mas diferem. Estimadores con- sistentes sa˜o frequ¨entemente substancialmente mais fa´ceis de encontrar do que estimadores na˜o viesados. Portanto, o estudo da teoria assinto´tica nos ajuda a solucionar um dos problemas encontrados na teoria amostral para amostras finitas. Normalidade assinto´tica Para obter uma ide´ia da taxa de convergeˆncia de um estimador consistente θˆn, considere a probabilidade Pn (c) = P ³ αn ¯¯¯ θˆn − θ ¯¯¯ ≤ c ´ na qual αn e´ uma sequ¨eˆncia crescente. Se αn e´ limitado, enta˜o Pn (c) → 1 pela consisteˆncia de θˆn. Por outro lado, se αn → ∞ suficientemente ra´pido, enta˜o Pn (c)→ 0. Isso sugere que, para um dado c, talvez exista uma sequ¨eˆncia intermedia´ria αn →∞ que fornec¸a a taxa correta, de modo que Pn (c) convirja para um limite estritamente entre 0 e 1. Na maioria dos casos, essa intuic¸a˜o conduz ao resultado correto. Tipicamente, existe uma sequ¨eˆncia αn e uma func¸a˜o de distribuic¸a˜o cont´ınua F tal que, para todo c ∈ Rk, P = P ³ αn ³ θˆn − θ ´ ≤ c ´ → F (c) isto e´, αn ³ θˆn − θ ´ d→ F No´s enta˜o dizemos que o erro ¯¯¯ θˆn − θ ¯¯¯ tende a zero a` taxa 1/αn e que o estimador θˆn e´ αn− consistente. 3 Tipicamente, αn = √ n e F (c) e´ uma normal multivariada. Nesse caso, √ n ³ θˆn − θ ´ d→ N (0,Σ (θ)) .No´s nos referimos como √ n-normalidade assinto´tica a essa propriedade. Note que quando no´s dizemos que θˆn e´ √ n assintotica- mente normal. no´s queremos dizer que √ n ³ θˆn − θ ´ e´ assintoticamente normal. √ n ³ θˆn − θ ´ d→ N (0,Σ (θ)) implica que, em amostras grandes, e´ aproximada- mente verdade que θˆn ∼ N ¡ 0, 1 n Σ (θ) ¢ , denotado por θˆn A∼ N ¡ 0, 1 n Σ (θ) ¢ . Definic¸a˜o (normalidade assinto´tica do estimador): θˆn e´ (αn−) assintotica- mente normalmente distribu´ıdo se e somente se existe uma sequ¨eˆncia crescente αn tal que √ αn ³ θˆn − θ ´ d→ N (0,Σ (θ)) . A matriz Σ (θ) e´ chamada de matriz de variaˆncia covariaˆncia assinto´tica de θˆn. Estimadores assintoticamente normais na˜o sa˜o unicos. Considere, por exem- plo, as distribuic¸o˜es assinto´ticas de dois estimadores: θˆ1n e θˆ2n. Se √ n ³ θˆ1n − θ ´ d→ N (0,Σ (θ)) e √ n ³ θˆ2n − θˆ1n ´ P→ 0 enta˜o √ n ³ θˆ2n − θ ´ = √ n ³ θˆ2n − θˆ1n ´ + √ n ³ θˆ1n − θ ´ d→ N (0,Σ (θ)) Note que para estimadores consistentes e assintoticamente normais, a dis- tribuic¸a˜o assinto´tica e´ completamente determinada por Σ (θ) no sentido de que Σ (θ) determina a probabilidade de que o erro de estimac¸a˜o θˆn − θ esteja com- preendido num dado intervalo. Para qualquer func¸a˜o perda plaus´ıvel, no´s quere- mos escolher um estimador consistente com a menor variaˆncia assinto´tica. Nesse sentido, a ana´lise assinto´tica na˜o e´ sens´ıvel a` escolha da func¸a˜o perda. Os resultados de normalidade assinto´tica, juntamente com uma estimativa consistente de Σ (θ), nos permite obter intervalos de confianc¸a va´lidos assintot- icamente e conduzir testes de hipo´tese. Eficieˆncia assinto´tica Em amostras finitas, no´s estabelecemos, sob certas condic¸o˜es, a desigualdade da informac¸a˜o para um estimador na˜o viesado θˆn de θ. No caso de uma amostra X = (X1, ...,Xn) i.i.d., t´ınhamos que, se θˆn era um estimador na˜o viesado de θ com segundo momento finito, enta˜o, sob condic¸o˜es de regularidade, V ³ θˆn ´ ≥ [nI1 (θ)]−1 ⇔ nV ³ θˆn ´ ≥ [I1 (θ)]−1 (1) I1 (θ) e´ a informac¸a˜o de cada observac¸a˜o. (V ³ θˆn ´ depende do verdadeiro θ, mas no´s suprimimos essa dependeˆncia para evitar adicionar mais subscritos). 4 Sob certas hipo´teses, uma desigualdade da informac¸a˜o ana´loga pode ser derivada para amostras grandes. Se θˆn e´ assintoticamente normal, isto e´,√ n ³ θˆn − θ ´ d→ N (0,Σ (θ)) , enta˜o, sob condic¸o˜es de regularidade, Σ (θ) ≥ [I1 (θ)]−1 (2) exceto num conjunto com medida de Lebesgue zero. Definic¸a˜o (eficieˆncia assinto´tica): Um estimador θˆn (ou, mais precisamente, uma sequ¨eˆncia de estimadores n θˆn o ) satisfazendo √ n ³ θˆn − θ ´ d→ N (0,Σ (θ)) e´ dito assintoticamente eficiente se Σ (θ) = [I1 (θ)] −1 . Como no´s veremos a seguir, existira˜o frequ¨entemente estimadores assintot- icamente normais que atingem o limite inferior [I1 (θ)] −1 dado na desigual- dade assinto´tica da informac¸a˜o, mais especificamente, estimadores de ma´xima verossimilhanc¸a. Tipicamente, existira˜o estimadores que sa˜o assintoticamente normais mas com uma variaˆncia assinto´tica menor do que [I1 (θ)] −1 para pelo menos alguns valores de θ, chamados de pontos de supereficieˆncia. Mas o con- junto desses pontos tem medida de Lebesgue igual a zero. No´s a`s vezes consideraremos uma classe particular de estimadores assintot- icamente normais. Um estimador θˆn e´ dito assintoticamente eficiente na classe de estimadores assintoticamente normais se e somente se qualquer outro esti- mador θ˜n dentro da classe tem uma variaˆncia assinto´tica Σ˜ (θ) e Σ˜ (θ)−Σ (θ) e´ positiva semi-definida. Note as diferenc¸as entre (1) e (2). √ n ³ θˆn − θ ´ d→ N (0,Σ (θ)) implica consisteˆncia de θˆn. Por queˆ? Porque implica que, para n grande, e´ aproximada- mente verdade que θˆn A∼ N ¡ θ, 1 n Σ (θ) ¢ . Portanto, θˆn converge em distribuic¸a˜o para a constante θ. Mas no´s sabemos que isso implica convergeˆncia em proba- bilidade para a mesma constante. Portanto, (2) assume consisteˆncia de θ, enquanto (1) assume que θˆn e´ na˜o viesado para qualquer tamanho da amostra n, E ³ θˆn ´ = θ, ∀n. Auseˆncia de vie´s na˜o implica consisteˆncia e consisteˆncia na˜o implica auseˆncia de vie´s. Em particular, consisteˆncia de um estimador na˜o implica que o estimador e´ na˜o viesado para qualquer tamanho da amostra n, nem que a me´dia da dis- tribuic¸a˜o assinto´tica de αn ³ θˆn − θ ´ e´ zero, isto e´, que o estimador e´ assintoti- camente na˜o viesado. Por exemplo, considere um estimador θˆn que e´ consistente (isto e´, θˆn P→ θ), na˜o viesado (isto e´, E ³ θˆn ´ = θ) e √ n-assintoticamente normal ( √ n ³ θˆn − θ ´ d→ 5 N (0,Σ (θ))). Agora, considere o estimador θ˜n = θˆn + c√n , para uma con- stante finita c 6= 0. Enta˜o, θ˜n P→ θ, mas E ³ θ˜n ´ = θ + c√ n 6= θ para todo n finito. Portanto, θ˜n e´ consistente, mas e´ viesado para todo n finito. Ale´m disso,√ n ³ θ˜n − θ ´ d→ N (c,Σ (θ)) . Portanto, θ˜n e´ √ n− assintoticamente normal, mas e´ assintoticamente viesado. Em geral, o limite em probabilidade, o limite da esperanc¸a e a esperanc¸a assinto´tica (a esperanc¸a da distribuic¸a˜o assinto´tica) na˜o coincidem. V ³ θˆn ´ em (1) e´ a variaˆncia do estimador, enquanto Σ (θ) e´ sua variaˆncia assinto´tica. E´ poss´ıvel mostrar que Σ (θ) ≤ lim inf n ³ nV ³ θˆn ´´ com a desigualdade talvez sendo estrita. (1) implica (2) se nV ³ θˆn ´ = V ³√ n ³ θˆn − θ ´´ → Σ (θ)) e E ³ θˆn ´ = θ ou lim n→∞ E ³ θˆn ´ = θ. Estimadores extremos: um instrumental geral Uma caracter´ıstica central da estimac¸a˜o por mı´nimos quadrados ordina´rios e´ a minimizac¸a˜o de uma func¸a˜o objetivo que depende dos dados, do tamanho da amostra e dos paraˆmetros a serem estimados. Va´rios estimadores compartilham essa estrutura de minimizac¸a˜o/maximizac¸a˜o e e´ u´til analisar essa classe geral de estimadores a fim de entender os elementos centrais nas provas de consisteˆncia e normalidade assinto´tica e nas derivac¸o˜es de variaˆncias assinto´ticas. Em ter- mos de provas, a ana´lise abaixo e´ mais u´til para estimadores para os quais na˜o e´ poss´ıvel obter uma soluc¸a˜o fechada. Quando e´ poss´ıvel obter uma soluc¸a˜o anal´ıtica, como, por exemplo, no caso do estimador de MQO, e´ frequ¨entemente poss´ıvel aplicar leis dos grandes nu´meros e teoremas centrais do limite direta- mente nas fo´rmulas para consisteˆncia e normalidade assinto´tica. Sob uma perspectiva mais ba´sica, considerar estimadores como casos es- peciais dentro de um instrumental geral evita que pensemos que econometria consiste de uma colec¸a˜o confusa de estimadores diferentes e aparentemente na˜o relacionados. A discussa˜o a seguir sobre estimadors extremos segue de modo pro´ximo Newey e McFadden (1994). Definic¸a˜o (estimador extremo): Um estimador θˆn e´ um estimador extremo se existe uma func¸a˜o objetivo Qˆn (θ) tal que θˆn maximiza Qˆn (θ) sujeito a θ ∈ Θ onde Θ e´ o conjunto de valores poss´ıveis do paraˆmetro. 6 Novamente, para na˜o carregar na notac¸a˜o, suprimimos a dependeˆncia dos dados X de θˆn e Qˆn (θ). O subscrito 0 denotara´ o valor verdadeiro do paraˆmetro em questa˜o. Exemplos: Mı´nimos Quadrados Ordina´rios: Observac¸o˜es: (yi, xi) , i = 1, 2, ... com E [y|X] = Xβ, portanto θ = β Func¸a˜o objetivo: Qˆn (θ) = − 1n Pn i=1 (yi − x0iβ) 2 Mı´nimos Quadrados Na˜o Lineares: Observac¸o˜es: (yi, xi) , i = 1, 2, ... com E [y|X] = h (xi, θ) Func¸a˜o objetivo: Qˆn (θ) = − 1n Pn i=1 (yi − h (xi, θ)) 2 Ma´xima Verossimilhanc¸a: Observac¸o˜es: (yi, xi) , i = 1, 2, ... no caso mais simples i.i.d., por hipo´tese, com f.d.p. f (x, θ0) pertencente a uma famı´lia de f.d.p. 0s f (x, θ) Func¸a˜o objetivo: Qˆn (θ) = 1 n Pn i=1 ln f (xi, θ) (a func¸a˜o de log verossimil- hanc¸a normalizada) O objetivo de ma´xima verossimilhanc¸a e´ escolher como estimativa o vetor de paraˆmetros que maximiza a probabilidade da amostra dispon´ıvel ser observada. Ma´xima verossimilhanc¸a e´ bastante utilizada. Alguns exemplos incluem: mod- elos de escolha discreta, modelos com varia´vel dependente limitada, modelos para durac¸a˜o. Me´todo generalizado dos momentos Observac¸o˜es: xi, i = 1, 2, ... Suponha que exista uma func¸a˜o g (x, θ) tal que os momentos populacionais satisfac¸am E [g (x, θ0)] = 0. O estimador do me´todo generalizado dos momentos minimiza o quadrado da distaˆncia Euclidiana dos momentos amostrais correspondentes com relac¸a˜o a` contrapartida populacional de zero utilizando uma matriz de ponderac¸a˜o W. Func¸a˜o objetivo: Qˆn (θ) = − £ 1 n Pn i=1 g (xi, θ) ¤0 Wˆ £ 1 n Pn i=1 g (xi, θ) ¤ . Wˆ e´ uma estimativa consistente de W e deve ser positiva semi-definida. O estimador do me´todo generalizado dos momentos e´ frequ¨entemente utilizado para estimar os paraˆmetros de equac¸o˜es de Euler de problemas de otimizac¸a˜o dos consumidores, pois elas da˜o origem a condic¸o˜es de momento precisamente da forma E [g (x, θ0)] = 0. No´s consideraremos um caso simples do me´todo generalizado dos momentos mais a` frente denominado de varia´veis instrumentais lineares. 7 Distaˆncia mı´nima cla´ssica Suponha que exista um vetor de estimadores πˆ P→ π0 e um vetor de func¸o˜es h (θ) com π0 = h (θ0). No´s desejamos estimar θ baseado em πˆ e conhecimento da func¸a˜o h. Func¸a˜o objetivo: Qˆn (θ) = − [πˆ − h (θ)]0 Wˆ [πˆ − h (θ)] . Novamente, Wˆ e´ uma matriz de ponderac¸a˜o positiva semi-definida. No´s consideraremos o estimador de distaˆncia mı´nima cla´ssica no contexto do modelo de equac¸o˜es simultaˆneas, no qual π consiste de paraˆmetros da forma reduzida, θ consiste de paraˆmetros estruturais em que estamos interessados e h (θ) nos fornece a relac¸a˜o entre a forma reduzida e a forma estrutural. Estimadores que assumem a forma ilustrada pelo me´todo generalizado dos momentos ou pelo estimador de distaˆncia mı´nima cla´ssica sa˜o a`s vezes denom- inados estimadores de distaˆncia mı´nima. Eles sa˜o definidos como a soluc¸a˜o da minimizac¸a˜o de uma func¸a˜o objetivo da forma Qˆn (θ) = −gn (θ)0 Wˆgn (θ) , em que gn (θ) = 1 n Pn i=1 g (xi, θ) para o me´todo generalizado dos momentos e gn (θ) = πˆ − h (θ) para o estimador de distaˆncia mı´nima cla´ssica. Note que mı´nimos quadrados ordina´rios, mı´nimos quadrados na˜o lineares e ma´xima verossimilhanc¸a sa˜o casos especiais do me´todo generalizado dos mo- mentos quando vistos como soluc¸o`es das condic¸o˜es de primeira ordem. Mı´nimos quadrados ordina´rios: A condic¸a˜o de momento populacional baseia- se em E (xiεi) = 0 (isto e´, g (x, θ0) = xiεi = xi (yi − x0iβ)). βˆ iguala o momento amostral correspondente a zero:Pn i=1 xiεi = Pn i=1 xi ³ yi − x0iβˆ ´ = 0 Mı´nimos quadrados na˜o lineares: A condic¸a˜o de momento populacional baseia-se em E [xi (yi − h (xi, θ))] = 0 Ma´xima verossimilhanc¸a: A condic¸a˜o de momento populacional baseia-se em E ³ ∂ ln f(xi,θ) ∂θ ´ = 0 θˆ iguala o momento amostral correspondente a zero: 1 n Pn i=1 ∂ ln f (xi, θ) ∂θ = 0 Propriedades assinto´ticas de estimadores extremos Consisteˆncia θˆn maximiza Qˆn (θ) em θ ∈ Θ. Sob que condic¸o˜es e´ verdade que θˆn P→ θ0 para todos os valores poss´ıveis de θ0? 8 A ide´ia ba´sica e´ que se Qˆn (θ) converge em probbilidade para Q0 (θ) e Q0 (θ) e´ maximizada no valor verdadeiro do paraˆmetro θ0, enta˜o o limite do ma´ximo θˆn deve ser o ma´ximo do limite θ0, sob condic¸o˜es para troca das operac¸o˜es de limite e maximizac¸a˜o. Definic¸a˜o (convergeˆncia uniforme em probabilidade) Qˆn (θ) converge em probabilidade uniformemente para Q0 (θ) se sup θ∈Θ ¯¯¯ Qˆn (θ)−Q0 (θ) ¯¯¯ P→ 0 Teorema (consisteˆncia de estimadores estremos, NM (1994) Teorema 2.1) Se existir uma func¸a˜o Q0 (θ) tal que i) Q0 (θ) e´ unicamente maximizada em θ0 ii) Θ e´ compato iii) Q0 (θ) e´ continua iv) Qˆn (θ) converge uniformemente em probabilidade para Q0 (θ) enta˜o θˆn P→ θ0. Prova: Primeiro passo: Para ∀ε > 0, no´s temos, com probabilidade aproximando-se de 1, a) Qˆn ³ θˆn ´ > Qˆn (θ0)− ε/3, pois θˆn maximiza Qˆn (θ) b) Q0 ³ θˆn ´ > Qˆn ³ θˆn ´ − ε/3, pois, por (iv), supθ∈Θ ¯¯¯ Qˆn (θ)−Q0 (θ) ¯¯¯ < ε/3 para n suficientemente grande. c) Qˆn (θ0) > Q0 (θ0)− ε/3, tambe´m por (iv). Portanto, com probabilidade aproximando-se de 1, Q0 ³ θˆn ´ b) > Qˆn ³ θˆn ´ − ε/3 a) > Qˆn (θ0)− 2ε/3 c) > Q0 (θ0)− ε (∗) Enta˜o, para qualquer ε > 0, Q0 ³ θˆn ´ > Q0 (θ0) − ε com probabilidade aproximando-se de 1. Segundo passo: No´s queremos mostrar que θˆn P→ θ0, isto e´, para qualquer ε > 0, limP ³¯¯¯ θˆn − θ0 ¯¯¯ ≤ ε ´ = 1 ou, em outras palavras, θˆn ∈ Nε (θ0) com probabilidade aproximando-se de 1. Considere qualquer subconjunto aberto N ⊂ Θ, θ0 ∈ N (em particular, podemos considerar qualquer vizinhanc¸aNε (θ0) necessa´ria). Enta˜o, N c e´ fechado 9 e, portanto, Θ ∩ Nc compacto. Considere θ∗ dado por supθ∈Θ∩Nc Q0 (θ) = Q0 (θ ∗). Como Θ ∩ Nc e´ compacto, e Q0 (θ) e´ cont´ınua, θ∗ ∈ Θ ∩ Nc. Como Q0 (θ) e´ unicamente maximizada em θ0, Q0 (θ ∗) < Q0 (θ0). Portanto, ε definido por ε = Q0 (θ0) − Q0 (θ∗) e´ positivo e, por (∗), Q0 ³ θˆn ´ > Q0 (θ0) − ε = Q0 (θ0)− (Q0 (θ0)−Q0 (θ∗)) = Q0 (θ∗) = supθ∈Θ∩Nc Q0 (θ) com probabilidade aproximando-se de 1, o que implica que θˆn /∈ Θ ∩ Nc, isto e´, θˆn ∈ N com probabilidade aproximando-se de 1. Normalidade assinto´tica Teorema (normalidade assinto´tica de estimadores estremos, NM (1994) Teorema 3.1) Se θˆn P→ θ0 e i) θ0 ∈ interior (Θ) ii) Qˆn (θ) e´ duas vezes continuamente diferencia´vel numa vizinhanc¸a N de θ0. iii) √ n∇θQˆn (θ0) d→ N (0,Σ) iv) existe H (θ) cont´ınua em θ0 satisfazendo supθ∈N °°°∇θθQˆn (θ)−H (θ)°°° P→ 0 v) H = H (θ0) e´ na˜o singular enta˜o √ n ³ θˆn − θ0 ´ d→ N ¡ 0,H−1ΣH−1 ¢ Prova: Como Qˆn (θ) e´ diferencia´vel numa vizinhanc¸a de θ0, um ponto inte- rior, e θˆn maximiza Qˆn (θ), no´s sabemos que ∇θQˆn ³ θˆn ´ = 0. Uma expansa˜o de Taylor de primeira ordem em torno de θ0 produz 0 = √ n∇θQˆn ³ θˆn ´ = √ n∇θQˆn (θ0) +∇θθQˆn ¡ θ¯ ¢√ n ³ θˆn − θ0 ´ (∗) ⇔ √ n ³ θˆn − θ0 ´ = − h ∇θθQˆn ¡ θ¯ ¢i−1√ n∇θQˆn (θ0) onde θ¯ esta´ compreendido na linha conectando θˆn e θ0. θˆn P→ θ0 ⇒ θ¯ P→ θ0 e, consequ¨entemente, θ¯ ∈ N. Resta mostrar que ∇θθQˆn ¡ θ¯ ¢ P→ H (θ0) (≡ H) Denote ∇θθQˆn ¡ θ¯ ¢ por Hˆ ¡ θ¯ ¢ . Enta˜o°°°∇θθQˆn ¡θ¯¢−H (θ0)°°° = °°°Hˆ ¡θ¯¢−H (θ0)°°° ≤ °°°Hˆ ¡θ¯¢−H ¡θ¯¢°°°+ °°H ¡θ¯¢−H (θ0)°° ≤ sup θ∈N °°°Hˆ (θ)−H (θ)°°° P→0 por (iv) + °°H ¡θ¯¢−H (θ0)°° P→0 pois θ¯ P→θ0 e H e´ cont´ınua P→ 0 10 isto e´, Hˆ ¡ θ¯ ¢ P→ H (θ0) . Cada um dos elementos de H (θ0) −1 existe pela hipo´tese (v). Portanto, Hˆ ¡ θ¯ ¢−1 P→ H (θ0)−1 . Utilizando o teorema de Slutsky, √ n ³ θˆn − θ0 ´ = − Hˆ ¡ θ¯ ¢−1 P→H(θ0)−1 √ n∇θQˆn (θ0) d→N(0,Σ) por (iii) d→ N ³ 0,H (θ0) −1ΣH (θ0) −1 ´ Eficieˆncia assinto´tica Resultados de eficieˆncia assinto´tica famosos incluem: 1. Eficieˆncia do estimador de ma´xima verossimilhanc¸a dentro da classe de estimadores do me´todo generalizado dos momentos. 2. A forma da matriz o´tima de ponderac¸a˜o para estimac¸a˜o por distaˆncia mı´nima. 3. Eficieˆncia de mı´nimos quadrados generalizados dentro da classe de esti- madores de mı´nimos quadrados ponderados na presenc¸a de heteroscedasticidade. 4. Mı´nimos quadrados em dois esta´gios como um estimador eficiente de varia´veis instrumentais. 11 Econometria/gls1.pdf Universidade de Sa˜o Paulo - Departamento de Economia EAE 5811 - Econometria I Prof. Dr. Ricardo Avelino 1o Semestre de 2007 Erros Na˜o Esfe´ricos no Modelo de Regressa˜o Linear, Resultados Gerais Violac¸a˜o das hipo´teses cla´ssicas Se a hipo´tese de que posto(X) = k (amostras finitas) ou X 0X n p→ M, na˜o singular (a hipo´tese assinto´tica equivalente para o caso em que o regressor e´ estoca´stico), for violada, o estimador de MQO ou seu limite em probabilidade na˜o e´ u´nico. O modelo deve ser especificado novamente de modo correto. Se a hipo´tese de posto completo e´ aproximadamente violada (multicolinearidade), a unica soluc¸a˜o e´ obter mais dados. Se a hipo´tese de linearidade na˜o for va´lida, MQO em geral sera´ viesado e inconsistente. Em alguns casos, o modelo pode ser transformado num modelo linear (por exemplo, aplicando o logaritmo). Caso isso na˜o seja poss´ıvel, e´ necessa´rio utilizar me´todos de estimac¸ao alternativos para estimar o modelo na˜o linear (ma´xima verossimilhanc¸a, mı´nimos quadrados na˜o lineares, me´todo generalizado dos momentos, etc). Ale´m disso, no´s sabemos o que acontece se ε|X na˜o for normal (amostras finitas) ou X 0ε/ √ n na˜o for assintoticamente normal (amostras grandes). Em amostras finitas, MQO e´ o melhor estimador linear na˜o viesado, mas na˜o possui variaˆncia mı´nima entre todos os estimadores quando a hipo´tese de normali- dade e´ violada. Adicionalmente, na˜o e´ poss´ıvel derivar nenhuma distribuic¸a˜o exata para realizar infereˆncia. Com relac¸a˜o aos resultados assinto´ticos, no´s ainda obtemos consisteˆncia sem a hipo´tese de normalidade. Note que a hipo´tese X 0ε/ √ n d→ N (0, V ) e´ muito mais fraca do que ε|X ∼ N (0,Ω). No´s obtemos normalidade assinto´tica do estimador de MQO e distribuic¸o˜es para realizar in- fereˆncia sem assumir normalidade exata, desde que os dados satisfac¸am hipo´teses primitivas garantindo que X 0ε/ √ n d→ N (0, V ) , aplicando-se um teorema cen- tral do limite. Para mostrar eficieˆncia assinto´tica de MQO, a hipo´tese de nor- malidade “exata” e´ necessa´ria. Enta˜o, na auseˆncia de heteroscedasticidade e autocorrelac¸a˜o, MQO coincide com o estimador de ma´xima verossimilhanc¸a, que, sob condic¸o˜es apropriadas discutidas anteriormente, e´ assintoticamente efi- ciente. Restam portanto as seguintes hipo´teses: (OLS2,s) E [ε|X] = 0 (amostras pequenas) (OLS2,l) X 0ε/n p→ 0 (amostras grandes) 1 Sem E [ε|X] = 0, no´s sabemos que MQO e´ viesado. Sem X 0ε/n p→ 0, MQO e´ inconsistente. (OLS3,s) Ω = E(εε0|X) = σ2I, isto e´, a) Homoscedasticidade E(ε2i |X) = σ2, i = 1, ..., n b) Auseˆncia de autocorrelac¸a˜o E(εiεj |X) = 0, i 6= j, i, j = 1, ..., n Em amostras grandes, a hipo´tese equivalente era a mesma, exceto que no´s condiciona´vamos apenas em xi e em xi e xj ao inve´s de condicionar em todo o vetor X. (OLS3,l) a) Homoscedasticidade E(ε2i |xi) = σ2 <∞, i = 1, ..., n b) Auseˆncia de autocorrelac¸a˜o E(εiεj |xi, xj) = 0, i 6= j, i, j = 1, ..., n (OLS3,s) e´ necessa´ria para mostrar que em amostras finitas MQO e´ o esti- mador linear na˜o viesado com variaˆncia mı´nima e que s2 (X 0X)−1 e´ uma esti- mativa na˜o viesada da variaˆncia de βˆ. Os resultados assinto´ticos eram exemplos de resultados envolvendo consisteˆncia e normalidade assinto´tica de MQO, mas outros resultados existem, dependendo das hipo´teses feitas. Portanto, no´s ter- emos que reconsiderar essa questa˜o mais cuidadosamente. A pro´xima sec¸a˜o examina mais cuidadosamente os efeitos de erros na˜o esfe´ricos para o estimador de MQO. O ponto fundamenal da discussa˜o e´ que no´s consideraremos alterna- tivas a` MQO justamente porque MQO e´ ineficiente na presenc¸a de erros na˜o esfe´ricos. Erros na˜o esfe´ricos Consequ¨eˆncias para MQO Propriedades em amostras finitas As hipo´teses eram (OLS0,s) y = Xβ + ε (OLS1,s) Posto(X)=K (OLS2,s) E(ε|X) = 0 (OLS3,s) Ω = E(εε0|X) = σ2I (OLS4,s) ε|X ∼ N (0,Ω) Qual dos resultados de MQO em amostras finitas depende de (OLS3,s)? (OLS0,s)-(OLS2,s): E h βˆ|X i = β,E h βˆ i = β Adicionando (OLS4,s), mas na˜o (OLS3,s): E h βˆ|X i = β,E h βˆ i = β 2 βˆ|X ∼ N ³ β, (X 0X)−1X 0ΩX (X 0X)−1 ´ A distribuic¸a˜o marginal de βˆ na˜o precisa ser normal. Nenhum teste em amostras finitas sem hipo´teses adicionais. Adicionando (OLS3,s), mas na˜o (OLS4,s): 1) E h βˆ|X i = β,E h βˆ i = β 2) V h βˆ|X i = σ2 (X 0X)−1 , V h βˆ i = σ2E h (X 0X)−1 i 3) βˆ e´ o estimador linear na˜o viesado de β com menor variaˆncia (Teorema de Gauss-Markov). 4) E £ s2|X¤ = σ2, E £s2¤ = σ2, s2 = εˆ0εˆ n−k 5) Um estimador na˜o viesado de V h βˆ|X i (e de V h βˆ i ) e´ \ V h βˆ|X i = s2 (X 0X)−1 (OLS0,s)-(OLS4,s): 1) E h βˆ|X i = β,E h βˆ i = β 2) βˆ|X ∼ N ³ β, σ2 (X 0X)−1 ´ 3) βˆ e´ o estimador de ma´xima verossimilhanc¸a condicional de β e o estimador na˜o viesado de β com menor variaˆncia entre todos os estimadores. 4) (n−K)s 2 σ2 |X ∼ χ2n−K , (n−K)s 2 σ2 ∼ χ2n−K 5) Um estimador na˜o viesado de V h βˆ|X i (e de V h βˆ i ) e´ \ V h βˆ|X i = s2 (X 0X)−1 6) s2 e βˆ sa˜o independentes, dado X. Esses resultados foram utilizados para derivar intervalos de confianc¸a, testes t, testes F , etc. Conclusa˜o: Sem (OLS3,s), ainda e´ poss´ıvel mostrar que βˆ na˜o e´ viesado. O teorema de Gauss-Markov na˜o se aplica, e a variaˆncia condicional do esti- mador de Mı´nimos quadrados ordina´rios na˜o e´ V h βˆ|X i = σ2 (X 0X)−1 , mas sim V h βˆ|X i = (X 0X)−1X 0ΩX (X 0X)−1 . Os intervalos de confianc¸a e testes de hipo´tese precisam ser modificados para levar isso em conta. Finalmente, MQO na˜o e´ ideˆntico a ma´xima verossimilhanc¸a e, portanto, na˜o e´ o estimador na˜o viesado com menor variaˆncia. 3 Propriedades em amostras grandes Regressores estoca´sticos As hipo´teses eram: (OLS0,l) y = Xβ + ε (OLS1,l) X 0X/n p→M, na˜o singular µ M = E ³ X0X n ´ = E µPn i=1 xix 0 i n ¶¶ (OLS2,l) X 0ε/n p→ 0 (OLS3,l) a) Homoscedasticidade E(ε2i |xi) = σ2 <∞, i = 1, ..., n b) Auseˆncia de autocorrelac¸a˜o E(εiεj |xi, xj) = 0, i 6= j, i, j = 1, ..., n (OLS4,l) X 0ε/ √ n d→ N (0, V ) ³ V = E ³ X0εε0X n ´´ Sob (OLS3,l), V = E ³ X0εε0X n ´ = E ³ E ³ X0εε0X n ´ |X ´ = σ2M Portanto, no´s ainda obtemos consisteˆncia e normalidade assinto´tica de βˆ sem (OLS3,l). Sem (OLS3,l), a variaˆncia assinto´tica de βˆ e´M−1VM−1 ao inve´s de σ2M−1. Os intervalos de confianc¸a e testes precisam ser modificados para levar isso em conta. Finalmente, mesmo se no´s impormos normalidade “exata”, MQO na˜o coincide com ma´xima verossimilhanc¸a sem (OLS3,l) e, portanto, na˜o e´ assintoticamente eficiente. A questa˜o de se no´s ainda obtemos consisteˆncia e normalidade assinto´tica com heteroscedasticidade e autocorrelac¸a˜o dos erros e´ muito mais delicada do que o discutido acima sugere. Com excec¸a˜o de (OLS3,l), as hipo´teses listadas na˜o sa˜o primitivas. No´s consideramos hipo´teses primitivas que garantiam que as hipo´teses acima eram satisfeitas. Estas eram, entretanto, condic¸o˜es suficientes (a fim de manter as provas razoavelmente simples). Por exemplo, no´s geral- mente assumı´amos observac¸o˜es i.i.d. ao longo de toda a discussa˜o. Mas com heteroscedasticidade e/ou autocorrelac¸a˜o dos erros, essa hipo´tese e´ violada. Uma outra observac¸a˜o: Quando as observac¸o˜es na˜o sa˜o identicamente dis- tribu´ıdas, no´s devemos escrever X 0X/n p→ Mn e X 0ε/ √ n d→ N (0, Vn) . Por- tanto, √ n ³ βˆ − β ´ d→ N ¡ 0,M−1n VnM −1 n ¢ ou, mais precisamente, V −1/2n X 0ε/ √ n d→ N (0, I) e ¡ M−1n VnM −1 n ¢−1/2√ n ³ βˆ − β ´ d→ N (0, I) 4 Regressores na˜o estoca´sticos Comenta´rios similares aplicam-se. As condic¸o˜es necessa´rias para provar con- sisteˆncia, normalidade assinto´tica, etc podem ser modificadas a fim de provar esses resultados quando o erro exibe heteroscedasticidade e/ou autocorrelac¸a˜o. No tocante a` variaˆncia assinto´tica, ela deve ser modificada de maneira ana´loga ao feito acima, isto e´, de √ n ³ βˆ − β ´ d→ N ¡ 0, σ2M−1 ¢ para √ n ³ βˆ − β ´ d→ N ¡ 0,M−1n VnM −1 n ¢ , com Mn = lim n→∞ 1 n Pn i=1 xix 0 i Estimac¸a˜o eficiente Quando Ω e´ conhecido Tanto resultados em amostras finitas quanto resultados assinto´ticos podem ser derivados nesse caso. Me´todo 1: Mı´nimos quadrados generalizados No´s vimos que MQO ordina´rios na˜o e´ o estimador linear na˜o viesado com variaˆncia mı´nima quando o erro e´ heterosceda´stico ou autocorrelacionado. Mas como no´s podemos encontrar um estimador linear na˜o viesado melhor? E(εε0|X) = Ω ¡6= σ2I¢ . Ω e´ uma matriz sime´trica positiva definida. Portanto, no´s sabemos da decomposic¸a˜o spectral que Ω−1 = P 0P, para P 0 = CΛ−1/2. As colunas de C sa˜o os autovetores de Ω e Λ e´ uma matriz diagonal com os autovalores de Ω (estritamente positivos) na diagonal. Ale´m disso, Ω = P−1 (P 0)−1 ⇒ PΩP 0 = I Pre´ multiplique o modelo de regressa˜o linear por P : Py = PXβ + Pε ou y∗ = X∗β + ε∗ O modelo transformado satisfaz as hipo´teses (OLS0,s)-(OLS3,s). Satisfaz (OLS1,s), pois X tem posto completo por hipo´tese e X∗ = PX, com P na˜o singular, e (OLS2,s), pois E(ε∗|X) = E(Pε|X) = 0. Finalmente, ε∗ e´ ho- mosceda´stico e na˜o exibe autocorrelac¸a˜o, pois E [ε∗ε∗0] = E [Pεε0P 0] = PΩP 0 = I 5 Portanto, estime β por mı´nimos quadrados ordina´rios no modelo transfor- mado e obtenha βˆGLS = (X ∗0X∗)−1X∗0y∗ = (X 0P 0PX)−1X 0P 0Py = ¡ X 0Ω−1X ¢−1 X 0Ω−1y Como (OLS0,s)-(OLS3,s) sa˜o satisfeitas para esse modelo, no´s sabemos que βˆGLS e´ na˜o viesado, E h βˆGLS i = β, e que βˆGLS tem a menor variaˆncia entre todos os estimadores na˜o viesados que sa˜o lineares em y∗. Mas estimadores que sa˜o lineares em y∗ sa˜o tambe´m lineares em y . Portanto, βˆGLS e´ na˜o viesado e tem a menor variaˆncia entre todos os estimadores na˜o viesados que sa˜o lineares em y. Esse resultado e´ conhecido como teorema de Aitken. A variaˆncia condicional de βˆGLS e´ V ³ βˆGLS |X ´ = E ·³ βˆGLS − β ´³ βˆGLS − β ´0 |X ¸ = E h (X∗0X∗)−1X∗0ε∗ε∗0X∗ (X∗0X∗)−1 |X i = (X∗0X∗)−1 = ¡ X 0Ω−1X ¢−1 Como βˆGLS e´ o estimador linear na˜o viesado com variaˆncia mı´nima, no´s sabemos que V ³ βˆGLS |X ´ na˜o e´ maior do que V ³ βˆOLS |X ´ = (X 0X)−1X 0ΩX (X 0X)−1 Propriedades assinto´ticas de βˆGLS Consisteˆncia: βˆGLS − β = ¡ X 0Ω−1X ¢−1 X 0Ω−1ε = µ X 0Ω−1X n ¶−1 X 0Ω−1ε n Portanto, βˆGLS p→ β se X0Ω−1X n p→M∗n, na˜o singular e X 0Ω−1ε n p→ 0. Normalidade assinto´tica: √ n ³ βˆGLS − β ´ = µ X 0Ω−1X n ¶−1 X 0Ω−1ε√ n Portanto, √ n ³ βˆGLS − β ´ d→ N ³ 0, (M∗n) −1 V ∗n (M ∗ n) −1 ´ = N ³ 0, (M∗n) −1 ´ se X 0Ω−1X n p→M∗n, na˜o singular, e X 0Ω−1ε√ n d→ N (0, V ∗n ) (enta˜o, V ∗n =M∗n). 6 Comenta´rios: 1. Note que βˆGLS = argmin β (y∗ −X∗β)0 (y∗ −X∗β) = argmin β (y −Xβ)0Ω−1 (y −Xβ) Portanto, βˆGLS e´ um exemplo de um estimador de mı´nimos quadrados pon- derados. 2. Basta conhecer qualquer mu´ltiplo de Ω com relac¸a˜o a um escalar para estimar β e a variaˆncia desse estimador sem vie´s. 3. No´s podemos realizar infereˆncia com base no modelo transformado de maneira exatamente igual a` que fizemos anteriormente na auseˆncia de heteroscedasticidade e autocorrelac¸a˜o. Me´todo 2: Ma´xima verossimilhanc¸a Estimac¸a˜o por ma´xima verossimilhanc¸a assumindo normalidade e´ ideˆntico a mı´nimos quadrados generalizados para β desde que Ω e β na˜o contenham nenhum paraˆmetro em comum. Note que, sob (OLS0,s)-(OLS2,s) e (OLS4,s), ε|X ∼ N (0,Ω) . Portanto, a densidade conjunta de ε e´ dada por f (ε) = 1 (2π)n/2 |Ω|−1/2 e− 12ε0Ω−1ε e a func¸a˜o de log verossimilhanc¸a (condicional em X) e´ lnL (y, β,Ω) = −n 2 ln (2π)− 1 2 ln |Ω|− 1 2 (y −Xβ)0 Ω−1 (y −Xβ) Logo, o estimador de ma´xima verossimilhanc¸a de β minimiza (y −Xβ)0Ω−1 (y −Xβ) exatamente como βˆGLS . Quando Ω e´ desconhecido Apenas resultados assinto´ticos esta˜o dispon´ıveis para esse caso. Me´todo 1: Mı´nimos quadrados generalizados fact´ıveis Na pra´tica, Ω e´ deconhecido. Mas Ω e´ nxn e, portanto, tem ate´ n(n+1)2 elementos diferentes. Como no´s podemos estimar Ω consistentemente, con- juntamente com os k elementos em β, com somente n observac¸o˜es? No´s na˜o 7 podemos, a menos que seja imposta mais estrutura para reduzir o nu´mero de paraˆmetros desconhecidos. Portanto, suponha que Ω = Ω (θ), para um vetor de paraˆmetros desconhecidos θ de dimensa˜o px1 e que p seja “pequeno”. Exemplos sera˜o discutidos para os casos especiais de heteroscedasticidade e autocorrelac¸a˜o. Suponha que uma estimativa consistente de θ possa ser obtida. Enta˜o Ωˆ = Ωˆ (θ) e´ uma estimativa consistente de Ω e o estimador de mı´nimos quadrados generalizados fact´ıveis de β e´ βˆFGLS = ³ X 0Ωˆ−1X ´−1 X 0Ωˆ−1y Sob que condic¸o˜es as propriedades assinto´ticas de βˆFGLS e βˆGLS sa˜o as mesmas? √ n ³ βˆFGLS − β ´ − √ n ³ βˆGLS − β ´ = à X 0Ωˆ−1X n !−1 X 0Ωˆ−1ε√ n − µ X 0Ω−1X n ¶−1 X 0Ω−1ε√ n p→ 0 se p lim à X 0Ωˆ−1X n ! = p lim µ X 0Ω−1X n ¶ p lim à X 0Ωˆ−1ε√ n ! = p lim µ X 0Ω−1ε√ n ¶ Como convergeˆncia em probabilidade implica convergeˆncia em distribuic¸a˜o, √ n ³ βˆFGLS − β ´ − √ n ³ βˆGLS − β ´ d→ 0 sob essas duas condic¸o˜es. Sob essas condic¸o˜es, assintoticamente na˜o faz diferenc¸a se Ω for conhecido. Me´todo 2: Ma´xima verossimilhanc¸a A func¸a˜o de verossimilhanc¸a coincide com a func¸a˜o para o caso em que Ω e´ conhecido, exceto pelo fato de que no´s na˜o precisamos estimar Ω (θ) . lnL (y, β, θ) = −n 2 ln (2π)− 1 2 ln |Ω (θ)|− 1 2 (y −Xβ)0 (Ω (θ))−1 (y −Xβ) Para simplificar, escreva a func¸a˜o de verossimilhanc¸a como func¸a˜o de Γ = (Ω (θ))−1 . lnL (y, β, θ) = −n 2 ln (2π) + 1 2 ln |Γ|− 1 2 (y −Xβ)0 Γ (y −Xβ) 8 Como ∂ ln |Γ| ∂Γ = Γ−1 e ∂ε0Γε ∂Γ = εε0 as condic¸o˜es de primeira ordem sa˜o ∂ lnL ∂β = X 0Γ (y −Xβ) = 0 ∂ lnL ∂Γ = 1 2 £ Γ−1 − (y −Xβ) (y −Xβ)0 ¤ = 0 Elas podem ser resolvidas para obtermos βˆMLE e ΓˆMLE . O estimador de ma´xima verossimilhanc¸a de Ω (θ) e´ obtido a partir de ΓˆMLE por[Ω (θ)MLE =³ ΓˆMLE ´−1 . Estimac¸a˜o consistente da variaˆncia assintotica para MQO Se a teoria na˜o sugerir uma maneira de reduzir o nu´mero de paraˆmetros em Ω, enta˜o no´s na˜o podemos implementar mı´nimos quadrados generalizados fact´ıveis ou ma´xima verossimilhanc¸a. No caso de heteroscedasticidade e/ou autocorrelac¸a˜o de forma desconhecida, no´s ainda podemos utilizar mı´nimos quadrados ordina´rios para obter estimativas consistentes e assintoticamente nor- mais de β. Considere a distribuic¸a˜o assinto´tica de MQO sob erros na˜o esfe´ricos √ n ³ βˆ − β ´ d→ N ¡ 0,M−1n VnM −1 n ¢ Para utilizar esse resultado para infereˆncia, no´s precisamos de uma estima- tiva consistente da variaˆncia assinto´tica de βˆ, isto e´, de M−1n VnM −1 n . Supondo que as condic¸o˜es que asseguram que uma lei dos grandes nu´meros apropriada possa ser aplicada sejam satisfeitas, no´s temos um estimador consis- tente de M−1n : Mˆn = X 0X/n = 1 n Pn i=1 xix 0 i P→Mn Portanto, pela continuidade da matriz inversa³ Mˆn ´−1 = (X 0X/n)−1 = µ 1 n Pn i=1 xix 0 i ¶−1 P→M−1n A parte dif´ıcil e´ achar um estimador consistente de Vn = V ³ 1√ n Pn i=1 xiεi ´ . Vn = V µ 1√ n Pn i=1 xiεi ¶ = 1 n E h ( Pn i=1 xiεi) ( Pn i=1 xiεi) 0i pois E ( Pn i=1 xiεi) = 0 por (OLS2,l). 9 Portanto, Vn = 1 n E £Pn i=1 ε 2 ixix 0 i ¤ + 1 n E hPn j 6=i εjεixjx 0 i i = 1 n E £Pn i=1 ε 2 ixix 0 i ¤ + Pn−1 l=1 1 n Pn i=l+1 £ E ¡ εiεi−lxix 0 i−l ¢ +E (εi−lεixi−lx 0 i) ¤ Heteroscedasticidade e auseˆncia de autocorrelac¸a˜o (White) Nesse caso, o u´ltimo termo e´ zero. Portanto, Vn = 1 n E £Pn i=1 ε 2 ixix 0 i ¤ White sugere estimar esse termo por Vˆn = 1 n Pn i=1 εˆ 2 ixix 0 i, εˆi = ³ yi − x0iβˆOLS ´ White mostrou que Vˆn P→ Vn. Assumindo que as condic¸o˜es suficientes para que se aplique uma lei dos grandes nu´meros sejam satisfeitas, a ide´ia da prova e´ a seguinte (para o caso em que haja apenas um regressor): Vˆn = 1 n Pn i=1 εˆ 2 ixix 0 i = 1 n Pn i=1 h yi − x0iβ − x0i ³ βˆ − β ´i2 xix 0 i = 1 n Pn i=1 ε 2 ix 2 i + ³ βˆ − β ´2 1 n Pn i=1 x 4 i − 2 ³ βˆ − β ´ 1 n Pn i=1 εix 3 i Enta˜o, e´ preciso mostrar que 1 n Pn i=1 ε 2 ix 2 i P→ 1 n Pn i=1E ¡ ε2ix 2 i ¢ = Vn Se as observac¸o˜es sa˜o independentes, isso segue-se de uma lei dos grandes nu´meros para observac¸o˜es independentes mas na˜o identicamente distribu´ıdas. 1 n Pn i=1 x 4 i P→ 1 n Pn i=1E ¡ x4i ¢ , finita 1 n Pn i=1 εix 3 i P→ 0 Enta˜o, como βˆ P→ β, Vˆn P→ Vn. Resultado O estimador de White da matriz de covariaˆncia robusto a` heteroscedastici- dade para MQO e´ AdV ar ³βˆOLS´ = Mˆ−1n Vˆ −1n Mˆ−1n = µ 1 n Pn i=1 xix 0 i ¶−1 1 n Pn i=1 εˆ 2 ixix 0 i µ 1 n Pn i=1 xix 0 i ¶−1 10 Heteroscedasticidade e autocorrelac¸a˜o (Newey-West) Nesse caso, no´s precisamos utilizar a fo´rmula geral Vn = 1 n E £Pn i=1 ε 2 ixix 0 i ¤ + Pn−1 l=1 1 n Pn i=l+1 £ E ¡ εiεi−lxix 0 i−l ¢ +E (εi−lεixi−lx 0 i) ¤ Newey-West sugerem estimar esse termo por Vn = 1 n E £Pn i=1 ε 2 ixix 0 i ¤ + Pm(n) l=1 ' (l,m (n)) 1 n Pn i=l+1 £ E ¡ εiεi−lxix 0 i−l ¢ +E (εi−lεixi−lx 0 i) ¤ onde ' (l,m (n)) = 1− l m(n)+1 e m satisfaz limn→∞ m(n) n1/4 = 0. Eles provaram que Vˆn P→ Vn e que Vˆn e´ positiva semi-definida. Comenta´rios 1. m (n) e´ a mais alta ordem de autocorrelac¸a˜o que no´s permitimos. Em outras palavras, no´s assumimos que somente a diagonal e as m super e sub diagonais de Ω sa˜o positivas. m (n) pode crescer com n, mas a uma taxa mais devagar do que n1/4. 2. Os pesos sa˜o chamados de pesos de Bartlett. Eles da˜o menos peso a` medida que a distaˆncia entre os erros aumenta. Mas qual a raza˜o de utilizar uma ponderac¸a˜o e esses pesos em particular? Porque no´s queremos que Vˆn seja positiva semi-definida, ale´m de consistente. Caso contra´rio, a variaˆncia estimada do estimador de MQO de βˆ pode ser negativa! A escolha dos pesos assegura que isso na˜o ocorra. Resultado O estimador de Newey-West da matriz de covariaˆncia robusto a` heteroscedas- ticidade e autocorrelac¸a˜o para MQO e´ AdV ar ³βˆOLS´ = Mˆ−1n Vˆ −1n Mˆ−1n para Mˆ−1n = ¡ 1 n Pn i=1 xix 0 i ¢−1 e Vˆn = 1 n Pn i=1 εˆ 2 ixix 0 i+ Pm(n) l=1 ' (l,m (n)) 1 n Pn i=l+1 £ εˆiεˆi−lxix 0 i−l + εˆi−lεˆixi−lx 0 i ¤ Note que os estimadores acima sa˜o para Vn e na˜o para Ω = E [εε0|X] . A vantagem e´ que Vˆn e´ kxk e na˜o nxn. 11 Econometria/gls2.pdf Universidade de Sa˜o Paulo - Departamento de Economia EAE 5811 - Econometria I Prof. Dr. Ricardo Avelino 1o Semestre de 2007 Erros Na˜o Esfe´ricos no Modelo de Regressa˜o Linear, Casos Especiais Caso 1: Heteroscedasticidade Comum em regresso˜es cross-section. Implica que a variaˆncia do erro, condi- cional nos regressores, difere entre as observac¸o˜es. Ω = E [εε0|X] = V (ε1|X) cov (ε1, ε2|X) · · · cov (ε1, εn|X) cov (ε1, ε2|X) V (ε2|X) · · · cov (ε2, εn|X) ... ... ... cov (ε1, εn|X) cov (ε2, εn|X) · · · V (εn|X) = σ21 0 · · · 0 0 σ22 · · · 0 ... ... ... 0 0 · · · σ2n Para ser mais preciso, dever´ıamos nos referir a ela como heteroscedasticidade condicional. Exemplo 1: Uma regressa˜o cross-section de consumo das famı´lias em renda familiar, ci = α + βyi + εi. Famı´lias com uma renda e consumo mais altos provavelmente teˆm uma variaˆncia maior do erro. Assumindo a mesma variaˆncia para todas as famı´lias implica que, na me´dia, o erro quadra´tico me´dio teria que ter a mesma magnitude para algue´m com yi = $1.000.000 ou para algue´m com yi = $100. Exemplo 2: Dados agrupados. Suponha que tenhamos dados agrupados para um dado nu´mero de famı´lias dentro de cada um dos estados brasileiros e que o modelo verdadeiro seja yij = x0ijβ + εij onde i indexa os estados e j as famı´lias. Todos os ε0ijs na˜o sa˜o correlacionados e teˆm variaˆnca condicional σ2. Suponha que decidamos agrupar os dados por estado e rodar a seguinte regressa˜o yi = x0iβ + εi onde yi = 1nj Pnj j=1 yij , xi = 1 nj Pnj j=1 xij , εi = 1 nj Pnj j=1 εij e nj e´ o nu´mero de observac¸o˜es do estado j. 1 εi sera´ heterosceda´stico se o nu´mero de famı´lias diferir por estado: V (εi) = V µ 1 nj Pnj j=1 εij ¶ = 1 nj σ2 Portanto, agrupar os dados induz heteroscedasticidade. Estimac¸a˜o eficiente Quando Ω e´ conhecido Me´todo 1: Mı´nimos quadrados generalizados O estimador Ω−1 = 1 σ21 0 · · · 0 0 1σ22 · · · 0 ... ... ... 0 0 · · · 1σ2n ⇒ P = 1√ σ21 0 · · · 0 0 1√ σ22 · · · 0 ... ... ... 0 0 · · · q 1 σ2n Pre´ multiplique o modelo de regressa˜o linear por P : Py = PXβ + Pε ou y∗ = X∗β + ε∗ onde y∗ = y1 σ1y2 σ2 ... yn σn n×1 , X∗ = x11 σ1 x12 σ1 . . . x1Kσ1 x21 σ2 x22 σ2 . . . x2Kσ2 ... ... ... xn1 σn xn2 σn . . . xnKσn n×K , ε∗ = ε1 σ1 ε2 σ2 ... εn σn n×1 Portanto, GLS corresponde a uma regressa˜o de mı´nimos quadrados ordina´rios de y∗i = yi/σi em x ∗ i = xi/σi. Essa regressa˜o e´ a forma mais simples de mı´nimos quadrados ponderados. Note como essa transformac¸a˜o torna os erros ε∗ ho- mosceda´sticos. O estimador de mı´nimos quadrados generalizados nesse caso e´ dado por βˆGLS = (X ∗0X∗)−1X∗0y∗ = ¡ X 0Ω−1X ¢−1 X 0Ω−1y = µ nP i=1 1 σ2i xix0i ¶−1µ nP i=1 1 σ2i xiyi ¶ A variaˆncia de βˆGLS e´ V ³ βˆGLS ´ = (X∗0X∗)−1 = ¡ X 0Ω−1X ¢−1 = µ nP i=1 1 σ2i xix 0 i ¶−1 2 que, por sua vez, e´ menor que V ³ βˆOLS ´ = (X 0X)−1X 0ΩX (X 0X)−1 = µ nP i=1 xix 0 i ¶−1µ nP i=1 σ2ixix 0 i ¶µ nP i=1 xix 0 i ¶−1 como sabemos. Intuic¸a˜o Por que a ponderac¸a˜o produz um estimador mais eficiente? Voceˆ tem n observac¸o˜es de x e y, relacionadas por yi = x0iβ + εi. Voceˆ deseja inferir β. O erro adiciona perturbac¸a˜o adicional a` relac¸a˜o, tornando o seu trabalho mais dif´ıcil. Que observac¸o˜es de xi e yi conteˆm mais informac¸o˜es sobre β? Aquelas para as quais as equac¸o˜es contenham menor perturbac¸a˜o, isto e´, aquelas para as quais a variaˆncia do erro seja menor. Dando um peso maior a essas observac¸o˜es, voceˆ obte´m um estimador mais preciso (com menor variaˆncia). Exemplo Suponha que as diferenc¸as em σ2i entre as observac¸a˜o na˜o tendem a ser correlacionadas com as diferenc¸as em xi. Enta˜o e´ aproximadamente verdade para n grande que V ³ βˆGLS ´ = µ nP i=1 1 σ2i xix0i ¶−1 ' µµ 1 n nP i=1 1 σ2i ¶µ nP i=1 xix0i ¶¶−1 = µ nP i=1 xix 0 i ¶−1µ 1 n nP i=1 1 σ2i ¶−1 V ³ βˆOLS ´ = µ nP i=1 xix 0 i ¶−1µ nP i=1 σ2ixix 0 i ¶µ nP i=1 xix 0 i ¶−1 ' µ nP i=1 xix 0 i ¶−1µ 1 n nP i=1 σ2i ¶µ nP i=1 xix 0 i ¶µ nP i=1 xix 0 i ¶−1 = µ nP i=1 xix0i ¶−1µ 1 n nP i=1 σ2i ¶ Portanto, V ³ βˆOLS ´ V ³ βˆGLS ´ = µ 1 n nP i=1 σ2i ¶ µ 1 n nP i=1 1 σ2i ¶−1 = µ 1n nPi=1σ2i ¶µ 1 n nP i=1 1 σ2i ¶ ≥ 1 3 pois, pela desigualdade de Jensen, E h 1 σ2i i ≥ 1 E[σ2i ] ⇔ E £ σ2i ¤ E h 1 σ2i i ≥ 1. Note como MQO se torna progressivamente mais ineficiente a` medida que σ2i difere mais entre as observac¸o˜es. Assumindo uma dada distribuic¸a˜o para σ2i na populac¸a˜o, e´ poss´ıvel calcular exatamente a eficieˆncia relativa de mı´nimos quadra- dos generalizados com relac¸a˜o a mı´nimos quadrados ordina´rios. A matriz de variaˆncia de MQO calculada incorretamente e´ maior ou menor do que a matriz correta? Quando as diferenc¸as em σi entre as observac¸o˜es na˜o tendem a ser rela- cionadas com as diferenc¸as em xi, ela na˜o e´ sistematicamente menor ou maior. Mas se as diferenc¸as em σi entre as observac¸o˜es estiverem relacionadas com as diferenc¸as em xi, sera´ importante calcularmos os desvios-padro˜es corretos dados pela fo´rmula de White. Me´todo 2: Ma´xima verossimilhanc¸a. Mesmo que mı´nimos quadrados gener- alizados Quando Ω e´ desconhecido Me´todo 1: Mı´nimos quadrados generalizados fact´ıveis (FGLS) Como discutido anteriormente, no´s precisamos impor alguma estrutura em Ω a fim de estima´-la consistentemente. Considere os seguintes exemplos de mı´nimos quadrados generalizados fact´ıveis. Exemplo: Assuma que a heteroscedasticidade tenha a seguinte forma: σ2i = E £ ε2i |X ¤ = E £ ε2i |xi ¤ = α0+α1zi = z¯0iα, para z¯i = · 1 zi ¸ , α = · α0 α1 ¸ z e´ uma varia´vel aleato´ria que pode coincidir ou na˜o com um dos regressores. Para implementar mı´nimos quadrados generalizados fact´ıveis, procedemos da seguinte maneira: 1. Estime o modelo yi = x0iβ + εi usando MQO e compute os res´ıduos εˆi. 2. Use εˆ2i para obter estimativas consistentes de α0 e α1 (e, portanto, de σ2i ) atrave´s de uma regressa˜o por MQO de εˆ 2 i em uma constante e zi. Enta˜o calcule Ωˆ e o estimador de mı´nimos quadrados generalizados fact´ıveis βˆFGLS =³ X 0Ωˆ−1X ´−1 X 0Ωˆ−1y. 4 Como no´s sabemos que o segundo passo produz estimativas consistentes de α0 e α1 e, portanto, de σ2i ? αˆ = ³X z¯iz¯0i ´−1 ³X z¯0iεˆ 2 i ´ εˆi = yi − x0iβˆOLS = yi − x0iβ − x0i ³ βˆOLS − β ´ = εi − x0i ³ βˆOLS − β ´ Portanto, εˆ2i = ε 2 i + ³ x0i ³ βˆOLS − β ´´2 − 2εix0i ³ βˆOLS − β ´ Como ε2i = E £ ε2i |xi ¤ + ¡ ε2i −E £ ε2i |xi ¤¢ = α0 + α1zi + ui, ui = ε 2 i −E £ ε2i |xi ¤ segue-se que εˆ2i = α0+α1zi+ui+ ³ x0i ³ βˆOLS − β ´´2 −2εix0i ³ βˆOLS − β ´ = z¯0iα+ui+v1i+v2i Os dois u´ltimos termos na˜o importam para a distribuic¸a˜o assinto´tica de αˆ pela consisteˆncia de mı´nimos quadrados ordina´rios no primeiro esta´gio. A dis- tribuic¸a˜o assinto´tica de √ n (αˆ− α) e´, portanto, igual a` distribuic¸a˜o assinto´tica de ¡ 1 n P z¯iz¯0i ¢−1 ³ 1√ n P z¯0iui ´ . Assuma que µ 1 n X z¯iz¯0i ¶−1 = µ Z¯0Z¯ n ¶−1 p→ QZ¯0Z¯ por uma lei dos grandes nu´meros apropriada e que 1√ n X z¯0iui = 1√ n Z¯0u d→ N (0, B) (e, portanto, Z¯ 0u n p→ 0) por um teorema central do limite apropriado. As observac¸o˜es teˆm uma distribuic¸a˜o heterogeˆnea, pois ui e´ heterosceda´stico: E (ui|xi) = 0 mas V (ui|xi) = E h¡ ε2i −E £ ε2i |xi ¤¢2 |xii = E £ε4i |xi¤− ¡E £ε2i |X¤¢2 = E £ ε4i |xi ¤ − ¡ σ2i ¢2 Enta˜o, αˆ e´ consistente e assintoticamente normal: √ n (αˆ− α) d→ N ¡ 0, QZ¯0Z¯BQ 0¯ Z0Z¯ ¢ 5 Importante Embora mı´nimos quadrados generalizados fact´ıveis assintoticamente seja mais eficiente do que mı´nimos quadrados ordina´rios, e´ poss´ıvel que a variaˆncia do estimador de MQO seja menor do que a variaˆncia do estimador de FGLS em amostras pequenas. Isso porque FGLS requer a estimac¸a˜o de mais paraˆmetros. Suponha, por exemplo, que a variaˆncia dos primeiros n/2 termos de erro seja σ2a e que a variaˆncia dos u´ltimos n/2 termos de erro seja σ 2 b . No´s sabemos duas coisas: 1) Do teorema de Gauss-Markov, se σ2a = σ 2 b , MQO e´ eficiente. Portanto, se σ2a = σ 2 b , FGLS, permitindo que σ 2 a 6= σ2b , e´ ineficiente. 2) Da eficieˆncia assinto´tica de FGLS, se σ2a 6= σ2b , para n suficientemente grande, a variaˆncia do estimador de FGLS e´ menor do que a variaˆncia do esti- mador de MQO. Portanto, a questa˜o e´ qua˜o diferente σ2a e σ 2 b devem ser para que a variaˆncia de FGLS seja menor do que a variaˆncia de MQO para uma dada amostra finita. Isso dependera´ de como σ2i depende dos x 0s Me´todo 2: Ma´xima verossimilhanc¸a. A func¸a˜o de log-verossimilhanc¸a, assumindo normalidade dos erros com Ω = Ω (θ), era dada por lnL (y, β, θ) = −n 2 ln (2π)− 1 2 ln |Ω (θ)|− 1 2 (y −Xβ)0 (Ω (θ))−1 (y −Xβ) e, no caso de heteroscedasticidade, mas auseˆncia de autocorrelac¸a˜o, podia ser simplificada para lnL (y, β, θ) = −n 2 ln (2π)− 1 2 nP i=1 µ lnσ2i (θ) + 1 σ2i (θ) (yi − x0iβ) (yi − x0iβ) ¶ No exemplo anterior, σ2i = E £ ε2i |X ¤ = E £ ε2i |xi ¤ = α0 + α1zi. Portanto, lnL (y, β, θ) = −n 2 ln (2π)− 1 2 nP i=1 (ln (α0 + α1zi) + 1 α0 + α1zi (yi − x0iβ) (yi − x0iβ) ¶ que e´ enta˜o maximizada a fim de obter βˆMLE , αˆ0MLE e αˆ1MLE . No presente caso, ε2i = E £ ε2i |X ¤ = E £ ε2i |xi ¤ = α0 + α1zi na˜o depende de β. Portanto, mı´nimos quadrados generalizados e mı´nimos quadrados gener- alizados fact´ıveis sa˜o assintoticamente equivalentes a` ma´xima verossimilhanc¸a e, consequ¨entemente, assintoticamente eficientes. Isso pode ser comprovado 6 calculando-se a matriz de informac¸a˜o I = −E h ∂2 lnL(y,β,α0,α1) ∂ϕ∂ϕ0 i (ϕ0 = β, α0, α1) e invertendo-a. O elemento no canto superior esquerdo de I−1 e´ precisamente a variaˆncia de mı´nimos quadrados generalizados e de mı´nimos quadrados gen- eralizados fact´ıveis para esse exemplo. Testes de Heteroscedasticidade Teste de White H0 : σ2i = σ 2, ∀i H1 : H0 e´ falso a) Estime o modelo yi = x0iβ + εi por OLS e compute os res´ıduos εˆ 2 i b) Regresse εˆ2i em uma constante e em todas as combinac¸o˜es de xi ⊗ xi, excluindo-se a constante. Denote o nu´mero de regressores, excluindo-se a con- stante, por P e compute o R2. Sob H0, nR2 d→ χ2P Rejeite H0 se o valor observado de nR2 e´ maior do que o valor cr´ıtico. Teste de Goldfeld-Quandt Assume normalidade dos erros e divide os dados em dois grupos, com n1 e n2 observac¸o˜es. H0 : σ21 = σ 2 2 H1 : σ21 > σ 2 2 (inverta os subscritos se suspeita-se que a variaˆncia do grupo 2 seja maior). a) Estime o modelo yi = x0iβ + εi por OLS separadamente para cada grupo e compute os res´ıduos εˆ21 e εˆ 2 2. b) Sob H0, F = εˆ01εˆ1/ (n1 − k) εˆ02εˆ2/ (n2 − k) ∼ Fn1−k,n2−k Rejeite H0 se o valor observado de F e´ maior do que o valor cr´ıtico. Teste de Breusch-Pagan H1 : σ2i = σ 2f (α0 + z0iα1) (heteroscedasticidade), com p varia´veis em zi. H0 : α1 = 0 (homoscedasticidade) a) Estime o modelo yi = x0iβ + εi por OLS e compute os res´ıduos εˆ 2 i . 7 b) Regresse εˆ2i εˆ0εˆ n em uma constante e zi e compute a soma dos quadrados explicados. Sob H0, LM = 1 2 (soma dos quadrados explicados) d→ χ2P Rejeite H0 se o valor observado da estat´ıstica e´ maior do que o valor cr´ıtico. Teste LR para heteroscedasticidade entre grupos Assume normalidade dos erros e divide os dados em G grupos, com n1, ..., nG observac¸o˜es. Assume normalidade dos erros e divide os dados em dois gupos, com n1 e n2 observac¸o˜es. H0 : σ21 = ... = σ 2 G H1 : H0 e´ falso Sob H0 : lnL0 = −n2 ln (2π)− n 2 ln ¡ σ2 ¢ − 12σ2 Pn i=1 ε 2 i (modelo restrito) Sob H1 : lnL1 = −n2 ln (2π) − 1 2 PG g=1 ng ln ¡ σ2g ¢ − 12 PG g=1 ³ 1 σ2g Png i=1 ε 2 ig ´ (modelo irrestrito) Portanto, sob H0, LR = −2 (lnL0 − lnL1) = n ln σˆ2 − PG g=1 ng ln σˆ 2 g d→ χ2G−1 onde σˆ2 = εˆ 0εˆ n (σˆ 2 MLE do modelo restrito) e σˆ 2 g = εˆ0g εˆg ng (σˆ2g,MLE do modelo irrestrito) RejeiteH0 se o valor observado de LR e´ maior do que o valor cr´ıtico da χ2G−1. Podemos utilizar βˆ da regressa˜o utilizando todas as observac¸o˜es para calcular tanto εˆ quanto εˆg, ∀g, a fim de aumentar o poder do teste. Caso 2: Correlac¸a˜o serial Ω = E [εε0|X] = V (ε1|X) cov (ε1, ε2|X) · · · cov (ε1, εn|X) cov (ε1, ε2|X) V (ε2|X) · · · cov (ε2, εn|X) ... ... ... cov (ε1, εn|X) cov (ε2, εn|X) · · · V (εn|X) = σ21 σ12 · · · σ1n σ21 σ22 · · · σ2n ... ... ... σn1 σn2 · · · σ2n 8 Para o modelo AR(1), no´s temos yt = x0tβ + εt, εt = ρεt−1 + ut, ut ∼ N ¡ 0, σ2u ¢ , |ρ| < 1, t = 1, ..., T Nesse caso, σ2ε = γ0 = σ2u 1−ρ2 , γj = E [εtεt−j ] = ρ j σ 2 u 1−ρ2 , j > 1. Portanto, Ω = E [εε0|X] = σ21 σ12 · · · σ1n σ21 σ22 · · · σ2n ... ... ... σn1 σn2 · · · σ2n = σ2u 1− ρ2 1 ρ · · · ρT−1 ρ 1 · · · ρT−2 ... ... ... ρT−1 ρT−2 · · · 1 Derivac¸a˜o de σ2ε e γj para um processo AR(1). Xt = c+ ρXt−1 + εt onde εt e´ um ru´ıdo branco. Por substituic¸a˜o, Xt = c+ ρ (c+ ρXt−2 + εt−1) + εt = c+ ρc+ ρ 2Xt−2 + εt + ρεt−1 = c+ ρc+ ρ2 (c+ ρXt−3 + εt−2) + εt + ρεt−1 = c+ ρc+ ρ2c+ ρ3Xt−3 + εt + ρεt−1 + ρ 2εt−2 = c+ ρc+ ρ2c+ ...+ εt + ρεt−1 + ρ 2εt−2 + ... O termo do lado direito envolvendo X converge para 0 a` medida que con- tinuamos substituindo se |ρ| < 1. Portanto, E [Xt] = c 1− ρ γ0 = V [Xt] = σ2 1− ρ2 γj = cov (Xt,Xt−j) = E [(Xt − µ) (Xt−j − µ)] = E £¡ εt + ρεt−1 + ρ 2εt−2 + ... ¢ ¡ εt−j + ρεt−j−1 + ρ 2εt−j−2 + ... ¢¤ = ρjσ2 + ρj+2σ2 + ρj+4σ2 + ... = ρjσ2 1− ρ2 9 Estimac¸a˜o eficiente Quando Ω e´ conhecido Me´todo 1: Mı´nimos quadrados generalizados O estimador Ω−1 = 1 σ2u 1 −ρ 0 · · · 0 −ρ 1 + ρ2 −ρ ... 0 −ρ . . . 0 ... 1 + ρ2 −ρ 0 · · · 0 −ρ 1 + ρ2 ⇒ P = Ω−1/2 = 1 σu p 1− ρ2 0 0 · · · 0 −ρ 1 0 ... 0 −ρ 0 ... 1 0 0 · · · 0 −ρ 1 Pre´ multiplique o modelo de regressa˜o linear por P : Py = PXβ + Pε ou y∗ = X∗β + ε∗ onde y∗ = p 1− ρ2y1 y2 − ρy1 ... yT − ρyT−1 n×1 , X∗ = p 1− ρ2x01 x02 − ρx01 ... x0T − ρx0T−1 n×K , ε∗ = p 1− ρ2ε1 ε2 − ρε1 ... εT − ρεT−1 n×1 Note como essa transformac¸a˜o torna os erros ε∗ na˜o auto correlacionados. O estimador de mı´nimos quadrados generalizados e´ calculado da maneira usual por βˆGLS = (X ∗0X∗)−1X∗0y∗ = (X 0P 0PX)−1X 0P 0Py = ¡ X 0Ω−1X ¢−1 X 0Ω−1y 10 Intuic¸a˜o Por que esse procedimento produz um estimador mais eficiente que MQO? βˆOLS = argmin β ε0ε = argmin β ¡ ε21 + ...+ ε 2 T ¢ βˆGLS = argmin β (y∗ −X∗β)0 (y∗ −X∗β) = argmin β (y −Xβ)0Ω−1 (y −Xβ) = argmin β ε0Ω−1ε = argmin β ³¡ 1− ρ2 ¢ ε21 + (ε2 − ρε1) 2 + ...+ (εT − ρεT−1)2 ´ Portanto, MQO tenta escolher β de modo que cada um dos ε0ts seja zero. Se yt e xt, para uma observac¸a˜o particular, sa˜o tais que εt seria grande, a menos que β estivesse pro´ximo de um determinado valor, isso fara´ com que MQO escolha como estimativa de β um valor βˆ pro´ximo dessa observac¸a˜o particular. Esse e´, no entanto, um uso sub o´timo da informac¸a˜o dispon´ıvel. Suponha que ρ seja positivo e que εt−1 tambe´m seja positivo. Enta˜o E [εt|εt−1] = ρεt−1 > 0 e o valor verdadeiro de β satisfaz E [yt − x0tβ|εt−1] = ρεt−1. Portanto, no´s devemos tentar escolher βˆ de modo que εt = yt−x0tβ seja pro´ximo de ρεt−1, na˜o de zero. Isso e´ precisamente o que GLS faz, exceto para a primeira observac¸a˜o. Me´todo 2: Ma´xima verossimilhanc¸a. Mesmo que mı´nimos quadrados gener- alizados Quando Ω e´ desconhecido Me´todo 1: Mı´nimos quadrados generalizados fact´ıveis (FGLS) Na pra´tica, ρ e´ desconhecido. O seguinte procedimento de mı´nimos quadra- dos generalizados fact´ıveis e´ denominado Prais-Winsten (Cochrane-Orcutt se excluirmos a primeira observac¸a˜o). 1. Estime o modelo yt = x0tβ + εt usando MQO e compute os res´ıduos εˆt. 2. Estime o modelo εˆt = ρεˆt−1+vt usando MQO e compute ρˆ = PT t=2 εˆtεˆt−1PT t=2 εˆ 2 t−1 3. Transforme os dados da seguinte forma: y∗1 = q 1− ρˆ2y1, x∗1 = q 1− ρˆ2x1 y∗t = yt − ρˆyt−1, x∗t = xt − ρˆxt−1, t = 2, ..., T 11 4. Regresse y∗ em X∗ e obtenha βˆFGLS Se os erros forem AR(1), o primeiro passo e´ justificado pelo fato de que MQO e´ ainda consistente. Isso implica que ρ no segundo passo tambe´m e´ con- sistente e isso e´ tudo que e´ necessa´rio para implementar mı´nimos quadrados generalizados fact´ıveis. A exclusa˜o da primeira observac¸a˜o na˜o afeta as pro- priedades assinto´ticas do estimador, mas as propriedades em amostras finitas podem ser afetadas severamente se os regressores apresentarem uma tendeˆncia. Me´todo 2: Ma´xima verossimilhanc¸a. Se ε ∼ N (0,Ω (ρ)) (condicional em X), no´s podemos estimar β, ρ e σ2u por ma´xima verossimilhanc¸a. A func¸a˜o de log-verossimilhanc¸a e´ dada por lnL (y, β, ρ) = −T 2 ln (2π)− 1 2 ln |Ω (ρ)|− 1 2 ε0 (Ω (ρ))−1 ε = −T 2 ln (2π)− 1 2 ln |Ω (ρ)|− 1 2 (y −Xβ)0 (Ω (ρ))−1 (y −Xβ) Na˜o e´ conveniente maximizar a func¸a˜o de log-verossimilhanc¸a nessa forma. Reescreva-a como f (yt, ..., y1) = f (yt|yt−1, ..., y1) f (yt−1, ..., y1) = f (yt|yt−1, ..., y1) f (yt−1|yt−2..., y1) f (yt−2, ..., y1) = Qt s=2 f (ys|ys−1..., y1) f (y1) Como a distribuic¸a˜o conjunta de (y1, ..., yT ) , condicional em X, e´ normal, as distribuic¸o˜es condicionais na fo´rmula acima tambe´m sa˜o normais. Se |ρ| < 1 no modelo AR(1) , a distribuic¸a˜o de εt e´ independente de t e dada por εt ∼ N ³ 0, σ 2 u 1−ρ2 ´ , t=1,...,T Portanto, para t = 1 y1 = x 0 1β + ε1, ε1 ∼ N µ 0, σ2u 1− ρ2 ¶ ⇒ y1 = x01β + ε1 ∼ N µ x01β, σ2u 1− ρ2 ¶ Para t ≥ 2 yt − ρyt−1 = x0tβ − ρx0t−1β + εt − ρεt−1, εt − ρεt−1 ∼ N ¡ 0, σ2u ¢ ⇒ yt|yt−1, ..., y1 = yt|yt−1 = ρyt−1 + x0tβ − ρx0t−1β + εt − ρεt−1 ∼ N ¡ ρyt−1 + x0tβ − ρx0t−1β, σ2u ¢ Portanto, f (y1) = 1p 2πσ2u/ (1− ρ) exp à −1 2 (y1 − x01β) 2 σ2u/ (1− ρ) ! 12 f (yt|yt−1, ..., y1) = 1p 2πσ2u exp à −1 2 ¡ yt − ρyt−1 + x0tβ − ρx0t−1β ¢2 σ2u ! e, consequ¨entemente, a func¸a˜o de log-verossimilhanc¸a pode ser escrita como lnL (y, β, ρ) = à −1 2 ln (2π)− 1 2 lnσ2u + 1 2 ¡ 1− ρ2 ¢ − 1 2 (y1 − x01β) 2 σ2u/ (1− ρ) ! −T − 1 2 ln (2π)− T − 1 2 lnσ2u − 1 2σ2u PT t=2 ¡ y1 − ρyt−1 + x0tβ − ρx0t−1β ¢2 Assintoticamente, na˜o importa se no´s ignorarmos o primeiro termo. Se no´s simplesmente rodarmos MQO no modelo transformado, obteremos estimadores consistentes de ρ, β e ρβ, mas no´s temos uma restric¸a˜o entre os coeficientes (pois ρ vezes β e´ igual a ρβ). Para impor essa restric¸a˜o, no´s devemos estimar atrave´s de mı´nimos quadrados na˜o lineares. Testes de Autocorrelac¸a˜o Teste de Durbin-Watson Assume normalidade dos erros. Na˜o e´ va´lido se a regressa˜o incluir varia´veis dependentes defasadas entre os regressores. Va´lido para testar autocorrelac¸a˜o de primeira ordem mesmo se correlac¸o˜es de ordem superior estiverem presentes. H0 : Auseˆncia de autocorrelac¸a˜o H1 : Autocorrelac¸a˜o positiva de primeira ordem (e´ poss´ıvel testar autocor- relac¸a˜o de primeira ordem negativa utilizando 4−DW ) a) Estime o modelo yt = x0tβ + εt por OLS e compute os res´ıduos εˆt b) Estat´ıstica do teste: DW = PT t=2 (εˆt − εˆt−1) 2PT t=1 εˆ 2 t (≈ 2(1− r), 0 ≤ DW ≤ 4) onde r e´ a autocorrelac¸a˜o amostral de primeira ordem. Rejeite H0 se DW < dL,T,k,α. Na˜o rejeite H0 se DW > dU,T,k,α. O teste e´ inconclusivo se dL,T,k,α ≤ DW ≤ dU,T,k,α. α e´ o n´ıvel de significaˆncia e dL,T,k,α e dU,T,k,α sa˜o tabulados. 13 Teste de Breusch-Godfrey H0 : Auseˆncia de autocorrelac¸a˜o H1 : εt e´ AR(p) ou MA(p) a) Estime o modelo yt = x0tβ + εt por OLS e compute os res´ıduos εˆt b) Regresse εˆt em xt e εˆt−1, ..., εˆt−p e compute o R2. A estat´ıstica do teste e´ dada por nR2 d→ χ2p sob H0. Note a similaridade com o teste de White para heteroscedasticidade. 14 Econometria/gmm.pdf Universidade de Sa˜o Paulo - Departamento de Economia EAE 5811 - Econometria I Prof. Dr. Ricardo Avelino 1o Semestre de 2007 Me´todo Generalizado dos Momentos Suponha que o modelo econome´rico postule um conjunto deM condic¸o˜es de ortogonalidade: E [f (xt, β0)] = 0 β0 : vetor de paraˆmetros K × 1 (K ≤M) O estimator do me´todo generalizado dos momentos βT do paraˆmetro β0 e´ dado por: βT = argmin β TgT (β) 0WgT (β) onde gT (β) = 1 T TX t=1 f (xt, β) e W e´ uma matriz sime´trica positiva definida de dimensa˜o M ×M. As condic¸o˜es de momento utilizadas na estimac¸a˜o sa˜o determinadas por aT gT (βT ) = 0 onde a0 e´ uma matriz de selec¸a˜o de dimensa˜o K por M . A matriz de selec¸a˜o isola as condic¸o˜es de momento que sera˜o utilizadas na estimac¸a˜o e indexa esti- madores alternativos do me´todo generalizado dos momentos. Estimadores com a mesma matriz de selec¸a˜o tem a mesma eficieˆncia assinto´tica. E´ importante ressaltar que a pre´-multiplicac¸a˜o da matriz de selec¸a˜o por uma matriz na˜o sin- gular resulta no mesmo sistema na˜o linear de equac¸o˜es. Os estimadores do me´todo generalizado dos momentos sa˜o assintoticamente equivalentes a esti- madores (possivelmente na˜o fact´ıveis) em que a matriz de selec¸a˜o e´ substitu´ıda por seu limite em probabilidade. A relac¸a˜o entre a matriz de ponderac¸a˜o W e a matriz de selec¸a˜o e´ vista a partir das condic¸o˜es de primeira ordem: aT = 1 T TX t=1 ∂f (xt, βT ) ∂β 0 W ou da contrapartida populacional a0 = d00W, d0 = E · ∂f (xt, β0) ∂β ¸ = 0 Exemplo 1: Mı´nimos Quadrados Ordina´rios y = Xβ + ε, E [ε|X] = 0 1 E [ε|X] = 0 =⇒ E [εX] = 0 E [xt (yt − x0tβ0)] = 0 βGMMT soluciona 1 T TX t=1 xt ³ yt − x0tβGMMT ´ = 0 =⇒ βGMMT = à 1 T TX t=1 xtx0t !−1à 1 T TX t=1 xtyt ! Exemplo 2: Estimador de Varia´veis Instrumentais y = Xβ + ε, E [X 0ε] 6= 0, E [Z0ε] = 0, E [Z 0X] 6= 0 βGMMT soluciona 1 T TX t=1 zt ³ yt − x0tβGMMT ´ = 0 =⇒ βGMMT = à 1 T TX t=1 ztx0t !−1à 1 T TX t=1 ztyt ! Exemplo 3: Ma´xima Verossimilhanc¸aZ f (xt, β0) dxt = 1 Diferenciando com relac¸a˜o a β0 :Z ∂f (xt, β0) ∂β0 dxt = 0 =⇒ Z ∂f (xt, β0) ∂β0 1 f (xt, β0) f (xt, β0) dxt = 0 =⇒ Z ∂ ln f (xt, β0) ∂β0 f (xt, β0) dxt = 0 =⇒ E · ∂ ln f (xt, β0) ∂β0 ¸ = 0 βGMMT soluciona 1 T TX t=1 ∂ ln f ³ xt, β GMM T ´ ∂β = 0 Distribuic¸a˜o Assinto´tica 1√ T TX t=1 f (xt, β0) d→ N (0, V0) √ T (βT − β0) ≈ − (a0d0) −1 a0 1√ T TX t=1 f (xt, β0) 1√ T TX t=1 f (xt, βT ) ≈ ³ I − d0 (a0d0)−1 a0 ´ 1√ T TX t=1 f (xt, β0) 2 Prova Expandindo 1T TX t=1 f (xt, βT ) numa se´rie de Taylor de primeira ordem, obte´m- se 1 T TX t=1 f (xt, βT ) = 1 T TX t=1 f (xt, β0) + 1 T TX t=1 ∂f (xt, βT ) ∂β ¯¯¯¯ ¯ βT=β0 (βT − β0) Pre´-multiplicando por aT resulta em 0 = aT gT (βT ) ≈ aT gT (β0) + aT d0 (βT − β0) =⇒ √ T (βT − β0) ≈ − (aTd0) −1 aT √ TgT (β0) =⇒ √ T (βT − β0) ≈ − (a0d0) −1 a0 1√ T TX t=1 f (xt, β0) gT (βT ) ≈ gT (β0)+d0 (βT − β0) =⇒ √ TgT (βT ) ≈ √ TgT (β0)+d0 √ T (βT − β0) =⇒ √ TgT (βT ) ≈ √ TgT (β0)− d0 (a0d0) −1 a0 √ TgT (β0) =⇒ √ TgT (βT ) ≈ ³ I − d0 (a0d0)−1 a0 ´ 1√ T TX t=1 f (xt, β0) Prova da Matriz de Ponderac¸a˜o Eficiente √ T (βT − β0) d→ N ³ 0, (a0d0) −1 a0V0a 0 0 (d 0 0a 0 0) −1 ´ Defina Ω = (a0d0) −1 a0V0a00 (d00a00) −1 . Se V = V −10 , Ω = ¡ d00V −1 0 d0 ¢−1 d00V −1 0 V0V −1 0 d0 ¡ d00V −1 0 d0 ¢−1 = ¡ d00V −1 0 d0 ¢−1 Caso contra´rio, se V =W, Ω = (d00Wd0) −1 d00WV0Wd0 (d 0 0Wd0) −1 Basta mostrar que £ Ω ¡ V −10 ¢¤−1− [Ω (W )]−1 e´ positiva semi-definida. Como V0 e´ sime´trica, tem M vetores caracter´ısticos distintos, que sa˜o ortogonais. Reescrevendo V0 como V0 = CC0, no´s obtemos£ Ω ¡ V −10 ¢¤−1 − [Ω (W )]−1 = d00C −10 h I − C0Wd0 [d00WV0Wd0] −1 d00WC i C−1d0 3 Seja A = C 0Wd0 e M = I − A (A0A)−1A0. Como M e´ idempotente e sime´trica, M 0M =M. Isso implica que M e´ positiva semi-definida. Testando as Condic¸o˜es de Ortogonalidade TgT (βT ) 0 V −10 gT (βT ) d→ χ2M−K Prova √ TgT (βT ) ≈ ³ I − d0 (a0d0)−1 a0 ´√ TgT (β0) ⇒ √ TC−1gT (βT ) ≈ ³ I − C−1d0 (a0d0)−1 d00C−10 ´√ TC−1gT (β0) ⇒ √ TC−1gT (βT ) ≈ h I −G (G0G)−1G0 i√ TC−1gT (β0) para G = C−1d0. Mas I −G (G0G)−1G0 e´ uma matriz idempotente com posto M −K e, pelo teorema central do limite, √ TC−1gT (β0) d→ N (0, IM ) . Portanto, aplicando-se o teorema de Fischer-Cochran, segue-se que Tg0T (βT )V −1 0 gT (βT ) = Tg 0 T (βT )C −10C−1gT (βT ) = √ Tg0T (β0)C −10 d→N(0,IM ) h I −G (G0G)−1G0 i idempotente com posto M-K √ TC−1gT (β0) d→N(0,IM ) d→ χ2M−K Estimador daMatriz de Variaˆncia-Covariaˆncia dos Paraˆmetros (Newey-West, Econometrica (1987)) Vˆ0 = Γˆ0,T + qX v=1 {1− [v/ (q + 1)]} ³ Γˆv,T + Γˆ 0 v,T ´ para Γˆv,T = 1 T TX t=v+1 f (xt, βT ) f (xt−v, βT ) Exemplo 4: Modelo de Expectativas Racionais Na˜o Linear (Hansen e Sin- gleton, Econometrica (1982)) max {Ct} Et " ∞X s=t δtU (Ct) # 4 sujeito a Ct + NX j=1 PjtQjt ≤ NX j=1 RjtQjt−Mj +Wt Ct : consumo no per´ıodo t δ ∈ (0, 1) : fator de desconto Qjt : quantidade do ativo j no final do per´ıodo t Pjt : prec¸o do ativo j no per´ıodo t Rjt : payoff de deter uma unidade de um ativo com maturac¸a˜oMj comprado no instante t−Mj Wt : renda real do trabalho no per´ıodo t max {Qjt} Et ∞X s=t δtU NX j=1 RjtQjt−Mj +Wt − NX j=1 PjtQjt As condic¸o˜es necessa´rias de primeira ordem para maximizac¸a˜o sa˜o dadas por −δtU 0 (Ct)Pjt + δt+MjEt £ U 0 ¡ Ct+Mj ¢ Rjt+Mj ¤ = 0 =⇒ PjtU 0 (Ct) = δMjEt £ Rjt+MjU 0 ¡Ct+Mj¢¤ = 0 Se tivermos acesso a ativos com maturac¸a˜o n1, ..., nm e definirmos o retorno como Xjt+nj = Rnjt+nj/Pnjt, Et " δnj U 0 ¡ Ct+nj ¢ U 0 (Ct) Xjt+nj − 1 # = 0 Qualquer vetor de varia´veis que estiver no conjunto de informac¸a˜o do agente e for observado pelo econometrista pode ser utilizado como instrumento. E [f (Xt+n, β0)⊗ zt] = 0 onde f (Xt+n, β0) = δn1 U 0(Ct+n1) U 0(Ct) X1t+n1 − 1 ... δnm U 0(Ct+nm) U 0(Ct) X1t+nm − 1 No caso particular da func¸a˜o poteˆncia, em que U (Ct) = Cγt γ , γ < 1, o vetor de paraˆmetros e´ dado por β0 = (δ0, γ0) 0 . Exemplo 5: Modelo de Selec¸a˜o (Heckman, Econometrica (1979)) O estimador do me´todo generalizado dos momentos e´ suficientemente geral para incluir estimadores em dois esta´gios em que as condic¸o˜es de ortogonali- dade do primeiro e do segundo esta´gios sa˜o agrupadas para formar um vetor de condic¸o˜es de ortogonalidade. 5 Suponha que o mecanismo de selec¸a˜o seja determinado pela seguinte equac¸a˜o: z∗i = x 0 iγ + ui isto e´, di = 1⇔ z∗i > 0 Adicionalmente, suponha que a equac¸a˜o de interesse seja expressa por yi = w0iβ + εi e que µ ui εi ¶ ∼ N µµ 0 0 ¶ , µ 1 σuε σuε σ2ε ¶¶ A varia´vel aleato´ria yi sera´ observada apenas se z∗i > 0. Mı´nimos quadrados quadrados ordina´rios na amostra toda estima a me´dia de yi, condicional em wi e di = 1 : E [yi|wi, di = 1] = w0iβ +E [εi|wi, di = 1] Se a me´dia de εi fosse independente de di, condicional em wi, ter´ıamos E [εi|wi, di = 1] = 0 e, consequ¨entemente, E [yi|wi, di = 1] = w0iβ. Nesse caso, mı´nimos quadrados ordina´rios na amostra toda produziria estimativas consis- tentes de β. Mas como a me´dia de εi na˜o e´ independente de di, condicional em wi, mı´nimos quadrados ordina´rios e´ inconsistente. Definic¸a˜o: A densidadade conjunta de y e z truncada em z e´ dada por f (y, z|z > a) = f (y, z) Pr(z > a) Teoema: Se y e z possuem uma distribuic¸a˜o normal bivariada com me´dias µY e µZ , desvios-padro˜es σY e σZ e correlac¸a˜o ρ, enta˜o E [y|z > a] = µY + ρσY λ (αz) V [y|z > a] = σ2Y £ 1− ρ2δ (αz) ¤ para αz = a−µZ σZ , λ (αz) = φ(αz) 1−Φ(αz) e δ (αz) = λ (αz) [λ (αz)− αz] . λ (αz) e´ denominada raza˜o de Mills invertida. A varia´vel aleato´ria yi sera´ observada apenas se z∗i > 0. Como εi e ui teˆm uma distribuic¸a˜o normal bivariada, podemos utilizar o teorema anterior para derivar a distribuic¸a˜o das observac¸o˜es na amostra. E [yi|yi e´ obsevado] = E [yi|z∗i > 0] = E [yi|ui > −x0iγ] = w0iβ +E [εi|ui > −x0iγ] = w0iβ + ρσελi (x0iγ) = w0iβ + αλi (x 0 iγ) 6 Portanto, λi (x0iγ) pode ser visto como um regressor adicional que corrige para a endogeneidade da subamostra. O modelo de selec¸a˜o pode ser estimado em dois esta´gios, a partir do pro- cedimento proposto por Heckman (Econometrica, 1979). Num primeiro esta´gio, estima-se por ma´xima verossimilhanc¸a os coeficientes da equac¸a˜o que determina o mecanismo de selec¸a˜o. A partir das estimativas de γ, calculam-se para cada observac¸a˜o na amostra selecionada os valores de λˆi = φ (x0iγ) /Φ (−x0iγ) . Num segundo esta´gio, mediante mı´nimos quadrados, estimam-se β e α ≡ ρσε a partir da regressa˜o de y contra x e λˆ. 10 Esta´gio: Modelo Probit: z∗i = x 0 iγ + ui, ui ∼ N (0, 1) No´s observamos di = 1 se e somente se z∗i > 0. Portanto, P (di = 1) = P (z∗i > 0) = P (ui > −x0iγ) = P (ui < x0iγ) = Φ (x0iγ) Similarmente, P (di = 0) = P (z ∗ i ≤ 0) = P (ui ≤ −x0iγ) = Φ (−x0iγ) = 1− Φ (x0iγ) Logo, P (D1 = d1,D2 = d2, ...,Dn = dn|X, γ) = Qn i=1 [Φ (x 0 iγ)] di [1− Φ (x0iγ)] 1−di Enta˜o, a func¸a˜o de log verossimilhanc¸a e´ dada por lnL = Pn i=1 di ln [Φ (x 0 iγ)] + (1− di) ln [1− Φ (x0iγ)] Derivando com relac¸a˜o a` γ e igualando a zero, obtemos ∂ lnL ∂γ = 0⇒ Pn i=1 xi · diφ (x0iγ) Φ (x0iγ) − (1− di)φ (x 0 iγ) 1− Φ (x0iγ) ¸ = 0 ⇒ 0 = Pn i=1 xi · diφ (x0iγ)− diφ (x0iγ)Φ (x0iγ)− φ (x0iγ)Φ (x0iγ) Φ (x0iγ) (1− Φ (x0iγ)) + diφ (x0iγ)Φ (x 0 iγ) Φ (x0iγ) (1− Φ (x0iγ)) ¸ ⇒ Pn i=1 xi · diφ (x0iγ)− φ (x0iγ)Φ (x0iγ) Φ (x0iγ) (1− Φ (x0iγ)) ¸ = 0 ⇒ Pn i=1 xi φ (x0iγ) 1− Φ (x0iγ) Φ−1 (x0iγ) [di − Φ (x0iγ)] = 0 ⇒ Pn i=1 xiλ (x 0 iγ)Φ −1 (x0iγ) [di − Φ (x0iγ)] = 0 para λ (x0iγ) = φ (x0iγ) 1− Φ (x0iγ) 7 Portanto, temos as seguintes condic¸o˜es de ortogonalidade: E0 · gi (z, θ, γ) mi (z, γ) ¸ = 0 para gi (z, θ, γ) = di · wi λ (x0iγ) ¸ [yi − w0iβ − αλ (x0iγ)] , θ = ¡ β0, α0 ¢0 (1) e mi (z, γ) = λ (x0iγ)Φ −1 (x0iγ)xi [di − Φ (x0iγ)] (2) Enta˜o, a equac¸a˜o (1) torna-se a condic¸a˜o de primeira ordem para mı´nimos quadrados na amostra selecionada e a equac¸a˜o (2) a condic¸a˜o de primeira ordem para o modelo probit. Defina Gθ = E [∇θgi (z, θ0, γ0)] , Gγ = E [∇γgi (z, θ0, γ0)] , g (z) = gi (z, θ0, γ0) M = E [∇γmi (z, γ0)] , ψ (z) = −M−1mi (z, γ0) Se as equac¸o˜es (1) e (2) sa˜o satisfeitas com probabilidade aproximando-se de 1, θˆ P→ θ e γˆ P→ γ0. Enta˜o θˆ e γˆ sa˜o assintoticamente normais e a distribuic¸a˜o assinto´tica e´ dada por √ n µ θˆ − θ γˆ − γ ¶ d→ N ³ 0, G˜−1V G˜−10 ´ onde G˜ = E " ∂gi (z, θ, γ) /∂ ¡ θ0, γ0 ¢0 ∂mi (z, γ) /∂ ¡ θ0, γ0 ¢0 # = · Gθ Gγ0 M ¸ e V = E · gi (z, θ, γ) gi (z, θ, γ) 0 gi (z, θ, γ)mi (z, γ) 0 mi (z, γ) gi (z, θ, γ) 0 mi (z, γ)mi (z, γ) 0 ¸ Portanto, G˜−1 = · G−1θ −G −1 θ GγM −1 0 M−1 ¸ Note que ∂gi (z, θ, γ) ∂θ = di · −wiw0i −wiλ (x0iγ) −λ (x0iγ)w0i −λ (x0iγ)λ (x0iγ) ¸ e ∂gi (z, θ, γ) ∂γ = di · −αwiλv (x0iγ)x0i −αλv (x0iγ)λ (x0iγ)x0i + λv (x0iγ) (yi − w0iβ − αλ (x0iγ)) ¸ onde λv (x0iγ) = λ (x 0 iγ) (λ (x 0 iγ)− x0iγ) 8 Portanto Gθ = −E [diWiW 0i ] , Wi = £ w0i λ (x 0 iγ) ¤0 e Gγ = −αE · di · wi λ (x0iγ) ¸ λv (x 0 iγ)x 0 i ¸ Ale´m disso, E £ mi (z, γ)mi (z, γ) 0¤ = E £ λ (x0iγ)Φ −1 (x0iγ)xi [di − Φ (x0iγ)] [di − Φ (x0iγ)]x0iΦ−1 (x0iγ)λ (x0iγ) ¤ = E £ λ (x0iγ)Φ −1 (x0iγ)xiE {[di − Φ (x0iγ)] [di − Φ (x0iγ)] |x}x0iΦ−1 (x0iγ)λ (x0iγ) ¤ = E · λ2 (x0iγ) Φ2 (x0iγ) xi [1− Φ (x0iγ)] 2 x0iΦ (x 0 iγ) + λ2 (x0iγ) Φ2 (x0iγ) xiΦ (x 0 iγ) 2 x0i [1− Φ (x0iγ)] ¸ = E ·· φ2 (x0iγ) Φ (x0iγ) + φ2 (x0iγ) [1− Φ (x0iγ)] ¸ xix 0 i ¸ = E ·· φ2 (x0iγ)− φ 2 (x0iγ)Φ (x 0 iγ) + φ 2 (x0iγ)Φ (x 0 iγ) Φ (x0iγ) [1− Φ (x0iγ)] ¸ xix 0 i ¸ = E ·· φ2 (x0iγ) Φ (x0iγ) [1− Φ (x0iγ)] ¸ xix 0 i ¸ = E ·· φ2 (x0iγ) [1− Φ (−x0iγ)] [1− Φ (x0iγ)] ¸ xix 0 i ¸ = E [λ (x0iγ)λ (−x0iγ)xix0i] = −M onde a u´ltima igualdade e´ consequ¨eˆncia da desigualdade da informac¸a˜o. O primeiro termo da diagonal de V, assumindo homoscedasticidade, e´ sim- plesmente E £ gi (z, θ, γ) gi (z, θ, γ) 0¤ = E [diWiεiε0iW 0 i ] = E [E [diWiεiε 0 iW 0 i |d,W ]] = σ2E [diWiW 0i ] pois εi = yi − w0iβ − αλ (x0iγ) e E [εiε0i|d,W ] = σ2 Finalmente, note que E £ gi (z, θ, γ)mi (z, γ) 0¤ = E £ diWiE [εi|w, d, x]λ (x0iγ)Φ−1 (x0iγ)xi (di − Φ (x0iγ)) ¤ = 0 pois E [εi|w, d, x] = 0. Em particular, como a primeira linha de G˜−1 e´ dada porG−1θ £ I −GγM−1 ¤ , temos a seguinte fo´rmula para a variaˆncia assinto´tica de θˆ: G−1θ £ I −GγM−1 ¤ E µ· g (z) mi ¸ £ g (z) mi ¤¶· I −GγM−1 ¸ G−1θ = G−1θ E µ£ I −GγM−1 ¤ · g (z) mi ¸ £ g (z) mi ¤ · I −GγM−1 ¸¶ G−1θ = G−1θ E ³£ g (z)−GγM−1mi ¤ £ g (z)−GγM−1mi ¤0´ G−1θ = G−1θ E ¡ [g (z) +Gγψ (z)] [g (z) +Gγψ (z)] 0¢G−1θ 9 Testes de Hipo´tese Wald Seja R0 = rθ (β0) o gradiente de r, de dimensa˜o qxk. Pelo me´todo delta, √ T ³ r ³ βˆ ´ − r (β0) ´ d→ R0N (0,Ω) = N (0, R0ΩR00) , Ω = ¡ d00V −1 0 d0 ¢−1 Defina Rˆ = R ³ βˆ ´ . Sob a hipo´tese nula, a estat´ıstica de Wald e´ dada por W = Tr ³ βˆ ´0 h RˆΩˆRˆ0 i−1 r ³ βˆ ´ d→ χ2q para um estimador consistente Ωˆ de Ω. Gradiente (Multiplicador de Lagrange) O estimador restrito do me´todo generalizado dos momentos e´ dado por βˆR = argmin {β:r(β)=0} QT (β) = argmin {β:r(β)=0} gT (β) 0 V −10 gT (β) O gradiente da func¸a˜o objetivo e´ simplesmente ∂QT (β) ∂β = dT (β) 0 V −10 gT (β) A estat´ıstica do teste e´ definida como G = Tg0 ³ βˆR ´ Vˆ −1dT ³ d0T Vˆ −1dT ´−1 d0T Vˆ −1g ³ βˆR ´ Diferenc¸a da Distaˆncia O teste da diferenc¸a da distaˆncia baseia-se em DD = T h QT ³ βˆR ´ −QT ³ βˆ ´i Esse teste e´ similar a` estat´ıstica da raza˜o de verossimilhanc¸a. Requer tanto a estimac¸a˜o do modelo irrestrito quanto do modelo restrito. Mı´nimo Qui-Quadrado Esse teste compara os estimadores restrito e irrestrito do me´todo genera- lizado dos momentos. Escolhe o estimador do modelo restrito de maneira a minimizar o seguinte crite´rio: MC = Tmin α ³ βˆ − r (α) ´0 Ωˆ−1 ³ βˆ − r (α) ´ = Tmin α ³ βˆ − r (α) ´0 d0T Vˆ −1dT ³ βˆ − r (α) ´ = T ³ βˆ − βˆR ´0 d0T Vˆ −1dT ³ βˆ − βˆR ´ 10 O teste utiliza a inversa da matriz de variaˆncia-covariaˆncia assinto´tica do estimador irrestrito do me´todo generalizado dos momentos como ponderac¸a˜o. O teste converge em distribuic¸a˜o para uma χ2q. Seja α˜ o estimador de α0 que corresponde a β0 = r (α0) sob a restric¸a˜o. A condic¸a˜o necessa´ria de primeira ordem para minimizac¸a˜o da estat´ıstica e´ 0 = ∂r0 (α˜) ∂α Ωˆ−1 ³ βˆ − r (α˜) ´ ⇒ ∂r 0 (α˜) ∂α 0 Ωˆ−1 µ βˆ − r (α0)− ∂r0 (α0) ∂α (α˜− α0) ¶ ≈ 0 ⇒ ∂r 0 (α˜) ∂α 0 Ωˆ−1 ³ βˆ − r (α0) ´ − ∂r 0 (α˜) ∂α 0 Ωˆ−1 ∂r0 (α0) ∂α (α˜− α0) ≈ 0 ⇒ (α˜− α0) ≈ µ ∂r0 (α˜) ∂α 0 Ωˆ−1 ∂r0 (α0) ∂α ¶−1 ∂r0 (α˜) ∂α 0 Ωˆ−1 ³ βˆ − r (α0) ´ Portanto, βˆ − r (α˜) ≈ βˆ − r (α0)− ∂r (α0) ∂α0 (α˜− α0) ≈ βˆ − r (α0) −∂r (α0) ∂α0 µ ∂r0 (α˜) ∂α 0 Ωˆ−1 ∂r0 (α0) ∂α ¶−1 ∂r0 (α˜) ∂α 0 Ωˆ−1 ³ βˆ − r (α0) ´ ≈ " I − ∂r (α0) ∂α0 µ ∂r0 (α˜) ∂α 0 Ωˆ−1 ∂r0 (α0) ∂α ¶−1 ∂r0 (α˜) ∂α 0 Ωˆ−1 #³ βˆ − β0 ´ e, consequ¨entemente, Ωˆ−1/2 ³ βˆ − r (α˜) ´ ≈ " I − Ωˆ−1/2 ∂r ∂α0 µ ∂r0 ∂α 0 Ωˆ−1 ∂r0 ∂α ¶−1 ∂r0 ∂α 0 Ωˆ−1/2 # Ωˆ−1/2 ³ βˆ − β0 ´ Como Ωˆ−1/2 ³ βˆ − β0 ´ d→ N (0, I) e a matriz entre colchetes e´ idempotente, com posto q, segue-se que³ βˆ − r (α˜) ´0 Ωˆ−1 ³ βˆ − r (α˜) ´ d→ χ2q Equivaleˆncia assinto´tica das 4 estat´ısticas do teste. Sob a hipo´tese nula, pode ser mostrado que as estat´ısticas de Wald, Gra- diente, Diferenc¸a e Mı´nimo Qui-Quadrado sa˜o assintoticamente equivalentes e, portanto, distribu´ıdas assintoticamente como χ2q. A equivaleˆncia assinto´tica do 11 teste da Diferenc¸a e do teste de Mı´nimo Qui-Quadrado e´ baseado no seguinte resultado: Para qualquer estimador √ T consistente β˜ de β0, TQT ³ β˜ ´ = TQT ³ βˆ ´ + T ³ βˆ − β˜ ´0 d0T Vˆ −1dT ³ βˆ − β˜ ´ + op (1) onde βˆ denota o estimador do me´todo generalizado dos momentos que utliza a matriz de ponderac¸a˜o o´tima. Considere a seguinte func¸a˜o objetivo geral do me´todo generalizado dos mo- mentos: QT (β) = 1 T g0 (β)Wg (β) e o estimador de GMM associado βˆ = argmin β 1 T g0 (β)Wg (β) Expandindo a condic¸a˜o necessa´ria de primeira ordem para minimizac¸a˜o G0 ³ βˆ ´ Wg ³ βˆ ´ = 0 numa se´rie de Taylor em torno de β˜, obte´m-se 0 = G0 ³ βˆ ´ W · g ³ β˜ ´ +G ³ β˜ ´³ βˆ − β˜ ´ + op µ°°°βˆ − β˜°°°2¶¸ ⇒ G0 ³ βˆ ´ Wg ³ β˜ ´ +G0 ³ βˆ ´ WG ³ θ˜ ´³ βˆ − β˜ ´ + op µ°°°βˆ − β˜°°°2¶ ⇒ √ T ³ βˆ − β˜ ´ = − ³ G0 ³ βˆ ´ WG ³ β˜ ´´−1 G0 ³ βˆ ´ W √ Tg ³ β˜ ´ + op (1) (3) Defina P =W 1/2G ³ βˆ ´³ G0 ³ βˆ ´ WG ³ β˜ ´´−1 G0 ³ βˆ ´ W 1/2 (4) Enta˜o √ TW 1/2g ³ βˆ ´ = √ TW 1/2g ³ β˜ ´ + √ TW 1/2G ³ β˜ ´³ βˆ − β˜ ´ + op (1) (3) = √ TW 1/2g ³ β˜ ´ −W 1/2G ³ β˜ ´³ G0 ³ βˆ ´ WG ³ β˜ ´´−1 G0 ³ βˆ ´ W √ Tg ³ β˜ ´ +op (1) (4) = (I − P )W 1/2 √ Tg ³ β˜ ´ + op (1) (5) Portanto, Tg0 ³ β˜ ´ Wg ³ β˜ ´ = Tg0 ³ β˜ ´ W 1/2 (I − P )W 1/2g ³ β˜ ´ +Tg0 ³ β˜ ´ W 1/2PW 1/2g ³ β˜ ´ 12 (5) = √ Tg0 ³ βˆ ´ W 1/2 √ TW 1/2g ³ βˆ ´ + Tg0 ³ β˜ ´ W 1/2PPW 1/2g ³ β˜ ´ + op (1) (6) utilizando, na u´ltima igualdade, o fato de que P e´ idempotente. Mas √ TPW 1/2g ³ β˜ ´ (4) = √ TW 1/2G ³ βˆ ´³ G0 ³ βˆ ´ WG ³ β˜ ´´−1 G0 ³ βˆ ´ W 1/2W 1/2g ³ β˜ ´ =W 1/2G ³ βˆ ´³ G0 ³ βˆ ´ WG ³ β˜ ´´−1 G0 ³ βˆ ´ W √ Tg ³ β˜ ´ (3) = −W 1/2G ³ βˆ ´√ T ³ βˆ − β˜ ´ + op (1) (7) Combinando (6) e (7), obtemos Tg0 ³ β˜ ´ Wg ³ β˜ ´ = Tg0 ³ β˜ ´ Wg ³ βˆ ´ +T ³ βˆ − β˜ ´0 G0 ³ βˆ ´ WG ³ βˆ ´³ βˆ − β˜ ´ +op (1) Tomando W = Vˆ −1 e β˜ = βˆR, conclui-se que TQT ³ βˆR ´ = TQT ³ βˆ ´ + T ³ βˆ − βˆR ´0 d0T Vˆ −1dT ³ βˆ − βˆR ´ + op (1) isto e´, DD =MC + op (1) A equivaleˆncia assinto´tica da estat´ıstica do teste Gradiente e do teste de Mı´nimo Qui-Quadrado baseia-se no estimador de segundo esta´gio: βˆ ∗ = βˆR − ³ G0 ³ βˆR ´ Vˆ −1G ³ βˆR ´´−1 G0 ³ βˆR ´ Vˆ −1g ³ βˆR ´ que e´ assintoticamente equivalente ao estimador o´timo de GMM irrestrito sob a hipo´tese nula. Como √ T ³ βˆ − βˆ ∗´ = op (1) segue-se que MC = T ³ βˆ ∗ − βˆR ´0 d0T Vˆ −1dT ³ βˆ ∗ − βˆR ´ + op (1) = Tg0 ³ βˆR ´ Vˆ −1dT ³ 0d0T Vˆ −1dT ´−1 d0T Vˆ −1dT³ d0T Vˆ −1dT ´−1 d0T Vˆ −1g ³ βˆR ´ + op (1) = Tg0 ³ βˆR ´ Vˆ −1dT ³ d0T Vˆ −1dT ´−1 d0T Vˆ −1g ³ βˆR ´ + op (1) 13 Finalmente, a equivaleˆncia assinto´tica dos testes de Wald e de Mı´nimo Qui- Quadrado baseia-se na derivac¸a˜o do estimador do modelo restrito a partir do estimador do modelo irrestrito. βˆR = βˆ − ³ d0T Vˆ −1dT ´−1 Rˆ0 · Rˆ ³ d0T Vˆ −1dT ´−1 Rˆ0 ¸−1 rˆ que e´ assintoticamente equivalente ao estimador restrito o´timo de GMM βˆR. Portanto, MC = T ³ βˆ − r (α) ´0 d0T Vˆ −1dT ³ βˆ − r (α) ´ = T rˆ0 · Rˆ ³ d0T Vˆ −1dT ´−1 Rˆ0 ¸−1 Rˆ ³ d0T Vˆ −1dT ´−1 d0T Vˆ −1dT³ d0T Vˆ −1dT ´−1 Rˆ0 · Rˆ ³ d0T Vˆ −1dT ´−1 Rˆ0 ¸−1 rˆ + op (1) = T rˆ0 · Rˆ ³ d0T Vˆ −1dT ´−1 Rˆ0 ¸−1 rˆ + op (1) =W + op (1) Continuous Updating GMM βT = argmin β TgT (β) 0 V −1 (β) gT (β) As condic¸o˜es de ortogonalidade utilizadas na estimac¸a˜o sa˜o determinadas por 2aT gT (βT ) + g 0 T (βT )DV −1 (β) gT (βT ) = 0 Expandindo gT (βT ) em torno de gT (β0) no primeiro termo do lado esquerdo da equac¸a˜o acima, segue-se que: aT gT (β0) + aTd0 (βT − β0) + 1 2 g0T (βT )DV −1 (β) gT (βT ) ≈ 0 =⇒ (βT − β0) ≈ − (a0d0) −1 a0gT (β0)− 1 2 (a0d0) −1 g0T (βT )DV −1 (β) gT (βT ) =⇒ √ T (βT − β0) ≈ − (a0d0) −1 a0 1√ T TX t=1 f (xt, β0) −1 2 (a0d0) −1 g0T (βT )DV −1 (β) 1√ T TX t=1 f (xt, β0) 14 =⇒ √ T (βT − β0) ≈ − (a0d0) −1 a0 1√ T TX t=1 f (xt, β0) pois p lim gT (βT ) = p lim 1 T TX t=1 f (xt, β0) = 0 15 Econometria/iv.pdf Universidade de Sa˜o Paulo - Departamento de Economia EAE 5811 - Econometria I Prof. Dr. Ricardo Avelino 1o Semestre de 2007 Estimador de Varia´veis Instrumentais e Testes de Especificac¸a˜o Violac¸a˜o da Hipo´tese E [ε|X] = 0: Implicac¸o˜es para MQO e razo˜es da violac¸a˜o Implicac¸o˜es para MQO: Para auseˆncia de vie´s de MQO, no´s precisamos E [ε|X] = 0. Para consisteˆncia, no´s precisamos E [xiεi] = 0, pois x 0ε n P→ 0 assumindo que as condic¸o˜es necessa´rias para que se aplique uma lei dos grandes nu´meros seja satisfeita. Uma condic¸a˜o suficiente para isso e´ que E [εi|xi] = 0 Casos t´ıpicos em que E [ε|X] = 0 e E [εi|xi] = 0 sa˜o violados sa˜o: 1. Erros de medida em X 2. X conte´m varia´veis dependentes defasadas (⇒ E [ε|X] 6= 0,MQO viesado), e, pior ainda, X conte´m varia´veis dependentes defasadas e ε e´ autocorrela- cionado (⇒ E [εi|xi] 6= 0, MQO viesado e inconsistente) 3. y e X sa˜o determinados conjuntamente. 4. Forma funcional errada. 5. Varia´veis omitidas: Seja o modelo verdadeiro yi = x01iβ1 + x 0 2iβ2 + εi = x 0 1iβ1 + vi no qual vi = x02iβ2 + εi. Se no´s erroneamente omitirmos x2i, a estimativa de β1 de MQO sera´ βˆ1 = (X 0 1X1) −1X 01y = β1 + (X 0 1X1) −1X 01v = β1 + µ X 01X1 n ¶−1 X 01v n Mas X01v n = X01X2 n β2 + X01ε n . Portanto, consisteˆncia de βˆ1 requer na˜o apenas que X01ε n P→ 0 e que X 0 1X1 n P→ M, na˜o singular, mas tambe´m que X 0 1X2 n P→ 0. No caso com dois regressores, βˆ1 P→ β1 + β2 Cov (x1i, x2i) V ar (x1i) sob condic¸o˜es apropriadas para que se aplique uma lei dos grandes nu´meros. No´s consideramos (4) e (5) na lista de exerc´ıcios 2. Resta, portanto, (1), (2) e (3). 1 Varia´veis dependentes defasadas Considere alguns exemplos de modelos de se´ries de temporais: (1) yt = φyt−1 + x 0 tβ + εt (2) yt = x0tβ + x 0 t−1γ + εt (3) yt = x 0 tβ + εt + θεt−1 ⇔ yt = x0tβ + ut, ut = εt + θεt−1 (4) yt = φyt−1 + x 0 tβ + εt + θεt−1 ⇔ yt = φyt−1 + x0tβ + ut, ut = εt + θεt−1 No´s ainda podemos utilizar a metodologia desenvolvida ate´ aqui para analisar esses modelos dinaˆmicos? MQO ainda produz estimadores na˜o viesados ou mesmo estimativas consistentes de β, φ e γ? Em cada caso, denote por Z a matriz de todas as observac¸o˜es das varia´veis explicativas. Auseˆncia de Vie´s (1) MQO na˜o pode ser na˜o viesado mesmo se E [εt|yt−1, xt] = 0 Para que MQO (para φ e β) seja na˜o viesado, no´s precisamos que E [εt|Z] = 0. Mas E [εt|Z] = E [yt − φyt−1 − x0tβ|Z] = yt − φyt−1 − x0tβ = εt 6= 0 (em geral) Em outras palavras, a hipo´tese E [εt|Z] = 0 (OLS2,s) na˜o pode ser satisfeita nummodelo desse tipo. Portanto, varia´veis dependentes defasadas causam vie´s de MQO. (2) MQO e´ na˜o viesado se E [εt|Z] = 0 (3) MQO e´ na˜o viesado se E [ut|Z] = 0 (4) MQO e´ viesado. Mesmo argumento utilizado para (1). Consisteˆncia (1) MQO e´ consistente se E [εt|yt−1, xt] = 0 (supondo que os processos estoca´sticos satisfac¸am condic¸o˜es apropriadas que permitam a aplicac¸a˜o de uma lei dos grandes nu´meros) (2) MQO e´ consistente se E [εt|xt−1, xt] = 0 (e desde que uma lei dos grandes nu´meros possa ser usada) (3) MQO e´ consistente se E [ut|xt] = 0 (e desde que uma lei dos grandes nu´meros possa ser usada) (4) MQO na˜o pode ser consistente. E [utyt−1] = cov (utyt−1) = θcov (εt−1yt−1) para E [ut] = 0 e cov (yt−1εt) = 0. Mas cov (εt−1yt−1) 6= 0, pois εt−1 afeta yt−1 de acordo com a equac¸a˜o (4), defasada um per´ıodo. 2 Portanto, varia´veis dependentes defasadas entre os regressores e erros autocorrelacionados causam inconsisteˆncia de MQO. Erros nas Varia´veis Suponha que o modelo verdadeiro seja y∗i = β1 + x ∗ i 1×1 β2 + εi mas que no´s apenas tenhamos medidas imperfeitas de y∗i e x ∗ i yi = y∗i + vi, xi = x ∗ i + ui e que decidamos regredir yi em xi. Fac¸a as seguintes hipo´teses a respeito dos erros de medida: E [vi|y∗i ] = 0, E [ui|x∗i ] = 0, E [uivi] = 0, E [ui|y∗i ] = 0, E [vi|x∗i ] = 0 Segue-se do modelo verdadeiro que yi − vi = β1 + (xi − ui)β2 + εi yi = β1 + xiβ2 + εi − uiβ2 + vi yi = β1 + xiβ2 + ωi, ωi = εi − uiβ2 + vi MQO nesse modelo produz estimativas inconsistentes de β1 e β2, porque xi e´ correlacionado com ωi. Intuitivamente, o erro de medida ui afeta xi, mas na˜o e´ inclu´ıdo no termo de erro, o que faz com que cov (xi, ωi) 6= 0. Especificamente, cov (xi, ωi) = cov (x∗i + ui, εi − uiβ2 + vi) = E [(x∗i + ui) (εi − uiβ2 + vi)]−E [x∗i + ui]E [εi − uiβ2 + vi] = −β2V (ui) Portanto, p lim βˆ2 = p lim 1 n Pn i=1 (xi − x¯) (yi − y¯) 1 n Pn i=1 (xi − x¯) 2 = β2 + p lim 1 n Pn i=1 (xi − x¯) (ωi − ω¯) 1 n Pn i=1 (xi − x¯) 2 = β2 + cov (xi, ωi) V (xi) = β2 − β2 σ2ui σ2x∗i + σ 2 ui = β2 σ2x∗i σ2x∗i + σ 2 ui Conclusa˜o: βˆ2 e´ viesado em direc¸a˜o a zero. Voceˆ pode pensar nesse problema em termos da fo´rmula para o vie´s de varia´vel omitida, na qual −uiβ2 e´ a varia´vel omitida. 3 Comenta´rios: 1. Note que sa˜o erros de medida em xi que fazem com que βˆ2 (e βˆ1) seja (viesado) inconsistente. Erros de medida na varia´vel dependente na˜o causam inconsisteˆncia, desde que as hipo´teses assumidas sejam satisfeitas. 2. Com mu´ltiplas varia´veis explicativas, pouco pode ser dito a respeito dos sinais das inconsisteˆncias. O coeficiente da varia´vel explicativa medida com erro e´ ainda viesado em direc¸a˜o a zero no caso de mu´ltiplos regressores com somente uma varia´vel medida com erro. Modelos de equac¸o˜es simultaˆneas Considere um modelo em que a demanda por um produto seja determinada pelo prec¸o e pela renda e no qual a oferta do produto seja determinada pelo prec¸o e pela taxa salarial. (i denota ano ou estado). y1i = β1y2i + β2x1i + ε1i y2i = β3y1i + β4x2i + ε2i Suponha que E [(ε1i, ε2i) | (x1i, x2i)] = 0 Entretanto, E [ε1i| (x1i, y2i)] 6= 0 pois ε1i → y1i → y2i e E [ε2i| (x1i, y1i)] 6= 0 pois ε2i → y2i → y1i. Portanto, MQO equac¸a˜o por equac¸a˜o ou no sistema como um todo e´ viesado e inconsistente. Novamente, estimac¸a˜o por varia´veis instrumentais e´ a soluc¸a˜o. Varia´veis Instrumentais Hipo´teses Suponha que voceˆ tenha dispon´ıvel uma matriz Z n×l de varia´veis que satisfac¸a: (IV 1) a) Z 0X n p→ Qzx finita com posto k (isso requer que l ≥ k) b) Z 0Z n p→ Qzz finita, positiva definida (IV 2) Z 0ε n p→ 0 Mais precisamente, {zix0i} , {ziz0i} e {ziεi} satisfazem uma lei dos grandes nu´meros de modo que as duas suposic¸o˜es acima sa˜o satisfeitas. 4 (IV 3) a) E £ ε2i |xi ¤ = σ2 ∀i : homoscedasticidade b) E [εi, εi0 |xi, xi0 ] = 0 ∀i 6= i0 : auseˆncia de autocorrelac¸a˜o (IV 4) Z 0ε√ n d→ N (0, V ) Mais precisamente, {ziεi} satisfaz um teorema central do limite de modo que essa suposic¸a˜o e´ satisfeita. Portanto, embora X 0ε n P9 0, no´s assumimos que Z 0ε n p→ 0 e que Z e´ correla- cionado com X, Z 0X n p→ Qzx finita com posto k. Para que isso seja verdadeiro, basta que {xi, zi, εi} seja i.i.d., que E [εi|zi] = 0, e que os segundos momentos de {xi, zi} sejam finitos. Definic¸a˜o O estimador de varia´veis instrumentais associado a` matriz A l×k , estimada consistentemente por Aˆ, e a instrumentos W n×k = Z n×l A l×k e´ dado por βˆIV = (W 0X)−1W 0y Denote ZA por W ∗. Multiplicando o modelo y = Xβ + ε por W ∗ 0 e com- putando a esperanc¸a de ambos os lados, obte´m-se E (W 0∗y) = E (W 0∗X)β +E (W 0∗ε) = E (W 0∗X)β +E (A0Z0ε) = E (W 0∗X)β ⇔ β = [E (W 0∗X)]−1E (W 0∗y) O estimador de varia´veis instrumentais substitui momentos populacionais por momentos amostrais. Se os momentos amostrais convergirem em probabil- idade para os momentos populacionais, obtemos consisteˆncia. Consisteˆncia de βˆIV Sob (IV 1) , (IV 2) , βˆIV p→ β Prova: βˆIV = µ W 0X n ¶−1 W 0y n = µ W 0X n ¶−1 W 0 (Xβ + ε) n = β + µ W 0X n ¶−1 W 0ε n = β + à Aˆ0Z 0X n !−1 Aˆ0Z0ε n p→ β + (A0Qzx )−1A00 = β 5 Normalidade assinto´tica de βˆIV Sob (IV 1)− (IV 2) , (IV 4) , √ n ³ βˆIV − β ´ d→ N ³ 0, (A0Qzz ) −1A0V A (Q0zz A) −1 ´ Prova: √ n ³ βˆIV − β ´ = √ n ³ (W 0X)−1W 0y − β ´ = √ n ³ (W 0X)−1W 0ε ´ = µ W 0X n ¶−1 W 0ε√ n = µ Aˆ0 Z0X n ¶−1 Aˆ0 Z0ε√ n d→ (A0Qzx )−1A0N (0, V ) = N ³ 0, (A0Qzz ) −1A0V A (Q0zz A) −1 ´ Estimador O´timo de Varia´veis Instrumentais Que escolha de A minimiza a variaˆncia assinto´tica dentro da classe de es- timadores de varia´veis instrumentais da forma βˆIV = (W 0X)−1W 0y, W n×k = Z n×l A l×k ? Relembre que a utilizac¸a˜o de Aˆ ao inve´s de A para calcular o estimador na pra´tica na˜o altera a distribuic¸a˜o assinto´tica, desde que p lim Aˆ = A. Resultado 1 Sob (IV 1) − (IV 2) , (IV 4) , qualquer escolha de A com posto completo tal que A = V −1Qzx F, para uma matriz na˜o singular F , e´ o´tima. A distribuic¸a˜o assinto´tica do estimador de varia´veis instrumentais resultante e´ √ n ³ βˆIV − β ´ d→ N ³ 0, ¡ Q0zx V −1Qzx ¢−1´ Em particular, A = V −1Qzx e´ o´timo. Prova: Para essa escolha de A, no´s temos √ n ³ βˆIV − β ´ d→ N (0,Σ) para Σ = ¡ FQ0zx V −1Qzx ¢−1 FQ0zx V −1V V −1Qzx F ¡ Q0zx V −1Qzx F ¢−1 = ¡ Q0zx V −1Qzx ¢−1 6 A afirmac¸a˜o nos diz que, para qualquer escolha alternativa A que na˜o satisfac¸a A = V −1Qzx F , a variaˆncia assinto´tica de βˆIV na˜o e´ menor do que¡ Q0zx V −1Qzx ¢−1 , isto e´, Avar ³ βˆIV,A ¯ ´ −Avar ³ βˆIV,A ´ e´ positiva semi-definida. Avar ³ βˆIV,A ¯ ´ −Avar ³ βˆIV,A ´ = (A0Qzz ) −1A0V A (Q0zz A) −1 − ¡ Q0zx V −1Qzx ¢−1 = (A0Qzz ) −1A0V 1/2 h I − V −1/2Qzx ¡ Q0zx V −1/2V −1/2Qzx ¢−1 Q0zx V −1/2 i V 1/2A (Q0zz A) −1 = H 0 h I −R (R0R)−1R0 i H = (MRH) 0 (MRH) para H = V 1/2A (Q0zz A) −1 , R = V −1/2Qzx e MR = I −R (R0R)−1R0. (MRH) 0 (MRH) e´ positiva semi-definida, pois, para qualquer vetor a 6= 0, a0 (MRH) 0 (MRH) a = (aMRH) 0 (aMRH) = b 0b ≥ 0 Implementac¸a˜o: Para um estimador consistente de A = V −1Qzx , no´s precisamos de estimadores consistentes de V e de Qzx . Por hipo´tese, Z 0X n = Pn i=1 zix 0 i n p→ Qzx Para V , no´s podemos usar o estimador de Newey-West (substitua x por z) Vˆ = 1 n E £Pn i=1 εˆ 2 i ziz 0 i ¤ + Pm(n) l=1 ' (l,m (n)) 1 n Pn i=l+1 £ E ¡ εˆiεˆi−lziz0i−l ¢ +E (εˆi−lεˆizi−lz0i) ¤ no qual εˆi sa˜o os res´ıduos de qualquer estimador consistente, mas na˜o necessari- amente eficiente. Por exemplo, o procedimento de mı´nimos quadrados em dois esta´gios simples descrito a seguir pode ser utilizado. Enta˜o βˆOPT.IV = (W 0X)−1W 0y = ³ Qˆ0zx Vˆ −1Z0X ´−1 Qˆ0zx Vˆ −1Z 0y = ³ X 0ZVˆ −1Z0X ´−1 X 0ZVˆ −1Z0y Sob homoscedasticidade e auseˆncia de autocorrrelac¸a˜o, o estimador de varia´veis instrumentais o´timo simplifica para o que e´ conhecido comomı´nimos quadra- dos em dois esta´gios. 7 Resultado 2 Sob (IV 1) − (IV 4) , qualquer escolha de A com posto completo tal que A = Q−1zz Qzx F, para uma matriz na˜o singular F , e´ o´tima. A distribuic¸a˜o assinto´tica do estimador de varia´veis instrumentais e´ √ n ³ βˆIV − β ´ d→ N ³ 0, σ2 ¡ Q0zx Q −1 zz Qzx ¢−1´ Isso segue do resultado anterior, pois, sob (IV 3) , V = σ2Qzz . Em particu- lar, A = Q−1zz Qzx e´ o´timo. Implementac¸a˜o Um estimador consistente de A e´ Aˆ = µ 1 n Pn i=1 ziz 0 i ¶−1µ 1 n Pn i=1 zix 0 i ¶ = (Z 0Z)−1 Z0X Enta˜o, W = ZAˆ = Z (Z0Z)−1 Z0X. Note que W e´ uma matriz n×k na qual a j-e´sima coluna e´ o valor previsto de uma regressa˜o da j-e´sima coluna de X nos l instrumentos. Enta˜o βˆOPT.IV = (W 0X)−1W 0y = ³ Qˆ0zx Qˆ −1 zz Z 0X ´−1 Qˆ0zx Qˆ −1 zz Z 0y = ³ X 0Z (Z0Z)−1 Z 0X ´−1 X 0Z (Z 0Z)−1 Z0y = ³ Xˆ 0X ´−1 Xˆ 0y = ³ Xˆ 0Xˆ ´−1 Xˆ 0y = βˆ2SLS para Xˆ = Z (Z0Z)−1 Z 0X = PZX. Note que Xˆ 0X = X 0PZX = X 0PZPZX = Xˆ 0Xˆ pois PZ e´ idempotente. O estimador de varia´veis instrumentais comW = Z (Z0Z)−1 Z0X = Xˆ como matriz de instrumentos e´ denominado estimador de mı´nimos quadrados em dois esta´gios, pois pode ser obtido a partir do seguinte procedimento em dois esta´gios. 1o Esta´gio: Regresse a j-e´sima coluna de X nos l instrumentos. Calcule a matriz W = Xˆ. 2o Esta´gio: Regresse y em Xˆ e obtenha a estimativa βˆ2SLS = ³ Xˆ 0Xˆ ´−1 Xˆ 0y Qualquer regressor que na˜o for correlacionado com o erro pode ser inclu´ıdo em Z. A coluna de Xˆ correspondente a esse regressor e´ simplesmente o pro´prio regressor. 8 Finalmente, considere o caso em que l = k, isto e´, a situac¸a˜o em que ha´ o nu´mero mı´nimo de instrumentos necessa´rio para estimar β. Nesse caso, βˆIV = (W 0X)−1W 0y = (A0Z 0X)−1A0Z 0y = (Z0X)−1 (A0)−1A0Z0y = (Z0X)−1 Z0y pois W n×k = Z n×k A k×k . Portanto, qualquer escolha de A produz o mesmo estimador. Isso prova que o estimador de varia´veis instrumentais “simples” e´ o´timo no caso em que o nu´mero de instrumentos coincide com o nu´mero de regressores. Testes de Especificac¸a˜o E´ poss´ıvel testar se E [ε|X] = 0 ou, assintoticamente, se p lim 1TX 0ε = 0. Hausman (1978) mostrou como conduzir esse teste e descreveu um procedimento gene´rico para testes de especificac¸a˜o. No´s usaremos esse instrumental para testar a existeˆncia de erros de medida nas varia´veis e, posteriormente, para testar restric¸o˜es de sobre identificac¸a˜o em modelos de equac¸o˜es simultaˆneas. O procedimento geral e´ descrito a seguir. Considere um modelo de regressa˜o linear y = Xβ + ε, onde β e´ kx1 H0 : Especificac¸a˜o correta. H1 : Especificac¸a˜o incorreta Ache dois estimadores βˆ0 e βˆ1 com as propriedades: H0 H1 βˆ0 Consistente, assintoticamente eficiente Inconsistente βˆ1 Consistente, assintoticamente ineficiente Consistente Considere a diferenc¸a qˆ = βˆ1− βˆ0. Se a especificac¸a˜o estiver correta, o limite em probabilidade de qˆ e´ zero. Caso contra´rio, p lim qˆ 6= 0. Para construir um teste, precisamos derivar a distribuic¸a˜o assinto´tica de qˆ. Se √ T ³ βˆ0 − β ´ d→ N (0, V0) e √ T ³ βˆ1 − β ´ d→ N (0, V1) , enta˜o √ T qˆ = √ T ³ βˆ1 − βˆ0 ´ d→ N (0, Vq) sob H0 e, portanto, ³√ T qˆ ´0 V −1q ³√ T qˆ ´ = T qˆ0V −1q qˆ d→ χ2k sob H0, onde k dependera´ do contexto espec´ıfico. 9 Teorema: Sob H0, Cov ³ βˆ1, βˆ0 ´ = V ³ βˆ0 ´ Portanto, Vq = V ³ βˆ1 − βˆ0 ´ = V ³ βˆ1 ´ − V ³ βˆ0 ´ Prova: Suponha, por contradic¸a˜o, que Cov ³ βˆ1, βˆ0 ´ 6= V ³ βˆ0 ´ . Considere o estimador definido por βˆ ∗ = βˆ0 + ³ V ³ βˆ0 ´ − cov ³ βˆ0, βˆ1 ´´ h V ³ βˆ0 − βˆ1 ´i−1 ³ βˆ1 − βˆ0 ´ A variaˆncia de βˆ ∗ e´ dada por V ³ βˆ ∗´ = V ³ βˆ0 ´ + ³ V ³ βˆ0 ´ − cov ³ βˆ0, βˆ1 ´´h V ³ βˆ0 − βˆ1 ´i−1 V ³ βˆ1 − βˆ0 ´ h V ³ βˆ0 − βˆ1 ´i−1 ³ V ³ βˆ0 ´ − cov ³ βˆ0, βˆ1 ´´0 − ³ V ³ βˆ0 ´ − cov ³ βˆ0, βˆ1 ´´ h V ³ βˆ0 − βˆ1 ´i−1 ³ V ³ βˆ0 ´ − cov ³ βˆ0, βˆ1 ´´0 + h cov ³ βˆ0, βˆ1 ´ − V ³ βˆ0 ´i h V ³ βˆ0 − βˆ1 ´i−1 ³ V ³ βˆ0 ´ − cov ³ βˆ0, βˆ1 ´´0 = V ³ βˆ0 ´ − h cov ³ βˆ0, βˆ1 ´ − V ³ βˆ0 ´i h V ³ βˆ0 − βˆ1 ´i−1 h cov ³ βˆ0, βˆ1 ´ − V ³ βˆ0 ´i0 < V ³ βˆ0 ´ contrariando a suposic¸a˜o de que βˆ0 e´ assintoticamente eficiente. Portanto, Cov ³ βˆ1, βˆ0 ´ = V ³ βˆ0 ´ Exemplo: Teste para erros nas varia´veis Considere um modelo de regressa˜o linear yt = βxt + ε1t, onde β e´ 1x1. Suponha que queiramos testar a hipo´tese de ortogonalidade p lim 1 T x0ε1 = 0 Em particular, suspeitamos que xt seja uma medida imperfeita do valor verdadeiro x∗t , xt = x ∗ t +ε2t. Nesse caso, o erro de medida, ε2t, e´ parte do termo de erro, ε1t, e p lim 1T x 0ε1 6= 0. (Modelo verdadeiro: yt = βx∗t + ut ⇔ yt = βxt + ut − βε2t, isto e´, ε1t = ut − βε2t). No´s supomos que as outras hipo´teses assinto´ticas de MQO sa˜o satisfeitas e testamos 10 H0 : p lim 1T x 0ε1 = 0 H1 : p lim 1T x 0ε1 6= 0 Sob H0, βˆOLS e´ eficiente e consistente. Sob H1, βˆOLS e´ inconsistente. Suponha que tenhamos um instrumento va´lido z (isto e´, z satisfaz p lim 1T z 0ε1 = 0 e p lim 1T z 0x 6= 0). Sob H0, βˆIV e´ ineficiente mas consistente. Sob H1, βˆIV e´ consistente. Isso sugere o seguinte teste de especificac¸a˜o m = T ³ βˆIV − βˆOLS ´0 Vˆ −1q ³ βˆIV − βˆOLS ´ d→ χ21 sob H0, Vˆq = VˆIV−VˆOLS No´s podemos utilizar VˆOLS = s 2 ÃPT t=1 xtx 0 t T !−1 = s2 ÃPT t=1 x 2 t T !−1 VˆIV = s2 ÃPT t=1 ztx 0 t T !0ÃPT t=1 ztz 0 t T !−1ÃPT t=1 ztx 0 t T ! −1 = s2 ÃPT t=1 ztxt T !0ÃPT t=1 z 2 t T !−1ÃPT t=1 ztxt T ! −1 Para s2, podemos usar os valores obtidos a patir do estimador de varia´veis instrumentais, s2IV . 11 Econometria/listas/data.mat Econometria/listas/lista1.pdf Universidade de Sa˜o Paulo - Departamento de Economia EAE 5811 - Econometria I Prof. Ricardo Avelino 1o Semestre de 2007 Lista de Exerc´ıcios 1 - Data de Entrega 22/03/2007 1. Suponha que a f.d.p conjunta de duas varia´veis X e Y seja f (x, y) = ½ c ¡ x2 + y ¢ , para 0 ≤ y ≤ 1− x2 0, caso contra´rio Ache o valor da constante c, P (0 ≤ X ≤ 1/2) , P (Y ≤ X + 1) e P ¡ Y = X2 ¢ . 2. Sejam X e Y duas varia´veis aleato´rias cont´ınuas independentes. Defina a varia´vel aleato´ria Z por Z = ½ X, com probabilidade p Y, com probabilidade 1− p Ache a func¸a˜o de distribuic¸a˜o de Z em termos das func¸o˜es de distribuic¸a˜o de X e Y . Z e´ discreta? Z e´ cont´ınua? 3. Suponha que um ponto (X,Y ) e´ escolhido aleatoriamente no retaˆngulo S definido como S = {(x, y) : 0 ≤ x ≤ 2 e 1 ≤ y ≤ 4} a) Determine a f.d.p conjunta de X e Y , a f.d.p marginal de X e a f.d.p marginal de Y. b) X e Y sa˜o independentes? Na˜o correlacionadas? 4. Sejam X e Y varia´veis aleato´rias com f.d.p conjunta f (x, y) = ½ 2 (x+ y) , para 0 ≤ x ≤ y ≤ 1 0, caso contra´rio Ache a f.d.p de Z = X + Y. 5. Suponha que as varia´veis aleato´rias X1, ...,Xn sejam i.i.d, cada uma com distribuic¸a˜o uniforme no intervalo [0, 1] . Seja Y1 = min {X1, ...,Xn} e Yn = max {X1, ...,Xn} . Ache E [Y1] e E [Yn] . 6. Suponha que exista uma ac¸a˜o que na˜o e´ negociada frequ¨entemente. No instante de tempo zero, o prec¸o da ac¸a˜o e´ conhecido e igual a P (0) . Denote por N o nu´mero de vezes em que a ac¸a˜o sera´ negociada durante o intervalo de tempo [0, T ] e suponha que N seja uma varia´vel aleato´ria com distribuic¸a˜o de Poisson com paraˆmetro λ. Na i-e´sima vez em que a ac¸a˜o e´ negociada, seu 1 prec¸o varia ∆i porcento em relac¸a˜o ao prec¸o anterior. Por exemplo, se t1 e´ a primeira vez em que a ac¸a˜o e´ transacionada, P (t1) = P (0) (1 +∆1) . Suponha adicionalmente que (1 +∆i) sejam varia´veis aleato´rias independentes com distribuic¸a˜o log-normal para i = 1, ..., N . Uma varia´vel aleato´ria com dis- tribuic¸a˜o log-normal tem distribuic¸a˜o normal apo´s aplicar-se o logaritmo, isto e´, log(1 +∆i) ∼ N ¡ µ, σ2 ¢ . a) A quantidade R≡ 1T [logP [T ]− logP [0]] e´ o retorno continuamente com- posto da ac¸a˜o no per´ıodo [0, T ]. Ache uma expressa˜o para R em func¸a˜o das varia´veis aleato´rias N e ∆i. b) Considere a expressa˜o para a decomposic¸a˜o da variaˆncia V (Y ) = V [E [Y |X]] +E [V [Y |X]] para quaisquer varia´veis aleato´rias X e Y para as quais a esperanc¸a e a variaˆncia existam. Use essa expressa˜o para calcular V (R) , a variaˆncia do retorno, em func¸a˜o dos paraˆmetros λ, µ e σ2. c) O que acontece com a variaˆncia do retorno R quando a intensidade das transac¸o˜es λ aumenta? 7. Suponha que X1, ...,Xm sejam varia´veis aleato´rias i.i.d, cada uma com distribuic¸a˜o N ¡ µ1, σ 2 ¢ , e que Y1, ..., Yn sejam varia´veis aleato´rias i.i.d, cada uma com distribuic¸a˜o N ¡ µ2, σ 2 ¢ . Defina S2X = Pm i=1 ¡ X1 − X¯m ¢2 e S2Y =Pn i=1 ¡ Y1 − Y¯n ¢2 . a) Para que pares de valores de α e β, αS2X+ βS 2 Y e´ um estimador na˜o viesado de σ2? b) Determine os valores de α e β para os quais αS2X+ βS 2 Y e´ um estimador na˜o viesado com variaˆncia mı´nima dentro da classe de estimadores dados por αS2X+ βS 2 Y , para algum α e β. 8. Suponha que Y1 e Y2 sejam varia´veis aleato´rias independentes com me´dia comum µ, mas com diferentes variaˆncias V (Y1) = σ21 e V (Y2) = σ 2 2. Por hipo´tese, σ21 e σ 2 2 sa˜o conhecidos. O valor de µ e´ desconhecido e propo˜e-se estima´-lo por uma me´dia ponderada de Y1 e Y2, isto e´, αY1 + (1− α) Y2. Qual valor de α produz o estimador com a menor variaˆncia poss´ıvel nessa classe? Qual e´ a intuic¸a˜o para se usar esse valor de α? 9. Suponha que X1, ...,Xn seja uma amostra de varia´veis aleato´rias i.i.d, cada uma com distribuic¸a˜o uniforme no intervalo [θ, θ + 3] . Defina T1 = min {X1, ...,Xn} e Tn = max {X1, ...,Xn} . Mostre que T1 e Tn sa˜o conjuntamente suficientes para θ. 10. Suponha que X1, ...,Xn seja uma amostra de varia´veis aleato´rias i.i.d, cada uma com distribuic¸a˜o N ¡ µ, σ2 ¢ 2 a) Calcule a informac¸a˜o que X conte´m sobre θ = ¡ µ, σ2 ¢ . b) Mostre que X¯ = 1n Pn i=1Xi e´ um estimador na˜o viesado de µ e que X¯ atinge o limite inferior de Cramer-Rao. 11. (Desigualdade de Ho¨lder) Mostre que se p > 1, 1p + 1 q = 1, E [|X|p] <∞ e E [|X|q] <∞, enta˜o E [|XY |] ≤ {E [|X|p]}1/p {E [|X|q]}1/q 3 Econometria/listas/lista1sol.pdf Universidade de Sa˜o Paulo - Departamento de Economia EAE 5811 - Econometria I Prof. Ricardo Avelino 1o Semestre de 2007 Lista de Exerc´ıcios 1 - Soluc¸o˜es Monitoras: Paula Pereda Jaqueline de Oliveira 1) Se f(x, y) e´ uma f.d.p., enta˜o R∞ −∞ R∞ −∞ f(x, y)dydx = 1.Como x ∈ [−1, 1] e y ∈ [0, 1− x2] temos:Z ∞ −∞ Z ∞ −∞ f(x, y)dydx = Z 1 −1 Z 1−x2 0 c(x2 + y)dydx = Z 1 −1 · cx2y + cy2 2 ¸1−x2 0 dx = Z 1 −1 (cx2(1− x2) + c(1− x 2)2 2 )dx = h c 2 x− c 10 x5 i1 −1 = 1 Portanto, h c 2 − c 10 i − h − c 2 + c 10 i = 1 =⇒ c = 5/4 Agora, vamos calcular P (0 ≤ X ≤ 1/2)Z 1/2 0 Z 1−x2 0 f(x, y)dydx = Z 1/2 0 c 2 (1− x4)dx = Z 1/2 0 5 8 (1− x4)dx = · 5 8 x− 5 8 x2 5 ¸1/2 0 = 5 8 1 2 − µ 1 2 ¶5 1 8 = 79 256 Para calcular P (Y ≤ X+1), temos que atentar para os limites de integrac¸a˜o. Para satisfazer as duas restric¸o˜es simultaneamente, temos que: 0 ≤ y ≤ 1− x2 e 0 ≤ y ≤ x+ 1 Logo, x+ 1 ≤ 1− x2 =⇒ x2 + x ≤ 0 =⇒ x(x+ 1) ≤ 0 =⇒ x ≤ 0 e x+ 1 ≥ 0 =⇒ −1 ≤ x ≤ 0 Assim, calculamos a probabilidade P (Y ≤ X + 1) :Z 0 −1 Z x+1 0 f(x, y)dydx = Z 0 −1 · cx2y + c y2 2 ¸x+1 0 = Z 0 −1 5 8 (2x3 + 3x2 + 2x+ 1)dx = · 5 8 ( x4 2 + x3 + x2 + x ¸0 −1 = 5/16 1 Por fim, temos que P (Y = X2) = 1− P (Y > X2)− P (Y < X2) Mas, P (Y > X2) + P (Y < X2) = 1 pois a varia´vel e´ cont´ınua. Portanto, P (Y = X2) = 0 2) Fz(z) = P (Z ≤ z) = p.P (X ≤ z) + (1− p).P (Y ≤ z) = p.Fx(z) + (1− p).Fy(z) onde: Fx(z) e´ a func¸a˜o distribuic¸a˜o deX e Fy(z) a de Y . Fz(.) sera´ cont´ınua uma vez que ela sera´ a me´dia ponderada de duas func¸o˜es de distribuic¸a˜o cont´ınuas. 3) Por definic¸a˜o, sabemos que (X,Y ) e´ escolhido aleatoriamente no retaˆngulo S. Portanto, a f.d.p.de X e Y sera´ o produto de duas distribuic¸o˜es uniformes definidas no intervalo [0, 2] e [1, 4], ou seja, f(x, y) = 1 2− 0 + 1 4− 1 = 1 6 A densidade e´ a mesma para todos os pontos e e´ inversamente proporcional a` a´rea do retaˆngulo: fY (y) = Z 2 0 1 6 dx = 1 6 x|20 = 1 3 Por sua vez: fX(x) = Z 4 1 1 6 dy = 1 6 y|41 = 1 2 Para todo (X,Y ), temos: f(x, y) = 1 6 = 1 2 . 1 3 = fX(x).fY (y) Como a densidade conjunta pode ser fatorada como produto das distribuic¸o˜es marginais ∀(x, y),temos que X ⊥ Y e, portanto, sa˜o na˜o correlacionados. 4) Seja fX,Y (x, y) a func¸a˜o densidade conjunta de X eY e Z = g(X,Y ) e W = h(X,Y ) transformac¸o˜es mensura´veis, sendo g(., .) e h(., .) continuamente diferencia´veis. Enta˜o, a func¸a˜o de densidade conjunta de z e w e´ dada por: fZ,W (z, w) = fX,Y [G(z, w),H(u, v)] ¯¯¯¯ ∂(X,Y ) ∂(Z,W ) ¯¯¯¯ 2 onde G(z, w) e H(u, v) sa˜o as transformac¸o˜es inversas. Usando o resultado acima para Z = X + Y e W = X, temos: J = ∂(X,Y ) ∂(Z,W ) = ¯¯¯¯ 0 1 0 −1 ¯¯¯¯ = −1 Portanto, fZ,W (z, w) = fX,Y (z − w,w). |−1| = fX,Y (z − w,w) A func¸a˜o densidade de Z sera´ a distribuic¸a˜o marginal de (Z,W ) com relac¸a˜o a Z. Assim: fZ(z) = Z w fX,Y (z − w,w)dw Para analisarmos o intervalo de integrac¸a˜o, temos que levar em conta que 0 ≤ x ≤ y ≤ 1.Como Z = X + Y , sabemos que Z ≥ 2X = 2W =⇒ Z/2 ≥W Como Y ≤ 1, temos que X + Y ≤ 1 +X =⇒ Z ≤ 1 +XouZ − 1 ≤W Colocando as duas restric¸o˜es no gra´fico, temos: colocar gra´fico Portanto, teremos intervalos de integrac¸a˜o diferentes para 0 ≤ Z ≤ 1 e 1 ≤ Z ≤ 2.Assim, 0 ≤ Z ≤ 1 : Z z/2 0 2(z − w,w)dw = [2zw]z/20 = z 2 1 ≤ Z ≤ 2 : Z z/2 z−1 2(z − w,w)dw = [2zw]z/2z−1 = 2z − z 2 Enta˜o: fZ(z) = ½ z2, 0 ≤ z ≤ 1 2z − z2, 1 ≤ z ≤ 2 5) A f.d.p. de Y(1) em x e´ a soma de i = 1, 2, ..., n dos produtos das f.d.p de X em x e da probabilidade que Xj ≥ x,∀j 6= i, ou seja, f(Y(1) = x) = nX i=1 f(Xi = x). nY j=1,j 6=i (1− F (Xj = x) = nX i=1 1. nY j=1,j 6=i (1− xZ 0 dt) = nX i=1 nY j=1,j 6=i (1− x) = nX i=1 (1− x)n−1 = n(1− x)n−1 3 Portanto, E(Y(1)) = 1Z 0 xn(1− x)n−1dx Usando integrac¸a˜o por partes: E(Y(1)) = [−x(1− x)n]10 + 1Z 0 (1− x)ndx = · −(1− x)n−1 n+ 1 ¸1 0 = 1 n+ 1 A f.d.p. de Y(n) em x sera´ a soma de i = 1, 2, ..., n do produto das f.d.p. de Xi e da P (Xj ≤ x), ∀j 6= i, isto e´, f(Y(n) = x) = nX i=1 f(Xi = x). nY j=1,j 6=i F (Xj = x) = nX i=1 nY j=1,j 6=i ( xZ 0 dt) = nX i=1 nY j=1,j 6=i (x) = nX i=1 (x)n−1 = n(x)n−1 Assim, E(Y(n)) = 1Z 0 xn(x)n−1dx = 1Z 0 nxndx = · nxn+1 n+ 1 ¸1 0 = n n+ 1 6) a) No instante T , sabemos que a ac¸a˜o sera´ negociada N vezes. Portanto, P (T ) = P (0)× (1 +∆1)× (1 +∆2)× ...× (1 +∆N ) Transformando em log, temos: lnP (T ) = lnP (0) + NP i=1 ln(1 +∆i) Logo, R = 1 T [lnP (T )− lnP (0)] = 1 T · NP i=1 ln(1 +∆i) ¸ b) Sabemos que Xi sa˜o varia´veis aleato´rias i.i.d. ∼ N(µ, σ2). Enta˜o Z = NP i=1 Xi ∼ N(nµ;nσ2).Como ln(1 + ∆i) sa˜o v.a. com me´dia µ e variaˆncia σ2, enta˜o: E(R/N) = 1 T Nµ V (R/N) = 1 T 2 Nσ2 4 Assim, V (R) = V · 1 T Nµ ¸ +E · 1 T 2 Nσ2 ¸ = µ2 T 2 V (N) + σ2 T 2 E(N) Como E(N) = V (N) = λ (pois N segue uma distribuic¸a˜o Poisson), temos: V (R) = µ2 + σ2 T 2 .λ Para encontrarmos o efeito de λ em V (R) basta derivar a u´ltima com relac¸a˜o a λ. Assim: ∂V (R) ∂λ = µ2 + σ2 T 2 > 0 Logo a variaˆncia de R cresce quando a intensidade de transac¸o˜es aumenta. 7) a) Para αS2x + βS 2 y ser um estimador na˜o viesado de σ 2, sabemos que E ¡ αS2x + βS 2 y ¢ = σ2. Assim: E ¡ αS2x + βS 2 y ¢ = αE(S2x) + βE(S 2 y) = α(m− 1)σ2 + β(n− 1)σ2 = σ2[α(m− 1) + β(n− 1)] Para o estimador ser na˜o viesado, temos que: α(m− 1) + β(n− 1) = 1 =⇒ α = 1 (m− 1) − (n− 1) (m− 1)β Portanto, o estimador sera´ na˜o viesado½ ∀(α, β) = µ 1 (m− 1) − (n− 1) (m− 1)β, β ¶ ;β ∈ R ¾ b) Para encontrarmos o estimador de variaˆncia mı´nima, devemos minimizar a variaˆncia do estimador em relac¸a˜o aos pareˆmetros, verificando se a condic¸a˜o de mı´nimo e´ satisfeita. Assim: V ar(αS2x + βS 2 y) = α 2V ar(S2x) + β 2V ar(S2y) = α 2V ar( m m S2x) + β 2V ar( n n S2y) = α2m2 (m− 1) m2 σ4 + β2n2 (n− 1) n2 σ4 = σ4 £ α2(m− 1) + β2(n− 1) ¤ Substituindo α = 1 (m− 1) − (n− 1) (m− 1)β, temos: V ar(αS2x + βS 2 y) = σ 4 "µ 1− (n− 1)β (m− 1) ¶2 (m− 1) + β2(n− 1) # = σ4 " (1− (n− 1)β)2 (m− 1) + β 2(n− 1) # 5 Minimizando a variaˆncia com relac¸a˜o a β, temos: ∂V ar(.) ∂β = σ4 · 2 (1− (n− 1)β) (−(n− 1)) (m− 1) + 2β(n− 1) ¸ (1) = σ4 · −1− (n− 1)β (m− 1) + β ¸ = 0 (2) Assim, −1 + (n− 1)β + (m− 1)β = 0 portanto, β = 1 n+m− 2 Disto segue que: α = 1 (m− 1) − (n− 1) (m− 1)β = 1 (m− 1) − (n− 1) (m− 1) . 1 n+m− 2 = 1 (m− 1) − (n− 1) (m− 1) . 1 [(n− 1) + (m− 1)] = (n− 1) + (m− 1)− (n− 1) (m− 1)[(n− 1) + (m− 1)] = 1 n+m− 2 Para verificarmos se estes pontos sa˜o mı´nimos devemos mostrar que a condic¸a˜o de 2a ordem tambe´m e´ atendida: ∂2V ar(.) ∂β2 = σ4 · (n− 1) (m− 1) + 1 ¸ > 0 Portanto, os valores de α e β que minimizam a variaˆncia do estimador sa˜o: (α, β) = µ 1 n+m− 2 , 1 n+m− 2 ¶ 8) µˆ = αY1 + (1− α)Y2 V (µˆ) = α2V (Y1) + (1− α)2V (Y2) = α2σ21 + (1− α)2σ22 Para encontrar o estimador de variaˆncia mı´nima devemos resolver o seguinte problema: min α V (µˆ) = α2σ21 + (1− α)2σ22 CPO : ∂V (µˆ) ∂α = 0 =⇒ 2ασ21 − 2(1− α)σ22 = 0⇒ α = σ22 σ22 + σ 2 1 CSO : ∂2V (µˆ) ∂α2 = 2σ21 + 2σ 2 2 > 0 6 Intuic¸a˜o: colocar pesos inversamente proporcionais a` variaˆncia das varia´veis. Se a variaˆncia de Y2 aumenta, por exemplo, a precisa˜o da me´dia estimada de Y2 diminui. Consequentemente, da´-se um peso maior para Y1. 9) Seja fn(Xi, θ) a densidade conjunta de X1, ...,Xn. O vetor (T1, T2) e´ uma estat´ıstica suficiente para θ se e so´ se a densidade conjunta, condicional a` (T1, T2) pode ser fatorada como o produto de dois termos: τ(X) e g(h(X), θ), onde τ(X) depende de X1, ...,Xn. mas na˜o de θ e g(h(X), θ) depende de θ e de X1, ...,Xn. apenas por meio da estat´ıstica suficiente h(X). Defina as func¸o˜es h1(X) e h2(X) como: h1(T1(X)) = ½ 1 se {X1,X2, ...,Xn} ≥ θ 0, caso contra´rio e h2(T2(X)) = ½ 1 se {X1,X2, ...,Xn} ≤ θ + 3 0, caso contra´rio Enta˜o, fn(Xi, θ/(T1, T2)) = · 1 (θ + 3)− θ ¸n h1(T1(X)).h2(T2(X)) = 1 3n h1(T1(X)).h2(T2(X)) As func¸o˜es τ(X) e g(h(X), θ) na definic¸a˜o de uma estat´ıstica suficiente cor- respondem a` 1 3n e h1(T1(X)).h2(T2(X)) respectivamente. O primeiro termo do lado direito na˜o depende de θ e o segundo depende de θ e X1,X2, ...,Xn apenas por meio de T1(X) e T2(X). Logo, o vetor (T1(X), T1(X)) e´ uma estat´ıstica suficiente para θ. 10) a) A func¸a˜o de verossimilhanc¸a da amostra e´: L(µ, σ2) = ln nQ i=1 1 (2πσ2)1/2 exp ½ −1 2σ2 (Xi − µ)2 ¾ = nP i=1 ln · 1 (2πσ2)1/2 exp ½ −1 2σ2 (Xi − µ)2 ¾¸ = −n 2 ln(2π)− n 2 lnσ2 − 1 2σ2 nP i=1 (Xi − µ)2 As derivadas com relac¸a˜o a` µ e σ2 sa˜o: ∂L ∂µ = nP i=1 (Xi − µ) σ2 ∂L ∂σ2 = −n 2 . 1 σ2 + 1 2(σ2)2 nP i=1 (Xi − µ)2 7 As segundas derivadas sa˜o: ∂2L ∂µ2 = − n σ2 ∂2L ∂(σ2)2 = n 2(σ2)2 − nP i=1 (Xi − µ)2 (σ2)3 ∂2L ∂µ∂σ2 = ∂2L ∂σ2∂µ = − nP i=1 (Xi − µ) (σ2)2 A matriz de informac¸a˜o de Fischer e´: I(θ) = ½ −E · ∂2 lnL ∂θ∂θ0 ¸¾ = n σ2 0 0 n 2σ4 b) A desigualdade de Cramer-Rao estabelece que Cov(θ) ≥ [I(θ)]−1 =⇒ Cov(θ) ≥ σ2 n 0 0 2σ4 n Temos que mostrar que E(X¯) = µ e que V (X¯) = σ2 n E(X¯) = E µ 1 n nP i=1 Xi ¶ = 1 n nP i=1 E(Xi) = 1 n (µ+ µ+ ...+ µ) = n n µ = µ V (X¯) = V µ 1 n nP i=1 Xi ¶ = 1 n2 nP i=1 V (Xi) = 1 n2 nσ2 = σ2 n Logo X¯ e´ estimador na˜o viesado de µ e atinge o limite inferior de Cramer- Rao. 11) Suponha que o primeiro termo do lado direito da desigualdade seja zero. Enta˜o, X = 0 com probabilidade 1. Assim, o lado direito da desigualdade tambe´m e´ zero, e isto satisfaz a desigualdade acima. Suponha agora que o lado direito da desigualdade seja positivo. Se a e b sa˜o positivos, enta˜o existem s e t tais que a = e s p e b = e t q . Como ex e´ uma func¸a˜o convexa, pela desigualdade de Jensen, e( 1 p s+ 1 q t) ≤ 1 p es + 1 q et ou a.b ≤ a p p + bq q (∗) Para a = |X| e b = |Y | , |XY | ≤ 1 p |X|p + 1 q |Y |q Suponha que E(|X|p) = E(|Y |q) = 1 8 Enta˜o E |XY | ≤ 1 p E(|X|p) + 1 q E(|Y |q) = 1 p + 1 q = 1 Defina X 0 = X (E |X|p) 1 p e Y 0 = Y (E |Y |q) 1 q Obviamente, E(|X 0|p) = E |X| p E |X|p = 1 e E(|Y 0|q) = E |Y | q E |Y |q = 1 Portanto, E |X 0Y 0| ≤ 1⇒ E ¯¯¯¯ ¯¯ X (E |X|p) 1 p Y (E |Y |q) 1 q ¯¯¯¯ ¯¯ ≤ 1⇒ E |XY | ≤ (E |X|p) 1p (E |Y |q) 1q 9 Econometria/listas/lista2.pdf Universidade de Sa˜o Paulo - Departamento de Economia EAE 5811 - Econometria I Prof. Dr. Ricardo Avelino 1o Semestre de 2007 Lista de Exerc´ıcios 2 - Data de Entrega 03/04/2007 1. Considere o modelo de regressa˜o yt = xtβ + εt, t = 1, ..., T onde xt e´ 1x1. Sejam x = [x1, ..., xT ] 0 e ε = [ε1, ..., εT ] 0 . Assuma que E [ε|x] = 0 e E [εε0|x] = σ2I. Ao longo de todo o problema, derive os resultados condicio- nando em x. Defina x¯ = 1n PT t=1 xt e y¯ similarmente. a) Considere o estimador β∗ = y¯x¯ . Mostre que β ∗ e´ linear e na˜o viesado. Calcule sua variaˆncia e compare com a variaˆncia do estimador de MQO. b) Suponha que voceˆ decida usar as primeiras τ < T observac¸o˜es e aplique MQO. Mostre que o estimador resultante β∗∗ e´ linear e na˜o viesado, mas na˜o possui variaˆncia mı´nima. c) Derive o estimador linear com variaˆncia mı´nima (na˜o necessariamente na˜o viesado). 2. (Varia´veis irrelevantes) Suponha que o modelo verdadeiro seja yt = x0tβ + εt, t = 1, ..., T mas que um econometrista erroneamente postule yt = x0tβ + z 0 tγ + εt, t = 1, ..., T onde xt e´ kx1 e zt e´ mx1. Sejam x = [x1, ..., xT ] 0 , z = [z1, ..., zT ] 0 e ε = [ε1, ..., εT ] 0 . Assuma que E [ε|x, z] = 0 e E [εε0|x, z] = σ2I. Novamente, derive os resultados condicionando nos valores dos regressores. Denote por βˆ o estimador de MQO no modelo correto. Denote por β˜ e γ˜ os estimadores de MQO no modelo incorretamente especificado. a) β˜ e´ na˜o viesado para β? b) Compute a matriz de covariaˆncia de ³ β˜, γ˜ ´ . Compare o bloco da matriz de covariaˆncia correspondente a β˜ com a matriz de covariaˆncia de βˆ. Quando eles sa˜o iguais? 1 3. Considere o modelo yt = α+ xtβ + εt, t = 1, ..., T onde xt e´ kx1. Sejam x = [x1, ..., xT ] 0 e ε = [ε1, ..., εT ] 0 . Assuma que E [ε|x] = 0 e E [εε0|x, z] = σ2I. Novamente, derive os resultados condicionando em x. Denote por βˆ o estimador de MQO de β e use σˆβˆ para denotar o desvio padra˜o estimado. Suponha que no´s multipliquemos todas as observac¸o˜es (yt, xt) por λ e reestimemos a regressa˜o por MQO para obter β˜ e use σ˜β˜ . a) No´s obtemos a mesma estimativa para β? b) O R2 muda? c) O valor da estat´ıstica t de Student para H0 : β = 0 muda? d) O vetor estimado dos res´ıduos εˆt = yt − αˆ− xtβˆ muda? 4. Considere o modelo yt = α+ x1tβ1 + x2tβ2 + εt, t = 1, ..., T onde x1t e´ kx1 e x2t e´ mx1. Sejam x1 = [x11, ..., x1T ] 0 , x2 = [x21, ..., x2T ] 0 , y = [y1, ..., yT ] 0 e ε = [ε1, ..., εT ] 0 . Assuma que E [ε|x1, x2] = 0, E [εε0|x1, x2] = σ2I e que x01x2 = 0. Novamente, derive os resultados condicionando em x1, x2. a) Mostre que o u´nico estimador linear, na˜o viesado, com variaˆncia mı´nima de (β1, β2) pode ser escrito como β˜1 = (x 0 1x1) −1 x01y, β˜2 = (x 0 2x2) −1 x02y Note que esses sa˜o os estimadores de MQO para os modelos yt = α1+x1tβ1+ εt e yt = α2 + x2tβ2 + εt, respectivamente. b) β˜1 e β˜2 sa˜o na˜o viesados se x 0 1x2 6= 0? Caso na˜o sejam, compute o vie´s de cada um deles. c) Suponha agora que x01x2 6= 0. Seja M2 = I − x2 (x02x2)−1 x02 e defina M1 similarmente. Qual e´ a interpretac¸a˜o de M1 e M2? Mostre que a estimativa de MQO de β1 pode ser escrita como βˆ1 = (x 0 1M2x1) −1 x01M2y e similarmente para βˆ2. Compute as matrizes de variaˆncia de βˆ1 e βˆ2. d) Considere o caso em que k = 1, m = 1 e x01x2 6= 0. Expresse a variaˆncia de βˆ1 como uma func¸a˜o do coeficiente de correlac¸a˜o amostral entre x1 e x2, r 2 12. O que ocorre quando r212 → 1? 2 5. Considere os dois modelos yt = a+ xtb+ et (1) xt = α+ ytβ + εt (2) t = 1, ..., T , onde xt e yt sa˜o 1x1. Sejam x = [x1, ..., xT ] 0 , z = [z1, ..., zT ] 0 , ε = [ε1, ..., εT ] 0 e e = [e1, ..., eT ] 0 . Assuma que E [e|x] = 0, E [ee0|x] = σ2eI, E [ε|y] = 0 e que E [εε0|x] = σ2εI. Seja bˆ o estimador de MQO de b e βˆ o estimador de MQO de β. Sejam R21 e R 2 2 os valores de R 2 dos modelos (1) e (2) , respectivamente. a) Suponha que voceˆ ache bˆ > 0. Compare βˆ e 1 bˆ ? b) Compare R21 e R 2 2. 6. (Forma funcional errada) Suponha que o modelo verdadeiro seja yt = α+ ln (xt)β + εt (1) t = 1, ..., T , onde xt e´ 1x1. Sejam ln (x) = [ln (x1) , ..., ln (xT )] 0 , x = [x1, ..., xT ] 0 , y = [y1, ..., yT ] 0 e ε = [ε1, ..., εT ] 0 . Entretanto, voceˆ erroneamente estima yt = a+ xtb+ ut (2) a) Mostre que E [ut|x] 6= 0. b) Seja bˆ o estimador de MQO de b em (2) . bˆ e´ na˜o viesado para b (condicional em x)? 7. Suponha que o governo local queira implementar uma taxa sobre os proprieta´rios de resideˆncia igual a 1% do valor dos imo´veis. Infelizmente, o governo na˜o sabe o valor das casas. Ele, entretanto, tem acesso a um vetor de caracter´ısticas das resideˆncias. Voceˆ e´ contratado como um consultor para apresentar as estimativas dos valores das resideˆncias. Primeiro, voceˆ coleta de imobilia´rias os prec¸os de venda e as caracter´ısticas das resideˆncias para uma amostra aleato´ria de resideˆncias negociadas no u´ltimo ano. Voceˆ enta˜o estima uma regressa˜o dos prec¸os de venda nas caracter´ısticas (tamanho do imo´vel, nu´mero de banheiros, localizac¸a˜o, etc). Segundo, voceˆ usa as estimativas dos paraˆmetros e a informac¸a˜o que o gov- erno lhe cedeu acerca de cada resideˆncia na cidade para prever os prec¸os de cada imo´vel. O governo implementa o imposto usando os seus reultados. Dois anos mais tarde, o governo e´ processado por um grupo de cidada˜os. Eles afirmam que foram taxados excessivamente, pois suas casas foram sub- sequ¨entemente negociadas por um valor inferior ao que voceˆ estimou. Voceˆ e´ chamado como testemunha para defender seus resultados. O que voceˆ diz? O que o especialista contratado pelos cidada˜os possivelmente dira´? 3 Econometria/listas/lista2.xls Plan2 Índice da taxa de câmbio efetiva real (IPCA) - Jun/1994=100 txrealdecambioR$/US$ IMPORTAÇÃO US$ EXPORTAÇÃO US$ PIB MENSAL EM US$ Jan-88 132,26 Jan-88 1.111.400.000 Jan-88 2.157.938.939 Fev-88 133,93 Fev-88 1.163.955.000 Fev-88 2.060.357.802 Mar-88 134,91 Mar-88 1.240.993.000 Mar-88 2.471.532.175 Abr-88 133,42 Abr-88 917.265.000 Abr-88 2.812.873.800 Mai-88 136,6 Mai-88 1.154.275.000 Mai-88 2.904.311.249 Jun-88 133,12 Jun-88 1.277.620.000 Jun-88 3.103.458.409 Jul-88 132,73 Jul-88 1.114.294.000 Jul-88 2.971.607.113 Ago-88 135,83 Ago-88 1.377.869.000 Ago-88 3.462.674.796 Set-88 130,88 Set-88 1.284.293.000 Set-88 3.311.780.849 Out-88 131,94 Out-88 1.172.114.000 Out-88 2.679.965.175 Nov-88 131,92 Nov-88 1.243.106.000 Nov-88 2.950.025.793 Dez-88 130,92 Dez-88 1.548.070.000 Dez-88 2.902.839.121 Jan-89 128,79 Jan-89 1.235.647.299 Jan-89 2.751.139.080 Fev-89 122,63 Fev-89 1.164.147.240 Fev-89 2.262.854.556 Mar-89 115,46 Mar-89 1.280.294.945 Mar-89 2.846.266.468 Abr-89 108,89 Abr-89 1.030.431.654 Abr-89 2.398.243.853 Mai-89 100,55 Mai-89 1.481.006.790 Mai-89 2.832.211.961 Jun-89 95,32 Jun-89 1.601.313.338 Jun-89 3.685.928.316 Jul-89 107,08 Jul-89 1.680.224.337 Jul-89 3.200.024.700 Ago-89 103,72 Ago-89 1.909.358.978 Ago-89 3.364.293.736 Set-89 99,85 Set-89 1.789.718.877 Set-89 2.951.100.517 Out-89 98,65 Out-89 1.686.750.949 Out-89 2.744.119.764 Nov-89 93,09 Nov-89 1.652.846.190 Nov-89 2.575.230.707 Dez-89 91,2 Dez-89 1.751.692.141 Dez-89 2.771.206.052 Jan-90 85,01 0,08501 Jan-90 1.678.274.554 Jan-90 2.279.822.697 Jan-90 37.932 0,0442442938 0,0601028867 Fev-90 80,35 0,08035 Fev-90 1.251.569.870 Fev-90 1.974.460.602 Fev-90 36.947 0,033874736 0,0534403497 Mar-90 70,58 0,07058 Mar-90 1.646.230.450 Mar-90 2.231.975.909 Mar-90 37.204 0,0442487488 0,0599929015 Abr-90 77,73 0,07773 Abr-90 1.362.700.701 Abr-90 2.558.374.314 Abr-90 33.823 0,0402891731 0,0756400767 Mai-90 78,97 0,07897 Mai-90 1.534.042.438 Mai-90 3.231.774.810 Mai-90 38.409 0,039939661 0,0841410818 Jun-90 77,7 0,0777 Jun-90 1.369.160.648 Jun-90 2.509.955.243 Jun-90 39.509 0,0346543989 0,0635286958 Jul-90 80,44 0,08044 Jul-90 1.576.211.087 Jul-90 3.081.963.921 Jul-90 40.199 0,0392102064 0,0766676763 Ago-90 77,59 0,07759 Ago-90 1.999.407.084 Ago-90 3.061.546.504 Ago-90 42.866 0,0466431924 0,0714213247 Set-90 71,99 0,07199 Set-90 1.898.574.858 Set-90 2.592.084.719 Set-90 42.370 0,0448094137 0,0611773594 Out-90 79,78 0,07978 Out-90 2.037.734.813 Out-90 2.332.737.929 Out-90 42.492 0,0479557284 0,0548982851 Nov-90 88,57 0,08857 Nov-90 2.263.086.380 Nov-90 2.664.596.423 Nov-90 41.357 0,0547207578 0,0644291516 Dez-90 93,88 0,09388 Dez-90 2.044.369.156 Dez-90 2.894.462.969 Dez-90 36.209 0,056460249 0,0799376666 Jan-91 97,74 0,09774 Jan-91 1.622.334.378 Jan-91 2.929.306.371 Jan-91 30.398 0,0533697736 0,096365102 Fev-91 93,08 0,09308 Fev-91 1.245.037.634 Fev-91 2.269.792.477 Fev-91 29.251 0,042563934 0,0775970899 Mar-91 86,41 0,08641 Mar-91 1.462.993.499 Mar-91 2.612.517.898 Mar-91 29.682 0,0492889124 0,0880169092 Abr-91 90,34 0,09034 Abr-91 1.619.011.565 Abr-91 3.023.747.172 Abr-91 32.855 0,0492774788 0,09203309 Mai-91 91,3 0,0913 Mai-91 1.577.352.001 Mai-91 2.911.547.911 Mai-91 34.565 0,0456343701 0,0842339913 Jun-91 89,87 0,08987 Jun-91 1.837.797.338 Jun-91 2.810.771.386 Jun-91 35.066 0,0524096657 0,0801566014 Jul-91 88,41 0,08841 Jul-91 1.789.321.946 Jul-91 2.561.131.698 Jul-91 36.559 0,0489434051 0,0700547525 Ago-91 86,56 0,08656 Ago-91 2.152.628.221 Ago-91 2.804.630.892 Ago-91 37.793 0,0569583844 0,0742103271 Set-91 86,86 0,08686 Set-91 1.671.899.230 Set-91 2.069.590.372 Set-91 35.940 0,0465191772 0,0575845958 Out-91 98,48 0,09848 Out-91 2.247.610.754 Out-91 2.655.557.830 Out-91 36.885 0,0609356311 0,0719956034 Nov-91 100,03 0,10003 Nov-91 2.005.551.237 Nov-91 2.457.609.156 Nov-91 35.111 0,0571203109 0,069995419 Dez-91 104,69 0,10469 Dez-91 1.808.932.989 Dez-91 2.514.236.280 Dez-91 31.581 0,0572791548 0,0796123074 Jan-92 104,06 0,10406 Jan-92 1.651.851.325 Jan-92 2.568.678.733 Jan-92 29.582 0,0558397446 0,0868324905 Fev-92 103,74 0,10374 Fev-92 1.521.411.775 Fev-92 2.388.865.590 Fev-92 30.315 0,0501867648 0,0788014379 Mar-92 105,39 0,10539 Mar-92 1.457.374.521 Mar-92 2.886.553.797 Mar-92 30.954 0,0470819449 0,0932530141 Abr-92 106,55 0,10655 Abr-92 1.504.126.699 Abr-92 2.681.374.803 Abr-92 31.144 0,048295874 0,0860960314 Mai-92 102,25 0,10225 Mai-92 1.564.050.980 Mai-92 2.915.734.414 Mai-92 32.192 0,0485850826 0,0905732609 Jun-92 102,29 0,10229 Jun-92 1.656.885.873 Jun-92 2.954.022.594 Jun-92 32.916 0,0503367928 0,0897442762 Jul-92 102,29 0,10229 Jul-92 1.956.259.686 Jul-92 3.441.123.535 Jul-92 33.753 0,0579580981 0,1019501536 Ago-92 102,48 0,10248 Ago-92 1.622.022.263 Ago-92 3.024.446.393 Ago-92 33.624 0,048240015 0,0899490362 Set-92 101,86 0,10186 Set-92 1.643.644.589 Set-92 3.016.089.684 Set-92 33.590 0,048932557 0,0897912975 Out-92 102,03 0,10203 Out-92 1.992.171.394 Out-92 3.220.010.036 Out-92 33.845 0,058861616 0,0951399036 Nov-92 104,6 0,1046 Nov-92 1.761.569.575 Nov-92 3.276.234.044 Nov-92 33.803 0,0521128176 0,0969213988 Dez-92 102,87 0,10287 Dez-92 2.222.722.371 Dez-92 3.419.852.221 Dez-92 31.577 0,0703905492 0,108301999 Jan-93 99,99 0,09999 Jan-93 1.798.236.566 Jan-93 2.813.338.500 Jan-93 32.179 0,0558823011 0,087427779 Fev-93 102,04 0,10204 Fev-93 1.431.796.524 Fev-93 2.889.473.005 Fev-93 31.909 0,044871244 0,090553543 Mar-93 101,18 0,10118 Mar-93 2.000.557.434 Mar-93 3.508.669.214 Mar-93 35.319 0,0566425276 0,0993422581 Abr-93 101,55 0,10155 Abr-93 2.124.756.634 Abr-93 3.027.828.512 Abr-93 35.452 0,0599333362 0,0854064231 Mai-93 102,67 0,10267 Mai-93 1.590.052.299 Mai-93 2.884.488.074 Mai-93 36.072 0,0440799595 0,0799647392 Jun-93 102,66 0,10266 Jun-93 2.292.208.212 Jun-93 3.238.276.306 Jun-93 36.181 0,0633539209 0,0895021228 Jul-93 102,48 0,10248 Jul-93 2.770.439.219 Jul-93 3.423.383.514 Jul-93 37.266 0,074342275 0,091863455 Ago-93 101,88 0,10188 Ago-93 2.340.892.116 Ago-93 3.502.691.494 Ago-93 37.884 0,0617910494 0,0924583332 Set-93 101,1 0,1011 Set-93 2.217.389.499 Set-93 3.444.725.580 Set-93 37.748 0,0587419068 0,0912558435 Out-93 103,1 0,1031 Out-93 2.094.219.896 Out-93 3.240.464.764 Out-93 37.291 0,0561588559 0,086896698 Nov-93 103,58 0,10358 Nov-93 2.039.596.468 Nov-93 3.171.193.415 Nov-93 37.266 0,0547307591 0,0850961578 Dez-93 102,76 0,10276 Dez-93 2.555.856.060 Dez-93 3.410.236.669 Dez-93 35.118 0,0727790894 0,0971079409 Jan-94 102,01 0,10201 Jan-94 1.768.675.231 Jan-94 2.747.187.653 Jan-94 40.415 0,0437628413 0,0679744563 Fev-94 102,83 0,10283 Fev-94 2.030.100.974 Fev-94 2.778.288.879 Fev-94 39.335 0,0516105497 0,0706314702 Mar-94 100,8 0,1008 Mar-94 2.248.937.491 Mar-94 3.350.391.558 Mar-94 43.588 0,0515953357 0,0768649986 Abr-94 102,19 0,10219 Abr-94 2.151.981.505 Abr-94 3.634.841.763 Abr-94 42.375 0,0507842243 0,0857779767 Mai-94 101,45 0,10145 Mai-94 2.624.852.192 Mai-94 3.862.059.965 Mai-94 44.227 0,059349542 0,0873235798 Jun-94 100 0,1 Jun-94 2.498.707.144 Jun-94 3.727.904.800 Jun-94 44.983 0,0555478102 0,0828736367 Jul-94 87,56 0,08756 Jul-94 2.514.352.437 Jul-94 3.738.057.136 Jul-94 45.497 0,0552641369 0,0821605191 Ago-94 83,17 0,08317 Ago-94 2.775.732.351 Ago-94 4.282.100.334 Ago-94 48.526 0,0572009304 0,0882434228 Set-94 79,03 0,07903 Set-94 2.641.132.607 Set-94 4.162.083.280 Set-94 48.915 0,0539943291 0,0850880769 Out-94 75,37 0,07537 Out-94 3.186.329.072 Out-94 3.842.498.153 Out-94 49.317 0,0646091423 0,077914272 Nov-94 73,06 0,07306 Nov-94 4.114.517.725 Nov-94 3.706.207.709 Nov-94 49.005 0,083961182 0,0756291748 Dez-94 72,51 0,07251 Dez-94 4.523.371.403 Dez-94 3.713.527.632 Dez-94 46.904 0,0964389264 0,0791729412 Jan-95 71,33 0,07133 Jan-95 3.283.871.691 Jan-95 2.980.189.648 Jan-95 55.720 0,0589352421 0,0534850978 Fev-95 70,39 0,07039 Fev-95 4.012.483.902 Fev-95 2.951.705.224 Fev-95 54.592 0,0734994853 0,0540684574 Mar-95 73,52 0,07352 Mar-95 4.721.391.753 Mar-95 3.798.681.210 Mar-95 60.069 0,0785994732 0,0632386291 Abr-95 73,55 0,07355 Abr-95 3.863.499.716 Abr-95 3.393.925.048 Abr-95 58.436 0,0661150612 0,0580793526 Mai-95 70,91 0,07091 Mai-95 4.897.139.765 Mai-95 4.204.778.920 Mai-95 58.588 0,0835860546 0,0717686031 Jun-95 70,8 0,0708 Jun-95 4.896.576.559 Jun-95 4.119.904.081 Jun-95 59.329 0,0825325989 0,0694416572 Jul-95 70,3 0,0703 Jul-95 4.002.873.561 Jul-95 4.004.041.602 Jul-95 59.648 0,0671082611 0,0671278434 Ago-95 70,77 0,07077 Ago-95 4.461.347.220 Ago-95 4.558.093.534 Ago-95 60.717 0,0734777281 0,0750711256 Set-95 71,03 0,07103 Set-95 3.687.438.016 Set-95 4.166.886.329 Set-95 60.660 0,0607886254 0,0686924881 Out-95 70,79 0,07079 Out-95 4.076.040.237 Out-95 4.405.190.260 Out-95 60.484 0,0673903882 0,0728323236 Nov-95 70,01 0,07001 Nov-95 4.136.940.625 Nov-95 4.047.844.579 Nov-95 60.662 0,0681965749 0,0667278458 Dez-95 69,17 0,06917 Dez-95 3.932.293.162 Dez-95 3.875.041.979 Dez-95 63.043 0,0623747785 0,0614666494 Jan-96 69,16 0,06916 Jan-96 3.439.787.016 Jan-96 3.472.938.473 Jan-96 63.000 0,0545997939 0,0551260075 Fev-96 69,1 0,0691 Fev-96 3.434.791.032 Fev-96 3.404.705.497 Fev-96 63.660 0,0539552471 0,05348265 Mar-96 69,57 0,06957 Mar-96 3.876.447.215 Mar-96 3.408.143.883 Mar-96 67.656 0,0572964292 0,0503745992 Abr-96 69,26 0,06926 Abr-96 4.073.777.083 Abr-96 4.271.322.377 Abr-96 67.748 0,0601313261 0,0630472099 Mai-96 68,91 0,06891 Mai-96 4.249.152.517 Mai-96 4.505.748.028 Mai-96 70.238 0,0604964907 0,0641497199 Jun-96 68,55 0,06855 Jun-96 4.167.947.665 Jun-96 3.839.945.609 Jun-96 68.865 0,0605234541 0,0557604822 Jul-96 68,31 0,06831 Jul-96 4.806.883.178 Jul-96 4.458.942.508 Jul-96 73.332 0,0655495988 0,060804867 Ago-96 68,58 0,06858 Ago-96 4.661.593.905 Ago-96 4.380.857.474 Ago-96 75.071 0,0620958014 0,0583561891 Set-96 69,09 0,06909 Set-96 4.748.326.554 Set-96 4.115.239.467 Set-96 73.881 0,064269928 0,0557009172 Out-96 69,5 0,0695 Out-96 5.496.716.406 Out-96 4.187.927.360 Out-96 74.674 0,0736095081 0,0560828047 Nov-96 69,77 0,06977 Nov-96 4.755.666.572 Nov-96 3.911.558.859 Nov-96 73.059 0,0650935076 0,0535397262 Dez-96 69,9 0,0699 Dez-96 5.634.678.013 Dez-96 3.789.398.623 Dez-96 69.084 0,0815627065 0,0548520442 Jan-97 69,68 0,06968 Jan-97 2.512.124.153 Jan-97 3.684.586.329 Jan-97 67.443 0,0372481081 0,0546325983 Fev-97 69,98 0,06998 Fev-97 4.249.308.184 Fev-97 3.146.244.637 Fev-97 66.179 0,0642093139 0,0475414352 Mar-97 70,29 0,07029 Mar-97 4.727.504.270 Mar-97 3.826.132.782 Mar-97 69.722 0,0678050582 0,0548769797 Abr-97 70,04 0,07004 Abr-97 5.534.607.111 Abr-97 4.628.821.188 Abr-97 71.452 0,077459093 0,0647822481 Mai-97 70,2 0,0702 Mai-97 4.721.520.682 Mai-97 4.658.958.507 Mai-97 73.160 0,0645369147 0,0636817729 Jun-97 70,32 0,07032 Jun-97 5.208.071.998 Jun-97 4.844.460.901 Jun-97 73.200 0,0711485246 0,0661811598 Jul-97 70,65 0,07065 Jul-97 5.782.869.007 Jul-97 5.238.795.799 Jul-97 74.341 0,077788421 0,0704698053 Ago-97 71,27 0,07127 Ago-97 5.369.525.218 Ago-97 5.074.799.308 Ago-97 75.612 0,0710141938 0,0671163216 Set-97 71,78 0,07178 Set-97 5.435.408.787 Set-97 4.588.311.030 Set-97 76.265 0,0712700293 0,0601627356 Out-97 72,22 0,07222 Out-97 5.644.715.601 Out-97 4.793.012.347 Out-97 79.229 0,0712455742 0,0604956815 Nov-97 72,52 0,07252 Nov-97 5.262.503.581 Nov-97 3.975.930.433 Nov-97 75.205 0,0699754482 0,0528679002 Dez-97 72,53 0,07253 Dez-97 5.299.068.496 Dez-97 4.534.287.266 Dez-97 69.466 0,0762829081 0,0652734757 Jan-98 72,56 0,07256 Jan-98 4.641.272.855 Jan-98 3.916.861.090 Jan-98 65.184 0,0712026395 0,0600893024 Fev-98 72,83 0,07283 Fev-98 3.943.235.604 Fev-98 3.715.926.053 Fev-98 63.825 0,0617819914 0,0582205414 Mar-98 73,15 0,07315 Mar-98 5.167.087.047 Mar-98 4.273.985.367 Mar-98 69.297 0,0745643685 0,0616763405 Abr-98 73,59 0,07359 Abr-98 4.629.068.494 Abr-98 4.576.580.125 Abr-98 70.266 0,0658792089 0,0651322137 Mai-98 73,8 0,0738 Mai-98 4.736.139.222 Mai-98 4.611.933.252 Mai-98 72.453 0,065368435 0,0636541379 Jun-98 74,3 0,0743 Jun-98 4.703.891.762 Jun-98 4.886.364.504 Jun-98 71.381 0,065898373 0,0684546939 Jul-98 74,92 0,07492 Jul-98 5.394.787.069 Jul-98 4.970.110.086 Jul-98 72.783 0,0741215266 0,068286689 Ago-98 76,06 0,07606 Ago-98 4.155.992.635 Ago-98 3.985.621.684 Ago-98 73.341 0,0566667026 0,0543437052 Set-98 76,92 0,07692 Set-98 5.741.168.184 Set-98 4.538.094.015 Set-98 72.871 0,078785363 0,0622757203 Out-98 77,58 0,07758 Out-98 5.460.080.480 Out-98 4.016.893.914 Out-98 73.718 0,0740671272 0,0544900013 Nov-98 78,02 0,07802 Nov-98 4.736.030.454 Nov-98 3.703.504.560 Nov-98 71.741 0,0660156738 0,0516232637 Dez-98 78,48 0,07848 Dez-98 4.454.722.168 Dez-98 3.943.986.895 Dez-98 67.126 0,0663635874 0,0587549816 Jan-99 97,34 0,09734 Jan-99 3.667.312.990 Jan-99 2.949.154.776 Jan-99 44.829 0,0818067097 0,0657867625 Fev-99 122,89 0,12289 Fev-99 3.166.425.156 Fev-99 3.266.867.013 Fev-99 44.042 0,0718955805 0,074176173 Mar-99 120,85 0,12085 Mar-99 4.057.036.252 Mar-99 3.829.412.981 Mar-99 48.716 0,0832793385 0,0786068844 Abr-99 108,11 0,10811 Abr-99 3.675.602.407 Abr-99 3.706.750.870 Abr-99 48.740 0,0754124417 0,0760515156 Mai-99 107,11 0,10711 Mai-99 4.087.415.915 Mai-99 4.386.466.597 Mai-99 49.105 0,0832382836 0,0893283087 Jun-99 112,11 0,11211 Jun-99 4.460.858.184 Jun-99 4.312.612.911 Jun-99 49.352 0,0903885999 0,0873847648 Jul-99 113,44 0,11344 Jul-99 4.032.469.776 Jul-99 4.117.096.889 Jul-99 49.252 0,0818742341 0,0835924813 Ago-99 118,13 0,11813 Ago-99 4.466.090.407 Ago-99 4.277.089.174 Ago-99 50.669 0,088142462 0,0844123463 Set-99 119,42 0,11942 Set-99 4.243.634.595 Set-99 4.187.087.694 Set-99 50.709 0,0836860241 0,0825708985 Out-99 122,67 0,12267 Out-99 4.460.002.264 Out-99 4.304.132.509 Out-99 51.546 0,0865247015 0,0835008053 Nov-99 119,15 0,11915 Nov-99 4.535.745.970 Nov-99 4.001.797.406 Nov-99 51.010 0,0889187604 0,0784512332 Dez-99 113,09 0,11309 Dez-99 4.448.963.776 Dez-99 4.674.321.127 Dez-99 48.807 0,0911542151 0,0957715313 Jan-00 110,34 0,11034 Jan-00 3.568.862.639 Jan-00 3.453.879.475 Jan-00 48.231 0,0739952031 0,0716111935 Fev-00 109,1 0,1091 Fev-00 4.046.750.398 Fev-00 4.124.889.858 Fev-00 50.178 0,0806479014 0,0822051468 Mar-00 107,7 0,1077 Mar-00 4.452.388.562 Mar-00 4.473.245.145 Mar-00 53.255 0,0836050805 0,0839967166 Abr-00 108,93 0,10893 Abr-00 3.996.925.496 Abr-00 4.183.741.237 Abr-00 51.914 0,0769912836 0,0805898455 Mai-00 112,72 0,11272 Mai-00 4.697.876.646 Mai-00 5.065.528.883 Mai-00 54.347 0,0864422442 0,0932071482 Jun-00 111,84 0,11184 Jun-00 4.605.748.293 Jun-00 4.863.568.081 Jun-00 54.847 0,0839744798 0,0886751888 Jul-00 109,68 0,10968 Jul-00 4.887.298.954 Jul-00 5.005.990.739 Jul-00 54.718 0,0893179384 0,0914870927 Ago-00 108,95 0,10895 Ago-00 5.425.167.233 Ago-00 5.522.393.935 Ago-00 56.038 0,0968122922 0,098547306 Set-00 111,08 0,11108 Set-00 5.054.179.504 Set-00 4.727.432.602 Set-00 54.743 0,0923255851 0,086356842 Out-00 113,56 0,11356 Out-00 5.188.245.047 Out-00 4.641.288.911 Out-00 57.078 0,0908974569 0,0813148483 Nov-00 117,38 0,11738 Nov-00 5.052.874.250 Nov-00 4.394.431.433 Nov-00 56.064 0,0901268952 0,07838241 Dez-00 117,54 0,11754 Dez-00 4.874.346.116 Dez-00 4.662.529.566 Dez-00 53.572 0,0909868236 0,0870329569 Jan-01 117,09 0,11709 Jan-01 5.022.206.001 Jan-01 4.541.623.764 Jan-01 43.239 0,116149911 0,1050353561 Fev-01 119,85 0,11985 Fev-01 4.003.034.945 Fev-01 4.086.790.148 Fev-01 43.487 0,0920513014 0,093977284 Mar-01 124,88 0,12488 Mar-01 5.449.181.143 Mar-01 5.173.027.536 Mar-01 46.708 0,1166648356 0,110752495 Abr-01 130,83 0,13083 Abr-01 4.611.516.774 Abr-01 4.735.323.043 Abr-01 46.644 0,0988662373 0,101520518 Mai-01 137,14 0,13714 Mai-01 5.160.802.754 Mai-01 5.372.620.976 Mai-01 48.189 0,1070950373 0,1114906094 Jun-01 141,33 0,14133 Jun-01 4.761.391.842 Jun-01 5.047.763.762 Jun-01 44.905 0,1060325541 0,1124098377 Jul-01 144,37 0,14437 Jul-01 4.856.540.870 Jul-01 4.970.156.817 Jul-01 46.506 0,1044282645 0,106871303 Ago-01 145,96 0,14596 Ago-01 5.098.809.280 Ago-01 5.733.053.483 Ago-01 47.723 0,1068417593 0,1201318753 Set-01 155,58 0,15558 Set-01 4.159.854.994 Set-01 4.759.850.802 Set-01 46.358 0,0897332714 0,1026759308 Out-01 157,73 0,15773 Out-01 4.758.997.661 Out-01 5.008.557.126 Out-01 48.008 0,0991292631 0,1043275522 Nov-01 145,1 0,1451 Nov-01 4.213.531.606 Nov-01 4.506.283.984 Nov-01 47.450 0,0887994016 0,094969104 Dez-01 133,41 0,13341 Dez-01 3.505.889.252 Dez-01 4.351.541.580 Dez-01 44.554 0,0786885409 0,0976689316 Jan-02 133,88 0,13388 Jan-02 3.803.140.301 Jan-02 3.975.967.550 Jan-02 38.624 0,0984657286 0,1029403363 Fev-02 136,27 0,13627 Fev-02 3.397.513.343 Fev-02 3.662.989.817 Fev-02 38.652 0,0879000658 0,0947684419 Mar-02 132,12 0,13212 Mar-02 3.663.201.453 Mar-02 4.266.107.599 Mar-02 41.458 0,0883593384 0,1029019152 Abr-02 130,33 0,13033 Abr-02 4.140.122.107 Abr-02 4.647.813.517 Abr-02 42.168 0,0981816094 0,1102213412 Mai-02 139,02 0,13902 Mai-02 4.063.478.596 Mai-02 4.447.740.894 Mai-02 42.549 0,0955011539 0,1045322074 Jun-02 151,56 0,15156 Jun-02 3.399.588.245 Jun-02 4.084.584.760 Jun-02 41.531 0,0818566431 0,0983502627 Jul-02 162,14 0,16214 Jul-02 5.024.547.888 Jul-02 6.230.571.298 Jul-02 42.643 0,117828199 0,1461100602 Ago-02 171,29 0,17129 Ago-02 4.174.508.020 Ago-02 5.758.053.735 Ago-02 43.521 0,0959193957 0,1323051799 Set-02 183,05 0,18305 Set-02 4.002.250.041 Set-02 6.497.975.108 Set-02 43.053 0,0929610025 0,1509296706 Out-02 206,11 0,20611 Out-02 4.283.325.666 Out-02 6.482.182.856 Out-02 44.785 0,0956419709 0,1447400437 Nov-02 188 0,188 Nov-02 3.848.469.707 Nov-02 5.134.789.656 Nov-02 43.859 0,087746408 0,1170749369 Dez-02 186,27 0,18627 Dez-02 3.442.508.768 Dez-02 5.249.876.245 Dez-02 41.515 0,0829220467 0,1264573346 Jan-03 173,51 0,17351 Jan-03 3.650.538.361 Jan-03 4.811.181.392 Jan-03 43.488 0,0839435789 0,1106323904 Fev-03 179,77 0,17977 Fev-03 3.891.052.706 Fev-03 5.009.028.475 Fev-03 43.229 0,0900102409 0,1158719488 Mar-03 171,5 0,1715 Mar-03 3.702.909.697 Mar-03 5.246.395.514 Mar-03 45.297 0,0817473496 0,1158221408 Abr-03 153,35 0,15335 Abr-03 3.989.640.635 Abr-03 5.720.005.413 Abr-03 45.650 0,0873962899 0,1253013234 Mai-03 144,22 0,14422 Mai-03 3.855.279.744 Mai-03 6.381.488.142 Mai-03 46.851 0,0822880994 0,1362081523 Jun-03 141,04 0,14104 Jun-03 3.521.547.239 Jun-03 5.882.943.168 Jun-03 45.836 0,0768292879 0,1283476562 Jul-03 140,75 0,14075 Jul-03 4.049.624.105 Jul-03 6.114.523.476 Jul-03 46.461 0,0871617939 0,1316055073 Ago-03 146,8 0,1468 Ago-03 3.734.089.225 Ago-03 6.413.605.268 Ago-03 46.822 0,0797507416 0,136978456 Set-03 142,26 0,14226 Set-03 4.624.716.527 Set-03 7.291.199.616 Set-03 47.755 0,0968425616 0,1526792926 Out-03 138,72 0,13872 Out-03 5.032.619.513 Out-03 7.578.687.865 Out-03 48.610 0,1035305393 0,1559079997 Nov-03 140,4 0,1404 Nov-03 4.269.258.407 Nov-03 5.993.129.201 Nov-03 47.382 0,0901029591 0,1264853573 Dez-03 140,07 0,14007 Dez-03 4.004.376.204 Dez-03 6.761.034.545 Dez-03 46.221 0,0866354299 0,1462762499 Jan-04 136,19 0,13619 Jan-04 4.217.055.211 Jan-04 5.809.792.353 Jan-04 51.477 0,0819211534 0,1128619063 Fev-04 139,84 0,13984 Fev-04 3.761.400.163 Fev-04 5.733.238.238 Fev-04 50.439 0,0745732501 0,1136667705 Mar-04 138,89 0,13889 Mar-04 5.345.306.648 Mar-04 7.944.136.093 Mar-04 55.787 0,0958163488 0,1424012062 Abr-04 138,85 0,13885 Abr-04 4.634.631.536 Abr-04 6.606.292.414 Abr-04 54.963 0,0843227541 0,1201952662 Mai-04 148,25 0,14825 Mai-04 4.835.513.254 Mai-04 7.960.023.354 Mai-04 56.935 0,0849304163 0,1398089638 Jun-04 149,04 0,14904 Jun-04 5.530.225.685 Jun-04 9.347.432.832 Jun-04 56.796 0,0973699853 0,1645790695 Jul-04 143,11 0,14311 Jul-04 5.530.206.059 Jul-04 9.011.284.343 Jul-04 55.106 0,1003557881 0,1635263736 Ago-04 140,62 0,14062 Ago-04 5.623.489.343 Ago-04 9.073.756.285 Ago-04 56.281 0,0999180779 0,1612223714 Set-04 135,23 0,13523 Set-04 5.753.223.765 Set-04 8.939.578.126 Set-04 56.683 0,1014982228 0,1577118029 Out-04 133,55 0,13355 Out-04 5.840.486.950 Out-04 8.861.627.594 Out-04 57.361 0,1018198244 0,1544887222 Nov-04 129,6 0,1296 Nov-04 6.078.106.745 Nov-04 8.177.331.497 Nov-04 56.758 0,1070881064 0,1440736371 Dez-04 124,9 0,1249 Dez-04 5.685.970.270 Dez-04 9.213.345.647 Dez-04 55.197 0,1030123063 0,1669175072 Jan-05 123,29 0,12329 Jan-05 5.262.674.702 Jan-05 7.457.189.902 Jan-05 69.117 0,0761415383 0,1078922682 Fev-05 118,92 0,11892 Fev-05 4.979.386.828 Fev-05 7.771.878.760 Fev-05 67.088 0,0742217211 0,1158460345 Mar-05 124,02 0,12402 Mar-05 5.909.740.544 Mar-05 9.270.434.926 Mar-05 73.300 0,0806240183 0,1264725092 Abr-05 118,03 0,11803 Abr-05 5.331.865.601 Abr-05 9.220.566.717 Abr-05 73.924 0,0721263135 0,1247303544 Mai-05 111,59 0,11159 Mai-05 6.372.331.226 Mai-05 9.835.725.485 Mai-05 74.859 0,0851244503 0,1313900197 Jun-05 109,88 0,10988 Jun-05 6.176.002.427 Jun-05 10.224.832.499 Jun-05 75.253 0,0820698501 0,1358727559 Jul-05 108,29 0,10829 Jul-05 6.056.909.816 Jul-05 11.079.534.680 Jul-05 73.235 0,0827051248 0,1512874265 Ago-05 108,07 0,10807 Ago-05 7.695.788.927 Ago-05 11.366.262.079 Ago-05 75.775 0,1015610548 0,1500001594 Set-05 105,95 0,10595 Set-05 6.314.921.976 Set-05 10.654.222.622 Set-05 74.721 0,0845133493 0,1425867242 Out-05 103,63 0,10363 Out-05 6.228.019.750 Out-05 9.922.943.795 Out-05 75.588 0,0823942921 0,1312767079 Nov-05 100,16 0,10016 Nov-05 6.712.248.586 Nov-05 10.809.253.532 Nov-05 75.842 0,0885030535 0,1425233186 Dez-05 102,76 0,10276 Dez-05 6.560.485.284 Dez-05 10.916.339.902 Dez-05 74.027 0,0886228712 0,1474643022 Jan-06 102,41 0,10241 Jan-06 6.451.801.701 Jan-06 9.286.850.191 Jan-06 82.248 0,0784432655 0,1129127783 Fev-06 97,17 0,09717 Fev-06 5.971.301.604 Fev-06 8.774.460.707 Fev-06 82.432 0,0724391208 0,1064448358 Mar-06 96,84 0,09684 Mar-06 7.706.514.049 Mar-06 11.396.765.577 Mar-06 89.651 0,0859612726 0,127123686 Abr-06 96,43 0,09643 Abr-06 6.741.614.473 Abr-06 9.830.693.648 Abr-06 86.804 0,0776647905 0,1132516203 Mai-06 99,03 0,09903 Mai-06 7.287.536.761 Mai-06 10.304.884.611 Mai-06 89.654 0,0812851268 0,1149406007 Jun-06 102,64 0,10264 Jun-06 7.365.294.756 Jun-06 11.463.247.538 Jun-06 88.540 0,0831860713 0,1294697034 Jul-06 100,06 0,10006 Jul-06 7.991.566.911 Jul-06 13.651.047.549 Jul-06 89.162 0,0896297404 0,1531038733 Ago-06 98,67 0,09867 Ago-06 9.116.948.420 Ago-06 13.671.699.785 Ago-06 92.897 0,0981403966 0,1471705199 Set-06 98,56 0,09856 Set-06 8.108.634.491 Set-06 12.576.856.844 Set-06 90.566 0,0895328765 0,1388695188 Out-06 96,79 0,09679 Out-06 8.738.109.835 Out-06 12.689.255.149 Out-06 93.128 0,0938290292 0,1362560685 Nov-06 96,78 0,09678 Nov-06 8.657.094.624 Nov-06 11.896.874.788 Nov-06 92.824 0,0932635377 0,1281659354 Dez-06 96,1 0,0961 Dez-06 7.213.143.363 Dez-06 12.264.833.144 Dez-06 89.419 0,0806667863 0,1371613767 Jan-07 95,46 0,09546 Jan-07 8.466.200.706 Jan-07 10.983.867.609 Jan-07 95.684 0,0884808401 0,1147931484 Fev-07 93,67 0,09367 Fev-07 7.225.434.932 Fev-07 10.129.505.211 Fev-07 94.002 0,0768646936 0,107758401 Mar-07 93,83 0,09383 Mar-07 9.545.377.253 Mar-07 12.888.955.944 Mar-07 103.006 0,0926681674 0,1251282056 Abr-07 91,65 0,09165 Abr-07 8.254.921.139 Abr-07 12.446.172.314 Abr-07 101.036 0,0817027707 0,1231855211 Mai-07 89,67 0,08967 Mai-07 9.780.682.417 Mai-07 13.647.281.258 Mai-07 104.552 0,0935484966 0,1305310397 Jun-07 87,34 0,08734 Jun-07 9.302.949.130 Jun-07 13.118.083.296 Jun-07 102.493 0,090766678 0,1279900412 Jul-07 84,9 0,0849 Jul-07 10.772.702.303 Jul-07 14.119.547.669 Jul-07 103.318 0,1042674297 0,1366610626 Ago-07 88,41 0,08841 Ago-07 11.565.857.691 Ago-07 15.100.028.780 Ago-07 107.676 0,1074135155 0,1402357887 Plan2 0,08501 0,0442442938 0,0601028867 0,08035 0,033874736 0,0534403497 0,07058 0,0442487488 0,0599929015 0,07773 0,0402891731 0,0756400767 0,07897 0,039939661 0,0841410818 0,0777 0,0346543989 0,0635286958 0,08044 0,0392102064 0,0766676763 0,07759 0,0466431924 0,0714213247 0,07199 0,0448094137 0,0611773594 0,07978 0,0479557284 0,0548982851 0,08857 0,0547207578 0,0644291516 0,09388 0,056460249 0,0799376666 0,09774 0,0533697736 0,096365102 0,09308 0,042563934 0,0775970899 0,08641 0,0492889124 0,0880169092 0,09034 0,0492774788 0,09203309 0,0913 0,0456343701 0,0842339913 0,08987 0,0524096657 0,0801566014 0,08841 0,0489434051 0,0700547525 0,08656 0,0569583844 0,0742103271 0,08686 0,0465191772 0,0575845958 0,09848 0,0609356311 0,0719956034 0,10003 0,0571203109 0,069995419 0,10469 0,0572791548 0,0796123074 0,10406 0,0558397446 0,0868324905 0,10374 0,0501867648 0,0788014379 0,10539 0,0470819449 0,0932530141 0,10655 0,048295874 0,0860960314 0,10225 0,0485850826 0,0905732609 0,10229 0,0503367928 0,0897442762 0,10229 0,0579580981 0,1019501536 0,10248 0,048240015 0,0899490362 0,10186 0,048932557 0,0897912975 0,10203 0,058861616 0,0951399036 0,1046 0,0521128176 0,0969213988 0,10287 0,0703905492 0,108301999 0,09999 0,0558823011 0,087427779 0,10204 0,044871244 0,090553543 0,10118 0,0566425276 0,0993422581 0,10155 0,0599333362 0,0854064231 0,10267 0,0440799595 0,0799647392 0,10266 0,0633539209 0,0895021228 0,10248 0,074342275 0,091863455 0,10188 0,0617910494 0,0924583332 0,1011 0,0587419068 0,0912558435 0,1031 0,0561588559 0,086896698 0,10358 0,0547307591 0,0850961578 0,10276 0,0727790894 0,0971079409 0,10201 0,0437628413 0,0679744563 0,10283 0,0516105497 0,0706314702 0,1008 0,0515953357 0,0768649986 0,10219 0,0507842243 0,0857779767 0,10145 0,059349542 0,0873235798 0,1 0,0555478102 0,0828736367 0,08756 0,0552641369 0,0821605191 0,08317 0,0572009304 0,0882434228 0,07903 0,0539943291 0,0850880769 0,07537 0,0646091423 0,077914272 0,07306 0,083961182 0,0756291748 0,07251 0,0964389264 0,0791729412 0,07133 0,0589352421 0,0534850978 0,07039 0,0734994853 0,0540684574 0,07352 0,0785994732 0,0632386291 0,07355 0,0661150612 0,0580793526 0,07091 0,0835860546 0,0717686031 0,0708 0,0825325989 0,0694416572 0,0703 0,0671082611 0,0671278434 0,07077 0,0734777281 0,0750711256 0,07103 0,0607886254 0,0686924881 0,07079 0,0673903882 0,0728323236 0,07001 0,0681965749 0,0667278458 0,06917 0,0623747785 0,0614666494 0,06916 0,0545997939 0,0551260075 0,0691 0,0539552471 0,05348265 0,06957 0,0572964292 0,0503745992 0,06926 0,0601313261 0,0630472099 0,06891 0,0604964907 0,0641497199 0,06855 0,0605234541 0,0557604822 0,06831 0,0655495988 0,060804867 0,06858 0,0620958014 0,0583561891 0,06909 0,064269928 0,0557009172 0,0695 0,0736095081 0,0560828047 0,06977 0,0650935076 0,0535397262 0,0699 0,0815627065 0,0548520442 0,06968 0,0372481081 0,0546325983 0,06998 0,0642093139 0,0475414352 0,07029 0,0678050582 0,0548769797 0,07004 0,077459093 0,0647822481 0,0702 0,0645369147 0,0636817729 0,07032 0,0711485246 0,0661811598 0,07065 0,077788421 0,0704698053 0,07127 0,0710141938 0,0671163216 0,07178 0,0712700293 0,0601627356 0,07222 0,0712455742 0,0604956815 0,07252 0,0699754482 0,0528679002 0,07253 0,0762829081 0,0652734757 0,07256 0,0712026395 0,0600893024 0,07283 0,0617819914 0,0582205414 0,07315 0,0745643685 0,0616763405 0,07359 0,0658792089 0,0651322137 0,0738 0,065368435 0,0636541379 0,0743 0,065898373 0,0684546939 0,07492 0,0741215266 0,068286689 0,07606 0,0566667026 0,0543437052 0,07692 0,078785363 0,0622757203 0,07758 0,0740671272 0,0544900013 0,07802 0,0660156738 0,0516232637 0,07848 0,0663635874 0,0587549816 0,09734 0,0818067097 0,0657867625 0,12289 0,0718955805 0,074176173 0,12085 0,0832793385 0,0786068844 0,10811 0,0754124417 0,0760515156 0,10711 0,0832382836 0,0893283087 0,11211 0,0903885999 0,0873847648 0,11344 0,0818742341 0,0835924813 0,11813 0,088142462 0,0844123463 0,11942 0,0836860241 0,0825708985 0,12267 0,0865247015 0,0835008053 0,11915 0,0889187604 0,0784512332 0,11309 0,0911542151 0,0957715313 0,11034 0,0739952031 0,0716111935 0,1091 0,0806479014 0,0822051468 0,1077 0,0836050805 0,0839967166 0,10893 0,0769912836 0,0805898455 0,11272 0,0864422442 0,0932071482 0,11184 0,0839744798 0,0886751888 0,10968 0,0893179384 0,0914870927 0,10895 0,0968122922 0,098547306 0,11108 0,0923255851 0,086356842 0,11356 0,0908974569 0,0813148483 0,11738 0,0901268952 0,07838241 0,11754 0,0909868236 0,0870329569 0,11709 0,116149911 0,1050353561 0,11985 0,0920513014 0,093977284 0,12488 0,1166648356 0,110752495 0,13083 0,0988662373 0,101520518 0,13714 0,1070950373 0,1114906094 0,14133 0,1060325541 0,1124098377 0,14437 0,1044282645 0,106871303 0,14596 0,1068417593 0,1201318753 0,15558 0,0897332714 0,1026759308 0,15773 0,0991292631 0,1043275522 0,1451 0,0887994016 0,094969104 0,13341 0,0786885409 0,0976689316 0,13388 0,0984657286 0,1029403363 0,13627 0,0879000658 0,0947684419 0,13212 0,0883593384 0,1029019152 0,13033 0,0981816094 0,1102213412 0,13902 0,0955011539 0,1045322074 0,15156 0,0818566431 0,0983502627 0,16214 0,117828199 0,1461100602 0,17129 0,0959193957 0,1323051799 0,18305 0,0929610025 0,1509296706 0,20611 0,0956419709 0,1447400437 0,188 0,087746408 0,1170749369 0,18627 0,0829220467 0,1264573346 0,17351 0,0839435789 0,1106323904 0,17977 0,0900102409 0,1158719488 0,1715 0,0817473496 0,1158221408 0,15335 0,0873962899 0,1253013234 0,14422 0,0822880994 0,1362081523 0,14104 0,0768292879 0,1283476562 0,14075 0,0871617939 0,1316055073 0,1468 0,0797507416 0,136978456 0,14226 0,0968425616 0,1526792926 0,13872 0,1035305393 0,1559079997 0,1404 0,0901029591 0,1264853573 0,14007 0,0866354299 0,1462762499 0,13619 0,0819211534 0,1128619063 0,13984 0,0745732501 0,1136667705 0,13889 0,0958163488 0,1424012062 0,13885 0,0843227541 0,1201952662 0,14825 0,0849304163 0,1398089638 0,14904 0,0973699853 0,1645790695 0,14311 0,1003557881 0,1635263736 0,14062 0,0999180779 0,1612223714 0,13523 0,1014982228 0,1577118029 0,13355 0,1018198244 0,1544887222 0,1296 0,1070881064 0,1440736371 0,1249 0,1030123063 0,1669175072 0,12329 0,0761415383 0,1078922682 0,11892 0,0742217211 0,1158460345 0,12402 0,0806240183 0,1264725092 0,11803 0,0721263135 0,1247303544 0,11159 0,0851244503 0,1313900197 0,10988 0,0820698501 0,1358727559 0,10829 0,0827051248 0,1512874265 0,10807 0,1015610548 0,1500001594 0,10595 0,0845133493 0,1425867242 0,10363 0,0823942921 0,1312767079 0,10016 0,0885030535 0,1425233186 0,10276 0,0886228712 0,1474643022 0,10241 0,0784432655 0,1129127783 0,09717 0,0724391208 0,1064448358 0,09684 0,0859612726 0,127123686 0,09643 0,0776647905 0,1132516203 0,09903 0,0812851268 0,1149406007 0,10264 0,0831860713 0,1294697034 0,10006 0,0896297404 0,1531038733 0,09867 0,0981403966 0,1471705199 0,09856 0,0895328765 0,1388695188 0,09679 0,0938290292 0,1362560685 0,09678 0,0932635377 0,1281659354 0,0961 0,0806667863 0,1371613767 0,09546 0,0884808401 0,1147931484 0,09367 0,0768646936 0,107758401 0,09383 0,0926681674 0,1251282056 0,09165 0,0817027707 0,1231855211 0,08967 0,0935484966 0,1305310397 0,08734 0,090766678 0,1279900412 0,0849 0,1042674297 0,1366610626 0,08841 0,1074135155 0,1402357887 Plan3 Econometria/listas/lista2sol.pdf Universidade de Sa˜o Paulo - Departamento de Economia EAE 5811 - Econometria I Prof. Ricardo Avelino 1o Semestre de 2007 Lista de Exerc´ıcios 2 - Soluc¸o˜es Monitoras: Paula Pereda Jaqueline de Oliveira 1. a) Seja i um vetor de 1’s de dimensa˜o Tx1. Podemos escrever β∗ como β∗ = [(i0i)−1i0x]−1[(i0i)−1i0y]. Como β∗pode ser escrito na forma Ay + C, onde A=[(i0i)−1i0x]−1(i0i)−1i0 e C=0, β∗e´ linear em y. Manipulando a relac¸a˜o linear, chegamos a outra expressa˜o do estimador β∗: β∗ = [(i0i)−1i0x]−1[(i0i)−1i0(xβ + ε)]. = β + [(i0i)−1i0x]−1[(i0i)−1i0ε], o que implica que: E(β∗/x) = β + [(i0i)−1i0x]−1[(i0i)−1i0]E(ε/x) Segue da hipo´tese E(ε/x) = 0 que E(β∗/x) = β. Assim, conclu´ımos que β∗ e´ um estimador linear na˜o viesado de β. A variaˆncia de β∗ e´ igual a: V (β∗/x) = E[(β∗ −E(β∗/x))(β∗ −E(β∗/x))0/x] = E{[(i0i)−1i0x]−1[(i0i)−1i0εε0i(i0i)−1][(i0i)−1i0x]−1/x} = [(i0i)−1i0x]−1[(i0i)−1i0E(εε0/x)i(i0i)−1][(i0i)−1i0x]−1 = σ2[(i0i)−1i0x]−1(i0i)−1[(i0i)−1i0x]−1 = σ2[(i0x)−1(i0i)(i0i)−1(i0x)−1(i0i) = σ2 T ( P xi) 2 = σ 2 ThS xi T T i2 = σ2 Tx 2 Sabemos que a variaˆncia do estimador de OLS e´ igual a: V ( ˆ β OLS /x) = σ2(x0x)−1 = σ2X x2i Desenvolvendo o quadrado P (xi − x)2, temos:X (xi − x)2 = X (x2i − 2xxi + x 2 ) = X x2i − 2Tx 2 + Tx2 = X x2i − Tx 2 ≥ 0, pois o quadrado de nu´meros reais na˜o pode ser negativo. 1 Assim, X x2i ≥ Tx 2 ⇒ σ 2P x2i ≤ σ 2 Tx2 Portanto, V (β∗/x) ≥ V ( ˆ β OLS /x) b) Redefina a dimensa˜o de i para τx1. Sejam ˜ x, ˜ y e ˜ ε vetores de dimensa˜o τx1, contendo as τ primeiras observac¸o˜es. O estimador de OLS sera´: β∗∗ = [(i0i)−1i0 ˜ x]−1[(i0i)−1i0 ˜ y] = A ˜ y + C, em que A = [(i0i)−1i0 ˜ x]−1(i0i)−1i0 e C = 0. Enta˜o β∗∗ e´ linear em ˜ y. Reescrevendo β∗∗ como β∗∗ = [(i0i)−1i0 ˜ x]−1[(i0i)−1i0( ˜ xβ + ε)], conclu´ımos pelos argumentos desenvolvidos no item a) que E(β∗∗/x) = β, uma vez que a hipo´teseE(ε/x) = 0 implica queE( ˜ ε/ ˜ x) = 0, e V (β∗∗/x) = σ2[(i0 ˜ x)−1(i0 ˜ x)−1(i0i)] = σ2 T ˜ x 2 , onde ˜ x e´ a media das τ primeiras observac¸o˜es. Adicionalmente, note que: TX 1 x2i = τX 1 x2i + TX τ+1 x2i ≥ τX 1 x2i ≥ τ ˜ x 2 ⇒ σ 2P x2i ≤ σ 2 T ˜ x 2 isto e´, β∗∗ e´ na˜o viesado, mas sua variaˆncia e´ maior ou igual a V ( ˆ β OLS /x). c) Considere um estimador linear arbitra´rio ˜ β = Dy +G Enta˜o, E( ˜ β/x) = E[D(xβ + ε) +G/x] = Dxβ +G e V ( ˜ β/x) = E[( ˜ β−E( ˜ β/x))( ˜ β−E( ˜ β/x))0/x] = E[Dεε0D0/x] = DE[εε0/x]D0 = σ2(DD0) Essa variaˆncia e´ minimizada quando D = 0, ou seja, no caso em que V ( ˜ β/x) = 0. Desta forma, a classe dos estimadores de mı´nima variaˆncia consiste em nu´meros reais (constantes). 2 2. a) O modelo verdadeiro e´: (1) yt = x 0 tβ + εt, t = 1, ..., T O modelo incorretamente especificado e´: (2) yt = x 0 tβ + z 0 tγ + εt, t = 1, ..., T Em notac¸a˜o matricial, podemos reescrever os modelos, respectivamente, como: (3) y = xβ + ε (4) y = xβ + zγ + ε As equac¸o˜es normais do modelo 4 sa˜o dadas por· x0x x0z z0x z0z ¸ ˜ β ˜ γ = · x0y z0y ¸ ⇔ (x 0x) ˜ β + (x0z) ˜ γ = x0y (z0x) ˜ β + (z0z) ˜ γ = z0y (5) (6) De (6), temos: ˜ γ = (z0z)−1(z0y − (z0x) ˜ β) Substituiremos ˜ γ em (5): (x0x) ˜ β + (x0z)(z0z)−1(z0y − (z0x) ˜ β) = x0y ⇔ (x0x) ˜ β + (x0z)(z0z)−1z0y − (x0z)(z0z)−1(z0x) ˜ β = x0y ⇔ x0(I − Pz)x ˜ β = x0(I − Pz)y Portanto, ˜ β = (x0Mzx)−1(x0Mzy) em que Pz = z(z0z)−1z0 e Mz = I − Pz Tirando a esperanc¸a condicional de ˜ β, temos: E( ˜ β/x, z) = E[(x0Mzx)−1(x0Mzy)/x, z] = E[(x0Mzx)−1(x0Mz(xβ + ε))/x, z] = β + E[(x0Mzx)−1(x0Mzε)/x, z] = β + (x0Mzx)−1x0MzE[ε/x, z] = β pois E[ε/x, z] = 0, por hipo´tese. b) V ˜ β ˜ γ /x, z = σ2 · x0x x0z z0x z0z ¸−1 3 A matriz de covariaˆncia de ˜ β e´ dada pelo elemento (1,1) da matriz. Usando a fo´rmula da inversa particionada, obtemos: V ( ˜ β/x, z) = σ2(x0x− x0z(z0z)−1z0x)−1 = σ2(x0(I − Pz)x)−1 = σ2(x0Mzx)−1 sendo Mz e Pz definidas anteriormente. Portanto V ( ˜ β/x, z)−V ( ˆ β/x, z) ≥ 0.Para provarmos essa desigualdade, note que: σ2(x0Mzx)−1 − σ2(x0x)−1 ≥ 0⇔ σ2(x0Mzx)−1 ≥ σ2(x0x)−1 ⇔ (x0Mzx) ≤ (x0x)⇔ x0(I −Mz)x ≥ 0 ⇔ x0Pzx ≥ 0⇔ (Pzx)0(Pzx) ≥ 0 Como (Pzx)0(Pzx) e´ claramente uma matriz positiva semidefinida, o quadrado dos vetores sera´ sempre na˜o-negativo. O bloco da matriz de covariaˆncia de ˜ β sera´ igual a` matriz de covariaˆncia de ˆ β quando a projec¸a˜o de x no espac¸o de z for nula, o que implica que: Mzx = x− Pzx = x. Neste caso, V ( ˜ β/x, z) = σ2(x0Mzx)−1 = σ2(x0x)−1 = V ( ˆ β/x, z) 3. a) Se yt = α+x0tβ+εt, t = 1, ..., T, ou em termos matriciais, y = α+xβ+ε , o estimador OLS de β sera´ igual a: ˆ β = (x0M0x)−1(x0M0y), em que M0 = I − i(i0i)−1i0 Se multiplicarmos todas as observac¸o˜es (yt, xt) por λ > 0 , obteremos: λy = λα+ λxβ + λε ⇒ y∗ = α∗ + x∗β + ε∗ em que λy = y∗, λα = α∗, + λx = x∗ e λε = ε∗. O estimador de OLS neste caso sera´: ˜ β = (x∗0M0x∗)−1(x∗0M0y∗) = (λx0M0λx)−1(λx0M0λy) = λ−2(x0M0x)−1λ2(x0M0y) = ˆ β 4 Assim, obtemos a mesma estimativa para β. b) Por definic¸a˜o, R2 = ˆ β 0 x0M0x ˆ β y0M0y = P (x ˆ β − x ˆ β)2P (y − y)2 Antes da multiplicac¸a˜o das observac¸o˜es por λ o coeficiente de determinac¸a˜o era igual a: P (x ˆ β − x ˆ β)2P (x ˆ β − x ˆ β + ˆ ε)2 Apos a multiplicac¸a˜o, o R2 se torna: P (x∗ ˜ β − x∗ ˜ β)2P (x∗ ˜ β − x∗ ˜ β + ˜ ε)2 No primeiro caso, ˆ α = y − x ˆ β ⇒ ˆε = y − ˆα− x ˆ β. No segundo caso, ˜ α ∗ = y∗ − x∗ ˜ β = λy − λx ˆ β = λ ˆ α ˜ ε = λy − λˆα− λx ˆ β = λ ˆ ε Enta˜o, P (x∗ ˜ β − x∗ ˜ β)2P (x∗ ˜ β − x∗ ˜ β + ˜ ε)2 = P (λx ˆ β − λx ˆ β)2P (λx ˆ β − λx ˆ β + λ ˆ ε)2 = P (x ˆ β − x ˆ β)2P (x ˆ β − x ˆ β + ˆ ε)2 ou seja, o coeficiente de determinac¸a˜o e´ o mesmo. c) A variaˆncia de ˆ β pode ser escrita como: V ( ˆ β/x) = ˆ S 2 (x0M0x)−1 em que ˆ S 2 = ˆ ε 0ˆ ε/(n− 2) 5 Da mesma forma, V ( ˜ β/x) = ˜ S 2 (x∗0M0x∗)−1 Entretanto, ˜ S 2 = ˜ ε 0˜ ε/(n− 2) = (λˆε)0 ˆ λε/(n− 2) = λ2ˆε 0ˆ ε/(n− 2) = λ2 ˆ S 2 Enta˜o, V ( ˜ β/x) = λ2 ˆ S 2 [(λx)0M0(λx)]−1 = λ2 ˆ S 2 [λ2(x0M0x)]−1 = λ2 ˆ S 2 λ−2(x0M0x)−1 = ˆ S 2 (x0M0x)−1 = V ( ˆ β/x) Foi mostrado no item a) que o estimador de β na˜o se altera tambe´m. Assim, o valor da estat´ıstica t-Student, que e´ a raza˜o entre o estimador de β e o seu erro-padra˜o estimado, na˜o muda. d) Como vimos nos itens a) e b), o vetor estimado dos residuos muda, pois e´ multiplicado por λ. 4. a) As equac¸o˜es normais para este caso podem ser escritas em termos de desvios da me´dia, como: · x01x1 x 0 1x2 x02x1 x 0 2x2 ¸ ˜ β1 ˜ β2 = · x01y x02y ¸ ⇔ (x 0 1x1) ˜ β1 + (x 0 1x2) ˜ β2 = x 0 1y (x02x1) ˜ β1 + (x 0 2x2) ˜ β2 = x 0 2y ⇔ ˜ β1 = (x 0 1x1) −1x01y − (x01x1)−1(x01x2) ˜ β2 (1) ˜ β2 = (x 0 2x2) −1x02y − (x02x2)−1(x02x1) ˜ β1 (2) Se (x01x2) = 0 : ˜ β1 = (x 0 1x1) −1x01y ˜ β2 = (x 0 2x2) −1x02y b) Se (x01x2) 6= 0 e regredirmos y em x1 sem incluir x2 , enta˜o, ˜ β1 = (x 0 1x1) −1x01y = (x 0 1x1) −1x01(x1β1 + x2β2 + ε) = β1 + (x 0 1x1) −1x01x2β2 + (x 0 1x1) −1x01ε E( ˜ β1/x1, x2) = β1 + (x 0 1x1) −1x01x2β2 + (x 0 1x1) −1x01E(ε/x1, x2) = β1 + (x 0 1x1) −1x01x2β2 6 pois E(ε/x1, x2) = 0 por hipo´tese. Portanto, o vie´s de ˜ β1 e´ (x 0 1x1) −1x01x2β2. Analogamente, regredimos y em x2 sem incluir x1 : ˜ β2 = (x 0 2x2) −1x02y = (x 0 2x2) −1x02(x1β1 + x2β2 + ε) = β2 + (x 0 2x2) −1x02x1β1 + (x 0 2x2) −1x02ε E( ˜ β2/x1, x2) = β2 + (x 0 2x2) −1x02x1β1 + (x 0 2x2) −1x02E(ε/x1, x2) = β2 + (x 0 2x2) −1x02x1β1 Portanto, o vie´s de ˜ β2 e´ (x 0 2x2) −1x02x1β1 c) As Equac¸o˜es (1) e (2) derivadas no item a) implicam que: βˆ1 = (x 0 1x1) −1x01y − (x01x1)−1(x01x2)βˆ2 (3) βˆ2 = (x 0 2x2) −1x02y − (x02x2)−1(x02x1)βˆ1 (4) Substituindo (4) em (3), temos: βˆ1 = (x 0 1x1) −1x01y − (x01x1)−1(x01x2)[(x02x2)−1x02y − (x02x2)−1(x02x1)βˆ1] = (x01x1) −1x01y − (x01x1)−1(x01x2)(x02x2)−1x02y +(x01x1) −1(x01x2)(x 0 2x2) −1(x02x1)βˆ1 ⇒ [I − (x01x1)−1(x01x2)(x02x2)−1(x02x1)]βˆ1 = (x01x1)−1x01[I − x2(x02x2)−1x02]y ⇒ (x01x1)−1[(x01x1)− (x01x2)(x02x2)−1(x02x1)]βˆ1 = (x01x1)−1x01[I − x2(x02x2)−1x02]y ⇒ x01[I − x2(x02x2)−1x02]x1βˆ1 = x01[I − x2(x02x2)−1x02]y ⇒ βˆ1 = [x01M2x1]−1[x01M2y] em que M2 = [I − x2(x02x2)−1x02] = [I − P2] Analogamente para ˆ β2,substitu´ımos (3) em (4), assim, βˆ2 = (x 0 2x2) −1x02y − (x02x2)−1(x02x1)[(x01x1)−1x01y − (x01x1)−1(x01x2)βˆ2] = (x02x2) −1x02y − (x02x2)−1(x02x1)(x01x1)−1x01y + (x02x2)−1(x02x1)(x01x1)−1(x01x2)βˆ2 ⇒ (x02x2)−1[(x02x2)− (x02x1)(x01x1)−1(x01x2)]βˆ2 = (x02x2)−1x02[I − x1(x01x1)−1x01]y ⇒ x02[I − x1(x01x1)−1x01]x2βˆ2 = x02[I − x1(x01x1)−1x01]y ⇒ βˆ2 = [x02M1x2]−1[x02M1y] em que M1 = [I − x1(x01x1)−1x01] = [I − P1] 7 A matriz de variaˆncia-covariaˆncia e´ dada por: V ˜ β1 ˜ β2 /x1, x2 = σ2 · x01x1 x 0 1x2 x02x1 x 0 2x2 ¸−1 A variaˆncia de ˜ β1 e´ dada pelo elemento da primeira linha e primeira coluna da matriz acima (1,1). Usando a fo´rmula da inversa particionada: V ( ˜ β1/x) = σ 2[x01x1 − x01x2(x02x2)−1x02x1]−1 = σ2[x01(I − x2(x02x2)−1x02)x1]−1 = σ2[x01M2x1] −1 Analogamente, V ( ˜ β2/x) = σ 2[x02M1x2] −1 A matriz M2x1 = x1 − x2(x02x2)−1x02x1e´ composta pelos res´ıduos estimados das regresso˜es de x1 em x2 eM2y = y−x2(x02x2)−1x02y e´ composta pelos res´ıduos estimados da regressa˜o de y em x2. d) Neste caso particular, a variaˆncia do estimador sera´ um escalar, V ( ˜ β1/x) = σ 2[x01M2x1] −1 = σ2[x01x1 − x01x2(x02x2)−1x02x1]−1 = σ2[x01x1 − (x01x2) 2 x02x2 ]−1 = σ2[x01x1(I − (x01x2) 2 (x01x1)(x02x2) )]−1 = σ2[x01x1(1− r212)]−1 pois r12 = (x01x2)√ (x01x1)(x 0 2x2) . Quando r212 → 1, (1− r212)→ 0 e, portanto, V ( ˜ β1/x)→∞. 5. a) Os estimadores de OLS para b e β podem ser expressos, respectiva- mente, por: ˆ b = P (xt − x)(yt − y)P (xt − x)2 ˆ β = P (xt − x)(yt − y)P (yt − y)2 Enta˜o, ˆ b ˆ β = [ P (xt − x)(yt − y)]2P (xt − x)2(yt − y)2 = [COV (yt, xt)]2 V (xt)V (yt) ≤ 1 onde a u´ltima desigualdade segue da desigualdade de Cauchy-Schwartz. Enta˜o, ˆ β ≤ 1 ˆ b , se ˆ b > 0. 8 b) Os coeficientes de determinac¸a˜o R21 e R 2 2 sa˜o, respectivamente, iguais a R21 = P (x ˆ b− x ˆ b)2P (y − y)2 e R22 = P (y ˆ β − y ˆ β)2P (x− x)2 Enta˜o, R21 = ˆ b 2P (x− x)2P (y − y)2 = ·P (xt − x)(yt − y)P (xt − x)2 ¸2 P (x− x)2P (y − y)2 = [ P (xt − x)(yt − y)]2P (xt − x)2 P (y − y)2 = r 2 yx onde r2yx e´ o coeficiente de correlac¸a˜o entre y e x. Analogamente, R22 = ˆ β 2P (y − y)2P (x− x)2 = ·P (xt − x)(yt − y)P (yt − y)2 ¸2 P (y − y)2P (x− x)2 = [ P (xt − x)(yt − y)]2P (xt − x)2 P (y − y)2 = r 2 yx Por consequeˆncia, temos que R21 = R 2 2 6. a) Da Equac¸a˜o (2), temos: ut = yt − a− xtb(3) Subsituindo yt da equac¸a˜o (1) em (3), teremos: ut = α+ ln(xt)β + εt − a− xtb A esperanc¸a condicional de ut sera´: E(ut/xt) = (α− a) + ln(xt)β − xtE(b/xt) +E(εt/xt) 6= 0 Portanto, na˜o podemos dizer que o erro no modelo cuja forma funcional esta´ errada tem me´dia zero. 9 b) Estimador OLS: ˆ b = P (xt − x)(yt)P (xt − x)2 = P (xt − x)(α+ ln(xt)β + εt)P (xt − x)2 = β P (xt − x)(lnxt)P (xt − x)2 + P (xt − x)(εt)P (xt − x)2 Tomando-se a esperanc¸a condicional em x: E( ˆ b/xt) = β P (xt − x)(lnxt)P (xt − x)2 + P (xt − x)E(εt/xt)P (xt − x)2 = β P (xt − x)(lnxt)P (xt − x)2 pois E(εt/xt) = 0 por hipo´tese. Assim, ˆ b e´ viesado para b. O vie´s sendo igual a: V ies = β P (xt − x)(lnxt)P (xt − x)2 − b 7. a) Primeiramente e´ necessa´rio que se fac¸a a distinc¸a˜o entre impostos permamentes e tempora´rios. No primeiro caso, meu argumento seria de que o valor das casas sofreram reduc¸a˜o apo´s a implementac¸a˜o do imposto em um montante igual ao valor pre- sente dos impostos futuros. Os interessados nos imo´veis preveriam os impostos que iriam pagar e, portanto, reduziriam este valor na avaliac¸a˜o do imo´vel. No segundo caso, eu argumentaria que os valores reais dos imo´veis na˜o exibi- ram variac¸a˜o sistema´tica dos valores previstos. Entretanto, as pessoas que foram beneficiadas desta pol´ıtica na˜o tiveram incentivos a reclamar, enquanto que os cidada˜os que foram prejudicados tiveram. Este argumento tambe´m se aplica ao caso do imposto ser permanente, entretanto, neste caso, a sub-avaliac¸a˜o deve ser alta o bastante para motivar as pessoas a reclamarem. Espera-se que o especialista representante dos cidada˜os se atente ao efeito de varia´veis omitidas do modelo, que poderiam viesar as estimac¸o˜es. Supondo que algumas outras varia´veis como taxas de juros, entre outras, sejam relevantes na determinac¸a˜o dos valores dos imo´veis. Se as estimac¸o˜es foram feitas em um per´ıodo de expansa˜o extraordina´ria da economia e tais varia´veis foram omitidas do meu modelo, o especialista argumentaria que, no geral, as previso˜es foram superestimadas. 10 Econometria/listas/lista3.pdf Universidade de Sa˜o Paulo - Departamento de Economia EAE 5811 - Econometria I Prof. Dr. Ricardo Avelino 1o Semestre de 2007 Lista de Exerc´ıcios 3 - Data de Entrega 17/04/2007 1. ¡ R2, R¯2 ¢ Considere o modelo yt = x 0 1tβ1 + εt, t = 1, ..., T (1) onde E [ε|X1] = 0 e. E [εε0|X1] = σ2I. Assuma que X1 inclui uma constante ι. a) Mostre que R2 = ³ \Corr (y, yˆ) ´2 , onde \Corr (y, yˆ) denota a correlac¸a˜o amostral entre y e yˆ. b) Mostre que R2 na˜o pode diminuir quando uma outra varia´vel x2t e´ adi- cionada a` regressa˜o. c) Portanto, considere o R2 ajustado ¡ R¯2 ¢ . Seja t2 o quadrado da estat´ıstica t usada para testar H0 : β2 = 0 no modelo yt = x01tβ1 + x2tβ2 + εt, t = 1, ..., T (2) Mostre que o R¯2 aumenta de (1) para (2) se e somente se t2 ≥ 1. 2. (Teste de Hipo´tese: Func¸a˜o poder do teste) Seja X1, ...,Xn uma amostra de varia´veis aleato´rias i.i.d., cada uma com distribuic¸a˜o N (µ, 1). Suponha que desejemos testar H0 : 0.1 ≤ µ ≤ 0.2 contra H1 : µ < 0.1 ou.µ > 0.2. Considere um teste δ em que a hipo´tese H0 e´ rejeitada se X¯ ≤ c1 ou X¯ ≥ c2, e seja π (µ|δ) o poder do teste de δ. Suponha que o tamanho da amostra seja n = 25. Determine os valores das constantes c1 e c2 para que π (0.1|δ) = π (0.2|δ) = 0.07 (escreva as equac¸o˜es e, posteriormente, atrave´s de “tentativa e erro”, ache os valores aproximados de c1 e c2. 3. Seja X1, ...,Xn uma amostra de varia´veis aleato´rias i.i.d., cada uma com distribuic¸a˜o N ¡ µ, σ2 ¢ . Tanto µ quanto σ2 sa˜o desconhecidos. Considere as duas estat´ısticas X¯ = 1n Pn i=1Xi e X ∗ = Pn i=1 ¡ Xi − X¯ ¢2 . a) Mostre que X¯ ∼ N ³ µ, σ 2 n ´ e que X ∗ σ2 ∼ χ 2 n−1 b) Mostre que X¯ e X ∗ σ2 sa˜o independentes. Dica para a) e b): Pense sobre o modelo de regressa˜o linear Xi = µ+ εi 1 Suponha que n = 9 e que uma amostra x1, ..., x9 tenha sido observada, para a qual X¯ = 22 e X∗ = 72. c) Conduza um teste de H0 : µ ≤ 20 contra H1 : µ > 20 ao n´ıvel de significaˆncia de 5%. d) Conduza um teste de H0 : µ = 20 contra H1 : µ 6= 20 ao n´ıvel de significaˆncia de 5%, usando um teste sime´trico com probabilidade 0.025 em cada cauda. e) Construa um intervalo de confianc¸a de 95% para µ. Qual e´ o valor obser- vado do intervalo de confianc¸a? 4. (Teste de Hipo´tese: F-teste) Suponha que queiramos estimar o modelo y = X n×k β + W n×1 δ + ε e testar H0 : δ = 0. Assuma que [X :W ] tenha posto completo. a) Assuma que E [ε|X,W ] = 0 e que E [εε0|X,W ] = σ2I. σ2 e´ desconhecido e precisa ser estimado. Como voceˆ testaria H0 : δ = 0? b) Suponha que ao inve´s de ter E [ε|X,W ] = 0, tenhamos E [ε|X] = 0, e que ε seja correlacionado com W, de modo que ε = Wγ + u, com E [u|X,W ] = 0 e E [uu0|X,W ] = σ2I..σ2 e´ novamente desconhecido e precisa ser estimado. No´s ainda queremos testar H0 : δ = 0. i) A regressa˜o restrita produz um estimador na˜o viesado de β? ii) A regressa˜o irrestrita produz estimadores na˜o viesados de β e δ? iii) Voceˆ pode ainda utilizar o mesmo teste de a)? c) Suponha que ao inve´s de ter E [ε|X,W ] = 0 ou E [ε|X] = 0, no´s tenhamos E [ε|W ] = 0 e que ε seja correlacionado com X, de modo que ε = Xα+ v, com E [v|X,W ] = 0 e E [vv0|X,W ] = σ2I. σ2 e´ novamente desconhecido e precisa ser estimado. No´s ainda queremos testar H0 : δ = 0. Responda i), ii) e iii) para esse caso. 5. (Teorema de Gauss-Markov, teste de hipo´tese) Considere o modelo yt = β1 + x2tβ2 + x3tβ3 + εt onde todas as varia´veis sa˜o escalares, E [ε|X] = 0 e E [εε0|X] = σ2I. Seja X2 = [x21, ..., x2T ] 0 e defina similarmente X3. Seja ι um vetor de 1’s de dimensa˜o T × 1. Enta˜o X = [ι|X2|X3] . Assuma que X tenha posto completo. Considere duas subamostras com T1 e T2 observac¸o˜es (T1 + T2 = T ) . Na amostra I, X2 e X3 sa˜o bastante correlacionados. Portanto, apenas estimativas imprecisas de β2 e β3 podem ser obtidas. Sabe-se, por outro lado, que a amostra 2 II e´ proveniente de uma populac¸a˜o na qual β3 = 0 e β2 e´ o mesmo que na amostra I. Nenhuma suposic¸a˜o a respeito de β1 e´ feita. a) Suponha que a amostra II seja muito grande. Enta˜o, voceˆ pode utilizar a amostra II para obter uma boa estimativa de β2. Chame esta estimativa de βˆ2. Agora use a amostra I para regressar yt−x2tβˆ2 em x3t e em uma constante e obter βˆ1 e βˆ3. As estimativas sa˜o na˜o viesadas? O que o teorema de Gauss- Markov diz sobre esse procedimento? b) Voceˆ agora relaxa a hipo´tese de que β3 = 0 na amostra II. como voceˆ testaria a hipo´tese de que β3 = 0 na amostra II? Voceˆ usaria ambas as amostras ou apenas a amostra II? Por queˆ? Como voceˆ implementaria o teste se x4tβ4 tambe´m aparecesse na equac¸a˜o e voceˆ desejasse testar a hipo´tese conjunta de que β3 = 0 e que β4 = 0 na amostra II? 6. (Exerc´ıcio emp´ırico: Estimac¸a˜o, intervalos de confianc¸a, testes de hipo´tese, previsa˜o) Use os dados do Greene, tabela 7.1 da 4a¯ edic¸a˜o. Use Matlab para implementar as rotinas. Salve os programas para uso futuro. a) Estime os coeficientes e a variaˆncia do erro na func¸a˜o de produc¸a˜o Cobb- Douglas ln (Yi) = β1 + β2 ln (Li) + β3 ln (Ki) + εi, i=1,...,27 b) Construa um intervalo de confianc¸a de 95% para β2. Qual e´ a inter- pretac¸a˜o? c) Construa um intervalo de confianc¸a de 95% para β2 + β3. d) Construa duas regio˜es de confianc¸a de 95% para β2 e β3, uma retangular e uma que seja uma elipse usando a fo´rmula P ó Rβˆ −Rβ ´0 · s2R ³ X 0 X ´−1 R0 ¸−1 ³ Rβˆ −Rβ ´ /p ≤ F1−α,p,n−k ! (voceˆ na˜o precisa plotar a elipse). e) Teste H0 : β2 = 0.8 contra H1 : β2 6= 0.8 ao n´ıvel de significaˆncia de 5%. Calcule e plote a func¸a˜o poder do teste. Qual e´ a probabilidade de efetuar um erro do tipo I? Qual e´ a probabilidade de efetuar um erro do tipo II se o valor verdadeiro de β2 e´ 0.5? f) Teste as hipo´teses de retornos constantes de escala, H0 : β2 + β3 = 1 contra H1 : β2 + β3 6= 1 ao n´ıvel de significaˆncia de 5%. Qual e´ a relac¸a˜o entre esse teste e os resultados de c) e d)? g) Suponha que estejamos considerando a abertura de uma planta com Li = 600 e Ki = 1000. Qual e´ a melhor previsa˜o para o logaritmo do pro- duto, ln (Yi) , dessa planta? Construa um intervalo de previsa˜o de 95%. Qual e´ o valor observado desse intervalo? 7. Considere o modelo de regressa˜o linear y = Xβ + ε 3 para o qual todas as hipo´teses usuais sa˜o satisfeitas. Suponha que no´s desejemos prever o valor de y, y0, para valores dados dos regressores, x0. Denote o valor previsto por yˆ0. No´s sabemos que o erro de previsa˜o, εˆ0 = y0 − yˆ0, condicional em x0, tem variaˆncia dada por V [εˆ0|x0] = σ2 + x00V ³ βˆ|x0 ´ x0 = σ 2 + σ2x00 (X 0X)−1 x0 Mostre que, se X incluir uma constante, a variaˆncia condicional do erro de previsa˜o pode ser reescrita como V [εˆ0|x0] = σ2 + σ 2 n + σ2 (x0 − x¯)0 (X 0X)−1 (x0 − x¯) 4 Econometria/listas/lista3sol.pdf Universidade de Sa˜o Paulo - Departamento de Economia EAE 5811 - Econometria I Prof. Ricardo Avelino 1o Semestre de 2007 Lista de Exerc´ıcios 3 - Soluc¸o˜es Monitoras: Paula Pereda Jaqueline de Oliveira 1) a) Sabemos que o R2 e´ dado por: SSR SST = b0XM0Xb y0M0y onde M0 = £ I − i(i0i)−1i ¤ Contudo, temos: b0XM0Xb = yˆ0M0yˆ = yˆ0M0(y − e) = yˆ0M0y − yˆ0M0e = yˆ0M0y pois M0e = e e yˆ0e = b0X 0e = 0. Assim, multiplicando o R2 por 1 = yˆ0M0y/yˆ0M0yˆ, temos SSR SST = yˆ0M0y y0M0y = yˆ0M0y y0M0y . yˆ0M0y yˆ0M0yˆ = [ P i(yi − y¯)(yˆi − y¯)] 2 [ P i(yi − y¯)2] [ P i(yˆi − y¯)2] b) Considere as seguintes regresso˜es: yt = x01tβ1 + εt =⇒ y = Xβ1 + ε (1) yt = x01tβ ∗ 1 + x 0 2tβ ∗ 2 + ε ∗ t =⇒ y = Xβ∗1 + zβ∗2 + ε∗ (2) Seja e e u o res´ıduo das regresso˜es (1) e (2). Ale´m disto, seja b o estimador de β1 na regressa˜o (1) e d e c os estimadores de β ∗ 1 e β ∗ 2 ,respectivamente, na regressa˜o (2). Enta˜o: e = y −Xb (3) e u = y −Xd− zc (4) As equac¸o˜es normais da regressa˜o (2) implicam que:· X 0X X 0z z0X z0z ¸ · d c ¸ = · X 0y z0y ¸ Logo: (X 0X)−1d+ (X 0z)c = X 0y (5) (z0X)d+ (z0z)c = z0y (6) 1 De (5): d = (X 0X)−1X 0y − (X 0X)−1(X 0z)c (7) Substituindo d em (4), segue que: u = y −X(X 0X)−1X 0y +X(X 0X)−1X 0zc− zc = y −Xb− £ I −X(X 0X)−1X 0 ¤ zc = e−Mzc = e− z∗c (8) onde M = I −X 0(X 0X)−1X 0 e z∗ =Mz. Assim, u0u = (e− z∗c)0(e− z∗c) = e0e− 2e0z∗c+ cz∗0z∗c (9) Note que as equac¸o˜es (6) e (7) implicam que: (z0X)(X 0X)−1X 0y − (z0X)((X 0X)−1X 0zc+ z0zc = z0y =⇒ z0 £ I −X(X 0X)−1X 0 ¤ zc = z0 £ I −X(X 0X)−1X 0 ¤ y =⇒ c = (z∗0z∗)−1z∗0y (10) Mas e = My = y∗, o que, por sua vez, implica que z∗0e = z∗0y = c(z∗0z∗). Assim: u0u = e0e− 2c2(z∗0z∗) + c2(z∗0z∗) Como z∗0z∗ e´ o quadrado de um vetor, c2z∗0z∗ na˜o pode ser negativo. Con- sequentemente, a soma dos quadrados dos res´ıduos na˜o pode decrescer quando uma varia´vel e´ adicionada ao modelo. Os coeficientes de determinac¸a˜o das regresso˜es (1) e (2) podem ser expressados respectivamente por (11) e (12): R2 = 1− e 0e y0M0y (11) R2 = 1− u 0u y0M0y (12) onde M0 = £ I − i(i0i)−1i ¤ . Assim, u0u ≤ e0e =⇒ 1− e 0e y0M0y ≤ 1− u 0u y0M0y , o que completa a prova. c) O R¯2 ajustado das regresso˜es (1) e (2) sa˜o iguais a (13) e (14) respectiva- mente: R¯2 = 1− e 0e/(n− k) y0M0y/(n− 1) (13) 2 R¯2 = 1− u 0u/(n− k − 1) y0M0y/(n− 1) (14) Assim, o R¯2 cresce de (1) para (2) se e somente se: e0e/(n− k) > u0u/(n− k − 1) ⇐⇒ (n− k − 1)e0e > (n− k)u0u ⇐⇒ (n− k − 1) [e0e− u0u] > u0u ⇐⇒ (n− k − 1)c2(z∗0z∗) > u0u (15) A estat´ıstica t usada para testar H0 : βz = 0 no segundo modelo e´ dada por: tz = cr u0u n− k − 1(W 0W )−12,2 onde (W 0W )−12,2 e´ o segundo elemento da diagonal da matriz (W 0W )−1 e W =£ X z ¤ . Usando a fo´rmula da inversa de uma matriz particionada, temos : (W 0W )−12,2 = (z ∗0z∗)−1 Assim, t2z = c2 u0u n− k − 1 (z ∗0z∗)−1 =⇒ c2 = t2z u0u n− k − 1 (z ∗0z∗)−1 (16) Equac¸a˜o (16) implica que (15) e´ satisfeita se e somente se: (n− k − 1)t2z u0u n− k − 1 (z ∗0z∗)−1 (z∗0z∗) > u0u ⇐⇒ t2z > 1 Logo, R¯2 aumenta se o somente se t2z > 1. 2) X1, ...,Xn e´ uma sequeˆncia de varia´veis aleato´rias i.i.d., cada uma com distribuic¸a˜o N (µ, 1) . Disto segue que: √ n(X − µ)˜N (0, 1) A func¸a˜o poder do teste neste caso e´ dada por: π(µ/δ) = P £ X¯ ≤ c1 ¤ + P £ X¯ ≥ c2 ¤ = P £ X¯ ≤ c1 ¤ + 1− P £ X¯ ≤ c2 ¤ = P £√ n(X¯ − µ) ≤ √ n(c1 − µ) ¤ + 1− P £√ n(X¯ − µ) ≤ √ n(c2 − µ) ¤ = 1 +Φ £√ n(c1 − µ) ¤ − Φ £√ n(c2 − µ) ¤ onde Φ e´ a f.d.a. da distribuic¸a˜o Normal Padra˜o. 3 Para µ = 0, 1 e µ = 0, 2, n=25, e π (0, 1/δ) = π (0, 2/δ) = 0, 07, temos o seguinte sistema de equac¸o˜es: 1 +Φ [5(c1 − 0, 1)]− Φ [5(c2 − 0, 1)] = 0, 07 1 +Φ [5(c1 − 0, 2)]− Φ [5(c2 − 0, 2)] = 0, 07 Os valores de c1 e c2 podem ser obtidos por tentativa e erro. Uma tentativa inicial poss´ıvel e´ determinar valores tais que P [ √ n(X¯ − µ) ≤ 5(c 0 1 − 0, 1)] = P [ √ n(X¯ − µ) ≥ 5(c 0 2 − 0, 1)] = 0, 035 P [ √ n(X¯ − µ) ≤ 5(c 00 1 − 0, 2)] = P [ √ n(X¯ − µ) ≥ 5(c 00 2 − 0, 2)] = 0, 035 O valor cr´ıtico da distribuic¸a˜o normal padra˜o neste caso e´ de aproximada- mente 1, 81. Assim, resolvendo o sistema acima obtemos c 0 1 = −0, 262; c 0 2 = 0, 462; c 00 1 = −0, 162; c 00 2 = 0, 562. Podemos agora tomar as me´dias de c 0 1 e c 00 1 e de c 0 2 e c 00 2 , que sa˜o, respectivamente, aproximadamente iguais a −0, 212 e 0, 512. Consultando as probabilidades das regio˜es cr´ıticas associadas a` esses valores de c1 e c2, encontramos 0, 0791. Prosseguindo com o processo de tentativa e erro em torno dos valores previa- mente encontrados, teremos que uma boa aproximac¸a˜o seriam os valores −0, 225 e 0, 525 para c1 e c2 respectivamente. Substituindo os valores no sistema de equac¸o˜es verificamos que P [ √ n(X¯ − µ) ≤ −1, 625] + P [ √ n(X¯ − µ) ≥ 2, 125] = 0, 0526 + 0, 017 = 0, 0696 P [ √ n(X¯ − µ) ≤ −2, 125] + P [ √ n(X¯ − µ) ≥ 1, 625] = 0, 017 + 0, 0526 = 0, 0696 3) a) Para mostrar que X¯˜N ¡ µ, σ2/n ¢ , usaremos o seguinte teorema: (F.D.P. de Combinac¸o˜es Lineares de Varia´veis Aleato´rias Normais). Seja X um vetor aleato´rio de dimensa˜o n com func¸a˜o densidade N (µ,Σ) Seja A uma matriz (k × n) de constantes reais com posto k, e seja b algum vetor (k × 1) de constantes reais. Enta˜o, o vetor aleato´rio (k × 1), Y = Ax + b tem densidade N (Aµ+ b,AΣA0) Seja A(1×n) = (n−1, ..., n−1) e b = 0 no teorema anterior. Como X(n×1) ∼ N(µx, σ2I) onde X(n×1) = (X1, ...,Xn)0 e µx(n×1) = (µ, ..., µ)0, enta˜o X¯ = AX ∼ N(Aµx, Aσ2IA0) = N ¡ µ, σ2/n ¢ 4 Para demonstrar a distribuic¸a˜o de X∗/σ2, defina B(1×n) = £ n−1, ..., n−1 ¤ e H(n×n) = B B ... B = n−1 n−1 . . . n−1 n−1 . . . . . . ... ... . . . . . . ... n−1 n−1 . . . n−1 de forma que: (I −H)X = X1 − X¯ X1 − X¯ ... X1 − X¯ Segue disto que: X∗ σ2 = 1 σ2 [X 0(I −H)0(I −H)X] = 1 σ2 [(X − µx)0(I −H)0(I −H)(X − µx)] = 1 σ2 [(X − µx)0(I −H)(X − µx)] pois (I − H)µx = µx − µx = [0] e (I − H) e´ idempotente. A matriz (I − H) tambe´m e´ sime´trica e seu trac¸o e´ igual a` n− 1. Agora, usaremos o fato de que as ra´ızes caracter´ısticas de uma matriz idempotente sa˜o uma colec¸a˜o de 1’s e 0’s e que seu posto e´ igual a` seu trac¸o. Desta forma, (n− 1) ra´ızes caracter´ısticas de I −H sa˜o iguais a 1 e o restante e´ 0. Diagonalizando I −H por seus vetores ortogonais caracter´ısticos, temos: P 0(I −H)P = · I [0] [0] 0 ¸ = Λ onde I e´ uma matriz de dimensa˜o (n− 1). Assim, I −H = PΛP 0 e enta˜o: 1 σ2 [(X − µx)0PΛP 0(X − µx)] = Z0ΛZ onde Z = 1 σ P 0(X − µx)˜N([0] , I), ja´ que P 0P = I. Mas X∗ σ2 = n−1P i=1 Z2i , dada a definic¸a˜o de Λ , isto e´, a soma dos quadrados de (n− 1) varia´veis aleato´rias com distribuic¸a˜o Normal Padra˜o. 5 A func¸a˜o geradora de momento de Z2i e´ dada por: MZ2i (t) = E h eZ 2 i t i = Z +∞ −∞ exp(Z2i t) 1√ 2π exp ½ −1 2 Z2i ¾ dZi = Z +∞ −∞ 1√ 2π exp ½ −1 2 Z2i (1− 2t) ¾ dZi = (1− 2t)− 12 Z +∞ −∞ 1√ 2π(1− 2t)− 12 exp ( −1 2 µ Zi (1− 2t)− 12 ¶2) dZi = (1− 2t)− 12 Z +∞ −∞ N(0, (1− 2t)−1 = (1− 2t)− 12 , para t < 1/2 Assim, Z2i ˜χ 2 1 A func¸a˜o geradora de momento de X∗ σ2 = n−1P i=1 Z2i e´ dada por: MX∗ σ2 (t) = E h e Pn i=1 Z 2 i t i = n−1Y i=1 E h eZ 2 i t i = n−1Y i=1 (1− 2t)− 12 = (1− 2t)−(n−1) 12 que e´ igual a` func¸a˜o geradora de momento de uma distribuic¸a˜o qui-quadrado com n− 1 graus de liberdade. Isto completa a prova. b) Faremos uso do seguinte teorema: Teorema: Seja B uma matriz (q × n) de nu´meros reais, A uma matriz sime´trica (n×n) de nu´meros reais, com posto p, e X um vetor aleato´rio (n×1) tal que X˜N(µx, σ 2I). Enta˜o BX e X 0AX sa˜o independentes se BA = [0]. No contexto do teorema anterior, defina B e H como no ı´tem (a). Enta˜o X¯ = BX e X∗ σ2 = 1 σ2 [X 0(I −H)X] = X 0AX, onde A = 1 σ2 (I − H). Ale´m disto, A e´ sime´trica e BA = σ−2B(I −H) = σ−2(B −B) = 0. Assim, X¯ e X∗ σ2 sa˜o independentes. c) O valor da estat´ıstica t e´ igual a: t = X¯ − µ S/ √ n ˜tn−1 mas S2 = X∗ n− 1 = 72 8 = 9. Assim, t = 27− 20 3/ √ 9 = 2 6 Para um teste unicaudal, a regia˜o cr´ıtica C e´ C = {x ∈ R;x > 1, 86}. Assim, o valor da estat´ıstica se encontra na regia˜o cr´ıtica, o que nos leva a rejeitar a hipo´tese nula. d) Neste caso, a regia˜o cr´ıtica C e´ igual a C 0 = {x ∈ R;x < −2, 306 ou x > 2}. O valor da estat´ıstica e´ o mesmo do ı´tem (c). Entretanto, na˜o se encontra na regia˜o cr´ıtica C0. Assim, na˜o rejeitamos a hipo´tese nula de que µ = 20. e) P µ −2, 306 < X¯ − µ S/ √ n < 2, 306 ¶ = 0, 95 Isto implica que P µ X¯ − 2, 306 S√ n < µ < X¯ + 2, 306 S√ n ¶ = 0, 95 O intervalo de confianc¸a de 95% para µ e´ dado por: IC(95%) = · X¯ − 2, 306 S√ n ; X¯ + 2, 306 S√ n ¸ = h 22− 2, 306(3/ √ 9; 22 + 2, 306(3/ √ 9 i = [19, 694; 24, 306] 4) O modelo restrito e´ dado por: Y = Xβ + ε O modelo irrestrito e´: Y = Xβ +Wδ + ε Seja e˜0e˜ a soma dos quadrados do modelo restrito e eˆ0eˆ a soma dos quadrados do modelo irrestrito. Para testarH0 : δ = 0, usamos a seguinte estat´ıstica F : F = (e˜0e˜− eˆ0eˆ)/l eˆ0eˆ/(n− k) b) (i) O modelo restrito e´ dado agora por: Y = Xβ + ε = Xβ +Wγ + u Neste caso, se tentamos estimar Y = Xβ + ε, isto e´, Y como uma func¸a˜o apenas deX, teremos um problema de varia´veis omitidas, dado que o verdadeiro modelo e´ dado por (1). Assim, βˆ sera´ um estimador viesado de β, a menos que X 0W = 0. (ii) Y = Xβ +Wδ + ε 7 As equac¸o˜es normais podem ser escritas como:· X 0X X 0W W 0X W 0W ¸ · βˆ δˆ ¸ = · X 0Y W 0Y ¸ =⇒· βˆ δˆ ¸ = · X 0X X 0W W 0X W 0W ¸−1 · X 0Y W 0Y ¸ Pela regra da inversa de uma matriz particionada, β e δ sa˜o dados por: βˆ = (X 0MwX)−1(X 0MwY ) δˆ = (W 0MxW )−1(W 0MxY ) onde Mx = £ I −X(X 0X)−1X 0 ¤ e Mw = [I −W (W 0W )W 0] Mas o verdadeiro modelo e´ Y = Xβ +W [δ + γ] + u Substituindo este resultado nas equac¸o˜es dos estimadores temos: βˆ = (X 0MwX)−1(X 0MwXβ) + (X 0MwX)−1(X 0MwW [δ + γ]) +(X 0MwX)−1(X 0Mwu) = β + (X 0MwX)−1(X 0Mwu) ja´ que MwW = 0.Isto implica que: E(βˆ/W,X) = β Logo βˆ ainda e´ um estimador na˜o viesado de β. Mas δˆ = (W 0MxW )−1(W 0MxXβ) + (W 0MxW )−1(W 0MxW ) [δ + γ] +(W 0MxW )−1(W 0Mxu) Como MxX = 0, o primeiro termo da soma e´ igual a` zero. Assim: E(δˆ/W,X) = δ + γ de maneira que δˆ e´ um estimador viesado para δ. (iii) O teste na˜o e´ va´lido neste cado porque o numerado e o denominador da estat´ıstica de teste na˜o sa˜o mais independentes, ja´ que ambos sera˜o correla- cionados com W . Assim, esta estat´ıstica na˜o tera´ uma distribuic¸a˜o F . c) (i) Modelo restrito: Y = Xβ + ε = X(β + α) + u 8 Temos que: βˆ = (X 0X)−1(X 0Y ) = (X 0X)−1X 0X(β + α) + (X 0X)−1X 0u Logo: E(βˆ/X,W ) = β + α de onde conclu´ımos que βˆ e´ um estimador viesado de β. (ii) Modelo irrestrito: Y = Xβ +Wδ + ε = X(β + α) +Wδ + u Assim, βˆ = (X 0MwX)−1(X 0MwY ) = (X 0MwX)−1(X 0MwX)(β + α) + (X 0MwX)−1(X 0MwWδ) +(X 0MwX)−1(X 0Mwu) = (X 0MwX)−1(X 0MwX)(β + α) + (X 0MwX)−1(X 0Mwu) Consequentemente: E(βˆ/X,W ) = β + α de maneira que βˆ ainda e´ viesado. Por sua vez, δˆ = (W 0MxW )−1(W 0MxY ) = (W 0MxW )−1(W 0MxXβ) + (W 0MxW )−1(W 0MxWδ) +(W 0MxW )−1(W 0Mxu) = (W 0MxW )−1(W 0MxWδ) + (W 0MxW )−1(W 0Mxu) Assim, E(δˆ/X,W ) = δ de maneira que δˆ e´ um estimador na˜o viesado de δ. (iii) Agora o teste e´ va´lido, ja´ que ambos os res´ıduos (dos modelos restrito e irrestrito) sera˜o independentes de W . Assim, a estat´ıstica F dera´ distribuic¸a˜o usual F . 5) Por hipo´tese yt = β ∗ 1 + x2tβ ∗ 2 + x3tβ ∗ 3 + ε ∗ t , t = T1 + 1, ..., T1 + T2, onde β∗3 = 0 e β ∗ 2 = β ∗ 1. A esperanc¸a de βˆ2 e´ igual ao verdadeiro valor de β ∗ 2 na amostra II. Assim, βˆ2 e´ um estimador na˜o viesado de β2. No segundo esta´gio, estimamos o seguinte modelo, baseado na amostra I. yt − x2tβˆ2 = β∗∗1 + x3tβ∗∗3 + εt 9 O estimador OLS de β∗∗1 e β ∗∗ 3 sa˜o, respectivamente: βˆ1 = y¯t − x¯2tβˆ2 − x¯3tβˆ3 e β3 = (x 0 3M 0x3)−1x 00 3M 0(y − x2βˆ2) onde M0 foi definida na questa˜o (1). Assim, E(βˆ3|X) = E h (x03M 0x3)−1x 00 3M 0(β1 + x2β2 + x3β3 + ε− x2βˆ2|X i = E h (x03M 0x3) −1x 00 3M 0β1|X i +E h (x03M 0x3)−1x 00 3M 0x2(β2 − βˆ2)|X i +E h (x03M 0x3)−1x 00 3M 0x3β3|X i +E h (x03M 0x3)−1x 00 3M 0ε|X i = β3 ja´ que M0β1 = 0, E h β2 − βˆ2 i = 0 e E [ε/X] = 0 Ale´m disto, E(βˆ1|X) = E h β1 + x¯2tβ2 − x¯3tβ3 + ε¯− x¯2tβˆ2 − x¯3tβˆ3|X i = E [β1|X] +E h x¯2t(β2 − βˆ2)|X i +E h x¯3t(β3 − βˆ3)|X i +E [ε¯|X] = β1 ja´ que E h β2 − βˆ2/X i = β2−β2 = 0, E h β3 − βˆ3/X i = β3−β3 = 0 e E [ε¯/X] = 0. (Lembre-se de que X inclui um vetor de 1’s) Assim, βˆ1 e βˆ3 tambe´m sa˜o na˜o viesados. Contudo, o teorema de Gauss- Markov estabelece que os erros padra˜o dos estimadores baseados neste proced- imento sa˜o maiores do que os erros padra˜o associados aos estimadores de OLS de uma regressa˜o de um esta´gio baseada na amostra inteira. b) Para testar a hipo´tese nula de que β3 = 0 na amostra II contra a hipo´tese alternativa de que β3 6= 0, regredimos yt sobre X apenas na amostra II e constru´ımos a seguinte estat´ıstica: t = βˆ3 − β3 s p T2−3 Esta estat´ıstica tem distribuic¸a˜o t-Student com T3−3 graus de liberdade. Se o valor observado pertencer a` regia˜o cr´ıtica, determinado antes, enta˜o a hipo´tese nula e´ rejeitada. 10 A amostra inteira na˜o deve ser usada para este teste porque mesmo sob a hipo´tese nula, o estimador resultante provavelmente tem valor esperado diferente de 0. Se x4tβ4 tambe´m aparece na equac¸a˜o e se queremos testar a hipo´tese nula conjunta de que β3 = β4 = 0, uma alternativa e´ rodar duas regresso˜es: uma restrita e uma irrestrita. Seja RSS e USS as somas dos quadrados restrita e irrestrita, respectivamente. Enta˜o, a estat´ıstica: t = (RSS − USS)/2 USS/(T2 − 4) tem uma distribuic¸a˜o F com 2 e T1 + T2 − 4 graus de liberdade. Novamente se o valor observado da estat´ıstica pertencer a regia˜o cr´ıtica, rejeitamos a hipo´tese de que β3 = β4 = 0. 6) a) Os estimadores de OLS sa˜o obtidos a partir da fo´rmula: b = (X 0X)−1(X 0Y ) Assim, como base nos dados da amostra, temos: b1 b2 b3 = 1, 1706 0, 6030 0, 3757 O estimador da variaˆncia do erro, por sua vez, e´ dado por: s2 = (uˆ0uˆ)/n− k = (uˆ0uˆ)/24 = 0, 0355 b) E´ sabido que: t = b2 − β2q s2(X 0X)−12,2 ˜t(24) Logo, um intervalo de confianc¸a de 95% para β2 e´ tal que: P £ tα ≤ tb2 ≤ t1−α/2 ¤ = 0, 95 O valor cr´ıtico da distribuic¸a˜o t-Student, t0,05, para 24 graus de liberdade, e´ de 2, 064.Ale´m disto, temos que a matriz de variaˆncia e covariaˆncia e´ dada por: var − cov = s2 (X 0X)−1 = 0, 1068 −0, 0198 0, 0012 −0, 0198 0, 0159 −0, 0096 0, 0012 −0, 0096 0, 0073 Podemos obter o desvio padra˜o de b2 da seguinte forma:q s2(X 0X)−12,2 = 0, 1260 11 Assim, o intervalo de confianc¸a de 95% para β2 e´: IC95% : b2 − tα/2 q s2(X 0X)−12,2 ≤ β2 ≤ b2 + tα/2 q s2(X 0X)−12,2 : 0, 3429360 ≤ β2 ≤ 0, 8630640 Interpretac¸a˜o: antes da realizac¸a˜o da amostra, o intervalo acima incluira´ o paraˆmetro β2 com probabilidade de 95%. c) Neste caso, queremos um intervalo de confianc¸a para uma combinac¸a˜o linear dos paraˆmetros dada por Rβ = β2 + β3..Logo, a matriz R e´ dada por: R = £ 0 1 1 ¤ O intervalo de confianc¸a de 95% para Rβ e´ IC95%:h b2 + b3 − tα/2 p R(X 0X)−1R ≤ β2 + β3 ≤ b2 + b3 + t1−α/2 p R(X 0X)−1R i = [0, 8493732 ≤ β2 + β3 ≤ 1, 1078268] d) Retangular: A regia˜o de confianc¸a retangular e´ constru´ıda utilizando-se a desigualdade de Bonferroni, em que o problema consiste em achar intervalos £ θj(X); θ¯j(X) ¤ tais que Pθ £ θj /∈ £ θj(X); θ¯j(X) ¤¤ ≤ α K Como α = 0, 05, temos enta˜o que construir intervalos de confianc¸a separados para β2 e β3 de 100(1−0, 025) porcento. Para tanto, devemos encontrar o valor de tα/2 = t0,0125 na tabela da distribuic¸a˜o t. Esse valor e´ de, aproximadamente, 2, 492, de forma que temos: β2:[0, 6030± 2, 492× 0, 1260] = [0, 289008; 0, 916992] β3:[0, 3756± 2, 492× 0, 08544] = [0, 162684; 0, 588516] 12 0,5885 0,1626 0,2890 0,9169 β3 β2 Regia˜o de Confianc¸a Retangular A regia˜o de confianc¸a el´ıptica e´ constru´ıda utilizando a fo´rmula: P µ³ Rβˆ −Rβ ´0 h s2R (X 0X)−1R 0i−1 ³ Rβˆ −Rβ ´ /p ≤ F0.05,2,24 ¶ = 0, 95 Chegamos a seguinte relac¸a˜o: £ 0, 6030− β2 0, 3757− β3 ¤ ·315, 5419 416, 5765 416, 5765 687, 2502 ¸ · 0, 6030− β2 0, 3757− β3 ¸ ≤ 3, 39 Os valores de β2 e β3 que satisfazem a essa desigualdade formam a regia˜o de confianc¸a el´ıptica. Testando va´rios valores de paraˆmetros, observa-se que aqueles que satisfazem a desigualdade concentram-se em torno do verdadeiro valor dos paraˆmetros, no formato de uma elispe. 13 0 0.1 0.2 0.3 0.4 0.5 0.6 0.4 0.45 0.5 0.55 0.6 0.65 0.7 0.75 0.8 ß3 ß2 Regia˜o de Confianc¸a El´ıptica e) Testar: H0 : β2 = 0, 8 H1 : β2 6= 0, 8 Estat´ıstica do teste: tb2 = b2 − β2 s(b2) ˜t(24) = 0, 6030− 0, 8 0, 1260 = −1, 5634921 O valor cr´ıtico para α = 5% e 24 graus de liberdade e´ 2, 064. E´ regra de decisa˜o e´: se |tb2 | > tα/2, rejeitamos a hipo´tese nula; caso contra´rio, na˜o rejeitamos a hipo´tese nula. Assim, na˜o rejeitamos a hipo´tese nula a 5% de significaˆncia. 14 A func¸a˜o poder do teste e´ dada por: π(β2/δ) = P ·¯¯¯¯ b2 − β20 s(b2) ¯¯¯¯ > 2, 064|β2 ¸ = P · b2 − β20 s(b2) > 2, 064 ¸ + P · b2 − β20 s(b2) ≤ −2, 064 ¸ = 1− P · b2 − β2 s(b2) + β2 − β20 s(b2) < 2, 064 ¸ +P · b2 − β2 s(b2) + β2 − β20 s(b2) ≤ −2, 064 ¸ = 1− P · b2 − β2 s(b2) < 2, 064− β2 − β20 s(b2) ¸ +P · b2 − β2 s(b2) ≤ −2, 064− β2 − β20 s(b2) ¸ = 1− P · b2 − β2 s(b2) < 2, 064− β2 − 0, 8 0, 1260 ¸ +P · b2 − β2 s(b2) ≤ −2, 064− β2 − 0, 8 0, 1260 ¸ ßj = 0,8 1,0 0,5 0,0 a = 0,05 Func¸a˜o Poder do Teste 15 A probabilidade de cometer erro tipo I e´ dado pelo n´ıvel de significaˆncia do teste. No nosso caso, e´ igual a` 5%. A probabilidade de cometer erro tipo II se o valor verdadeiro de β2 e´ 0, 5 e´ dada por: P [erro tipo II /β2 = 0, 5] = 1− P ·¯¯¯¯ b2 − β20 s(b2) ¯¯¯¯ > 2, 064|β2 = 0, 5 ¸ = 1− P ·¯¯¯¯ b2 − β20 s(b2) ¯¯¯¯ > 2, 064 ¸ = 1− P · b2 − β20 s(b2) > 2, 064 ¸ +P · b2 − β20 s(b2) ≤ −2, 064 ¸ = 1− ½ 1− P · b2 − β20 s(b2) < 2, 064 ¸¾ +P · b2 − β20 s(b2) ≤ −2, 064 ¸ = P · b2 − β20 s(b2) < 2, 064 ¸ − P · b2 − β20 s(b2) ≤ −2, 064 ¸ = P · b2 − 0, 5 s(b2) + 0, 5− β20 s(b2) < 2, 064 ¸ −P · b2 − 0, 5 s(b2) + 0, 5− β20 s(b2) ≤ −2, 064 ¸ = P · b2 − 0, 5 s(b2) < 2, 064− 0, 5− 0, 8 0, 1260 ¸ −P · b2 − 0, 5 s(b2) ≤ −2, 064− 0, 5− 0, 8 0, 1260 ¸ = P · b2 − 0, 5 s(b2) < 4, 44 ¸ − P · b2 − 0, 5 s(b2) ≤ 0, 3169 ¸ f) Vamos testar: H0 : β2 + β3 = 1 H1 : β2 + β3 6= 1 Alternativamente, temos que R = £ 0 1 1 ¤ e q = 1, de forma que a H0 e´ expressa como: H0 : Rβ = q H1 : Rβ 6= q Sob H0, temos que: (Rβˆ − q0)0 £ s2R(X 0X)−1R0 ¤−1 (Rβˆ − q0)/p˜Fp,n−k 16 Logo, a estat´ıstica do teste e´ dada por: F (1, 24) = 0, 1157398 O valor cr´ıtico da distribuic¸a˜o Fp,n−k e´ 4, 25,Assim, na˜o rejeitamos a hipo´tese nula de que ha´ retornos constantes de escala. Dos resultados obtidos nos itens (c) e (d), podemos ver que o valor do paraˆmetro sob H0, β2 + β3 = 1 se encontram nos intervalos de confianc¸a con- stru´ıdos, o que tambe´m nos leva a na˜o rejeitar a hipo´tese nula de retornos constantes de escala. g) A melhor previsa˜o para o logaritmo do produto, ln(Y1), e´: ln(Yi) = 1, 1706 + 0, 6030 ln(600) + 0, 3757 ln(1000) = 7, 6235 Portanto, Yi = 2045, 898 O intervalo de previsa˜o de 95% e´ dado por IP95%, cujos limites inferiores e superiores sa˜o dados, respectivamente, por x00βˆ − t1−α/2,n−K s s2 µ 1 + 1 n + (x0 − x¯)(X 0X)−1(x0 − x¯) ¶ e x00βˆ + t1−α/2,n−K s s2 µ 1 + 1 n + x00(X 0X)−1x0 ¶ isto e´, IP95% = 7, 6235± 2, 064× 0, 2277 = [7, 1535; 8, 0935] 7) Com a inclusa˜o de uma constante, temos que o modelo e´ escrito como y = α+ x0β + ε Por sua vez, yˆ0 = αˆ+ x00βˆ = y¯ − x¯βˆ + x00βˆ = α+ x¯0β + ε¯− x¯βˆ + x00βˆ Assim, escrevemos o erro de previsa˜o como: εˆ0 = y0 − yˆ0 = α+ x00β + ε0 − α− x¯0β − ε¯+ x¯βˆ − x00βˆ = (x0 − x¯)0β − (x0 − x¯)0βˆ + ε0 − ε¯ Logo, V ar(εˆ0|x0) = V ar(ε0) + V ar(ε¯) + (x0 − x¯)0V ar(βˆ|x0)(x0 − x¯) = σ2 + σ2 n + σ2(x0 − x¯)0 (X 0X)−1 (x0 − x¯) 17 Econometria/listas/lista4.pdf Universidade de Sa˜o Paulo - Departamento de Economia EAE 5811 - Econometria I Prof. Dr. Ricardo Avelino 1o Semestre de 2007 Lista de Exerc´ıcios 4 - Data de Entrega 03/05/2007 1. (Ordens de Magnitude) Em aula, foi visto que se Xnj = op (1) para j = 1, ..., J e J e´ finito, enta˜o PJ j=1Xnj = op (1) . Suponha que Jn → ∞ quando n → ∞. E´ verdade que PJn j=1Xnj = op (1) quando n → ∞? Em caso afirmativo, prove. Caso contra´rio, fornec¸a um contra exemplo. 2. (Convergeˆncia de varia´veis aleato´rias) Seja {Xn}∞n=1 uma sequ¨eˆncia de varia´veis aleato´rias. Xn converge quase certamente para X, denotado por Xn a.s.→ X, se e somente se P ³ ω : lim n→∞ Xn (ω) = X (ω) ´ = 1 Mostre que a relac¸a˜o acima e´ satisfeita se e somente se, para todo ε > 0, lim n→∞ P µ sup n≥N |Xn −X| < ε ¶ = 1 3. (Procedimento de Cra´mer-Wold): Seja {Xn}∞n=1 uma sequ¨eˆncia de vetores aleato´rios (kx1) e suponha que, para todo vetor real λ tal que λ0λ = 1, λ0Xn d→ λ0X, onde X e´ um vetor aleato´rio (kx1) com func¸a˜o de distribuic¸a˜o F (x) = F (x1, ..., xk). Mostre que a distribuic¸a˜o limite de Xn existe e e´ igual a F (x) . 4) (Distribuic¸a˜o binomial, distribuic¸a˜o assinto´tica do estimador, consisteˆncia do estimador) Suponha que no´s estejamos interessados em estimar a proporc¸a˜o da pop- ulac¸a˜o cuja renda esteja abaixo da linha de pobreza, um n´ıvel pre´-determinado de renda. Seja Y=renda e c=linha de pobreza. Portanto, o paraˆmetro de inter- esse e´ θ = P (Y ≤ c) = F (c) , onde F (c) e´ a func¸a˜o de distribuic¸a˜o acumulada da renda, e, por hipo´tese, e´ desconhecida. No´s temos uma amostra aleato´ria de n observac¸o˜es da renda e decidimos estimar θ por T=proporc¸a˜o das observac¸o˜es da amostra que satisfazem Y ≤ c. a) Ache E (T ) e V (T ). T e´ na˜o viesado? b) Mostre que √ n (T − θ) d→ N (θ, θ (1− θ)) c) T e´ consistente? 1 5) (Comparac¸a˜o de estimadores baseada nas propriedades assinto´ticas) Considere novamente o arcabouc¸o da questa˜o 4. Suponha agora que se saiba que Y e´ normamelmente distribu´ıda, com variaˆncia conhecida, mas me´dia desconhecida. Portanto, θ = Φ ¡ c−µ σ ¢ , onde Φ (.) e´ a func¸a˜o de distribuic¸a˜o da normal padra˜o. No´s ainda queremos estimar θ e consideramos o estimador alternativo U = Φ ³ c−Y¯ σ ´ , onde Y¯ = Pn i=1 Yi. a) Mostre que U e´ consistente. U e´ na˜o viesado? b) Ache a distribuic¸a˜o assinto´tica de U . c) Com base nas distribuic¸o˜es assinto´ticas, qual estimador de θ voceˆ usaria, T ou U? Dica: Dois fatos u´teis sobre a f.d.p. e a f.d., φ (z) e Φ (z) , sa˜o ∂Φ ∂z = φ (z) (φ (z))2 Φ (z) (1− Φ (z)) < 0.64 para todos os valores de z 6) (Teorema central do limite bivariado de Lindberg-Le´vy, estimac¸a˜o da raza˜o de me´dias, experimento de Monte Carlo) Suponha que no´s tenhamos uma amostra aleato´ria (i.i.d.) de n observac¸o˜es de uma distribuic¸a˜o bivariada com me´dia µ = · µX µY ¸ , µY 6= 0 e matriz de variaˆncia-covariaˆncia finita e positiva definida Q = · σ2X σXY σXY σ2Y ¸ . No´s desejamos estimar a raza˜o das me´dias µXµY , e consideramos o estimador T = X¯Y¯ , onde X¯ = Pn i=1Xi e Y¯ = Pn i=1 Yi. a) Esse estimador e´ na˜o viesado? Consistente? b) Utilizando a versa˜o multivariada do teorema central do limite de Lindberg- Le´vy, ache a distribuic¸a˜o assinto´tica de T . Plote a func¸a˜o de densidade para¡ µX , µY , σ 2 X , σ 2 Y , σXY ¢ = (3, 2, 1, 1, 0.5) . c) (Background) Suponha que a distribuic¸a˜o verdadeira de (X,Y ) seja uma normal bivariada com paraˆmetros ¡ µX , µY , σ 2 X , σ 2 Y , ρ ¢ = (3, 2, 1, 1, 0.5) e que a nossa amostra tenha n = n∗ observac¸o˜es. A distribuic¸a˜o assinto´tica de b) e´ uma boa aproximac¸a˜o para a distribuic¸a˜o exata de T para n = n∗? Calcular a distribuic¸a˜o exata de T e´ muito dif´ıcil. Enta˜o no´s decidimos conduzir um experimento de Monte Carlo. A ide´ia e´ a seguine: 2 Passo 1: Obtenha uma amostra de tamanho n∗ da distribuic¸a˜o bivariada (X,Y ) . Passo 2: Calcule o valor de T para essa amostra. Repita os passos 1 e 2 va´rias vezes, digamos 1000 vezes. Isso nos fornece 1000 valores de T . A distribuic¸a˜o desses 1000 valores e´ a nossa aproximac¸a˜o nume´rica para a distribuic¸a˜o exata de T em amostras finitas para n = n∗. Para implementar: Conduza um estudo de Monte Carlo para n∗ = 25, para n∗ = 100 e para n∗ = 200. Para cada um, plote a distribuic¸a˜o de T em amostras finitas (histograma). O que acontece quando voceˆ vai de n∗ = 25 para n∗ = 100 e para n∗ = 200? Dica: Como no´s obtemos uma observac¸a˜o de uma normal bivariada? Essa e´ uma maneira simples: Escreva X e Y como X = a+ bZ1, Y = c+ dX + eZ2, onde Z1 ∼ N (0, 1) , Z2 ∼ N (0, 1) e Z1 e Z2 sa˜o independentes. Calcule o que a, b, c, d e e precisam ser a fim de assegurar que E (X) = µX , E (Y ) = µY , V (X) = σ 2 X , V (Y ) = σ 2 Y e corr (X,Y ) = ρ. Tendo achado os valores de a, b, c, d e e, voceˆ pode obter Z1 e Z2 da dis- tribuic¸a˜o normal padra˜o e computar X = a+ bZ1, Y = c+ dX + eZ2. 3 Econometria/listas/lista4sol.pdf Universidade de Sa˜o Paulo - Departamento de Economia EAE 5811 - Econometria I Prof. Dr. Ricardo Avelino 1o Semestre de 2007 Lista de Exerc´ıcios 4 - Soluc¸o˜es Monitoras: Paula Pereda Jaqueline de Oliveira 1. Na˜o e´ verdade que JnX j=1 Xnj = op(1) quando n → ∞. Para provarmos tal resultado, precisaremos das seguintes fo´rmulas de progressa˜o aritme´tica limi- tada: JX j j=1 = J(J + 1) 2 ou JX j2 j=1 = J(J + 1)(2J + 1) 6 ou JX j3 j=1 = · J(J + 1) 2 ¸2 Note que ∞X j=1 y = lim n→∞ nX j=1 y Para escolher o Xjn do contra-exemplo, considere g uma varia´vel aleato´ria limitada superiormente (por exemplo, seguindo uma distribuic¸a˜o Unif(a, b)) di- vidida por n (o que e´ condic¸a˜o suficiente, mas na˜o necessa´ria, para obtermos a propriedade desejada de op(1)) ou mesmo uma constante finita dividida por n, para simplificar mais ainda o problema. Multiplique este resultado por a, onde a pode ser j, j2 ou j3, para aplicarmos as fo´rmulas acima mencionadas. A primeira parte da prova consiste em relembrar que op(1) + op(1) = op(1) e aplicar recursivamente por J finitas vezes. Para a segunda parte, a estrate´gia e´ usar Jn = n e as fo´rmulas da PA acima. Se voceˆ escolher uma varia´vel aleato´ria com suporte superior, pegue o ı´nfimo (g∗, que seria a constante, caso esta fosse escolhida no in´ıcio) para limitar a somato´ria e escreva: JnX i=j aXn = JnX i=j a g n ≥ JnX j=1 a g∗ n = g∗ n JnX j=1 a = g∗ n A Como A depende do a escolhido, utilizaremos os seguintes casos: a = j ou j2 ou j3. Assim, temos: JnX i=j Xn Jn ≥ 1 Jn g∗ n Jn(Jn + 1) 2 = g∗ 2 (Jn + 1) n 1 JnX i=j Xn Jn ≥ 1 Jn g∗ n Jn(Jn + 1)(2Jn + 1) 6 = g∗ 6 (Jn + 1)(2Jn + 1) n JnX i=j Xn Jn ≥ 1 Jn g∗ n · Jn(Jn + 1) 2 ¸2 = Jng∗ n · (Jn + 1) 2 ¸2 Quando Jn = n, temos: JnX i=j Xn Jn ≥ g ∗ 2 (n+ 1) n = g∗ 2 µ 1 + 1 n ¶ JnX i=j Xn Jn ≥ g ∗ 6 (n+ 1)(2n+ 1) n JnX i=j Xn Jn ≥ g∗ · (n+ 1) 2 ¸2 Tomando o limite das expresso˜es acima, para nenhuma delas o termo da esquerda converge diretamente para zero, portanto temos treˆs exemplos que na˜o sa˜o op(1) 2. A ide´ia desta prova e´ mostrar que: se Xn a.s.→ X, enta˜o Xn p→ X; e se Xn p→ X ra´pido o suficiente, enta˜o Xn a.s.→ X. ⇒ Suponha que Xn a.s.→ X. Enta˜o ∀ε > 0 : lim n→∞ P (w : |Xn −X| < ε, n ≥ N) = 1 (ver Teorema 5.14 - Cap.5 - Mittelhammer) Como |Xn −X| < ε, n ≥ N ⇒ sup |Xn −X| < ε, n = N,N + 1, ..., segue que: P (w : |Xn −X| < ε, n ≥ N) ≤ P (w : sup |Xn −X| < ε, n ≥ N) Como o lado esquerdo da equac¸a˜o tem valor limite de 1 ∀ε > 0, por con- vergeˆncia quase-certa segue que o lado direito tem valor limite igual a 1,∀ε > 0. Portanto, temos: lim n→∞ P (w : sup |Xn −X| < ε, n ≥ N) = 1 ⇐ 2 Pelo enunciado temos que: lim n→∞ P (w : sup |Xn −X| < ε, n ≥ N) = 1 ou, equivalentemente: lim n→∞ P (w : sup |Xn −X| > ε, n ≥ N) = 0 Se estas duas relac¸o˜es valem para o supremo, tambe´m valera˜o para toda a sequeˆncia com n ≥ N. Tomemos a segunda relac¸a˜o: lim n→∞ P (w : |XN −X| > ε, |XN+1 −X| > ε, ..., |Xn −X| > ε) = 0 → lim n→∞ P (w : |Xm −X| > ε) = 0∀m > N Portanto, se somarmos todas as probabilidades para m > N teremos o seguinte limite: lim n→∞ nX m=N P (w : |Xm −X| > ε) = 0 <∞ Como o limite da soma das probabilidades e´ finito, podemos utilizar o Lema de Borel-Cantelli (LBC) enunciado a seguir: - LBC: Se a soma das probabilidades da sequeˆncia de eventos (Yn) e´ finita, enta˜o a probabilidade de que, infinitamente, muitos dos eventos seja zero e´: P ( lim n→∞ supYn) = 0 Como o nosso evento {Yn} ≡ |Xn −X| > ε, n ≥ N, pelo LBC, teremos que: P ( lim n→∞ sup |Xn −X| > ε, n ≥ N) = 0 ou equivalentemente: P ( lim n→∞ sup |Xn −X| < ε, n ≥ N) = 1 Como lim n→∞ sup |Xn −X| < ε, n ≥ N ⇒ Limn→∞ |Xn −X| < ε, n ≥ N, temos que vale a seguinte desigualdade: P ( lim n→∞ sup |Xn −X| < ε, n ≥ N) ≤ P ( limn→∞ |Xn −X| < ε, n ≥ N) Portanto, 1 = P ( lim n→∞ sup |Xn −X| < ε, n ≥ N) ≤ P ( limn→∞ |Xn −X| < ε, n ≥ N) ≤ 1 ⇒ P ( lim n→∞ |Xn −X| < ε, n ≥ N) = 1 Como P ( lim n→∞ |Xn −X| < ε, n ≥ N)⇔ P ( limn→∞Xn = X,n ≥ N) 3 seque que P ³ lim n→∞ Xn = X ´ = 1 3. Sejam fλ0Xn(t) e fλ0X(t) as func¸o˜es caracter´ısticas de λ 0Xn e λ0X, respectivamente, onde: fλ0Xn(t) = E(exp itλ0Xn) = φλ0Xn(t) = φXn(tλ 0) Assintoticamente, temos que: lim n→∞ φλ0Xn(t) = limn→∞ E(expitλ 0Xn) = φλ0X(t) = E(exp itλ0X) Como φλ0X(t) e´ cont´ınua em t = 0, temos, pelo teorema de continuidade de Levy, que Xn d→ X ≡ lim n→∞ F (Xn) = F (X) 4 a) Pelo enunciado, temos que: T = P I(Y ≤ c) n E(T ) = P E(I(Y ≤ c)) n = X θ n = θ Portanto T e´ na˜o viesado. V (T ) = V µP I(Y ≤ c) n ¶ = X V (I(Y ≤ c)) n2 = X θ(1− θ) n2 = θ(1− θ) n b) Como Ti sa˜o i.i.d. e E(Ti) = θ, o Teorema do Limite Central de Lindberg- Levy implica que √ n( P Ti n − θ) d→ N (0, θ(1− θ)) c) Da Lei dos Grandes Nu´meros de Klinchines, segue que: T = X T i n p→ θ 5. a) Seja U = Φ Ã c− Y σ ! - Prova da consisteˆncia: p limU = p limΦ Ã c− Y σ ! = Φ Ã c− p lim(Y ) σ ! 4 onde Φ (.) e´ uma func¸a˜o continua com probabilidade 1. Como pela Lei Fraca dos Grandes Nu´meros de Klinchine temos que: Y = X Yi n p→ µ Assim, podemos aplicar o Teorema de Mahn-Wald: p limU = p limΦ Ã c− Y σ ! = Φ µ c− µ σ ¶ = θ ou seja, U e´ um estimador consistente de θ. - Vie´s: E(U) = E Z c−Y σ −∞ 1√ 2π exp · −1 2 x2 ¸ dx = Z Y Z c−Y σ −∞ 1√ 2π exp · −1 2 x2 ¸ dx dY 6= θ Portanto, U e´ viesado para θ. b) Pelo Teorema do Limite Central de Lindberg-Levy, temos: √ n(Y − µ) d→ N ¡ 0, σ2 ¢ Seja g(Y ) = Φ( c− Y σ ) Como Φ e´ continuamente diferencia´vel, temos: g‘(Y ) = −φ(c− Y σ ) 1 σ ⇒ g‘(µ) = −φ(c− µ σ ) 1 σ Enta˜o, pelo me´todo delta: √ n h g(Y )− g(µ) i d→ g0(µ)N(0, σ2) = − 1 σ φ( c− µ σ )N(0, σ2) ⇒ g(Y ) d→ N à g(µ), 1 n · φ( c− µ σ ) ¸2! U d→ N à θ, 1 n · φ( c− µ σ ) ¸2! c) Como [φ(z)]2 Φ(z)(1− Φ(z)) < 0, 64∀z 5 V (T ) = θ(1− θ) n = Φ( c− µ σ ) · 1− Φ(c− µ σ ) ¸ 1 n > 1 0, 64n · φ( c− µ σ ) ¸2 > 1 n · φ( c− µ σ ) ¸2 = V (U) Portanto, temos que ambos os estimadores sa˜o consistentes, mas assistoti- camente U tem variancia menor que T. Entretanto, para pequenas amostras, T e´ preferido uma vez que na˜o necessita da hipotese de normalidade da variavel e tambe´m e´ na˜o viesado. 6. a) E(T ) = E à X Y ! = E µ X 1 Y ¶ 6= E ³ X ´ . 1 E ³ Y ´ = µX µY Portanto T e´ viesado. p lim à X Y ! = p limX p limY = µX µY Portanto T e´ consistente. b) O Teorema Central do Limite bivariado de Lindberg-Levy implica que: √ n "à X Y ! − µ µX µY ¶# d→ N ·µ 0 0 ¶ , µ σ2X σ 2 XY σ2XY σ 2 Y ¶¸ Seja g ³ X,Y ´ = X Y Enta˜o, G = · δg (µX , µY ) δX , δg (µX , µY ) δY ¸ = " 1 Y ,− X Y 2 # Segue do me´todo delta que √ n à X Y − µX µY ! d→ h 1 Y − X Y 2 i N ·µ 0 0 ¶ , µ σ2X σXY σXY σ2Y ¶¸ = N · 0, h 1 Y − X Y 2 iµ σ2X σXY σXY σ2Y ¶h 1 Y − X Y 2 i0¸ = N · 0, σ2X µ2Y − 2σXY µX µ3Y + σ2Y µ2X µ4Y ¸ T d→ N · µX µY , 1 n µ σ2X µ2Y − 2σXY µX µ3Y + σ2Y µ2X µ4Y ¶¸ 6 Substituindo pelos valores dados, temos: T d→ N · 3 2 , 1 n µ 1 4 − 2.0, 53 8 + 1. 9 16 ¶¸ = N · 3 2 , 1 n µ 7 16 ¶¸ Gra´fico para n=100.000 c) O programa utilizado no Matlab (Mfile) foi o seguinte para amostra de 25 observac¸o˜es: % Exercicio Montecarlo Simulation in Matlab % Function T=Xbarra/Ybarra % Generate n samples from a normal distribution % r=(rand(n,1)*sd)+mu % mu:mean % sd: standard deviation n=1000 % The number of function evaluations % –Generate vector of random inputs % x˜Normal distribution N(mean=3,sd=1) % y˜Normal distribution N(mean=2,sd=1) for i=1:n x=(randn(25,1))+3 7 y=-0.5+0.5*x+(sqrt(3)/2)*randn(25,1) %–Run the simulation % Note the use of element-wise multiplication %% T(i)=mean(x)/mean(y) end % – Create a graphic of the results (100 bins) hist(T,100) Graficos: 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2 2.1 0 5 10 15 20 25 30 35 n=25 8 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2 0 5 10 15 20 25 30 35 n=100 9 1.35 1.4 1.45 1.5 1.55 1.6 1.65 1.7 1.75 0 5 10 15 20 25 30 35 n=200 10 Econometria/listas/lista5.pdf Universidade de Sa˜o Paulo - Departamento de Economia EAE 5811 - Econometria I Prof. Dr. Ricardo Avelino 1o Semestre de 2007 Lista de Exerc´ıcios 5 - Data de Entrega 22/05/2007 1. Considere o teste F no modelo de regressa˜o linear cla´ssico Y = Xβ + ε envolvendo p restric¸o˜es lineares dos paraˆmetros: H0 : Rβ = q0. A estat´ıstica pode ser escrita como F = (Rβ − q0)0 h s2R (X 0X)−1R0 i−1 (Rβ − q0) /p d→ χ2p Suponha que a amostra contenha n observac¸o˜es e que a dimensa˜o do vetor de paraˆmetros β seja k × 1 a) Mostre que a estat´ıstica do teste da raza˜o de verossimilhanc¸a da mesma hipo´tese H0 : Rβ = q0 e´ igual a LR = n ln h 1 + pn−kF i b) Mostre que a estat´ıstica do teste do multiplicador de Lagrange da mesma hipo´tese H0 : Rβ = q0 e´ igual a LM = n pn−kF [1+ pn−kF ] c) Denote a estat´ıstica do teste de Wald da hipo´tese H0 : Rβ = q0 por W = nn−kpF. Mostre que W ≥ LR ≥ LM. 2. Uma varia´vel aleato´ria X tem distribuic¸a˜o exponencial com paraˆmetro β (β > 0) se X tem uma distribuic¸a˜o cont´ınua com f.d.p. f (x, β) dada por f (x, β) = ½ βe−βx para x > 0 0 caso contra´rio Para uso futuro, note que isso implica que a func¸a˜o de distribuic¸a˜o e´ igual a F (x, β) = ½ 1− βe−βx para x > 0 0 caso contra´rio A me´dia e a variaˆncia de uma distribuic¸a˜o exponencial com paraˆmetro β e´ E (X) = 1β e V (X) = 1 β2 . a) Suponha que X1, ...,Xn forme uma amostra aleato´ria de uma distribuic¸a˜o exponencial com paraˆmetro desconhecido β (β > 0). Ache o estimador de ma´xima verossimilhanc¸a de β. b) Usando o princ´ıpio da invariaˆncia, ache o estimador de ma´xima verossim- ilhanc¸a de 1β e de 1 β2 . 3. Suponha que X1, ...,Xn forme uma amostra aleato´ria de uma distribuic¸a˜o uniforme no intervalo [θ1, θ2], onde θ1 e θ2 sa˜o desconhecidos (0 < θ1 < θ2 <∞). 1 a) Ache os estimadores de ma´xima verossimilhanc¸a de θ1 e θ2, θˆ1 e θˆ2 b) Os estimadores de ma´xima verossimilhanc¸a sa˜o consistentes? c) Mostre que os estimadores de ma´xima verossimilhanc¸a na˜o sa˜o assintoti- camente normais. Por que a prova de normalidade assinto´tica dos estimadores de ma´xima verossimilhanc¸a na˜o e´ va´lida? Dica para c): Considere a varia´vel aleato´ria n ³ θ2 − θˆ2 ´ . Derive a sua func¸a˜o de distribuic¸a˜o e use o resultado. lim n→∞ ¡ 1 + xn ¢n = ex. 4. Suponha que X1, ...,Xn sejam varia´veis aleato´rias i.i.d. com distribuic¸a˜o de Bernoulli com Xi = ½ 1 com probabilidade θ 0 com probabilidade 1− θ a) Ache o estimador de ma´xima verossimilhanc¸a de θ e sua distribuic¸a˜o assinto´tica. b) Como voceˆ testaria a hipo´tese H0 : θ = 0.4 usando os testes LR, Wald e LM? Como voceˆ testaria a hipo´tese H0 : θ 2 = 0.5? 5. Seja yt = φyt−1 + εt, εt i.i.d.∼ N ¡ 0, σ2ε ¢ e |φ| < 1 a) Escreva a func¸a˜o de log-verossimilhanc¸a para uma amostra de T ob- servac¸o˜es f (y1, ..., yT ) proveniente do processo acima, condicionando no valor da primeira observac¸a˜o y1. Para tanto, note que voceˆ pode sempre escrever a func¸a˜o de verossimilhanc¸a como f (yt, yt−1, ..., y1) = f (yt|yt−1, ..., y1) f (yt−1, ..., y1) = f (yt|yt−1, ..., y1) f (yt−1|yt−2, ..., y1) f (yt−2, ..., y1) = ... = f (yt|yt−1, ..., y1) f (yt−1|yt−2, ..., y1) ...f (y2|y1) f (y1) Para o processo acima, os valores de Y1, ..., Yt−1 impactam Yt somente atrave´s do valor de Yt−1. Portanto, f (yt|yt−1, ..., y1) = f (yt|yt−1) . b) Mostre que φˆMLE = φˆOLS = φˆ, onde φˆOLS e´ obtido a partir de uma regressa˜o de yt em yt−1 e φˆMLE e´ o estimador de ma´xima verossimilhanc¸a condicional (condicional em y1) c) Mostre que φˆ e´ um estimador viesado de φ. d) Mostre que φˆ e´ consistente para φ. e) Obtenha a distribuic¸a˜o assinto´tica de φˆ. f) Agora suponha que o processo e´ modificado de forma que yt = φyt−1 + εt, εt = ut + θut−1, ut i.i.d.∼ N ¡ 0, σ2u ¢ e |θ| , |φ| < 1 2 O estimador de MQO de φ e´ ainda consistente? Derive o limite da proba- bilidade de φ. 6. Considere o seguinte modelo: Dt = apt + xtb+ ut St = αpt + ztβ + vt Qt = min (Dt, St) em que µ ut vt ¶ ∼ N µ· 0 0 ¸ , · σ2u 0 0 σ2v ¸¶ Escreva a func¸a˜o de verossimilhanc¸a supondo que observamos somente Qt, pt, xt e zt. 7. Seja ((Y1,X1) , ..., (Yn,Xn)) uma amostra aleato´ria de n observac¸o˜es, onde Xi e´ uma varia´vel aleato´ria escalar e Yi e´ uma varia´vel aleato´ria de Bernoulli que assuma apenas dois valores, 0 ou 1, com probabilidades P (Yi = 1|Xi) = exp (θ1 + θ2Xi) 1 + exp (θ1 + θ2Xi) P (Yi = 0|Xi) = 1 1 + exp (θ1 + θ2Xi) Esse modelo e´ conhecido como um modelo de resposta bina´ria logit. a) Ache a func¸a˜o esperanc¸a condicional de Y dado X = (X1, ...,Xn) . b) Escreva a func¸a˜o de log-verossimilhanc¸a para esse modelo. c) Escreva um programa de Matlab que estime θ1 e θ2 para o conjunto de dados enviado em anexo. Como voceˆ obteria uma estimativa consistente dos erros padro˜es dos estimadores? Programe isso tambe´m e construa um intervalo de confianc¸a de 95% para θ2. 3 Econometria/listas/lista5sol.pdf Universidade de Sa˜o Paulo - Departamento de Economia EAE 5811 - Econometria I Prof. Dr. Ricardo Avelino 1o Semestre de 2007 Lista de Exerc´ıcios 5 - Soluc¸o˜es Monitoras: Paula Pereda Jaqueline de Oliveira 1) A estat´ıstica LR e´: LR = −2 ln à L(x, θ˜) L(x, θˆ) ! Temos que: L(x, θ˜) = ³ 1/ √ 2πσ˜ ´n exp ( −1 2 à Y −Xβ˜ σ˜ !) = ³ 1/ √ 2πσ˜ ´n exp ½ −1 2 µ e˜0e˜ σ˜ ¶¾ e L(x, θˆ) = ³ 1/ √ 2πσˆ ´n exp ( −1 2 à Y −Xβˆ σˆ !) = ³ 1/ √ 2πσˆ ´n exp ½ −1 2 µ eˆ0eˆ σˆ ¶¾ onde σ˜2 = e˜0e˜ n e σˆ2 = eˆ0eˆ n , estimadores de MV de σ2 dos modelos restrito e irrestrito. Assim, L(x, θ˜) L(x, θˆ) = ¡ 1/ √ 2πσ˜ ¢n exp ½ −12 µ e˜0e˜ σˆ ¶¾ ¡ 1/ √ 2πσˆ ¢n exp ½ −12 µ eˆ0eˆ σˆ ¶¾ = µ σˆ2 σ˜2 ¶n 2 exp ½ −1 2 µ e˜0e˜ σˆ − eˆ 0eˆ σˆ ¶¾ = µ eˆ0eˆ e˜0e˜ ¶n 2 Ja´ sabemos que o estimador do modelo restrito pode ser escrito como: β˜ = βˆ − (X 0X)−1R0 £ R(X 0X)−1R0 ¤ (Rβˆ − qo) Enta˜o, e˜ = Y −Xβ˜ = Y −X n βˆ − (X 0X)−1R0 £ R(X 0X)−1R0 ¤−1 (Rβˆ − qo) o = Y −Xβˆ +X(X 0X)−1R0 £ R(X 0X)−1R0 ¤−1 (Rβˆ − qo) = eˆ+X(X 0X)−1R0 £ R(X 0X)−1R0 ¤−1 (Rβˆ − qo) 1 Desta forma, temos que e˜0e˜ = eˆ0eˆ+ eˆ0X(X 0X)−1R0 £ R(X 0X)−1R0 ¤−1 (Rβˆ − qo) +(Rβˆ − qo)0 £ R(X 0X)−1R0 ¤−1 R(X 0X)−1X 0eˆ +(Rβˆ − qo)0 £ R(X 0X)−1R0 ¤−1 R(X 0X)−1X 0X(X 0X)−1R0£ R(X 0X)−1R0 ¤−1 (Rβˆ − qo) = eˆ0eˆ+ (Rβˆ − qo)0 £ R(X 0X)−1R0 ¤−1 (Rβˆ − qo) ja´ que X 0eˆ = 0. Assim, LR = −2 ln à L(x, θ˜) L(x, θˆ) ! = 2 ln à L(x, θˆ) L(x, θ˜) ! = 2 ln µ e˜0e˜ eˆ0eˆ ¶n 2 = n ln à eˆ0eˆ+ (Rβˆ − qo)0 £ R(X 0X)−1R0 ¤−1 (Rβˆ − qo) eˆ0eˆ ! = n ln ³ 1 + (Rβˆ − qo)0 £ nσˆ2R(X 0X)−1R0 ¤−1 (Rβˆ − qo) ´ = n ln µ 1 + p n− kF ¶ b) A estat´ıstica LM e´ dada por: LM = −λ˜0 ∂h(θ˜) ∂θ à ∂2 lnL(x, θ˜) ∂θ∂θ0 !−1 ∂h(θ˜) ∂θ 0 λ˜ onde λ˜ e´ o vetor de multiplicadores de lagrange do problema de maximizac¸a˜o da func¸a˜o de log-verossimilhanc¸a com restric¸a˜o. Sabemos que λ˜ e´ λ˜ = £ R(X 0X)−1R0 ¤−1 (Rβˆ − qo) Ale´m disto, temos que ∂2 lnL(x, θ˜) ∂θ∂θ0 = − 1 σ˜2 (X 0X)−1 e ∂h(θ˜) ∂θ = R Enta˜o, LM = − (Rβˆ − qo) £ R(X 0X)−1R0 ¤−1 R(X 0X)−1R0 £ R(X 0X)−1R0 ¤−1 (Rβˆ − qo) σ˜2 = (Rβˆ − qo) £ R(X 0X)−1R0 ¤−1 (Rβˆ − qo) σ˜2 = (Rβˆ − qo) £ R(X 0X)−1R0 ¤−1 (Rβˆ − qo)/σˆ2 σ˜2/σˆ2 2 Podemos escrever o numerador da seguinte forma: (Rβˆ − qo) £ R(X 0X)−1R0 ¤−1 (Rβˆ − qo)/σˆ2 = (Rβˆ − qo) · n n− k s 2R(X 0X)−1R0 ¸−1 (Rβˆ − qo)/σˆ2 = n n− kp.F Ale´m disto, temos que o denominador pode ser escrito como: σ˜2 σˆ2 = e˜0e˜ eˆ0eˆ = eˆ0eˆ+ (Rβˆ − qo)0 £ R(X 0X)−1R0 ¤−1 (Rβˆ − qo) eˆ0eˆ = 1 + p n− kF Assim, a estat´ıstica LM torna-se: LM = n n− kp.F· 1 + p n− kF ¸ c) Vamos usar o fato de que ln(x) ≤ x− 1. Sabemos que: W = n n− kp.F LR = n ln µ 1 + p n− kF ¶ LM = n n− kp.F· 1 + p n− kF ¸ Fac¸amos y = 1 + p n− kF. Assim, W = n.(y − 1) LR = n ln(y) e LM = n. y − 1 y = n. µ 1− 1 y ¶ Logo, temos que ln(y) ≤ (y − 1) =⇒ n ln(y) ≤ n(y − 1) =⇒ LR ≤W Da mesma forma, temos que ln(x) ≤ (x− 1) =⇒ − ln(x) ≥ 1− x =⇒ ln µ 1 x ¶ ≥ 1− x 3 Portanto, ln (y) ≥ 1− 1 y =⇒ n ln(y) ≥ n µ 1− 1 y ¶ =⇒ LR ≥ LM Logo, temos que: W ≥ LR ≥ LM 2) A func¸a˜o de verossimilhanc¸a e´ igual a L = nY i=1 βe−βxi nY i=1 I[0,∞](xi) onde I e´ uma func¸a˜o indicadora. A func¸a˜o de log-verossimilhanc¸a pode ser expressa como: lnL = nX i=1 lnβ − nX i=1 βxi + nX i=1 ln I[0,∞](xi) = n lnβ − β nX i=1 xi + nX i=1 ln I[0,∞](xi) Diferenciando com respeito a β e igualando a zero, temos: ∂ lnL ∂β = n β − nX i=1 xi = 0 =⇒ βˆ = nPn i=1 xi Como ∂2 lnL ∂β2 = − n β2 < 0, a func¸a˜o de verossimilhanc¸a e´ maximizada para βˆ = nXn i=1 xi . Assim, βˆ MLE = nPn i=1 xi e´ o estimador de ma´xima verossimil- hanc¸a de β. b) A propriedade da invariaˆncia estabelece que se Θˆ e´ o MLE do vetor de paraˆmetros (k × 1), Θ, e q(Θ) e´ um vetor real (r × 1), func¸a˜o de Θ ∈ Ω, onde r ≤ k, enta˜o q(Θˆ) e´ o MLE de q(Θ). Seja Θ = β e q(Θ) = 1 Θ . Disto segue que o MLE de 1 β e´ 1 βˆ = Pn i=1 xi n . Da mesma forma, seja Θ = β e q(Θ) = 1 Θ2 . Disto segue que o MLE de 1 β2 e´ 1 βˆ 2 = µPn i=1 xi n ¶2 3) a) A func¸a˜o de log-verossimilhanc¸a e´ dada por: L(θ1, θ2, x1, ..., xn) = 1 (θ2 − θ1)n nY i=1 I[θ2−θ1](xi) 4 onde I e´ a func¸a˜o indicadora. Para L ser maximizada, θ1 e θ2 devem ser determinados de tal forma a fazer (θ2−θ1) ser tal pequena quando poss´ıvel, mas mantendo nY i=1 I[θ2−θ1](xi) = 1. Enta˜o, a menor escolha para θ2 e´ max {x1, ..., xn}, enquanto a maior escolha para θ1 e´ min {x1, ..., xn}, o que gera o menor valor para θ2 − θ1 = max {x1, ..., xn}−min {x1, ..., xn}. Assim, os estimadores de MV θˆ1 e θˆ2 sa˜o dados pela maior e pela menor estat´ıstica de ordem: θˆ1 = min {x1, ..., xn} θˆ2 = max {x1, ..., xn} b) Seja Y1 = min {x1, ..., xn} e Y2 = max {x1, ..., xn}. A f.d.p. de Y1 em um ponto arbitra´rio x e´ igual a soma ao longo de i = {1, ..., n} do produto da f.d.p. de Xi em x e da probabilidade de que Xj ≥ x para todo j 6= i, isto e´: f(Y1 = x) = nX i=1 f (Xi = x) nY j=1,j 6=i (1− F (Xj = x) = nX i=1 1 θ2 − θ1 nY j=1,j 6=i µ 1− Z x θ1 1 θ2 − θ1 dt ¶ = nX i=1 1 θ2 − θ1 nY j=1,j 6=i µ 1− x− θ1 θ2 − θ1 ¶ = nX i=1 " 1 θ2 − θ1 µ 1− x− θ1 θ2 − θ1 ¶n−1# = n θ2 − θ1 µ 1− x− θ1 θ2 − θ1 ¶n−1 A esperanc¸a de Y1 e´ dada por: E(Y1) = Z θ2 θ1 nx θ2 − θ1 µ 1− x− θ1 θ2 − θ1 ¶n−1 dx Integrando por partes, temos: E(Y1) = −x µ 1− x− θ1 θ2 − θ1 ¶n |θ2θ1 − Z θ2 θ1 − µ 1− x− θ1 θ2 − θ1 ¶n dx = −x µ 1− x− θ1 θ2 − θ1 ¶n |θ2θ1 − µ 1− x− θ1 θ2 − θ1 ¶n+1 θ2 − θ1 n+ 1 |θ2θ1 = θ1 + θ2 − θ1 n+ 1 5 O segundo momento de Y1 e´ dado por: E(Y 21 ) = Z θ2 θ1 nx2 θ2 − θ1 µ 1− x− θ1 θ2 − θ1 ¶n−1 dx Integrando por partes, temos: E(Y 21 ) = −x2 µ 1− x− θ1 θ2 − θ1 ¶n |θ2θ1 − Z θ2 θ1 −2x µ 1− x− θ1 θ2 − θ1 ¶n dx = −x2 µ 1− x− θ1 θ2 − θ1 ¶n |θ2θ1 − 2x µ 1− x− θ1 θ2 − θ1 ¶n+1 θ2 − θ1 n+ 1 |θ2θ1 +2 Z θ2 θ1 µ 1− x− θ1 θ2 − θ1 ¶n+1 θ2 − θ1 n+ 1 dx = −x2 µ 1− x− θ1 θ2 − θ1 ¶n |θ2θ1 − 2x µ 1− x− θ1 θ2 − θ1 ¶n+1 θ2 − θ1 n+ 1 |θ2θ1 −2(θ2 − θ1) 2 n+ 1 µ 1− x− θ1 θ2 − θ1 ¶n+2 1 n+ 2 |θ2θ1 = θ21 + 2θ1(θ2 − θ1) n+ 1 + 2(θ2 − θ1)2 (n+ 1)(n+ 2) Assim, V (Y1) = θ 2 1 + 2θ1(θ2 − θ1) n+ 1 + 2(θ2 − θ1)2 (n+ 1)(n+ 2) − θ21 − 2θ1(θ2 − θ1) n+ 1 −(θ2 − θ1) 2 (n+ 1)2 = (θ2 − θ1)2n (n+ 1)2(n+ 2) Temos enta˜o que lim n→∞ E(Y1) = lim n→∞ µ θ1 + θ2 − θ1 n+ 1 ¶ = θ1 lim n→∞ V (Y1) = lim n→∞ (θ2 − θ1)2n (n+ 1)2(n+ 2) = lim n→∞ (θ2 − θ1) (n+ 1)2(1 + 2/n) = 0 Logo, Y1 m→ θ1 =⇒ Y1 P→ θ1 Da mesma forma, a f.d.p. de Y2 em um ponto arbitra´rio x e´ igual a soma ao longo de i = {1, ..., n} do produto da f.d.p. de Xi em x e da probabilidade 6 de Xj ≤ x para todo j 6= i, isto e´: f(Y2 = x) = nX i=1 f (Xi = x) nY j=1,j 6=i (F (Xj = x) = nX i=1 1 θ2 − θ1 nY j=1,j 6=i Z x θ1 1 θ2 − θ1 dt = nX i=1 1 θ2 − θ1 nY j=1,j 6=i µ x− θ1 θ2 − θ1 ¶ = nX i=1 " 1 θ2 − θ1 µ x− θ1 θ2 − θ1 ¶n−1# = n θ2 − θ1 µ x− θ1 θ2 − θ1 ¶n−1 O valor esperado de Y2 e´ dado por: E(Y2) = Z θ2 θ1 nx θ2 − θ1 µ x− θ1 θ2 − θ1 ¶n−1 dx Integrando por partes, temos: E(Y2) = x µ x− θ1 θ2 − θ1 ¶n |θ2θ1 − Z θ2 θ1 µ x− θ1 θ2 − θ1 ¶n dx = x µ 1− x− θ1 θ2 − θ1 ¶n |θ2θ1 − µ x− θ1 θ2 − θ1 ¶n+1 θ2 − θ1 n+ 1 |θ2θ1 = θ2 − θ2 − θ1 n+ 1 O segundo momento de Y2 e´ dado por: E(Y 22 ) = Z θ2 θ1 nx2 θ2 − θ1 µ x− θ1 θ2 − θ1 ¶n−1 dx 7 Integrando por partes, temos: E(Y 22 ) = x 2 µ x− θ1 θ2 − θ1 ¶n |θ2θ1 − Z θ2 θ1 2x µ x− θ1 θ2 − θ1 ¶n dx = x2 µ x− θ1 θ2 − θ1 ¶n |θ2θ1 − 2x µ x− θ1 θ2 − θ1 ¶n+1 θ2 − θ1 n+ 1 |θ2θ1 +2 Z θ2 θ1 µ x− θ1 θ2 − θ1 ¶n+1 θ2 − θ1 n+ 1 dx = x2 µ x− θ1 θ2 − θ1 ¶n |θ2θ1 − 2x µ x− θ1 θ2 − θ1 ¶n+1 θ2 − θ1 n+ 1 |θ2θ1 +2 (θ2 − θ1)2 n+ 1 µ x− θ1 θ2 − θ1 ¶n+2 1 n+ 2 |θ2θ1 = θ22 − 2θ2(θ2 − θ1) n+ 1 + 2(θ2 − θ1) (n+ 1)(n+ 2) Assim, V (Y2) = θ 2 2 − 2θ2(θ2 − θ1) n+ 1 + 2(θ2 − θ1) (n+ 1)(n+ 2) − θ22 − (θ2 − θ1)2 (n+ 1)2 +2 θ2(θ2 − θ1) n+ 1 = (θ2 − θ1)2n (n+ 1)2(n+ 2) Temos enta˜o que, lim n→∞ E(Y2) = lim n→∞ θ2 − θ2 − θ1 n+ 1 = θ2 lim n→∞ V (Y2) = lim n→∞ (θ2 − θ1)2n (n+ 1)2(n+ 2) = lim n→∞ (θ2 − θ1) (n+ 1)2(1 + 2/n) = 0 Logo, Y2 m→ θ2 =⇒ Y2 P→ θ2 Tanto θˆ1 quanto θˆ2 sa˜o estimadores consistentes de θ1 e θ2 c) P (n(θ2 − θˆ2) < Y ) = P (θˆ2 > θ2 − Y n ) = 1− Z θ2−Yn θ1 n θ2 − θ1 µ x− θ1 θ2 − θ1 ¶n−1 dx = 1− µ x− θ1 θ2 − θ1 ¶n |θ2−Ynθ1 = 1− µ −Y/n+ θ2 − θ1 θ2 − θ1 ¶n = 1− µ 1− Y/(θ2 − θ1) n ¶n 8 Temos enta˜o que, lim n→∞ 1− µ 1− Y/(θ2 − θ1) n ¶n = 1− exp µ Y θ2 − θ1 ¶ Consequentemente, a varia´vel aleato´ria n(θ2− θˆ2) converge assintoticamente para uma distribuic¸a˜o exponencial. Da mesma forma, P (n(θˆ1 − θ1) < Y ) = P (θˆ1 < Y n + θ1) = Z Y n+θ1 θ1 n θ2 − θ1 µ 1− x− θ1 θ2 − θ1 ¶n−1 dx = − µ 1− x− θ1 θ2 − θ1 ¶n |Yn+θ1θ1 = 1− µ 1− Y/n θ2 − θ1 ¶n = 1− µ 1− Y/(θ2 − θ1) n ¶n Temos enta˜o que, lim n→∞ 1− µ 1− Y/(θ2 − θ1) n ¶n = 1− exp µ Y θ2 − θ1 ¶ A varia´vel aleato´ria n(θˆ1− θ1) tambe´m converge assintoticamente para uma distribuic¸a˜o exponencial. A prova da normalidade assinto´tica na˜o e´ va´lida por que a func¸a˜o de verossim- ilhanc¸a na˜o e´ duas vezes continuamente diferencia´vel na vizinhanc¸a de θˆ1 e θˆ2. 4) A func¸a˜o de verossimilhanc¸a da amostra e´ dada por: L = nY i=1 θxi(1− θ)1−xi lnL = nX i=1 xi ln θ + nX i=1 (1− xi) ln(1− θ) Diferenciando com respeito a θ e igualando a 0, ∂ lnL ∂Θ = 0 =⇒ Pn i=1 xi θ − nX i=1 (1− xi) 1− θ = 0 =⇒ nX i=1 xi − θ nX i=1 xi = nθ − θ nX i=1 xi =⇒ θˆ = Pn i=1 xi n V ar(θˆ) = V ar µPn i=1 xi n ¶ = 1 n2 nX i=1 V ar(xi) = 1 n2 nθ(1− θ) = θ(1− θ) n 9 E(θˆ) = E µPn i=1 xi n ¶ = 1 n nX i=1 E(xi) = 1 n nθ = θ Segue do TCL de Lindberg-Levi que: √ n(θˆ − θ)p θ(1− θ) d→ N(0, 1) Assim, θˆ ∼ N µ θ, θ(1− θ) n ¶ b) Seja R(θ) = θ e r = 0, 4. Sob a hipo´tese nula de que θ = 0, 4, a estat´ıstida Wald e´ dada por: W = h R(θˆ)− r i0 "dR(θˆ) dθ V (θˆ) dR(θˆ) dθ #−1 h R(θˆ)− r i ∼ χ21 Do item (a), V (θˆ) = θ(1− θ) n . Ale´m disto, dR(θˆ) dθ = 1. Assim, rejeitamos a hipo´tese nula a 5% de significaˆncia se W = h θˆ − 0, 4 i " θˆ(1− θˆ) n . #−1 h θˆ − 0, 4 i > χ21,1−α Com relac¸a˜o ao teste LM, denotemos por θˆr o valor do estimador de MV que satisfaz o seguinte problema de maximizac¸a˜o com restric¸a˜o: max θ L(θ, x) sujeito a θ = θ0 Assim, LM = ∂ ln(θˆr, x) ∂θ " −∂ 2 ln(θˆr, x) ∂θ2 #−1 ∂ ln(θˆr, x) ∂θ ˜χ21 ∂ ln(θ, x) ∂θ = Pn i=1 xi θ − nX i=1 (1− xi) 1− θ =⇒ ∂ ln(θˆr, x) ∂θ = Pn i=1 xi 0, 4 − nX i=1 (1− xi) 0, 6 ∂2 ln(θ, x) ∂θ2 = − Pn i=1 xi θ2 − nX i=1 (1− xi) (1− θ)2 =⇒ − Pn i=1 xi 0, 42 − nX i=1 (1− xi) 0, 62 10 Rejeitamos a hipo´tese nula H0 : θ = 0, 4 a 5% de significaˆncia se χ21,1−α < LM = "Pn i=1 xi 0, 4 − nX i=1 (1− xi) 0, 6 #" − Pn i=1 xi 0, 42 − nX i=1 (1− xi) 0, 62 #−1 "Pn i=1 xi 0, 4 − nX i=1 (1− xi) 0, 6 # Finalmente, vamos considerar a estat´ıstica LR. Seja θˆr o estimador de MV sob H0 e θˆ o estimador de MV irrestrito. Enta˜o, LR = 2 lnL(θˆ, x)− 2 lnL(θˆr, x)˜˜χ21 Rejeitamos a hipo´tese nula de que θ = 0, 4 se 2 lnL(θˆ, x)− 2 lnL(θˆr, x) > χ21,1−α Para testar a hipo´tese de que H0 = θ 2 = 0, 5, definimos R(θ) = θ2 e r = 0, 5. Para o teste Wald, como dR(θˆ) dθ = 2θ, W = h R(θˆ)− r i0 " 2θˆ θˆ(1− θˆ) n 2θˆ #−1 h R(θˆ)− r i = n h θˆ 2 − 0, 5 i2 4θˆ 3 (1− θˆ) ˜χ21 Para o teste LM, note que a hipo´tese H0 : θ 2 = 0, 5 e´ equivale a H0 : θ =√ 2/2, ja´ que θ e´ na˜o-negativo. Assim, podemos proceder da mesma forma em que H0 : θ = 0, 4. Para construir o teste LR, podemos usar um argumento ana´logo ao empre- gado na construc¸a˜o do teste LM. 5) a) A func¸a˜o de verossimilhanc¸a condicional e´ dada por: L = f(yT , yT−1, ..., y1;φ) = TY t=2 f(yt/yt−1;φ) =⇒ lnL = TX t=2 ln f(yt/yt−1;φ) E [yt/yt−1] = φyt−1 +E [εt] = φyt−1 V ar [yt/yt−1] = V ar [εt] = σ 2 Assim, lnL = TX t=2 ln " 1√ 2πσ exp ( −1 2 µ yt − φyt−1 σ ¶2)# = −(T − 1) 2 ln 2π − (T − 1) 2 lnσ2 − 1 2 TX t=2 µ yt − φyt−1 σ ¶2 11 b) ∂ lnL ∂φ = 0 =⇒ TX t=2 ·µ yt − φyt−1 σ ¶ yt−1 ¸ = 0 =⇒ φˆ MLE = PT t=2 ytyt−tPT t=2 y 2 t−1 O estimador de MQO, φˆ OLS , minimiza: TX t=2 ε2t = TX t=2 (yt − φyt−1)2 As condic¸o˜es de primeira ordem para a minimizac¸a˜o e´: −2 TX t=2 (yt − φyt−1)yt−1 = 0 =⇒ φˆ OLS = PT t=2 ytyt−tPT t=2 y 2 t−1 = φˆ MLE c) φˆ = PT t=2 ytyt−tPT t=2 y 2 t−1 = PT t=2 yt(φyt−1 + εt)PT t=2 y 2 t−1 = φ+ PT t=2(yt−1εt)PT t=2 y 2 t−1 E(φˆ) = φ+E "PT t=2(yt−1εt)PT t=2 y 2 t−1 # O segundo termo da expressa˜o acima e´, em geral, diferente de zero por que o regressor na˜o pode ser tratado como na˜o-estoca´stico. Assim, φˆe´ um estimador viesado de φ. d) φˆ− φ = PT t=2(yt−1εt)PT t=2 y 2 t−1 Provaremos consisteˆncia mostrando que o termo T−1 PT t=2(yt−1εt) converge em probabilidade para zero e que o termo T−1 PT t=2 y 2 t−1 converge para uma constante positiva. Note que: yt = εt + φεt−1 + φ 2εt−2 + ... = ∞X i=0 φiεt−i E(yt) = E à ∞X i=0 φiεt−i ! = 0 e V ar(yt) = E(y2t ) = E à ∞X i=0 φiεt−i !2 = σ2 £ 1 + φ2 + φ4 + ... ¤ 12 ja´ que E(εt−i, εt−j) = 0, i 6= j. Assim, dado que |φ| < 1, E(y2t ) = σ2 1− φ2 <∞ E(yt−1, εt) = E £¡ εt−1 + φεt−2 + φ 2εt−3 + ... ¢ εt ¤ = E £¡ εtεt−1 + φεtεt−2 + φ 2εtεt−3 + ... ¢ εt ¤ = 0 Pela Lei dos Grandes Nu´meros: p lim T→∞ T−1 TX t=2 yt−1εt = E(yt−1εt) = 0 p lim T→∞ T−1 TX t=2 y2t−1 = E(y 2 t−1) = σ2 1− φ2 Assim, p lim T→∞ (φˆ− φ) = p lim T→∞ à T−1 PT t=2 yt−1εt T−1 PT t=2 y 2 t−1 ! Pelo Teorema de Slutsky: p lim T→∞ à T−1 PT t=2 yt−1εt T−1 PT t=2 y 2 t−1 ! = p limT→∞ T−1 PT t=2 yt−1εt p limT→∞ T−1 PT t=2 y 2 t−1 = 0 σ2 1−φ2 Portanto, p lim T→∞ (φˆ− φ) = 0 =⇒ φˆ P→ φ ou seja, φˆ e´ consistente. e) √ T − 1(φˆ− φ) = (T − 1) −1/2PT t=2 yt−1εt (T − 1)−1 PT t=2 y 2 t−1 Temos que, (T − 1)−1/2 TX t=2 yt−1εt d→ N(0, σ 4 1− φ2 ) Ale´m disto, temos, (T − 1)−1 TX t=2 y2t−1 P→ σ 2 1− φ2 13 Assim, √ T − 1(φˆ−φ) d−→ 1− φ2 σ2 N µ 0, σ4 1− φ2 ¶ =⇒ √ T − 1(φˆ−φ) d−→ N ¡ 0, 1− φ2 ¢ f) φˆ OLS − φ = (T − 1) −1PT t=2 yt−1εt (T − 1)−1 PT t=2 y 2 t−1 O modelo agora deve ser escrito como: yt = φyt−1 + ut + θut−1 Assim, E(yt) = φE(yt−1) =⇒ µy = φµy =⇒ µy = 0 E(y2t ) = V (yt) = φ 2σ2y + σ 2 u + θ 2σ2u + 2φcov(yt−1, ut) +2φθcov(yt−1, ut−1) + 2θcov(ut, ut−1) = φ2σ2y + σ 2 u + θ 2σ2u + 2φθcov(yt−1, ut−1) Mas, cov(yt−1, ut−1) = cov(φyt−2 + ut−1 + θut−2, ut−1) = cov(ut−1.ut−1) = σ2u Portanto, σ2y = V (yt) = (1 + θ2 + 2φθ)σ2u 1− φ2 Ale´m disto, E(yt−1εt) = E [(ut + θut−1) yt−1] = cov(ut + θut−1, yt−1) = cov(ut, yt−1) + θcov(ut−1, yt−1) = θσ2u Pela Lei dos Grandes Nu´meros: p lim T→∞ T−1 TX t=2 yt−1εt = E(yt−1εt) = θσ 2 u p lim T→∞ T−1 TX t=2 y2t−1 = E(y 2 t−1) = (1 + θ2 + 2φθ)σ2u 1− φ2 Logo, p limφOLS = φ+ (1− φ2)θ 1 + θ2 + 2φθ 14 6) A probabilidade de que a observac¸a˜o t pertenc¸a a func¸a˜o de demanda e´: λt = Pr(Dt < St) = Pr(ut − vt < αpt + ztβ − apt − xtb) A func¸a˜o de distribuic¸a˜o conjunta de D e S e´ dada por: g(Dt, St) = f(Dt, St, α, β, a, b) = 1 2πσuσv exp ½ −1 2 µ Dt − apt − xtb σ2u ¶ + µ St − αpt − ztβ σ2v ¶¾ Se a observac¸a˜o t esta´ na func¸a˜o de demanda, sabemos que St = Qt e St > Qt.Assim, h(Qt|Qt = Dt) = Z ∞ Qt g(Qt, St)dSt/λt O denominador λt e´ a constante de normalizac¸a˜o.e e´ igual ao numerador integrado em Qt ao longo dos valores poss´ıveis. Da mesma forma, se a observac¸a˜o t esta´ na func¸a˜o de oferta, sabemos que St = Qt e Dt > Qt. Enta˜o, h(Qt|Qt = St) = Z ∞ Qt g(Dt,Qt)dDt/(1− λt) A func¸a˜o densidade na˜o condicional de Qt e´: h(Qt) = λh(Qt|Qt = Dt) + (1− λt)h(Qt|Qt = St) = Z ∞ Qt g(Qt, St)dSt + Z ∞ Qt g(Dt, Qt)dDt Logo, a func¸a˜o de verossimilhanc¸a e´ dada por: L = Y t h(Qt) 7) a) E(Yi|X) = P (Yi = 1|Xi).1 + P (Yi = 0|Xi) = exp(θ1 + θ2Xi) 1 + exp(θ1 + θ2Xi) b) f(Yi|Xi) = · exp(θ1 + θ2Xi) 1 + exp(θ1 + θ2Xi) ¸Yi · 1 1 + exp(θ1 + θ2Xi) ¸1−Yi = [exp(θ1 + θ2Xi)] Yi 1 + exp(θ1 + θ2Xi) 15 Assim, a func¸a˜o de log-verossimilhanc¸a para toda a amostra e´: lnL = nX i=1 ln f(Yi|Xi) = nX i=1 {Yi(θ1 + θ2Xi)− ln [1 + exp(θ1 + θ2Xi)]} c) Para encontrar os estimadores de MV de θ1 e θ2, utilizaremos o algor´ıtimo de Newton-Raphson. Para tanto, precisamos encontrar o vetor de scores e a matriz Hessiana para a func¸a˜o de verossimilhanc¸a acima. O vetor de scores e´ dado pela primeira derivada da func¸a˜o log-verossimilhanc¸a em relac¸a˜o aos paraˆmetros θ1 e θ2: g(θ1, θ2) = ∂ lnL θ1 ∂ lnL θ2 Pn i=1 Yi − exp(θ1 + θ2Xi) 1 + exp(θ1 + θ2Xi)Pn i=1 YiXi − exp(θ1 + θ2Xi) 1 + exp(θ1 + θ2Xi) Xi Amatriz Hessiana e´ dada pelas segundas derivadas da func¸a˜o de log-verossimi lhanc¸a: H(θ1, θ2) = − exp(θ1 + θ2Xi) [1 + exp(θ1 + θ2Xi)] 2 − exp(θ1 + θ2Xi) [1 + exp(θ1 + θ2Xi)] 2Xi − exp(θ1 + θ2Xi) [1 + exp(θ1 + θ2Xi)] 2Xi − exp(θ1 + θ2Xi) [1 + exp(θ1 + θ2Xi)] 2X 2 i O me´todo de Newton-Raphson consiste em treˆs passos: 1o : Definimos valores iniciais para os coeficientes, θˆk = θˆ0 2o :Calculamos θˆk+1 = θˆk −H(θˆk)−1g(θˆk). 3o :Repetimos o procedimento enquanto o erro for maior que um valor de toleraˆncia, que definimos ser 10−12, ou seja, enquanto g(θˆk)0H(θˆk)−1g(θˆk) > 10−12. Rotina Matlab: Primeiro oferecemos os valores iniciais e indicamos ao programa que dese- jamos que os passos sejam repetidos enquanto o erro for maior que a toleraˆncia: teta=[0.5;0.5] errolim=10ˆ(-12) cont=0; erro=errolim+10; while abs(erro)>errolim clear erro cont=cont+1; teta1=teta(1:1,1) teta2=teta(2:2,1) Em seguida, calculamos as matrizes g(θˆk) e H(θˆk), H(θˆk)−1g(θˆk), e, com isso, obtemos os novos valores dos coeficientes: 16 one=ones(500,1); g=inv(diag([one+exp(teta1*one+teta2*x)]))*[exp(teta1*one+teta2*x)]; grad1=one’*(ystar-g); grad2=x’*(ystar-g); grad=[grad1;grad2]; hess11=[((-1)*g)’*diag(one-g)]*one hess21=[((-1)*g)’*diag(one-g)]*x hess12=hess21 hess22=[((-1)*g)’*diag(one-g)]*[diag(x)*diag(x)*one] hess=[hess11 hess12;hess21 hess22] teta=[teta1;teta2]; corretor=inv(hess)*grad teta=teta-corretor teta1=teta(1:1,1) teta2=teta(2:2,1) erro=grad’*inv(hess)*grad end teta1=teta(1:1,1) teta2=teta(2:2,1) Repetindo o processo ate´ obter convergeˆncia, encontramos que os coeficientes estimados sa˜o θ1 = 0, 7946 e θ2 = 0, 6089 Para encontrar a variaˆncia dos estimadores, utilizamos o estimador consis- tente dado por h −H(θˆ) i−1 Rotina no Matlab: varcov=inv((-1)*hess) O resultado e´ a seguinte matriz de variaˆncia-covariaˆncia: V arcov(θˆ) = · 0, 0118 0, 0021 0, 0021 0, 0048 ¸ O intervalo de confianc¸a de 95% para θ2 e´: IC(95%) : θˆ2 ± 1, 96. p 0, 0048 : 0, 6089± 1, 36416 : [0, 4725; 0, 7453] 17 Econometria/listas/lista6.pdf Universidade de Sa˜o Paulo - Departamento de Economia EAE 5811 - Econometria I Prof. Dr. Ricardo Avelino 1o Semestre de 2007 Lista de Exerc´ıcios 6 - Data de Entrega 06/06/2007 1. Considere o modelo yt = µ+ εt, ...t = 1, ..., T com εt i.i.d, E [εt|xt] = 0, E £ ε2t |xt ¤ = σ2 + δ2, cov (εt, εs) = δ 2 para s 6= t. O estimador eficiente de µ e´ GLS. Compute a eficieˆncia relativa de OLS, definida por V (µˆOLS) V (µˆGLS) 2. No´s gostar´ıamos de estimar o modelo yt = x1t 1×1 β1 + x2t 1×1 β2 + εt, ...t = 1, ..., T onde E [εt|xt] = 0, xt = [x1t : x2t] (1) E £ ε2t |xt ¤ = x21tα1 + x 2 2tα2 (2) E [εtεs|xt, xs] = 0, ∀t 6= s (3) a) Suponha que voceˆ rode OLS. Derive a distribuic¸a˜o assinto´tica de βˆOLS. Como voceˆ estimaria a matriz de variaˆncia assinto´tica de βˆ? Como voceˆ testaria a hipo´tese de que β1/β2 = 1? b) Suponha agora que voceˆ decida rodar FGLS Explique como construir o estimator βˆFGLS e derive a sua distribuic¸a˜o assinto´tica. Como voceˆ estimaria a matriz de variaˆncia assinto´tica de βˆFGLS? Como voceˆ testaria a hipo´tese de que β1/β2 = 1? c) Suponha agora que voceˆ na˜o deseje fazer uma suposic¸a˜o espec´ıfica sobre a natureza da heteroscedasticidade (hipo´tese (2)). Voceˆ ainda esta´ interessado em estimar β1 e β2 e testar se β1/β2 = 1. Como voceˆ faria isso? 3. Considere o modelo yt = x1t 1×1 β1 + x2t 1×1 β2 + β3 + ε1t, ...t = 1, ..., T 1 onde E [ε|X] = 0 e E [εε0|X] = σ21I. Para a varia´vel x1, voceˆ na˜o dispo˜e das u´ltimas Tb = T − Ta observac¸o˜es. Avalie os treˆs procedimentos a seguir. a) Estime o modelo usando as primeiras Ta observac¸o˜es. Esse estimador sera´ necessariamente na˜o viesado? b) Suponha que voceˆ acredite que x1 e´ determinado pela relac¸a˜o x1 = ztγ+ ε2t, com E [ε2|Z] = 0, E [ε2ε02|Z] = σ22I e E [ε1ε02|X,Z] = 0. Enta˜o, com base nas primeiras Ta observac¸o˜es de x1, voceˆ estima γ e, para as u´ltimas Tb observac¸o˜es, voceˆ usa xˆ1t = ztγˆ e roda a regressa˜o original com todas as T observac¸o˜es. Esse procedimento conduz a estimadores na˜o viesados de β1, β2 e β3? Produz estimadores consistentes? c) Quando xˆ1 e´ utilizado, um componente extra, (x1 − xˆ1)β1, e´ adicionado ao erro para as u´ltimas Tb observac¸o˜es. Considere isso um problema de heteroscedasticidade e desenvolva um procedimento de mı´nimos quadrados generalizados fact´ıveis. Esse procedimento sera´ assintoticamente eficiente? 4) Suponha que voceˆ tenha a seguinte especificac¸a˜o yi = x 0 iβ + εi que satisfaz todas as suposic¸o˜es do teorema de Gauss-Markov. Entretanto, ao inve´s dos dados originais i = 1, ..., N , voceˆ tem J grupos de diferentes tamanhos. O primeiro grupo tem uma pessoa, o segundo grupo duas pessoas e o j-e´simo grupo tem j pessoas, sendo que PJ j=1 j = N. Tudo que voceˆ tem a` sua disposic¸a˜o sa˜o as me´dias dos grupos y¯je x¯j . a) Ache o estimador de mı´nimos quadrados generalizados e determine os pesos para implementar mı´nimos quadrados ponderados. b) Suponha que, apo´s voceˆ computar βˆGLS , voceˆ calcula o R 2 usual. Voceˆ enta˜o tem acesso aos dados originais e roda mı´nimos quadrados ordina´rios. Mas o R2 resultante e´ muito inferior. O que voceˆ conclui? Voceˆ achou um contra exemplo para o teorema de Gauss-Markov? 5. Derive a func¸a˜o de log-verossimilhanc¸a, as condic¸o˜es de primeira ordem para maximizac¸a˜o e a matriz de informac¸a˜o para o modelo yi = x0iβ + εi, εi ∼ N ³ 0, (z0iγ) 2 ´ Qual e´ a distribuic¸a˜o assinto´tica de βˆMLE? Como voceˆ estimaria consisten- temente a variaˆncia assinto´tica de βˆMLE? 6. Suponha que voceˆ esteja estimando o modelo y1 = γy2 + βx1 + ε1 em que o regressor y2 e´ correlacionado com o erro ε1 e que, ale´m disso, o erro e´ heterosceda´stico V (ε1t) = σ2x21t 2 Suponha que haja dois candidatos va´lidos para instrumentos no modelo, x2 e x3. O objetivo e´ estimar γ e β e testar hipo´teses envolvendo-os. a) Quais sa˜o as propriedades de mı´nimos quadrados em dois esta´gios nesse caso? b) Como voceˆ estimaria esse modelo e por queˆ? c) Fornec¸a uma estat´ıstica que possa ser utilizada para testar a hipo´tese de que γ = 0 e deˆ a sua distribuic¸a˜o. 3 Econometria/listas/lista6sol.pdf Universidade de Sa˜o Paulo - Departamento de Economia EAE 5811 - Econometria I Prof. Dr. Ricardo Avelino 1o Semestre de 2007 Lista de Exerc´ıcios 5 - Soluc¸o˜es Monitoras: Paula Pereda Jaqueline de Oliveira 1. Seja i um vetor de 1’s de dimensa˜o Tx1. Assim, o estimador de OLS para µ e a variaˆncia do mesmo sa˜o iguais a: ˆ µOLS = (i 0i)−1i0y = X yt T V AR( ˆ µOLS) = (i 0i)−1(i0Ωi)(i0i)−1 onde Ω = E(εε0) = δ2 + σ2 δ2 ... δ2 δ2 δ2 + σ2 ... δ2 ... ... ... ... δ2 ... ... δ2 + σ2 Enta˜o, a variaˆncia de ˆ µOLSsera´: V AR( ˆ µOLS) = 1 T [ σ2 + Tδ2 σ2 + Tδ2 ... σ2 + Tδ2 ]i 1 T = 1 T (Tσ2 + T 2δ2) 1 T = σ2 T + δ2 O estimador de GLS para µ e´ igual a: ˆ µGLS = (i 0Ω−1i)−1i0Ω−1y Seja Ω−1 = a11 a12 ... a1T a21 a22 ... a2T ... ... ... ... aT1 aT2 ... aTT Enta˜o, δ2 + σ2 δ2 ... δ2 δ2 δ2 + σ2 ... δ2 ... ... ... ... δ2 ... ... δ2 + σ2 . a11 a12 ... a1T a21 a22 ... a2T ... ... ... ... aT1 aT2 ... aTT = 1 0 ... 0 0 1 ... 0 ... ... ... ... 0 0 ... 1 1 Assim, ¡ δ2 + σ2 ¢ a11 + δ 2a21 + ...+ δ 2aT1 = 1 δ2a11 + ¡ δ2 + σ2 ¢ a21 + ...+ δ 2aT1 = 0 ... δ2a11 + δ 2a21 + ...+ ¡ δ2 + σ2 ¢ aT1 = 1 Seguem deste sistema de equac¸o˜es alguns resultados como: a21 = a31 = ... = aT1 = a σ2a11 − σ2a21 = 1⇒ a11 = 1 σ2 + a ¡ Tδ2 + σ2 ¢ a11 + ¡ Tδ2 + σ2 ¢ (T − 1)a = 1¡ Tδ2 + σ2 ¢ ( 1 σ2 + a) + ¡ Tδ2 + σ2 ¢ (T − 1)a = 1¡ Tδ2 + σ2 ¢ 1 σ2 + ¡ Tδ2 + σ2 ¢ Ta = 1 ⇒ a = 1− (Tδ 2+σ2) σ2 T ¡ Tδ2 + σ2 ¢ ⇒ a = −δ2 σ2 ¡ Tδ2 + σ2 ¢ Assim, os elementos da primeira coluna da matriz inversa sera˜o: a11 = 1 σ2 − δ 2 σ2 ¡ Tδ2 + σ2 ¢ = (T − 1)δ2 + σ2 σ2 ¡ Tδ2 + σ2 ¢ a21 = a31 = ... = aT1 = − δ2 σ2 ¡ Tδ2 + σ2 ¢ Devido a` simetria existente nessa matriz, conclue-se que: Ω−1 = (T−1)δ2+σ2 σ2(Tδ2+σ2) − δ2 σ2(Tδ2+σ2) ... − δ2 σ2(Tδ2+σ2) − δ2σ2(Tδ2+σ2) (T−1)δ2+σ2 σ2(Tδ2+σ2) ... − δ2 σ2(Tδ2+σ2) ... ... ... ... − δ2σ2(Tδ2+σ2) − δ2 σ2(Tδ2+σ2) ... (T−1)δ2+σ2 σ2(Tδ2+σ2) = 1 σ2 ¡ Tδ2 + σ2 ¢ (T − 1)δ2 + σ2 −δ2 ... −δ2 −δ2 (T − 1)δ2 + σ2 ... −δ2 ... ... ... ... −δ2 −δ2 ... (T − 1)δ2 + σ2 Como ˆ µGLS = (i 0Ω−1i)−1i0Ω−1y = ¡£ σ2 σ2 ... σ2 ¤ i ¢−1 £ σ2 σ2 ... σ2 ¤ y = 1 Tσ2 .σ2 X yt = X yt T = y 2 Note que o estimador de GLS para µ e´ igual ao estmador OLS. Consequente- mente, as variaˆncias tambe´m sera˜o, ou seja: V AR( ˆ µGLS) = V AR( ˆ µOLS) = σ2 T + δ2 Portanto, a eficieˆncia relativa do OLS e´ 1. 2. a) OLS Seja xt = [x1t : x2t], temos que o estimador OLS para o beta e´: ˆ βOLS = ( X xtx0t) −1( X xtyt) = β + ( X xtx0t) −1( X xtεt) Portanto, temos que: √ n µ ˆ βOLS − β ¶ = ( X xtx0t n )−1( X xtεt√ n ) Pela Lei dos Grandes Nu´meros, p lim P xtx0t n =Mn, que e´ uma matriz posi- tiva definida. Assim, p lim ³P xtx0t n ´−1 =M−1n O segundo termo, tera´ distribuic¸a˜o assinto´tica igual a:X xtεt√ n d−→ N(0, Vn) para Vn = V ·X xtεt√ n ¸ = 1 n E(ε2txtx 0 t) Deste modo, temos que a distribuic¸a˜o assinto´tica do estimador de OLs sera´: √ n µ ˆ βOLS − β ¶ d−→ N(0,M−1n VnM−1n ) A matriz de variaˆncia-covariaˆncia assinto´tica de ˆ βOLS e´ dada por: AssV ( ˆ βOLS) =M −1 n VnM −1 n em que M−1n pode ser consistentemente estimado por ˆ M −1 n = µX xtx0t n ¶−1 Ja´ a matriz Vn pode ser estimada utilizando a abordagem de White, de maneira a obter um estimador robusto da variaˆncia: Para obtermos o estimador de White, devemos seguir os seguintes passos: 3 i) Rodar a equac¸a˜o por OLS para estimar os paraˆmetros: ˆ β1 e ˆ β2 ii).Calcular os res´ıduos ˆ εt = yt − x1t ˆ β1 − x2t ˆ β2 iii) Utilizando os res´ıduos, estima-se a matriz Vn como a seguir: ˆ V n = 1 n X ˆ ε 2 txtx 0 t Portanto, a matriz de variaˆncia-covariaˆncia assinto´tica estimada sera´ ˆ AssV ( ˆ βOLS) = µX xtx0t n ¶−1 1 n X ˆ ε 2 txtx 0 t µX xtx0t n ¶−1 Como queremos testar a hipo´tese de que β1β2 = 1, ou seja, β1−β2 = 0, temos que nossa hipo´tese se baseia em uma combinac¸a˜o linear dos paraˆmetros: H0 : Rβ = q H1 : Rβ 6= q onde R = £ 1 −1 ¤ β0 = £ β1 β2 ¤ q = 0 Para testar podemos utilizar a estatistica t: t = R ˆ βOLSr R ˆ AssV ( ˆ βOLS)R0 Se |t| > t1−α,n−2, rejeita-se a H0 b) Para estimarmos ˆ βGLS , devemos seguir os seguintes passos: i) Rodar a equac¸a˜o por OLS para estimar os paraˆmetros: ˆ β1 e ˆ β2 ii).Calcular os res´ıduos ˆ εt = yt − x1t ˆ β1 − x2t ˆ β2 iii) Estimar por OLS ˆ ε 2 t = ˆ α1x1t + ˆ α2x2t. iv) Construir a matriz de variancia-covariancia: ˆ Ω = ˆ α1x11 + ˆ α2x21 0 ... 0 0 ˆ α1x12 + ˆ α2x22 ... 0 ... ... ... ... 0 0 ... ˆ α1x1T + ˆ α2x2T 4 v) Calcular o estimador FGLS ˆ βGLS = à X 0 ˆ Ω −1 X !−1 X 0 ˆ Ω −1 Y ÃX xtx0t ˆ wt !−1ÃX xtyt ˆ wt ! onde ˆ wt = ˆ α1x1t + ˆ α2x2t Portanto, temos que: √ n µ ˆ βGLS − β ¶ = à 1 n X xtx0t ˆ wt !−1à 1√ n X xtεt ˆ wt ! Pela Lei dos Grandes Nu´meros, plim X xtx0t n ˆ wt = E[ xtx0t wt ], e o segundo termo, tera´ distribuic¸a˜o assinto´tica igual a:X xtεt ˆ wt √ n d−→ N µ 0, E( 1 w2t x0tε 2 txt) ¶ onde E x 0 tε 2 txt ˆ w 2 t /x = E(ε 2 t/x)xtx 0 t ˆ w 2 t = E xtx 0 t ˆ w 2 t Deste modo, temos que a distribuic¸a˜o assinto´tica do estimador de OLS sera´: √ n µ ˆ βGLS − β ¶ d−→ N " 0, µ E µ xtx0t wt ¶¶−1# onde V ·√ n µ ˆ βGLS − β ¶¸ = · E µ xtx0t wt ¶¸−1 E µ xtx0t wt ¶· E µ xtx0t wt ¶¸−1 = · E µ xtx0t wt ¶¸−1 h E ³ xtx 0 t wt ´i−1 pode ser consistemente estimado por ˆ V · ˆ βGLS ¸ = "X 1 n à xtx0t ˆ wt !#−1 5 Como anteriormente, queremos testar a hipo´tese de que β1 − β2 = 0. Por- tanto, H0 : Rβ = q H1 : Rβ 6= q onde R = £ 1 −1 ¤ β0 = £ β1 β2 ¤ q = 0 Para testar podemos utilizar a estatistica t: t = R ˆ βGLSr R ˆ V ( ˆ βGLS)R0 Se |t| > t1−α,n−2, rejeita-se a H0 c) Neste caso, como na˜o conhecemos a forma funcional da heterocedastici- dade, podemos corrigir a ineficieˆncia do estimador OLS utilizando o estimador robusto da variaˆncia, proposto por White. Este estimador foi utilizado no item a, portanto a estimac¸a˜o da matriz de variaˆncia-covariaˆncia robusta e o teste de hipo´tese ja´ foram realizados. 3. a) Sejam xa1 e x a 2 vetores (Tax1) que conteˆm as Ta primeiras observac¸o˜es de x1t e x2t, respectivamente. Da mesma maneira, defina ya e εa. SejaXa = [xa01 xa02 1a0]0 e β = [β1 β2 β3]. O estimador de OLS para os betas e´ igual a ˆ βOLS = (X a0Xa)−1(Xa0ya) = (Xa0Xa)−1Xa0(Xaβ + εa) = β + (Xa0Xa)−1Xa0εa Portanto, o estimador de OLS e´ na˜o viesado se E[(Xa0Xa)−1Xa0εa/Xa] = 0. Note que isso na˜o e´ uma implicac¸a˜o direta da hipo´tese inicial de que E[ε/X] = 0. Consequentemente, na˜o podemos afirmar que o estimador de OLS e´ na˜o viesado. b) Sejam ˜ X = " xa1 x a 2 1 a ˆ x b 1 x b 2 1 b # e ˜ ε = " εa1 εb1 + (x b 1 − ˆ x b 1)β1 # 6 onde ˆ x b 1 = z b ˆγ e ˆ γ = ( TaP t=1 zat z a0 t ) −1( TaP t=1 zat x a0 1t) O estimador ˆ β resultante sera´ ˆ β = ( ˜ X 0 ˜ X)−1( ˜ X 0 y) = β + ( ˜ X 0 ˜ X)−1( ˜ X 0 ˜ ε) e e´ na˜o viesado se E " ( ˜ X 0 ˜ X)−1( ˜ X 0 ˜ ε)/X # = ( ˜ X 0 ˜ X)−1 ˜ X 0 E( ˜ ε/X) = 0 Entretanto, E(ε˜/X˜) = E · εa1 εb1 + (x b 1 − xˆb1)β1 /X˜ ¸ = E · εa1 εb1 /X˜ ¸ +E · 0 (zbγ + εb2 − zbγˆ)β1 /X˜ ¸ = E(ε1/X˜) +E · 0 zb(γ − γˆ)β1 /X˜ ¸ +E · 0 εb2β1 /X˜ ¸ Segue, de E(ε1ε02/X,Z) = 0, que E(ε1(x−zγ)0/X,Z) = 0, o que implica que E(ε1/X,Z)ε02 = 0 =⇒ E(ε1/X,Z) = 0, a menos que X e Z sejam perfeitamente correlacionados. Entretanto, E(ε1/X,Z) = 0; E(ε1/X˜) = 0, uma vez que X˜ e´ um subconjunto de (X,Z). Analisando agora o termo E h zb(γ − γˆ)β1/X˜ i = zb h γ −E(γˆ/X˜) i β1. Por- tanto este termo sera´ zero somente se E(γˆ/X˜) = γ. Finalmente, E h εb2β1/X˜ i = E h εb2/X˜ i β1 = E h xb1 − zbγ/X˜ i , que provavel- mente e´ diferente de zero. Portanto, baseando-se nas esperanc¸as acima, na˜o se pode garantir que o estimador de β seja na˜o viesado. A consisteˆncia do estimador requere que plim( ˜ X 0 ˜ X)−1( ˜ X 0 ˜ ε) = 0.Assumindo- se que plim( ˜ X 0 ˜ X T ) −1 = Q−1, em que esta matriz e´ positiva definida, a con- sisteˆncia de ˜ β passa a depender do plim( ˜ X 0 ˜ ε T ). 7 Entretanto, ˜ X 0 ˜ ε T = 1 T xa01 ˆ x b0 1 xa02 x b0 2 1a0 1b0 " εa1 εb1 + (x b 1 − ˆ x b 1)β1 # = 1 T xa01 εa1 + ˆ x b0 1 [ε b 1 + (x b 1 − ˆ x b 1)β1] xa02 ε a 1 + x b0 2 [ε b 1 + (x b 1 − ˆ x b 1)β1] 1a0εa1 + 1b0[εb1 + (xb1 − ˆ x b 1)β1] = 1 T xa01 εa1 + ˆ x b0 1 ε b 1 + ˆ x b0 1 [(x b 1 − ˆ x b 1)β1] xa02 ε a 1 + x b0 2 ε b 1 + x b0 2 [(x b 1 − ˆ x b 1)β1] 1a0εa1 + 1b0εb1 + 1b0[(xb1 − ˆ x b 1)β1] = X 0ε1 T + 1 T ( ˆ x b0 1 − xb1)εb1 0 0 + 1 T ˆ x b0 1 [(x b 1 − ˆ x b 1)β1] xb02 [(xb1 − ˆ x b 1)β1] 1b0[(xb1 − ˆ x b 1)β1] = A+B+C Analisaremos os termos A, B e C, separadamente: A: Temos, por hipo´tese, que p lim(X 00ε1 T ) = 0. B: Sabemos que ˆ x b 1 = z b ˆγ = zb(za 0 za)−1(za 0 xa) = zbγ + zb(za 0 za)−1(za 0 εa2) xb1 = z bγ + εb2 Portanto, ˆ x b 1 − xb1 = zb(za 0 za)−1(za 0 εa2)− εb2 =⇒ (ˆx b 1 − xb1)0εb1 = εa02 za(za 0 za)−1zb 0 εb1 − εb02 εb1 =⇒ ( ˆ x b 1 − xb1)0εb1 T = Tb T " εa02 za Ta ( za 0 za Ta )−1 zb 0 εb1 Tb − ε b0 2 ε b 1 Tb # =⇒ p lim ( ˆ x b 1 − xb1)0εb1 T = p lim µ Tb T ¶" p lim µ εa02 za Ta ¶ p lim " ( za 0 za Ta )−1 # p lim à zb 0 εb1 Tb ! −p lim µ εb02 ε b 1 Tb ¶¸ 8 Se o p lim ¡Tb T ¢ = 0 e todos os outros termos convergerem para matrizes finitas, a expressa˜o acima sera´ zero. Por outro lado, se p lim ¡Tb T ¢ > 0 , teremos que examinar os demais termos. p lim à zb 0 εb1 Tb ! = E " zb 0 εb1 Tb /X,Z # = zb 0 E(εb1/X,Z) Tb = 0 p lim µ εb02 εb1 Tb ¶ = E · εb02 εb1 Tb /X,Z ¸ = E(εb02 εb1/X,Z) Tb = 0 Assim, se os demais termos convergirem para matrizes finitas, teremos a convergeˆncia. C: 1 T xˆb01 (x b 1 − xˆb1)β1 = 1 T [γ0zb0 + εa02 z a(za 0 za)−1zb 0 [εb2 − zb(za 0 za)−1(za 0 εa2)]β1 = 1 T h γ0zb0εb2 − γ0zb0zb(za 0 za)−1(za 0 εa2) + ε a0 2 z a(za 0 za)−1zb 0 εb2 −εa02 za(za 0 za)−1zb 0 zb(za 0 za)−1(za 0 εa2) i β1 = Tb T " γ0zb0εb2 Tb − γ 0zb0zb Tb ( za 0 za Ta )−1( za 0 εa2 Ta ) + εa02 z a Ta ( za 0 za Ta )−1 zb 0 εb2 Tb −ε a0 2 z a Ta ( za 0 za Ta )−1 zb 0 zb Tb ( za 0 za Ta )−1( za 0 εa2 Ta ) # β1 Se o p lim ¡Tb T ¢ = 0 e todos os outros termos convergerem para matrizes finitas, a expressa˜o acima sera´ zero. Por outro lado, se p lim ¡ Tb T ¢ > 0 , teremos que examinar os demais termos. Suponha que Ta −→∞, p lim zb0εb2 Tb = E " zb 0 εb2 Tb /Z # = zb 0 E(εb2/Z) Tb = 0 p lim za 0 εa2 Ta = E " za 0 εa2 Ta /Z # = za 0 E(εb2/Z) Ta = 0 Assim, se Ta −→∞, toda a expressa˜o ira´ convergir para zero. 1 T ˆ x b0 2 (x b 1 − ˆ x b 1)β1 = Tb T [ xb02 εb2 Tb − x b0 2 z b Tb ( za 0 za Ta )−1( za 0 εa2 Ta )]β1 p lim xb02 εb2 Tb = E · xb02 εb2 Tb /X ¸ = xb02 E(εb2/X) Tb = 0 p lim za 0 εa2 Ta = E " za 0 εa2 Ta /Z # = za 0 E(εb2/Z) Ta = 0, se Ta −→∞ 9 e, por fim, 1 T 1b0(xb1 − ˆ x b 1)β1 = Tb T [ 1b0εb2 Tb − 1 b0zb Tb ( za 0 za Ta )−1( za 0 εa2 Ta )]β1 Se o p lim ¡Tb T ¢ = 0 e todos os outros termos convergerem para matrizes finitas, a expressa˜o acima sera´ zero. Por outro lado, se p lim ¡ Tb T ¢ > 0 , mas Ta −→∞, p lim 1b0εb2 Tb = E · 1b0εb2 Tb /Z ¸ = 1b0E(εb2/Z) Tb = 0 p lim za 0 εa2 Ta = E " za 0 εa2 Ta /Z # = za 0 E(εb2/Z) Ta = 0, se Ta −→∞ Neste caso, o u´ltimo termo tambe´m convergira´ para zero. Em resumo, o estimador de β sera´ consistente se p lim ¡ Tb T ¢ = 0 ou p limTa = 0 4. a) Para o j-e´simo grupo, temos: yj = x 0 jβ + εj Onde yj , x , j e εjsa˜o vetores de dimensa˜o jx1. Premultiplicando ambos os lados da equac¸a˜o por [1/j]i0, onde i e´ um vetor de 1’s de dimensa˜o jx1, encontramos: 1 j i0yj = 1 j i0x0jβ + 1 j i0εj ⇒ yj = x 0 jβ + εj Para todos grupos a equac¸a˜o fica: y = x0β + ε, onde y = [y1y2...yJ ], x = [x1x2...xJ ] e ε = [ε1ε2...εJ ]. Ω = E[εε0] = E ε1ε1 ε1ε2 ... ε1εJ ε2ε1 ε2ε2 ... ε2εJ ... ... ... ... εJε1 εJε2 ... εJεJ = σ2 0 ... 0 0 σ 2 2 ... 0 ... ... ... ... 0 0 ... σ 2 J Assim, o estimador de minimos quadrados generalizados (GLS) e´: ˆ βGLS = (x 0Ω−1x)−1(x0Ω−1y) Como a inversa da matriz oˆmega e´ dada por: Ω−1 = 1 σ2 0 ... 0 0 2σ2 ... 0 ... ... ... ... 0 0 ... Jσ2 10 Podemos reescrever o estimador GLS: ˆ βGLS = (x¯ 0Ω−1x¯)−1(x¯0Ω−1y¯) = ( X xjxj σ2/j )−1( X xj y¯j σ2/j ) = ( X jxj x¯j) −1( X jxj y¯j) Portanto, os grupos de observac¸o˜es sa˜o ponderados pelo nu´mero de ob- servac¸o˜es de cada grupo, isto porque a me´dia dos grupos que teˆm mais ob- servac¸o˜es possuem menores variaˆncias e, portanto, recebem maiores pesos. b) O coeficiente de determinac¸a˜o (R2) e´ uma medida nume´rica do ajuste da regressa˜o e espera-se que os valores me´dios dos dados agrupados estejam mais pro´ximos a` regressa˜o quando comparados com todas as observac¸o˜es da amostra, gerando assim um melhor ajuste, ou seja, apresentando um R2 maior. Mas isso na˜o contradiz o Teorema de Gauss-Markov. Para verificarmos isso, reescreveremos ˆ βGLS como: βˆGLS = (x 0H 0Hx)−1(x0H 0Hy) onde H = 1 0 0 ... 0 0 ... 0 0 12 1 2 ... 0 0 ... 0 ... ... ... ... ... ... ... ... 0 0 0 ... 1J 1 J ... 1 J A variaˆncia do estimador GLS sera´: V AR( ˆ βGLS/x) = σ 2(x0H 0Hx)−1 Enta˜o, a diferenc¸a entre as variaˆncias de OLS e GLS e´: V AR( ˆ βOLS/x)− V AR( ˆ βGLS/x) = σ 2(x0x)−1 − σ2(x0H 0Hx)−1 Para descobrirmos o sinal da diferenc¸a basta analisarmos as matrizes inver- tidas, ou seja, o sinal da expresa˜o abaixo: x0x− x0H 0Hx = x0(I −H 0H)x Como (I −H 0H) e´ idempotente, x0(I −H 0H)x ≡ x0(I −H 0H)0(I −H 0H)x, que e´ uma matriz positiva definida. Portanto, x0x ≥ x0H 0Hx, o que implica que V AR( ˆ βOLS/x) ≤ V AR( ˆ βGLS/x). Assim, a variaˆncia do estimador de OLS na˜o e´ maior que a variaˆncia do estimador GLS. 5. A densidade conjunta de (y1, y2,..., yn) e´ igual a: f(y1, y2,..., yn/x) = nY i=1 1√ 2π(z0iγ) exp · −1(yi − x0iβ)2 2(z0iγ)2 ¸ 11 Assim, a func¸a˜o de log-verossimilhanc¸a e´ dada por: ⇒ lnL(θ) = −n 2 ln(2π)− X ln(z0iγ)− 1 2 X·yi − x0iβ (z0iγ) ¸2 Para maximizarmos a func¸a˜o acima, devemos deriva´-la nos paraˆmetros de interesse θ0 = £ β γ ¤ e igualar a zero. Desta forma, derivamos as seguintes Condic¸o˜es de Primeira Ordem (CPO): ∂ lnL ∂β = X xi · yi − x0iβ (z0iγ)2 ¸ = 0 ∂ lnL ∂γ = − X zi (z0iγ) + X zi (yi − x0iβ)2 (z0iγ)3 = 0 As derivadas segundas sa˜o ∂2 lnL ∂β∂β0 = − X xix0i (z0iγ)2 ∂2 lnL ∂β∂γ0 = ∂2 lnL ∂γ∂β0 = −2 X·xi(yi − x0iβ)z0i (z0iγ)3 ¸ ∂2 lnL ∂γ∂γ0 = X ziz0i (z0iγ)2 − 3 X (yi − x0iβ)2ziz0i (z0iγ)4 Enta˜o, a matriz de informac¸a˜o sera´ I(θ) = E · −∂ 2 lnL ∂θ∂θ0 ¸ = E P xix0i (z0iγ)2 2 Phxi(yi−x0iβ)z0i (z0iγ)3 i 2 Phxi(yi−x0iβ)z0i (z0iγ)3 i − P ziz0i (z0iγ)2 + 3 P (yi−x0iβ)2ziz0i (z0iγ)4 = " P xix0i (z0iγ)2 0 0 2 P ziz0i (z0iγ)2 # pois E ·X xi(yi − x0iβ)z0i (z0iγ)3 ¸ = ·X xiE(yi − x0iβ)z0i (z0iγ)3 ¸ = 0 e E · − X ziz0i (z0iγ)2 + 3 X (yi − x0iβ)2ziz0i (z0iγ)4 ¸ = − X ziz0i (z0iγ)2 + 3 X E[(yi − x0iβ)2]ziz0i (z0iγ)4 = − X ziz0i (z0iγ)2 + 3 X (z0iγ)2ziz0i (z0iγ)4 = 2 X ziz0i (z0iγ)2 12 O Limite Inferior de Crame´r-Rao para a variaˆncia do estimador na˜o viesado e´ a inversa da matriz de informac¸a˜o, que no caso sera´ a matriz diagonal cu- jos elementos da diagonal sa˜o exatamente os elementos inversos da matriz de informac¸a˜o V (θ) = [I(θ)]−1 = µ E · −∂ 2 lnL ∂θ∂θ0 ¸¶−1 = Ã" P xix0i (z0iγ)2 0 0 2 P ziz0i (z0iγ)2 #!−1 = (z0iγ) 2 S xix0i 0 0 (z0iγ) 2 2 S ziz0i Segue pelo TLC de Lindberg-Levy temos √ n( ˆ θ − θ) d−→ N ³ 0, n [I(θ)]−1 ´ o que implica que a distribuic¸a˜o assinto´tica de ˆ θ sera´ ˆ θ d−→ N ³ θ, [I(θ)]−1 ´ Consequentemente, ˆ βMLE d−→ N(β, [I(θ)]−1) Como ˆ θ e´ estimador consistente para θ, a variaˆncia assinto´tica de ˆ βMLE pode ser consistentemente estimada por AssV ( ˆ βMLE) = (z0i ˆ γ)2P xix0i 6. a) No primeiro esta´gio de 2SLS, calculamos os valores estimados de x1 e y2, baseados na regressa˜o de x1 e y2 contra x1, x2 e x3, ou seja:" ˆ x1 ˆ y2 # = Z(Z 0Z)−1Z0 · x1 y2 ¸ = PZ · x1 y2 ¸ , onde PZ = Z(Z0Z)−1Z0 e Z0 = £ x01 x 0 2 x 0 3 ¤ . No segundo esta´gio, estimamos · γ β ¸ baseados na regressa˜o de y1, em ˆ y2e 13 ˆ x1: ˆ γ ˆ β = ·µ y02PZ x01PZ ¶¡ PZy2 PZx1 ¢¸−1 µ y02PZ x01PZ ¶·¡ y2 x1 ¢µ γ β ¶ + ε1 ¸ = ·µ y02PZy2 y02PZx1 x01PZy2 x01PZx1 ¶¸−1µ y02PZy2 y02PZx1 x01PZy2 x01PZx1 ¶µ γ β ¶ + ·µ y02PZy2 y 0 2PZx1 x01PZy2 x01PZx1 ¶¸−1µ y02PZε1 x01PZε1 ¶ = µ γ β ¶ + ·µ y02PZy2 y 0 2PZx1 x01PZy2 x 0 1PZx1 ¶¸−1µ y02PZε1 x01PZε1 ¶ Sendo p lim 1 n µ y02PZy2 y02PZx1 x01PZy2 x 0 1PZx1 ¶ = Q onde Q e´ uma matriz positiva definida, o estimador 2SLS e´ consistente desde que p lim 1 n (x01PZε1) = p lim 1 n (x01ε1) = 0 (por hipo´tese), p lim 1 n (y02PZε1) = 0 e que x1, x2 e x3 sejam instrumentos va´lidos. Entretanto, o estimador 2SLS na˜o utiliza as informac¸o˜es contidas na hete- rocedasticidade do termo aleato´rio. Portanto, na˜o e´ eficiente. E´ poss´ıvel demonstrar que o estimador 2SLS e´ um caso especial do estimador GMM, quando estimamos GMM utilizando como matriz de pesos a inversa de σ2(Z´Z). Para este caso, o estimador GMM minimiza a seguinte expressa˜o: 1 T X (yt − x0tβ)0z0t 1 σ2 ³X ztz 0 t ´−1 1 T X zt(yt − x0tβ) A condic¸a˜o de primeira ordem e´ dada por:X xtz 0 t ³X ztz 0 t ´−1X zt(yt − x0tβ) = 0 Seja ˆ δ 0 = P xtz0t ( P ztz0t) −1 o coeficiente da regressa˜o de xt contra zt esti- mada por MQO, enta˜o ˆ δ0zt e´ o valor previsto de xt, o que implica que a C.P.O pode ser escrita por: X ˆ xt(yt − x0tβ) = 0 14 Resolvendo para β temos: ˆ β = X ( ˆ xtx0t) −1 X ( ˆ xtyt) = X ( ˆ xt ˆ x 0 t) −1 X ( ˆ xtyt) que e´ exatamente o estimador 2SLS. b) Vimos no item a) que o estimador 2SLS na˜o utiliza a matriz de pon- derac¸o˜es o´tima, que no caso e´ igual a: E ·X ˆ xtutu0t ˆ x 0 t ¸ = X ˆ xtE (utu0t) ˆ x 0 t = X ˆ xtσ2x21t ˆ x 0 t = σ 2 X ˆ xtx21t ˆ x 0 t Portanto, para obtermos um estimador mais eficiente, o modelo deve ser estimado por GMM usando a seguinte matriz de ponderac¸a˜o: 1 σ2 µX ˆ xtx 2 1t ˆ x 0 t ¶−1 onde x1t = · y2 x1 ¸ Neste caso, o estimador GMM minimiza: 1 T X (yt − x0tβ)0z0t 1 σ2 ³X xˆtx21txˆ 0 t ´−1 1 T X ztyt c) A matriz de variaˆncia-covariaˆncia do estimador de 2SLS e´ dada por: V ˆ γ2SLS ˆ β2SLS = E h (Xˆ 0Xˆ)−1(Xˆ 0εε0Xˆ)(Xˆ 0Xˆ)−1/Xˆ i = (Xˆ 0Xˆ)−1Xˆ 0ΩXˆ(Xˆ 0Xˆ)−1 onde Ω = E(εitε0it) = σ 2diag £ x211 x 2 12 ... x 2 1T ¤ Enta˜o, √ n ˆ γ2SLS ˆ β2SLS − γ β d−→ N [0, Q−1Q∗Q−1] ˆ γ2SLS ˆ β2SLS d−→ N · γ β , Q−1Q∗Q−1 n ¸ onde Q−1 = p lim( ˆ X 0 ˆ X T ) −1 e Q∗ = p lim( ˆ X 0 Ω ˆ X T ) −1. O teste cuja hipo´tese nula e´ γ = 0, pode ser baseado na seguinte estat´ıstica: γˆ[(Xˆ 0Xˆ)−1Xˆ 0ΩXˆ(Xˆ 0Xˆ)−1]a11 ˆ γ d−→ κ21 onde a11 indica que e´ o elemento da primeira linha e primeira coluna da matriz. A hipo´tese nula e´ rejeitada ao n´ıvel de significaˆncia de 5% se a estat´ıstica acima tiver valor observado maior que o valor tabelado κ295%,1. 15 Econometria/listas/lista7.pdf Universidade de Sa˜o Paulo - Departamento de Economia EAE 5811 - Econometria I Prof. Dr. Ricardo Avelino 1o Semestre de 2007 Lista de Exerc´ıcios 7 - Data de Entrega 21/06/2007 1. (Identificac¸a˜o e estimac¸a˜o de modelos de equac¸o˜es simultaˆneas) Discuta identificac¸a˜o e estimac¸a˜o do seguinte modelo de equac¸o˜es simultaˆneas. y1t + γ12y2t + γ13y3t + β11x1t + β13x3t = ε1t y2t + γ23y3t + β22x2t + β23x3t = ε2t γ31y1t + y3t + β32x2t = ε3t (Voceˆ na˜o tem nenhuma restric¸a˜o envolvendo as covariaˆncias). Certifique-se de que voceˆ esta´ considerando tanto as condic¸o˜es de ordem quanto de posto e de explicitar as suposic¸o˜es necessa´rias para a estimac¸a˜o dos paraˆmetros do modelo. 2. (Identificac¸a˜o e estimac¸a˜o de modelos de equac¸o˜es simultaˆneas) Considere o seguinte modelo de oferta e demanda: qs = α0 + α1p+ α2ω + µs qd = β0 + β1p+ β2y + µd qs = qd onde ω denota um vetor de observac¸o˜es de dimensa˜o T × 1 do clima e y e´ um vetor de observac¸o˜es T × 1 da renda. Ambos sa˜o exo´genos, por hipo´tese. a) Discuta a identificac¸a˜o dos paraˆmetros nas equac¸o˜es de oferta e demanda. b) A restric¸a˜o α2 = 0 impo˜e alguma restric¸a˜o nos paraˆmetros da forma reduzida? Cuidadosamente descreva um teste de H0 : α2 = 0 contra H1 : α2 6= 0 utilizando os paraˆmetros da forma reduzida. Dica: Escreva H0 como H0 : RΠ = q0. c) Suponha que a primeira equac¸a˜o e´ estimada por um estimador de in- formac¸a˜o limitada, isto e´, varia´veis instrumentais. Voceˆ pode determinar se a primeira equac¸a˜o e´ uma curva de oferta ou de demanda examinando o sinal de α1? d) Suponha que uma ageˆncia governamental a cada ano fixe o prec¸o em p0t e que esse prec¸o possa diferir ano a ano. Que efeito essa pol´ıtica teria na identificac¸a˜o e estimac¸a˜o do modelo? 1 3. (Identificac¸a˜o atrave´s de restric¸o˜es na matriz de covariaˆncia) Considere o seguinte sistema de equac¸o˜es sob as hipo´teses usuais y1 = γ12y2 + ε1 (1) y2 = γ21y1 + β21x1 + ε2 (2) a) As equac¸o˜es (1) e (2) sa˜o identificadas se no´s na˜o fizermos nenhuma suposic¸a˜o a respeito da distribuic¸a˜o de probabilidade, exceto que E (ε1|x1) = E (ε2|x1) = 0? b) Mostre que se a covariaˆncia dos erros e´ zero, enta˜o ambas as equac¸o˜es sa˜o identificadas. 4. (Estimac¸a˜o e teste de especificac¸a˜o para o modelo de equac¸o˜es simultaˆneas) Voceˆ tem um sistema com treˆs equac¸o˜es, no qual cada equac¸a˜o e´ identificada. y1 = Y1γ1 +X1β1 + ε1 (1) y2 = Y2γ2 +X2β2 + ε2 (2) y3 = Y3γ3 +X3β3 + ε3 (3) onde εt ∼ N (0,Σ) . Seja X = [X1,X2,X3] . Voceˆ esta´ confiante de que a especificac¸a˜o das duas primeiras equac¸o˜es esta´ correta, mas na˜o tem certeza se E [X 0tε3t] = 0. Para construir um teste, voceˆ decide rodar uma regressa˜o de mı´minos quadrados em dois esta´gios em cada equac¸a˜o e compara´-la com os resultados de mı´minos quadrados em treˆs esta´gios para o sistema todo. a) Explique intuitivamente por que voceˆ pode construir um teste de es- pecificac¸a˜o a partir desse procedimento, demonstrando o efeito da especificac¸a˜o incorreta. b) Para construir um teste formal, voceˆ considera as estimativas de cada equac¸a˜o δi = · γˆi βˆi ¸ e constro´i a estat´ıstica W = · δˆ1 δˆ2 ¸ 2SLS − · δˆ1 δˆ2 ¸ 3SLS Construa um teste assinto´tico sob a hipo´tese nula de que a especificac¸a˜o esta´ correta, incluindo os graus de liberdade apropriados. c) Voceˆ pode pensar num teste baseado numa estrate´gia de estimac¸a˜o mais eficiente? 2 5. (Estimac¸a˜o por ma´xima verossimilhanc¸a de modelos de equac¸o˜es si- multaˆneas) Considere o modelo Keynesiano simplificado Ct = αYt + ut Yt = It + Ct onde C denota o consumo, Y a renda e I o investimento (exo´geno). Todas as varia´veis sa˜o transformadas de modo que tenham me´dia zero e ut i.i.d.∼ N ¡ 0, σ2 ¢ a) Mostre que MQO na equac¸a˜o Ct = αYt + ut conduz a uma estimativa inconsistente de α. O p lim e´ muito grande ou muito pequeno? Como o seu resultado pode ser comparado com o caso em que ha´ erros de medida no regres- sor? b) Escreva a func¸a˜o de log-verossimilhanc¸a para uma amostra de tamanho T como uma func¸a˜o de α e σ2. Calcule a matriz de informac¸a˜o (assinto´tica) para α e σ2 (Defina M = lim 1T PT t=1 I 2 t ) c) Inverta a matriz de informac¸a˜o e determine o limite da distribuic¸a˜o de αˆMLE . Verifique que o estimador de varia´veis instrumentais αˆIV , que utiliza como instrumento It, e´ assintoticamente eficiente. Isso e´ esperado? Compare o estimador de ma´xima verossimilhanc¸a e o estimador de varia´veis instrumentais em amostras finitas. d) Suponha que σ2 seja conhecido. Mostre que a reduc¸a˜o percentual na variaˆncia da distribuic¸a˜o assinto´tica para αˆ e´ 2σ 2 M+2σ2 se ma´xima verossimilhanc¸a for usada. (Dica: Compute o limite inferior de Crame´r-Rao). Derive o estimador de ma´xima verossimilhanc¸a nesse caso. 6. (Me´todo dos momentos cla´ssico, me´todo generalizado dos momentos) A distribuic¸a˜o gama tem a seguinte func¸a˜o de densidade: f (x|α, β) = ( βα Γ(α)x α−1e−βx para x > 0 0 caso contra´rio na qual α e β sa˜o paraˆmetros positivos e Γ (α) e´ a func¸a˜o gama definida como Γ (α) = R∞ 0 xα−1e−xdx Suponha que X1, ...,Xn seja uma amostra de varia´veis aleato´rias i.i.d. de uma distribuic¸a˜o gama com paraˆmetros desconhecidos α e β. a) Prove que para uma varia´vel aleato´ria X com distribuic¸a˜o gama E ¡ Xk ¢ = α (α+ 1) ... (α+ k − 1) βk 3 b) Os dois primeiros momentos sa˜o 1n Pn i=1Xi = 7, 29 e 1 n Pn i=1X 2 i = 85, 59. Derive o estimador do me´todo de momentos de · α β ¸ baseado nos dois primeiros momentos e calcule as estimativas. Derive a distribuic¸a˜o assinto´tica do esti- mador. c) Suponha que os dois primeiros momentos amostrais sejam como em b). Mas agora no´s tambe´m consideramos o terceiro momento. Usando as estima- tivas de b), descreva em linhas gerais como voceˆ estimaria α e β utilizando o me´todo generalizado dos momentos com a matriz o´tima de ponderac¸a˜o. Escreva a fo´rmula para a distribuic¸a˜o assinto´tica do estimador e fornec¸a um estimador consistente da variaˆncia assinto´tica. 7. Seja (X1, Y1) , ..., (Xn, Yn) uma amostra aleato´ria de uma distribuic¸a˜o normal bivariada com coeficiente de correlac¸a˜o ρ. O coeficiente de correlac¸a˜o amostral e´ definido como rn = Pn i=1 ¡ Xi − X¯ ¢ ¡ Yi − X¯ ¢nPn i=1 ¡ Xi − X¯ ¢2 ¡ Yi − X¯ ¢2o1/2 Prove que √ n (rn − ρ) d→ N ³ 0, ¡ 1− ρ2 ¢2´ Assuma, por simplicidade, que as me´dias sejam iguais a 0 e as variaˆncias iguais a 1. 8. Suponha que o modelo econome´trico postule um conjunto deM condic¸o˜es de ortogonalidade: E [f (xt, β0)] = 0 onde β0 e´ um vetor de paraˆmetros K × 1 (K ≤M) . Adicionalmente, suponha que no´s desejemos testar um conjunto de restric¸o˜es envolvendo β0 : r (β0) = 0. Para tanto, estimamos num primeiro esta´gio os paraˆmetros impondo a restric¸a˜o, a partir de βˆR = argmin {β:r(β)=0} QT (β) = argmin {β:r(β)=0} gT (β) 0 V −10 gT (β) onde V0 denota a matriz de variaˆncia covariaˆncia de f (xt, β0) e gT (β) = 1T PT t=1 f (xt, β) . i) Seja βˆ o estimador irrestrito do me´todo generalizado dos momentos e Vˆ um estimador consistente de V0. Mostre que MC = Tmin α ³ βˆ − r (α) ´0 d0T Vˆ −1dT ³ βˆ − r (α) ´ = T ³ βˆ − βˆR ´0 d0T Vˆ −1dT ³ βˆ − βˆR ´ 4 para dT = ∂gT (β) ∂β . ii) Prove que βˆR = βˆ − ³ d0T Vˆ −1dT ´−1 Rˆ0 · Rˆ ³ d0T Vˆ −1dT ´−1 Rˆ0 ¸−1 rˆ para Rˆ = R ³ βˆ ´ = ∂r ³ βˆ ´ ∂β 5 Econometria/listas/lista7sol.pdf Universidade de Sa˜o Paulo - Departamento de Economia EAE 5811 - Econometria I Prof. Dr. Ricardo Avelino 1o Semestre de 2007 Lista de Exerc´ıcios 7 - Soluc¸o˜es Monitoras: Paula Pereda Jaqueline de Oliveira 1) Assumimos que as varia´veis y1, y2, e y3 sa˜o endo´genas e que x1, x2, e x3 sa˜o exo´genas. O sistema pode ser reescrito por £ y1 y2 y3 ¤ 1 0 y31y12 1 0 y13 y23 1 + £ x1 x2 x3 ¤ β11 0 00 β22 β32 β13 β23 0 = ε1 ε2 ε3 A condic¸a˜o de ordem considera que a condic¸a˜o necessa´ria para a identificac¸a˜o da equac¸a˜o j e´ que o nu´mero de varia´veis exo´genas exclu´ıdas da equac¸a˜o j seja ao menos ta˜o grande quanto o nu´mero de varia´veis endo´genas inclu´ıdas na equac¸a˜o j menos um. A tabela abaixo resume os resultados: Primeira Equação y1 y2 y3 y2 Segunda Equação y2 y3 y1 Terceira Equação y1 y3 y1 y3 Variáveis Endógenas Incluídas Variáveis Exógenas Excluídas Assim, a segunda e terceira equac¸o˜es satisfazem a condic¸a˜o de ordem, mas a primeira na˜o. Sejam A3 e A5 , respectivamente, os coeficientes das j − 1 equac¸o˜es das varia´veis endo´genas e exo´genas exclu´ıdas da equac¸a˜o j. A condic¸a˜o de posto diz que a condic¸a˜o suficiente para identificac¸a˜o e´: posto · A3 A5 ¸ =M − 1 onde M e´ o nu´mero de varia´veis endo´genas no sistema. Para a segunda equac¸a˜o: posto · A3 A5 ¸ = posto · 1 y31 β11 0 ¸ = 2 Para a terceira equac¸a˜o: posto · A3 A5 ¸ = posto y12 1 β11 0 β13 β23 = 2 1 Portanto, ambas as equac¸o˜es satisfazem a condic¸a˜o de posto. Consequentemente, a primeira equac¸a˜o e´ subidentificada, a segunda e´ ex- atamente identificada e a terceira, sobreidentificada (uma vez que o nu´mero de exo´genas exclu´ıdas excede o nu´mero de endo´genas inclu´ıdas menos um). As u´ltimas duas equac¸o˜es podem ser estimadas por 2SLS. Sejam X uma ma- triz Tx3 contendo as observac¸o˜es das varia´veis exo´genas, Yj uma matriz TxMj contendo as observac¸o˜es das varia´veis endo´genas que aparecem na equac¸a˜o j, com excec¸a˜o daquela cujo coeficiente e´ normalizado para um, e Xj uma matriz TxKj contendo as observac¸o˜es das varia´veis exo´genas inclu´ıdas na equac¸a˜o j, podemos escrever o estimador de 2SLS dos paraˆmetros da equac¸a˜o j como: δˆ 2SLS j = · Yˆj´ Yˆj Yˆj´Xj Xj´ Yˆj Xj´Xj ¸−1 · Yˆj´yj Xj´yj ¸ onde ˆ Y j = X(X´X)−1X´Yj e yj e´ um vetor Tx1 contendo as observac¸o˜es da varia´vel endo´gena cujo coeficiente foi normalizado para um. O estimador 2SLS consistente se baseia nas seguintes hipo´teses: (i) p lim 1 T ˆ Y j´ ˆ Y j ˆ Y j´Xj Xj´ ˆ Y j Xj´Xj = Σ sendo Σ uma matriz finita na˜o-singular. (ii) p lim 1 T " ˆ Y j´ Xj´ # ε = 0 onde ε e´ o vetor de res´ıduos da equac¸a˜o j. 2) a) Equac¸a˜o de oferta: q − α1p = α0 + α2ω + µs Equac¸a˜o de demanda : q − β1p = β0 + β2y + µ0 Condic¸o˜es de ordem para identificac¸a˜o: K∗j ≥ Mj , isto e´, o nu´mero de varia´veis exo´genas exclu´ıdas deve ser pelo menos ta˜o grande quanto o nu´mero de varia´veis endo´genas inclu´ıdas na j-e´sima equac¸a˜o. Tanto na equac¸a˜o de oferta quanto na de demanda, K∗j =Mj , de forma que ambas satisfazem as condic¸o˜es de ordem. Condic¸o˜es de posto para identificac¸a˜o: Posto · A3 A5 ¸ =M − 1 Rearranjando o sistema horizontalmente, obtemos: £ q p ¤ · 1 1 −α1 −β1 ¸ = £ 1 ω y ¤α0 β0α2 0 0 β2 + £ µs µd ¤ 2 Equac¸a˜o de oferta: posto · A3 A5 ¸ = posto £ β2 ¤ = 1 posto · A3 A5 ¸ = posto £ α2 ¤ = 1 Assim, ambas as equac¸o˜es satisfazem as condic¸o˜es de posto e, comoK∗j =Mj em ambos os casos, sa˜o exatamente identificadas. b) £ q p ¤ = £ 1 ω y ¤α0 β0α2 0 0 β2 · 1 1 −α1 −β1 ¸−1 + £ µs µd ¤ · 1 1 −α1 −β1 ¸−1 =⇒ £ q p ¤ = 1 α1 − β1 £ 1 ω y ¤α0 β0α2 0 0 β2 · β1 −1 α1 −1 ¸ + 1 α1 − β1 £ µs µd ¤ ·β1 −1 α1 −1 ¸ =⇒ £ q p ¤ = 1 α1 − β1 £ 1 ω y ¤α0β1 + β0α1 −α0 − β0β1α2 −α2 α1β2 −β2 + 1 α1 − β1 £ β1µs + α1µd −µs − µd ¤ Seja Π = Π11 Π12 Π21 Π22 Π31 Π32 = α0β1 + β0α1 −α0 − β0 β1α2 −α2 α1β2 −β2 A restric¸a˜o α2 = 0 impo˜e que Π21 = Π22 = 0 na matriz de paraˆmetros da forma reduzida. Como ambas as equac¸o˜es sa˜o exatamente identificadas, mı´nimos quadra- dos indiretos sa˜o eficientes. Seja zt = £ qt pt ¤ , xt = £ 1 ωt yt ¤ , Z =£ Z01 Z02 ... Z0T ¤0 eX = £ X 01 X 02 ... X 0T ¤0 . Enta˜o, o estimador de mı´nimos quadrados indiretos de Π pode ser escrito como: Πˆ = (X 0X)−1 (X 0Y ) Um teste da hipo´tese de que H0 : α2 = 0 contra H1 : α2 6= 0 pode ser baseada num teste Wald. Seja R = £ 0 1 0 ¤ . Assim, H0 : α2 = 0 =⇒ H0 : RΠ = 0 H1 : α2 6= 0 =⇒ H1 : RΠ 6= 0 3 A estat´ıstica do teste e´ dada por: W = ³ RΠˆ ´0 h RV ar ³ Πˆ ´ R0 i ³ RΠˆ ´ ˜χ21 Rejeitamos a hipo´tese nula se W > χ21−α,1 c) No caso de equac¸o˜es exatamente identificadas, o estimador o´timo se reduz ao estimador de mı´nimos quadrados indiretos equac¸a˜o por equac¸a˜o. Como o estimador e´ consistente e a teoria estabelece que α1 > 0 e β1 < 0, exceto pela da variabilidade aleato´ria, a inspec¸a˜o do sinal de α1 fornece uma forma simples de determinar se a a equac¸a˜o e´ uma curva de ofeta ou de demanda. d) Se a ageˆncia governamental fixa o prec¸o a cada ano em p0y, p na˜o sera´ mais correlacionado com os termos de erro. Assim, ambas as equac¸o˜es podem ser consistentemente estimadas por OLS neste caso. 3.a) Se fizermos as seguintes suposic¸o˜es sobre a distribuic¸a˜o de probabili- dade, exceto que E(ε1/x1) = E(ε2/x2), as u´nicas restric¸o˜es dispon´ıveis sa˜o as restric¸o˜es de exclusa˜o. A segunda equac¸a˜o e´ claramente subidentificada, uma vez que na˜o satisfaz a condic¸a˜o de ordem. Na˜o ha´ varia´veis exo´genas exclu´ıdas da equac¸a˜o e ha´ duas varia´veis endo´genas inclu´ıdas. A primeira equac¸a˜o satisfaz a condic¸a˜o de ordem porque ha´ uma varia´vel exo´gena exclu´ıda, que e´ o mesmo nu´mero de varia´veis endo´genas inclu´ıdas menos um. Partindo para a condic¸a˜o de posto para a primeira equac¸a˜o, temos: posto · A3 A5 ¸ = posto(β21) = 1 = n o endo´genas-1 Portanto, a primeira equac¸a˜o e´ exatamente identificada. Escrevendo o sistema horizontalmente, obtemos:£ y1 y2 ¤ · 1 −y21 −y12 1 ¸ + x1 £ 0 β21 ¤ = £ ε1 ε2 ¤ Seja F = · f11 f12 f21 f22 ¸ , uma matriz na˜o-singular. Ambas as equac¸o˜es sa˜o identificadas se e somente se F = I. Pos-multiplicando o sistema por F , temos:£ y1 y2 ¤ · 1 −y21 −y12 1 ¸ · f11 f12 f21 f22 ¸ + x1 £ 0 β21 ¤ · f11 f12 f21 f22 ¸ = £ ε1 ε2 ¤ · f11 f12 f21 f22 ¸ F e´ admiss´ıvel se e somente se: (1) : · 1 −y21 −y12 1 ¸ · f11 f12 f21 f22 ¸ = · 1 a12 a21 1 ¸ 4 (2) : £ 0 β21 ¤ · f11 f12 f21 f22 ¸ = £ 0 b12 ¤ (3) : E µ· f11 f21 f12 f22 ¸ · ε1 ε2 ¸ £ ε1 ε2 ¤ · f11 f12 f21 f22 ¸¶ = · c11 0 0 c22 ¸ Segue de (2) que β21.f21 = 0, o que implica que f21 = 0. A equac¸a˜o 1 implica que:· f11 − y21f21 f12 − y21f22 f21 − y12f11 f22 − y12f12 ¸ = · 1 a12 a21 1 ¸ · f11 f12 − y21f22 −y12f11 f22 − y12f12 ¸ = · 1 a12 a21 1 ¸ ⇒ f11 = 1 Finalmente, a equac¸a˜o 3 implica que:· 1 0 f21 f22 ¸ · σ11 0 0 σ22 ¸ · 1 f12 0 f22 ¸ = · c11 0 0 c22 ¸ ⇒· σ11 0 f21σ11 f22σ22 ¸ · 1 f12 0 f22 ¸ = · c11 0 0 c22 ¸ · σ11 σ11f12 f21σ11 f212σ11 + f 2 22σ22 ¸ = · c11 0 0 c22 ¸ ⇒ f12 = 0 Mas se f12 = 0, segue de (1) que f22 = 1. Assim, a u´nica matriz admiss´ıvel seria a matriz identidade, como quer´ıamos demonstrar. 4) a) Esta e´ uma aplicac¸a˜o particular do teste de especificac¸a˜o de Haussman. Sob a hipo´tese nula, 3SLS para todo o sistema e´ consistente e assintoticamente eficiente, enquanto que 2SLS para todo o sistema e´ consistente mas assintoti- camente ineficiente, ja´ que ignora a correlac¸a˜o entre os termos de erro das treˆs equac¸o˜es. Por outro lado. sob as hipo´tese alternativa, estimac¸a˜o de 2SLS equac¸a˜o por equac¸a˜o permanece consistente, mas 3SLS se torna inconsistente. Para ver isto, defina Y = £ Y1 Y2 Y3 ¤ , y = £ y 0 1 y 0 2 y 0 3 ¤0 , Z = £ Yi Xi ¤ e ε =£ ε 0 1 ε 0 2 ε 0 3 ¤ . O sistema pode ser expresso como y = Z1 0 0 0 Z2 0 0 0 Z3 S1 S2 S3 + ε1 ε2 ε3 , onde Si = · γi βi ¸ Agora, seja W = X 0 0 0 X 0 0 0 X uma matriz de instrumentos e Σ = V (εt|Z). 5 O estimador 3SLS e´ igual a δˆ3SLS = (Z 0 (Σ⊗ PX)Z)−1 Z0 (Σ⊗ PX) y = δ + (Z 0 (Σ⊗ PX)Z)−1 Z0 (Σ⊗ PX) ε Como Z inclui Xt e ε inclui ε3t, no limite o segundo termo do lado direito da igualdade na˜o tende a zero sob a hipo´tese alternativa, ja´ que E(X 0tε3t) 6= 0. b) Ho : E [X 0tε3t] = 0 H1 : E [X 0tε3t] 6= 0 O teste e´ baseado em W 0 ³ V ar h δˆ2SLS i − V ar h δˆ3SLS i´ W˜χ2k onde k e´ o nu´mero de paraˆmetros estimados, V ar h δˆ2SLS i = ³ Z0iX (X 0X)−1X 0Zi ´ , i = 1, 2, 3 e V ar h δˆ3SLS i = (Z0 (Σ⊗ PX)Z)−1 c) Sob a hipo´tese alternativa, 3SLS restrito a`s primeiras duas equac¸o˜es produz estimadores assintoticamente eficientes. Assim, podemos estimar as primeiras duas equac¸o˜es por 3SLS e estimar a terceira por 2SLS e comparar os estimadores resultantes com aqueles resultantes da estimac¸a˜o de todo o sistema por 3SLS, procedendo de forma similar ao descrito no item anterior. 5) a) Seja αˆOLS o estimador de OLS para α, αˆOLS = (Y Y´ ) −1Y C´ = (Y Y´ )−1Y (´αY + U) = α+ (Y Y´ )−1Y U´ Enta˜o, o p lim de αˆOLS e´: p lim(αˆOLS) = α+ · p lim (Y Y´ ) T ¸−1 p lim · Y U´ T ¸ Mas p lim £ Y U´ T ¤ = Cov(Yt, Ut) e Cov(Yt, Ut) = COV (It + Ct, Ut) = COV (Ct, Ut) (1) Cov(Ct, Ut) = COV (αYt + Ut, Ut) = αCOV (Yt, Ut) + V AR(Ut) (2) De (1) e (2), Cov(Yt, Ut) = V AR(Ut) 1−α = σ2 1−α 6= 0, o que completa a prova. 6 Suponha agora que Yt e´ exo´geno, mas e´ medido com erro. Em particular, suponha que observamos apenas Y ∗t e que: Y ∗t = Yt + vt, E(vt) = E(vtut) = E(vtYt) = 0, E(v2t ) = σ 2 v Neste caso, podemos reescrever o modelo como: Ct = α(Y ∗t − vt) + ut = αY ∗t + (ut − αvt) O estimador de OLS para α sera´: αˆ∗OLS = (Y ∗´Y ∗)−1Y ∗´C = (Y ∗´Y ∗)−1Y ∗´(αY ∗ + U − αV ) = α+ (Y ∗´Y ∗)−1Y ∗´(U − αV ) Consequentemente, p lim(αˆ∗OLS) = α+ · p lim (Y ∗´Y ∗) T ¸−1 p lim · Y ∗´(U − αV ) T ¸ p lim · (Y + V )´(U − αV ) T ¸ = −ασ2V Enta˜o, p lim(αˆ∗OLS) = α− α σ2V σ2Y ∗ , pois σ2Y ∗ = p lim (Y ∗´Y ∗) T ⇒ p lim(αˆ∗OLS) = α− α σ2V σ2Y + σ 2 V = α σ2Y σ2Y + σ 2 V = α 1 + σ2V σ2Y < α Enta˜o, o erro de medida na varia´vel explicativa produz um vie´s de atenuac¸a˜o. Por outro lado, se Y na˜o e´ medido com erro, mas e´ endo´geno, p lim(αˆ∗OLS) = α+ σ2 (1− α)σ2Y > α Contanto que α esteja entre zero e um. Assim, no caso de equac¸o˜es si- multaˆneas, p lim(α) e´ muito grande. b) A densidade conjunta de (u1, ...,uT ) e´ f(u1,..., uT ) = Π 1√ 2πσ2 exp µ −1 2 u2t σ2 ¶ Mas uT = Ct − αYt ⇒ uT = Yt − It − αYt ⇒ uT = (1− α)Yt − It. 7 Como ∂uT∂Yt = (1− α), a densidade conjunta de (Y1,..., YT ) sera´: f(Y1,..., YT ) = Π 1√ 2πσ2 (1− α) exp µ −1 2 ((1− α)Yt − It)2 σ2 ¶ ⇒ lnL(α, σ2) = −T 2 ln(2π)− T 2 ln(σ2) + T ln(1− α) −1 2 Xµ((1− α)Yt − It)2 σ2 ¶ As derivadas primeiras sa˜o: ∂ lnL(α, σ2) ∂α = − T (1− α) + 1 σ2 X¡ (1− α)Y 2t − ItYt ¢ (3) ∂ lnL(α, σ2) ∂σ2 = − T 2σ2 + 1 2σ4 X ((1− α)Yt − It)2 (4) As derivadas segundas sa˜o: ∂2 lnL(α, σ2) ∂α2 = − T (1− α)2 + 1 σ2 X¡ Y 2t ¢ ∂2 lnL(α, σ2) ∂ (σ2)2 = T 2σ4 − 1 σ6 X ((1− α)Yt − It)2 ∂2 lnL(α, σ2) ∂ (σ2) ∂α = − 1 σ4 X¡ (1− α)Y 2t − ItYt ¢ Seja θ´ = (α σ2)´. A matriz de informac¸a˜o assinto´tica de θ sera´ igual a: p lim 1 T " −∂ 2 lnL(α,σ2) ∂α2 − ∂2 lnL(α,σ2) ∂(σ2)∂α −∂ 2 lnL(α,σ2) ∂(σ2)∂α − ∂2 lnL(α,σ2) ∂(σ2)2 # = p lim 1 T · T (1−α)2 − 1 σ2 P¡ Y 2t ¢ 1 σ4 P¡ (1− α)Y 2t − ItYt ¢ 1 σ4 P¡ (1− α)Y 2t − ItYt ¢ − T2σ4 + 1 σ6 P ((1− α)Yt − It)2 ¸ = · 1 (1−α)2 − 1 σ2E ¡ Y 2t ¢ 1 σ4 £ (1− α)E(Y 2t )−E(ItYt) ¤ 1 σ4 ¡ (1− α)E(Y 2t )−E(ItYt) ¢ − 12σ4 + 1 σ6E(ut 2) ¸ Como ut = (1− α)Yt − It ⇒ Yt = ut+It(1−α) Enta˜o, E(Y 2t ) = E µ ut + It (1− α) ¶2 = σ2 +M (1− α)2 , e E(YtIt) = E µµ ut + It (1− α) ¶ It ¶ = M (1− α) , 8 Enta˜o, I(θ) = " 2σ2+M σ2(1−α)2 1 σ2(1−α) 1 σ2(1−α) 1 2σ4 # c) [I(θ)]−1 = 1 2σ2+M 2σ6(1−α)2 − 1 σ4(1−α)2 " 1 2σ4 − 1 σ2(1−α) − 1σ2(1−α) 2σ2+M σ2(1−α)2 # = 2σ6(1− α)2 M " 1 2σ4 − 1 σ2(1−α) − 1σ2(1−α) 2σ2+M σ2(1−α)2 # Desta maneira, √ n(αˆ− α) d−→ N µ 0, σ2(1− α)2 M ¶ ⇒ αˆMLE d−→ N µ α, σ2/T (1− α)2 M ¶ O estimador de Variaveis Instrumentais de α e´ igual a: αˆV I = (I 0Y )−1I 0C = (I 0Y )−1I 0(αY + U) = α+ (I 0Y )−1I 0U onde I 0U = TX t=1 ItUt, E(ItUt) = 0 e E(I 0tUtU 0tIt) = σ2M. Enta˜o, √ T I 0U T d−→ N(0, σ2M), o que implica que: √ n(αˆV I − α) = µ I 0Y T ¶−1 I 0U√ T d−→ N " 0, σ2 µ M (1− α) ¶−1 M µ M (1− α) ¶−1# ⇒ √ n(αˆV I − α) d−→ N µ 0, σ2(1− α)2 M ¶ ⇒ αˆV I d−→ N µ α, σ2/T (1− α)2 M ¶ Como a matriz de var-covariaˆncia assinto´tica do estimador de VI e´ igual a` matriz de var-covariaˆncia assinto´tica do estimador de ma´xima verossimilhanc¸a, o estimador de varia´veis instrumentais e´ assintoticamente eficiente. Segue da condic¸a˜o de primeira ordem (3) que αˆMLE resolve: T (1− α) = 1 σ2 [(1− α)Y − I]0 Y (30) ⇒ (1− α)2Y 0Y − (1− α)I 0Y = σ2T 9 Segue da condic¸a˜o de primeira ordem (4) que σˆ2MLE resolve: T 2σ2 = 1 2σ4 [(1− α)Y − I]0 [(1− α)Y − I] (40) ⇒ σ2T = (1− α)2Y 0Y − 2(1− α)Y 0I + I 0I As equac¸o˜es (3’) e (4’) implicam que: (1− α)2Y 0Y − 2(1− α)Y 0I + I 0I = (1− α)2Y 0Y − (1− α)I 0Y ⇒ (1− α) = (I 0Y )−1 I 0I =⇒ αˆMLE = 1− (I 0Y )−1 I 0I = (I 0Y )−1 I 0Y − (I 0Y )−1 I 0I =⇒ ˆ αMLE = (I 0Y ) −1 I 0C = ˆ αV I Enta˜o, os estimadores de VI e MLE sa˜o ideˆnticos. Logo, eles sa˜o igualmente bons para pequenas amostras tambe´m. d) Se σ2 na˜o e´ conhecido, a matriz de informac¸a˜o assinto´tica e´ reduzida a um elemento apenas, ou seja: I(θ) = I(α) = · p lim 1 T − ∂ 2 lnL ∂α2 ¸ = · 2σ2 +M σ2(1− α)2 ¸ Como foi mostrado no item anterior, a matriz de variaˆncia assinto´tica de ˆ αMLE e´ dada por: T−1 [I(α)]−1 = T−1 · σ2(1− α)2 2σ2 +M ¸ O percentual de decre´scimo da distribuic¸a˜o assinto´tica de ˆ α e´:h σ2(1−α)2 TM − σ2(1−α)2 2σ2+M 1 T i σ2(1−α)2 TM = h σ2(1−α)2(2σ2+M−M) M(2σ2+M) i σ2(1−α)2 M = 2σ2 2σ2 +M 6) a) E(Xk) = Z ∞ 0 xk βα Γ(α) xα−1e−βxdx = 1 Γ(α) Z ∞ 0 xk+α−1βαe−βxdx 10 Seja u = xk+α−1 e dv = e−βx, o que implica que du = (k + α− 1)xk+α−1 e v = − 1 β e−βx. Integrando por partes, temosZ ∞ 0 xk+α−1e−βxdx = −xk+α−1 e −βx β |∞0 + Z ∞ 0 1 β e−βx(k + α− 1)xk+α−2dx = 1 β (k + α− 1) Z ∞ 0 e−βxxk+α−2dx Procedendo de forma similar, depois de k passos, temosZ ∞ 0 xk+α−1e−βxdx = 1 βk (k + α− 1)(k + α− 2)...(α+ 1)α Z ∞ 0 e−βxxα−1dx Assim, E(Xk) = βα Γ(k) 1 βk (k + α− 1)(k + α− 2)...(α+ 1)α Z ∞ 0 e−βxxα−1dx = .(α+ 1)α...(α+ k − 1) βk b) Os primeiros dois momentos da distribuic¸a˜o gama sa˜o respectivamente α β e α(α+ 1) β2 . O estimador do me´todo dos momentos de · α β ¸ seleciona α e β de forma a igualar os momentos amostrais aos momentos populacionais. Assim, µˆ1 = αˆ βˆ (1) µˆ2 = αˆ(αˆ+ 1) βˆ 2 (2) Equac¸a˜o (1) implica que βˆ 2 = αˆ2 µˆ1 . Substituindo βˆ em (2), µˆ2 = αˆ2 + αˆ αˆ2 µˆ21 = µ 1 + 1 αˆ ¶ µˆ21 =⇒ 1 αˆ = µˆ2 µˆ21 − 1 =⇒ αˆ = µˆ 2 1 µˆ2 − µˆ21 e βˆ = µˆ21 µˆ2 − µˆ21 1 µˆ1 = µˆ1 µˆ2 − µˆ21 Substituindo pelos valores dos primeiros dois momentos: αˆ = 7, 292 85, 59− 7, 292 = 53, 1441 85, 59− 53, 1441 = 53, 1441 32, 4459 = 1, 63 βˆ = 7, 29 85, 59− 7, 292 = αˆ 7, 29 = 1, 63 7, 29 = 0, 22 11 Seja θˆ = µ αˆ βˆ ¶ e m(θˆ) = µ µˆ1 µˆ2 ¶ ∂θˆ ∂m = 2µˆ1 µˆ2 − µˆ21 + µˆ21 (µˆ2 − µˆ21)2 − µˆ 2 1 (µˆ2 − µˆ21)2 1 µˆ2 − µˆ21 + 2µˆ21 (µˆ2 − µˆ21)2 − µˆ1 (µˆ2 − µˆ21)2 = µˆ21 + 2µˆ1µˆ2 − 2µˆ31 (µˆ2 − µˆ21)2 − µˆ 2 1 (µˆ2 − µˆ21)2 µˆ2 + µˆ 2 1 (µˆ2 − µˆ21)2 − µˆ1 (µˆ2 − µˆ21)2 Como √ n µ· µˆ1 µˆ2 ¸ − · µ1 µ2 ¸¶ d→ N(0,Σ) onde Σ = E · x21 − µ21 (x1 − µ1)(x21 − µ2) (x1 − µ1)(x21 − µ2) x41 − µ21 ¸ = E · µ2 − µ21 x31 − x1µ2 − µ1x21 + µ1µ2 x31 − x1µ2 − µ1x21 + µ1µ2 µ4 − µ22 ¸ = · µ2 − µ21 µ3 − 2µ1µ2 + µ1µ2 µ3 − 2µ1µ2 + µ1µ2 µ4 − µ22 ¸ √ n(θˆ − θ) d→ N(0, AΣA0) =⇒ θˆ˜N(θ, n−1AΣA0) onde A = ∂θˆ ∂m |µˆ=µ c) Condic¸o˜es de ortogonalidade E [g (θ, ωi)] = E µ1 − α/β µ2 − α(α+ 1)/β2 µ3 − α(α+ 1)(α+ 2)/β3 = 0 O estimador de GMM e´ igual a θˆ GMM n = argmin θ · 1 n nP i=1 g(θ, ωi) ¸0 Ωˆ−1 · 1 n nP i=1 g(θ, ωi) ¸ onde Ωˆ e´ uma estimativa consistente de 1 n · nP i=1 g(θ, ωi) ¸ · nP i=1 g(θ, ωi) ¸0 , obtida, por exemplo, de θˆ inicial n = argmin θ · 1 n nP i=1 g(θ, ωi) ¸0 · 1 n nP i=1 g(θ, ωi) ¸ 12 calculando g(θˆ inicial n , ωi) para cada i, e enta˜o calculando uma estimativa consis- tente de Ω usando o Newey-West. A distribuic¸a˜o assinto´tica de θˆ GMM n e´ igual a √ n(θˆ GMM n − θ) d→ N(0, (G0Ω−1G)−1) Uma estimativa consistente de G = E µ 1 n nP i=1 ∇θg(θ, ωi) ¶ e´ 1 n nP i=1 ∇θg(θ, ωi) 7) Seja rn = P³ Xi −X ´³ Yi − Y ´ ·P³ Xi −X ´2P³ Yi − Y ´2¸1/2 = X 0MiY(X 0MiX)1/2 (Y 0MiY )1/2 ondeMi = I−i0(i0i)−1i e´ uma matriz idempotente, que centra o vetor na me´dia. Assim, o limite de probabilidade de rn e´: p lim " X 0MiY (X 0MiX) 1/2 (Y 0MiY ) 1/2 # = p lim " X0MiY n¡ X0MiX n ¢1/2 ¡Y 0MiY n ¢1/2 # = Cov(X,Y ) [V AR(X)V AR(Y )]1/2 = ρ Portanto rn e´ um estimador consistente para ρ. (rn − ρ) = P³ Xi −X ´³ Yi − Y ´ ·P³ Xi −X ´2P³ Yi − Y ´2¸1/2 − ρ Como (X, Y) seguem uma distribuicao normal bivariada, podemos escrever Y em funcao de X como: Yi = ρXi + ei ⇒ Yi − Y = ρ ³ Xi −X ´ + (ei − e) onde ei d−→ N(0, 1). 13 Econometria/LLN.pdf Universidade de Sa˜o Paulo - Departamento de Economia EAE 5811 - Econometria I Prof. Dr. Ricardo Avelino 1o Semestre de 2007 Leis dos Grandes Nu´meros Teorema de Helly: para toda sequ¨eˆncia {Fn} de func¸o˜es de distribuic¸a˜o, existe uma subsequ¨eˆncia © Fnj ª e uma func¸a˜o F cont´ınua a` direita, na˜o decres- cente, tal que lim j→∞ Fnj (x) = F (x) em todos os pontos de continuidade x de F . Prova: Seja Q = {q1, q2, ...} o conjunto de todos os nu´meros racionais. Como a sequ¨eˆncia Fn (q1) esta´ contida no intervalo [0, 1], ela possui uma subsequ¨eˆncia convergente. Chame a subsequ¨encia associada de © n1j ª∞ j=1 e o limite de G (q1). Em seguida, extraia uma subsequ¨eˆncia adicional © n2j ª ⊂ © n1j ª ao longo da qual Fn (q2) converge para o limite G (q2), uma outra subsequ¨eˆncia © n3j ª ⊂ © n2j ª ao longo da qual Fn (q3) converge para o limite G (q3) , e assim por diante. A “cauda” da sequ¨eˆncia diagonal nj := n j j pertence a toda sequ¨eˆncia n i j . Portanto, Fnj (qi)→ G (qi) para todoi = 1, 2, .... Como cada Fn e´ na˜o decrescente, G (q) ≤ G (q0) se q ≤ q0. Defina F (x) = inf q>x G (q) Enta˜o, F e´ na˜o decrescente. F e´ tambe´m cont´ınua a` direita em todo ponto x, pois, pela definic¸a˜o de ı´nfimo, para todo ε > 0, existe q > x com G (q)− ε < F (x) o que implica que, para todo x ≤ y ≤ q, 0 < F (y)− F (x) < F (y)−G (q) + ε < ε Continuidade de F em x implica, para todo ε > 0, a existeˆncia de q ≤ x ≤ q0 com G (q0)−G (q) < ε. Por monotonicidade, no´s temos G (q) ≤ F (x) ≤ G (q0) e G (q) = limFnj (q) ≤ lim inf Fnj (x) ≤ limFnj (q0) = G (q0) Conclua que ¯¯ lim inf Fnj (x)− F (x) ¯¯ < ε. Como isso e´ verdade para todo ε > 0 e resultado ana´logo pode ser obtido para lim sup, segue-se que Fnj (x)→ F (x) em todo ponto de continuidade de F. Teorema da Continuidade de Le´vy: Seja fn (t) a func¸a˜o caracter´ıstica de Xn. Se Xn d→ X, enta˜o fn (t)→ f (t) , a func¸a˜o caracter´ıstica de X. Se fn (t)→ f (t) e o limite da func¸a˜o e´ cont´ınua em t = 0, enta˜o Xn d→ X e f (t) e´ a func¸a˜o caracter´ıstica de X. 1 Prova: Como exp (itx) = cos (tx) + i sin (tx) e cos (tx) e sin (tx) sa˜o func¸o˜es cont´ınuas limitadas de x, pelo Teorema de Helly-Bray, se Xn d→ X, enta˜o fn (t)→ f (t) . Seja Fn a func¸a˜o de distribuic¸a˜o de Xn. {Fm} e´ uma subsequ¨eˆncia que converge para G em todos os pontos de continuidade de G. G e´ uma func¸a˜o limitada na˜o decrescente cont´ınua a` direita (G existe pelo Teorema de Helly). Resta provar que G e´ uma func¸a˜o de distribuic¸a˜o e que f (t) e´ uma func¸a˜o caracter´ıstica. Para qualquer 0 < v <∞, R v 0 fm (t) dt = R v 0 R eitxdFm (x) dt = R R v 0 eitxdtdFm (x) = R eivx − 1 ix dFm (x) Por uma versa˜o extendida do Teorema de Helly-Bray (isto e´, Fn → G, na˜o necessariamente uma func¸a˜o de distribuic¸a˜o, e g uma func¸a˜o cont´ınua tal que g (+∞)− g (−∞) = 0 ⇒ R gdFn → R gdG) lim m→∞ R eivx − 1 ix dFm (x) = R eivx − 1 ix dG (x) Ale´m disso, pelo “dominated convergence theorem”, lim m→∞ R v 0 fm (t) dt =R v 0 lim m→∞ fm (t) dt = R v 0 f (t) dt. R v 0 f (t) dt = R eivx − 1 ix dG (x)⇒ 1 v R v 0 f (t) dt = R eivx − 1 ixv dG (x) ⇒ f (0) = lim v→0 1 v R v 0 f (t) dt = R lim v→0 eivx − 1 ixv dG (x) = R lim v→0 ixeivx ix dG = R dG = G (+∞)−G (−∞) Como fm (0) = 1, isso implica que f (0) = lim m→∞ fm (0) = 1; ou seja, G (+∞)− G (−∞) = 1 e que G e´ uma func¸a˜o de distribuic¸a˜o. Como Fm → G, pelo Teo- rema de Helly-Bray, f (t) = lim m→∞ fm (t) = lim m→∞ R eitxdFm = R eitxdG Como G e´ uma func¸a˜o de distribuic¸a˜o, segue-se que f (t) e´ uma func¸ao carac- ter´ıstica. Como f (x) e´ u´nica, G e´ u´nica para todas subsequ¨eˆncias convergentes de Fn. Portanto, Fn → G. Exemplo 1: Seja {Xn} uma sequ¨eˆncia de varia´veis aleato´rias tais que Xn ∼ χ2n, ∀n. A func¸a˜o caracter´ıstica associada a` sequ¨eˆncia {Xn} e´ dada por φXn (t) = (1− 2it)−n/2 . Defina a sequ¨eˆncia aleato´ria Zn = (Xn − n) / √ 2n, com func¸a˜o 2 caracter´ıstica correspondente φZn (t) = E h exp ³ it (Xn − n) / √ 2n ´i = E h exp ³ itXn/ √ 2n ´i exp µ −it r n 2 ¶ = ³ 1− 2it/ √ 2n ´−n/2 exp µ −it r n 2 ¶ Portanto lnφZn (t) = − n 2 ln ³ 1− 2it/ √ 2n ´ − it r n 2 Mas ln ³ 1− 2it/ √ 2n ´ = −2i/ √ 2n¡ 1− 2it/ √ 2n ¢% t=0 t+ 1 2 2/n¡ 1− 2it/ √ 2n ¢2 % t=0 t2 − 2 3! 4i/ √ 2n3¡ 1− 2it/ √ 2n ¢3 % t=0 t3 + ... = −2i√ 2n t− 1 2 2 n t2 + o ³ n−3/2 ´ Logo, lnφZn (t) = − n 2 µ −2i√ 2n t+ 1 n t2 + o ³ n−3/2 ´¶ − it r n 2 = it r n 2 − 1 2 t2 + o ³ n−1/2 ´ − it r n 2 = −1 2 t2 + o ³ n−1/2 ´ → −1 2 t2 Enta˜o, lim n→∞ φZn (t) = limn→∞ exp ¡ lnφZn (t) ¢ = exp ³ lim n→∞ lnφZn (t) ´ = exp µ −1 2 t2 ¶ que e´ a func¸a˜o caracter´ıstica de uma N (0, 1) . Portanto, pelo Teorema da Con- tinuidade de Le´vy, Zn = (Xn − n) / √ 2n d→ N (0, 1) . Lei Fraca dos Grandes Nu´meros de Klinchine: Seja {Xn} uma sequ¨eˆncia de varia´veis aleato´rias independentes e identicamente distribu´ıdas e suponha que EXi = µ <∞,∀i. Enta˜o X¯n P→ µ. Prova: A func¸a˜o caracter´ıstica de Xi e´ dada por φXi (t) = E exp (itXi) = 1 + tE [iXi exp (itXi)] |t=0 + o (t) = 1 + itµ+ o (t) 3 Portanto, φX¯n (t) = E exp ¡ itX¯n ¢ = E exp à it n nX i=1 Xi ! = nY i=1 E exp µ it n Xi ¶ = · φXi µ t n ¶¸n = · 1 + i t n µ+ o µ 1 n ¶¸n = · 1 + itµ+ o (1) n ¸n pois os X 0is sa˜o independentes e identicamente distribu´ıdos. Consequ¨entemente, lim n→∞ φX¯n (t) = exp ³ lim n→∞ (itµ+ o (1)) ´ = exp (itµ) utilizando o fato de que lim n→∞ ³ 1 + an n ´n = exp ³ lim n→∞ an ´ A func¸a˜o exp (itµ) e´ a func¸a˜o caracter´ıstica de uma varia´vel constante µ. Pelo teorema de Le´vy, X¯n converge em distribuic¸a˜o para µ. Convergeˆncia em distribuic¸a˜o para uma constante e´ o mesmo que convergeˆncia em probabilidade. Exemplo 2: Considere uma amostra de varia´veis aleato´rias {Xn} indepen- dentes e identicamente distribu´ıdas com densidade dada por f (x) = ½ 2x−3 se x > 1 0 caso contra´rio Note que a me´dia e´ igual a 2 E (X) = Z ∞ 1 x2x−3dx = −2x−1 ¦∞ 1 = 0− (−2) = 2 e que a variaˆncia na˜o existe, pois E ¡ X2 ¢ = Z ∞ 1 x22x−3dx = 2 lnxc∞1 =∞ Pela Lei dos Grandes Nu´meros de Klinchine, X¯n P→ 2 Lei Fraca dos Grandes Nu´meros de Chebyshev: Seja E (Xi) = µi, V (Xi) = σ2i , Cov (Xi,Xj) = 0, i 6= j . Enta˜o lim n→∞ 1 n2 nX i=1 σ2i = 0⇒ X¯n − µ¯n P→ 0 para X¯n = 1 n nX i=1 Xi e µ¯n = 1 n nX i=1 µi. 4 Prova: Como xi e xj na˜o sa˜o correlacionados para todo i 6= j, V ¡ X¯n ¢ = 1 n2 nX i=1 V (xi) = 1 n2 nX i=1 σ2i . Pela desigualdade de Chebyshev, P ¡¯¯ X¯n − µ¯n ¯¯ > ε ¢ ≤ V ¡ X¯n ¢ ε2 = 1 ε2n2 nX i=1 σ2i Portanto, 0 ≤ lim n→∞ P ¡¯¯ X¯n − µ¯n ¯¯ > ε ¢ ≤ lim n→∞ V ¡ X¯n ¢ ε2 = ε−2 lim n→∞ 1 n2 nX i=1 σ2i = 0 Exemplo 3: Considere uma amostra de varia´veis aleato´rias {Xn} indepen- dentes com distribuic¸a˜o de Bernoulli, isto e´, f (xi) = ½ pi se x = 1 1− pi se x = 0 Como os X 0is na˜o sa˜o identicamente distribu´ıdos, na˜o podemos aplicar a Lei dos Grandes Nu´meros de Klinchine. Mas note que V (Xi) = pi (1− pi) ≤ 0.25, ∀i. Consequ¨entemente, lim n→∞ 1 n2 nX i=1 σ2i ≤ lim n→∞ 0.25 n = 0 e, pela Lei dos Grandes Nu´meros de Chebyshev, X¯n−µ¯n P→ 0, para µ¯n = 1n nX i=1 pi Lei Forte dos Grandes Nu´meros de Kolmogorov: Seja {Xn} uma sequ¨eˆncia de varia´veis aleato´rias independentes e suponha que E (Xi) = µi e V (Xi) = σ 2 i . Enta˜o ∞X i=1 σ2i i2 <∞⇒ X¯n − µ¯n a.s→ 0 Lema (Desigualdade de Hajek-Renyi): Seja {Xn} uma sequ¨eˆncia de varia´veis aleato´rias independentes e suponha que E (Xi) = 0 e V (Xi) = σ 2 i < ∞. Se c1,c2, ... e´ uma sequ¨eˆncia na˜o crescente de constantes positivas, enta˜o para quais- quer nu´meros inteiros positivos m,n (m < n) e ε > 0 arbitra´rio P µ max m≤i≤n ci |Y1 + ...+ Yi| ≥ ε ¶ ≤ 1 ε2 à c2m mX i=1 σ2i + nX i=m+1 c2iσ 2 i ! 5 Lema (Kronecker): Seja {Xn} uma sequ¨eˆncia de nu´meros reais e {ak} uma sequ¨eˆncia de nu´meros positivos que cresce para infinito. Enta˜o ∞X n=1 xn an ≤ ∞⇒ 1 an nX j=1 xj → 0 Prova: Seja Yi = Xi − µi. Pela desigualdade de Hajek-Renyi, P µ max m≤i≤n ci |Y1 + ...+ Yi| ≥ ε ¶ ≤ 1 ε2 à c2m mX i=1 σ2i + nX i=m+1 c2iσ 2 i ! Escolha ci = 1/i. Nesse caso, P µ max m≤i≤n ¯¯ Y¯i ¯¯ ≥ ε ¶ ≤ 1 ε2 à 1 m2 mX i=1 σ2i + nX i=m+1 σ2i i2 ! Portanto, lim n→∞ P µ max m≤i≤n ¯¯ Y¯i ¯¯ ≥ ε ¶ ≤ 1 ε2 à 1 m2 mX i=1 σ2i + ∞X i=m+1 σ2i i2 ! Pela continuidade da medida de probabilidade, lim n→∞ P µ max m≤i≤n ¯¯ Y¯i ¯¯ ≥ ε ¶ = P µ max m≤i ¯¯ Y¯i ¯¯ ≥ ε ¶ . Computando o limite de ambos os lados: 0 ≤ lim m→∞ P µ max m≤i ¯¯ Y¯i ¯¯ ≥ ε ¶ ≤ 1 ε2 lim m→∞ à 1 m2 mX i=1 σ2i + ∞X i=m+1 σ2i i2 ! = 1 ε2 lim m→∞ 1 m2 mX i=1 σ2i pois, por hipo´tese, ∞X i=1 σ2i i2 converge. Ale´m disso, pelo lema de Kronecker, ∞X i=1 σ2i i2 <∞⇒ lim m→∞ 1 m2 mX i=1 σ2i = 0 Portanto, lim m→∞ P µ max m≤i ¯¯ Y¯i ¯¯ ≥ ε ¶ = 0 6 Econometria/mle.pdf Universidade de Sa˜o Paulo - Departamento de Economia EAE 5811 - Econometria I Prof. Dr. Ricardo Avelino 1o Semestre de 2007 Ma´xima Verossimilhanc¸a Definic¸o˜es Dificuldades potenciais Seja x = (x1, ..., xn) o valor realizado de um vetor aleato´rioX = (X1, ...,Xn), com distribuic¸a˜o conjunta Pθ pertencente a uma famı´lia de distribuic¸o˜es parame´tricas P = © Pθ : θ ∈ Θ ⊂ Rk ª . Seja f (x, θ) a func¸a˜o de densidade con- junta descrevendo a distribuic¸a˜o Pθ, a distribuic¸a˜o de X. Definic¸a˜o: f (x, θ) considerada como uma func¸a˜o de θ para x fixo e´ denom- inada de func¸a˜o de verossimilhanc¸a das observac¸o˜es, isto e´, L (x, θ) = f (x, θ) A func¸a˜o de log verossimilhanc¸a e´ definida como L (x, θ) = lnL (x, θ) = ln f (x, θ) . Se X1, ...,Xn sa˜o i.i.d. com densidade comum f (xi, θ), a func¸a˜o de verossim- ilhanc¸a e´ L (x, θ) = Qn i=1 f (xi, θ) e f (xi, θ) e´ a func¸a˜o de verossimilhanc¸a para a i-e´sima observac¸a˜o. Enta˜o, a func¸a˜o de log verossimilhanc¸a e´ simplesmente lnL (x, θ) = Pn i=1 ln f (xi, θ). Note como o uso da func¸a˜o de log verossimilhanc¸a simplifica o problema quando as func¸o˜es de densidade envolvem exponenciais. Definic¸a˜o: A estimativa de θ de ma´xima verossimilhanc¸a e´ dada por θˆn (x) = argmax θ∈Θ L (x, θ) = argmax θ∈Θ L (x, θ) e no´s chamamos θˆn (x) de estimador de ma´xima verossimilhanc¸a de θ. Terminologia ∂L(x,θ) ∂θ0 = ∂ lnL(x,θ) ∂θ0 ³ = ∂ ln f(x,θ) ∂θ0 ´ : score ∂L(x,θ) ∂θ0 = 0 : equac¸o˜es de verossimilhanc¸a I (θ) = Eθ ·³ ∂ ln f(x,θ) ∂θ0 ´³ ∂ ln f(x,θ) ∂θ0 ´0¸ : matriz de informac¸a˜o ou esperanc¸a do produto externo do score. 1 Sob condic¸o˜es discutidas anteriormente, I (θ) e´ igual a−Eθ h ∂2 ∂θ∂θ0 ln f (x, θ) i , isto e´, menos o valor esperado do Hessiano. Na˜o unicidade da func¸a˜o de verossimilhanc¸a Quando o espac¸o amostral e´ discreto, a func¸a˜o de verossimilhanc¸a e´ definida unicamente, pois a func¸a˜o de probabilidade conjunta e´ u´nica. Esse na˜o e´ o caso quando a distribuic¸a˜o das observac¸o˜es tem uma parte cont´ınua. Nesse caso, a densidade de X e´ u´nica com excec¸a˜o de conjuntos de medida zero. Exemplo: Suponha queXi ∼ N (θ, 1) e que osX 0is sejam independentes. Frequ¨entemente, no´s consideramos a densidade conjunta. L1 (x, θ) = 1 (2π) n/2 exp µ −1 2 nP i=1 (xi − θ)2 ¶ < 1 mas outras escolhas de denisdades que conduzem a` mesma famı´lia de dis- tribuic¸o˜es sa˜o poss´ıveis. Por exemplo, no´s poder´ıamos usar L2 (x, θ) = ½ L1 (x, θ) se Pn i=1 x 2 i 6= θ 100 se Pn i=1 x 2 i = θ A func¸a˜o de verossimilhanc¸a e´ modificada no conjunto ©Pn i=1 x 2 i = θ ª , que tem probabilidade zero. Portanto, L2 (x, θ) e´ outra densidade para Pθ. A maximizac¸a˜o de L1 (x, θ) conduz a θˆ 1 (X) = X¯, enquanto a maximizac¸a˜o de L2 (x, θ) resulta em θˆ 2 (X) = Pn i=1X 2 i . Portanto, a modificac¸a˜o da densi- dade em um conjunto que tem probabilidade zero pode modificar o estimador resultante. Para evitar essa dificuldade, toda vez que for poss´ıvel, podemos re- querer que as densidades sejam cont´ınuas em θ ou parcialmente cont´ınuas em conjuntos compactos com interiores na˜o vazios. Na˜o existeˆncia de soluc¸a˜o para o problema de maximizac¸a˜o θˆn (x) pode na˜o existir para alguns valores de x ou para todos eles. Em geral, isso se deve ao fato do espac¸o de paraˆmetros Θ ser aberto ou ao fato da func¸a˜o de verossimilhanc¸a ser descont´ınua em θ. Exemplo 1 (Na˜o existeˆncia da soluc¸a˜o para todos os valores de x) Suponha que no´s tenhamos uma amostra aleato´ria e que cada observac¸a˜o tenha densidade f (xi, θ) = ½ 1 θ para 0 < xi < θ 0 caso contra´rio 2 O estimador de ma´xima verossimilhanc¸a soluciona max θ>xi ∀i µ 1 θ ¶n mas esse problema na˜o tem uma soluc¸a˜o (para qualquer θ satisfazendo as re- stric¸o˜es, e´ poss´ıvel achar um valor que e´ menor e tambe´m satisfaz as restric¸o˜es). Entretanto, a func¸a˜o de densidade alternativa f (xi, θ) = ½ 1 θ para 0 < xi ≤ θ 0 caso contra´rio e´ uma func¸a˜o de densidade va´lida para a distribuic¸a˜o Pθ. Ela conduz ao esti- mador de ma´xima verossimilhanc¸a θˆ (X) = max {X1, ...,Xn}, frequ¨entemente denotado por X(n). Exemplo 2 (Na˜o existeˆncia da soluc¸a˜o para alguns valores de x). Considere duas varia´veis aleato´riasX1 eX2 que sa˜o independentes e teˆm uma distribuic¸a˜o binomial B ³ 1, 11+exp(θ) ´ , θ ∈ Θ = R. A func¸a˜o de verossimilhanc¸a e´ L ((x1, x2) , θ) = Q2 i=1 f (xi, θ) = µ 1 1 + exp (θ) ¶x1+x2 µ 1− 1 1 + exp (θ) ¶2−x1−x2 Portanto, L ((1, 1) , θ) = 1 (1+exp(θ))2 , que e´ decrescente em θ e na˜o atinge um ma´ximo em R. Um ma´ximo seria atingido se o espac¸o de paraˆmetros fosse fechado, o que seria o caso se Θ = R ∪ {+∞,−∞} . A estimativa de ma´xima verossimilhanc¸a seria−∞. Racioc´ınio ana´logo se aplica para (X1,X2) = (0, 0) . Para (X1,X2) = (1, 0) ou (0, 1) , no´s temos L ((0, 1) , θ) = L ((1, 0) , θ) = exp(θ) (1+exp(θ))2 , que atinge um u´nico ma´ximo em θ = 0. Portanto, θˆ (1, 0) = θˆ (0, 1) = 0. Como esses exemplos deixam claro, uma condic¸a˜o suficiente para a existeˆncia do estimador de ma´xima verossimilhanc¸a e´ que Θ seja compacto e L (x, θ) cont´ınua em Θ. Mu´ltiplas soluc¸o˜es para o problema de maximizac¸a˜o Exemplo 1: No´s vimos anteriormente que, quando Y n×1 ∼ N µ X n×k β, σ2I ¶ , o estimador de MQO de β coincide com o estimador de ma´xima verossimilhanc¸a de β. No´s tambe´m vimos que, quando posto (X) < k, existem infinitas soluc¸o˜es para as condic¸o˜es de primeira ordem X 0Xβˆ = X 0y. Portanto, o estimador de ma´xima verossimilhanc¸a de β na˜o e´ u´nico quando posto (X) < k. 3 Exemplo 2: Suponha que X1, ...,Xn sejam independentes, cada um com distribuic¸a˜o U (θ, θ + 1). A func¸a˜o de verossimilhanc¸a e´ L ((x1, ..., xn) , θ) = Qn i=1 f (xi, θ) = ½ 1 para θ ≤ xi ≤ θ + 1 0 caso contra´rio = ½ 1 se min {X1, ...,Xn} ≥ θ e max {X1, ...,Xn} ≤ θ + 1 0 caso contra´rio Portanto, qualquer θ satisfazendo max {X1, ...,Xn}−1 ≤ θ ≤ min {X1, ...,Xn} e´ uma estimativa de ma´xima verossimilhanc¸a. Consequ¨entemente, ha´ um nu´mero infinito de soluc¸o˜es. Uma condic¸a˜o suficiente para unicidade e´ que Θ seja convexo e L (x, θ) es- tritamente coˆncava em ξ = h (θ) , onde h e´ uma func¸a˜o bijetora. Propriedade de invariaˆncia de ma´xima verossimilhanc¸a Suponha novamente que xi, i = 1, 2, ... sejam i.i.d. com f.d.p. f (xi, θ) , θ ∈ Θ. Entretanto, suponha que ao inve´s de expressar a densidade em termos do vetor de paraˆmetros θ, no´s a expressemos em termos de um novo vetor de paraˆmetros λ = g (θ) . g e´ uma func¸a˜o de Θ num conjunto Λ e e´ bijetora. Enta˜o, para cada valor de λ ∈ Λ, existe um u´nico valor de θ ∈ Θ tal que θ = g−1 (λ). Portanto, a func¸a˜o de verossimilhanc¸a pode ser escrita como L (x, θ) = Qn i=1 f (xi, θ) ou L ¡ x, g−1 (λ) ¢ = Qn i=1 f ¡ xi, g −1 (λ) ¢ Como L (x, θ) e´ maximizada em θˆ, a estimativa de ma´xima verossimilhanc¸a de θ, segue-se que a func¸a˜o de verossimilhanc¸a expressa em termos de λ sera´ maximizada no valor de λ que satisfaz g−1 ³ λˆ ´ = θˆ, isto e´, λˆ = g ³ θˆ ´ . Conclusa˜o: No´s mostramos que o estimador de ma´xima verossimilhanc¸a de g (θ) e´ g ³ θˆ ´ . Propriedades assinto´ticas de ma´xima verossimilhanc¸a Consisteˆncia Teorema (Consisteˆncia do estimador de ma´xima verossimilhanc¸a): Suponha que xi, i = 1, 2, ... sejam i.i.d. com f.d.p. f (xi, θ) e (MLE, i) se θ 6= θ0, enta˜o f (xi, θ) 6= f (xi, θ0) (MLE, ii) θ0 ∈ Θ, que e´ compacto (MLE, iii) ln f (xi, θ) e´ cont´ınua em cada θ ∈ Θ com probabilidade 1. (MLE, iv) E [supθ∈Θ |ln f (xi, θ)|] <∞ 4 Enta˜o, θˆn P→ θ0. Prova: No´s podemos provar esse teorema verificando se as condic¸o˜es acima impli- cam as condic¸o˜es para consisteˆncia de estimadores extremos. Relembrando as condic¸o˜es suficientes (“EE” denota estimadores extremos): Existe uma func¸a˜o Q0 (θ) tal que (EE, i) Q0 (θ) e´ unicamente maximizada em θ0 (EE, ii) Θ e´ compacto (EE, iii) Q0 (θ) e´ cont´ınua (EE, iv) Qˆn (θ) converge uniformemente em probabilidade para Q0 (θ) Essas condic¸o˜es, com excec¸a˜o de (EE, ii), na˜o sa˜o condic¸o˜es primitivas. Para um dado estimador, e´ necessa´rio procurar por condic¸o˜es “primitivas” que im- pliquem estas. Essa e´ a func¸a˜o de (MLE, i) - (MLE, iv). Passo 1: (MLE, i) - (MLE, iv) e o seguinte lema implicam (EE, i) (NM (1994), Lema 2.2): Se θ0 e´ identificado (isto e´, θ 6= θ0 e θ ∈ Θ implicam f (x, θ) 6= f (x, θ0) e E [|ln f (x, θ)|] <∞ para todo θ, enta˜o E [ln f (x, θ)] tem um u´nico ma´ximo em θ0. Portanto, E [ln f (x, θ)] desempenha a func¸a˜o de Q0 (θ) no caso de ma´xima verossimilhanc¸a. Nota: Q0 (θ) e´ a func¸a˜o para a qual a func¸a˜o objetivo deve convergir uni- formemente em probabilidade. No´s mostraremos na prova mais adiante que, para ma´xima verossimilhanc¸a, Q0 (θ) = E [ln f (x, θ)] . Prova: Como o logaritmo e´ uma func¸a˜o coˆncava, pela desigualdade de Jensen estrita, para todo θ 6= θ0, E µ log f (x, θ) f (x, θ0) ¶ < logE µ f (x, θ) f (x, θ0) ¶ = 0 pois E µ f (x, θ) f (x, θ0) ¶ = Z +∞ −∞ f (x, θ) f (x, θ0) f (x, θ0) dx = Z +∞ −∞ f (x, θ) dx = 1 Mas, E µ log f (x, θ) f (x, θ0) ¶ < 0⇒ E (log f (x, θ)− log f (x, θ0)) < 0 ⇒ E [log f (x, θ)] < E [log f (x, θ0)] ⇒ Q0 (θ) < Q0 (θ0) 5 Passo 2: (EE, ii) e´ satisfeita por (MLE, ii) Passo 3: (EE, iii) e (EE, iv) sa˜o consequ¨eˆncias de (MLE, ii), (MLE, iii) e (MLE, iv) e do seguinte lema, que e´ uma lei dos grandes nu´meros uniforme. Lema (NM (1994), Lema 2.4): Seja a (x, θ) uma matriz de func¸o˜es da ob- servac¸a˜o x e do paraˆmetro θ. Se as observac¸o˜es x1, x2, ... sa˜o i.i.d, Θ e´ compacto, a (xi, θ) e´ cont´ınua para cada θ ∈ Θ com probabilidade 1, e existe d (x) tal que ka (x, θ)k ≤ d (x) para todo θ ∈ Θ e E [d (x)] <∞, enta˜o E [a (x, θ)] e´ cont´ınua e sup θ∈Θ °°°° 1nPni=1 a (xi, θ)−E [a (x, θ)] °°°° P→ 0 No nosso caso, Θ e´ compacto por (MLE, iii), a (xi, θ) = ln f (xi, θ0) e´ cont´ınua para cada θ ∈ Θ com probabilidade 1 por (MLE, iii). Escolha d (x) = supθ∈Θ |ln f (x, θ)| < ∞. Enta˜o E [d (x)] = E [supθ∈Θ |ln f (x, θ)|] < ∞ por (MLE, iv). O lema enta˜o implica que E [ln f (x, θ)] e´ cont´ınua, isto e´, (EE, iii). Isso tambe´m implica que a func¸a˜o de log verossimilhanc¸a Qˆn (θ) = 1 n Pn i=1 ln f (xi, θ) converge uniformemente em probabilidade para E [ln f (x, θ)] . Portanto, Q0 (θ) = E [ln f (x, θ)] , e (EE, iv) e´ satisfeita. Note que no´s multiplicamos a func¸a˜o de verossimilhanc¸a por 1 n . Isso na˜o modifica a soluc¸a˜o, mas nos permite derivar as propriedades assinto´ticas. Normalidade assinto´tica e eficieˆncia assinto´tica Teorema (Normalidade assinto´tica e eficieˆncia assinto´tica do estimador de ma´xima verossimilhanc¸a): Suponha que xi, i = 1, 2, ... sejam i.i.d, que as hipo´teses utilizadas para provar consisteˆncia do estimador de ma´xima verossimilhanc¸a sejam satisfeitas e que (MLE, i) θ0 ∈ interior (Θ) (MLE, ii) f (x, θ) e´ duas vezes continuamente diferencia´vel e f (x, θ) > 0 numa vizinhanc¸a N de θ0. (MLE, iii) R sup θ∈N k∇θf (x, θ)k dx <∞ (MLE, iv) J = E °°{∇θ ln f (x, θ0)} {∇θ ln f (x, θ0)}0°° existe e e´ na˜o singular. (MLE, v) E · sup θ∈N k∇θθ ln f (x, θ)k ¸ <∞ Enta˜o, √ n ³ θˆn − θ0 ´ d→ N ¡ 0, J−1 ¢ Prova: Para provar o teorema, basta verificar se as condic¸o˜es primitivas acima implicam as condic¸o˜es suficientes para normalidade assinto´tica de esti- madores extremos. Essas condic¸o˜es eram 6 θˆn P→ θ0 e (EE, i) θ0 ∈ interior (Θ) (EE, ii) Qˆn (θ) e´ duas vezes continuamente diferencia´vel numa vizinhanc¸a N de θ0. (EE, iii) √ n∇θQˆn (θ0) d→ N (0,Σ) (EE, iv) ∃ H (θ) cont´ınua em θ0 satisfazendo sup θ∈N °°°∇θθQˆn (θ)−H (θ)°°° P→ 0 (EE, v) H = H (θ0) e´ na˜o singular Nesse caso, √ n ³ θˆn − θ0 ´ d→ N ¡ 0,H−1ΣH−1 ¢ Passo 1: θˆn P→ θ0 pois no´s assumimos que as condic¸o˜es para consisteˆncia do estimador de ma´xima verossimilhanc¸a sa˜o satisfeitas. Passo 2: (MLE, i)-(MLE, ii) implicam (EE, i)-(EE, ii) Passo 3: (EE, iii) e´ satisfeita por (MLE, iii)-(MLE, iv): No´s provamos anteriormente que E [∇θ ln f (x, θ)] = 0, desde que no´s pos- samos diferenciar sob a integral em R f (x, θ) dx = 1. (MLE, iii) assegura que esse e´ o caso (veja NM (1994), Lema 3.6). Ale´m disso, por (MLE, iv), J = E °°{∇θ ln f (x, θ0)} {∇θ ln f (x, θ0)}0°° existe e e´ na˜o singular. Portanto, (EE, iii) e´ consequ¨eˆncia do teorema central do limite multivariado de Lindberg- Le´vy e Σ = J. Passo 4: (EE, iv) e´ satisfeita por (MLE, ii)-(MLE, v) Seja Θ um conjunto compacto contido em N , contendo θ0 em seu interior. Defina a matriz a (x, θ) por a (x, θ) = ∇θθ ln f (x, θ). Enta˜o a (x, θ) satisfaz as condic¸o˜es do lema 2.4 por (MLE, ii) e (MLE, v). Portanto, E [a (x, θ)] = E [∇θθ ln f (x, θ)] e´ cont´ınua e sup θ∈Θ °°°° 1nPni=1 a (xi, θ)−E [a (x, θ)] °°°° = sup θ∈Θ °°°° 1nPni=1∇θθ ln f (xi, θ)−E [∇θθ ln f (x, θ)] °°°° P→ 0 Consequ¨entemente, (EE, iv) e´ satisfeita com H = E [∇θθ ln f (x, θ)] Ale´m disso, (MLE, ii) e (MLE, iii) asseguram que no´s podemos diferenciar duas vezes sob a integral R f (x, θ) dx = 1 . Portanto, no´s sabemos que E £{∇θ ln f (x, θ0)} {∇θ ln f (x, θ0)}0¤ = −E [∇θθ ln f (x, θ)] 7 e J = −H. Passo 5: (EE, v) e´ satisfeita pois H = −J e J e´ na˜o singular por (MLE, iv). No´s mostramos que (EE, i)-(EE, v) sa˜o satisfeitas com H = −J e, portanto, √ n ³ θˆn − θ0 ´ d→ N ¡ 0,H−1JH−1 ¢ = N ¡ 0, J−1 ¢ . Relembrando da desigualdade da informac¸a˜o assinto´tica que se θˆn e´ assintoticamente normal, isto e´, √ n ³ θˆn − θ0 ´ d→ N (0,Σ (θ)) , enta˜o, sob certas condic¸o˜es, o limite inferior de Σ (θ) e´ Σ (θ) ≥ [I1 (θ)]−1 exceto num conjunto com medida de Lebesgue zero. Mas I1 (θ) = J . Portanto, o resultado √ n ³ θˆn − θ0 ´ d→ N ¡ 0, J−1 ¢ prova que ma´xima verossimilhanc¸a e´ assintoticamente eficiente. E´ importante ressaltar que no´s achamos um me´todo para derivar o melhor estimador dentro da classe de estimadores assintoticamente normais, mas que, em contrapartida, e´ preciso especificar uma famı´lia de distribuic¸o˜es parame´tricas P a fim de escrever a func¸a˜o de verossimilhanc¸a. O que ocorre se no´s fizermos uma hipo´tese de distribuic¸a˜o incorreta, assu- mindo que a f.d.p. conjunta verdadeira na˜o e´ membro da famı´lia de distribuic¸o˜es que assumimos? Por exemplo, se a distribuic¸a˜o correta e´ uma distribuic¸a˜o t, mas no´s escrevermos a func¸a˜o de verossimilhanc¸a assumindo uma distribuic¸a˜o normal. Ou se no´s assumirmos que as observac¸o˜es sa˜o i.i.d. com distribuic¸a˜o normal, mas os dados forem independentes, pore´m provenientes de distribuic¸o˜es normais com diferentes variaˆncias (isto e´, heteroscedasticidade e, portanto, na˜o identicamente distribu´ıdas). No´s obtemos estimativas consistentes se no´s maximizarmos uma func¸a`o de verossimilhanc¸a incorretamente especificada? White (1982) mostrou que, em alguns casos, no´s ainda obtemos estimativas consistentes dos paraˆmetros de interesse. Entretanto, os desvios-padro˜es para os coeficientes estimados calculados sob a hipo´tese de normalidade na˜o sa˜o cor- retos, pois a igualdade da matriz de informac¸a˜o na˜o e´ mais va´lida. Nesse caso, o resultado geral √ n ³ θˆn − θ0 ´ d→ N ¡ 0,H−1JH−1 ¢ na˜o pode ser simplificado para √ n ³ θˆn − θ0 ´ d→ N ¡ 0, J−1 ¢ e no´s devemos utilizar uma estimativa de H−1JH−1 para calcular os desvios-padro˜es das estimativas. Uma estimativa que maximize a func¸a˜o de verossimilhanc¸a incorretamente especificada e´ conhecida como uma estimativa de quase ma´xima verossimilhanc¸a ou de pseudo ma´xima verossimilhanc¸a. 8 Infereˆncia Estimac¸a˜o consistente da variaˆncia assinto´tica Infereˆncia assinto´tica pode se basear no resultado de normalidade assinto´tica. A fim de construir intervalos de confianc¸a e conduzir testes, no´s precisaremos estimar a variaˆncia assinto´tica J−1. Qualquer estimador consistente pode ser utilizado, pois as propriedades assinto´ticas dos intervalos de confianc¸a e testes sera˜o as mesmas independentemente do estimador consistente de J−1 que for utilizado. Como J−1 = ¡ E £{∇θ ln f (x, θ0)} {∇θ ln f (x, θ0)}0¤¢−1 = − (E [∇θθ ln f (x, θ)])−1 o me´todo dos momentos sugere Jˆ−11 = µ 1 n Pn i=1 £{∇θ ln f (xi, θ0)} {∇θ ln f (xi, θ0)}0¤¶−1 ou Jˆ−12 = µ − 1 n Pn i=1 [∇θθ ln f (x, θ)] ¶−1 Jˆ−12 P→ J−1 sob as condic¸o˜es assumidas no teorema de normalidade assinto´tica de ma´xima verossimilhanc¸a. Para que Jˆ−11 P→ J−1, no´s precisamos da condic¸a˜o adicional de que haja uma vizinhanc¸a N de θ0 tal que E · sup θ∈N k∇θ ln f (x, θ)k2 ¸ <∞ Numa dada situac¸a˜o, pode ser mais fa´cil calcular um ou outro estimador. Embora a teoria assinto´tica na˜o guie a escolha, os dois candidatos podem diferir em termos de qua˜o pro´ximo a teoria assinto´tica aproxima a distribuic¸a˜o do intervalo de confianc¸a verdadeiro. Testes Assinto´ticos Suponha que no´s estimamos θ ∈ Θ ⊂ Rk por ma´xima verossimilhanc¸a e desejamos testar H0 : h (θ) = 0 contra H1 : h (θ) 6= 0, para uma func¸a˜o difer- encia´vel h : Rk → Rp. Adicionalmente, suponha que a restric¸a˜o posa ser escrita alternativamente como θ = r (α) . Ha´ treˆs testes assinto´ticos que podem ser em- pregados. Para os treˆs, o resultado da distribuic¸a˜o dado e´ somente va´lido sob as condic¸o˜es que garantem consisteˆncia e normalidade assinto´tica de ma´xima verossimilhanc¸a. 1. Teste da raza˜o de verossimilhanc¸a: Se a restric¸a˜o h (θ) = 0 e´ va´lida, impondo-a na estimac¸a˜o na˜o deve resultar numa grande reduc¸a˜o da func¸a˜o 9 de verossimilhanc¸a (ou log-verossimilhanc¸a). Seja θˆ o estimador de ma´xima verossimilhanc¸a do problema de maximizac¸a˜o irrestrito e θ˜ o estimador de ma´xima verossimilhanc¸a do problema de maximizac¸a˜o impondo a restric¸a˜o h (θ) = 0. A raza˜o de verossimilhanc¸a λ = L ³ x, θ˜ ´ L ³ x, θˆ ´ deve estar entre 0 e 1, pois ambas as verossimilhanc¸as sa˜o positivas e o valor da func¸a˜o objetivo na˜o pode ser maior para o problema de maximizac¸a˜o restrito. Um valor pequeno de λ coloca em du´vida a validade da restric¸a˜o. A regia˜o cr´ıtica baseia-se no resultado LR = −2 lnλ = 2 h lnL ³ x, θˆ ´ − lnL ³ x, θ˜ ´i d→ χ2p e no´s rejeitamos H0 se LR > χ 2 1−α,p. Prova da distribuic¸a˜o assinto´tica: lnL (x, θ) = lnL ³ x, θˆ ´ + ∂ lnL ³ x, θˆ ´ ∂θ0 ³ θ − θˆ ´ + 1 2 ³ θ − θˆ ´0 ∂2 lnL³x, θˆ´ ∂θ∂θ0 ³ θ − θˆ ´ + op (1) Defina I (θ) = − lim n→∞ E µ 1 n ∂2 lnL(x,θˆ) ∂θ∂θ0 ¶ . Como ∂ lnL(x,θˆ) ∂θ0 = 0, lnL ³ x, θˆ ´ − lnL (x, θ) = −1 2 ³ θˆ − θ ´0 ∂2 lnL³x, θˆ´ ∂θ∂θ0 ³ θˆ − θ ´ + op (1) = −1 2 n ³ θˆ − θ ´0 I (θ) ³ θˆ − θ ´ + op (1) Similarmente, para o estimador de ma´xima verossimilhanc¸a restrito, como ∂ lnL(x,αˆ) ∂α0 = 0, lnL (x, αˆ)− lnL (x, α) = −1 2 n (αˆ− α)0 I (α) (αˆ− α) + op (1) para I (α) = − lim n→∞ E ³ 1 n ∂2 lnL(x,αˆ) ∂α∂α0 ´ . Sob a hipo´tese nula, lnL (x, θ) = lnL (x, r (α)) = lnL (x, α) . Portanto, 2 h lnL ³ x, θˆ ´ − lnL (x, αˆ) i = n ³ θˆ − θ ´0 I (θ) ³ θˆ − θ ´ −n (αˆ− α)0 I (α) (αˆ− α) + op (1) 10 Como √ n ³ θˆ − θ ´ = I (θ) −1 1√ n ∂ lnL (x, θ) ∂θ0 + op (1) , √ n (αˆ− α) = I (α)−1 1√ n ∂ lnL (x, α) ∂α0 + op (1) e ∂ lnL (x, α) ∂α0 = R0 ∂ lnL (x, θ) ∂θ0 , para R = ∂r(α) ∂α0 , 2 h lnL ³ x, θˆ ´ − lnL (x, αˆ) i = 1√ n ∂ lnL (x, θ) ∂θ0 I (θ)−1 I (θ) I (θ)−1 1√ n ∂ lnL (x, θ) ∂θ0 − 1√ n ∂ lnL (x, α) ∂α0 I (α) −1 I (α) I (α) −1 1√ n ∂ lnL (x, α) ∂α0 + op (1) = 1√ n ∂ lnL (x, θ) ∂θ0 ³ I (θ) −1 −RI (α)−1R0 ´ 1√ n ∂ lnL (x, θ) ∂θ0 + op (1) Defina ε = I (θ)−1/2 1√ n ∂ lnL(x,θ) ∂θ0 d→ N (0, I) , de modo que 2 h lnL ³ x, θˆ ´ − lnL (x, αˆ) i = ε0 ³ I − I (θ)1/2RI (α)−1R0I (θ)1/2 ´ ε+ op (1) Como I (α) = R0I (θ)R, a matriz I − I (θ)1/2R (R0I (θ)R)−1R0I (θ)1/2 e´ idempotente com posto p. Portanto, 2 h lnL ³ x, θˆ ´ − lnL (x, αˆ) i d→ χ2p 2. Teste de Wald: Se a restric¸a˜o e´ va´lida, h ³ θˆ ´ deve estar pro´ximo de zero, pois o estimador de ma´xima verossimilhanc¸a e´ consistente. Portanto, pode- mos testar se h ³ θˆ ´ e´ significativamente diferente de zero utilizando o seguinte resutado: W = −h ³ θˆ ´0 ∂h ³ θˆ ´ ∂θ0 ∂2 lnL ³ x, θˆ ´ ∂θ∂θ0 −1 ∂h ³ θˆ ´ ∂θ0 0 −1 h ³ θˆ ´ d→ χ2p Prova: O resultado resulta do me´todo delta. Primeiro passo: √ n ³ θˆn − θ ´ d→ N ¡ 0, J−1 ¢ , h (θ) = 0 11 ⇒ √ n ³ h ³ θˆn ´ − 0 ´ d→ ∂h(θ) ∂θ0 N ¡ 0, J−1 ¢ = N µ 0, ∂h(θ) ∂θ0 J −1 ³ ∂h(θ) ∂θ0 ´0¶ ⇒ √ nh ³ θˆn ´0µ ∂h(θ) ∂θ0 J −1 ³ ∂h(θ) ∂θ0 ´0¶−1√ nh ³ θˆn ´ d→ χ2p Segundo passo: Como Jˆ−12 = µ − 1 n Pn 1=1 h 5θθ ln f ³ xi, θˆ ´i¶−1 = − 1 n ∂2 lnL ³ x, θˆ ´ ∂θ∂θ0 −1 P→ J−1 no´s podemos substituir J−1 por Jˆ−12 sem alterar a distribuic¸a˜o assinto´tica. Por- tanto, √ nh ³ θˆn ´0∂h (θ) ∂θ0 − 1 n ∂2 lnL ³ x, θˆ ´ ∂θ∂θ0 −1µ ∂h (θ) ∂θ0 ¶0 −1 √ nh ³ θˆn ´ = −h ³ θˆn ´0∂h (θ) ∂θ0 ∂2 lnL ³ x, θˆ ´ ∂θ∂θ0 −1µ ∂h (θ) ∂θ0 ¶0 −1 h ³ θˆn ´ d→ χ2p 3. Teste do multiplicador de Lagrange Se a restric¸a˜o e´ va´lida, o estimador restrito deve estar pro´ximo do valor que maximiza a log verossimilhanc¸a. Portanto, a declividade da log verossimilhanc¸a, isto e´, o score, avaliado no estimador restrito, deve estar pro´ximo de zero. Suponha que no´s maximizemos a log verossimilhanc¸a sujeito a restric¸a˜o h (θ) = 0. Seja λ o vetor de multiplicadores de Lagrange de dimensa˜o px1. Enta˜o lnLR (x, θ) = lnL (x, θ) + λ 0h (θ) As condic¸o˜es de primeira ordem sa˜o ∂ lnLR (x, θ) ∂θ = ∂ lnL (x, θ) ∂θ + µ ∂h (θ) ∂θ0 ¶0 λ = 0 ⇒ ∂ lnL ³ x, θ˜ ´ ∂θ = − ∂h ³ θ˜ ´ ∂θ0 0 λ˜ ∂ lnLR (x, θ) ∂λ = h (θ) = 0 12 Se as restric¸o˜es sa˜o va´lidas, λ deve ser pequeno. Portanto, no´s podemos realizar o teste baseado no teste da hipo´tese de que λ = 0. Assintoticamente, LM = − ∂ lnL ³ x, θ˜ ´ ∂θ 0 ∂2 lnL ³ x, θ˜ ´ ∂θ∂θ0 −1 ∂ lnL ³ x, θ˜ ´ ∂θ = −λ˜0 ∂h ³ θ˜ ´ ∂θ0 ∂2 lnL ³ x, θ˜ ´ ∂θ∂θ0 −1 ∂h ³ θ˜ ´ ∂θ0 0 λ˜ d→ χ2p O teste do multiplicador de Lagrange e´ assintoticamente equivalente ao teste da raza˜o de verossimilhanc¸a. ∂ lnL ³ x, θ˜ ´ ∂θ = ∂ lnL ³ x, θˆ ´ ∂θ + ∂2 lnL (x, θ∗) ∂θ∂θ0 ³ θ˜ − θˆ ´ = ∂2 lnL (x, θ∗) ∂θ∂θ0 ³ θ˜ − θˆ ´ Portanto, LM = − ∂ lnL ³ x, θ˜ ´ ∂θ 0 ∂2 lnL ³ x, θ˜ ´ ∂θ∂θ0 −1 ∂ lnL ³ x, θ˜ ´ ∂θ = − ³ θ˜ − θˆ ´0 ∂2 lnL (x, θ∗) ∂θ∂θ0 ∂2 lnL ³ x, θ˜ ´ ∂θ∂θ0 −1µ ∂2 lnL (x, θ∗) ∂θ∂θ0 ¶³ θ˜ − θˆ ´ = − ³ θ˜ − θˆ ´0µ∂2 lnL (x, θ) ∂θ∂θ0 ¶³ θ˜ − θˆ ´ + op (1) Por fim, note que LR = 2 h lnL ³ θ˜ ´ − lnL ³ θˆ ´i = 2 ∂ lnL ³ x, θˆ ´ ∂θ ³ θ˜ − θˆ ´ + ³ θ˜ − θˆ ´0 ∂2 lnL (x, θ∗∗) ∂θ∂θ0 ³ θ˜ − θˆ ´ = ³ θ˜ − θˆ ´0 ∂2 lnL (x, θ∗∗) ∂θ∂θ0 ³ θ˜ − θˆ ´ = ³ θ˜ − θˆ ´0 ∂2 lnL (x, θ) ∂θ∂θ0 ³ θ˜ − θˆ ´ + op (1) Comparac¸a˜o a) LR, Wald e LM sa˜o assintoticamente equivalentes. b) LR: requer a estimac¸a˜o dos modelos restrito e irrestrito. 13 Wald: requer somente a estimac¸a˜o do modelo irrestrito. LM: requer somente a estimac¸a˜o do modelo restrito. Normalmente, a estimac¸a˜o do modelo restrito e´ mais dif´ıcil, o que favorece o teste de Wald. c) Propriedades em amostras finitas: O teste LR apresenta a melhor perfor- mance, seguido de perto pelo teste LM. O teste de Wald rejeita a hipo´tese nula muito frequ¨entemente. Ale´m disso, o teste de Wald na˜o e´ invariante a reparametrizac¸o˜es da hipo´tese nula, o que causa a performance ruim em amostras pequenas. Como os testes LR, Wald e LM de p restric¸o˜es lineares envolvendo β no modelo de regressa˜o linear se relacionam com os testes F vistos anteriormente? Resultado (i) LR = n ln h 1 + p n−kF i (ii) W = n n−kpF (iii) LM = n p n−kF [1+ pn−kF ] Portanto, LR = n ln £ 1 + W n ¤ , LM = W [1+Wn ] , de onde pode ser mostrado que W ≥ LR ≥ LM. Prova de (ii): H0 : Rβ = q0, isto e´, h (θ) = Rβ − q0. Da prova de que o estimador de MQO de β e´ o estimador de ma´xima verossimilhanc¸a condicional de β sob (OLS0,s)-(OLS4,s), no´s temos que ∂2 lnL(β,σ2) ∂β∂β0 = − 1 σ2 X 0X. Ale´m disso, no´s vimos que ∂ lnL(β,σ2) ∂σ2 = −n2 1 σ2 + 1 2(σ2)2 (y −Xβ)0 (y −Xβ), de modo que o estimador de ma´xima verossimilhanc¸a de σ2 e´ dado por ∂ lnL ³ βˆ, σˆ2 ´ ∂σ2 = −n 2 1 σˆ2 + 1 2 ¡ σˆ2 ¢2 ³y −Xβˆ´0 ³y −Xβˆ´ = 0 ⇔ σˆ2 = εˆ 0εˆ n = n− k n s2 14 Portanto , ∂2 lnL(x,θˆ) ∂θ∂θ0 = ∂2 lnL(βˆ,σˆ2) ∂β∂β0 = − 1 σˆ2 X 0X e W = −h ³ θˆ ´0 ∂h ³ θˆ ´ ∂θ0 ∂2 lnL ³ x, θˆ ´ ∂θ∂θ0 −1 ∂h ³ θˆ ´ ∂θ0 0 −1 h ³ θˆ ´ = − (Rβ − q0)0 ( R µ − 1 σˆ2 X 0X ¶−1 R0 )−1 (Rβ − q0) = − (Rβ − q0)0 ½ s2 n− k n R (X 0X)−1R0 ¾−1 (Rβ − q0) d→ χ2p Como o teste F de H0 : Rβ = q0 era F = (Rβ − q0)0 n s2R (X 0X)−1R0 o−1 (Rβ − q0) /p no´s temos que W = n n− kpF Coˆmputo do estimador de ma´xima verossimilhanc¸a Os estimadores de ma´xima verossimilhanc¸a sa˜o frequ¨entemente calculados a partir das condic¸o˜es de primeira ordem do problema de maximizac¸a˜o (as equac¸o˜es de verossimilhanc¸a). Entretanto, e´ importante ressaltar que as condic¸o˜es de primeira ordem na˜o sa˜o necessa´rias nem suficientes, a menos que hipo´teses adicionais sejam satisfeitas. Exemplo 1: Uma func¸a˜o de verossimilhanc¸a continuamente diferencia´vel definida num conjunto compacto pode ser maximizada na fronteira do espac¸o de paraˆmetros, onde a primeira derivada na˜o e´ necessariamente zero. Exemplo 2: Um valor para o qual a primeira derivada e´ zero pode ser um ponto de mı´nimo ou um ponto de inflexa˜o ao inve´s de um ponto de ma´ximo. Esses casos podem ser facilmente distinguidos atrave´s do exame do Hessiano, que num pontode ma´ximo deve ser negativo definido. Exemplo 3: Mesmo se o Hessiano numa raiz das condic¸o˜es de primeira ordem for negativo definido, a soluc¸a˜o pode corresponder a um ma´ximo local e na˜o a um ma´ximo global. As condic¸o˜es de primeira ordem se tornam suficientes para um ma´ximo global se a func¸a˜o de verossimilhanc¸a ou log verossimilhanc¸a e´ concava. As condic¸o˜es de primeira ordem se tornam necessa´rias se a log verossimilhanc¸a e´ diferencia´vel em θ e o ma´ximo pertence ao interior de Θ. Nesse caso, a esti- mativa de ma´xima verossimilhanc¸a satisfaz o sistema de k equac¸o˜es dado pelas equac¸o˜es de verossimilhanc¸a. 15 Em muitos problemas, as condic¸o˜es de primeira ordem sa˜o um conjunto de equac¸o˜es na˜o lineares que na˜o podem ser resolvidas explicitamente para θ e devem ser solucionadas numericamente. Ma´xima verossimilhanc¸a condicional e marginal Suponha que o vetor xi seja dividido em duas partes: x a i e x b i . No´s podemos reescrever a f.d.p. (f.p.) de xi como f (xi, θ) = f ¡ xai |xbi , θ ¢ f ¡ xbi , θ ¢ e, portanto, reescrever a func¸a˜o de verossimilhanc¸a como lnL (x, θ) = Pn i=1 ln f (xi, θ) = Pn i=1 ln f ¡ xai |xbi , θ ¢ + Pn i=1 ln f ¡ xbi , θ ¢ Definic¸a˜o (i) A estimativa de ma´xima verossimilhanc¸a condicional de θ e´ dada por θˆc,n (x) = argmax θ∈Θ Pn i=1 ln f ¡ xai |xbi , θ ¢ e no´s denominamos θˆc,n (x) de estimador de ma´xima verossimilhanc¸a condicional de θ. (ii) A estimativa de ma´xima verossimilhanc¸a marginal de θ e´ dada por θˆm,n (x) = argmax θ∈Θ Pn i=1 ln f ¡ xbi , θ ¢ e no´s denominamos θˆm,n (x) de estimador de ma´xima verossimilhanc¸a marginal de θ. Se o vetor de paraˆmetros θ puder ser dividido em θ = µ α γ ¶ , de modo que f (xi, θ) = f ¡ xai |xbi , α ¢ f ¡ xbi , γ ¢ Enta˜o, o estimador de ma´xima verossimilhanc¸a de θ e´ θˆn (x) = µ αˆc,n (x) γˆm,n (x) ¶ Exemplo: No modelo de regressa˜o linear, no´s consideramos a func¸a˜o de ma´xima verossimilhanc¸a condicional de y, dado X,. L ¡ y|X,β, σ2¢ = fy (y|X) = fy1 (y1|X) fy2 (y2|X) ...fyn (yn|X) No´s mostramos que (sob as hipo´teses assumidas) o estimador de MQO de β era ideˆntico ao estimador de ma´xima verossimilhanc¸a condicional de β e que a variaˆncia do estimador de ma´xima verossimilhanc¸a condicional atingia o limite inferior de Cramer-Rao. 16 Econometria/ols1.pdf Universidade de Sa˜o Paulo - Departamento de Economia EAE 5811 - Econometria I Prof. Dr. Ricardo Avelino 1o Semestre de 2007 Mı´nimos Quadrados Ordina´rios, Modelo e Estimador O modelo de regressa˜o linear yi = xi1β1 + ...+ xikβk + ε, i = 1, ..., n Em notac¸a˜o matricial, yi = x 0 iβ + εi, i = 1, ..., n onde xi = xi1 xi2 ... xiK K×1 , β = β1 β2 ... βK K×1 ou y = Xβ + ε onde y = y1 y2 ... yn n×1 , X = x11 x12 . . . x1K x21 x22 . . . x2K ... ... ... xn1 xn2 . . . xnK n×K , ε = ε1 ε2 ... εn n×1 a) Obter as estimativas dos paraˆmetros e testar hipo´teses. Exemplos: - estimar a elasticidade prec¸o em um problema de maximizac¸a˜o de lucro e testar se a elasticidade prec¸o e´ 1. - estimar os paraˆmetros em uma equac¸a˜o salarial e testar se ha´ discriminac¸a˜o no mercado de trabalho. - estimar os coeficientes em uma func¸a˜o de produc¸a˜o Cobb-Douglas e testar se ha´ retornos constantes de escala. b) Prever uma varia´vel Exemplos: 1 - BC tentando prever o desenvolvimento econoˆmico para decidir se aumenta ou diminui a taxa de juros. - prever o retorno de ac¸o˜es a fim de melhorar a alocac¸a˜o do portfo´lio. c) Testar uma teoria contra outra Exemplo: - o formato de U invertido do consumo ao longo do ciclo de vida deve-se a` mudanc¸as nos rendimentos oriundos do trabalho, a` restric¸o˜es de liquidez ou alguma outra coisa. Hipo´teses do modelo de regressa˜o linear (OLS0,s) y = Xβ + ε (OLS1,s) Posto(X)=K (OLS2,s) E(ε|X) = 0 (OLS3,s) Ω = E(εε0|X) = σ2I (OLS4,s) ε|X ∼ N (0,Ω) Comenta´rios sobre as hipo´teses O modelo e´ uma afirmac¸a˜o a respeito da esperanc¸a condicional de y dado X, isto e´, y|X ∼ N ¡Xβ, σ2I¢ Em nenhum momento diz que X causa y. Por exemplo, suponha que a dis- tribuic¸a˜o conjunta de duas varia´veis Z1 e Z2 seja normal, N ¡ µ1, µ2, σ 2 1, σ 2 2, ρ ¢ . Enta˜o Z1|Z2 ∼ N µ µ1 + σ12 σ22 (Z2 − µ2) , σ21 ¡ 1− ρ2 ¢¶ Z2|Z1 ∼ N µ µ2 + σ12 σ21 (Z1 − µ1) , σ22 ¡ 1− ρ2 ¢¶ onde σ12 = ρσ1σ2 Portanto, ambos os modelos zi1 = α+ βzi2 + εi zi2 = γ + δzi1 + u satisfazem as hipo´teses do modelo de regressa˜o linear (OLS0,s) Lineariedade O modelo de regressa˜o e´ linear nos paraˆmetros e no termo de erro. Por exemplo, yi = AK α i L β i e εi ⇒ ln yi = lnA+ α lnKi + β lnLi + εi 2 e´ um modelo de regressa˜o linear. Entretanto, yi = α+ 1 β + xi + εi na˜o satisfaz as hipo´teses do modelo de regressa˜o linear. (OLS1,s) Identificac¸a˜o de β Se houver multicolineariedade perfeita, Posto(X) < K e, consequ¨entemente, ∃c ∈ Rk tal que c 6= 0 e Xc = 0 Portanto, se y = Xβ + ε, enta˜o tambe´m e´ verdade que y = X (β + c) + ε. Consequ¨entemente, β na˜o e´ identificado. No caso de multicolineariedade quase perfeita, uma combinac¸a˜o linear dos paraˆmetros e´ pro´xima de zero. A u´nica soluc¸a˜o e´ obter mais dados, pois as propriedades do estimador de MQO nesse caso continuam va´lidas. Algumas consequ¨eˆncias sa˜o: i) erros padro˜es grandes das estimativas, mesmo se os coeficientes dos re- gressores forem conjuntamente significativos. ii) frequ¨entemente ocorrem grandes mudanc¸as nas estimativas quando algu- mas observac¸oes sa˜o adicionadas. iii) as estimativas dos coeficientes podem ser altamente improva´veis. iv) intervalos de confianc¸a extensos para os β0s v) baixo poder dos testes a respeito de β (OLS2,s) Me´dia condicional do erro igual a zero Juntamente com a hipo´tese de lineariedade, E(ε|X) = 0 implica que a me´dia condicional E(y|X) e´ uma func¸a˜o linear de Xβ. E(ε|X) = 0 e´ uma hipo´tese crucial. Para determinar se ela e´ plaus´ıvel, e´ preciso considerar o que o termo de erro esta´ capturando. Casos t´ıpicos em que E(ε|X) = 0 e´ violada sa˜o 1) Erro de medida em X 2) X conte´m varia´veis dependentes defasadas 3) y e X sa˜o conjuntamente determinadas (por exemplo, prec¸o e quantidade no modelo de equac¸o˜es simultaˆneas de oferta e demanda). 4) Forma funcional errada. 5) Varia´veis omitidas. Note que E(ε|X) = 0 implica que 3 i)E(εi|xi0) = E [E(εi|xi0)|x−i0 ] = E [E (εi|xi0 , x−i0)] = E [E (εi|X)] = E [0] = 0 = 0, ∀i, i0 ii) E(εi) = E [E(ε|X)] = 0 iii) Cov (εi, xi0) = E(εixi0)−E(εi)E(xi0) = E (E (εixi0 |xi0)) = E (xi0E (εi|xi0)) = E (xi00) = 0 (OLS3,s) Erros esfe´ricos Devem satisfazer homocedasticidade V (εi|X) = σ2, ∀i e auseˆncia de autocorrelac¸a˜o Cov (εi, εi0 |X) = 0, ∀i 6= i0 (OLS4,s) Normalidade dos erros Sera´ u´til para derivar resultados em amostras finitas. Na˜o e´ necessa´ria para derivar os resultados assinto´ticos. Estimador de mı´nimos quadrados ordina´rios O estimador de mı´nimos quadrados ordina´rios (MQO) soluciona Min β S (β) = nX i=1 ε2i = nX i=1 (yi − x0iβ) 2 = (y −Xβ)0 (y −Xβ) = y0y + β0X 0Xβ − 2β0X 0y Condic¸a˜o de primeira ordem ∂S ∂β ³ βˆ ´ = −2X 0 (y −Xβ) = 0⇔ X 0Xβˆ = X 0y Como para qualquer matriz A, Posto(A) = Posto(A 0 A) = Posto(AA 0 ), a inversa (X 0X)−1 existe. Portanto, βˆ = (X 0X)−1X 0y e´ a u´nica soluc¸a˜o Condic¸a˜o de segunda ordem ∂2S ∂ββ0 ³ βˆ ´ = 2X 0X 4 deve ser positiva definida para as condic¸o˜es de primeira ordem caracterizarem um mı´nimo. Seja q = c0X 0Xc para um vetor arbitra´rio c 6= 0. Enta˜o q = v0v = nX i=1 v2i , para v = Xc Como X tem posto completo e v e´ uma combinac¸a˜o linear de X, nem todo elemento de v pode ser igual a zero. Logo, q e´ positivo e, portanto, X 0X e 2X 0X sa˜o positiva definidas. Algumas matrizes u´teis: P = X (X 0X)X 0 e´ uma matriz de projec¸a˜o. Pre´-multiplicando um vetor y por P resulta nos valores de MQO estimados de uma regressa˜o de y em X, isto e´, yˆ = Py. Note que PX = X. M = I − P e´ uma matriz residual. Pre´-multiplicando um vetor y por M resulta nos res´ıduos de MQO de uma regressa˜o de y em X, isto e´, εˆ = My. Note que MX = 0. Tanto M quanto P sa˜o sime´tricas, M = M 0 e P = P 0, e idempotentes, MM =M e PP = P . Ale´m disso, M e P sa˜o ortogonais: MP = 0. Melhor previsor linear como motivac¸a˜o do estimador de mı´nimos quadrados ordina´rios Melhor previsor Proposic¸a˜o: O previsor P (X) com o menor erro de previsa˜o quadra´tico me´dio e´ a esperanc¸a condicional de Y dado X, P (X) = E [Y |X] . Prova: Escolha qualquer previsor h (X) e considere o erro quadra´tico me´dio de previsa˜o: E h (Y − h (X))2 i = E h (Y −E [Y |X] +E [Y |X]− h (X))2 i = E h (Y −E [Y |X])2 i +E h (E [Y |X]− h (X))2 i +2E [(Y −E [Y |X]) (E [Y |X]− h (X))] Utilizando a lei de expectativas iteradas no u´ltimo termo, E [(Y −E [Y |X]) (E [Y |X]− h (X))] = E h Y E [Y |X]− Y h (X)−E [Y |X]2 +E [Y |X]h (X) i = E h E h Y E [Y |X]− Y h (X)−E [Y |X]2 +E [Y |X]h (X) |X ii = E h E [Y |X]2 −E [Y |X]h (X)− E [Y |X]2 +E [Y |X]h (X) i = 0 5 Portanto, E h (Y − h (X))2 i = E h (Y −E [Y |X])2 i +E h (E [Y |X]− h (X))2 i O primeiro termo na˜o depende de h (X) e o segundo termo e´ minimizado quando h (X) = E [Y |X] . Melhor previsor linear Proposic¸a˜o: O previsor linear P (X) com o menor erro de previsa˜o quadra´tico me´dio (o melhor previsor linear) e´ dado por P ∗ (X) = α∗ +X 0β∗ α∗ = E [Y ]−E [X]0 β∗, β∗ = [V [X]]−1Cov (X,Y ) Prova: Min α,β E £ ε2 ¤ = Min α,β E h (Y − α−X 0β)2 i = Min α,β E h Y 2 + (α+X 0β)2 − 2Y (α+X 0β) i Condic¸o˜es de primeira ordem: ∂E £ ε2 ¤ ∂α = E [2 (α+X 0β)− 2Y ] = 0⇔ E [Y − α−X 0β] = 0 ⇔ α∗ = E [Y ]−E [X]0 β∗ ∂E £ ε2 ¤ ∂β = E [2 (α+X 0β)X − 2Y X] = 0⇔ E (X (Y − α−X 0β)) = 0 ⇔ Cov (X,Y − α−X 0β) = 0⇔ Cov (X,Y )− V (X)β = 0 ⇔ β∗ = [V [X]]−1Cov (X,Y ) 6 Econometria/ols2.pdf Universidade de Sa˜o Paulo - Departamento de Economia EAE 5811 - Econometria I Prof. Dr. Ricardo Avelino 1o Semestre de 2007 Mı´nimos Quadrados Ordina´rios, Resultados em Amostras Finitas Propriedades em amostras pequenas de β (OLS0,s)-(OLS2,s): E h βˆ|X i = β,E h βˆ i = β Prova: βˆ = (X 0X)−1X 0y = (X 0X)−1X 0 (Xβ + ε) = β + (X 0X)−1X 0ε E h βˆ|X i = β +E h (X 0X)−1X 0ε|X i = β + (X 0X)−1X 0 E [ε|X] =0 por (OLS2,s) = β E h βˆ i = E h E h βˆ|X ii = E [β] = β (OLS0,s)-(OLS2,s), (OLS4,s): 1) E h βˆ|X i = β,E h βˆ i = β 2) βˆ|X ∼ N ³ β, (X 0X)−1X 0ΩX (X 0X)−1 ´ Prova de (2) βˆ = (X 0X)−1X 0y = (X 0X)−1X 0 (Xβ + ε) = β + (X 0X)−1X 0ε V h βˆ|X i = E ·³ βˆ −E h βˆ|X i´³ βˆ −E h βˆ|X i´0 |X ¸ = E h (X 0X)−1X 0εε0X (X 0X)−1 |X i = (X 0X)−1X 0E [εε|X 0]X (X 0X)−1 = (X 0X)−1X 0ΩX (X 0X)−1 Como, condicional em X, βˆ e´ uma func¸a˜o linear de ε e ε e´ normal, enta˜o βˆ|X tambe´m tem distribuic¸a˜o normal. Especificamente, βˆ|X ∼ N ³ β, (X 0X)−1X 0ΩX (X 0X)−1 ´ De fato, se ε|X ∼ N (0,Ω) , enta˜o para quaisquer matrizes A e B, Aε+B|X ∼ N (B,AΩA0) 1 (OLS0,s)-(OLS2,s), (OLS3,s): 1) E h βˆ|X i = β,E h βˆ i = β 2) V h βˆ|X i = σ2 (X 0X)−1 , V h βˆ i = σ2E h (X 0X)−1 i 3) βˆ e´ o estimador linear na˜o viesado de β com menor variaˆncia (Teorema de Gauss-Markov). Prova de (2): V h βˆ|X i = (X 0X)−1X 0ΩX (X 0X)−1 . Substituindo Ω = σ2I resulta em V h βˆ|X i = (X 0X)−1X 0σ2IX (X 0X)−1 = σ2 (X 0X)−1 V h βˆ i = E h V h βˆ|X ii + V h E h βˆ|X ii = E h σ2 (X 0X)−1 i + V [β] = σ2E h (X 0X)−1 i Prova de (3): βˆ e´ linear em y: βˆ = (X 0X)−1X 0y = A k×n y n×1 = £ a1 a2 . . . an ¤ y1 y2 ... yn , onde ai e´ k × 1 - Seja b um outro estimador linear: b = Cy = C (Xβ + ε) , C e´ uma matriz k × n Para que b seja na˜o viesado condicional em X, e´ preciso que CX = I : E [b|X] = E [Cy|X] = E [CXβ + Cε|X] = CXβ + CE [ε|X] = CXβ = β para CX = I Portanto, b = β + Cε - V [b|X] = E £(b− β) (b− β)0 |X¤ = E [Cεε0C 0|X] = CE [εε0|X]C0 = σ2CC 0 por (OLS3,s) Seja D = C − (X 0X)−1X 0. Enta˜o V [b|X] = σ2 ³ D + (X 0X)−1X 0 ´³ D + (X 0X)−1X 0 ´0 2 Mas CX = I e DX = CX − (X 0X)−1X 0X = 0. Portanto, V [b|X] = σ2 ³ DD0 +DX (X 0X)−1 + (X 0X)−1X 0D0 + (X 0X)−1X 0X (X 0X)−1 ´ = σ2DD0 + σ2 (X 0X)−1 = σ2DD0 + V h βˆ|X i DD0 e´ na˜o negativa definida. Para qualquer vetor q 6= 0 q0DD0q = z0z ≥ 0 Portanto, V [b|X] ≥ V h βˆ|X i O teorema afirma que isso e´ verdade mesmo incondicionalmente. V h βˆ i = E h V h βˆ|X ii + V h E h βˆ|X ii = E h V h βˆ|X ii V [b] = E [V [b|X]] + V [E [b|X]] = E [V [b|X]] Portanto, V [b] ≥ V h βˆ i pois V [b|X] ≥ V h βˆ|X i ⇒ E [V [b|X]] ≥ E h V h βˆ|X ii Corola´rio do Teorema de Gauss-Markov: ω0βˆ e´ o estimador linear na˜o viesado de ω0β com variaˆncia mı´nima. Prova: Considere qualquer outro estimador linear na˜o viesado θˆ = cy = c (Xβ + ε) de θ = ω0β. c e´ 1xn. E h θˆ|X i = cXβ. para que, condicional em X, θˆ seja na˜o viesado, cX = ω0, e, portanto, θˆ = θ + cε. V h θˆ|X i = cE [εε0] c0 = σ2cc0 usando (OLS3,s). V h ω0βˆ|X i = ωV h βˆ|X i ω0 = σ2ω (X 0X)−1 ω0 usando (OLS3,s). Agora, defina D = c− ω0 (X 0X)−1X 0. Enta˜o V h θˆ|X i = σ2 ³ D + ω0 (X 0X)−1X 0 ´³ D + ω0 (X 0X)−1X 0 ´0 . Como cX = ω0, DX = ω0 − ω0 = 0. Portanto, V h θˆ|X i = σ2DD0 + σ2ω0 (X 0X)−1 ω = V h ω0βˆ|X i + σ2DD0 Finalmente, escolha qualquer vetor q 6= 0. Enta˜o q0DD0q = z0z ≥ 0, e, portanto, DD0 e´ na˜o negativa definida. Continuando como na prova anterior, obtemos V h θˆ i ≥ V h ω0βˆ i 3 (OLS0,s)-(OLS4,s): 1) E h βˆ|X i = β,E h βˆ i = β 2) βˆ|X ∼ N ³ β, σ2 (X 0X)−1 ´ 3) βˆ e´ o estimador de ma´xima verossimilhanc¸a condicional de β 4) βˆ e´ o estimador na˜o viesado de β com menor variaˆncia entre todos os estimadores. Prova de (3): z = (z1, ..., zn): valor observado de um vetor aleato´rio Z = (Z1, ..., Zn) f (z, θ): densidade conjunta descrevendo a distribuic¸a˜o Pθ de Z L (z, θ) = ln f (z, θ): func¸a˜o de log verossimilhanc¸a O estimador de ma´xima verossimilhanc¸a de θ e´ dado por θˆ (z) = argmax θ∈Θ