Esta é uma pré-visualização de arquivo. Entre para ver o arquivo original
Econometria Aula 5 Marta AreosaMarta Areosa marta@econ.puc-rio.br Teoria da Probabilidade para Regressões Lineares População O grupo de interesse (ex: todas as escolas urbanas do Brasil) Variáveis aleatórias: Y, X Ex: (Nota em matemática,Tamanho de turma) Distribuição conjunta de (Y, X) 2 Distribuição conjunta de (Y, X) A função de regressão populacional é linear: E(u|X) = 0 (1o pressuposto de MQO) X, Y têm momentos finitos (3o pressuposto MQO) Dados Coletados por amostra aleatória simples: {(Xi, Yi)}, i = 1,…, n, são i.i.d. (2o pressuposto MQO) Distribuição Amostral de • O que é E( 1ˆβ )? • Se E( 1ˆβ ) = β1, então MQO é não viesado • O que é var( 1ˆβ )? (medida da incerteza amostral) • Qual é a distribuição de ˆβ em amostras pequenas? 1 ˆβ 3 • Qual é a distribuição de 1ˆβ em amostras pequenas? • Pode ser complicada em geral • Qual é a distribuição de 1ˆβ em amostras grandes? • Relativamente simples – 1ˆβ é distribuído como uma Normal. Expressando em função de Vamos mostrar que 1ˆβ é ume estimador não-viesado para β1: Yi = β0 + β1Xi + ui Y = β0 + β1X + u Yi – Y = β1(Xi – X ) + (ui – u ) Podemos expressar β1 como: 1 ˆβ → 1β 4 Podemos expressar β1 como: 1 ˆβ = 1 2 1 ( )( ) ( ) n i i i n i i X X Y Y X X = = − − − ∑ ∑ ( ) ( ) ( )[ ] ( )∑ ∑ = = − −+−− = n i i n i iii XX uuXXXX 1 2 1 1β ( ) ( )( ) ( ) ( )( ) ( ) ( ) ( ) ( )∑∑∑ ∑ ∑ ∑ ∑ ∑ = = = = = −−− − −− += − −−+− = n ii n i n ii n i i n i ii n i i n i n i iii uXXXXuuXX XX uuXX XX uuXXXX 1 2 1 1 1 2 1 1 2 1 β β Expressando em função de 1 ˆβ 1β 5 ( ) ( ) ( ) ( ) ( ) ( )∑ ∑ ∑ ∑ ∑ ∑ = = = = = = − − += − − − − − += n i i i ii n i i i i n i i i ii XX uXX XX XXu XX uXX 1 2 1 1 1 2 1 1 2 1 1 ββ Ou seja: 1 ˆβ = β1 + 1 2 1 ( ) ( ) n i i i n i i X X u X X = = − − ∑ ∑ Agora podemos calcular E( ): 1 ˆβ [ ] ( )( ) ( ) [ ] ( ) 1 2 1 1 1 1 2 1 11 ,...,| ˆ βββ − − += − − += ∑ ∑ ∑ ∑ = = = = n i i n i nii n i i n i ii XX XXuEXX E XX uXX EE 6 ( ) [ ] ( ) 1 1 2 1 1 | ββ = − − += ∑ ∑ = = n i i n i iii XX XuEXX E Isso é, 1ˆβ é um estimador não-viesado de ββββ1. Agora podemos calcular Var( ):1 ˆβ Podemos escrever 1 ˆβ – β1 = 1 2 1 ( ) ( ) n i i i n i i X X u X X = = − − ∑ ∑ Se assumirmos que n é grande, temos X µ≈ , 2s ≈ 2σ e 1n− ≈ 1. 7 OBS: é i.i.d e iv [ ] 0=ivE Se assumirmos que n é grande, temos XX µ≈ , 2Xs ≈ 2Xσ e 1n n − ≈ 1. Logo, ( ) ( ) 21 21 22 1 1 111 X n i X n i ii s n nXX nn nXX n σ≈ − = − − − =−∑ ∑ = = e, portanto, 1 ˆβ ≈ β1 + 12 1 n i i X v n σ = ∑ , onde vi = (Xi – Xµ )ui Var( ):1 ˆβ Então var( 1ˆβ ) = 2 2var( ) /( )X v n σ assim var( 1ˆβ ) = 4var[( ) ]1 i x iX un µ σ − × . 8 Xn σ Resumo até agora • 1 ˆβ é não-viesado: E( 1ˆβ ) = β1 • var( 1ˆβ ) é inversamente proporcional a n Qual é a Distribuição Amostral de ?1 ˆβ A distribuição amostral exata de β1 é complicada—depende das distribuições populacionais de (Y, X)—Mas para n grande obtemos aproximações boas e simplificadas: 9 (1) var( 1ˆβ ) ∝ 1/n e E( 1ˆβ ) = β1, 1ˆβ p → β1 (2) Quando n é grande, a distribuição amostral de 1ˆβ é bem aproximada por uma distribuição normal (TCL) Qual é a Distribuição Amostral de ?1 ˆβ Lembremos o TCL: suponha {vi}, i = 1,…, n é i.i.d. com E(v) = 0 e var(v) = σ2. Então, quando n é grande, 1 n v∑ é aproximadamente distribuído 10 Então, quando n é grande, 1 i i v n = ∑ é aproximadamente distribuído como N(0, 2 /v nσ ). Qual é a Distribuição Amostral de ? • Então, para n grande, 1ˆβ é aproximadamente distribuido: 1 ˆβ ~ 2 1 4, v X N n σβ σ , onde vi = (Xi – µX)ui 1 ˆβ 11 Quanto maior a variância de X, menor a variância de Matematicamente var( 1ˆβ – β1) = 4var[( ) ]1 i x i X X u n µ σ − × onde 2Xσ = var(Xi). A variância de X aparece com quadrado no 1 ˆβ 12 denominador – então um aumento na dispersão de X diminui a variância de β1. Quanto maior a variância de X, menor a variância de Intuitivamente Se há mais variação em X, então há mais informação nos dados que pode ser utilizada para estimar a linha de regressão. Isto pode ser visto na seguinte figura… 1 ˆβ 13 pode ser visto na seguinte figura… Quanto maior a variância de X, menor a variância de 1 ˆβ 14 Temos o mesmo número de pontos azuis e pretos. Usando quais dados podemos obter uma estimação mais precisa? Resumo da Distribuição Amostral de 1 ˆβ Se os pressupostos de MQO se cumprem então: • A distribuição exata de 1ˆβ tem: • E( 1ˆβ ) = β1 (ou seja, 1ˆβ é não-viesado) • var( 1ˆβ ) = 4var[( ) ]1 i x i X X u n µ σ − × ∝ 1 n . 15 X Resumo da Distribuição Amostral de 1 ˆβ Se os pressupostos de MQO se cumprem então: • A distribuição exata de 1ˆβ tem: • E( 1ˆβ ) = β1 (ou seja, 1ˆβ é não-viesado) • var( 1ˆβ ) = 4var[( ) ]1 i x i X X u n µ σ − × ∝ 1 n . 16 X • 1 ˆβ p→ β1 (ou seja, 1ˆβ é consistente) • Quando n é grande, 1 1 1 ˆ ˆ( ) ˆvar( ) Eβ β β − ~ N(0,1) (TCL) Prontos para Testar Hipóteses • Agora que sabemos a distribuição amostral dos estimadores de MQO, estamos prontos para testar hipóteses e construir intervalos de confiança para β1. 17 O que estamos fazendo… Queremos obter informações sobre a inclinação da linha de regressão populacional usando informações sobre a amostra. Por isso, temos incerteza amostral. Temos que seguir quatro passos: 1. Definir precisamente a população de interesse. 18 1. Definir precisamente a população de interesse. O que estamos fazendo… Queremos obter informações sobre a inclinação da linha de regressão populacional usando informações sobre a amostra. Por isso, temos incerteza amostral. Temos que seguir quatro passos: 1. Definir precisamente a população de interesse. 19 1. Definir precisamente a população de interesse. 2. Derivar a distribuição amostral dos estimadores (para isso precisamos fazer alguns pressupostos). O que estamos fazendo… 3. Estimar a variância da distribuição amostral (pelo TCL é tudo o que precisamos saber quando n é grande) – ou seja, encontrar o erro padrão (EP) do estimador usando somente a amostra que temos nas nossas mãos. 20 O que estamos fazendo… 3. Estimar a variância da distribuição amostral (pelo TLC é tudo o que precisamos saber quando n é grande) – ou seja, encontrar o erro padrão (EP) do estimador usando somente a amostra que temos nas nossas mãos. 21 4. Usar o estimador ( 1ˆβ ) para obter estimativas pontuais e, com seu erro padrão (EP), fazer testes de hipótese e construir intervalos de confiança. Objeto de interesse: β1 Yi = β0 + β1Xi + ui, i = 1,…, n β1 = ∆Y/∆X, para uma variação exógena em X (efeito causal) 22 Objeto de interesse: β1 Yi = β0 + β1Xi + ui, i = 1,…, n β1 = ∆Y/∆X, para uma variação exógena em X (efeito causal) Pressupostos de MQO: 1. E(u|X = x) = 0. 2. (Xi,Yi), i =1,…,n, e i.i.d. 23 2. (Xi,Yi), i =1,…,n, e i.i.d. 3. Outliers são raros (E(X4) < ∞, E(Y4) < ∞. Objeto de interesse: β1 Yi = β0 + β1Xi + ui, i = 1,…, n β1 = ∆Y/∆X, para uma variação exógena em X (efeito causal) Pressupostos de MQO: 1. E(u|X = x) = 0. 2. (Xi,Yi), i =1,…,n, e i.i.d. 24 2. (Xi,Yi), i =1,…,n, e i.i.d. 3. Outliers são raros (E(X4) < ∞, E(Y4) < ∞. A distribuição amostral de 1ˆβ : Para n grande, 1ˆβ é distribuído aproximadamente, Objeto de interesse: β1 Yi = β0 + β1Xi + ui, i = 1,…, n β1 = ∆Y/∆X, para uma variação exógena em X (efeito causal) Pressupostos de MQO: 1. E(u|X = x) = 0. 2. (X ,Y ), i =1,…,n, e i.i.d. 25 2. (Xi,Yi), i =1,…,n, e i.i.d. 3. Outliers são raros (E(X4) < ∞, E(Y4) < ∞. A distribuição amostral de 1ˆβ : Para n grande, 1ˆβ é distribuído aproximadamente, 1 ˆβ ~ 2 1 4, v X N n σβ σ , onde vi = (Xi – µX)ui Teste de Hipótese e o Erro Padrão de Nosso objetivo é testar uma hipótese do tipo β1 = 0, usando dados – queremos chegar a uma conclusão se a hipótese nula é correta ou incorreta. 1 ˆβ 26 Teste de Hipótese e o Erro Padrão de Nosso objetivo é testar uma hipótese do tipo β1 = 0, usando dados – queremos chegar a uma conclusão se a hipótese nula é correta ou incorreta. Estrutura 1 ˆβ 27 Estrutura Hipótese nula e alternativa com dois-lados: H0: β1 = β1,0 vs. H1: β1 ≠ β1,0 onde β1,0 é o valor na hipótese nula. Teste de Hipótese e o Erro Padrão de Nosso objetivo é testar uma hipótese do tipo β1 = 0, usando dados – queremos chegar a uma conclusão se a hipótese nula é correta ou incorreta. Estrutura 1 ˆβ 28 Estrutura Hipótese nula e alternativa com dois-lados: H0: β1 = β1,0 vs. H1: β1 ≠ β1,0 onde β1,0 é o valor na hipótese nula. Hipótese nula e alternativa com um lado: H0: β1 = β1,0 vs. H1: β1 < β1,0 Teste de Hipótese e o Erro Padrão de Estratégia geral: construir estatística t, e calcular p-valor (ou comparar com valor crítico de uma N(0,1)) • Em geral: t =Estimador/Erro padrão do estimador 1 ˆβ 29 Teste de Hipótese e o Erro Padrão de Estratégia geral: construir estatística t, e calcular p-valor (ou comparar com valor crítico de uma N(0,1)) • Em geral: t =Estimador/Erro padrão do estimador 1 ˆβ 30 onde EP do estimador é a raiz quadrada de um estimador da variância do estimador. Teste de Hipótese e o Erro Padrão de • Para testar a média de Y: t = ,0 / Y Y Y s n µ− 1 ˆβ 31 Teste de Hipótese e o Erro Padrão de • Para testar a média de Y: t = ,0 / Y Y Y s n µ− • Para testar ββββ1, t = 1 1,0 ˆ ˆ( )SE β β β − , 1 ˆβ 32 1 ˆ( )SE β onde SE( 1ˆβ ) = raiz quadrada de um estimador da variância da distribuição amostral de 1ˆβ . Intuitivamente • Estimamos β1. • Precisamos da Var(β1), podemos estimar com dados amostrais. 33 amostrais. • Usamos este estimador da Var(β1), tiramos a raiz quadrada para ter o Erro Padrão. Formula para o EP( )1 ˆβ Lembremos da expressão para a variância de 1ˆβ (com n grande): var( 1ˆβ ) = 2 2var[( ) ]( ) i x i X X u n µ σ − 34 Formula para o EP( )1 ˆβ Lembremos da expressão para a variância de 1ˆβ (com n grande): var( 1ˆβ ) = 2 2var[( ) ]( ) i x i X X u n µ σ − = 2 4 v Xn σ σ , onde vi = (Xi – µX)ui. 35 Formula para o EP( )1 ˆβ Lembremos da expressão para a variância de 1ˆβ (com n grande): var( 1ˆβ ) = 2 2var[( ) ]( ) i x i X X u n µ σ − = 2 4 v Xn σ σ , onde vi = (Xi – µX)ui. O problema é que não conhecemos os valores populacionais de 36 O problema é que não conhecemos os valores populacionais de 2 νσ and 4 Xσ . O que podemos fazer? Formula para o EP( )1 ˆβ Lembremos da expressão para a variância de 1ˆβ (com n grande): var( 1ˆβ ) = 2 2var[( ) ]( ) i x i X X u n µ σ − = 2 4 v Xn σ σ , onde vi = (Xi – µX)ui. O problema é que não conhecemos os valores populacionais de 37 O problema é que não conhecemos os valores populacionais de 2 νσ e de 4 Xσ . Para estimar a variância de 1ˆβ substituímos os valores desconhecidos de 2νσ e 4 Xσ por estimadores construídos dos nossos dados: Formula para o EP( )1 ˆβ Lembremos da expressão para a variância de 1ˆβ (com n grande): var( 1ˆβ ) = 2 2var[( ) ]( ) i x i X X u n µ σ − = 2 4 v Xn σ σ , onde vi = (Xi – µX)ui. 38 1 2 ˆ ˆβσ = 2 2 2 1 estimator of (estimator of ) v Xn σ σ × Formula para o EP( )1 ˆβ 1 2 ˆ ˆβσ = 2 2 2 1 estimator of (estimator of ) v Xn σ σ × = 2 1 2 2 1 1 ˆ 1 2 1 ( ) n i i n i i v n n X X n = = − × − ∑ ∑ onde vˆ = ˆ( )X X u− . 39 onde ˆiv = ˆ( )i iX X u− . Formula para o EP( )1 ˆβ 1 2 ˆ ˆβσ = 2 2 2 1 estimator of (estimator of ) v Xn σ σ × = 2 1 2 2 1 1 ˆ 1 2 1 ( ) n i i n i i v n n X X n = = − × − ∑ ∑ onde vˆ = ˆ( )X X u− . 40 onde ˆiv = ˆ( )i iX X u− . De onde tiramos o valor estimado de u? Formula para o EP( )1 ˆβ 1 2 ˆ ˆβσ = 2 1 2 2 1 1 ˆ 1 2 1 ( ) n i i n i i v n n X X n = = − × − ∑ ∑ , onde ˆiv = ˆ( )i iX X u− . 41 EP( 1ˆβ ) = 12ˆˆβσ = erro padrão de 1ˆβ Resumo • Parece mais complicado de que efetivamente é. O numerador estima a var(v), o denominador estima var(X). 42 Resumo • Parece mais complicado de que efetivamente é. O numerador estima a var(v), o denominador estima var(X). • Por que ajustamos os graus de liberdade por n – 2? Por que 43 • Por que ajustamos os graus de liberdade por n – 2? Por que já estimamos 2 coeficientes na regressão (β0 e β1). Resumo • Parece mais complicado de que efetivamente é. O numerador estima a var(v), o denominador estima var(X). • Por que ajustamos os graus de liberdade por n – 2? Por que 44 • Por que ajustamos os graus de liberdade por n – 2? Por que já estimamos 2 coeficientes na regressão (β0 e β1). • Na prática, EP( 1ˆβ ) é calculado pelo software de regressão (Gretl, Stata). Por isso, não é preciso decorar a formula, só entender o que ela representa. Exemplo Linha de regressão: Nota= 698.9 – 2.28×Tamanho Software nos dá o EP: SE( 0ˆβ ) = 10.4 SE( 1ˆβ ) = 0.52 45 SE( 0β ) = 10.4 SE( 1β ) = 0.52 Exemplo Linha de regressão: Nota= 698.9 – 2.28×Tamanho Software nos dá o EP: SE( 0ˆβ ) = 10.4 SE( 1ˆβ ) = 0.52 46 SE( 0β ) = 10.4 SE( 1β ) = 0.52 t-statistic β1,0 = 0 = 1 1,0 1 ˆ ˆ( )SE β β β − = 2.28 0 0.52 − − = –4.38 • Para o nível de 1%, (teste com 2 lados), o valor de significância é 2.58, então rejeitamos a hipótese nula no nível de 1%.