Esta é uma pré-visualização de arquivo. Entre para ver o arquivo original
Econometria Aula 9 Marta AreosaMarta Areosa marta@econ.puc-rio.br Modelo de Regressão Multipla Considere o caso de dois regressores: Yi = β0 + β1X1i + β2X2i + ui, i = 1,…,n • Y é a variável dependente 2 • X1, X2 são as duas variáveis independentes (regressores) • β0 = intercepto populacional desconhecido • β1 = efeito em Y de uma variação em X1, dado X2 constante • β2 = efeito em Y de uma variação em X2, dado X1 constante • ui = o erro da regressão (variáveis omitidas) Interpretando os coeficientes em regressões múltiplas Yi = β0 + β1X1i + β2X2i + ui, i = 1,…,n Considere a variação em X1 de ∆X1 mantendo X2 constante: A linha de regressão populacional antes da variação: 3 A linha de regressão populacional antes da variação: Y = β0 + β1X1 + β2X2 A linha de regressão populacional depois da variação: Y + ∆Y = β0 + β1(X1 + ∆X1) + β2X2 Antes: Y = β0 + β1 X1 + β2X2 Depois: Y + ∆Y = β0 + β1(X1 + ∆X1) + β2X2 Diferença: ∆Y = β1∆X1 Então: β = Y∆ , mantendo X constante 4 β1 = 1 Y X ∆ ∆ , mantendo X2 constante β2 = 2 Y X ∆ ∆ , mantendo X1 constante β0 = valor predito de Y quando X1 = X2 = 0. Exemplo Log(salário) = 0,284 + 0,092 Educ + 0,0041 Exper + 0,022 Tempo emprego Como interpretamos o coeficiente 0,092 em Educação? 5 Exemplo Log(salário) = 0,284 + 0,092 Educ + 0,0041 Exper + 0,022 Tempo emprego Como interpretamos o coeficiente 0,092 em Educação? 6 Significa que se observamos duas pessoas com a mesma experiência no mercado de trabalho e o mesmo tempo no emprego, um ano a mais de educação aumenta o salário, na média, em 9,2%. O Estimador de MQO em Regressões Multiplas Com dois regressores, o estimador de MQO é a solução de: 0 1 2 2 , , 0 1 1 2 2 1 min [ ( )] n b b b i i i i Y b b X b X = − + +∑ 7 O Estimador de MQO em Regressões Multiplas Com dois regressores, o estimador de MQO é a solução de: 0 1 2 2 , , 0 1 1 2 2 1 min [ ( )] n b b b i i i i Y b b X b X = − + +∑ 8 • O estimador de MQO minimiza a diferença quadrática média entre os valores reais de Yi e o valor predito com base na linha estimada. • Isto nos dá os estimadores de ββββ0 , ββββ1 e ββββ2 Medidas de ajuste em regressões múltiplas Atual = predito + resíduo: Yi = ˆiY + ˆiu Erro Padrão Regressão (SER) = desvio padrão de ˆiu (com correção de g.l.) 9 correção de g.l.) Raiz Erro Quadrático Médio (RMSE) = std. deviation of ˆiu (sem correção g.l.) R2 = fração da variância de Y explicada por X 2R = “R2 ajustado” = R2 com correção de graus de liberdade EPR e REQM Assim como em regresses com um só regressor, o EPR e a REQM são medidas da dispersão de Y ao redor da linha de regressão: 10 EPR = 2 1 1 ˆ 1 n i i u n k = − − ∑ REQM = 2 1 1 ˆ n i i u n = ∑ R2 e R2 ajustado O R2 é a fração da variação explicada pelos regressores– mesma definição do caso com um regressor único: R2 = SQE/SQT = 1-SQR/SQT, 11 onde SQE = 2 1 ˆ ˆ( ) n i i Y Y = −∑ , SQR = 2 1 ˆ n i i u = ∑ , SQT = 2 1 ( ) n i i Y Y = −∑ . • o R2 sempre aumenta quando adicionamos outro regressor (por que?) – problema para medir “ajuste” R2 e R2 ajustado O 2R ( “R2 ajustado”) corrige este problema “penalizando” a inclusão de outro regressor – o 2R pode não aumentar ao adicionarmos outro regressor. 12 R 2 ajustado: SQT SQE kn nR 1 11 −− − −= Regressão Múltipla: forma matricial • Em forma matricial: k k u u XX XX Y Y + = MMMMM L L M 2 1 1 0 2,2,1 1,1,1 2 1 1 1 β β uXY += β Obs: n é o tamanho da amostra e k é o número de regressores 13 { { { u nk X nkn Y n uXXY MM 444 3444 21 L MMMM ,,11 β β Derivação matricial ( )=→ ℜ→ℜn xfyx f : dx dy dx dy dx dy n = M 1 • Função real: 14 ( ) ( ) ∑ = = == n j ii n n T xb x x bbxbxf 1 1 1 ML b b b xb dx d xb dx d dx xdb n n j ii n n j ii T n = = = ∑ ∑ = = MM 1 1 11 • Caso particular: Derivação matricial ( ) ( ) ( ) ==→ ℜ→ℜ k kn xf xf xfyx f 1 : M k dx df dx df dx df dx df dx dy = 11 11 1 L MM L • Função vetorial: 15 ( ) = = = = = ∑ ∑ = = n j ikik n j ii nknk n xbf xbf x x bb bb Bxxf 1 1 11 1 1 111 MM L MM L T knn k nn B bb bb dx dBx dxdx = = 1 111 L • Caso particular: { } [ ] [ ] [ ] [ ][ ] [ ]ββββββ ββ ββ βββββ XXXYYXYYXYXY XYXY u u uuu TTTTTTTTT T n n n i i k +−−=−−= −−= =∑ = minmin minminmin 1 1 1 2 ,,, 10 ML K Regressão Múltipla: forma matricial • Derivações • CPO 16 ( ) YXYX TTT = ∂ ∂ ββ ( ) ( ) YXXYXY T TTT == ∂ ∂ ββ ( ) ( ) ( ) ( ) ( ) ( )ββββββββ XXXXXXXXXXXX TTT TTTTT 2=+=+= ∂ ∂ ( ) ( ) ( ) YXXXYXXXXXYX TTTTTT 1022 −=⇒=⇒=+− βββ • CPO { } ( )∑∑ == −−−−= n i kikii n i i XXYu k 1 2 110 1 2 ,,, minmin 10 βββ ββββ L K Regressão Múltipla ( ) ( ) { }kjXXXY XXY n n i kikii ,,1,02 02 1 110 KL L ∈∀=−−−−− =−−−−− ∑ ∑ = βββ βββ • O problema de MQO: • CPOs ( ) { }kjXXXY ji i kikii ,,1,02 1 110 KL ∈∀=−−−−− ∑ = βββ = ∑ ∑ ∑ ∑ ∑∑∑∑ ∑∑∑∑ ∑∑∑∑ ∑∑∑ = = = = ==== ==== ==== === i n i i i n i i i n i i n i i k n i in n i iki n i iki n i ik n i iki n i i n i ii n i i n i iki n i ii n i i n i i n i ik n i i n i i YX YX YX Y XXXXXX XXXXXX XXXXXX XXXn 1 ,1 1 ,1 1 ,1 1 2 1 0 1 2 ,1 ,,21 ,,11 , 1 ,,21 2 ,21 ,2,11 ,2 1 ,,11 ,2,11 2 ,11 ,1 1 ,1 ,21 ,1 MM L MOMMM L L L β β β β • Forma Matricial Regressão Múltipla = ∑ ∑ ∑ ∑∑∑∑ ∑∑∑∑ ∑∑∑ = = = ==== ==== === i n i i i n i i n i i n i iki n i i n i ii n i i n i iki n i ii n i i n i i n i ik n i i n i i YX YX Y XXXXXX XXXXXX XXXn 1 ,1 1 ,1 1 2 1 0 1 ,,21 2 ,21 ,2,11 ,2 1 ,,11 ,2,11 2 ,11 ,1 1 ,1 ,21 ,1 MMMOMMM L L L β β β • Mas ∑∑∑∑∑ ===== i n i i k n i in n i iki n i iki n i ik YXXXXXXX 1 ,11 2 ,1 ,,21 ,,11 , M L MOMMM β pode ser escrito com { { Y n X nkkkk X nkn k k X nkkk Y Y Y XXX XX XX XX XX XXX XX TT = M 4444 34444 21 L MMM L L M 444 3444 21 L MMM L L 4444 34444 21 L MMM L L 2 1 ,2,1, 2,11,11 0 ,,1 2,2,1 1,1,1 ,2,1, 2,11,1 111 1 1 1111 β β β β Pressupostos de MQO em Regressões Múltiplas Yi = β0 + β1X1i + β2X2i + … + βkXki + ui, i = 1,…,n 19 Pressupostos de MQO em Regressões Múltiplas Yi = β0 + β1X1i + β2X2i + … + βkXki + ui, i = 1,…,n 1. A distribuição condicional de u dado os X’s tem média zero, ou seja, E(u|X1 = x1,…, Xk = xk) = 0. 20 2. (X1i,…,Xki,Yi), i =1,…,n, são i.i.d. 3. Outliers são raros: X1,…, Xk, e Y tem quarto momento finito: E( 41iX ) < ∞,…, E( 4kiX ) < ∞, E( 4iY ) < ∞. Pressupostos de MQO em Regressões Múltiplas Yi = β0 + β1X1i + β2X2i + … + βkXki + ui, i = 1,…,n 1. A distribuição condicional de u dado os X’s tem média zero, ou seja, E(u|X1 = x1,…, Xk = xk) = 0. 21 2. (X1i,…,Xki,Yi), i =1,…,n, são i.i.d. 3. Outliers são raros: X1,…, Xk, e Y tem quarto momento finito: E( 41iX ) < ∞,…, E( 4kiX ) < ∞, E( 4iY ) < ∞. 4. Não há multicolinearidade perfeita. Pressuposto 1 E(u|X1 = x1,…, Xk = xk) = 0 • Tem a mesma interpretação do caso de um regressor. • Esta condição falha quando (1) uma variável omitida 22 pertence à equação (e consequentemente está em u) e (2) é correlacionada com X • Falha desta condição gera vies de variável omitida • A solução – se possível – é incluir a variável omitida na regressão. Pressuposto 2: (X1i,…,Xki,Yi), i =1,…,n, são i.i.d. Satisfeita se os dados são coletados por amostragem aleatória simples. 23 Pressuposto 2: (X1i,…,Xki,Yi), i =1,…,n, são i.i.d. Satisfeita se os dados são coletados por amostragem aleatória simples. Pressuposto 3: outliers são raros (quarto momento finito) 24 Mesmo pressuposto que o caso de regressão simples. Pressuposto 4: Não há multicolinearidade perfeita multicolinearidade perfeita acontece quando um regressor é exatamente uma função linear de outro(s) regressor(es). Com estes pressupostos, podemos agora derivar a distribuição amostral de 1ˆβ , 2ˆβ ,…, ˆkβ . 25 amostral de 1ˆβ , 2ˆβ ,…, ˆkβ . Multicolinearidade: perfeita e imperfeita Alguns exemplos de multicolinearidade perfeita • Incluir a mesma variável duas vezes na regressão. 26 • Fazer uma regressão de Nota em uma constante, D, e B, onde: Di = 1 se Turma ≤ 20, = 0 caso contrário; Bi = 1 se Turma >20, = 0 caso contrário, assim Bi = 1 – Di e teríamos multicolinearidade perfeita. Multicolinearidade: perfeita e imperfeita Alguns exemplos de multicolinearidade perfeita • Teríamos multicolinearidade perfeita se tirássemos o intercepto da regressão? 27 • Este exemplo é um caso especial de … Armadilha da variável dummy Suponha que temos uma série de variáveis binárias (dummy), que são mutuamente exclusivas e exaustivas Ou seja, há categorias múltiplas e toda observação cai em uma e somente uma categoria (analfabeto, primário completo, 28 somente uma categoria (analfabeto, primário completo, secundário completo, universitário ou mais). Armadilha da variável dummy Suponha que temos uma série de variáveis binárias (dummy), que são mutuamente exclusivas e exaustivas Ou seja, há categorias múltiplas e toda observação cai em uma e somente uma categoria (analfabeto, primário completo, 29 somente uma categoria (analfabeto, primário completo, secundário completo, universitário ou mais). Suponha estimamos a seguinte regressão: Log(salário)=β0+ β1 Analf+ β2 Prim+ β3 Sec + β4Univ + u Armadilha da variável dummy Se incluímos todas estas dummies e a constante teremos multicolinearitdade perfeita– as vezes este problema é chamado de armadilha das dummies. • Por que teríamos multicolinearidade neste exemplo? 30 Interpretação das dummies • Soluções: 1. Omitir um grupo (exemplo Analfabeto) A interpretação se faz aqui em relação à categoria omitida. 31 Exemplo: salário e educação . reg lhwage analf prim sec sup Source | SS df MS Number of obs = 1923 -------------+------------------------------ F( 3, 1919) = 281.04 Model | 457.486466 3 152.495489 Prob > F = 0.0000 Residual | 1041.26597 1919 .542608637 R-squared = 0.3052 -------------+------------------------------ Adj R-squared = 0.3042 Total | 1498.75244 1922 .77978795 Root MSE = .73662 32 Total | 1498.75244 1922 .77978795 Root MSE = .73662 ------------------------------------------------------------------------------ lhwage | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------- analf | (dropped) prim | .2708688 .051286 5.28 0.000 .1702867 .3714508 sec | .7659469 .0545977 14.03 0.000 .6588697 .873024 sup | 1.71889 .0681994 25.20 0.000 1.585137 1.852642 _cons | 1.489564 .0449125 33.17 0.000 1.401481 1.577646 ------------------------------------------------------------------------------ Interpretação das dummies • Soluções: 1. Omitir um grupo (exemplo Analfabeto) A interpretação se faz aqui em relação à categoria omitida. Exemplo: 33 Exemplo: Passar de analfabeto para primário está associado a um aumento no salário de 27%. Passar de analfabeto para superior, o aumento médio é de 172%. Armadilha da variável dummy • Soluções: 1. Omitir um grupo (exemplo Analfabeto), ou 2. Omitir o intercepto 34 Exemplo: salário e educação . reg lhwage analf prim sec sup, noc Source | SS df MS Number of obs = 1923 -------------+------------------------------ F( 4, 1919) = 3835.34 Model | 8324.34718 4 2081.0868 Prob > F = 0.0000 Residual | 1041.26597 1919 .542608637 R-squared = 0.8888 -------------+------------------------------ Adj R-squared = 0.8886 Total | 9365.61316 1923 4.87031365 Root MSE = .73662 35 Total | 9365.61316 1923 4.87031365 Root MSE = .73662 ------------------------------------------------------------------------------ lhwage | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------- analf | 1.489564 .0449125 33.17 0.000 1.401481 1.577646 prim | 1.760433 .0247612 71.10 0.000 1.711871 1.808994 sec | 2.255511 .0310448 72.65 0.000 2.194626 2.316396 sup | 3.208454 .0513227 62.52 0.000 3.107799 3.309108 ------------------------------------------------------------------------------ Armadilha da variável dummy • Soluções: 1. Omitir um grupo (exemplo Analfabeto), ou 2. Omitir o intercepto 36 Iremos falar mais sobre variáveis dummy nas próximas aulas... Multicolinearidade • Multicolinearidade perfeita geralmente reflete algum erro na definição dos regressores, ou algo esquisito nos dados. • Nesse caso, o software estatístico deixará claro o problema – 37 não conseguirá estimar o modelo ou dará uma mensagem “dropando” uma das variáveis arbitrariamente. • A solução neste caso é modificar os regressores. Multicolinearidade Imperfeita Acontece com mais freqüência na análise de dados. Ocorre quando dois regressores ou mais têm uma alta correlação. 38 • Se dois regressores são altamente correlacionados, o “scatterplot” irá parecer uma linha – variáveis colineares – mas se a correlação não é 1 ou -1, a colinearidade não será perfeita. Multicolinearidade Imperfeita • Multicolinearidade imperfeita implica que um ou mais coeficientes serão estimados de forma imprecisa. • Intuição: o coeficiente de X1 é o efeito de X1 mantendo X2 constante;mas se X e X são altamente correlacionados, há 39 constante;mas se X1 e X2 são altamente correlacionados, há muito pouca variação em X1 quando mantemos X2 constante. Multicolinearidade Imperfeita • Multicolinearidade imperfeita implica que um ou mais coeficientes serão estimados de forma imprecisa. • Intuição: o coeficiente de X1 é o efeito de X1 mantendo X2 constante;mas se X e X são altamente correlacionados, há 40 constante;mas se X1 e X2 são altamente correlacionados, há muito pouca variação em X1 quando mantemos X2 constante. • Assim os dados não serão informativos sobre o que acontece quando variamos X1 mas X2 não varia-- a variância do estimador de MQO do coeficiente em X1 será muito grande (erro padrão muito grande). Incluindo variáveis irrelevantes • Já falamos sobre o viés de variáveis omitidas—o viés causado pela ausência de uma variável X2, determinante de Y e correlacionada com X1. • Mas o que acontece se incluímos no modelo uma variável 41 • Mas o que acontece se incluímos no modelo uma variável irrelevante (que não deveria determinar Y)? Isto é chamado, as vezes, de sobre-especificação do modelo. Incluindo variáveis irrelevantes • Suponha que especificamos o seguinte modelo: Y = β0 + β1X1 + β2X2 + β3X3 +u Na regressão populacional (desconhecida), a variável X3 não determina Y depois de controlarmos por X e X . 42 determina Y depois de controlarmos por X1 e X2. Incluindo variáveis irrelevantes • Suponha que especificamos o seguinte modelo: Y = β0 + β1X1 + β2X2 + β3X3 +u Na regressão populacional (desconhecida), a variável X3 não determina Y depois de controlarmos por X e X . Ou seja, 43 determina Y depois de controlarmos por X1 e X2. Ou seja, E(Y|X1, X2, X3)= E(Y|X1, X2)= β0 + β1X1 + β2X2 Incluindo variáveis irrelevantes • Suponha que especificamos o seguinte modelo: Y = β0 + β1X1 + β2X2 + β3X3 +u Na regressão populacional (desconhecida), a variável X3 não determina Y depois de controlarmos por X e X . Ou seja, 44 determina Y depois de controlarmos por X1 e X2. Ou seja, E(Y|X1, X2, X3)= E(Y|X1, X2)= β0 + β1X1 + β2X2 • O que acontece com os coeficientes β1 e β2 quando incluímos uma variável irrelevante (X3) na regressão (sem saber)? Incluindo variáveis irrelevantes • Nada ! 45 Incluindo variáveis irrelevantes • Nada ! • Então podemos incluir tudo o que quisermos sempre numa regressão? 46 • Não. Vamos ver mais adiante que a inclusão de variáveis irrelevantes afeta a precisão de β1 e β2 (o erro padrão).