Esta é uma pré-visualização de arquivo. Entre para ver o arquivo original
Econometria Aula 21 Marta AreosaMarta Areosa marta@econ.puc-rio.br O modelo de probabilidade linear Yi = β0 + β1Xi + ui Lembremos do pressuposto no. 1: E(ui|Xi) = 0, então 2 E(Yi|Xi) = E(β0 + β1Xi + ui|Xi) = β0 + β1Xi Quando Y é binário, E(Y|X) = 1×Pr(Y=1|X) + 0×Pr(Y=0|X) = Pr(Y=1|X) assim Pr(Y=1|X) = E(Y|X) = β0 + β1Xi O modelo de probabilidade linear Quando Y é binário, o modelo de regressão linear Yi = β0 + β1Xi + ui É chamado de modelo de probabilidade linear. • O valor predito é a probabilidade: 3 • O valor predito é a probabilidade: • E(Y|X=x) = Pr(Y=1|X=x) = prob. que Y = 1 dado x • ˆY = é a probabilidade predita que Yi = 1, dado X Exemplo: mulheres no mercado de trabalho • Queremos saber como o número de filhos afeta a probabilidade de mulheres permanecerem no mercado de trabalho. 4 Exemplo: mulheres no mercado de trabalho • Queremos saber como o número de filhos afeta a probabilidade de mulheres permanecerem no mercado de trabalho. • Estimamos um modelo onde a variável dependente é 5 • Estimamos um modelo onde a variável dependente é trab=1 se a mulher trabalha fora de casa e ganha salário e trab=0 caso contrário. • Variáveis explicativas: renda família, educação, experiência, idade, idade2, filhos menores 6 anos, filhos 6- 18 anos. . reg inlf nwifeinc educ exper expersq age kidslt6 kidsge6 Source | SS df MS Number of obs = 753 -------------+------------------------------ F( 7, 745) = 38.22 Model | 48.8080578 7 6.97257968 Prob > F = 0.0000 Residual | 135.919698 745 .182442547 R-squared = 0.2642 -------------+------------------------------ Adj R-squared = 0.2573 Total | 184.727756 752 .245648611 Root MSE = .42713 ------------------------------------------------------------------------------ inlf | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------- nwifeinc | -.0034052 .0014485 -2.35 0.019 -.0062488 -.0005616 educ | .0379953 .007376 5.15 0.000 .023515 .0524756 6 educ | .0379953 .007376 5.15 0.000 .023515 .0524756 exper | .0394924 .0056727 6.96 0.000 .0283561 .0506287 expersq | -.0005963 .0001848 -3.23 0.001 -.0009591 -.0002335 age | -.0160908 .0024847 -6.48 0.000 -.0209686 -.011213 kidslt6 | -.2618105 .0335058 -7.81 0.000 -.3275875 -.1960335 kidsge6 | .0130122 .013196 0.99 0.324 -.0128935 .0389179 _cons | .5855192 .154178 3.80 0.000 .2828442 .8881943 ------------------------------------------------------------------------------ Exemplo: mulheres no mercado de trabalho • Um ano a mais de educação aumenta a probabilidade de estar no mercado de trabalho em 0,038. 7 . reg inlf nwifeinc educ exper expersq age kidslt6 kidsge6 Source | SS df MS Number of obs = 753 -------------+------------------------------ F( 7, 745) = 38.22 Model | 48.8080578 7 6.97257968 Prob > F = 0.0000 Residual | 135.919698 745 .182442547 R-squared = 0.2642 -------------+------------------------------ Adj R-squared = 0.2573 Total | 184.727756 752 .245648611 Root MSE = .42713 ------------------------------------------------------------------------------ inlf | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------- nwifeinc | -.0034052 .0014485 -2.35 0.019 -.0062488 -.0005616 educ | .0379953 .007376 5.15 0.000 .023515 .0524756 8 educ | .0379953 .007376 5.15 0.000 .023515 .0524756 exper | .0394924 .0056727 6.96 0.000 .0283561 .0506287 expersq | -.0005963 .0001848 -3.23 0.001 -.0009591 -.0002335 age | -.0160908 .0024847 -6.48 0.000 -.0209686 -.011213 kidslt6 | -.2618105 .0335058 -7.81 0.000 -.3275875 -.1960335 kidsge6 | .0130122 .013196 0.99 0.324 -.0128935 .0389179 _cons | .5855192 .154178 3.80 0.000 .2828442 .8881943 ------------------------------------------------------------------------------ Exemplo: mulheres no mercado de trabalho • Um ano a mais de educação aumenta a probabilidade de estar no mercado de trabalho em 0,038. • Mulheres que tem um filho reduzem sua probabilidade de estar no mercado de trabalho em 0,262. 9 estar no mercado de trabalho em 0,262. Exemplo: mulheres no mercado de trabalho • Um ano a mais de educação aumenta a probabilidade de estar no mercado de trabalho em 0,038. • Mulheres que tem um filho reduzem sua probabilidade de estar no mercado de trabalho em 0,262. 10 estar no mercado de trabalho em 0,262. • Se a mulher tem um segundo filho pequeno, essa probabilidade se reduz também em 0,262. Exemplo: mulheres no mercado de trabalho • Um ano a mais de educação aumenta a probabilidade de estar no mercado de trabalho em 0,038. • Mulheres que tem um filho reduzem sua probabilidade de estar no mercado de trabalho em 0,262. 11 estar no mercado de trabalho em 0,262. • Se a mulher tem um segundo filho pequeno, essa probabilidade se reduz também em 0,262. • Indo de zero para quatro filhos, a probabilidade se reduz em 0,262*4=1,048. Não faz muito sentido !!! Exemplo: mulheres no mercado de trabalho • Um ano a mais de educação aumenta a probabilidade de estar no mercado de trabalho em 0,038. • Mulheres que tem um filho reduzem sua probabilidade de estar no mercado de trabalho em 0,262. 12 estar no mercado de trabalho em 0,262. • Se a mulher tem um segundo filho pequeno, essa probabilidade se reduz também em 0,262. • Indo de zero para quatro filhos, a probabilidade se reduz em 0,262*4=1,048. Não faz muito sentido !!! • O problema aqui é a linearidade do modelo. Modelo de probabilidade linear: resumo • Modelamos Pr(Y=1|X) como uma função linear de X 13 Modelo de probabilidade linear: resumo • Modelamos Pr(Y=1|X) como uma função linear de X • Vantagens: • fácil de estimar e interpretar • inferência é feita da mesma forma que no modelo de regressão múltipla (precisamos calcular erro padrão robusto para heterocedasticidade) 14 heterocedasticidade) Modelo de probabilidade linear: resumo • Modelamos Pr(Y=1|X) como uma função linear de X • Vantagens: • fácil de estimar e interpretar • inferência é feita da mesma forma que no modelo de regressão múltipla (precisamos calcular erro padrão robusto para heterocedasticidade) 15 heterocedasticidade) • Desvantagens: • Faz sentido que a probabilidade seja linear em X? • Probabilidades preditas podem ser <0 ou >1! • O modelo é heterocedástico. Var(Y|X)= p(1-p) (onde p=Pr(Y=1|X)) Modelo de probabilidade linear: resumo • Modelamos Pr(Y=1|X) como uma função linear de X • Vantagens: • fácil de estimar e interpretar • inferência é feita da mesma forma que no modelo de regressão múltipla (precisamos calcular erro padrão robusto para heterocedasticidade) 16 heterocedasticidade) • Desvantagens: • Faz sentido que a probabilidade seja linear em X? • Probabilidades preditas podem ser <0 ou >1! • O modelo é heterocedástivo. Var(Y|X)= p(1-p) (onde p=Pr(Y=1|X)) • Estas desvantagens podem ser resolvidas usando um modelo de probabilidade não-linear: probit e logit Regressões com Probit e Logit O problema do modelo de probabilidade linear é que modela a probabilidade de Y=1 como sendo linear: Pr(Y = 1|X) = β0 + β1X 17 Regressões com Probit e Logit O problema do modelo de probabilidade linear é que modela a probabilidade de Y=1 como sendo linear: Pr(Y = 1|X) = β0 + β1X 18 No lugar deste pressuposto, queremos: Regressões com Probit e Logit O problema do modelo de probabilidade linear é que modela a probabilidade de Y=1 como sendo linear: Pr(Y = 1|X) = β0 + β1X 19 No lugar deste pressuposto, queremos: • 0 ≤ Pr(Y = 1|X) ≤ 1 para todo X Regressões com Probit e Logit O problema do modelo de probabilidade linear é que modela a probabilidade de Y=1 como sendo linear: Pr(Y = 1|X) = β0 + β1X 20 No lugar deste pressuposto, queremos: • 0 ≤ Pr(Y = 1|X) ≤ 1 para todo X • Pr(Y = 1|X) seja crescente em X (para β1>0) Regressões com Probit e Logit O problema do modelo de probabilidade linear é que modela a probabilidade de Y=1 como sendo linear: Pr(Y = 1|X) = β0 + β1X 21 No lugar deste pressuposto, queremos: • 0 ≤ Pr(Y = 1|X) ≤ 1 para todo X • Pr(Y = 1|X) seja crescente em X (para β1>0) Isso requer uma forma funcional não-linear para a probabilidade. E se usássemos uma curva tipo “S”… 22 O modelo probit satisfaz estas condições: • 0 ≤ Pr(Y = 1|X) ≤ 1 para todo X • Pr(Y = 1|X) é crescente em X (para β1>0) Exemplo: dados hipotecas 23 Modelo Probit • Expressa a probabilidade de Y=1 usando a função de probabilidade acumulada de uma normal padrão, avaliada em z = β0 + β1X. Ou seja: 24 Modelo Probit • Expressa a probabilidade de Y=1 usando a função de probabilidade acumulada de uma normal padrão, avaliada em z = β0 + β1X. Ou seja: 25 Pr(Y = 1|X) = Φ(β0 + β1X) = Φ(z) Modelo Probit • Expressa a probabilidade de Y=1 usando a função de probabilidade acumulada de uma normal padrão, avaliada em z = β0 + β1X. Ou seja: 26 Pr(Y = 1|X) = Φ(β0 + β1X) = Φ(z) • Φ é a distribuição normal acumulada. • z = β0 + β1X é o “valor-z” ou “índice-z” do modelo probit. Modelo Probit: exemplo Suponha que β0 = -2, β1= 3, X = .4, então 27 Modelo Probit: exemplo Suponha que β0 = -2, β1= 3, X = .4, então Pr(Y = 1|X=.4) = Φ(-2 + 3×.4) = Φ(-0.8) 28 Modelo Probit: exemplo Suponha que β0 = -2, β1= 3, X = .4, então Pr(Y = 1|X=.4) = Φ(-2 + 3×.4) = Φ(-0.8) 29 Pr(Y = 1|X=.4) = área abaixo da densidade de uma normal padronizada, à esquerda de z = -.8. Isso é… 30 Pr(Z ≤ -0.8) = .2119 Modelo Probit Por que usamos a densidade acumulada de uma distribuição normal? • O formato de “S” nos dá o que queremos: • 31 • 0 ≤ Pr(Y = 1|X) ≤ 1 para todo X • Pr(Y = 1|X) crescent em X (for β1>0) • Fácil de usar – as probabilidades estão tabuladas. Modelo Probit Por que usamos a densidade acumulada de uma distribuição normal? • Interpretação é simples: • Valor-z = β0 + β1X 32 • 0 ˆβ + 1ˆβ X é o valor predito do valor-z, dado X • β1 é a variação no valor-z para uma unidade de variação em X. Modelo Logit Regressão Logit modela a probabilidade de Y=1 como uma função acumulada logística, avaliada em z = β0 + β1X: Pr(Y = 1|X) = F(β0 + β1X) 33 0 1 Modelo Logit Regressão Logit modela a probabilidade de Y=1 como uma função acumulada logística, avaliada em z = β0 + β1X: Pr(Y = 1|X) = F(β0 + β1X) 34 0 1 Onde F é a função acumulada logística: F(β0 + β1X) = 0 1( ) 1 1 Xe β β− ++ Modelo Logit Pr(Y = 1|X) = F(β0 + β1X) onde F(β0 + β1X) = 0 1( ) 1 1 Xe β β− ++ . 35 Exemplo: β0 = -3, β1= 2, X = .4, Modelo Logit Pr(Y = 1|X) = F(β0 + β1X) onde F(β0 + β1X) = 0 1( ) 1 1 Xe β β− ++ . 36 Exemplo: β0 = -3, β1= 2, X = .4, β0 + β1X = -3 + 2×.4 = -2.2 Modelo Logit Pr(Y = 1|X) = F(β0 + β1X) onde F(β0 + β1X) = 0 1( ) 1 1 Xe β β− ++ . 37 Exemplo: β0 = -3, β1= 2, X = .4, β0 + β1X = -3 + 2×.4 = -2.2 Pr(Y = 1|X=.4) = 1/(1+e–(–2.2)) = .0998 Modelo Logit Por que precisamos de logit se temos probit? • Historicamente, logit are mais conveniente computacionalmente. 38 • Na prática, os dois métodos dão respostas muito similares. Probabilidades preditas por modelos probit e logit 39 . probit inlf educ Iteration 0: log likelihood = -514.8732 Iteration 1: log likelihood = -501.32284 Iteration 2: log likelihood = -501.30215 Probit regression Number of obs = 753 LR chi2(1) = 27.14 Prob > chi2 = 0.0000 Log likelihood = -501.30215 Pseudo R2 = 0.0264 ------------------------------------------------------------------------------ inlf | Coef. Std. Err. z P>|z| [95% Conf. Interval] -------------+---------------------------------------------------------------- 40 -------------+---------------------------------------------------------------- educ | .1079408 .0210643 5.12 0.000 .0666555 .149226 _cons | -1.14841 .2613224 -4.39 0.000 -1.660593 -.6362279 ------------------------------------------------------------------------------ Exemplo: Probit simples Pr(trabalha = 1| educ) = Φ (β0 + β1X) Pr(trabalha = 1| educ) = Φ (-1.148 + 0.108 × educ) (.261) (.021) Probabilidades preditas: 41 Probabilidades preditas: Pr(trabalha = 1| educ=9) = Φ (-1.176) = 0.43 Pr(trabalha = 1| educ=10) = Φ (-.068) = 0.472 Quando educação aumenta de 9 para 10, prob. de estar no mercado de trabalho aumenta em 0.472- 0.43 = 0.043. . logit inlf educ Iteration 0: log likelihood = -514.8732 Iteration 1: log likelihood = -501.38158 Iteration 2: log likelihood = -501.34687 Iteration 3: log likelihood = -501.34687 Logistic regression Number of obs = 753 LR chi2(1) = 27.05 Prob > chi2 = 0.0000 Log likelihood = -501.34687 Pseudo R2 = 0.0263 ------------------------------------------------------------------------------ inlf | Coef. Std. Err. z P>|z| [95% Conf. Interval] 42 inlf | Coef. Std. Err. z P>|z| [95% Conf. Interval] -------------+---------------------------------------------------------------- educ | .1739812 .0346452 5.02 0.000 .1060778 .2418846 _cons | -1.851994 .4282765 -4.32 0.000 -2.691401 -1.012588 ------------------------------------------------------------------------------ Exemplo: Logit simples Pr(trabalha = 1| educ) = F(β0 + β1X) = 0 1( ) 1 1 Xe β β− ++ . Pr(trabalha = 1| educ) = F (-1.852 + 0.174 × educ) 43 Pr(trabalha = 1| educ) = F (-1.852 + 0.174 × educ) (.43) (.035) Probabilidades preditas: Pr(trabalha = 1| educ=9) = 1/(1+e–(-0.286)) = 0.429 Pr(trabalha = 1| educ=10) = 1/(1+e–(-0.112)) = 0.472 Probit e Logit com regressores múltiplos Pr(Y = 1|X1, X2) = F(β0 + β1X1 + β2X2) • F pode ser Φ, a função de distribuição normal acumulada ou L uma função logística . 44 Probit e Logit com regressores múltiplos Pr(Y = 1|X1, X2) = F(β0 + β1X1 + β2X2) • F pode ser Φ, a função de distribuição normal acumulada ou L uma função logística . 45 • z = β0 + β1X1 + β2X2 é o “valor-z” ou “índice-z”. Probit e Logit com regressores múltiplos Pr(Y = 1|X1, X2) = F(β0 + β1X1 + β2X2) • F pode ser Φ, a função de distribuição normal acumulada ou L uma função logística . 46 • z = β0 + β1X1 + β2X2 é o “valor-z” ou “índice-z”. • β1 mede o efeito de uma variação de uma unidade de X1, mantendo constante X2, no “índice-z”. Estimação e inferência com modelos Probit e Logit Modelo Probit: Pr(Y = 1|X) = Φ(β0 + β1X) 47 Estimação e inferência com modelos Probit e Logit Modelo Probit: Pr(Y = 1|X) = Φ(β0 + β1X) • Como estimamos β0 e β1? 48 0 1 • Qual e a distribuição amostral dos estimadores? • Podemos usar nossos métodos de inferência? Estimação e inferência com modelos Probit e Logit Modelo Probit: Pr(Y = 1|X) = Φ(β0 + β1X) • Como estimamos β0 e β1? 49 0 1 • Qual e a distribuição amostral dos estimadores? • Podemos usar nossos métodos de inferência? • Primeiro iremos motivar usando mínimos quadrados não- lineares Estimação e inferência com modelos Probit e Logit Modelo Probit: Pr(Y = 1|X) = Φ(β0 + β1X) • Como estimamos β0 e β1? 50 • Qual e a distribuição amostral dos estimadores? • Podemos usar nossas métodos de inferência? • Primeiro iremos motivar usando mínimos quadrados não- lineares • Depois discutiremos estimação por máxima verossimilhança (como é feito na prática) Estimação via mínimos quadrados não-lineares Lembremos que MQO: 0 1 2 , 0 1 1 min [ ( )] n b b i i i Y b b X = − +∑ • O resultado são os estimadores de MQO 0ˆβ e 1ˆβ 51 0 1 Estimação via mínimos quadrados não-lineares Lembremos que MQO: 0 1 2 , 0 1 1 min [ ( )] n b b i i i Y b b X = − +∑ • O resultado são os estimadores de MQO 0ˆβ e 1ˆβ 52 0 1 • Para o caso de modelos não-lineares queremos: 0 1 2 , 0 1 1 min [ ( )] n b b i i i Y b b X = −Φ +∑ Como resolvemos este problema de minimização? Estimação via mínimos quadrados não-lineares 0 1 2 , 0 1 1 min [ ( )] n b b i i i Y b b X = −Φ +∑ Como resolvemos este problema de minimização? • Não temos uma solução explícita se usamos cálculo. 53 • Não temos uma solução explícita se usamos cálculo. Estimação via mínimos quadrados não-lineares 0 1 2 , 0 1 1 min [ ( )] n b b i i i Y b b X = −Φ +∑ Como resolvemos este problema de minimização? • Não temos uma solução explícita se usamos cálculo. 54 • Não temos uma solução explícita se usamos cálculo. • Temos que resolver este problema numericamente usando o computador (algoritmos de minimização). Estimação via mínimos quadrados não-lineares 0 1 2 , 0 1 1 min [ ( )] n b b i i i Y b b X = −Φ +∑ Como resolvemos este problema de minimização? • Não temos uma solução explícita se usamos cálculo. 55 • Não temos uma solução explícita se usamos cálculo. • Temos que resolver este problema numericamente usando o computador (algoritmos de minimização). • Na prática, não iremos usar MQNL por que não é um estimador eficiente (menor variância) Estimação por máxima verossimilhança A função de verossimilhança é a densidade condicional de Y1,…,Yn dado X1,…,Xn, tratada como uma função dos parâmetros desconhecidos β0 and β1. 56 Estimação por máxima verossimilhança A função de verossimilhança é a densidade condicional de Y1,…,Yn dado X1,…,Xn, tratada como uma função dos parâmetros desconhecidos β0 and β1. • O estimador de máxima verossimilhança (EMV) é o valor 57 • O estimador de máxima verossimilhança (EMV) é o valor de (β0, β1) que maximiza a função de verossimilhança. Estimação por máxima verossimilhança A função de verossimilhança é a densidade condicional de Y1,…,Yn dado X1,…,Xn, tratada como uma função dos parâmetros desconhecidos β0 and β1. • O estimador de máxima verossimilhança (EMV) é o valor 58 • O estimador de máxima verossimilhança (EMV) é o valor de (β0, β1) que maximiza a função de verossimilhança. • o EMV é o valor de (β0, β1) que melhor descreve a distribuição completa dos dados. Estimação por máxima verosemelhança • Em grandes amostras, o EVM é: • Consistente • Distribuído como uma normal 59 • Distribuído como uma normal • Eficiente (menor variância entre todos estimadores) Caso especial: EMV do Probit sem X Y =1 com probabilidade p Y =0 com probabilidade (1-p) (distribuição Bernoulli) Dados: Y1,…,Yn, i.i.d. 60 Dados: Y1,…,Yn, i.i.d. Caso especial: EMV do Probit sem X Y =1 com probabilidade p Y =0 com probabilidade (1-p) (distribuição Bernoulli) Dados: Y1,…,Yn, i.i.d. 61 1 n A derivação da verossimilhança começa com a densidade de Y1: Pr(Y1 = 1) = p e Pr(Y1 = 0) = 1–p Caso especial: EMV do Probit sem X Y =1 com probabilidade p Y =0 com probabilidade (1-p) (distribuição Bernoulli) Dados: Y1,…,Yn, i.i.d. 62 Dados: Y1,…,Yn, i.i.d. A derivação da verossimilhança começa com a densidade de Y1: Pr(Y1 = 1) = p e Pr(Y1 = 0) = 1–p Ou seja: Pr(Y1 = y1) = 1 11(1 )y yp p −− para y1 = 1 ou y1 = 0 A densidade conjunta de (Y1,Y2): 63 A densidade conjunta de (Y1,Y2): Como Y1 e Y2 são independentes, Pr(Y1 = y1,Y2 = y2) = 64 A densidade conjunta de (Y1,Y2): Como Y1 e Y2 são independentes, Pr(Y1 = y1,Y2 = y2) = Pr(Y1 = y1)× Pr(Y2 = y2) 65 A densidade conjunta de (Y1,Y2): Como Y1 e Y2 são independentes, Pr(Y1 = y1,Y2 = y2) = Pr(Y1 = y1)× Pr(Y2 = y2) = [ 1 11(1 )y yp p −− ]×[ 2 21(1 )y yp p −− ] 66 A densidade conjunta de (Y1,Y2): Como Y1 e Y2 são independentes, Pr(Y1 = y1,Y2 = y2) = Pr(Y1 = y1)× Pr(Y2 = y2) = [ 1 11(1 )y yp p −− ]×[ 2 21(1 )y yp p −− ] = ( ) [ ]1 2 1 22 ( )(1 )y y y yp p+ − +− 67 A densidade conjunta de (Y1,Y2): Como Y1 e Y2 são independentes, Pr(Y1 = y1,Y2 = y2) = Pr(Y1 = y1)× Pr(Y2 = y2) = [ 1 11(1 )y yp p −− ]×[ 2 21(1 )y yp p −− ] = ( ) [ ]1 2 1 22 ( )(1 )y y y yp p+ − +− Em termos gerais, a densidade conjunta de (Y1,..,Yn): 68 Em termos gerais, a densidade conjunta de (Y1,..,Yn): A densidade conjunta de (Y1,Y2): Como Y1 e Y2 são independentes, Pr(Y1 = y1,Y2 = y2) = Pr(Y1 = y1)× Pr(Y2 = y2) = [ 1 11(1 )y yp p −− ]×[ 2 21(1 )y yp p −− ] = ( ) [ ]1 2 1 22 ( )(1 )y y y yp p+ − +− Em termos gerais, a densidade conjunta de (Y1,..,Yn): 69 Em termos gerais, a densidade conjunta de (Y1,..,Yn): Pr(Y1 = y1,Y2 = y2,…,Yn = yn) A densidade conjunta de (Y1,Y2): Como Y1 e Y2 são independentes, Pr(Y1 = y1,Y2 = y2) = Pr(Y1 = y1)× Pr(Y2 = y2) = [ 1 11(1 )y yp p −− ]×[ 2 21(1 )y yp p −− ] = ( ) [ ]1 2 1 22 ( )(1 )y y y yp p+ − +− Em termos gerais, a densidade conjunta de (Y1,..,Yn): 70 Em termos gerais, a densidade conjunta de (Y1,..,Yn): Pr(Y1 = y1,Y2 = y2,…,Yn = yn) = [ 1 11(1 )y yp p −− ]×[ 2 21(1 )y yp p −− ]×…×[ 1(1 )n ny yp p −− ] A densidade conjunta de (Y1,Y2): Como Y1 e Y2 são independentes, Pr(Y1 = y1,Y2 = y2) = Pr(Y1 = y1)× Pr(Y2 = y2) = [ 1 11(1 )y yp p −− ]×[ 2 21(1 )y yp p −− ] = ( ) [ ]1 2 1 22 ( )(1 )y y y yp p+ − +− Em termos gerais, a densidade conjunta de (Y1,..,Yn): 71 Em termos gerais, a densidade conjunta de (Y1,..,Yn): Pr(Y1 = y1,Y2 = y2,…,Yn = yn) = [ 1 11(1 )y yp p −− ]×[ 2 21(1 )y yp p −− ]×…×[ 1(1 )n ny yp p −− ] = ( )11 (1 ) nn ii ii n yyp p == −∑∑ − Podemos expressar a verossimilhança como a densidade conjunta, tratado como uma função dos parâmetros desconhecidos (neste caso p): f(p;Y1,…,Yn) = ( )11 (1 ) nn ii ii n YYp p == −∑∑ − 72 Podemos expressar a verossimilhança como a densidade conjunta, tratado como uma função dos parâmetros desconhecidos (neste caso p): f(p;Y1,…,Yn) = ( )11 (1 ) nn ii ii n YYp p == −∑∑ − O EMV (MLE) maximiza a verossimilhança. Mas é sempre mais fácil trabalhar com o logarítmo da verossimilhança, 73 mais fácil trabalhar com o logarítmo da verossimilhança, ln[f(p;Y1,…,Yn)]: Podemos expressar a verossimilhança como a densidade conjunta, tratado como uma função dos parâmetros desconhecidos (neste caso p): f(p;Y1,…,Yn) = ( )11 (1 ) nn ii ii n YYp p == −∑∑ − O EMV (MLE) maximiza a verossimilhança. Mas é sempre mais fácil trabalhar com o logarítmo da verossimilhança, 74 mais fácil trabalhar com o logarítmo da verossimilhança, ln[f(p;Y1,…,Yn)]: ln[f(p;Y1,…,Yn)] = Podemos expressar a verossimilhança como a densidade conjunta, tratado como uma função dos parâmetros desconhecidos (neste caso p): f(p;Y1,…,Yn) = ( )11 (1 ) nn ii ii n YYp p == −∑∑ − O EMV (MLE) maximiza a verossimilhança. Mas é sempre mais fácil trabalhar com o logarítmo da verossimilhança, 75 mais fácil trabalhar com o logarítmo da verossimilhança, ln[f(p;Y1,…,Yn)]: ln[f(p;Y1,…,Yn)] = ( ) ( )1 1ln( ) ln(1 )n ni ii iY p n Y p= =+ − −∑ ∑ Maximizando a verossimilhança e igualando a derivada a zero: 1ln ( ; ,..., )nd f p Y Y dp = ??? 76 Maximizando a verossimilhança e igualando a derivada a zero: 1ln ( ; ,..., )nd f p Y Y dp = ( ) ( )1 11 11n ni ii iY n Yp p= = −+ − − ∑ ∑ = 0 77 ( ) ( )1 11 1 ˆ ˆ1 n n i iMLE MLEi i Y n Y p p= = − + − − ∑ ∑ = 0 ou ( ) ( )1 11 1 ˆ ˆ1 n n i iMLE MLEi i Y n Y p p= = = − − ∑ ∑ 78 ( ) ( )1 11 1 ˆ ˆ1 n n i iMLE MLEi i Y n Y p p= = − + − − ∑ ∑ = 0 ou ( ) ( )1 11 1 ˆ ˆ1 n n i iMLE MLEi i Y n Y p p= = = − − ∑ ∑ ou ˆ MLEY p = 79 ˆ ˆ1 1 MLE Y p Y p = − − ( ) ( )1 11 1 ˆ ˆ1 n n i iMLE MLEi i Y n Y p p= = − + − − ∑ ∑ = 0 ou ( ) ( )1 11 1 ˆ ˆ1 n n i iMLE MLEi i Y n Y p p= = = − − ∑ ∑ ou ˆ MLEY p = 80 ˆ ˆ1 1 MLE Y p Y p = − − ou ˆ MLEp = Y = fração de 1 ( ) ( )1 11 1 ˆ ˆ1 n n i iMLE MLEi i Y n Y p p= = − + − − ∑ ∑ = 0 ou ( ) ( )1 11 1 ˆ ˆ1 n n i iMLE MLEi i Y n Y p p= = = − − ∑ ∑ ou ˆ MLEY p = 81 ˆ ˆ1 1 MLE Y p Y p = − − ou ˆ MLEp = Y = fração de 1 uau… quanto trabalho para obter o que intuitivamente pensariamos em usar—a média. A vantagem é que o método também funciona com modelos mais complicados.