Logo Passei Direto
Buscar

Esta é uma pré-visualização de arquivo. Entre para ver o arquivo original

Econometria
Aula 21
Marta AreosaMarta Areosa
marta@econ.puc-rio.br
O modelo de probabilidade linear
Yi = β0 + β1Xi + ui 
 
Lembremos do pressuposto no. 1: E(ui|Xi) = 0, então 
 
2
E(Yi|Xi) = E(β0 + β1Xi + ui|Xi) = β0 + β1Xi 
 
Quando Y é binário, 
E(Y|X) = 1×Pr(Y=1|X) + 0×Pr(Y=0|X) = Pr(Y=1|X) 
assim 
Pr(Y=1|X) = E(Y|X) = β0 + β1Xi 
 
O modelo de probabilidade linear
Quando Y é binário, o modelo de regressão linear 
Yi = β0 + β1Xi + ui 
É chamado de modelo de probabilidade linear. 
 
• O valor predito é a probabilidade: 
3
• O valor predito é a probabilidade: 
• E(Y|X=x) = Pr(Y=1|X=x) = prob. que Y = 1 dado x 
 
• ˆY = é a probabilidade predita que Yi = 1, dado X 
 
Exemplo: mulheres no mercado de 
trabalho
• Queremos saber como o número de filhos afeta a 
probabilidade de mulheres permanecerem no mercado de 
trabalho. 
 
 
4
 
Exemplo: mulheres no mercado de 
trabalho
• Queremos saber como o número de filhos afeta a 
probabilidade de mulheres permanecerem no mercado de 
trabalho. 
 
• Estimamos um modelo onde a variável dependente é 
5
• Estimamos um modelo onde a variável dependente é 
trab=1 se a mulher trabalha fora de casa e ganha salário e 
trab=0 caso contrário. 
 
• Variáveis explicativas: renda família, educação, 
experiência, idade, idade2, filhos menores 6 anos, filhos 6-
18 anos. 
. reg inlf nwifeinc educ exper expersq age kidslt6 kidsge6 
 
 Source | SS df MS Number of obs = 753 
-------------+------------------------------ F( 7, 745) = 38.22 
 Model | 48.8080578 7 6.97257968 Prob > F = 0.0000 
 Residual | 135.919698 745 .182442547 R-squared = 0.2642 
-------------+------------------------------ Adj R-squared = 0.2573 
 Total | 184.727756 752 .245648611 Root MSE = .42713 
 
------------------------------------------------------------------------------ 
 inlf | Coef. Std. Err. t P>|t| [95% Conf. Interval] 
-------------+---------------------------------------------------------------- 
 nwifeinc | -.0034052 .0014485 -2.35 0.019 -.0062488 -.0005616 
 educ | .0379953 .007376 5.15 0.000 .023515 .0524756 
6
 educ | .0379953 .007376 5.15 0.000 .023515 .0524756 
 exper | .0394924 .0056727 6.96 0.000 .0283561 .0506287 
 expersq | -.0005963 .0001848 -3.23 0.001 -.0009591 -.0002335 
 age | -.0160908 .0024847 -6.48 0.000 -.0209686 -.011213 
 kidslt6 | -.2618105 .0335058 -7.81 0.000 -.3275875 -.1960335 
 kidsge6 | .0130122 .013196 0.99 0.324 -.0128935 .0389179 
 _cons | .5855192 .154178 3.80 0.000 .2828442 .8881943 
------------------------------------------------------------------------------ 
Exemplo: mulheres no mercado de 
trabalho
• Um ano a mais de educação aumenta a probabilidade de 
estar no mercado de trabalho em 0,038. 
 
 
7
. reg inlf nwifeinc educ exper expersq age kidslt6 kidsge6 
 
 Source | SS df MS Number of obs = 753 
-------------+------------------------------ F( 7, 745) = 38.22 
 Model | 48.8080578 7 6.97257968 Prob > F = 0.0000 
 Residual | 135.919698 745 .182442547 R-squared = 0.2642 
-------------+------------------------------ Adj R-squared = 0.2573 
 Total | 184.727756 752 .245648611 Root MSE = .42713 
 
------------------------------------------------------------------------------ 
 inlf | Coef. Std. Err. t P>|t| [95% Conf. Interval] 
-------------+---------------------------------------------------------------- 
 nwifeinc | -.0034052 .0014485 -2.35 0.019 -.0062488 -.0005616 
 educ | .0379953 .007376 5.15 0.000 .023515 .0524756 
8
 educ | .0379953 .007376 5.15 0.000 .023515 .0524756 
 exper | .0394924 .0056727 6.96 0.000 .0283561 .0506287 
 expersq | -.0005963 .0001848 -3.23 0.001 -.0009591 -.0002335 
 age | -.0160908 .0024847 -6.48 0.000 -.0209686 -.011213 
 kidslt6 | -.2618105 .0335058 -7.81 0.000 -.3275875 -.1960335 
 kidsge6 | .0130122 .013196 0.99 0.324 -.0128935 .0389179 
 _cons | .5855192 .154178 3.80 0.000 .2828442 .8881943 
------------------------------------------------------------------------------ 
Exemplo: mulheres no mercado de 
trabalho
• Um ano a mais de educação aumenta a probabilidade de 
estar no mercado de trabalho em 0,038. 
 
• Mulheres que tem um filho reduzem sua probabilidade de 
estar no mercado de trabalho em 0,262. 
9
estar no mercado de trabalho em 0,262. 
 
 
Exemplo: mulheres no mercado de 
trabalho
• Um ano a mais de educação aumenta a probabilidade de 
estar no mercado de trabalho em 0,038. 
 
• Mulheres que tem um filho reduzem sua probabilidade de 
estar no mercado de trabalho em 0,262. 
10
estar no mercado de trabalho em 0,262. 
 
• Se a mulher tem um segundo filho pequeno, essa 
probabilidade se reduz também em 0,262. 
 
 
Exemplo: mulheres no mercado de 
trabalho
• Um ano a mais de educação aumenta a probabilidade de 
estar no mercado de trabalho em 0,038. 
 
• Mulheres que tem um filho reduzem sua probabilidade de 
estar no mercado de trabalho em 0,262. 
11
estar no mercado de trabalho em 0,262. 
 
• Se a mulher tem um segundo filho pequeno, essa 
probabilidade se reduz também em 0,262. 
 
• Indo de zero para quatro filhos, a probabilidade se reduz 
em 0,262*4=1,048. Não faz muito sentido !!! 
 
 
 
Exemplo: mulheres no mercado de 
trabalho
• Um ano a mais de educação aumenta a probabilidade de 
estar no mercado de trabalho em 0,038. 
 
• Mulheres que tem um filho reduzem sua probabilidade de 
estar no mercado de trabalho em 0,262. 
12
estar no mercado de trabalho em 0,262. 
 
• Se a mulher tem um segundo filho pequeno, essa 
probabilidade se reduz também em 0,262. 
 
• Indo de zero para quatro filhos, a probabilidade se reduz 
em 0,262*4=1,048. Não faz muito sentido !!! 
 
• O problema aqui é a linearidade do modelo. 
 
Modelo de probabilidade linear: resumo
• Modelamos Pr(Y=1|X) como uma função linear de X 
13
Modelo de probabilidade linear: resumo
• Modelamos Pr(Y=1|X) como uma função linear de X 
• Vantagens: 
• fácil de estimar e interpretar 
• inferência é feita da mesma forma que no modelo de regressão 
múltipla (precisamos calcular erro padrão robusto para 
heterocedasticidade) 
14
heterocedasticidade) 
Modelo de probabilidade linear: resumo
• Modelamos Pr(Y=1|X) como uma função linear de X 
• Vantagens: 
• fácil de estimar e interpretar 
• inferência é feita da mesma forma que no modelo de regressão 
múltipla (precisamos calcular erro padrão robusto para 
heterocedasticidade) 
15
heterocedasticidade) 
 
• Desvantagens: 
• Faz sentido que a probabilidade seja linear em X? 
• Probabilidades preditas podem ser <0 ou >1! 
• O modelo é heterocedástico. Var(Y|X)= p(1-p) 
(onde p=Pr(Y=1|X)) 
Modelo de probabilidade linear: resumo
• Modelamos Pr(Y=1|X) como uma função linear de X 
• Vantagens: 
• fácil de estimar e interpretar 
• inferência é feita da mesma forma que no modelo de regressão 
múltipla (precisamos calcular erro padrão robusto para 
heterocedasticidade) 
16
heterocedasticidade) 
 
• Desvantagens:
• Faz sentido que a probabilidade seja linear em X? 
• Probabilidades preditas podem ser <0 ou >1! 
• O modelo é heterocedástivo. Var(Y|X)= p(1-p) 
(onde p=Pr(Y=1|X)) 
• Estas desvantagens podem ser resolvidas usando um modelo de 
probabilidade não-linear: probit e logit 
Regressões com Probit e Logit
O problema do modelo de probabilidade linear é que modela 
a probabilidade de Y=1 como sendo linear: 
 
 Pr(Y = 1|X) = β0 + β1X 
17
 
 
Regressões com Probit e Logit
O problema do modelo de probabilidade linear é que modela 
a probabilidade de Y=1 como sendo linear: 
 
 Pr(Y = 1|X) = β0 + β1X 
18
 
No lugar deste pressuposto, queremos: 
 
Regressões com Probit e Logit
O problema do modelo de probabilidade linear é que modela 
a probabilidade de Y=1 como sendo linear: 
 
 Pr(Y = 1|X) = β0 + β1X 
19
 
No lugar deste pressuposto, queremos: 
• 0 ≤ Pr(Y = 1|X) ≤ 1 para todo X 
 
Regressões com Probit e Logit
O problema do modelo de probabilidade linear é que modela 
a probabilidade de Y=1 como sendo linear: 
 
 Pr(Y = 1|X) = β0 + β1X 
20
 
No lugar deste pressuposto, queremos: 
• 0 ≤ Pr(Y = 1|X) ≤ 1 para todo X 
• Pr(Y = 1|X) seja crescente em X (para β1>0) 
 
Regressões com Probit e Logit
O problema do modelo de probabilidade linear é que modela 
a probabilidade de Y=1 como sendo linear: 
 
 Pr(Y = 1|X) = β0 + β1X 
21
 
No lugar deste pressuposto, queremos: 
• 0 ≤ Pr(Y = 1|X) ≤ 1 para todo X 
• Pr(Y = 1|X) seja crescente em X (para β1>0) 
Isso requer uma forma funcional não-linear para a 
probabilidade. E se usássemos uma curva tipo “S”… 
 
22
O modelo probit satisfaz estas condições: 
• 0 ≤ Pr(Y = 1|X) ≤ 1 para todo X 
• Pr(Y = 1|X) é crescente em X (para β1>0) 
 
Exemplo: dados hipotecas
23
Modelo Probit
• Expressa a probabilidade de Y=1 usando a função de 
probabilidade acumulada de uma normal padrão, 
avaliada em z = β0 + β1X. Ou seja: 
 
24
 
 
Modelo Probit
• Expressa a probabilidade de Y=1 usando a função de 
probabilidade acumulada de uma normal padrão, 
avaliada em z = β0 + β1X. Ou seja: 
 
25
 Pr(Y = 1|X) = Φ(β0 + β1X) = Φ(z) 
 
 
Modelo Probit
• Expressa a probabilidade de Y=1 usando a função de 
probabilidade acumulada de uma normal padrão, 
avaliada em z = β0 + β1X. Ou seja: 
 
26
 Pr(Y = 1|X) = Φ(β0 + β1X) = Φ(z) 
 
• Φ é a distribuição normal acumulada. 
• z = β0 + β1X é o “valor-z” ou “índice-z” do modelo 
probit. 
 
Modelo Probit: exemplo
 
Suponha que β0 = -2, β1= 3, X = .4, então 
 
 
27
 
Modelo Probit: exemplo
 
Suponha que β0 = -2, β1= 3, X = .4, então 
 
 Pr(Y = 1|X=.4) = Φ(-2 + 3×.4) = Φ(-0.8) 
28
 
Modelo Probit: exemplo
 
Suponha que β0 = -2, β1= 3, X = .4, então 
 
 Pr(Y = 1|X=.4) = Φ(-2 + 3×.4) = Φ(-0.8) 
29
 
Pr(Y = 1|X=.4) = área abaixo da densidade de uma normal 
padronizada, à esquerda de z = -.8. Isso é… 
 
30
Pr(Z ≤ -0.8) = .2119 
 
Modelo Probit
Por que usamos a densidade acumulada de uma distribuição 
normal? 
• O formato de “S” nos dá o que queremos: 
 
•
31
• 0 ≤ Pr(Y = 1|X) ≤ 1 para todo X 
 
• Pr(Y = 1|X) crescent em X (for β1>0) 
 
• Fácil de usar – as probabilidades estão tabuladas. 
Modelo Probit
Por que usamos a densidade acumulada de uma distribuição 
normal? 
• Interpretação é simples: 
• Valor-z = β0 + β1X 
32
 
• 0
ˆβ + 1ˆβ X é o valor predito do valor-z, dado X 
 
• β1 é a variação no valor-z para uma unidade de 
variação em X. 
 
Modelo Logit
Regressão Logit modela a probabilidade de Y=1 como uma 
função acumulada logística, avaliada em z = β0 + β1X: 
 
 Pr(Y = 1|X) = F(β0 + β1X) 
33
0 1
 
 
Modelo Logit
Regressão Logit modela a probabilidade de Y=1 como uma 
função acumulada logística, avaliada em z = β0 + β1X: 
 
 Pr(Y = 1|X) = F(β0 + β1X) 
34
0 1
 
Onde F é a função acumulada logística: 
 
 F(β0 + β1X) = 
0 1( )
1
1 Xe β β− ++
 
 
Modelo Logit
 Pr(Y = 1|X) = F(β0 + β1X) 
 
onde F(β0 + β1X) = 
0 1( )
1
1 Xe β β− ++
. 
 
35
 
Exemplo: β0 = -3, β1= 2, X = .4, 
 
 
 
Modelo Logit
 Pr(Y = 1|X) = F(β0 + β1X) 
 
onde F(β0 + β1X) = 
0 1( )
1
1 Xe β β− ++
. 
 
36
 
Exemplo: β0 = -3, β1= 2, X = .4, 
 
 β0 + β1X = -3 + 2×.4 = -2.2 
 
 
Modelo Logit
 Pr(Y = 1|X) = F(β0 + β1X) 
 
onde F(β0 + β1X) = 
0 1( )
1
1 Xe β β− ++
. 
 
37
 
Exemplo: β0 = -3, β1= 2, X = .4, 
 
 β0 + β1X = -3 + 2×.4 = -2.2 
 
Pr(Y = 1|X=.4) = 1/(1+e–(–2.2)) = .0998 
 
Modelo Logit
Por que precisamos de logit se temos probit? 
 
• Historicamente, logit are mais conveniente 
computacionalmente. 
 
38
 
• Na prática, os dois métodos dão respostas muito similares. 
 
Probabilidades preditas por modelos probit e logit
39
. probit inlf educ 
 
Iteration 0: log likelihood = -514.8732 
Iteration 1: log likelihood = -501.32284 
Iteration 2: log likelihood = -501.30215 
 
Probit regression Number of obs = 753 
 LR chi2(1) = 27.14 
 Prob > chi2 = 0.0000 
Log likelihood = -501.30215 Pseudo R2 = 0.0264 
 
------------------------------------------------------------------------------ 
 inlf | Coef. Std. Err. z P>|z| [95% Conf. Interval] 
-------------+---------------------------------------------------------------- 
40
-------------+---------------------------------------------------------------- 
 educ | .1079408 .0210643 5.12 0.000 .0666555 .149226 
 _cons | -1.14841 .2613224 -4.39 0.000 -1.660593 -.6362279 
------------------------------------------------------------------------------ 
 
Exemplo: Probit simples
 Pr(trabalha = 1| educ) = Φ (β0 + β1X) 
 
Pr(trabalha = 1| educ) = Φ (-1.148 + 0.108 × educ) 
 (.261) (.021) 
Probabilidades preditas: 
41
Probabilidades preditas: 
Pr(trabalha = 1| educ=9) = Φ (-1.176) = 0.43 
 
Pr(trabalha = 1| educ=10) = Φ (-.068) = 0.472 
 
Quando educação aumenta de 9 para 10, prob. de estar no 
mercado de trabalho aumenta em 0.472- 0.43 = 0.043. 
 
. logit inlf educ 
 
Iteration 0: log likelihood = -514.8732 
Iteration 1: log likelihood = -501.38158 
Iteration 2: log likelihood = -501.34687 
Iteration 3: log likelihood = -501.34687 
 
Logistic regression Number of obs = 753 
 LR chi2(1) = 27.05 
 Prob > chi2 = 0.0000 
Log likelihood = -501.34687 Pseudo R2 = 0.0263 
 
------------------------------------------------------------------------------ 
 inlf | Coef. Std. Err. z P>|z| [95% Conf. Interval] 
42
 inlf | Coef. Std. Err. z P>|z| [95% Conf. Interval] 
-------------+---------------------------------------------------------------- 
 educ | .1739812 .0346452 5.02 0.000 .1060778 .2418846 
 _cons | -1.851994 .4282765 -4.32 0.000 -2.691401 -1.012588 
------------------------------------------------------------------------------ 
Exemplo: Logit simples
 Pr(trabalha = 1| educ) = F(β0 + β1X) 
= 
0 1( )
1
1 Xe β β− ++
. 
 
Pr(trabalha =
1| educ) = F (-1.852 + 0.174 × educ) 
43
Pr(trabalha = 1| educ) = F (-1.852 + 0.174 × educ) 
 (.43) (.035) 
Probabilidades preditas: 
Pr(trabalha = 1| educ=9) = 1/(1+e–(-0.286)) = 0.429 
 
Pr(trabalha = 1| educ=10) = 1/(1+e–(-0.112)) = 0.472 
 
 
Probit e Logit com regressores
múltiplos
 Pr(Y = 1|X1, X2) = F(β0 + β1X1 + β2X2) 
 
• F pode ser Φ, a função de distribuição normal acumulada 
ou L uma função logística . 
44
 
Probit e Logit com regressores
múltiplos
 Pr(Y = 1|X1, X2) = F(β0 + β1X1 + β2X2) 
 
• F pode ser Φ, a função de distribuição normal acumulada 
ou L uma função logística . 
45
 
• z = β0 + β1X1 + β2X2 é o “valor-z” ou “índice-z”. 
 
 
Probit e Logit com regressores
múltiplos
 Pr(Y = 1|X1, X2) = F(β0 + β1X1 + β2X2) 
 
• F pode ser Φ, a função de distribuição normal acumulada 
ou L uma função logística . 
46
 
• z = β0 + β1X1 + β2X2 é o “valor-z” ou “índice-z”. 
 
• β1 mede o efeito de uma variação de uma unidade de X1, 
mantendo constante X2, no “índice-z”. 
Estimação e inferência com modelos
Probit e Logit
Modelo Probit: 
 Pr(Y = 1|X) = Φ(β0 + β1X) 
 
 
47
Estimação e inferência com modelos
Probit e Logit
Modelo Probit: 
 Pr(Y = 1|X) = Φ(β0 + β1X) 
 
• Como estimamos β0 e β1? 
48
0 1
• Qual e a distribuição amostral dos estimadores? 
• Podemos usar nossos métodos de inferência? 
 
Estimação e inferência com modelos
Probit e Logit
Modelo Probit: 
 Pr(Y = 1|X) = Φ(β0 + β1X) 
 
• Como estimamos β0 e β1? 
49
0 1
• Qual e a distribuição amostral dos estimadores? 
• Podemos usar nossos métodos de inferência? 
• Primeiro iremos motivar usando mínimos quadrados não-
lineares 
 
Estimação e inferência com modelos
Probit e Logit
Modelo Probit: 
 Pr(Y = 1|X) = Φ(β0 + β1X) 
 
• Como estimamos β0 e β1? 
50
• Qual e a distribuição amostral dos estimadores? 
• Podemos usar nossas métodos de inferência? 
• Primeiro iremos motivar usando mínimos quadrados não-
lineares 
• Depois discutiremos estimação por máxima 
verossimilhança (como é feito na prática) 
 
Estimação via mínimos quadrados
não-lineares
 
Lembremos que MQO: 
 
0 1
2
, 0 1
1
min [ ( )]
n
b b i i
i
Y b b X
=
− +∑ 
• O resultado são os estimadores de MQO 0ˆβ e 1ˆβ 
51
0 1
Estimação via mínimos quadrados
não-lineares
 
Lembremos que MQO: 
 
0 1
2
, 0 1
1
min [ ( )]
n
b b i i
i
Y b b X
=
− +∑ 
• O resultado são os estimadores de MQO 0ˆβ e 1ˆβ 
52
0 1
 
• Para o caso de modelos não-lineares queremos: 
 
0 1
2
, 0 1
1
min [ ( )]
n
b b i i
i
Y b b X
=
−Φ +∑ 
 
Como resolvemos este problema de minimização? 
Estimação via mínimos quadrados
não-lineares
 
0 1
2
, 0 1
1
min [ ( )]
n
b b i i
i
Y b b X
=
−Φ +∑ 
 
Como resolvemos este problema de minimização? 
 
• Não temos uma solução explícita se usamos cálculo. 
53
• Não temos uma solução explícita se usamos cálculo. 
 
 
Estimação via mínimos quadrados
não-lineares
 
0 1
2
, 0 1
1
min [ ( )]
n
b b i i
i
Y b b X
=
−Φ +∑ 
 
Como resolvemos este problema de minimização? 
 
• Não temos uma solução explícita se usamos cálculo. 
54
• Não temos uma solução explícita se usamos cálculo. 
 
• Temos que resolver este problema numericamente usando 
o computador (algoritmos de minimização). 
 
Estimação via mínimos quadrados
não-lineares
 
0 1
2
, 0 1
1
min [ ( )]
n
b b i i
i
Y b b X
=
−Φ +∑ 
 
Como resolvemos este problema de minimização? 
 
• Não temos uma solução explícita se usamos cálculo. 
55
• Não temos uma solução explícita se usamos cálculo. 
 
• Temos que resolver este problema numericamente usando 
o computador (algoritmos de minimização). 
 
• Na prática, não iremos usar MQNL por que não é um 
estimador eficiente (menor variância) 
Estimação por máxima
verossimilhança
A função de verossimilhança é a densidade condicional de 
Y1,…,Yn dado X1,…,Xn, tratada como uma função dos 
parâmetros desconhecidos β0 and β1. 
 
56
Estimação por máxima
verossimilhança
A função de verossimilhança é a densidade condicional de 
Y1,…,Yn dado X1,…,Xn, tratada como uma função dos 
parâmetros desconhecidos β0 and β1. 
 
• O estimador de máxima verossimilhança (EMV) é o valor 
57
• O estimador de máxima verossimilhança (EMV) é o valor 
de (β0, β1) que maximiza a função de verossimilhança. 
 
 
 
Estimação por máxima
verossimilhança
A função de verossimilhança é a densidade condicional de 
Y1,…,Yn dado X1,…,Xn, tratada como uma função dos 
parâmetros desconhecidos β0 and β1. 
 
• O estimador de máxima verossimilhança (EMV) é o valor 
58
• O estimador de máxima verossimilhança (EMV) é o valor 
de (β0, β1) que maximiza a função de verossimilhança. 
 
• o EMV é o valor de (β0, β1) que melhor descreve a 
distribuição completa dos dados. 
 
 
Estimação por máxima
verosemelhança
• Em grandes amostras, o EVM é: 
 
• Consistente 
 
• Distribuído como uma normal 
59
• Distribuído como uma normal 
 
• Eficiente (menor variância entre todos estimadores) 
 
Caso especial: EMV do Probit sem X
Y =1 com probabilidade p 
Y =0 com probabilidade (1-p) 
 (distribuição Bernoulli) 
 
Dados: Y1,…,Yn, i.i.d. 
60
Dados: Y1,…,Yn, i.i.d. 
 
 
Caso especial: EMV do Probit sem X
Y =1 com probabilidade p 
Y =0 com probabilidade (1-p) 
 (distribuição Bernoulli) 
 
Dados: Y1,…,Yn, i.i.d. 
61
1 n
 
A derivação da verossimilhança começa com a densidade de 
Y1: 
 
Pr(Y1 = 1) = p e Pr(Y1 = 0) = 1–p 
 
Caso especial: EMV do Probit sem X
Y =1 com probabilidade p 
Y =0 com probabilidade (1-p) 
 (distribuição Bernoulli) 
 
Dados: Y1,…,Yn, i.i.d. 
62
Dados: Y1,…,Yn, i.i.d. 
 
A derivação da verossimilhança começa com a densidade de 
Y1: 
 
Pr(Y1 = 1) = p e Pr(Y1 = 0) = 1–p 
Ou seja: 
Pr(Y1 = y1) = 1 11(1 )y yp p −− para y1 = 1 ou y1 = 0 
 
A densidade conjunta de (Y1,Y2): 
 
63
A densidade conjunta de (Y1,Y2): 
Como Y1 e Y2 são independentes, 
 
Pr(Y1 = y1,Y2 = y2) = 
 
64
A densidade conjunta de (Y1,Y2): 
Como Y1 e Y2 são independentes, 
 
Pr(Y1 = y1,Y2 = y2) = Pr(Y1 = y1)× Pr(Y2 = y2) 
 
65
A densidade conjunta de (Y1,Y2): 
Como Y1 e Y2 são independentes, 
 
Pr(Y1 = y1,Y2 = y2) = Pr(Y1 = y1)× Pr(Y2 = y2) 
= [ 1 11(1 )y yp p −− ]×[ 2 21(1 )y yp p −− ] 
 
 
66
A densidade conjunta de (Y1,Y2): 
Como Y1 e Y2 são independentes, 
 
Pr(Y1 = y1,Y2 = y2) = Pr(Y1 = y1)× Pr(Y2 = y2) 
= [ 1 11(1 )y yp p −− ]×[ 2 21(1 )y yp p −− ] 
= 
( ) [ ]1 2 1 22 ( )(1 )y y y yp p+ − +− 
 
 
67
A densidade conjunta de (Y1,Y2): 
Como Y1 e Y2 são independentes, 
 
Pr(Y1 = y1,Y2 = y2) = Pr(Y1 = y1)× Pr(Y2 = y2) 
= [ 1 11(1 )y yp p −− ]×[ 2 21(1 )y yp p −− ] 
= 
( ) [ ]1 2 1 22 ( )(1 )y y y yp p+ − +− 
 
Em termos gerais, a densidade conjunta de (Y1,..,Yn): 
68
Em termos gerais, a densidade conjunta de (Y1,..,Yn): 
 
 
A densidade conjunta de (Y1,Y2): 
Como Y1 e Y2 são independentes, 
 
Pr(Y1 = y1,Y2 = y2) = Pr(Y1 = y1)× Pr(Y2 = y2) 
= [ 1 11(1 )y yp p −− ]×[ 2 21(1 )y yp p −− ] 
= 
( ) [ ]1 2 1 22 ( )(1 )y y y yp p+ − +− 
 
Em termos gerais, a densidade conjunta de (Y1,..,Yn): 
69
Em termos gerais, a densidade conjunta de (Y1,..,Yn): 
 
 Pr(Y1 = y1,Y2 = y2,…,Yn = yn) 
 
A densidade conjunta de (Y1,Y2): 
Como Y1 e Y2 são independentes, 
 
Pr(Y1
= y1,Y2 = y2) = Pr(Y1 = y1)× Pr(Y2 = y2) 
= [ 1 11(1 )y yp p −− ]×[ 2 21(1 )y yp p −− ] 
= 
( ) [ ]1 2 1 22 ( )(1 )y y y yp p+ − +− 
 
Em termos gerais, a densidade conjunta de (Y1,..,Yn): 
70
Em termos gerais, a densidade conjunta de (Y1,..,Yn): 
 
 Pr(Y1 = y1,Y2 = y2,…,Yn = yn) 
 = [ 1 11(1 )y yp p −− ]×[ 2 21(1 )y yp p −− ]×…×[ 1(1 )n ny yp p −− ] 
 
 
A densidade conjunta de (Y1,Y2): 
Como Y1 e Y2 são independentes, 
 
Pr(Y1 = y1,Y2 = y2) = Pr(Y1 = y1)× Pr(Y2 = y2) 
= [ 1 11(1 )y yp p −− ]×[ 2 21(1 )y yp p −− ] 
= 
( ) [ ]1 2 1 22 ( )(1 )y y y yp p+ − +− 
 
Em termos gerais, a densidade conjunta de (Y1,..,Yn): 
71
Em termos gerais, a densidade conjunta de (Y1,..,Yn): 
 
 Pr(Y1 = y1,Y2 = y2,…,Yn = yn) 
 = [ 1 11(1 )y yp p −− ]×[ 2 21(1 )y yp p −− ]×…×[ 1(1 )n ny yp p −− ] 
 = 
( )11 (1 ) nn ii ii n yyp p == −∑∑ − 
 
Podemos expressar a verossimilhança como a densidade 
conjunta, tratado como uma função dos parâmetros 
desconhecidos (neste caso p): 
 
f(p;Y1,…,Yn) = ( )11 (1 )
nn
ii ii
n YYp p ==
−∑∑
−
 
 
 
72
Podemos expressar a verossimilhança como a densidade 
conjunta, tratado como uma função dos parâmetros 
desconhecidos (neste caso p): 
 
f(p;Y1,…,Yn) = ( )11 (1 )
nn
ii ii
n YYp p ==
−∑∑
−
 
 
O EMV (MLE) maximiza a verossimilhança. Mas é sempre 
mais fácil trabalhar com o logarítmo da verossimilhança, 
73
mais fácil trabalhar com o logarítmo da verossimilhança, 
ln[f(p;Y1,…,Yn)]: 
 
 
Podemos expressar a verossimilhança como a densidade 
conjunta, tratado como uma função dos parâmetros 
desconhecidos (neste caso p): 
 
f(p;Y1,…,Yn) = ( )11 (1 )
nn
ii ii
n YYp p ==
−∑∑
− 
 
O EMV (MLE) maximiza a verossimilhança. Mas é sempre 
mais fácil trabalhar com o logarítmo da verossimilhança, 
74
mais fácil trabalhar com o logarítmo da verossimilhança, 
ln[f(p;Y1,…,Yn)]: 
 
ln[f(p;Y1,…,Yn)] = 
 
 
Podemos expressar a verossimilhança como a densidade 
conjunta, tratado como uma função dos parâmetros 
desconhecidos (neste caso p): 
 
f(p;Y1,…,Yn) = ( )11 (1 )
nn
ii ii
n YYp p ==
−∑∑
−
 
 
O EMV (MLE) maximiza a verossimilhança. Mas é sempre 
mais fácil trabalhar com o logarítmo da verossimilhança, 
75
mais fácil trabalhar com o logarítmo da verossimilhança, 
ln[f(p;Y1,…,Yn)]: 
 
ln[f(p;Y1,…,Yn)] = ( ) ( )1 1ln( ) ln(1 )n ni ii iY p n Y p= =+ − −∑ ∑ 
 
 
 
Maximizando a verossimilhança e igualando a derivada a 
zero: 
 
1ln ( ; ,..., )nd f p Y Y
dp
 = ??? 
76
 
Maximizando a verossimilhança e igualando a derivada a 
zero: 
 
1ln ( ; ,..., )nd f p Y Y
dp
 = ( ) ( )1 11 11n ni ii iY n Yp p= =  −+ −  − ∑ ∑ = 0 
77
( ) ( )1 11 1
ˆ ˆ1
n n
i iMLE MLEi i
Y n Y
p p= =
 −
+ −  
− 
∑ ∑ = 0 
ou 
( ) ( )1 11 1
ˆ ˆ1
n n
i iMLE MLEi i
Y n Y
p p= =
= −
−
∑ ∑ 
 
78
( ) ( )1 11 1
ˆ ˆ1
n n
i iMLE MLEi i
Y n Y
p p= =
 −
+ −  
− 
∑ ∑ = 0 
ou 
( ) ( )1 11 1
ˆ ˆ1
n n
i iMLE MLEi i
Y n Y
p p= =
= −
−
∑ ∑ 
ou 
ˆ
MLEY p
= 
79
ˆ
ˆ1 1 MLE
Y p
Y p
=
− −
 
 
( ) ( )1 11 1
ˆ ˆ1
n n
i iMLE MLEi i
Y n Y
p p= =
 −
+ −  
− 
∑ ∑ = 0 
ou 
( ) ( )1 11 1
ˆ ˆ1
n n
i iMLE MLEi i
Y n Y
p p= =
= −
−
∑ ∑ 
ou 
ˆ
MLEY p
= 
80
ˆ
ˆ1 1 MLE
Y p
Y p
=
− −
 
ou 
 
ˆ
MLEp = Y = fração de 1 
 
 
( ) ( )1 11 1
ˆ ˆ1
n n
i iMLE MLEi i
Y n Y
p p= =
 −
+ −  
− 
∑ ∑ = 0 
ou 
( ) ( )1 11 1
ˆ ˆ1
n n
i iMLE MLEi i
Y n Y
p p= =
= −
−
∑ ∑ 
ou 
ˆ
MLEY p
= 
81
ˆ
ˆ1 1 MLE
Y p
Y p
=
− −
 
ou 
 
ˆ
MLEp = Y = fração de 1 
 
uau… quanto trabalho para obter o que intuitivamente 
pensariamos em usar—a média. A vantagem é que o método 
também funciona com modelos mais complicados.

Teste o Premium para desbloquear

Aproveite todos os benefícios por 3 dias sem pagar! 😉
Já tem cadastro?