Logo Passei Direto
Buscar
Material

Esta é uma pré-visualização de arquivo. Entre para ver o arquivo original

Análise Exploratória de Dados
Inferência Estatística
Até aqui, nós aprendemos a descrever uma amostra através das medidas 
de tendência central e de dispersão.
Com a utilização da inferência estatística, desejamos inferir propriedades de 
uma população com base nos resultados obtidos em uma amostra.
Frequentemente, devemos tomar decisões sobre populações com base em 
informações obtidas em amostras das mesmas. Tais decisões chamam-se 
decisões estatísticas.
Ex.: Com base em resultados amostrais, podemos querer decidir se
determinada droga é eficiente na cura de determinada doença.
Para a tomada de decisão utilizaremos a inferência estatística.
Objetivo: tirar conclusões sobre uma população com base na informação de 
uma amostra.
A amostra deve ser representativa da população da qual ela é selecionada.
Se não for, as conclusões extraídas sobre a população podem estar 
distorcidas ou viesadas.
Análise Exploratória de Dados
Parâmetro: quantidades desconhecidas da população e sobre as quais 
temos interesse.
Ex: µ - média da população
Estimador: combinação dos elementos da amostra, construída com a 
finalidade de representar, ou estimar, um parâmetro de interesse na 
população.
Ex:
Estimativa: valor numérico assumido pelo estimador.
Ex :
Estudamos a distribuição teórica de probabilidade: distribuição normal.
Probabilidade  os parâmetros da distribuição eram conhecidos 
calculamos probabilidades
Inferência  os valores desses parâmetros não são conhecidos.
) (estimador amostra da média : X
observada. amostra a para X de valor o é x
Análise Exploratória de Dados
Estimadores são funções de variáveis aleatórias e, portanto, eles também 
são variáveis aleatórias.
Conseqüentemente, têm uma distribuição de probabilidades, denominada 
distribuição amostral do estimador.
Distribuição amostral da média
Exemplo 1: Considere uma população em que uma variável X assume um 
dos valores do conjunto {1, 3, 5, 5, 7}. A distribuição de probabilidade de X é
dada por:
É fácil ver que a média da população, µX = E(X) = 4,2
pois, 
x 1 3 5 7
P(X = x) = fri 1 / 5 1 / 5 2 / 5 1 / 5
2,4
5
1.7
5
2.5
5
1.3
5
1.11)(
11
1  



k
i
ri
k
i
ii
N
i
i
x ifxfxNN
x
XE 
Análise Exploratória de Dados
e a variância da população, σ2 = Var(X) = 4,16
pois,
     
        16,4
5
12,47
5
22,45
5
12,43
5
12,41)(
11)(
22222
1
2
1
2
1
22

 

XVar
fxfx
N
x
N
XVar
k
i
iri
k
i
ii
N
i
i


Vamos relacionar todas as amostras possíveis de tamanho n = 2, 
selecionadas ao acaso e com reposição dessa população.
Análise Exploratória de Dados
Análise Exploratória de Dados
é 2 n para de adeprobabilid de ãodistribuiçA X
2
,08 2 )( r a V e 4,2 )E( caso, Neste
2
x
x

  XX
X de adeprobabilid de ãodistribuiç seguinte a temos 3, n
 tamanho de amostras para to,procedimen mesmo o Repetindo

Análise Exploratória de Dados
3
1 )( r a V e 4,2 )E( caso, Neste
2
x
x

  39,XX
Análise Exploratória de Dados
Histogramas correspondentes às distribuições
de X e de X , para amostras de {1,3,5,5,7}
Dos histogramas, observamos que
normal. ãodistribuiç 
uma de se-aproxima histograma do 
 forma a grande, mentesuficiente n para 
;ocorrência de adeprobabilid 
 pequena ter a passam extremos casos os 
;diminuindo vai variância a que vez uma 
 de torno em mais 
 vez cada concentrar se a tendem 
 de valores os aumenta, n conforme
x




,2,4)( XE
X
Análise Exploratória de Dados
Histogramas correspondentes às distribuições X de para amostras de 
algumas populações
Análise Exploratória de Dados
ente. maproximada grande, n para ,
n
 ; N~X 
 seja, ou , 
n
 variância e média com normal, ãodistribuiç uma
 de grande, n para se,-aproxima ,X amostral, média da adeprobabilid
 de ãodistribuiç a X, acaso ao retiradas , X ..., ,X ,X amostras Para
. variância e média tem que a. v. uma X Seja
Central Limite do Teorema
normal. ãodistribuiç uma de se-aproxima ,X amostral,
média da adeprobabilid de ãodistribuiç a , X de ãodistribuiç da forma da
 tementeindependen aumenta, n quando que, sugerem gráficos Esses
2
n21
2





 



Na prática, geralmente, n > 30 já é considerado grande.
Análise Exploratória de Dados
média. da padrão erro denominado é 
n
 
n
 padrão desvio O 
n. todo para 
 exata, normal ãodistribuiç tem X então normal, é X de ãodistribuiç a Se
2 


? n de função em X de ãodistribuiç a comporta se Como
16). N(10, variável uma de n tamanho de aleatória amostra uma Considere
Análise Exploratória de Dados
Exemplos:
1) Uma v.a. X tem média µ= 5,4 e variância σ2 = 4,44. Uma amostra com 
40 observações é sorteada com reposição. Qual a probabilidade da 
média amostral ser maior do que 5?
Consideramos que n = 40 observações é uma amostra grande o 
suficiente para usar o Teorema do Limite Central.
Assim,














40
 ; ,4N~X é isto 
n
 ; N~X 44,45,
    8849,03849,05,020,1
40
44,4
4,55














 ZPZPP 5X
Análise Exploratória de Dados
2) Considere que a distribuição dos níveis séricos de colesterol para todos 
os homens de 20 a 74 anos é normal com média µ = 211 mg/100ml e o 
desvio padrão σ = 46 mg/100ml.
Selecionamos amostras de tamanho 25 da população.
Que proporção de amostras terá um valor médio maior do que 
230mg/100ml?
Solução:
 













25
462, ; 11N:X é isto 
n
 ; N:X 
211;46N :Xhomens os todos para colesterol de séricos níveis :X


Análise Exploratória de Dados    .0192,04808,05,007,2
25
46
21123030 













 ZPZPP 2X
Somente 1,9% das amostras terão uma média maior do que 230 mg/100ml.
Equivalentemente, se selecionamos uma amostra de tamanho 25 da 
população de homens de 20 a 74 anos, a probabilidade de que o nível sérico 
médio de colesterol para essa amostra seja maior do que 230 mg/100ml é de 
0,019.
Que valor médio de nível sérico de colesterol limita os 10% valores mais 
baixos da distrib. amostral?
 
.2,1992,9.28,121128,1
2,9
211
.1,0
25
46
2111,0

















xx
xZPxP X
10% das amostras de tamanho 25 têm médias que são menores ou iguais a 
199,2 mg/100ml.
Análise Exploratória de Dados
Calcular os limites superior e inferior que incluem 95% das médias das 
amostras de tamanho 25.
 
.03,182,9.96,196,1
2,9
95,0
2,92,9
95,0
2,9
211211
2,9
21121195,0













 



xxxZxP
xZxPxXxP  -
Limites: 211-18 = 193,0 e 211+18 = 229,0
 95% das médias das a.a. de tamanho 25 estão entre 193,0 mg/100ml e 
229,0 mg/100ml.
se selecionamos uma a.a. de tamanho 25 e a amostra tem uma média 
maior que 229,0 ou menor que 193,0 mg/100ml então, ou a a.a. foi 
extraída de uma população diferente ou um evento raro se realizou.
Análise Exploratória de Dados
Suponha que selecionamos amostras de tamanho 10 da população.
.100/5,14
10
46 mlmg
n
 é X de padrão erro o caso, Nesse 
  .5,285,14.96,196,1
5,14
95,0  xxP xXx- 
Limites: 211-28,5=182,5 e 211+28,5=239,5.
 95% das médias das a.a. de tamanho 10 estão entre 182,5 mg/100ml e 
239,5 mg/100ml.
n Intervalo contendo 95% das médias Comprimento do intervalo
1 46,0 180,4
10 14,5 57,0
25 9,2 36,0
50 6,5 25,6
100 4,6 18,0
n/
2,3018,120  X
5,2395,182  X
0,2290,193  X
8,2232,198  X
0,2200,202  X
Análise Exploratória de Dados
Conforme o tamanho das amostras aumenta, a variabilidade entre as médias 
da amostra (erro padrão) diminui  os limites englobando 95% dessas 
médias se aproximam.
Os intervalos que construímos foram simétricos ao redor da média da 
população de 211 mg/100ml.
Existem outros intervalos que contém a proporção apropriada de médias da 
amostra.
Suponha que desejamos construir um intervalo que contenha 95% das 
médias das amostras de tamanho 25, mas com 1% da área acima de x2
e 4% abaixo de x1.
 
9,2322,9.32,221132,2
2,9
211
9,1942,9.75,121175,1
2,9
211
95,0
2
2
1
1
21





xx
xx
xXxP
 
 
Análise Exploratória de Dados
Podemos dizer que aproximadamente 95% das médias das amostras de 
tamanho 25 se encontram entre 194,9 mg/100ml e 232,3 mg/100ml.
Em geral, é preferível construir um intervalo simétrico.
Qual deve ser o tamanho das amostras para que 95% de suas médias se 
encontrem a ± 5 mg/100ml da média µ da população?
Para responder isso, não é necessário conhecer o valor do parâmetro µ.
Precisamos encontrar o tamanho da amostra n para o qual
 
.2,325
5
46.96,12,9.96,1
46
5
95,0
46
5
46
595,0






 



nn
n
n
Z
n
PP  5X5-
Amostras de tamanho 326 seriam exigidas para que 95% das médias 
das amostra se encontrem a ± 5 mg/100ml da média da população.
Ou, se selecionamos uma amostra de tamanho 326 da população e 
calculamos sua média, a probabilidade de que a média da amostra 
esteja a ± 5 mg/100ml da verdadeira média µ da população é 0,95.
Análise Exploratória de Dados
Distribuição amostral de uma proporção
Uma aplicação importante do Teorema Central do Limite relaciona-se com a 
distribuição da proporção amostral.
Considere uma amostral de tamanho n, X1, X2, ..., Xn, extraída 
aleatoriamente de uma população X onde




fracasso; ocorre se 0,
sucesso ocorre se ,1
iX
onde sucesso é a ocorrência do evento de interesse e fracasso é a 
ocorrência do evento complementar.
Seja p a probabilidade de sucesso. Esta probabilidade é estimada pela 
proporção amostral de sucessos, 
n
interesse de ticacaracterís certa uma com amostra na indivíduos de número ˆ
 
amostra da tamanho
amostra na sucessos de númeroˆ


p
p
pˆ
Análise Exploratória de Dados
Como a variável Xi assume somente o valor 1, se o indivíduo apresenta a 
característica; e 0 caso contrário; podemos reescrever a proporção amostral 
como:
X
nn
XXXp
n
n 



1i
i
21
X
...ˆ
Logo, uma proporção amostral não é nada mais do que uma média amostal
de uma variável que assume somente valores 0’s e 1’s. 
Como é uma média, a distribuição amostral de é dada pelo Teorema 
Central do Limite. 
Assumindo que os Xi são independentes e que cada Xi tem distribuição 
binomial com média E(Xi) = µ = p e desvio padrão de Xi = σxi = .
Então, pelo Teorema Central do Limite:
pˆ pˆ
 pp 1
 
1) , N(0 menteaproximada ãodistribuiç uma tem
1
ˆ
n
pp
pp


Análise Exploratória de Dados
Exemplo:
É conhecido que a proporção de casos novos de hanseníase da forma 
diforma atendidos no ambulatório de dermatologia de um hospital é de 0,45. 
Calcule a probabilidade de que para uma amostra de 60 casos novos 
atendidos neste hospital, a proporção de portadores de hanseníase da 
forma diforma:
a) seja menor do que 0,30
b) esteja entre 0,40 e 0,55.
Solução:
Assumindo que cada paciente ser portador de hanseníase da forma 
diforma é independente de outro paciente ser ou não portador de 
hanseníase da forma diforma temos, pelo Teorema Central do Limite, que 
a proporção amostral de pacientes portadores de hanseníase da forma 
diforma tem distribuição aproximadamente Normal com média 0,45 e 
desvio padrão




diforma forma da hanseníase deportador é não paciente o se 0,
diforma forma da hanseníase deportador é paciente o se ,1
iX
 
60
45,0145,0 
Análise Exploratória de Dados
Logo,
 
1) , N(0 menteaproximada ãodistribuiç uma tem
60
45,0145,0
45,0ˆ

p
 
0099,04901,05,0)33,2( 
60
45,0145,0
45,030,0)30,0ˆ() 














 ZPZPpPa
   
7229,04406,02823,0)56,178,0(
60
45,0145,0
45,055,0
60
45,0145,0
45,040,0)55,0ˆ40,0()




















ZP
ZPpPb 
Análise Exploratória de Dados
A inferência é um conjunto de técnicas que objetiva estudar a população 
através de evidências fornecidas por uma amostra. 
Estimação
Teste de hipóteses
Estimação:
1.Estimação pontual: 
Quando procuramos encontrar uma estimativa única que esteja
satisfatoriamente próxima do verdadeiro valor do parâmetro.
Parâmetro Estimador
 X
p pˆ
2 2S
 S
O valor numérico que o estimador assume é a estimativa pontual do 
parâmetro.
Análise Exploratória de Dados
2. Estimação intervalar – Intervalos de confiança
Um estimador pontual com base em uma amostra produz um único 
número como estimativa do parâmetro. Muitas vezes, entretanto, 
queremos considerar, conjuntamente, o estimador e a precisão com 
que estima o parâmetro.
Para cada amostra diferente que retirarmos da população poderemos 
observar valores diferentes para a média e o desvio padrão e 
consequentemente temos intervalos diferentes.
Não podemos afirmar com certeza que o valor da média populacional, 
µ, está incluído dentro do intervalo. 
O que podemos dizer é que com 100(1-)% de confiança o valor de µ
pertence ao intervalo.
Isto quer dizer que se observarmos um grande número de amostras de 
mesmo tamanho e para cada amostra calcularmos um intervalo de 
100(1-)% de confiança, cerca de 100(1-)% dos intervalos conterão o 
verdadeiro valor de µ.
Análise Exploratória de Dados
Vamos supor a seguinte população X = {2, 3, 4, 5} com média µ = 3,5 e 
variância σ2 = 1,25.
Vamos relacionar todas as amostras possíveis de tamanho 2 dessa 
população:
(2, 2) (2, 3) (2, 4) (2, 5) (3, 2) (3, 3) (3, 4) (3, 5)
(4, 2) (4, 3) (4, 4) (4, 5) (5, 2) (5, 3) (5, 4) (5, 5)
Agora, vamos calcular a média de cada amostra acima relacionada. Então 
teremos:
2,0 2,5 3,0 3,5 2,5 3,0 3,5 4,0 
3,0 3,5 4,0 4,5 3,5 4,0 4,5 5,0
Por fim, vamos calcular a média das médias amostrais, ou seja
5,3
16
0,55,4......5,30,35,20,2)( XE
Análise Exploratória de Dados
Sabemos que a média populacional µ é 3,5 e para cada valor calculamos o erro entre 
a média da amostra e a média populacional.
Verificamos na última coluna que, para algumas amostras, o erro entre e µ foi 
igual a zero. Entretanto, outras amostras apresentaram erros grandes de 1,5 para 
mais ou para menos em relação à média populacional.
X
Análise Exploratória de Dados
Porém, quando vamos elaborar uma estimativa para um parâmetro 
populacional, utilizamos apenas uma dessas possíveis amostras.
Interessa-nos construir um intervalo de confiança que garanta que essa 
única amostra escolhida seja uma dentre as amostras que admitimos que o 
erro cometido não seja significativo para o estudo.
No exemplo, admitindo que o erro máximo desejável seja 0,5, as amostras 
1, 2, 5, 12, 15 e 16 nos levariam a estimativas com erro muito grande. 
Existe portanto uma probabilidade de 6/16 (ou 37,5%) de sortearmos uma 
amostra não desejável.
Nosso objetivo é construir um intervalo de confiança de tal maneira que 
tenhamos uma probabilidade pequena de sortearmos amostras com
erros 
não desejáveis. Ou seja, admitindo que essa probabilidade seja 10%, 
teremos apenas 10% de amostras que gerarão estimativas cujo o erro 
amostral superará o valor que estamos admitindo como máximo.
Análise Exploratória de Dados
Existirão, portanto, 90% de amostras cujas estimativas serão consideradas 
“boas”, isto é, cujos intervalos gerados a partir dessas estimativas pontuais 
esperamos que contenham o verdadeiro parâmetro populacional. 
Chamamos a essa última probabilidade de nível de confiança da estimativa 
e simbolizamos por (1 - ).
(1 - ) pode ser igual a 99%, 95%, 90%.
Se estabelecemos que desejamos um intervalo de (1 - ) = 0,95 de 
confiança,  será igual a 0,05; o que significa que, ao estimarmos o 
parâmetro, poderemos estar utilizando uma daquelas amostras dentre as 
5% que geram estimativas intervalares cujos erros amostrais encontram-se 
acima do desejável.

Teste o Premium para desbloquear

Aproveite todos os benefícios por 3 dias sem pagar! 😉
Já tem cadastro?