Esta é uma pré-visualização de arquivo. Entre para ver o arquivo original
Análise Exploratória de Dados
Inferência Estatística
Até aqui, nós aprendemos a descrever uma amostra através das medidas
de tendência central e de dispersão.
Com a utilização da inferência estatística, desejamos inferir propriedades de
uma população com base nos resultados obtidos em uma amostra.
Frequentemente, devemos tomar decisões sobre populações com base em
informações obtidas em amostras das mesmas. Tais decisões chamam-se
decisões estatísticas.
Ex.: Com base em resultados amostrais, podemos querer decidir se
determinada droga é eficiente na cura de determinada doença.
Para a tomada de decisão utilizaremos a inferência estatística.
Objetivo: tirar conclusões sobre uma população com base na informação de
uma amostra.
A amostra deve ser representativa da população da qual ela é selecionada.
Se não for, as conclusões extraídas sobre a população podem estar
distorcidas ou viesadas.
Análise Exploratória de Dados
Parâmetro: quantidades desconhecidas da população e sobre as quais
temos interesse.
Ex: µ - média da população
Estimador: combinação dos elementos da amostra, construída com a
finalidade de representar, ou estimar, um parâmetro de interesse na
população.
Ex:
Estimativa: valor numérico assumido pelo estimador.
Ex :
Estudamos a distribuição teórica de probabilidade: distribuição normal.
Probabilidade os parâmetros da distribuição eram conhecidos
calculamos probabilidades
Inferência os valores desses parâmetros não são conhecidos.
) (estimador amostra da média : X
observada. amostra a para X de valor o é x
Análise Exploratória de Dados
Estimadores são funções de variáveis aleatórias e, portanto, eles também
são variáveis aleatórias.
Conseqüentemente, têm uma distribuição de probabilidades, denominada
distribuição amostral do estimador.
Distribuição amostral da média
Exemplo 1: Considere uma população em que uma variável X assume um
dos valores do conjunto {1, 3, 5, 5, 7}. A distribuição de probabilidade de X é
dada por:
É fácil ver que a média da população, µX = E(X) = 4,2
pois,
x 1 3 5 7
P(X = x) = fri 1 / 5 1 / 5 2 / 5 1 / 5
2,4
5
1.7
5
2.5
5
1.3
5
1.11)(
11
1
k
i
ri
k
i
ii
N
i
i
x ifxfxNN
x
XE
Análise Exploratória de Dados
e a variância da população, σ2 = Var(X) = 4,16
pois,
16,4
5
12,47
5
22,45
5
12,43
5
12,41)(
11)(
22222
1
2
1
2
1
22
XVar
fxfx
N
x
N
XVar
k
i
iri
k
i
ii
N
i
i
Vamos relacionar todas as amostras possíveis de tamanho n = 2,
selecionadas ao acaso e com reposição dessa população.
Análise Exploratória de Dados
Análise Exploratória de Dados
é 2 n para de adeprobabilid de ãodistribuiçA X
2
,08 2 )( r a V e 4,2 )E( caso, Neste
2
x
x
XX
X de adeprobabilid de ãodistribuiç seguinte a temos 3, n
tamanho de amostras para to,procedimen mesmo o Repetindo
Análise Exploratória de Dados
3
1 )( r a V e 4,2 )E( caso, Neste
2
x
x
39,XX
Análise Exploratória de Dados
Histogramas correspondentes às distribuições
de X e de X , para amostras de {1,3,5,5,7}
Dos histogramas, observamos que
normal. ãodistribuiç
uma de se-aproxima histograma do
forma a grande, mentesuficiente n para
;ocorrência de adeprobabilid
pequena ter a passam extremos casos os
;diminuindo vai variância a que vez uma
de torno em mais
vez cada concentrar se a tendem
de valores os aumenta, n conforme
x
,2,4)( XE
X
Análise Exploratória de Dados
Histogramas correspondentes às distribuições X de para amostras de
algumas populações
Análise Exploratória de Dados
ente. maproximada grande, n para ,
n
; N~X
seja, ou ,
n
variância e média com normal, ãodistribuiç uma
de grande, n para se,-aproxima ,X amostral, média da adeprobabilid
de ãodistribuiç a X, acaso ao retiradas , X ..., ,X ,X amostras Para
. variância e média tem que a. v. uma X Seja
Central Limite do Teorema
normal. ãodistribuiç uma de se-aproxima ,X amostral,
média da adeprobabilid de ãodistribuiç a , X de ãodistribuiç da forma da
tementeindependen aumenta, n quando que, sugerem gráficos Esses
2
n21
2
Na prática, geralmente, n > 30 já é considerado grande.
Análise Exploratória de Dados
média. da padrão erro denominado é
n
n
padrão desvio O
n. todo para
exata, normal ãodistribuiç tem X então normal, é X de ãodistribuiç a Se
2
? n de função em X de ãodistribuiç a comporta se Como
16). N(10, variável uma de n tamanho de aleatória amostra uma Considere
Análise Exploratória de Dados
Exemplos:
1) Uma v.a. X tem média µ= 5,4 e variância σ2 = 4,44. Uma amostra com
40 observações é sorteada com reposição. Qual a probabilidade da
média amostral ser maior do que 5?
Consideramos que n = 40 observações é uma amostra grande o
suficiente para usar o Teorema do Limite Central.
Assim,
40
; ,4N~X é isto
n
; N~X 44,45,
8849,03849,05,020,1
40
44,4
4,55
ZPZPP 5X
Análise Exploratória de Dados
2) Considere que a distribuição dos níveis séricos de colesterol para todos
os homens de 20 a 74 anos é normal com média µ = 211 mg/100ml e o
desvio padrão σ = 46 mg/100ml.
Selecionamos amostras de tamanho 25 da população.
Que proporção de amostras terá um valor médio maior do que
230mg/100ml?
Solução:
25
462, ; 11N:X é isto
n
; N:X
211;46N :Xhomens os todos para colesterol de séricos níveis :X
Análise Exploratória de Dados .0192,04808,05,007,2
25
46
21123030
ZPZPP 2X
Somente 1,9% das amostras terão uma média maior do que 230 mg/100ml.
Equivalentemente, se selecionamos uma amostra de tamanho 25 da
população de homens de 20 a 74 anos, a probabilidade de que o nível sérico
médio de colesterol para essa amostra seja maior do que 230 mg/100ml é de
0,019.
Que valor médio de nível sérico de colesterol limita os 10% valores mais
baixos da distrib. amostral?
.2,1992,9.28,121128,1
2,9
211
.1,0
25
46
2111,0
xx
xZPxP X
10% das amostras de tamanho 25 têm médias que são menores ou iguais a
199,2 mg/100ml.
Análise Exploratória de Dados
Calcular os limites superior e inferior que incluem 95% das médias das
amostras de tamanho 25.
.03,182,9.96,196,1
2,9
95,0
2,92,9
95,0
2,9
211211
2,9
21121195,0
xxxZxP
xZxPxXxP -
Limites: 211-18 = 193,0 e 211+18 = 229,0
95% das médias das a.a. de tamanho 25 estão entre 193,0 mg/100ml e
229,0 mg/100ml.
se selecionamos uma a.a. de tamanho 25 e a amostra tem uma média
maior que 229,0 ou menor que 193,0 mg/100ml então, ou a a.a. foi
extraída de uma população diferente ou um evento raro se realizou.
Análise Exploratória de Dados
Suponha que selecionamos amostras de tamanho 10 da população.
.100/5,14
10
46 mlmg
n
é X de padrão erro o caso, Nesse
.5,285,14.96,196,1
5,14
95,0 xxP xXx-
Limites: 211-28,5=182,5 e 211+28,5=239,5.
95% das médias das a.a. de tamanho 10 estão entre 182,5 mg/100ml e
239,5 mg/100ml.
n Intervalo contendo 95% das médias Comprimento do intervalo
1 46,0 180,4
10 14,5 57,0
25 9,2 36,0
50 6,5 25,6
100 4,6 18,0
n/
2,3018,120 X
5,2395,182 X
0,2290,193 X
8,2232,198 X
0,2200,202 X
Análise Exploratória de Dados
Conforme o tamanho das amostras aumenta, a variabilidade entre as médias
da amostra (erro padrão) diminui os limites englobando 95% dessas
médias se aproximam.
Os intervalos que construímos foram simétricos ao redor da média da
população de 211 mg/100ml.
Existem outros intervalos que contém a proporção apropriada de médias da
amostra.
Suponha que desejamos construir um intervalo que contenha 95% das
médias das amostras de tamanho 25, mas com 1% da área acima de x2
e 4% abaixo de x1.
9,2322,9.32,221132,2
2,9
211
9,1942,9.75,121175,1
2,9
211
95,0
2
2
1
1
21
xx
xx
xXxP
Análise Exploratória de Dados
Podemos dizer que aproximadamente 95% das médias das amostras de
tamanho 25 se encontram entre 194,9 mg/100ml e 232,3 mg/100ml.
Em geral, é preferível construir um intervalo simétrico.
Qual deve ser o tamanho das amostras para que 95% de suas médias se
encontrem a ± 5 mg/100ml da média µ da população?
Para responder isso, não é necessário conhecer o valor do parâmetro µ.
Precisamos encontrar o tamanho da amostra n para o qual
.2,325
5
46.96,12,9.96,1
46
5
95,0
46
5
46
595,0
nn
n
n
Z
n
PP 5X5-
Amostras de tamanho 326 seriam exigidas para que 95% das médias
das amostra se encontrem a ± 5 mg/100ml da média da população.
Ou, se selecionamos uma amostra de tamanho 326 da população e
calculamos sua média, a probabilidade de que a média da amostra
esteja a ± 5 mg/100ml da verdadeira média µ da população é 0,95.
Análise Exploratória de Dados
Distribuição amostral de uma proporção
Uma aplicação importante do Teorema Central do Limite relaciona-se com a
distribuição da proporção amostral.
Considere uma amostral de tamanho n, X1, X2, ..., Xn, extraída
aleatoriamente de uma população X onde
fracasso; ocorre se 0,
sucesso ocorre se ,1
iX
onde sucesso é a ocorrência do evento de interesse e fracasso é a
ocorrência do evento complementar.
Seja p a probabilidade de sucesso. Esta probabilidade é estimada pela
proporção amostral de sucessos,
n
interesse de ticacaracterís certa uma com amostra na indivíduos de número ˆ
amostra da tamanho
amostra na sucessos de númeroˆ
p
p
pˆ
Análise Exploratória de Dados
Como a variável Xi assume somente o valor 1, se o indivíduo apresenta a
característica; e 0 caso contrário; podemos reescrever a proporção amostral
como:
X
nn
XXXp
n
n
1i
i
21
X
...ˆ
Logo, uma proporção amostral não é nada mais do que uma média amostal
de uma variável que assume somente valores 0’s e 1’s.
Como é uma média, a distribuição amostral de é dada pelo Teorema
Central do Limite.
Assumindo que os Xi são independentes e que cada Xi tem distribuição
binomial com média E(Xi) = µ = p e desvio padrão de Xi = σxi = .
Então, pelo Teorema Central do Limite:
pˆ pˆ
pp 1
1) , N(0 menteaproximada ãodistribuiç uma tem
1
ˆ
n
pp
pp
Análise Exploratória de Dados
Exemplo:
É conhecido que a proporção de casos novos de hanseníase da forma
diforma atendidos no ambulatório de dermatologia de um hospital é de 0,45.
Calcule a probabilidade de que para uma amostra de 60 casos novos
atendidos neste hospital, a proporção de portadores de hanseníase da
forma diforma:
a) seja menor do que 0,30
b) esteja entre 0,40 e 0,55.
Solução:
Assumindo que cada paciente ser portador de hanseníase da forma
diforma é independente de outro paciente ser ou não portador de
hanseníase da forma diforma temos, pelo Teorema Central do Limite, que
a proporção amostral de pacientes portadores de hanseníase da forma
diforma tem distribuição aproximadamente Normal com média 0,45 e
desvio padrão
diforma forma da hanseníase deportador é não paciente o se 0,
diforma forma da hanseníase deportador é paciente o se ,1
iX
60
45,0145,0
Análise Exploratória de Dados
Logo,
1) , N(0 menteaproximada ãodistribuiç uma tem
60
45,0145,0
45,0ˆ
p
0099,04901,05,0)33,2(
60
45,0145,0
45,030,0)30,0ˆ()
ZPZPpPa
7229,04406,02823,0)56,178,0(
60
45,0145,0
45,055,0
60
45,0145,0
45,040,0)55,0ˆ40,0()
ZP
ZPpPb
Análise Exploratória de Dados
A inferência é um conjunto de técnicas que objetiva estudar a população
através de evidências fornecidas por uma amostra.
Estimação
Teste de hipóteses
Estimação:
1.Estimação pontual:
Quando procuramos encontrar uma estimativa única que esteja
satisfatoriamente próxima do verdadeiro valor do parâmetro.
Parâmetro Estimador
X
p pˆ
2 2S
S
O valor numérico que o estimador assume é a estimativa pontual do
parâmetro.
Análise Exploratória de Dados
2. Estimação intervalar – Intervalos de confiança
Um estimador pontual com base em uma amostra produz um único
número como estimativa do parâmetro. Muitas vezes, entretanto,
queremos considerar, conjuntamente, o estimador e a precisão com
que estima o parâmetro.
Para cada amostra diferente que retirarmos da população poderemos
observar valores diferentes para a média e o desvio padrão e
consequentemente temos intervalos diferentes.
Não podemos afirmar com certeza que o valor da média populacional,
µ, está incluído dentro do intervalo.
O que podemos dizer é que com 100(1-)% de confiança o valor de µ
pertence ao intervalo.
Isto quer dizer que se observarmos um grande número de amostras de
mesmo tamanho e para cada amostra calcularmos um intervalo de
100(1-)% de confiança, cerca de 100(1-)% dos intervalos conterão o
verdadeiro valor de µ.
Análise Exploratória de Dados
Vamos supor a seguinte população X = {2, 3, 4, 5} com média µ = 3,5 e
variância σ2 = 1,25.
Vamos relacionar todas as amostras possíveis de tamanho 2 dessa
população:
(2, 2) (2, 3) (2, 4) (2, 5) (3, 2) (3, 3) (3, 4) (3, 5)
(4, 2) (4, 3) (4, 4) (4, 5) (5, 2) (5, 3) (5, 4) (5, 5)
Agora, vamos calcular a média de cada amostra acima relacionada. Então
teremos:
2,0 2,5 3,0 3,5 2,5 3,0 3,5 4,0
3,0 3,5 4,0 4,5 3,5 4,0 4,5 5,0
Por fim, vamos calcular a média das médias amostrais, ou seja
5,3
16
0,55,4......5,30,35,20,2)( XE
Análise Exploratória de Dados
Sabemos que a média populacional µ é 3,5 e para cada valor calculamos o erro entre
a média da amostra e a média populacional.
Verificamos na última coluna que, para algumas amostras, o erro entre e µ foi
igual a zero. Entretanto, outras amostras apresentaram erros grandes de 1,5 para
mais ou para menos em relação à média populacional.
X
Análise Exploratória de Dados
Porém, quando vamos elaborar uma estimativa para um parâmetro
populacional, utilizamos apenas uma dessas possíveis amostras.
Interessa-nos construir um intervalo de confiança que garanta que essa
única amostra escolhida seja uma dentre as amostras que admitimos que o
erro cometido não seja significativo para o estudo.
No exemplo, admitindo que o erro máximo desejável seja 0,5, as amostras
1, 2, 5, 12, 15 e 16 nos levariam a estimativas com erro muito grande.
Existe portanto uma probabilidade de 6/16 (ou 37,5%) de sortearmos uma
amostra não desejável.
Nosso objetivo é construir um intervalo de confiança de tal maneira que
tenhamos uma probabilidade pequena de sortearmos amostras com
erros
não desejáveis. Ou seja, admitindo que essa probabilidade seja 10%,
teremos apenas 10% de amostras que gerarão estimativas cujo o erro
amostral superará o valor que estamos admitindo como máximo.
Análise Exploratória de Dados
Existirão, portanto, 90% de amostras cujas estimativas serão consideradas
“boas”, isto é, cujos intervalos gerados a partir dessas estimativas pontuais
esperamos que contenham o verdadeiro parâmetro populacional.
Chamamos a essa última probabilidade de nível de confiança da estimativa
e simbolizamos por (1 - ).
(1 - ) pode ser igual a 99%, 95%, 90%.
Se estabelecemos que desejamos um intervalo de (1 - ) = 0,95 de
confiança, será igual a 0,05; o que significa que, ao estimarmos o
parâmetro, poderemos estar utilizando uma daquelas amostras dentre as
5% que geram estimativas intervalares cujos erros amostrais encontram-se
acima do desejável.