Esta é uma pré-visualização de arquivo. Entre para ver o arquivo original
1
UNIVERSIDADE DO OESTE DE SANTA CATARINA
UNOESC - CAMPUS VIDEIRA
ÁREA DE CIÊNCIAS EXATAS E DA TERRA
CURSO DE ENGENHARIA SANITÁRIA E
AMBIENTAL
PROBABILIDADE E ESTATÍSTICA
Professor: Dr. Dirceu Scaratti
VIDEIRA,
JULHO DE 2009.
2
1. POPULAÇÃO E AMOSTRA
A Estatística tem por objetivo o estudo dos fenômenos coletivos e das relações que
existem entre eles. Entende-se como fenômeno coletivo àquele que se refere à população, ou
universo, que compreende um grande número de elementos, sejam coisas ou pessoas.
A população – N: pode ser segundo o seu tamanho, finita ou infinita, porém, na prática
nunca encontraremos populações com infinitos elementos, (populações com grande número
de componentes), populações muito grandes são estudadas por amostragem.
Amostra - n: é uma parte representativa de todo ou do universo; ou, em outros termos,
“é o grupo de elementos selecionados com a intenção de descobrir algo a respeito da
população de que fazem parte”. Todo subconjunto não vazio e menor do que a população
constitui uma amostra dessa população.
Variável Discreta - V.D.: é uma representação inteira. Ex.: 1.200 frangos, 800 veículos.
Variável Contínua - V.C.: é uma representação que permite assumir qualquer valor
entre dois valores fixos. Ex.: Peso, estatura, temperatura.
Variável Nominal - V.N.: é uma representação em forma de atributo por categorias. Ex.:
Cores (azul, branco. . .) Cursos (Gestão de Trânsito e Transporte, Saneamento Ambiental . . .).
Variável Por Posto - V.P.: é uma representação em forma de atributo qualitativo por
ordem. Ex.: 1º, 2º, 3º, . . .
1.1 TÉCNICAS DE AMOSTRAGEM
A amostragem é extrair de um todo (população), uma parte (amostra), com propósito
de avaliarmos (inferirmos) a parte representativa desse todo.
Nas pesquisas científicas, em que se quer conhecer algumas características de uma
população, é comum observar apenas uma amostra de seus elementos e, a partir desses
resultados obter um a estimativa. Esse tipo de pesquisa é usualmente chamado de
levantamento por amostragem.
Conceito
População: conjunto de elementos passíveis de serem mensurados, com respeito às
variáveis que se pretende levantar.
Por que amostragem?
Quatro razões para o uso de amostragem em levantamento de grandes populações:
Economia; Tempo; Confiabilidade de Dados; Operacionalidade.
Quanto o uso de amostragem não é interessante?
Três situações em que pode não valer a pena a realização de uma amostragem:
População Pequena; Características de Fácil Mensuração; Necessidade de alta precisão.
3
AMOSTRAGEM
População: eleitores brasileiros.
INFERÊNCIA
1.1.1 Amostragem Aleatória Simples
A amostragem aleatória simples tem a seguinte propriedade: qualquer subconjunto da
população, com o mesmo número de elementos, tem a mesma probabilidade de fazer parte da
amostra. Em particular, temos que cada elemento da população tem a mesma probabilidade de
pertencer à amostra.
1.1.1.1 Outros Tipos de Amostragem Aleatória
Amostragem sistemática
Uma amostra sistemática poderá ser tratada como uma amostra aleatória simples se os
elementos da população estiverem ordenados aleatoriamente, e a relação
n
N
é chamada de
intervalo de seleção.
Amostragem estatística estratificada
Subgrupo 1 da amostra
Subgrupo 2 da amostra amostra
... estratificada
Subgrupo k da amostra
Amostragem estratificada proporcional: se um estrato corresponde a 20% da população, ele
também deve corresponder a 20% da amostra.
Estrato 1
Estrato 2
...
Estrato K
Amostra: uma parte
dos eleitores
4
20%
20%60%
1.1.2 Cálculo do tamanho de uma amostra aleatória simples
Para determinação do tamanho da amostra, o pesquisador precisa especificar o erro
amostral tolerável, ou seja, o quanto ele admite errar na avaliação dos parâmetros de
interesse. Chamamos de erro amostral a diferença entre o valor que a estatística pode acusar e
o verdadeiro valor do parâmetro que se deseja estimar.
Fórmula para o cálculo do tamanho mínimo para a amostra
Sejam: N – tamanho (número de elementos) da população;
n – tamanho (número de elementos) da amostra;
n0 – uma primeira aproximação para a o tamanho da amostra e
E0 – erro amostral tolerável.
Um primeiro cálculo do tamanho da amostra pode ser deito mesmo sem conhecer o
tamanho da população, através das seguintes expressões:
Conhecendo o tamanho N da população, podemos corrigir o cálculo anterior, por:
Exemplo 1: Planeja-se um levantamento por amostragem para avaliar diversas características
da população das N = 200 famílias moradoras de certo bairro. Estas características
(parâmetros) são especialmente do tipo percentagem, tais como, a percentagem de famílias
que usam programas de alimentação popular, a percentagem de famílias que mora em casa
própria, etc. qual deve ser o tamanho mínimo de uma amostra aleatória simples, tal que
possamos admitir, com alta confiança, que os erros amostrais não ultrapassem 4% (E0=0,04)?
Solução: uma primeira aproximação:
famílias 625
04,0
1
20
n
2
0
0
1
E
n
0
0
nN
nN
n
20%
20%60%
População total
Amostra
5
Corrigindo, em função do tamanho N da população, temos:
Exemplo 2: Considerando os objetivos e os valores fixados no exemplo anterior, qual deveria
ser o tamanho da amostra se a pesquisa fosse ampliada para todo o município, que contém N
= 200.000 famílias residentes?
Solução: O valor de n0 continua no mesmo caso anterior (n0 = 625), pois n0 independe de N.
Fazendo a correção em termos do novo valor de N, temos:
1.1.3 Cálculo do tamanho de uma amostra – Proporção (População infinita)
Deseja-se calcular a prevalência de reações positivas em um determinado ensaio
laboratorial de controle da qualidade de produtos cárneos. Quantos ensaios serão necessários
na amostra para que se possa calcular a prevalência, com uma precisão de 5% do valor real
com uma confiança de 95%, sabendo-se que é pouco provável que a verdadeira taxa exceda a
20%?
Cálculos:
= 100 – 95 = 5% (0,05) /2 = 0,025
Z (/2) = z (0,025) = 1,96
P = 20% (0,20)
E = 5% = 0,05
1.1.4 Cálculo do tamanho de uma amostra – Proporção (População finita)
Deseja-se estimar a proporção de pessoas favoráveis (N=400) a um determinado tipo
de tratamento. Sabendo-se que numa pesquisa piloto, esta proporção foi de 7%, qual deve ser
o tamanho mínimo da amostra para que um pesquisador possa estimar a proporção verdadeira
com um nível de confiança de 95% e um erro amostral de 5%?
famílias 152
825
125000
625200
625200
n
famílias 623
625200000
625200000
n
2
2
E
p1p2/
n Z
246
)05,0(
)]20,0(1[x)20,0(x96,1
n
2
2
)p1(px)2/()1N(E
Nxp1p2/
n
Z
Z
22
2
6
Cálculos:
= 100 – 95 = 5% (0,05) /2 = 0,025
Z (/2) = z (0,025) = 1,96
P = 7% (0,07)
E = 5% = 0,05
1.1.5 Cálculo do tamanho de uma amostra – Estimação de média (População infinita)
Qual
deve ser o tamanho mínimo de uma amostra que será utilizada na estimação da
idade média de uma população muito grande, de pessoas adultas, sabendo-se, por exemplo,
que o desvio padrão é de 5 anos? Adotar o Intervalo de Confiança (IC) de 95% e o E de 1 ano.
Cálculos:
= 100 – 95 = 5% (0,05) /2 = 0,025
Z (/2) = z (0,025) = 1,96
σ = 5 anos
E = 1 ano
1.1.6 Cálculo do tamanho de uma amostra – Estimação de média (População finita)
Qual deve ser o tamanho mínimo de uma amostra que será utilizada na estimação da
idade média de uma população N = 400, de pessoas adultas, sabendo-se, por exemplo, que o
desvio padrão é de 5 anos? Adotar o Intervalo de Confiança (IC) de 95% e o E de 1 ano.
Cálculos:
= 100 – 95 = 5% (0,05) /2 = 0,025
Z (/2) = z (0,025) = 1,96
σ = 5 anos
E = 1 ano
2,80
)]07,01(x07,0x)96,1[()1400(x)05,0(
400x)]07,0(1[x)07,0(x96,1
n
22
2
2
E
2/Z
n
97
1
5x)96,1(
n
2
22
2
)x2/Z()1N(E
Nx)2/Z(
n
78
)5x96,1()1400(1
400x)5x96,1(
n
22
2
7
2. FERRAMENTAS BÁSICAS DE CÁLCULO ESTATÍSTICO
2.1 DADOS BRUTOS
Quando se faz „n‟ observações diretas em um fenômeno coletivo ou observam-se as
respostas a uma pergunta em uma coleção de „n‟ questionários, obtém-se uma seqüência de
„n‟ valores numéricos. Tal seqüência é denominada dados brutos.
Representando por X a característica é observada no fenômeno coletivo ou na pergunta do
questionário, estão x1 representa o valor da característica obtida na primeira observação do
fenômeno coletivo ou o valor da característica observado no primeiro questionário; x2
representa o valor da característica X na Segunda observação do fenômeno coletivo ou o valor
da característica X observada no segundo questionário e assim sucessivamente.
Desta forma, os dados brutos podem ser representados por X: x1, x2, x3, ..., xn.
Esta seqüência de valores apresenta-se de modo completamente desordenada.
De modo geral, pode-se afirmar que:
Dados Brutos é uma seqüência de valores numéricos não organizados, obtidos diretamente da
observação de um fenômeno coletivo.
2.2 ROL
É o arranjo dos dados brutos em ordem de grandeza crescente ou decrescente.
Ex: Uma farmácia verificou o grau de satisfação de seus clientes com as seguintes notas 7, 5,
9, 8, 7, 6, 9.
Neste exemplo, X representa as notas e pode ser apresentada na forma:
X: 7, 5, 9, 8, 7, 6, 9 (Dados Brutos)
Ou X: 5, 6, 7, 7, 8, 9, 9 (Rol) ou X: 9, 9, 8, 7, 7, 6, 5 (Rol)
EXERCÍCIOS
Construa o Rol para a seqüência de dados brutos:
1- A: 5, 6, 3, 8, 2, 7, 4
2 – B: 2,4 ; 3,1 ; 5,3 ; 2,9 ; 4,5 ; 0,8 ; 3,6
3 – C: 3, 3, 6, 5, 5, 7, 8, 6, 6, 5
8
2.3 NOTAÇÃO SIGMA –
n
i
ix
1
Muitos dos processos estatísticos (a maioria) exigem o cálculo da soma de um
conjunto de números. Usa-se a letra maiúscula grega para denotar a soma. Assim, se uma
variável x tiver os valores 1, 5, 6 e 9, então x= 21. Analogamente, se as despesas y com um
produto forem $8,82 em janeiro, $12,01 em fevereiro e $2,10 em março, então y= $22,93
Exemplo 1 - Se os valores de x são 2, 4, 5, 6 e 8 calcule: a) x; b) x
2
; c) (x)
2
.
Solução:
a) x = 2+4+5+6 +8 = 25
b) x
2
= 2
2
+4
2
+5
2
+6
2
+8
2
= 4+16+25+36+64 = 145
c) (x)
2
= 25
2
= 625
Se apenas uma parte dos valores é que deve ser somada, usam-se índices para indicá-
los. Assim,
5
1i
ix
significa a soma dos valores da variável x começando com o primeiro
(i=1) e terminando com o quinto (i=5):
5
1i
ix
= x1 + x2 + x3 + x4 + x5
n
i
ix
1
significa que devemos somar n (todas) observações; costuma-se escrever
abreviadamente como Xi ou X.
Exemplo 2 – Utilizando os dados apresentados, calcule:
Lê-se: “somatório
de xi, para i
variando de 1 a n”
ou “soma de xi,
para i variando de
1 a n“
O primeiro elemento dos
termos a serem somados
i é uma observação individual da série.
x é o nome dos termos a serem somados
é a instrução para somar
n é o último elemento a ser somado
Escores
Cada número de x é um escore
9
Dados:
a)
2
1i
ix
b)
4
2i
ix
c)
11
7i
ix
d) ix
Solução: a)
2
1i
ix
8+2=10
b)
4
2i
ix
2+3+6=11
c)
11
7i
ix
9+4+5+4+1=23
d) ix 8+2+3+6+7+8+9+4+5+4+1=57
Trabalhando em sentido inverso, podemos utilizar esse método para abreviar a soma
de um conjunto de dados:
1) x1+ x2 + x3 se escreve
3
1i
ix
2) x8 + x9 + x10 + x11 se escreve
11
8i
ix
Às vezes é possível simplificar uma soma, levando em conta uma ou mais dentre as
propriedades seguintes:
1) Quando cada valor de uma variável deve ser multiplicada ou dividida por uma constante,
essa constante pode ser aplicada após os valores serem somados.
cx
= c
x
i xi
1
2
3
4
5
6
7
8
9
10
11
8
2
3
6
7
8
9
4
5
4
1
57
a
b
c
10
Assim,
4
1
2
i
ix
= 2x1+ 2x2+ 2x3+ 2x4 = 2 (x1+x2+x3+x4) = 2
4
1i
ix
Por exemplo:
3(2)+3(8)+3(4) = 3(2+8+4) = 42
2) A soma de uma constante (isto é, uma constante somada n vezes) é igual ao produto da
constante pelo número n de vezes que ela ocorre.
n
i
ci
1
= nc
Por exemplo:
6
1
5
i
i
= 5+5+5+5+5+5 = 30 ou 6(5) = 30
3) A soma de uma soma (ou diferença) de duas variáveis é igual à soma (ou diferença) das
somas individuais das duas variáveis:
n
i
ii yx
1
2 )(
=
n
i
ix
1
2
+
n
i
iy
1
n
i
ii yx
1
2 )(
=
n
i
ix
1
2
–
n
i
iy
1
Por exemplo:
(x-y) = 9
x - y = 20-11 = 9
EXERCÍCIOS
1) Calcule as seguintes expressões: (n é o número de observações)
a)
Y
b)
2Y
c)
2
Y
i x y (x-y)
1
2
3
4
8
3
4
5
5
2
0
4
3
1
4
1
20 11 9
y
12
8
7
9
10
22
5
17
11
2) Calcule as seguintes quantidades:
a)
ix
b)
if
c)
ii xf
d)
2
ii xf
3) Sendo
Calcular:
a)
x
b)
y
c)
xy
d)
2x
e)
yx
f)
1x
i fi xi
1
2
3
4
5
6
5
7
9
13
6
4
10
11
14
18
22
25
x: 3 5 7 9 10 12 16 20
y: 2 4 6 8 11 13 17 21
12
3. PROBABILIDADE (NOÇÕES BÁSICAS)
3.1 INTRODUÇÃO
A probabilidade de que um evento “A” ocorra é igual ao número de casos favoráveis a
ocorrência de “A” dividido pelo número total de casos possíveis.
P(A) =
n
nA
Exemplo:
Uma caixa contém 3 peças perfeitas
e 2 defeituosas. Retirando-se uma peça de forma
aleatória, qual a probabilidade de que seja perfeita?
S = { P1, P2, P3, D1, D2 }
A = Peça perfeita
P(A) =
5
3
= 0,60 60%
Exemplo:
No lançamento de um dado, qual a probabilidade de ocorrência de uma face par?
A = face par Espaço Amostral
P(A) =
6
3
= 0,50 50%
Quanto maior o número de repetições de uma experiência, maior será a aproximação
entre a freqüência relativa de ocorrência de um evento e a sua probabilidade teórica.
Exemplo:
No lançamento de 2 dados qual a probabilidade de que a soma dos pontos seja 7?
Espaço Amostral
1 2 3 4 5 6
1
2
3
4
5
6
2
2
3
4
5
6
3
2
3
4
5
6
4
2
3
4
5
6
5
2
3
4
5
6
6
2
3
4
5
6
2
3
4
5
6
2
3
4
5
6
2
3
4
5
6
2
3
4
5
6
2
3
4
5
6
2
3
4
5
6
x
x
x
x
x
x
A = 7 pontos
P(A) =
6
1
36
6
= 0,1667 16,67%
Pode ser calculado por:
adição ou produto
13
3.2 REGRA DE ADIÇÃO
Se 2 eventos são tais que: a ocorrência de um impede a ocorrência do outro, eles são
denominados mutuamente exclusivos. A probabilidade de ocorrência de um (ou) do outro é
determinada através da adição das probabilidades individuais.
P (A B) = P(A) + P(B)
Exemplo:
Na retirada de um a carta de um baralho comum, qual a probabilidade de que seja rei
ou valete?
Espaço Amostral
Carta
Naipe
A 1 2 3 4 5 6 7 8 9 10 J Q K
ouro X X
copa X X
espada X X
pau X X
Pela fórmula inicial:
A = rei ou valete
P(A) =
n
na
P(A) =
52
8
= 0,1538 15,38%
Pela fórmula da adição:
A = rei
B = valete
P(A B) = P(A) + P(B)
P (A B) =
52
4
+
52
4
=
52
8
= 0,1538
Se dois eventos podem ocorrer ao mesmo tempo durante a realização de uma
experiência, a probabilidade de ocorrência de um ou do outro é determinada pela seguinte
fórmula:
P(A B) = P(A) + P(B) – P (A B)
P(A B) = probabilidade de ocorrência de ambos.
Exemplo:
Na retirada de uma carta de um baralho comum, qual a probabilidade que seja um rei
ou uma carta de copas?
14
Espaço Amostral
Carta
Naipe
A 1 2 3 4 5 6 7 8 9 10 J Q K
copa X X X X X X X X X X X X X X
espada X
pau X
ouro X
Fórmula inicial:
A = rei ou copas
P(A) =
52
16
= 0,3077 30,77%
Fórmula da adição:
A = rei
B = copas
P(A B) = P(A) + P(B) – P(A B)
P(A B) =
13
4
26
8
52
16
52
1
52
13
52
4
0,3077 30,77%
3.3 REGRA DE MULTIPLICAÇÃO
Se dois eventos podem ocorrer ao mesmo tempo quando uma experiência é realizada e
a ocorrência do segundo independe do fato de que o primeiro tenha ocorrido, eles são
denominados eventos independentes.
A probabilidade de ocorrência de ambos (um “e” outro) é determinada através do
produto das probabilidades individuais.
P(A B) = P(A) . P(B)
Exemplo:
No lançamento de um dado duas vezes, qual a probabilidade de que a face 1 ocorra nas
duas situações? Espaço Amostral
Fórmula inicial:
A = face 1, face 1
P(A) =
36
1
= 0,0278 2,78%
1 2 3 4 5 6
1
2
3
4
5
6
2
2
3
4
5
6
3
2
3
4
5
6
4
2
3
4
5
6
5
2
3
4
5
6
6
2
3
4
5
6
2
3
4
5
6
2
3
4
5
6
2
3
4
5
6
2
3
4
5
6
2
3
4
5
6
2
3
4
5
6
x
15
Regra da multiplicação
A = face 1 no primeiro lançamento
B = face 1 no segundo lançamento
P(A B) =
36
1
6
1
6
1
= 0,0278 2,78%
Se a ocorrência do segundo evento depende do fato de que o primeiro tenha ocorrido,
os eventos são considerados dependentes. A probabilidade de ocorrência de ambos (um e
outro) é determinada pela seguinte fórmula:
P(A B) = P(A) . P(B/A)
Prob. de ocorrência de B considerando que A tenha ocorrido
Prob. de ocorrência de A
Exemplo:
Uma caixa contém 3 peças perfeitas e 2 defeituosas. Retirando-se duas peças sem
reposição, qual a probabilidade de que ambas sejam perfeitas.
S = { P1, P2, P3, D1, D2 }
Fórmula inicial
!!
!
xnx
n
C xn
2
60
1212
12345
!35!2
!52
5
xxx
xxxx
C
30%
P(A B) = P(A) . P(B/A)
P(A B) =
20
6
4
2
5
3
= 0,30 30%
EXERCÍCIOS
Uma caixa contém cinco moedas, sendo três de ouro e duas de prata. A caixa também conte
sete medalhas, sendo quatro de prata.
1. Retirando-se apenas uma peça, de forma aleatória, qual a probabilidade de que:
a) Seja uma peça qualquer de ouro?
b) Seja uma moeda?
c) Não seja medalha de prata?
2. Retirando-se apenas uma peça, qual a probabilidade de que seja:
a) uma medalha de ouro ou uma moeda de prata?
b) Uma moeda, ou uma peça qualquer de ouro?
16
3. Retirando-se duas peças, sem reposição, qual a probabilidade de que:
a) Ambas sejam de ouro?
b) Ambas sejam moedas?
4. Uma caixa contém 5 bolas verdes, 4 brancas e 3 pretas.
a) Retirando-se uma bola, qual a probabilidade de que:
Seja branca?
Não seja preta?
Seja branca ou preta?
5. Retirando-se 2 bolas, sem reposição, qual a probabilidade de que:
Ambas sejam verdes?
A primeira seja branca e a Segunda preta?
Uma seja branca e a outra preta?
Ambas sejam da mesma cor?
Considerando que os jogos da loteria esportiva sejam equilibrados, qual a probabilidade de
acerto dos 13 pontos com um palpite triplo e um duplo. Nos demais jogos considerando
palpite simples.
Coluna 1 Coluna do meio Coluna 2
01 X X X
02 X X
03 X
04 X
05 X
06 X
07 X
08 X
09 X
10 X
11 X
12 X
13 X
P =
SDT
3
1
3
2
3
3
P =
1111
3
1
3
2
3
3
P = 1 .
441.531
2
177147
1
3
2
17
4. MEDIDAS DE TENDÊNCIA CENTRAL
As medidas de tendência central são usadas, para indicar um valor que tende a tipificar,
ou a representar melhor, um conjunto de números. As três medidas mais usadas são a média, a
mediana e a moda.
4.1 A MÉDIA
4.1.1 A média aritmética
A média de uma amostra é representada pelo símbolo
X
(lê-se “x barra”), e seu cálculo
pode expressar-se em notação sigma como segue:
n
n
i
ixx
1
ou simplesmente
n
x
x
ou
N
x
4.1.2 A média ponderada
A fórmula para o cálculo é:
Média ponderada =
n
i
i
n
i
ii
w
xw
1
1
Exemplo: Um estudante que obtém 80 no primeiro exame, 90 no segundo, e 96 no exame
final, terá que média final?
Exame Nota Peso
nº 1 80 0,30
nº 2 90 0.30
Final 96 0,40
1,00
onde: wi é o peso da observação
de ordem i.
Média
Ponderada:
4,89
40,030,030,0
9640,09030,08030,0
xxx
18
4.2 A MEDIANA
Uma segunda medida do meio de um conjunto de números é a mediana. Sua
característica principal é dividir um conjunto ordenado de dados em dois grupos iguais; a
metade terá valores inferiores à mediana, a outra metade terá valores superiores à mediana.
Para calcular a mediana, é necessário primeiro ordenar os valores (comumente) do mais baixo
ao mais alto. Em seguida, conta-se até a metade dos valores para achar a medida.
Em geral, a mediana ocupa a posição
2
)1( n
.
Exemplo: X = { 7, 8, 9, 10 }. De acordo com nossa fórmula, a posição da mediana ( 4
+ 1) 2 = 2,5; que está a meio caminho dos dois valores médios, ou seja, 8,5 neste caso, este
valor deixa dois valores abaixo e dois acima.
Uma medida estreitamente relacionada com a mediana é o quartil . Os quartis
dividem conjuntos ordenados em 4 partes iguais: 25% dos valores serão inferiores ao 1º
quartil (Q1), 50% serão inferiores ao segundo quartil ( Q2= mediana), 75% serão inferiores ao
terceiro quartil (Q3), e 25% serão superiores ao terceiro quartil.
Exemplo: Determine, por inspeção, os quartis dos seguintes conjuntos de dados:
4.3 A MEDIANA E A AMPLITUDE INTER-QUARTIS
Adicionalmente, os quartis inferior e superior, Q1 e Q3, são definidos como os
valores abaixo dos quais estão um quarto e três quartos, respectivamente, dos dados. Estes três
valores são freqüentemente usados para resumir os dados juntamente com o mínimo e o
máximo. Eles são obtidos de forma aproximada, ordenando os dados do menor para o maior,
e então conta-se o número apropriado de observações: ou seja é
4
)1( n
,
2
)1( n
e
4
)1(
3
n
para o quartil inferior, mediana e quartil superior, respectivamente. Para um número par de
observações, a mediana é a média dos valores centrais (e analogamente para os quartis
inferior e superior).
4.5 A MODA
A moda é o valor que ocorre com maior freqüência em um conjunto:
Exemplo: Dados nos números: 9, 9, 8, 6, 7: há dois nove; portanto, nove é a moda. A
moda funciona como medida descritiva quando se trata de contar dados.
A moda indica o valor “típico” em termos da maior ocorrência.
a) 1 2 3 4
Q1 Q2 Q3
b) 2 3 5 8 9 12 13 15
Q1 Q2 Q3
19
5. MEDIDAS DE DISPERSÃO
São necessários dois tipos de medidas para descrever adequadamente um conjunto de
dados. Além da informação quanto ao “meio” de um conjunto de números, é conveniente
dispormos também de um método que nos permita exprimir a dispersão. As medidas de
dispersão indicam se os valores estão relativamente próximos uns dos outros, ou separados.
Esta situação é ilustrada esquematicamente na figura abaixo:
a)
pequena dispersão
b)
grande dispersão
c)
Internações X Leitos de UTI
0
50
100
150
200
250
300
350
400
450
500
0 2 4 6 8 10 12 14
Leitos de UTI
No
In
te
rn
aç
õe
s
A dispersão mede quão próximos, uns dos outros, estão os valores de um grupo.
Consideram-se quatro medidas de dispersão:
o intervalo;
o desvio médio;
a variância;
o desvio padrão.
Todas elas, exceto o (intervalo) têm na média o ponto de referência. Em cada caso, o
valor zero indica ausência de dispersão; a dispersão aumenta à proporção que aumenta o valor
da medida (intervalo, variância, etc.).
20
5.1 O INTERVALO
O intervalo de um grupo de números é, de modo geral, a medida mais simples de
calcular e de entender. Focaliza o maior e o menor valor no conjunto (ou seja, os valores
externos).
O intervalo pode se expresso de duas maneiras:
1ª) a diferença entre o maior e o menor valor;
2ª) o maior e menor valor no grupo.
A vantagem de utilizar o intervalo como medida de dispersão reside no fato de o
intervalo ser relativamente fácil de calcular mesmo para um grande conjunto de números.
A maior limitação do intervalo é o fato de ele só levar em conta os dois valores
extremos de um conjunto, nada informando quanto aos outros valores.
4.2 MEDIDAS DE DISPERSÃO QUE TÊM A MÉDIA COMO PONTO DE REFERÊNCIA
Em razão de suas propriedades matemáticas, quase sempre se calcula a média de um
conjunto de dados. Por isso, existem várias medidas de dispersão que têm a média como
ponto de referência. Todas elas requerem o cálculo do desvio, ou diferença entre cada valor e
a média,
xxi
.
1º) Desvio Médio (DM): Mede o desvio médio dos valores em relação à média do grupo,
ignorando o sinal do desvio. Ao calcular o desvio médio, é necessário levar em conta o fato de
que a soma dos desvios positivos e negativos, a contar da média, será sempre (por definição)
igual a zero.
Calcula-se então o desvio médio absoluto pela fórmula seguinte:
n
xx
DM
i
Tomemos os valores absolutos dessas diferenças e somemos:
4 + 2 + 0 + 2 + 4 = 12 =
xxi
Desvio Médio:
4,2
5
12
n
xxi
onde: n é o número de observações
no conjunto.
21
2º) Variância
A variância é uma medida do espalhamento da distribuição ao redor da média, e é
calculado primeiro pela soma dos desvios quadrados da média, e dividindo-a pelo número de
observações (se os dados representam a população toda) ou por este número, reduzido por um
(se os dados representam uma amostra)
Calcula-se pela fórmula:
1
2
2
n
xx
Sx
i
Exemplo: Calcule a variância da amostra 2; 4; 6; 8; 10
Solução: a média (
x
) é 6
6
5
30
5
108642
x
xi
x
(xi – x )
2xxi
2 6 – 4 16
4 6 – 2 4
6 6 0 0
8 6 + 2 4
10 6 + 4 16
0 40
Se esses valores representam toda um população, a variância seria
8
5
40
A variância de uma amostra é a média dos quadrados dos desvios dos valores a contar
da média, calculada usando-se „n 1‟ em lugar de „n‟.
3º) Desvio Padrão
O desvio padrão é simplesmente a raiz quadrada positiva da variância. Assim, se a
variância é 81, o desvio padrão é 9; se a variância é 10, o desvio padrão é
16,310
.
Fórmula:
1
2
n
xx
S
i
(como anteriormente, a substituição de (n 1) por n produz as fórmulas do desvio padrão da
população).
Exemplo: Calcule o desvio padrão da amostra: 20; 5; 10; 15; 25 (Use a calculadora)
10
15
40
1
2
2
n
xx
S
i
somas
22
5.3 COEFICIENTES DE VARIAÇÃO
Quando existirem duas séries de dados, existirão várias medidas estatísticas que
podem ser usadas para capturar como as duas séries se movem juntas através do tempo. As
duas mais largamente usadas são a correlação e a covariância.
Para duas séries de dados, X
(X1, X2,.) e Y(Y1,Y2... ), a covariância fornece uma medida não padronizada do grau no qual
elas se movem juntas, e é estimada tomando o produto dos desvios da média para cada
variável em cada período.
COVARÂNCIA:
xxxx bbaa
N
i
ba
ii
N
1
,
1
O sinal na covariância indica o tipo de relação que as duas variáveis têm. Um sinal
positivo indica que elas movem juntas e um negativo que elas movem em direções opostas.
Enquanto a covariância cresce com o poder do relacionamento, ainda é relativamente difícil
fazer julgamentos sobre o poder do relacionamento entre as duas variáveis observando a
covariância, pois ela não é padronizada.
A correlação é a medida padronizada da relação entre duas variáveis. Ela pode ser
calculada a partir da covariância.
CORRELAÇÃO:
2
0
1
20
1
0
1
. . yyxx
yyxx
i
i
i
i
i
i
ii
i
i
yx
xy
xy
O coeficiente de variação é uma grandeza que varia de –1 a +1, valores estes que
traduzem a correlação perfeita entre a variação de uma variável em relação à variação da
outra. Por conseguinte, a ausência completa de correlação entre as variáveis confrontadas é
indicada pelo valor zero do coeficiente de correlação (p = 0). Uma correlação próxima à zero
indica que as duas variáveis não estão relacionadas. Uma correlação positiva indica que as
duas variáveis movem juntas, e a relação é forte quanto mais à correlação se aproxima de um.
Uma correlação negativa indica que as duas variáveis movem-se em direções opostas, e que a
relação também fica mais forte quanto mais próxima de menos 1 a correlação ficar. Duas
variáveis que estão perfeitamente correlacionadas positivamente (r = 1) movem-se
essencialmente em perfeita proporção na mesma direção, enquanto dois conjuntos que estão
perfeitamente correlacionados negativamente movem-se em perfeita proporção em direções
opostas.
23
Exemplo1:
xa xb
xa
xb
(xa –
x
) (xb –
x
) xxxx bbaa ii
2 3 6 6.2 – 4 – 3.2 12.8
4 4 6 6.2 – 2 – 2.2 4.4
6 7 6 6.2 0 +0.8 0
8 8 6 6.2 + 2 + 1.8 3.6
10 9 6 6.2 + 4 + 2.8 11.2
30 31 0 0 32
4.632
5
1
1
,
N
i
ba 4.6325
1
1
,
N
i
ba
9773,0
7414,32
32
8,26.40
32
.
yx
xy
xy
Exemplo2:
xa xb
xa
xb
(xa –
x
) (xb –
x
) xxxx bbaa ii
2
0
1
yyi
i
i
2
0
1
yyi
i
i
2 7 6 12 – 4 – 5 20 16 25
4 9 6 12 – 2 – 3 6 4 9
6 12 6 12 0 0 0 0 0
8 14 6 12 + 2 + 2 4 4 4
10 18 6 12 + 4 + 6 24 16 36
30 60 0 0 54 40 74
24
6. TESTES DE HIPÓTESES
5.1 INTRODUÇÃO
Muitas situações práticas no dia-a-dia requerem a tomada de decisões em função dos
valores observados acerca dos parâmetros (ou de outros aspectos) da população.
Exemplo: Máquina de encher pacotes de açúcar.
O peso de cada pacote deve ser ≈ 8g (isto é, µ = 8). Será que a máquina está funcionando
corretamente?
Definição: Uma hipótese estatística é uma afirmação acerca dos parâmetros de uma ou mais
populações (testes paramétricos) ou acerca da distribuição da população (testes de
ajustamento).
Vamos estudar em primeiro lugar os testes paramétricos.
Temos duas hipóteses: a máquina funciona corretamente (µ = 8) ou a máquina não funciona
corretamente (µ ≠ 8):
H0: µ = 8 versus H1: µ ≠ 8
(hipótese nula) (hipótese alternativa)
Hipótese simples: é especificado apenas um valor para o parâmetro.
Hipótese composta: é especificado mais de um valor para o parâmetro.
Vamos considerar sempre H0 como hipótese simples.
A hipótese alternativa ( H1) é, em geral, uma das três seguintes:
H1: µ ≠ 8 - hipótese alternativa bilateral
H1: µ > 8 - hipótese alternativa unilateral (superior)
H1: µ < 8 - hipótese alternativa unilateral (inferior)
Nota: os valores especificados nas hipóteses não devem ter nada a ver com valores
observados na amostra.
Definição: Teste de hipóteses é um procedimento que conduz a uma decisão acerca das
hipóteses (com base numa amostra).
Exemplo: Dispomos de uma amostra de 10 observações: X1, ........ , X10
Faz sentido decidir com base em
X
, aceitando H0 se X estiver próxima de 8 e rejeitando H0
se
X
estiver longe de 8.
região crítica a região de
aceitação
região crítica
"Aceitar" H1 "Aceitar" H0 "Aceitar" H1
Rejeitar H0 Não rejeitar H0 Rejeitar H0
8 – fc 8 8 + fc
25
7. COMPARAÇÃO ENTRE TRATAMENTOS
7.1 TESTE t PARA DUAS AMOSTRAS PAREADAS
O chamado teste t é apropriado para comparar dois conjuntos de dados quantitativos,
em termos de seus valores médios.
H0: µ1 = µ2 e H1: µ1 ≠ µ2
Onde: µ1 é o valor esperado da resposta sob o tratamento 1, e
µ2 é o valor esperado da resposta sob o tratamento 2.
Na abordagem unilateral, a hipótese alternativa é do tipo H1‟: µ1 > µ2 ou H1”: µ1 < µ2.
Exemplo 1: Seja o problema de verificar se um novo algoritmo de busca em um banco de
dados é mais rápido que o atualmente utilizado. Para fazer o teste de comparação, planeja-se
uma amostra aleatória de dez buscas experimentais (ensaios). Em cada ensaio, uma dada
busca é realizada pelos dois algoritmos, o antigo e o novo, e o tempo de resposta de cada
algoritmo é anotado. Observamos que em cada ensaio os dois algoritmos são usados em
condições idênticas, caracterizando dez pares de observações.
As hipóteses podem ser formuladas da seguinte maneira:
H0: em média, os dois algoritmos são igualmente rápidos, e
H1: em média, o algoritmo novo é mais rápido que o em uso.
Ou
H0: µ2 = µ1 e H1: µ2 > µ1
Onde: µ2 é o tempo esperado de resposta do algoritmo novo, e
µ1 é o tempo esperado de resposta do algoritmo atual.
Tabela 1: Tempos de resposta dos algoritmos de busca 1 e 2, em dez ensaios pareados.
ENSAIO TEMPO DE RESPOSTA
ANTIGO X1 NOVO X2 DIFERENÇA D = X2 – X1
1 22 25 3
2 21 28 7
3 28 26 - 2
4 30 36 6
5 33 32 - 1
6 33 39 6
7 26 28 2
8 24 33 9
9 31 30 - 1
10 22 27 5
Fonte: Barbeta, P. A. et al – p. 236
26
Como os dados são pareados, podemos verificar em cada ensaio o quanto um tratamento foi
melhor que o outro, ou seja, analisar a variável:
D = X2 – X1
Em termos da variável D, as hipóteses são descritas como:
H0: µD = 0 e H1: µ D > 0
Onde µD é o valor esperado de D. Dada a mostra, calcula-se a estatística do teste por:
sd
nd
t
.
onde: n é o tamanho da amostra (n
o
de pares);
d
é a média das diferenças observadas; e
sd
é o desvio padrão das diferenças observadas.
Supondo que os valores de D provenham de distribuição aproximadamente normal, o teste
pode ser realizado com a distribuição t de Student com gl = n – 1 graus de liberdade.
Valores de D (última coluna da Tabela 1):
3, 7, -2, 6, -1, 6, 2, 9, -1, 5
Donde:
4,3,10 dn
e
81,3
9
4,310246
..
1
1
2
22
dn
n
ds iid
E, portanto:
sd
nd
t
.
82,2
81,3
10.4,3
Abordagem do valor p: como n = 10, temos gl = 9 graus de liberdade. Tomemos então
a linha gl = 9 (Tabela
da distribuição t de Student), como mostra a tabela 2. Por essa tabela,
obtemos a área associada a um valor maior ou igual a t = 2,82. Como o teste é unilateral, essa
área corresponde ao valor p.
27
Tabela 2: tabela parcial - t de Student
gl ÁREA NA CAUDA SUPERIOR
0,25 0,10 0,05 0,025 0,010 0,005 . . .
. . .
9 0,703 1,383 1,833 2,262 2,821 3,250 . . .
. . .
0 t = 2,82
Figura 1 Uso da distribuição t de Student com gl = 9 para obtenção do valor p, num
teste unilateral, com n = 10 e t = 2,82 (Teste unilateral)
Considerando o nível de significância de 5% (α = 0,05), o teste leva a conclusão de que os
dados mostram evidência suficiente de que H0 é falsa (pois p < α = 0,05) detectando, então,
que o algoritmo novo é, em média, mais rápido que o algoritmo atualmente em uso.
7.2 TESTE t PARA DUAS AMOSTRAS INDEPENDENTES
Exemplo 2: Desejamos verificar se dois catalisadores A e B têm os efeitos diferentes no seu
rendimento de certa reação química. As hipóteses são:
H0: em média, os dois catalisadores são iguais em termos de rendimento, e
H1: em média, os dois catalisadores são diferentes em termos de rendimento
Ou ainda
H0: µ1 = µ2 e H1: µ1 ≠ µ2
Onde
µ1: rendimento esperado com o catalisador A; e
µ2: rendimento esperado com o catalisador B.
Para testar as hipóteses, foram realizados dez ensaios com cada catalisador, em ordem
aleatória. Como ressalta R. A. Fisher, que construiu as bases da estatística experimental: “a
aleatorização dos grupos é fundamental para resguardar a validade de um teste de
significância”.
Dados
observados
t = 2,82
p = 0,010
28
Tabela 3: Rendimentos (%) de uma reação química em função do catalisador utilizado.
CATALISADOR A CATALISADOR B
45 51 50 62 43 45 35 43 59 48
42 53 50 48 55 45 41 43 49 39
Fonte: Barbeta, P. A. et al – p. 239
7.2.1 Estatística do teste para amostras de tamanhos iguais
Dadas as amostras, a estatística do teste toma como base a diferença entre as médias,
21 xx
, mas leva também em consideração o número de elementos em cada amostra e a
variabilidade interna.
Considerando o mesmo número de elementos, n, em cada amostra, a chamada variância
agregada é obtida pela média aritmética das variâncias da cada grupo, ou seja:
2
2
2
2
12 ss
sa
E a estatística do teste é calculada por:
221 2
.
as
n
xxt
Onde
n: tamanho da amostra em cada grupo;
1x
: média da amostra 1;
2x
: média da amostra 2;
2
1s
: variância da amostra 1;
2
2s
: variância da amostra 2;
2
as
: variância agregada das duas amostras.
7.2.2 Estatística do teste para amostras de tamanhos diferentes
No caso de amostras diferentes (n1 ≠ n2), os cálculos devem ser feitos por:
2
11
21
2
22
2
112
nn
snsn
sa
21
21
11
.
nn
s
xx
t
a
Amostra 1: n = 10,
1x
= 49,90 e
2
1s
= 35,656
Amostra 2: n = 10,
2x
= 44,70 e
2
2s
= 42,233
29
Variância agregada:
945,38
2
233,42656,35
2
2
2
2
12
sssa
86,11284,0.2,5
94,382
10
.70,4490,49
2
.
221
as
n
xxt
Graus de liberdade: gl = 2n – 2 = 2(10) – 2 = 18
Abordagem do valor p: O esquema seguinte ilustra o uso da tabela do teste t de Student para
se obter o valor p associado ao t calculado.
Tabela 3: tabela parcial - t de Student
gl ÁREA NA CAUDA SUPERIOR
0,25 0,10 0,05 0,025 0,010 0,005 . . .
. . .
18 0,688 1,330 1,734 2,101 2,552 2,878 . . .
. . .
Os dados observados levaram ao valor t = 1,86, apontando para uma área na cauda superior da
curva entre 0,025 e 0,05. Mas, como o teste t é bilateral (H1: µ1 ≠ µ2), a área deve ser
dobrada para se ter o valor p correto. Veja o esquema a seguir:
- 1,86 0 1,86
Figura 2 Uso da distribuição t de Student (teste bilateral)
Portanto, 0,05 < p < 0,10, o que leva à aceitação de H0 ao nível de significância de 5% pois
(p < α = 0,05)
Abordagem clássica: Mesmo antes de realizar o experimento, podemos buscar na tabela t de
Student com gl = 18 o valor crítico tc, o qual deixa uma área igual a α = 0,05/2 = 0,025 em
cada calda da distribuição (pois o teste é bilateral). Pela tabela de Student temos tc = 2,101,
levando a regra de decisão apresentada a seguir:
- tc 0 tc = 2,101
Aceita H0
Rejeita H0 Rejeita H0
Figura 3 Uso da distribuição t de Student (teste bilateral)
Dados
observados
t = 1,86
Valor p entre
0,05 e 0,10
0,025
0,025
30
Como os dados produziram o valor t = 1,86, o qual pertence à região de aceitação, o teste
aceita H0 ao nível de significância de 5%.
Conclui-se, então, ao nível de significância de 5%, que os dados não comprovam uma
diferença entre os dois catalisadores. Existe uma probabilidade razoável (superior a 5%) de
que as diferenças observadas nos dados experimentais são provenientes de fatores casuais.
7.3 TESTE f PARA DUAS VARIÂNCIAS
Suponha que queremos comparar se duas populações, supostamente com distribuições
normais, têm a mesma variância. Formulamos as hipóteses por:
2
2
2
11
2
2
2
10 :: HeH
onde:
2
1
: variância da população 1; e
2
2
: variância da população 2
A hipótese alternativa também pode ser H1‟: 2
1
>
2
2
ou H1”: 2
1
<
2
2
. Com as amostras
da população 1 e da população 2, a estatística do teste é calculada por:
2
2
2
1
s
s
f
onde:
2
1S
: variância da amostra n1 elementos; e
2
2S
: variância da amostra n2 elementos, considerando 2
1S
>
2
2S
, ou seja, a maior variância
deve ser colocada no numerador.
A distribuição de referencia para este teste é chamada distribuição F com gl = n1 – 1
no numerador e gl = n2 – 1 no denominador, conforme tabela especifica. Assim estabelecido o
nível de significância α, podemos obter fc, que deixa área igual a α/2 na cauda superior da
distribuição (teste bilateral) ou, no caso de teste unilateral, a área igual a α. A regra de
decisão, na abordagem clássica, é dada por:
Se f < fc então Aceita H0;
Se f ≥ fc então Rejeita H0.
Nota: Normalmente calcula-se o f a um nível de significância de (α) 5% e 1% de
probabilidade de erro, ou seja, 95% e 99% de significância.
Exemplo 2 (continuação) Verificamos se há evidências de que os catalisadores A e B tenham
efeitos médios diferentes no rendimento de certa reação química. Vamos verificar, agora, se
eles produzem efeitos diferentes nas variâncias. As hipóteses podem ser:
H0: as variâncias do rendimento são iguais para os dois catalisadores ; e
H1: as variâncias do rendimento são diferentes para os dois catalisadores.
31
Dados os resultados do experimento:
Amostra 1: n1 = 10,
1x
= 49,900 e
2
1s
= 35,656
Amostra 2: n2 = 10,
2x
= 44,700 e
2
2s
= 42,233
No cálculo de f, colocamos a maior variância no numerador, assim:
18,1
656,35
233,42
2
2
2
1
s
s
f
Para obter o valor critico fc, ao nível de significância de 5%, devemos obter área igual a 2,5%
na cauda superior da distribuição F com gl = 9 no numerador e gl = 9 no numerador, o que
acarreta fc = 4,03. Como f < fc, o teste aceita H0.
7.4 COMPARAÇÃO DE VÁRIAS AMOSTRAS (ANOVA)
Testa-se a significância de duas médias através do teste t. Agora vamos aprender a
verificar se há diferenças significativas entre as médias g (g ≥ 2) grupos de observações,
sendo cada grupo formado por resultados de um tratamento.
7.4.1 Amostras Independentes
A análise estatística para a comparação de g grupos in dependentes é tradicionalmente
feita por analise de variância (ANOVA), acompanhada de um teste F, que da mesma forma
que o teste t, supõe:
1. as observações devem ser independentes;
2. as variâncias populacionais devem ser iguais nos g grupos; e
3. a distribuição das observações em cada grupo deve ser normal.
Nota: Para g = 2, o teste F é equivalente ao teste t bilateral. Observamos que os teste F é
robusto com as suposições (2) e (3), ou seja, ele ainda é válido com pequenas violações destas
suposições.
Formalmente têm-se as seguintes hipóteses:
H0: µ1 = µ2 = . . . = µg e H1: µi ≠ µj, para algum i ≠ j
Onde µi representa o valor esperado da resposta sob o tratamento i (i = 1, 2, . . ., g)
Sob H0 Sob H1
32
Figura 5 Suposições sobre as observações em termos de H0 e H1.
Considerando n replicações sob cada tratamento (amostra n elementos de cada grupo,
totalizando N = ng observações), podemos representar os dados pelo seguinte modelo
estatístico:
njgiY ijiij .,..,2,1;.,..,2,1
onde
ijY
é a variável aleatória associada a j-ésima observação do i-ésimo tratamento;
µ é a média global da resposta (independentemente do tratamento);
i
é o efeito do i-ésimo tratamento;
ij
é o efeito aleatório ou erro experimental, o qual é suposto com distribuição
aproximadamente normal, média zero e variância constante.
Considerando o modelo estatístico, o valor esperado da resposta do i-ésimo tratamento é dado
por µi = µ + τi e as hipóteses podem ser escritas como:
H0: τ1 = τ2 = . . . = τg = 0 e H1: τi ≠ 0, para algum i = 1, 2, . . . , g
As observações, as somas e as médias por tratamento são representados por:
Tabela 5: Representações da comparação de Amostras Independentes
REPLICAÇÃO
(concentração)
TRATAMENTO (repetição)
1 2 . . . g
1 y11 y21 . . . yg1
2 y12 y22 . . . yg2
. . . . . . . . . . . . . . .
n y1n y2n . . . ygn
Soma y1· y2· . . . yg·
i
i
yy ..
Média
1y
·
2y
· . . .
gy
·
iy
g
y
i
1
..
Fonte: Barbeta, P. A. et al – p. 250
7.4.2 Experimentos com um único fator a vários níveis.
O que é um fator Variável Independente.
O que é um nível Valor escolhido para o fator.
Análise de variância permite verificar o efeito de vários fatores com diferentes níveis.
Identifica a causa de variabilidade entre as diferentes medições.
Causas: Fatores ou erro.
Replicações: repetição da medição em condições “idênticas”
Exemplo: O que afeta a eficiência de um determinado produto fármaco:
Composição química, temperatura...
Composição química: Percentual de açucares é um fator.
15%, 20%, 30% são níveis.
33
Até agora viu-se como comparar duas situações (ou tratamentos).
Vimos que o teste – t não é adequado para comparar mais de duas situações:
Pode-se ter A + B; B = C e A C
Vamos considerar a situação em que queremos verificar o efeito de 4 diferentes concentrações
de um componente químico na eficiência de um produto fármaco.Cinco observações foram
feitas em cada situação com os seguintes resultados:
Observações
Percentual j = 1 j = 2 j = 3 j = 4 j = 5 Soma Média
i = 1 15 7 7 15 11 9 y1 = 49 <y1> = 9,8
i = 2 20 12 17 12 18 18 y2 = 77 <y2> = 15,4
i = 3 25 14 18 18 19 19 y3 = 88 <y3> = 17,6
i = 4 30 19 25 22 19 23 y4 = 108 <y4 > = 21,6
Total y= 322 <y> = 16,1
Fonte: Dados fictícios
O número de tratamentos ou níveis é g = 4
O número de observações (igual para cada nível neste caso) é n = 5.
Temos no total 20 observações.
Cada uma das 20 observações pode ser escrita como:
ijiijY
i = 1, 2 . . . g representa os tratamentos g = 4 - neste exemplo
j = 1, 2 . . . n representa as replicações n = 5 - neste exemplo
Por exemplo o valor 22 da quarta concentração, terceira repetição é:
y4,3 = µ + τ4 + ε4,3
22 = 16,1 + τ4 + ε4,3
Tabela 6: Cálculos básicos da ANOVA com um fator
Fonte de
Variação
SQ (soma dos
quadrados)
Graus de
liberdade (gl)
Média de
Quadrados
Razão f Calculado
Entre os
tratamentos
SQTratamento
N
y
n
y
SQ i
g
i
Trat
2
..
2
1
g - 1 QMTratamento
Trat
Trat
Trat
gl
SQ
QM
Erro
Trat
Calc
QM
QM
f
Erro (dentro dos
tratamentos)
SQErro
TratTotErro SQSQSQ
N – g =
ng – g =
g(n – 1)
QMErro
Erro
Erro
Erro
gl
SQ
QM
Total SQTotal
N
y
ySQ ij
n
j
g
i
Tot
2
..2
11
N – 1 =
ng – 1
Fonte: Barbeta, P. A. et al – p. 252
34
Determinar se o efeito do tratamento (níveis) é maior do que o erro.
Tabela 7: Resultados da Aplicação
Fonte de
Variação
SQ (soma dos
quadrados)
Graus de
liberdade (gl)
Média de
Quadrados
Razão f Calculado
Entre os
tratamentos
SQTratamento
363,40
g – 1 =
3
QMTratamento
121,1333
15,0945
Erro (dentro dos
tratamentos)
SQErro
128,40
N – g =
16
QMErro
8,025
FTabelado =
3,238867
Total SQTotal
491,8
N – 1 =
19
Se f < fc, estão aceita a H0;
Se f ≥ fc, então rejeita H0.
f = 15,0945
fc = 3,238867
Logo o teste rejeita H0, provando estatisticamente que há diferença entre as quatros
concentrações químicas do componente fármaco.
7.4.5 Experimentos com blocos completamente aleatorizados.
O planejamento com blocos aleatorizados é uma extensão do teste t emparelhado para
situações onde o ator de interesse tem mais de dois níveis, ou seja, mais de dois tratamentos
têm de ser comparados. O procedimento consiste em selecionar b blocos e correr uma réplica
completa do experimento em cada bloco.
Figura 6 Um planejamento com blocos completos aleatorizados.
Tabela 10: Um planejamento com Blocos Completos Aleatorizados
TRATAMENTO
(método)
BLOCOS
1 2 3 4
1 y11 y21 y31 y41
2 y12 y22 y32 y42
3 y13 y23 y33 y43
Suponha que um único fator coma níveis seja de interesse e que o experimento seja corrido
em b bloco. As observações podem ser representadas pelo modo linear estatístico.
bj
ai
Y ijjiij
,...,2,1
...,,2,1
sendo µ a média global,
i
o efeito do i-ésimo tratamento,
j
o efeito do j-ésimo bloco e
ij
o termo do erro aleatório, que é considerado estar distribuído normal e independentemente,
com média zero e variância
2
.
t1
t2
t3
Bloco 1
t1
t2
t3
Bloco
2
t1
t2
t3
Bloco 3
t1
t2
t3
Bloco 4
35
Tabela 11: Um planejamento com Blocos Completos Aleatorizados, tendo a Tratamentos e b Blocos.
BLOCOS
TRATAMENTOS
1 2 . . . a Totais Média
1 y11 y21 . . . y1g y1·
1y
·
2 y12 y22 . . . y2g y2·
2y
·
. . . . . . . . . . . . . . . . . .
b y1b y2b . . . ygh yb·
by
·
Totais y1· y2· . . . yg· y··
Média
1.y
2.y
. . .
gy.
y
··
Tabela 12: Experimento com Blocos Completos Aleatorizados.
Fonte de
Variação
SQ (soma dos quadrados) Graus de
liberdade
(gl)
Média de Quadrados Razão f Calculado
Entre os
tratamentos
SQTratamentos
ab
y
y
b
SQ i
a
i
Trat
2
2
1
1
a - 1 QMTratamento
1
a
SQ
QM TratTrat
Erro
Trat
Calc
QM
QM
f
Entre os
blocos
SQBlocos
ab
y
y
a
SQ j
b
j
Blo
2
2
1
cos
1
b - 1 QMBlocos
1
cos
cos
b
SQ
QM BloBlo
Erro
Bloco
Calc
QM
QM
f
Erro (por
subtração)
SQErro
cosBloTratTotErro SQSQSQSQ
(a – 1)
(b – 1)
QMErro
1) - (b 1) - (a
Erro
Erro
SQ
QM
Total SQTotal
ab
y
ySQ ij
b
j
a
i
Tot
2
2
11
ab – 1
N – 1
Exemplo: Um experimento foi realizado a fim de determinar o efeito de quatro produtos
químicos diferentes sobre a resistência de um tecido. Esses produtos químicos são usados
como parte do processo de acabamento. Cinco amostras de tecidos foram selecionadas e um
planejamento com blocos completos aleatorizados foi realizado, testando cada tipo de produto
químico uma vez, em ordem aleatória, em cada amostra de tecido. Testar as diferenças
médias, usando uma análise de variância, com α = 0,01.
i) Defina as hipóteses a serem testadas:
H0: em média, os quatro produtos químicos são iguais em termos de rendimento; e
H1: em média, os quatro produtos químicos são diferentes em termos de rendimento.
36
Tabela 13: Dados da Resistência do tecido – Planejamento com Blocos Completos Aleatorizados.
Tipo de Produto
Químico
Amostra do Tecido Totais do
Tratamento
Médias dos
Tratamentos
1 2 3 4 5 yi ·
iy
·
1 1,3 1,6 0,5 1,2 1,1 5,7 1,14
2 2,2 2,4 0,4 2,0 1,8 8,8 1,76
3 1,8 1,7 0,6 1,5 1,3 6,9 1,38
4 3,9 4,4 2,0 4,1 3,4 17,8 3,56
Totais do Bloco
y·j
9,2 10,1 3,5 8,8 7,6 39,2 (y..)
Média
jy.
2,30 2,53 0,88 2,20 1,90 1,96 (
..y
)
ANOVA – Quadro Resumo
Fonte de
Variação
SQ (soma dos quadrados) Graus de
liberdade (gl)
Média de
Quadrados
Razão f Calculado
Entre os
tratamentos
18,04 3 6,01 75,13
Entre os
blocos
6,69 4 1,67 fTab0,01; 3;12 = 5,95
Erro (por
subtração)
0,96 12 0,08
Total
25,69 19
Conclusão: Adotando α = 0,01, temos como valor crítico fc = 75,13 > f 0,01; 3;12 = 5,95. Logo,
conclui-se que existe uma diferença significativa nos tipos de produtos químicos desde que
seu efeito na resistência média do tecido seja envolvido.
Exercício: Considere o resultado do rendimento de 5 enzimas submetidas a testes
laboratoriais em blocos completamente aleatorizados. Os testes foram realizados sob 03
temperaturas diferentes com o objetivo de obter-se seu melhor rendimento.
Tratamentos Blocos Aleatórios
I II III IV V
T1 (18%)
14 15 16 16 16
20 19 18 19 19
18 18 18 19 20
T2 (20%)
20 20 19 19 18
25 26 27 23 23
16 17 19 19 19
T3 (22%)
17 17 17 18 18
18 17 16 16 15
13 14 16 17 13
Calcule:
a) ANOVA para um
experimento com Blocos
Completamente
Aleatorizados com (α) 5%
de probabilidade de erro;
b) Defina as Hipóteses
correspondentes;
c) Descreva a conclusão para
cada hipótese.
37
8. TESTE QUI OU CHI QUADRADO DE PEARSON
O teste Qui quadrado permite verificar igualdade (semelhança) entre categorias discretas e
mutuamente exclusivas (por exemplo: diferenças de comportamento entre homens e
mulheres). Cada indivíduo ou item deve pertencer a uma e somente uma categoria.
As seguintes suposições precisam ser satisfeitas:
1. Os dois grupos são independentes
2. Os itens de cada grupo são selecionados aleatoriamente.
3. As observações devem ser freqüências ou contagens.
4. Cada observação pertence a uma e somente uma categoria
5. A amostra deve ser relativamente grande (pelo menos 5 observações em cada célula e
no caso de poucos grupos (2x 2) pelo menos 10)
A hipótese H0 é que não existe diferença entre as freqüências (contagens) dos grupos
A hipótese alternativa é que existe diferença.
Exemplo: Desejamos saber se existe diferença na percepção de homens e mulheres em relação
a uma afirmativa feita.
Homens Mulheres total
Concorda 33 33 66
Neutro 33 33 66
Não
concorda 33 33 66
Total 99 99 198
As categorias são homens e mulheres. Observe que o número total de mulheres é diferente
do número total de homens. Cada item pertence a uma e somente uma destas categorias. Da
mesma forma cada indivíduo poderá responder somente de uma forma.
O resultado deve ser comparado com que seria obtido se não houvesse diferença entre os
grupos. Para ilustrar, vamos supor tivéssemos 99 homens e 99 mulheres na amostra. Neste
caso se os grupos se comportassem igualmente e respondessem igualmente para cada situação
teríamos 33 pessoas em cada célula.
Em geral os grupos não são igualmente distribuídos. O valor esperado de cada célula é uma
proporção do valor total.
Um caso real está abaixo:
Os valores esperados para cada célula são obtidos multiplicando o percentual da coluna pelo
total da linha, isto é, total da linha x (total coluna / total).
Por exemplo: 45,35 = 93 x 79/162
Homens Mulheres total
Concorda 58 35 93
Neutro 11 25 36
Não
concorda 10 23 33
Total 79 83 162
célula
38
Valor esperado
Homens Mulheres total
Concorda 45,35185 47,64815 93
Neutro 17,55556 18,44444 36
Não
concorda 16,09259 16,90741 33
Total 79 83 162
Cálculo do QUI - QUI_TAB 5,99
Homens Mulheres total
Concorda 3,527434 3,357437 6,884871
Neutro 2,447961 2,329987 4,777948
Não
concorda 2,306632 2,195469 4,502101
Total 8,282027 7,882893 16,16492
O valor de chi quadrado para cada célula é a diferença ao quadrado entre o valor esperado e o
valor medido dividido pelo valor esperado. O chi total é a soma dos valores de cada célula.
O valor de chi 2 calculado deve ser comparado com o valor de chi tabelado quanto maior o
valor de chi calculado maior a diferença. Para obter o valor de chi tabelado devemos escolher
o valor do nível de significância (alfa) adequado para a nossa situação.
1. Dez fábricas relatam as peças fabricadas e o respectivo número de refugos. Verifique
se existe diferença entre as linhas de produção.
Linha 1 2 3 4 5 6 7 8 9 10
N. Peças 53 20 22 18 66 46 87 41 26 32
N. Refugo 3 5 9 4 13 4 8 7 5 4
2. Repita o exercício anterior sem a linha de produção 3 . Que conclusão você chega?
39
9. PLANEJAMENTO DE EXPERIMENTOS
9.1 Noções sobre experimentos fatoriais
Experimentos delineados em esquemas fatoriais são aqueles que envolvem
combinações entre os níveis de dois ou mais fatores. Os seus níveis são fixados a priori
segundo o interesse do pesquisador.
Na literatura especializada,
os esquemas fatoriais não são considerados delineamentos
experimentais, mais sim delineamentos de tratamentos. Nesse contexto, cada combinação é
um tratamento. Observe que podemos ter esquemas fatoriais de tratamentos delineados
experimentais inteiramente casualizados, em blocos casualizados, em quadrados latinos e
assim por diante. Para nossos propósitos, os tratamentos têm o apelo de ensaios ou provas.
Se todas as combinações possíveis, entre todos os níveis de cada fator, estão presentes,
o esquema fatorial é dito completo. Em outros casos temos um esquema fatorial incompleto.
Eles são constituídos de frações bem determinadas de fatoriais completos e são de grande
valia na seleção dos níveis e/ou dos fatores de estudo.
Assim, por exemplo, num delineamento inteiramente casualizado com dois fatores,
cada qual com dois níveis, digamos fator A = temperatura, com níveis “1” e “2” e B = pH,
com níveis “1” e “2”, temos a seguinte combinação, tratamentos ou ensaios:
A1 B1 A1 B2
A2 B1 A2 B2
Se A tem três níveis e B tem dois níveis, vem:
A1 B1 A1 B2
A2 B1 A2 B2
A3 B1 A3 B2
Se ambos tem três níveis:
A1 B1 A1 B2 A1 B3
A2 B1 A2 B2 A2 B3
A3 B1 A3 B2 A3 B3
Seja K o número de fatores em estudo, cada qual com N níveis, denota-se um esquema
fatorial completo por N
K
. Como pode ser visto na tabela 1, o número de ensaios cresce
exponencialmente, praticamente inviabilizando a utilização de esquemas completos para 6 ou
mais fatores com 2 níveis e para 4 ou mais fatores com 3 níveis.
40
Tabela 1 – Número de ensaios, tratamentos ou combinações de alguns esquemas fatoriais completos.
Níveis
Fatores
k = 2 k = 3 k = 4 k = 5 k = 6 k = 7 ... k = K
2 2
2
= 4 2
3
= 8 2
4
= 16 2
5
= 32 2
6
= 64 2
7
= 128 ... 2K
3 3
2
= 9 3
3
= 27 3
4
= 81
3
5
=
243
3
6
=
729
3
7
= 2187 ... 3K
... ... ... ... ... ... ... ... ...
N N
2
N
3
N
4
N
5
N
6
N
7
... NK
9.1.2 Como variar tudo ao mesmo tempo
Um dos problemas mais comuns que um experimentador pode enfrentar é a
determinação da influência de uma ou mais variáveis sobre outra variável de interesse. Por
exemplo: ao estudar uma certa reação química, pode-se estar querendo saber como o
rendimento final seria afetado se ele, digamos, variasse a temperatura e/ou usasse um
catalisador diferente. No jargão estatístico, dizemos que ele está interessado em descobrir
como a resposta (o rendimento da reação) depende de dois fatores mencionados, a
temperatura e o catalisador. Esse problema pode ser encarado como um acaso particular da
situação geral mostrada esquematicamente na figura 2, em que um certo número de fatores,
F1, F2, ..., Fk, atuando sobre o sistema em estudo, produz as respostas R1, R2, ..., Rj. O sistema
é considerado como uma função (desconhecida, em princípio, senão não precisávamos de
experimentos) que atua sobre as variáveis de entrada (os fatores) e produz como saída às
respostas observadas. O objetivo da pessoa que realiza os experimentos é descobrir essa
função, ou pelo menos obter uma aproximação satisfatória para ela.
Figura 1 Um sistema pode ser considerado como uma função (em princípio desconhecida)
ligando os fatores (variáveis de entrada) às respostas (variáveis de saída).
A primeira coisa a fazer, no planejamento de um experimento, é determinar quais são
os fatores e as respostas de interesse para o sistema que se deseja estudar. Os fatores, isto é, as
variáveis controladas pelo experimentador, tanto pode ser qualitativos (como o tipo de
catalisador) como quantitativos (como a temperatura). Dependendo do problema, pode haver
mais de uma resposta de interesse. Eventualmente essas respostas também podem ser
qualitativas.
Em seguida, é preciso definir claramente que objetivo se pretende alcançar com os
experimentos, porque isso determinará que tipo de planejamento experimental deve ser
utilizado. O experimentador pode estar apenas pretendendo saber, por exemplo, se o
rendimento da reação será afetado ou não por uma mudança de catalisador. Ou então pode
estar querendo descobrir a que temperatura o rendimento alcançará seu valor máximo.
Sistema
Resposta
R1
R2
Rj
Fatores
F1
F2
Fk
41
UNIVERSIDADE DO OESTE DE SANTA CATARINA
UNOESC - CAMPUS VIDEIRA
ACET – CURSO DE SANITÁRIA E AMBIENTAL
PROFESSOR: DIRCEU SCARATTI
Disciplina: Probabilidade e Estatística
TRABALHO FINAL DA DISCIPLINA – G2
O PLANEJAMENTO DE UMA PESQUISA
Aspectos Gerais
Para que os resultados de uma análise estatística de dados produzam informações úteis, os dados
precisam ser coletados de forma planejada. A figura 1 mostra as principais etapas de uma pesquisa,
enfatizando que os métodos estatísticos precisam ser pensados ainda na fase do planejamento da
pesquisa.
Figura 1 Etapas usuais de uma pesquisa empírica.
Fonte: Barbetta, A.R; Reis, M.M.; Bornia, C.A (Estatística pra cursos de e Informática)
Metodologia
da área de
estudos
Metodologia
Estatística
Definição do Problema e objetivos
Planejamento da Pesquisa
Execução da Pesquisa
Dados
Análise dos Dados
Resultados
Conclusões
42
Embora a figura 1 ilustre as etapas da pesquisa em seqüência, na fase do planejamento
é necessário também pensar na forma de análise dos dados, pois, dependendo da análise
estatística que se deseja fazer, o projeto da pesquisa deve ter suas peculiaridades.
Em função dos problemas e dos objetivos da pesquisa, devemos decidir entre uma
pesquisa observacional e uma pesquisa experimental. Numa pesquisa observacional (ou de
levantamento) as características de uma população são levantadas (observadas ou medidas),
mas sem manipulação. É o caso do censo demográfico, pesquisas eleitorais, pesquisas de
mercado, inspeção da qualidade, etc. em todos esses casos, procura-se ter idéia de certa
população tal qual ela é na natureza ou no processo.
Nas pesquisas experimentais, grupos de indivíduos (ou animais, ou objetos) são
manipulados para se avaliar o efeito de diferentes tratamentos. É o caso de se verificar o
rendimento de um processo químico para diferentes temperaturas de reação, que são
manipuladas de acordo com o interesse prático.
ETAPAS DO LEVANTAMENTO ESTATÍSTICO
1. Introdução à estatística e a aplicação específica no trabalho
2. Definir o problema e seus objetivos
3. Planejar a pesquisa definindo a amostra e as variáveis a serem levantadas
(metodologia)
4. Executar a pesquisa
5. Tratar os dados
Dispor os dados em ROL
Gerar histograma e polígono de freqüência
Definir as medidas de tendência central (moda, mediana e média)
Definir medidas de dispersão (intervalo, variância, desvio padrão, coeficiente de variação)
6. Analisar dos dados – Realizar a ANOVA
Testes t de Student ou Teste F, conforme o caso,
Comparação para experimentos com único fator – Definir e testar as Hipóteses (Nível de
significância de 5%)
Análise de resíduos,
Blocos – Definir e testar as Hipóteses e (se aplicável) (Nível de significância de 5%)
Realizar os Testes de Média (Tukey e Duncan para 5%)
7. Considerações finais (Conclusão e recomendações)
8. Bibliográficas
Desenvolvimento do Trabalho – 06/10 a 13/11 de 2009
Entrega do Trabalho final – 20 de novembro de 2009 impreterivelmente
Grupo de no mínimo 2 e no máximo 3 acadêmicos
Orientações dos trabalhos de 06/10 a 06/11/2009 após o intervalo das aulas às sextas
feiras
Formato do trabalho – Normas ABNT
43
ANEXOS I
44
45
46
47
48
9. TESTES DE TUKEY E DUNCAN
49
50
51
ANEXOS II
52
53
54
55
EXERCÍCIO
56
57