Esta é uma pré-visualização de arquivo. Entre para ver o arquivo original
1 UNIVERSIDADE DO OESTE DE SANTA CATARINA UNOESC - CAMPUS VIDEIRA ÁREA DE CIÊNCIAS EXATAS E DA TERRA CURSO DE ENGENHARIA SANITÁRIA E AMBIENTAL PROBABILIDADE E ESTATÍSTICA Professor: Dr. Dirceu Scaratti VIDEIRA, JULHO DE 2009. 2 1. POPULAÇÃO E AMOSTRA A Estatística tem por objetivo o estudo dos fenômenos coletivos e das relações que existem entre eles. Entende-se como fenômeno coletivo àquele que se refere à população, ou universo, que compreende um grande número de elementos, sejam coisas ou pessoas. A população – N: pode ser segundo o seu tamanho, finita ou infinita, porém, na prática nunca encontraremos populações com infinitos elementos, (populações com grande número de componentes), populações muito grandes são estudadas por amostragem. Amostra - n: é uma parte representativa de todo ou do universo; ou, em outros termos, “é o grupo de elementos selecionados com a intenção de descobrir algo a respeito da população de que fazem parte”. Todo subconjunto não vazio e menor do que a população constitui uma amostra dessa população. Variável Discreta - V.D.: é uma representação inteira. Ex.: 1.200 frangos, 800 veículos. Variável Contínua - V.C.: é uma representação que permite assumir qualquer valor entre dois valores fixos. Ex.: Peso, estatura, temperatura. Variável Nominal - V.N.: é uma representação em forma de atributo por categorias. Ex.: Cores (azul, branco. . .) Cursos (Gestão de Trânsito e Transporte, Saneamento Ambiental . . .). Variável Por Posto - V.P.: é uma representação em forma de atributo qualitativo por ordem. Ex.: 1º, 2º, 3º, . . . 1.1 TÉCNICAS DE AMOSTRAGEM A amostragem é extrair de um todo (população), uma parte (amostra), com propósito de avaliarmos (inferirmos) a parte representativa desse todo. Nas pesquisas científicas, em que se quer conhecer algumas características de uma população, é comum observar apenas uma amostra de seus elementos e, a partir desses resultados obter um a estimativa. Esse tipo de pesquisa é usualmente chamado de levantamento por amostragem. Conceito População: conjunto de elementos passíveis de serem mensurados, com respeito às variáveis que se pretende levantar. Por que amostragem? Quatro razões para o uso de amostragem em levantamento de grandes populações: Economia; Tempo; Confiabilidade de Dados; Operacionalidade. Quanto o uso de amostragem não é interessante? Três situações em que pode não valer a pena a realização de uma amostragem: População Pequena; Características de Fácil Mensuração; Necessidade de alta precisão. 3 AMOSTRAGEM População: eleitores brasileiros. INFERÊNCIA 1.1.1 Amostragem Aleatória Simples A amostragem aleatória simples tem a seguinte propriedade: qualquer subconjunto da população, com o mesmo número de elementos, tem a mesma probabilidade de fazer parte da amostra. Em particular, temos que cada elemento da população tem a mesma probabilidade de pertencer à amostra. 1.1.1.1 Outros Tipos de Amostragem Aleatória Amostragem sistemática Uma amostra sistemática poderá ser tratada como uma amostra aleatória simples se os elementos da população estiverem ordenados aleatoriamente, e a relação n N é chamada de intervalo de seleção. Amostragem estatística estratificada Subgrupo 1 da amostra Subgrupo 2 da amostra amostra ... estratificada Subgrupo k da amostra Amostragem estratificada proporcional: se um estrato corresponde a 20% da população, ele também deve corresponder a 20% da amostra. Estrato 1 Estrato 2 ... Estrato K Amostra: uma parte dos eleitores 4 20% 20%60% 1.1.2 Cálculo do tamanho de uma amostra aleatória simples Para determinação do tamanho da amostra, o pesquisador precisa especificar o erro amostral tolerável, ou seja, o quanto ele admite errar na avaliação dos parâmetros de interesse. Chamamos de erro amostral a diferença entre o valor que a estatística pode acusar e o verdadeiro valor do parâmetro que se deseja estimar. Fórmula para o cálculo do tamanho mínimo para a amostra Sejam: N – tamanho (número de elementos) da população; n – tamanho (número de elementos) da amostra; n0 – uma primeira aproximação para a o tamanho da amostra e E0 – erro amostral tolerável. Um primeiro cálculo do tamanho da amostra pode ser deito mesmo sem conhecer o tamanho da população, através das seguintes expressões: Conhecendo o tamanho N da população, podemos corrigir o cálculo anterior, por: Exemplo 1: Planeja-se um levantamento por amostragem para avaliar diversas características da população das N = 200 famílias moradoras de certo bairro. Estas características (parâmetros) são especialmente do tipo percentagem, tais como, a percentagem de famílias que usam programas de alimentação popular, a percentagem de famílias que mora em casa própria, etc. qual deve ser o tamanho mínimo de uma amostra aleatória simples, tal que possamos admitir, com alta confiança, que os erros amostrais não ultrapassem 4% (E0=0,04)? Solução: uma primeira aproximação: famílias 625 04,0 1 20 n 2 0 0 1 E n 0 0 nN nN n 20% 20%60% População total Amostra 5 Corrigindo, em função do tamanho N da população, temos: Exemplo 2: Considerando os objetivos e os valores fixados no exemplo anterior, qual deveria ser o tamanho da amostra se a pesquisa fosse ampliada para todo o município, que contém N = 200.000 famílias residentes? Solução: O valor de n0 continua no mesmo caso anterior (n0 = 625), pois n0 independe de N. Fazendo a correção em termos do novo valor de N, temos: 1.1.3 Cálculo do tamanho de uma amostra – Proporção (População infinita) Deseja-se calcular a prevalência de reações positivas em um determinado ensaio laboratorial de controle da qualidade de produtos cárneos. Quantos ensaios serão necessários na amostra para que se possa calcular a prevalência, com uma precisão de 5% do valor real com uma confiança de 95%, sabendo-se que é pouco provável que a verdadeira taxa exceda a 20%? Cálculos: = 100 – 95 = 5% (0,05) /2 = 0,025 Z (/2) = z (0,025) = 1,96 P = 20% (0,20) E = 5% = 0,05 1.1.4 Cálculo do tamanho de uma amostra – Proporção (População finita) Deseja-se estimar a proporção de pessoas favoráveis (N=400) a um determinado tipo de tratamento. Sabendo-se que numa pesquisa piloto, esta proporção foi de 7%, qual deve ser o tamanho mínimo da amostra para que um pesquisador possa estimar a proporção verdadeira com um nível de confiança de 95% e um erro amostral de 5%? famílias 152 825 125000 625200 625200 n famílias 623 625200000 625200000 n 2 2 E p1p2/ n Z 246 )05,0( )]20,0(1[x)20,0(x96,1 n 2 2 )p1(px)2/()1N(E Nxp1p2/ n Z Z 22 2 6 Cálculos: = 100 – 95 = 5% (0,05) /2 = 0,025 Z (/2) = z (0,025) = 1,96 P = 7% (0,07) E = 5% = 0,05 1.1.5 Cálculo do tamanho de uma amostra – Estimação de média (População infinita) Qual deve ser o tamanho mínimo de uma amostra que será utilizada na estimação da idade média de uma população muito grande, de pessoas adultas, sabendo-se, por exemplo, que o desvio padrão é de 5 anos? Adotar o Intervalo de Confiança (IC) de 95% e o E de 1 ano. Cálculos: = 100 – 95 = 5% (0,05) /2 = 0,025 Z (/2) = z (0,025) = 1,96 σ = 5 anos E = 1 ano 1.1.6 Cálculo do tamanho de uma amostra – Estimação de média (População finita) Qual deve ser o tamanho mínimo de uma amostra que será utilizada na estimação da idade média de uma população N = 400, de pessoas adultas, sabendo-se, por exemplo, que o desvio padrão é de 5 anos? Adotar o Intervalo de Confiança (IC) de 95% e o E de 1 ano. Cálculos: = 100 – 95 = 5% (0,05) /2 = 0,025 Z (/2) = z (0,025) = 1,96 σ = 5 anos E = 1 ano 2,80 )]07,01(x07,0x)96,1[()1400(x)05,0( 400x)]07,0(1[x)07,0(x96,1 n 22 2 2 E 2/Z n 97 1 5x)96,1( n 2 22 2 )x2/Z()1N(E Nx)2/Z( n 78 )5x96,1()1400(1 400x)5x96,1( n 22 2 7 2. FERRAMENTAS BÁSICAS DE CÁLCULO ESTATÍSTICO 2.1 DADOS BRUTOS Quando se faz „n‟ observações diretas em um fenômeno coletivo ou observam-se as respostas a uma pergunta em uma coleção de „n‟ questionários, obtém-se uma seqüência de „n‟ valores numéricos. Tal seqüência é denominada dados brutos. Representando por X a característica é observada no fenômeno coletivo ou na pergunta do questionário, estão x1 representa o valor da característica obtida na primeira observação do fenômeno coletivo ou o valor da característica observado no primeiro questionário; x2 representa o valor da característica X na Segunda observação do fenômeno coletivo ou o valor da característica X observada no segundo questionário e assim sucessivamente. Desta forma, os dados brutos podem ser representados por X: x1, x2, x3, ..., xn. Esta seqüência de valores apresenta-se de modo completamente desordenada. De modo geral, pode-se afirmar que: Dados Brutos é uma seqüência de valores numéricos não organizados, obtidos diretamente da observação de um fenômeno coletivo. 2.2 ROL É o arranjo dos dados brutos em ordem de grandeza crescente ou decrescente. Ex: Uma farmácia verificou o grau de satisfação de seus clientes com as seguintes notas 7, 5, 9, 8, 7, 6, 9. Neste exemplo, X representa as notas e pode ser apresentada na forma: X: 7, 5, 9, 8, 7, 6, 9 (Dados Brutos) Ou X: 5, 6, 7, 7, 8, 9, 9 (Rol) ou X: 9, 9, 8, 7, 7, 6, 5 (Rol) EXERCÍCIOS Construa o Rol para a seqüência de dados brutos: 1- A: 5, 6, 3, 8, 2, 7, 4 2 – B: 2,4 ; 3,1 ; 5,3 ; 2,9 ; 4,5 ; 0,8 ; 3,6 3 – C: 3, 3, 6, 5, 5, 7, 8, 6, 6, 5 8 2.3 NOTAÇÃO SIGMA – n i ix 1 Muitos dos processos estatísticos (a maioria) exigem o cálculo da soma de um conjunto de números. Usa-se a letra maiúscula grega para denotar a soma. Assim, se uma variável x tiver os valores 1, 5, 6 e 9, então x= 21. Analogamente, se as despesas y com um produto forem $8,82 em janeiro, $12,01 em fevereiro e $2,10 em março, então y= $22,93 Exemplo 1 - Se os valores de x são 2, 4, 5, 6 e 8 calcule: a) x; b) x 2 ; c) (x) 2 . Solução: a) x = 2+4+5+6 +8 = 25 b) x 2 = 2 2 +4 2 +5 2 +6 2 +8 2 = 4+16+25+36+64 = 145 c) (x) 2 = 25 2 = 625 Se apenas uma parte dos valores é que deve ser somada, usam-se índices para indicá- los. Assim, 5 1i ix significa a soma dos valores da variável x começando com o primeiro (i=1) e terminando com o quinto (i=5): 5 1i ix = x1 + x2 + x3 + x4 + x5 n i ix 1 significa que devemos somar n (todas) observações; costuma-se escrever abreviadamente como Xi ou X. Exemplo 2 – Utilizando os dados apresentados, calcule: Lê-se: “somatório de xi, para i variando de 1 a n” ou “soma de xi, para i variando de 1 a n“ O primeiro elemento dos termos a serem somados i é uma observação individual da série. x é o nome dos termos a serem somados é a instrução para somar n é o último elemento a ser somado Escores Cada número de x é um escore 9 Dados: a) 2 1i ix b) 4 2i ix c) 11 7i ix d) ix Solução: a) 2 1i ix 8+2=10 b) 4 2i ix 2+3+6=11 c) 11 7i ix 9+4+5+4+1=23 d) ix 8+2+3+6+7+8+9+4+5+4+1=57 Trabalhando em sentido inverso, podemos utilizar esse método para abreviar a soma de um conjunto de dados: 1) x1+ x2 + x3 se escreve 3 1i ix 2) x8 + x9 + x10 + x11 se escreve 11 8i ix Às vezes é possível simplificar uma soma, levando em conta uma ou mais dentre as propriedades seguintes: 1) Quando cada valor de uma variável deve ser multiplicada ou dividida por uma constante, essa constante pode ser aplicada após os valores serem somados. cx = c x i xi 1 2 3 4 5 6 7 8 9 10 11 8 2 3 6 7 8 9 4 5 4 1 57 a b c 10 Assim, 4 1 2 i ix = 2x1+ 2x2+ 2x3+ 2x4 = 2 (x1+x2+x3+x4) = 2 4 1i ix Por exemplo: 3(2)+3(8)+3(4) = 3(2+8+4) = 42 2) A soma de uma constante (isto é, uma constante somada n vezes) é igual ao produto da constante pelo número n de vezes que ela ocorre. n i ci 1 = nc Por exemplo: 6 1 5 i i = 5+5+5+5+5+5 = 30 ou 6(5) = 30 3) A soma de uma soma (ou diferença) de duas variáveis é igual à soma (ou diferença) das somas individuais das duas variáveis: n i ii yx 1 2 )( = n i ix 1 2 + n i iy 1 n i ii yx 1 2 )( = n i ix 1 2 – n i iy 1 Por exemplo: (x-y) = 9 x - y = 20-11 = 9 EXERCÍCIOS 1) Calcule as seguintes expressões: (n é o número de observações) a) Y b) 2Y c) 2 Y i x y (x-y) 1 2 3 4 8 3 4 5 5 2 0 4 3 1 4 1 20 11 9 y 12 8 7 9 10 22 5 17 11 2) Calcule as seguintes quantidades: a) ix b) if c) ii xf d) 2 ii xf 3) Sendo Calcular: a) x b) y c) xy d) 2x e) yx f) 1x i fi xi 1 2 3 4 5 6 5 7 9 13 6 4 10 11 14 18 22 25 x: 3 5 7 9 10 12 16 20 y: 2 4 6 8 11 13 17 21 12 3. PROBABILIDADE (NOÇÕES BÁSICAS) 3.1 INTRODUÇÃO A probabilidade de que um evento “A” ocorra é igual ao número de casos favoráveis a ocorrência de “A” dividido pelo número total de casos possíveis. P(A) = n nA Exemplo: Uma caixa contém 3 peças perfeitas e 2 defeituosas. Retirando-se uma peça de forma aleatória, qual a probabilidade de que seja perfeita? S = { P1, P2, P3, D1, D2 } A = Peça perfeita P(A) = 5 3 = 0,60 60% Exemplo: No lançamento de um dado, qual a probabilidade de ocorrência de uma face par? A = face par Espaço Amostral P(A) = 6 3 = 0,50 50% Quanto maior o número de repetições de uma experiência, maior será a aproximação entre a freqüência relativa de ocorrência de um evento e a sua probabilidade teórica. Exemplo: No lançamento de 2 dados qual a probabilidade de que a soma dos pontos seja 7? Espaço Amostral 1 2 3 4 5 6 1 2 3 4 5 6 2 2 3 4 5 6 3 2 3 4 5 6 4 2 3 4 5 6 5 2 3 4 5 6 6 2 3 4 5 6 2 3 4 5 6 2 3 4 5 6 2 3 4 5 6 2 3 4 5 6 2 3 4 5 6 2 3 4 5 6 x x x x x x A = 7 pontos P(A) = 6 1 36 6 = 0,1667 16,67% Pode ser calculado por: adição ou produto 13 3.2 REGRA DE ADIÇÃO Se 2 eventos são tais que: a ocorrência de um impede a ocorrência do outro, eles são denominados mutuamente exclusivos. A probabilidade de ocorrência de um (ou) do outro é determinada através da adição das probabilidades individuais. P (A B) = P(A) + P(B) Exemplo: Na retirada de um a carta de um baralho comum, qual a probabilidade de que seja rei ou valete? Espaço Amostral Carta Naipe A 1 2 3 4 5 6 7 8 9 10 J Q K ouro X X copa X X espada X X pau X X Pela fórmula inicial: A = rei ou valete P(A) = n na P(A) = 52 8 = 0,1538 15,38% Pela fórmula da adição: A = rei B = valete P(A B) = P(A) + P(B) P (A B) = 52 4 + 52 4 = 52 8 = 0,1538 Se dois eventos podem ocorrer ao mesmo tempo durante a realização de uma experiência, a probabilidade de ocorrência de um ou do outro é determinada pela seguinte fórmula: P(A B) = P(A) + P(B) – P (A B) P(A B) = probabilidade de ocorrência de ambos. Exemplo: Na retirada de uma carta de um baralho comum, qual a probabilidade que seja um rei ou uma carta de copas? 14 Espaço Amostral Carta Naipe A 1 2 3 4 5 6 7 8 9 10 J Q K copa X X X X X X X X X X X X X X espada X pau X ouro X Fórmula inicial: A = rei ou copas P(A) = 52 16 = 0,3077 30,77% Fórmula da adição: A = rei B = copas P(A B) = P(A) + P(B) – P(A B) P(A B) = 13 4 26 8 52 16 52 1 52 13 52 4 0,3077 30,77% 3.3 REGRA DE MULTIPLICAÇÃO Se dois eventos podem ocorrer ao mesmo tempo quando uma experiência é realizada e a ocorrência do segundo independe do fato de que o primeiro tenha ocorrido, eles são denominados eventos independentes. A probabilidade de ocorrência de ambos (um “e” outro) é determinada através do produto das probabilidades individuais. P(A B) = P(A) . P(B) Exemplo: No lançamento de um dado duas vezes, qual a probabilidade de que a face 1 ocorra nas duas situações? Espaço Amostral Fórmula inicial: A = face 1, face 1 P(A) = 36 1 = 0,0278 2,78% 1 2 3 4 5 6 1 2 3 4 5 6 2 2 3 4 5 6 3 2 3 4 5 6 4 2 3 4 5 6 5 2 3 4 5 6 6 2 3 4 5 6 2 3 4 5 6 2 3 4 5 6 2 3 4 5 6 2 3 4 5 6 2 3 4 5 6 2 3 4 5 6 x 15 Regra da multiplicação A = face 1 no primeiro lançamento B = face 1 no segundo lançamento P(A B) = 36 1 6 1 6 1 = 0,0278 2,78% Se a ocorrência do segundo evento depende do fato de que o primeiro tenha ocorrido, os eventos são considerados dependentes. A probabilidade de ocorrência de ambos (um e outro) é determinada pela seguinte fórmula: P(A B) = P(A) . P(B/A) Prob. de ocorrência de B considerando que A tenha ocorrido Prob. de ocorrência de A Exemplo: Uma caixa contém 3 peças perfeitas e 2 defeituosas. Retirando-se duas peças sem reposição, qual a probabilidade de que ambas sejam perfeitas. S = { P1, P2, P3, D1, D2 } Fórmula inicial !! ! xnx n C xn 2 60 1212 12345 !35!2 !52 5 xxx xxxx C 30% P(A B) = P(A) . P(B/A) P(A B) = 20 6 4 2 5 3 = 0,30 30% EXERCÍCIOS Uma caixa contém cinco moedas, sendo três de ouro e duas de prata. A caixa também conte sete medalhas, sendo quatro de prata. 1. Retirando-se apenas uma peça, de forma aleatória, qual a probabilidade de que: a) Seja uma peça qualquer de ouro? b) Seja uma moeda? c) Não seja medalha de prata? 2. Retirando-se apenas uma peça, qual a probabilidade de que seja: a) uma medalha de ouro ou uma moeda de prata? b) Uma moeda, ou uma peça qualquer de ouro? 16 3. Retirando-se duas peças, sem reposição, qual a probabilidade de que: a) Ambas sejam de ouro? b) Ambas sejam moedas? 4. Uma caixa contém 5 bolas verdes, 4 brancas e 3 pretas. a) Retirando-se uma bola, qual a probabilidade de que: Seja branca? Não seja preta? Seja branca ou preta? 5. Retirando-se 2 bolas, sem reposição, qual a probabilidade de que: Ambas sejam verdes? A primeira seja branca e a Segunda preta? Uma seja branca e a outra preta? Ambas sejam da mesma cor? Considerando que os jogos da loteria esportiva sejam equilibrados, qual a probabilidade de acerto dos 13 pontos com um palpite triplo e um duplo. Nos demais jogos considerando palpite simples. Coluna 1 Coluna do meio Coluna 2 01 X X X 02 X X 03 X 04 X 05 X 06 X 07 X 08 X 09 X 10 X 11 X 12 X 13 X P = SDT 3 1 3 2 3 3 P = 1111 3 1 3 2 3 3 P = 1 . 441.531 2 177147 1 3 2 17 4. MEDIDAS DE TENDÊNCIA CENTRAL As medidas de tendência central são usadas, para indicar um valor que tende a tipificar, ou a representar melhor, um conjunto de números. As três medidas mais usadas são a média, a mediana e a moda. 4.1 A MÉDIA 4.1.1 A média aritmética A média de uma amostra é representada pelo símbolo X (lê-se “x barra”), e seu cálculo pode expressar-se em notação sigma como segue: n n i ixx 1 ou simplesmente n x x ou N x 4.1.2 A média ponderada A fórmula para o cálculo é: Média ponderada = n i i n i ii w xw 1 1 Exemplo: Um estudante que obtém 80 no primeiro exame, 90 no segundo, e 96 no exame final, terá que média final? Exame Nota Peso nº 1 80 0,30 nº 2 90 0.30 Final 96 0,40 1,00 onde: wi é o peso da observação de ordem i. Média Ponderada: 4,89 40,030,030,0 9640,09030,08030,0 xxx 18 4.2 A MEDIANA Uma segunda medida do meio de um conjunto de números é a mediana. Sua característica principal é dividir um conjunto ordenado de dados em dois grupos iguais; a metade terá valores inferiores à mediana, a outra metade terá valores superiores à mediana. Para calcular a mediana, é necessário primeiro ordenar os valores (comumente) do mais baixo ao mais alto. Em seguida, conta-se até a metade dos valores para achar a medida. Em geral, a mediana ocupa a posição 2 )1( n . Exemplo: X = { 7, 8, 9, 10 }. De acordo com nossa fórmula, a posição da mediana ( 4 + 1) 2 = 2,5; que está a meio caminho dos dois valores médios, ou seja, 8,5 neste caso, este valor deixa dois valores abaixo e dois acima. Uma medida estreitamente relacionada com a mediana é o quartil . Os quartis dividem conjuntos ordenados em 4 partes iguais: 25% dos valores serão inferiores ao 1º quartil (Q1), 50% serão inferiores ao segundo quartil ( Q2= mediana), 75% serão inferiores ao terceiro quartil (Q3), e 25% serão superiores ao terceiro quartil. Exemplo: Determine, por inspeção, os quartis dos seguintes conjuntos de dados: 4.3 A MEDIANA E A AMPLITUDE INTER-QUARTIS Adicionalmente, os quartis inferior e superior, Q1 e Q3, são definidos como os valores abaixo dos quais estão um quarto e três quartos, respectivamente, dos dados. Estes três valores são freqüentemente usados para resumir os dados juntamente com o mínimo e o máximo. Eles são obtidos de forma aproximada, ordenando os dados do menor para o maior, e então conta-se o número apropriado de observações: ou seja é 4 )1( n , 2 )1( n e 4 )1( 3 n para o quartil inferior, mediana e quartil superior, respectivamente. Para um número par de observações, a mediana é a média dos valores centrais (e analogamente para os quartis inferior e superior). 4.5 A MODA A moda é o valor que ocorre com maior freqüência em um conjunto: Exemplo: Dados nos números: 9, 9, 8, 6, 7: há dois nove; portanto, nove é a moda. A moda funciona como medida descritiva quando se trata de contar dados. A moda indica o valor “típico” em termos da maior ocorrência. a) 1 2 3 4 Q1 Q2 Q3 b) 2 3 5 8 9 12 13 15 Q1 Q2 Q3 19 5. MEDIDAS DE DISPERSÃO São necessários dois tipos de medidas para descrever adequadamente um conjunto de dados. Além da informação quanto ao “meio” de um conjunto de números, é conveniente dispormos também de um método que nos permita exprimir a dispersão. As medidas de dispersão indicam se os valores estão relativamente próximos uns dos outros, ou separados. Esta situação é ilustrada esquematicamente na figura abaixo: a) pequena dispersão b) grande dispersão c) Internações X Leitos de UTI 0 50 100 150 200 250 300 350 400 450 500 0 2 4 6 8 10 12 14 Leitos de UTI No In te rn aç õe s A dispersão mede quão próximos, uns dos outros, estão os valores de um grupo. Consideram-se quatro medidas de dispersão: o intervalo; o desvio médio; a variância; o desvio padrão. Todas elas, exceto o (intervalo) têm na média o ponto de referência. Em cada caso, o valor zero indica ausência de dispersão; a dispersão aumenta à proporção que aumenta o valor da medida (intervalo, variância, etc.). 20 5.1 O INTERVALO O intervalo de um grupo de números é, de modo geral, a medida mais simples de calcular e de entender. Focaliza o maior e o menor valor no conjunto (ou seja, os valores externos). O intervalo pode se expresso de duas maneiras: 1ª) a diferença entre o maior e o menor valor; 2ª) o maior e menor valor no grupo. A vantagem de utilizar o intervalo como medida de dispersão reside no fato de o intervalo ser relativamente fácil de calcular mesmo para um grande conjunto de números. A maior limitação do intervalo é o fato de ele só levar em conta os dois valores extremos de um conjunto, nada informando quanto aos outros valores. 4.2 MEDIDAS DE DISPERSÃO QUE TÊM A MÉDIA COMO PONTO DE REFERÊNCIA Em razão de suas propriedades matemáticas, quase sempre se calcula a média de um conjunto de dados. Por isso, existem várias medidas de dispersão que têm a média como ponto de referência. Todas elas requerem o cálculo do desvio, ou diferença entre cada valor e a média, xxi . 1º) Desvio Médio (DM): Mede o desvio médio dos valores em relação à média do grupo, ignorando o sinal do desvio. Ao calcular o desvio médio, é necessário levar em conta o fato de que a soma dos desvios positivos e negativos, a contar da média, será sempre (por definição) igual a zero. Calcula-se então o desvio médio absoluto pela fórmula seguinte: n xx DM i Tomemos os valores absolutos dessas diferenças e somemos: 4 + 2 + 0 + 2 + 4 = 12 = xxi Desvio Médio: 4,2 5 12 n xxi onde: n é o número de observações no conjunto. 21 2º) Variância A variância é uma medida do espalhamento da distribuição ao redor da média, e é calculado primeiro pela soma dos desvios quadrados da média, e dividindo-a pelo número de observações (se os dados representam a população toda) ou por este número, reduzido por um (se os dados representam uma amostra) Calcula-se pela fórmula: 1 2 2 n xx Sx i Exemplo: Calcule a variância da amostra 2; 4; 6; 8; 10 Solução: a média ( x ) é 6 6 5 30 5 108642 x xi x (xi – x ) 2xxi 2 6 – 4 16 4 6 – 2 4 6 6 0 0 8 6 + 2 4 10 6 + 4 16 0 40 Se esses valores representam toda um população, a variância seria 8 5 40 A variância de uma amostra é a média dos quadrados dos desvios dos valores a contar da média, calculada usando-se „n 1‟ em lugar de „n‟. 3º) Desvio Padrão O desvio padrão é simplesmente a raiz quadrada positiva da variância. Assim, se a variância é 81, o desvio padrão é 9; se a variância é 10, o desvio padrão é 16,310 . Fórmula: 1 2 n xx S i (como anteriormente, a substituição de (n 1) por n produz as fórmulas do desvio padrão da população). Exemplo: Calcule o desvio padrão da amostra: 20; 5; 10; 15; 25 (Use a calculadora) 10 15 40 1 2 2 n xx S i somas 22 5.3 COEFICIENTES DE VARIAÇÃO Quando existirem duas séries de dados, existirão várias medidas estatísticas que podem ser usadas para capturar como as duas séries se movem juntas através do tempo. As duas mais largamente usadas são a correlação e a covariância. Para duas séries de dados, X (X1, X2,.) e Y(Y1,Y2... ), a covariância fornece uma medida não padronizada do grau no qual elas se movem juntas, e é estimada tomando o produto dos desvios da média para cada variável em cada período. COVARÂNCIA: xxxx bbaa N i ba ii N 1 , 1 O sinal na covariância indica o tipo de relação que as duas variáveis têm. Um sinal positivo indica que elas movem juntas e um negativo que elas movem em direções opostas. Enquanto a covariância cresce com o poder do relacionamento, ainda é relativamente difícil fazer julgamentos sobre o poder do relacionamento entre as duas variáveis observando a covariância, pois ela não é padronizada. A correlação é a medida padronizada da relação entre duas variáveis. Ela pode ser calculada a partir da covariância. CORRELAÇÃO: 2 0 1 20 1 0 1 . . yyxx yyxx i i i i i i ii i i yx xy xy O coeficiente de variação é uma grandeza que varia de –1 a +1, valores estes que traduzem a correlação perfeita entre a variação de uma variável em relação à variação da outra. Por conseguinte, a ausência completa de correlação entre as variáveis confrontadas é indicada pelo valor zero do coeficiente de correlação (p = 0). Uma correlação próxima à zero indica que as duas variáveis não estão relacionadas. Uma correlação positiva indica que as duas variáveis movem juntas, e a relação é forte quanto mais à correlação se aproxima de um. Uma correlação negativa indica que as duas variáveis movem-se em direções opostas, e que a relação também fica mais forte quanto mais próxima de menos 1 a correlação ficar. Duas variáveis que estão perfeitamente correlacionadas positivamente (r = 1) movem-se essencialmente em perfeita proporção na mesma direção, enquanto dois conjuntos que estão perfeitamente correlacionados negativamente movem-se em perfeita proporção em direções opostas. 23 Exemplo1: xa xb xa xb (xa – x ) (xb – x ) xxxx bbaa ii 2 3 6 6.2 – 4 – 3.2 12.8 4 4 6 6.2 – 2 – 2.2 4.4 6 7 6 6.2 0 +0.8 0 8 8 6 6.2 + 2 + 1.8 3.6 10 9 6 6.2 + 4 + 2.8 11.2 30 31 0 0 32 4.632 5 1 1 , N i ba 4.6325 1 1 , N i ba 9773,0 7414,32 32 8,26.40 32 . yx xy xy Exemplo2: xa xb xa xb (xa – x ) (xb – x ) xxxx bbaa ii 2 0 1 yyi i i 2 0 1 yyi i i 2 7 6 12 – 4 – 5 20 16 25 4 9 6 12 – 2 – 3 6 4 9 6 12 6 12 0 0 0 0 0 8 14 6 12 + 2 + 2 4 4 4 10 18 6 12 + 4 + 6 24 16 36 30 60 0 0 54 40 74 24 6. TESTES DE HIPÓTESES 5.1 INTRODUÇÃO Muitas situações práticas no dia-a-dia requerem a tomada de decisões em função dos valores observados acerca dos parâmetros (ou de outros aspectos) da população. Exemplo: Máquina de encher pacotes de açúcar. O peso de cada pacote deve ser ≈ 8g (isto é, µ = 8). Será que a máquina está funcionando corretamente? Definição: Uma hipótese estatística é uma afirmação acerca dos parâmetros de uma ou mais populações (testes paramétricos) ou acerca da distribuição da população (testes de ajustamento). Vamos estudar em primeiro lugar os testes paramétricos. Temos duas hipóteses: a máquina funciona corretamente (µ = 8) ou a máquina não funciona corretamente (µ ≠ 8): H0: µ = 8 versus H1: µ ≠ 8 (hipótese nula) (hipótese alternativa) Hipótese simples: é especificado apenas um valor para o parâmetro. Hipótese composta: é especificado mais de um valor para o parâmetro. Vamos considerar sempre H0 como hipótese simples. A hipótese alternativa ( H1) é, em geral, uma das três seguintes: H1: µ ≠ 8 - hipótese alternativa bilateral H1: µ > 8 - hipótese alternativa unilateral (superior) H1: µ < 8 - hipótese alternativa unilateral (inferior) Nota: os valores especificados nas hipóteses não devem ter nada a ver com valores observados na amostra. Definição: Teste de hipóteses é um procedimento que conduz a uma decisão acerca das hipóteses (com base numa amostra). Exemplo: Dispomos de uma amostra de 10 observações: X1, ........ , X10 Faz sentido decidir com base em X , aceitando H0 se X estiver próxima de 8 e rejeitando H0 se X estiver longe de 8. região crítica a região de aceitação região crítica "Aceitar" H1 "Aceitar" H0 "Aceitar" H1 Rejeitar H0 Não rejeitar H0 Rejeitar H0 8 – fc 8 8 + fc 25 7. COMPARAÇÃO ENTRE TRATAMENTOS 7.1 TESTE t PARA DUAS AMOSTRAS PAREADAS O chamado teste t é apropriado para comparar dois conjuntos de dados quantitativos, em termos de seus valores médios. H0: µ1 = µ2 e H1: µ1 ≠ µ2 Onde: µ1 é o valor esperado da resposta sob o tratamento 1, e µ2 é o valor esperado da resposta sob o tratamento 2. Na abordagem unilateral, a hipótese alternativa é do tipo H1‟: µ1 > µ2 ou H1”: µ1 < µ2. Exemplo 1: Seja o problema de verificar se um novo algoritmo de busca em um banco de dados é mais rápido que o atualmente utilizado. Para fazer o teste de comparação, planeja-se uma amostra aleatória de dez buscas experimentais (ensaios). Em cada ensaio, uma dada busca é realizada pelos dois algoritmos, o antigo e o novo, e o tempo de resposta de cada algoritmo é anotado. Observamos que em cada ensaio os dois algoritmos são usados em condições idênticas, caracterizando dez pares de observações. As hipóteses podem ser formuladas da seguinte maneira: H0: em média, os dois algoritmos são igualmente rápidos, e H1: em média, o algoritmo novo é mais rápido que o em uso. Ou H0: µ2 = µ1 e H1: µ2 > µ1 Onde: µ2 é o tempo esperado de resposta do algoritmo novo, e µ1 é o tempo esperado de resposta do algoritmo atual. Tabela 1: Tempos de resposta dos algoritmos de busca 1 e 2, em dez ensaios pareados. ENSAIO TEMPO DE RESPOSTA ANTIGO X1 NOVO X2 DIFERENÇA D = X2 – X1 1 22 25 3 2 21 28 7 3 28 26 - 2 4 30 36 6 5 33 32 - 1 6 33 39 6 7 26 28 2 8 24 33 9 9 31 30 - 1 10 22 27 5 Fonte: Barbeta, P. A. et al – p. 236 26 Como os dados são pareados, podemos verificar em cada ensaio o quanto um tratamento foi melhor que o outro, ou seja, analisar a variável: D = X2 – X1 Em termos da variável D, as hipóteses são descritas como: H0: µD = 0 e H1: µ D > 0 Onde µD é o valor esperado de D. Dada a mostra, calcula-se a estatística do teste por: sd nd t . onde: n é o tamanho da amostra (n o de pares); d é a média das diferenças observadas; e sd é o desvio padrão das diferenças observadas. Supondo que os valores de D provenham de distribuição aproximadamente normal, o teste pode ser realizado com a distribuição t de Student com gl = n – 1 graus de liberdade. Valores de D (última coluna da Tabela 1): 3, 7, -2, 6, -1, 6, 2, 9, -1, 5 Donde: 4,3,10 dn e 81,3 9 4,310246 .. 1 1 2 22 dn n ds iid E, portanto: sd nd t . 82,2 81,3 10.4,3 Abordagem do valor p: como n = 10, temos gl = 9 graus de liberdade. Tomemos então a linha gl = 9 (Tabela da distribuição t de Student), como mostra a tabela 2. Por essa tabela, obtemos a área associada a um valor maior ou igual a t = 2,82. Como o teste é unilateral, essa área corresponde ao valor p. 27 Tabela 2: tabela parcial - t de Student gl ÁREA NA CAUDA SUPERIOR 0,25 0,10 0,05 0,025 0,010 0,005 . . . . . . 9 0,703 1,383 1,833 2,262 2,821 3,250 . . . . . . 0 t = 2,82 Figura 1 Uso da distribuição t de Student com gl = 9 para obtenção do valor p, num teste unilateral, com n = 10 e t = 2,82 (Teste unilateral) Considerando o nível de significância de 5% (α = 0,05), o teste leva a conclusão de que os dados mostram evidência suficiente de que H0 é falsa (pois p < α = 0,05) detectando, então, que o algoritmo novo é, em média, mais rápido que o algoritmo atualmente em uso. 7.2 TESTE t PARA DUAS AMOSTRAS INDEPENDENTES Exemplo 2: Desejamos verificar se dois catalisadores A e B têm os efeitos diferentes no seu rendimento de certa reação química. As hipóteses são: H0: em média, os dois catalisadores são iguais em termos de rendimento, e H1: em média, os dois catalisadores são diferentes em termos de rendimento Ou ainda H0: µ1 = µ2 e H1: µ1 ≠ µ2 Onde µ1: rendimento esperado com o catalisador A; e µ2: rendimento esperado com o catalisador B. Para testar as hipóteses, foram realizados dez ensaios com cada catalisador, em ordem aleatória. Como ressalta R. A. Fisher, que construiu as bases da estatística experimental: “a aleatorização dos grupos é fundamental para resguardar a validade de um teste de significância”. Dados observados t = 2,82 p = 0,010 28 Tabela 3: Rendimentos (%) de uma reação química em função do catalisador utilizado. CATALISADOR A CATALISADOR B 45 51 50 62 43 45 35 43 59 48 42 53 50 48 55 45 41 43 49 39 Fonte: Barbeta, P. A. et al – p. 239 7.2.1 Estatística do teste para amostras de tamanhos iguais Dadas as amostras, a estatística do teste toma como base a diferença entre as médias, 21 xx , mas leva também em consideração o número de elementos em cada amostra e a variabilidade interna. Considerando o mesmo número de elementos, n, em cada amostra, a chamada variância agregada é obtida pela média aritmética das variâncias da cada grupo, ou seja: 2 2 2 2 12 ss sa E a estatística do teste é calculada por: 221 2 . as n xxt Onde n: tamanho da amostra em cada grupo; 1x : média da amostra 1; 2x : média da amostra 2; 2 1s : variância da amostra 1; 2 2s : variância da amostra 2; 2 as : variância agregada das duas amostras. 7.2.2 Estatística do teste para amostras de tamanhos diferentes No caso de amostras diferentes (n1 ≠ n2), os cálculos devem ser feitos por: 2 11 21 2 22 2 112 nn snsn sa 21 21 11 . nn s xx t a Amostra 1: n = 10, 1x = 49,90 e 2 1s = 35,656 Amostra 2: n = 10, 2x = 44,70 e 2 2s = 42,233 29 Variância agregada: 945,38 2 233,42656,35 2 2 2 2 12 sssa 86,11284,0.2,5 94,382 10 .70,4490,49 2 . 221 as n xxt Graus de liberdade: gl = 2n – 2 = 2(10) – 2 = 18 Abordagem do valor p: O esquema seguinte ilustra o uso da tabela do teste t de Student para se obter o valor p associado ao t calculado. Tabela 3: tabela parcial - t de Student gl ÁREA NA CAUDA SUPERIOR 0,25 0,10 0,05 0,025 0,010 0,005 . . . . . . 18 0,688 1,330 1,734 2,101 2,552 2,878 . . . . . . Os dados observados levaram ao valor t = 1,86, apontando para uma área na cauda superior da curva entre 0,025 e 0,05. Mas, como o teste t é bilateral (H1: µ1 ≠ µ2), a área deve ser dobrada para se ter o valor p correto. Veja o esquema a seguir: - 1,86 0 1,86 Figura 2 Uso da distribuição t de Student (teste bilateral) Portanto, 0,05 < p < 0,10, o que leva à aceitação de H0 ao nível de significância de 5% pois (p < α = 0,05) Abordagem clássica: Mesmo antes de realizar o experimento, podemos buscar na tabela t de Student com gl = 18 o valor crítico tc, o qual deixa uma área igual a α = 0,05/2 = 0,025 em cada calda da distribuição (pois o teste é bilateral). Pela tabela de Student temos tc = 2,101, levando a regra de decisão apresentada a seguir: - tc 0 tc = 2,101 Aceita H0 Rejeita H0 Rejeita H0 Figura 3 Uso da distribuição t de Student (teste bilateral) Dados observados t = 1,86 Valor p entre 0,05 e 0,10 0,025 0,025 30 Como os dados produziram o valor t = 1,86, o qual pertence à região de aceitação, o teste aceita H0 ao nível de significância de 5%. Conclui-se, então, ao nível de significância de 5%, que os dados não comprovam uma diferença entre os dois catalisadores. Existe uma probabilidade razoável (superior a 5%) de que as diferenças observadas nos dados experimentais são provenientes de fatores casuais. 7.3 TESTE f PARA DUAS VARIÂNCIAS Suponha que queremos comparar se duas populações, supostamente com distribuições normais, têm a mesma variância. Formulamos as hipóteses por: 2 2 2 11 2 2 2 10 :: HeH onde: 2 1 : variância da população 1; e 2 2 : variância da população 2 A hipótese alternativa também pode ser H1‟: 2 1 > 2 2 ou H1”: 2 1 < 2 2 . Com as amostras da população 1 e da população 2, a estatística do teste é calculada por: 2 2 2 1 s s f onde: 2 1S : variância da amostra n1 elementos; e 2 2S : variância da amostra n2 elementos, considerando 2 1S > 2 2S , ou seja, a maior variância deve ser colocada no numerador. A distribuição de referencia para este teste é chamada distribuição F com gl = n1 – 1 no numerador e gl = n2 – 1 no denominador, conforme tabela especifica. Assim estabelecido o nível de significância α, podemos obter fc, que deixa área igual a α/2 na cauda superior da distribuição (teste bilateral) ou, no caso de teste unilateral, a área igual a α. A regra de decisão, na abordagem clássica, é dada por: Se f < fc então Aceita H0; Se f ≥ fc então Rejeita H0. Nota: Normalmente calcula-se o f a um nível de significância de (α) 5% e 1% de probabilidade de erro, ou seja, 95% e 99% de significância. Exemplo 2 (continuação) Verificamos se há evidências de que os catalisadores A e B tenham efeitos médios diferentes no rendimento de certa reação química. Vamos verificar, agora, se eles produzem efeitos diferentes nas variâncias. As hipóteses podem ser: H0: as variâncias do rendimento são iguais para os dois catalisadores ; e H1: as variâncias do rendimento são diferentes para os dois catalisadores. 31 Dados os resultados do experimento: Amostra 1: n1 = 10, 1x = 49,900 e 2 1s = 35,656 Amostra 2: n2 = 10, 2x = 44,700 e 2 2s = 42,233 No cálculo de f, colocamos a maior variância no numerador, assim: 18,1 656,35 233,42 2 2 2 1 s s f Para obter o valor critico fc, ao nível de significância de 5%, devemos obter área igual a 2,5% na cauda superior da distribuição F com gl = 9 no numerador e gl = 9 no numerador, o que acarreta fc = 4,03. Como f < fc, o teste aceita H0. 7.4 COMPARAÇÃO DE VÁRIAS AMOSTRAS (ANOVA) Testa-se a significância de duas médias através do teste t. Agora vamos aprender a verificar se há diferenças significativas entre as médias g (g ≥ 2) grupos de observações, sendo cada grupo formado por resultados de um tratamento. 7.4.1 Amostras Independentes A análise estatística para a comparação de g grupos in dependentes é tradicionalmente feita por analise de variância (ANOVA), acompanhada de um teste F, que da mesma forma que o teste t, supõe: 1. as observações devem ser independentes; 2. as variâncias populacionais devem ser iguais nos g grupos; e 3. a distribuição das observações em cada grupo deve ser normal. Nota: Para g = 2, o teste F é equivalente ao teste t bilateral. Observamos que os teste F é robusto com as suposições (2) e (3), ou seja, ele ainda é válido com pequenas violações destas suposições. Formalmente têm-se as seguintes hipóteses: H0: µ1 = µ2 = . . . = µg e H1: µi ≠ µj, para algum i ≠ j Onde µi representa o valor esperado da resposta sob o tratamento i (i = 1, 2, . . ., g) Sob H0 Sob H1 32 Figura 5 Suposições sobre as observações em termos de H0 e H1. Considerando n replicações sob cada tratamento (amostra n elementos de cada grupo, totalizando N = ng observações), podemos representar os dados pelo seguinte modelo estatístico: njgiY ijiij .,..,2,1;.,..,2,1 onde ijY é a variável aleatória associada a j-ésima observação do i-ésimo tratamento; µ é a média global da resposta (independentemente do tratamento); i é o efeito do i-ésimo tratamento; ij é o efeito aleatório ou erro experimental, o qual é suposto com distribuição aproximadamente normal, média zero e variância constante. Considerando o modelo estatístico, o valor esperado da resposta do i-ésimo tratamento é dado por µi = µ + τi e as hipóteses podem ser escritas como: H0: τ1 = τ2 = . . . = τg = 0 e H1: τi ≠ 0, para algum i = 1, 2, . . . , g As observações, as somas e as médias por tratamento são representados por: Tabela 5: Representações da comparação de Amostras Independentes REPLICAÇÃO (concentração) TRATAMENTO (repetição) 1 2 . . . g 1 y11 y21 . . . yg1 2 y12 y22 . . . yg2 . . . . . . . . . . . . . . . n y1n y2n . . . ygn Soma y1· y2· . . . yg· i i yy .. Média 1y · 2y · . . . gy · iy g y i 1 .. Fonte: Barbeta, P. A. et al – p. 250 7.4.2 Experimentos com um único fator a vários níveis. O que é um fator Variável Independente. O que é um nível Valor escolhido para o fator. Análise de variância permite verificar o efeito de vários fatores com diferentes níveis. Identifica a causa de variabilidade entre as diferentes medições. Causas: Fatores ou erro. Replicações: repetição da medição em condições “idênticas” Exemplo: O que afeta a eficiência de um determinado produto fármaco: Composição química, temperatura... Composição química: Percentual de açucares é um fator. 15%, 20%, 30% são níveis. 33 Até agora viu-se como comparar duas situações (ou tratamentos). Vimos que o teste – t não é adequado para comparar mais de duas situações: Pode-se ter A + B; B = C e A C Vamos considerar a situação em que queremos verificar o efeito de 4 diferentes concentrações de um componente químico na eficiência de um produto fármaco.Cinco observações foram feitas em cada situação com os seguintes resultados: Observações Percentual j = 1 j = 2 j = 3 j = 4 j = 5 Soma Média i = 1 15 7 7 15 11 9 y1 = 49 <y1> = 9,8 i = 2 20 12 17 12 18 18 y2 = 77 <y2> = 15,4 i = 3 25 14 18 18 19 19 y3 = 88 <y3> = 17,6 i = 4 30 19 25 22 19 23 y4 = 108 <y4 > = 21,6 Total y= 322 <y> = 16,1 Fonte: Dados fictícios O número de tratamentos ou níveis é g = 4 O número de observações (igual para cada nível neste caso) é n = 5. Temos no total 20 observações. Cada uma das 20 observações pode ser escrita como: ijiijY i = 1, 2 . . . g representa os tratamentos g = 4 - neste exemplo j = 1, 2 . . . n representa as replicações n = 5 - neste exemplo Por exemplo o valor 22 da quarta concentração, terceira repetição é: y4,3 = µ + τ4 + ε4,3 22 = 16,1 + τ4 + ε4,3 Tabela 6: Cálculos básicos da ANOVA com um fator Fonte de Variação SQ (soma dos quadrados) Graus de liberdade (gl) Média de Quadrados Razão f Calculado Entre os tratamentos SQTratamento N y n y SQ i g i Trat 2 .. 2 1 g - 1 QMTratamento Trat Trat Trat gl SQ QM Erro Trat Calc QM QM f Erro (dentro dos tratamentos) SQErro TratTotErro SQSQSQ N – g = ng – g = g(n – 1) QMErro Erro Erro Erro gl SQ QM Total SQTotal N y ySQ ij n j g i Tot 2 ..2 11 N – 1 = ng – 1 Fonte: Barbeta, P. A. et al – p. 252 34 Determinar se o efeito do tratamento (níveis) é maior do que o erro. Tabela 7: Resultados da Aplicação Fonte de Variação SQ (soma dos quadrados) Graus de liberdade (gl) Média de Quadrados Razão f Calculado Entre os tratamentos SQTratamento 363,40 g – 1 = 3 QMTratamento 121,1333 15,0945 Erro (dentro dos tratamentos) SQErro 128,40 N – g = 16 QMErro 8,025 FTabelado = 3,238867 Total SQTotal 491,8 N – 1 = 19 Se f < fc, estão aceita a H0; Se f ≥ fc, então rejeita H0. f = 15,0945 fc = 3,238867 Logo o teste rejeita H0, provando estatisticamente que há diferença entre as quatros concentrações químicas do componente fármaco. 7.4.5 Experimentos com blocos completamente aleatorizados. O planejamento com blocos aleatorizados é uma extensão do teste t emparelhado para situações onde o ator de interesse tem mais de dois níveis, ou seja, mais de dois tratamentos têm de ser comparados. O procedimento consiste em selecionar b blocos e correr uma réplica completa do experimento em cada bloco. Figura 6 Um planejamento com blocos completos aleatorizados. Tabela 10: Um planejamento com Blocos Completos Aleatorizados TRATAMENTO (método) BLOCOS 1 2 3 4 1 y11 y21 y31 y41 2 y12 y22 y32 y42 3 y13 y23 y33 y43 Suponha que um único fator coma níveis seja de interesse e que o experimento seja corrido em b bloco. As observações podem ser representadas pelo modo linear estatístico. bj ai Y ijjiij ,...,2,1 ...,,2,1 sendo µ a média global, i o efeito do i-ésimo tratamento, j o efeito do j-ésimo bloco e ij o termo do erro aleatório, que é considerado estar distribuído normal e independentemente, com média zero e variância 2 . t1 t2 t3 Bloco 1 t1 t2 t3 Bloco 2 t1 t2 t3 Bloco 3 t1 t2 t3 Bloco 4 35 Tabela 11: Um planejamento com Blocos Completos Aleatorizados, tendo a Tratamentos e b Blocos. BLOCOS TRATAMENTOS 1 2 . . . a Totais Média 1 y11 y21 . . . y1g y1· 1y · 2 y12 y22 . . . y2g y2· 2y · . . . . . . . . . . . . . . . . . . b y1b y2b . . . ygh yb· by · Totais y1· y2· . . . yg· y·· Média 1.y 2.y . . . gy. y ·· Tabela 12: Experimento com Blocos Completos Aleatorizados. Fonte de Variação SQ (soma dos quadrados) Graus de liberdade (gl) Média de Quadrados Razão f Calculado Entre os tratamentos SQTratamentos ab y y b SQ i a i Trat 2 2 1 1 a - 1 QMTratamento 1 a SQ QM TratTrat Erro Trat Calc QM QM f Entre os blocos SQBlocos ab y y a SQ j b j Blo 2 2 1 cos 1 b - 1 QMBlocos 1 cos cos b SQ QM BloBlo Erro Bloco Calc QM QM f Erro (por subtração) SQErro cosBloTratTotErro SQSQSQSQ (a – 1) (b – 1) QMErro 1) - (b 1) - (a Erro Erro SQ QM Total SQTotal ab y ySQ ij b j a i Tot 2 2 11 ab – 1 N – 1 Exemplo: Um experimento foi realizado a fim de determinar o efeito de quatro produtos químicos diferentes sobre a resistência de um tecido. Esses produtos químicos são usados como parte do processo de acabamento. Cinco amostras de tecidos foram selecionadas e um planejamento com blocos completos aleatorizados foi realizado, testando cada tipo de produto químico uma vez, em ordem aleatória, em cada amostra de tecido. Testar as diferenças médias, usando uma análise de variância, com α = 0,01. i) Defina as hipóteses a serem testadas: H0: em média, os quatro produtos químicos são iguais em termos de rendimento; e H1: em média, os quatro produtos químicos são diferentes em termos de rendimento. 36 Tabela 13: Dados da Resistência do tecido – Planejamento com Blocos Completos Aleatorizados. Tipo de Produto Químico Amostra do Tecido Totais do Tratamento Médias dos Tratamentos 1 2 3 4 5 yi · iy · 1 1,3 1,6 0,5 1,2 1,1 5,7 1,14 2 2,2 2,4 0,4 2,0 1,8 8,8 1,76 3 1,8 1,7 0,6 1,5 1,3 6,9 1,38 4 3,9 4,4 2,0 4,1 3,4 17,8 3,56 Totais do Bloco y·j 9,2 10,1 3,5 8,8 7,6 39,2 (y..) Média jy. 2,30 2,53 0,88 2,20 1,90 1,96 ( ..y ) ANOVA – Quadro Resumo Fonte de Variação SQ (soma dos quadrados) Graus de liberdade (gl) Média de Quadrados Razão f Calculado Entre os tratamentos 18,04 3 6,01 75,13 Entre os blocos 6,69 4 1,67 fTab0,01; 3;12 = 5,95 Erro (por subtração) 0,96 12 0,08 Total 25,69 19 Conclusão: Adotando α = 0,01, temos como valor crítico fc = 75,13 > f 0,01; 3;12 = 5,95. Logo, conclui-se que existe uma diferença significativa nos tipos de produtos químicos desde que seu efeito na resistência média do tecido seja envolvido. Exercício: Considere o resultado do rendimento de 5 enzimas submetidas a testes laboratoriais em blocos completamente aleatorizados. Os testes foram realizados sob 03 temperaturas diferentes com o objetivo de obter-se seu melhor rendimento. Tratamentos Blocos Aleatórios I II III IV V T1 (18%) 14 15 16 16 16 20 19 18 19 19 18 18 18 19 20 T2 (20%) 20 20 19 19 18 25 26 27 23 23 16 17 19 19 19 T3 (22%) 17 17 17 18 18 18 17 16 16 15 13 14 16 17 13 Calcule: a) ANOVA para um experimento com Blocos Completamente Aleatorizados com (α) 5% de probabilidade de erro; b) Defina as Hipóteses correspondentes; c) Descreva a conclusão para cada hipótese. 37 8. TESTE QUI OU CHI QUADRADO DE PEARSON O teste Qui quadrado permite verificar igualdade (semelhança) entre categorias discretas e mutuamente exclusivas (por exemplo: diferenças de comportamento entre homens e mulheres). Cada indivíduo ou item deve pertencer a uma e somente uma categoria. As seguintes suposições precisam ser satisfeitas: 1. Os dois grupos são independentes 2. Os itens de cada grupo são selecionados aleatoriamente. 3. As observações devem ser freqüências ou contagens. 4. Cada observação pertence a uma e somente uma categoria 5. A amostra deve ser relativamente grande (pelo menos 5 observações em cada célula e no caso de poucos grupos (2x 2) pelo menos 10) A hipótese H0 é que não existe diferença entre as freqüências (contagens) dos grupos A hipótese alternativa é que existe diferença. Exemplo: Desejamos saber se existe diferença na percepção de homens e mulheres em relação a uma afirmativa feita. Homens Mulheres total Concorda 33 33 66 Neutro 33 33 66 Não concorda 33 33 66 Total 99 99 198 As categorias são homens e mulheres. Observe que o número total de mulheres é diferente do número total de homens. Cada item pertence a uma e somente uma destas categorias. Da mesma forma cada indivíduo poderá responder somente de uma forma. O resultado deve ser comparado com que seria obtido se não houvesse diferença entre os grupos. Para ilustrar, vamos supor tivéssemos 99 homens e 99 mulheres na amostra. Neste caso se os grupos se comportassem igualmente e respondessem igualmente para cada situação teríamos 33 pessoas em cada célula. Em geral os grupos não são igualmente distribuídos. O valor esperado de cada célula é uma proporção do valor total. Um caso real está abaixo: Os valores esperados para cada célula são obtidos multiplicando o percentual da coluna pelo total da linha, isto é, total da linha x (total coluna / total). Por exemplo: 45,35 = 93 x 79/162 Homens Mulheres total Concorda 58 35 93 Neutro 11 25 36 Não concorda 10 23 33 Total 79 83 162 célula 38 Valor esperado Homens Mulheres total Concorda 45,35185 47,64815 93 Neutro 17,55556 18,44444 36 Não concorda 16,09259 16,90741 33 Total 79 83 162 Cálculo do QUI - QUI_TAB 5,99 Homens Mulheres total Concorda 3,527434 3,357437 6,884871 Neutro 2,447961 2,329987 4,777948 Não concorda 2,306632 2,195469 4,502101 Total 8,282027 7,882893 16,16492 O valor de chi quadrado para cada célula é a diferença ao quadrado entre o valor esperado e o valor medido dividido pelo valor esperado. O chi total é a soma dos valores de cada célula. O valor de chi 2 calculado deve ser comparado com o valor de chi tabelado quanto maior o valor de chi calculado maior a diferença. Para obter o valor de chi tabelado devemos escolher o valor do nível de significância (alfa) adequado para a nossa situação. 1. Dez fábricas relatam as peças fabricadas e o respectivo número de refugos. Verifique se existe diferença entre as linhas de produção. Linha 1 2 3 4 5 6 7 8 9 10 N. Peças 53 20 22 18 66 46 87 41 26 32 N. Refugo 3 5 9 4 13 4 8 7 5 4 2. Repita o exercício anterior sem a linha de produção 3 . Que conclusão você chega? 39 9. PLANEJAMENTO DE EXPERIMENTOS 9.1 Noções sobre experimentos fatoriais Experimentos delineados em esquemas fatoriais são aqueles que envolvem combinações entre os níveis de dois ou mais fatores. Os seus níveis são fixados a priori segundo o interesse do pesquisador. Na literatura especializada, os esquemas fatoriais não são considerados delineamentos experimentais, mais sim delineamentos de tratamentos. Nesse contexto, cada combinação é um tratamento. Observe que podemos ter esquemas fatoriais de tratamentos delineados experimentais inteiramente casualizados, em blocos casualizados, em quadrados latinos e assim por diante. Para nossos propósitos, os tratamentos têm o apelo de ensaios ou provas. Se todas as combinações possíveis, entre todos os níveis de cada fator, estão presentes, o esquema fatorial é dito completo. Em outros casos temos um esquema fatorial incompleto. Eles são constituídos de frações bem determinadas de fatoriais completos e são de grande valia na seleção dos níveis e/ou dos fatores de estudo. Assim, por exemplo, num delineamento inteiramente casualizado com dois fatores, cada qual com dois níveis, digamos fator A = temperatura, com níveis “1” e “2” e B = pH, com níveis “1” e “2”, temos a seguinte combinação, tratamentos ou ensaios: A1 B1 A1 B2 A2 B1 A2 B2 Se A tem três níveis e B tem dois níveis, vem: A1 B1 A1 B2 A2 B1 A2 B2 A3 B1 A3 B2 Se ambos tem três níveis: A1 B1 A1 B2 A1 B3 A2 B1 A2 B2 A2 B3 A3 B1 A3 B2 A3 B3 Seja K o número de fatores em estudo, cada qual com N níveis, denota-se um esquema fatorial completo por N K . Como pode ser visto na tabela 1, o número de ensaios cresce exponencialmente, praticamente inviabilizando a utilização de esquemas completos para 6 ou mais fatores com 2 níveis e para 4 ou mais fatores com 3 níveis. 40 Tabela 1 – Número de ensaios, tratamentos ou combinações de alguns esquemas fatoriais completos. Níveis Fatores k = 2 k = 3 k = 4 k = 5 k = 6 k = 7 ... k = K 2 2 2 = 4 2 3 = 8 2 4 = 16 2 5 = 32 2 6 = 64 2 7 = 128 ... 2K 3 3 2 = 9 3 3 = 27 3 4 = 81 3 5 = 243 3 6 = 729 3 7 = 2187 ... 3K ... ... ... ... ... ... ... ... ... N N 2 N 3 N 4 N 5 N 6 N 7 ... NK 9.1.2 Como variar tudo ao mesmo tempo Um dos problemas mais comuns que um experimentador pode enfrentar é a determinação da influência de uma ou mais variáveis sobre outra variável de interesse. Por exemplo: ao estudar uma certa reação química, pode-se estar querendo saber como o rendimento final seria afetado se ele, digamos, variasse a temperatura e/ou usasse um catalisador diferente. No jargão estatístico, dizemos que ele está interessado em descobrir como a resposta (o rendimento da reação) depende de dois fatores mencionados, a temperatura e o catalisador. Esse problema pode ser encarado como um acaso particular da situação geral mostrada esquematicamente na figura 2, em que um certo número de fatores, F1, F2, ..., Fk, atuando sobre o sistema em estudo, produz as respostas R1, R2, ..., Rj. O sistema é considerado como uma função (desconhecida, em princípio, senão não precisávamos de experimentos) que atua sobre as variáveis de entrada (os fatores) e produz como saída às respostas observadas. O objetivo da pessoa que realiza os experimentos é descobrir essa função, ou pelo menos obter uma aproximação satisfatória para ela. Figura 1 Um sistema pode ser considerado como uma função (em princípio desconhecida) ligando os fatores (variáveis de entrada) às respostas (variáveis de saída). A primeira coisa a fazer, no planejamento de um experimento, é determinar quais são os fatores e as respostas de interesse para o sistema que se deseja estudar. Os fatores, isto é, as variáveis controladas pelo experimentador, tanto pode ser qualitativos (como o tipo de catalisador) como quantitativos (como a temperatura). Dependendo do problema, pode haver mais de uma resposta de interesse. Eventualmente essas respostas também podem ser qualitativas. Em seguida, é preciso definir claramente que objetivo se pretende alcançar com os experimentos, porque isso determinará que tipo de planejamento experimental deve ser utilizado. O experimentador pode estar apenas pretendendo saber, por exemplo, se o rendimento da reação será afetado ou não por uma mudança de catalisador. Ou então pode estar querendo descobrir a que temperatura o rendimento alcançará seu valor máximo. Sistema Resposta R1 R2 Rj Fatores F1 F2 Fk 41 UNIVERSIDADE DO OESTE DE SANTA CATARINA UNOESC - CAMPUS VIDEIRA ACET – CURSO DE SANITÁRIA E AMBIENTAL PROFESSOR: DIRCEU SCARATTI Disciplina: Probabilidade e Estatística TRABALHO FINAL DA DISCIPLINA – G2 O PLANEJAMENTO DE UMA PESQUISA Aspectos Gerais Para que os resultados de uma análise estatística de dados produzam informações úteis, os dados precisam ser coletados de forma planejada. A figura 1 mostra as principais etapas de uma pesquisa, enfatizando que os métodos estatísticos precisam ser pensados ainda na fase do planejamento da pesquisa. Figura 1 Etapas usuais de uma pesquisa empírica. Fonte: Barbetta, A.R; Reis, M.M.; Bornia, C.A (Estatística pra cursos de e Informática) Metodologia da área de estudos Metodologia Estatística Definição do Problema e objetivos Planejamento da Pesquisa Execução da Pesquisa Dados Análise dos Dados Resultados Conclusões 42 Embora a figura 1 ilustre as etapas da pesquisa em seqüência, na fase do planejamento é necessário também pensar na forma de análise dos dados, pois, dependendo da análise estatística que se deseja fazer, o projeto da pesquisa deve ter suas peculiaridades. Em função dos problemas e dos objetivos da pesquisa, devemos decidir entre uma pesquisa observacional e uma pesquisa experimental. Numa pesquisa observacional (ou de levantamento) as características de uma população são levantadas (observadas ou medidas), mas sem manipulação. É o caso do censo demográfico, pesquisas eleitorais, pesquisas de mercado, inspeção da qualidade, etc. em todos esses casos, procura-se ter idéia de certa população tal qual ela é na natureza ou no processo. Nas pesquisas experimentais, grupos de indivíduos (ou animais, ou objetos) são manipulados para se avaliar o efeito de diferentes tratamentos. É o caso de se verificar o rendimento de um processo químico para diferentes temperaturas de reação, que são manipuladas de acordo com o interesse prático. ETAPAS DO LEVANTAMENTO ESTATÍSTICO 1. Introdução à estatística e a aplicação específica no trabalho 2. Definir o problema e seus objetivos 3. Planejar a pesquisa definindo a amostra e as variáveis a serem levantadas (metodologia) 4. Executar a pesquisa 5. Tratar os dados Dispor os dados em ROL Gerar histograma e polígono de freqüência Definir as medidas de tendência central (moda, mediana e média) Definir medidas de dispersão (intervalo, variância, desvio padrão, coeficiente de variação) 6. Analisar dos dados – Realizar a ANOVA Testes t de Student ou Teste F, conforme o caso, Comparação para experimentos com único fator – Definir e testar as Hipóteses (Nível de significância de 5%) Análise de resíduos, Blocos – Definir e testar as Hipóteses e (se aplicável) (Nível de significância de 5%) Realizar os Testes de Média (Tukey e Duncan para 5%) 7. Considerações finais (Conclusão e recomendações) 8. Bibliográficas Desenvolvimento do Trabalho – 06/10 a 13/11 de 2009 Entrega do Trabalho final – 20 de novembro de 2009 impreterivelmente Grupo de no mínimo 2 e no máximo 3 acadêmicos Orientações dos trabalhos de 06/10 a 06/11/2009 após o intervalo das aulas às sextas feiras Formato do trabalho – Normas ABNT 43 ANEXOS I 44 45 46 47 48 9. TESTES DE TUKEY E DUNCAN 49 50 51 ANEXOS II 52 53 54 55 EXERCÍCIO 56 57