Esta é uma pré-visualização de arquivo. Entre para ver o arquivo original
Estatística II Prof. Laura Maria Saporski Cachuba 2 I – ESTATÍSTICA DESCRITIVA Introdução Podemos dizer que toda a ciência que manipula dados experimentais necessita da Estatística como A estatística pode ser considerada como um método quantitativo que se preocupa em planejar, coletar, organizar, analisar e interpretar um conjunto de observações, visando a tomada de decisões. Podemos dizer que toda a ciência que manipula dados experimentais necessita da Estatística como método de análise dessas informações, para que o pesquisador possa tirar conclusões que tenham validade científica. Numa análise estatística de uma amostra de dados podemos distinguir duas etapas: a descrição dos dados amostrais – a estatística descritiva; e a extrapolação destes resultados para a população – estatística inferencial. Esquematicamente temos: Após a definição do problema a ser estudado, o passo seguinte é a coleta de dados do fenômeno de interesse. Mas, depois de coletados, o que fazer para que os mesmos signifiquem algo, ou seja, como transformá-los de meros “dados” em “informação”? Na grande maioria das vezes se trata de uma massa de dados incompreensível, sem uma aparente estrutura, e precisam ser urgentemente “entendidos”. Para que os mesmos sejam organizados, descritos formalmente de modo que se possa explorá-los procurando indícios de padrões ou características interessantes que possam indicar possíveis tendências, e mesmo relatar ou expor características dos mesmos a outras pessoas, utiliza- se das técnicas chamadas descritivas ou exploratórias. Tais técnicas consistem da leitura e resumo dos dados utilizando tabelas, gráficos, estatísticas e esquemas. As técnicas descritivas devem fornecer resultados simples, atrair a atenção, ser auto- explicativos, de fácil compreensão e confiáveis. O maior interesse, depois de obtidos os dados, é saber como os dados estão se comportando. Uma descrição dos mesmos com tais propriedades deve dar uma idéia global, sobre o conjunto de dados, como os valores das variáveis observadas estão se distribuindo entre os indivíduos, e se houver, indicar tendências. Esse é o papel da Estatística Descritiva: descrever e sintetizar os dados coletados. Com os recursos da Estatística Descritiva, pode-se compreender melhor um conjunto de dados através de suas características. Iniciaremos estudando as técnicas de sumariar e apresentar dados quer através de medidas apropriadas (medidas de sumário), quer através de tabelas e gráficos. Para o cálculo das medidas, teremos duas maneiras básicas de organizar os nossos dados: de forma desagrupada (Rol), ou seja, analisar os dados da forma como se apresentam em nosso banco de dados; ou de forma agrupada (Tabela ou Distribuição de Frequência), analisando-os em tabelas divididas em níveis (ou classes) da variável em questão. Estatística II Prof. Laura Maria Saporski Cachuba 3 As duas formas de organização dos dados lhes fornecem as informações necessárias para a análise descritiva, mas cada uma delas tem características específicas. Se o nosso objetivo for tirar informações de um modo geral a respeito do conjunto de dados, qualquer uma das formas é indicada; no entanto, a maioria dos softwares só realiza cálculos das medidas para dados desagrupados. É preciso tomar cuidado para não utilizar uma forma para o agrupamento e outra para os cálculos! Esta é, portanto, a forma mais simples. Se, por outro lado, nosso objetivo for o de encontrar níveis para a nossa variável em questão, então o agrupamento é o mais indicado. Importante: Não leve em conta alguns autores que determinam que trabalhar com dados desagrupados ou agrupados tem relação direta com o tamanho da amostra. Estamos na era do computador! Esta indicação era para antigamente, quando até as calculadoras deixavam muito a desejar! Nos dias de hoje, seu trabalho para usar um ou outro método é exatamente o mesmo, ou seja, digitar seus dados em uma planilha! 1. Estatística Descritiva Estatística Descritiva é o nome dado à reunião de técnicas analíticas utilizadas para resumir o conjunto de todos os dados coletados numa dada investigação a relativamente poucos números e gráficos. Ela envolve basicamente: Distribuição de Frequência: É o conjunto das frequências relativas observadas para um dado fenômeno estudado, sendo a sua representação gráfica o Histograma (Diagrama onde o eixo horizontal representa faixas de valores da variável aleatória e o eixo vertical representa a frequência relativa). Por uma consequência da Lei dos Grandes Números, quanto maior o tamanho da amostra, mais a distribuição de frequência tende para a distribuição de probabilidade. Testes de Aderência: São procedimentos para a identificação de uma distribuição de probabilidade a partir de um conjunto de frequências usando a Lei dos Grandes Números. Essencialmente, calcula- se a chance da diferença entre uma distribuição de frequência observada e aquela que seria de se esperar a partir de uma determinada distribuição de probabilidade (geralmente a Curva Normal). Uma distribuição de frequência pode ser tida como pertencente a um dado tipo de distribuição se o teste de aderência mostrar uma probabilidade de mais de 5% da diferença entre duas ser devida ao acaso. Medidas da Tendência Central: São indicadores que permitem que se tenha uma primeira idéia, um resumo, de como se distribuem os dados de um experimento, informando o valor (ou faixa de valores) da variável aleatória que ocorre mais tipicamente. As mais usadas e conhecidas são: Média Aritmética: É a soma de todos os resultados dividida pelo número total de casos, podendo ser considerada como um resumo da distribuição como um todo. Moda: É o evento ou categoria de eventos que ocorreu com maior frequência indicando o valor ou categoria mais provável. Mediana: É o valor da variável aleatória a partir do qual a metade dos casos se encontra acima dele e metade se encontra abaixo. Medidas de Dispersão: São medidas da variação de um conjunto de dados em torno da média (ou de outra estatística), ou seja, da maior ou menor variabilidade dos resultados obtidos. Elas permitem se identificar até que ponto os resultados se concentram ou não ao redor da tendência central de um conjunto de observações. Incluem a amplitude, o desvio médio, a variância, o desvio padrão, o erro padrão, o coeficiente de variação, o intervalo interquartil, entre outros, cada um expressando diferentes formas de se quantificar a tendência que os resultados de um experimento aleatório tem de se concentrarem ou não em determinados valores (quanto maior a dispersão, menor a concentração e vice-versa). Estatística II Prof. Laura Maria Saporski Cachuba 4 A idéia básica é a de se estabelecer uma descrição de dados relativos a cada uma das variáveis, dados esses levantados através, geralmente, de uma amostra. - Classificação de Variáveis Há várias formas de classificar variáveis e que condicionam a análise estatística; apresentaremos a forma mais usual. As variáveis qualitativas estão associadas a uma característica e apresentam como possíveis resultados uma qualidade (ou atributo) do indivíduo (ou item) pesquisado. Podem ser ordinais – que são as categorias da variável que têm uma ordem, isto é, podemos dizer que uma categoria está antes da outra, ou que é maior ou melhor que outra. Exemplo: Escolaridade: ensino fundamental; ensino médio; ensino superior; pós-graduação. Ou a variável poderá ser qualitativa nominal se as categorias não têm ordem determinada ou única. Exemplo: Sexo (feminino – masculino); grupo sanguíneo,... As variáveis quantitativas estão associadas aos valores numéricos, podendo ser contínuas – que são variáveis que podem assumir qualquer valor num intervalo, ou discretas – quando o número de valores possíveis for finito ou infinito enumerável (valores inteiros). Por exemplo, o peso é uma variável contínua, pois pode assumir qualquer valor (78,453437... kg). Exemplos: Tensão arterial, idade, altura... As variáveis quantitativas discretas só podem assumir valores inteiros. Exemplo: Número de filhos (0, 1, 2, 3,...). Ordinais - Nominais- asQualitativ- Contínuas - Discretas - vasQuantitati- Variáveis Exercício 1: Classifique as seguintes variáveis: a) Idade b) Classe socioeconômica c) Diagnóstico de um doente d) Grupo sanguíneo e) Índice de Massa Corporal f) Grau de concordância (concorda totalmente; concorda parcialmente; discorda parcialmente; discorda totalmente). Exercício 2: Suponha que você está realizando um trabalho para uma empresa de telefonia e as variáveis abaixo fazem parte de sua análise. Classifique cada uma das variáveis. a) Número de telefones por domicílio; b) Tipo de telefone principalmente utilizado (residencial ou comercial); c) Número de chamadas de longa distância realizadas por mês; d) Duração (em minutos) da chamada mais longa por mês; e) Cor do aparelho telefônico mais utilizado; f) Tarifa mensal para as chamadas de longa distância realizadas; g) Propriedade do telefone celular; h) Operadora do telefone celular mais utilizado; i) Se existe uma linha de fax no domicílio; j) Se existe uma linha telefônica conectada a um modem de computador no domicílio. Exercício 3: Como você classificaria a variável data de nascimento? Por quê? Estatística II Prof. Laura Maria Saporski Cachuba 5 Exercício 4. Suponha que, para uma pesquisa, as seguintes informações são obtidas de estudantes saindo da livraria do campus da universidade durante a primeira semana de aulas. Classifique cada um das variáveis adequadamente. a) Quantia gasta com livros; b) Número de livros comprados; c) Quantidade de tempo gasto comprando na livraria; d) Principal matéria acadêmica do período; e) Matéria acadêmica preferida; f) Gênero de leitura preferida; g) Propriedade de um computador pessoal; h) Número de disciplinas matriculadas para o semestre corrente; i) Se algum item de informática foi atualmente comprado na livraria ou não; j) Forma de pagamento; k) Classe socioeconômica. Estatística II Prof. Laura Maria Saporski Cachuba 6 Interpretação das Estatísticas As medidas de tendência central procuram descrever, através de uma estatística (estimativa pontual) um valor médio (ou “típico” ou “padrão”). Moda: valor que ocorre com maior frequência (ou de frequência mais alta); Mediana: ponto central da distribuição o qual divide o conjunto de dados em duas partes iguais. Média Aritmética: é o “centro de gravidade” da distribuição. Ou seja, mesmo não sendo o valor de maior frequência ou o ponto central da distribuição ela é a estatística que equilibra as discrepâncias positivas ou negativas. Ou seja, depois de obtida a média, se subtrairmos esta estimativa de cada valor, teremos que o somatório destas diferenças será zero ou muito próximo de zero. Ex. Seja o conjunto: {9; 8; 6; 4; 3}: média = 6; mediana = 6. Qual delas eu uso? A escolha da melhor medida é determinada pelo objetivo da análise e pelo tipo de variável que estamos utilizando. Moda Nível e mensuração: nominal, ordinal ou intervalar (quantitativa). Forma de distribuição: mais apropriada para distribuições multimodais, desde que analisado o objetivo da pesquisa. Objetivo: permite obter uma medida de tendência central rápida, simples, embora grosseira. Mediana Nível e mensuração: ordinal ou intervalar (quantitativa). Forma de distribuição: mais adequada para distribuições muito assimétricas (a mediana sempre caíra entra a média e a moda). Objetivo: é uma medida de tendência central “confiável”, pode às vezes ser usada em operações estatísticas mais avançadas ou para “quebrar” uma distribuição em duas categorias distintas. Ex. alto versus baixo. Média Nível e mensuração: intervalar (quantitativa), no mínimo. Forma de distribuição: mais apropriada para distribuições unimodais e simétricas. Objetivo: medida de tendência central exata; pode frequentemente ser usada em operações mais avançadas, tais como testes para tomada de decisões. As medidas de tendência central isoladas podem fornecer uma visão distorcida da realidade. Ex. Temperatura média em duas cidades: Honolulu (Havaí) - FX º75 - Temperatura mínima e máxima: 70ºF e 80°F; Houston (Texas) - FX º75 - Temperatura mínima e máxima: 40ºF e 100ºF. Portanto, precisamos de um índice que indique o grau de dispersão em torno da média (estimador mais utilizado). Vamos analisar os mais comuns: AT = amplitude total – medida grosseira, uma vez que só considera dois valores. É um índice preliminar. Desvio Médio: n i xx 1 1 - fornecerá valores iguais ou muito próximos à zero. Desvio-padrão: variabilidade média de uma distribuição em relação à média. De modo geral, o desvio-padrão é cerca de 1/6 da AT (quando a distribuição tiver um número relativamente grande de observações); caso contrário, serão necessários “menos” desvios para cobrir a amplitude da distribuição. No entanto, o desvio-padrão será sempre menor que a AT. É uma medida confiável, de nível intervalar que pode ser utilizada em estatísticas avançadas, descritivas ou inferenciais. Estatística II Prof. Laura Maria Saporski Cachuba 7 Exercício 5. Foram coletados 7 valores de salário dos trabalhadores da construção civil: 300,00 – 460,00 – 200,00 – 510,00 – 250,00 – 450,00 – 250,00; Calcule a média, moda e mediana; Calcule medidas de dispersão para cada medida de tendência central. O que você pode informar a respeito dos valores? Se tivéssemos incluído nesta análise o salário do engenheiro – 2.300,00 - quais seriam os resultados e as informações que você tiraria a respeito? 420.2 7 1 i ix ; 43,571.92 7 1 2 i i Xx ; média: 345,71; mediana: 300; Moda: 250; variância: 15.428,57143; desvio-padrão: 124,2118 Com o salário do engenheiro: média: 601,43; mediana: 375; moda: 250; variância: 490.628,6 desvio-padrão: 700,4488 Exercício 6. Consideremos agora uma amostra de dados bancários. Os valores relacionados são tempos médios de espera (em minutos) de clientes, medidos no período de um dia. Banco Jefferson Valley 6,5 6,6 6,7 6,8 7,1 7,3 7,4 7,7 7,7 7,7 (Fila única) Banco da Providência 4,2 5,4 5,8 6,2 6,7 7,7 7,7 8,5 9,3 10,0 (Fila múltipla) Calcule medidas de dispersão para cada medida de tendência central. O que você pode informar a respeito dos valores? Que informações você tiraria a respeito? Com estas informações, você optaria por fila única ou múltipla? Por quê? JV – média: 7,15; Mediana: 7,2. Moda: 7,7; variância: 0,227222; desvio-padrão: 0,476678; quartil 1: 6,725; quartil 3: 7,625 ; CV:6,67% ; DJ: 0,9 min BP - média: 7,15; Mediana: 7,2. Moda: 7,7; variância: 3,318333; desvio-padrão: 1,821629, quartil 1: 5,9; quartil 3: 8,3 ; CV:25,45%; DJ: 2,5 min Resolução: Para o banco Jefferson Valley que utiliza fila única as medidas de tendência central são: min2,7 2 3,71,7 min7,7 min15,7 10 7,77,77,74,73,71,78,67,66,65,61 Md Mo n x X n i i Para a média, as medidas de dispersão que podem ser usadas são: %67,6100 15,7 477,0 100 min477,0227,0 min227,0 110 15,77,715,77,715,76,615,75,6 1 2 22222 1 2 2 X S CV SS n Xx S n i i A moda não possui uma medida de dispersão indicada, pois é considerada como uma informação muito fraca (pouco robusta); mas pode-se utilizar a amplitude total, sem perder de vista que esta medida também é considerada fraca como informação. AT= valor máximo da amostra – valo mínimo da amostra = 7,7 – 6,5 = 1,2 min. Estatística II Prof. Laura Maria Saporski Cachuba 8 Para a mediana, a medida de dispersão adequada é o desvio interquartílico: min9,065,655,7 min65,6 2 7,66,6 5,2 4 10 .1. min55,7 2 7,74,7 5,7 4 10 .3. 4 .. 11 33 13 dj QQPos QQPos n KQPos QQdj K 1 ordem de quartil do posição 3 ordem de quartil do posição Para o banco da Providência que utiliza fila múltipla medidas de tendência central são: min2,7 2 7,77,6 min7,7 min15,7 10 0,103,95,87,77,77,62,68,54,52,41 Md Mo n x X n i i Para a média, as medidas de dispersão que podem ser usadas são: %45,25100 15,7 82,1 100 min82,1318,3 min318,3 110 15,70,1015,73,915,74,515,72,4 1 2 22222 1 2 2 X S CV SS n Xx S n i i A moda não possui uma medida de dispersão indicada, pois é considerada uma informação muito fraca (pouco robusta); mas pode-se utilizar a amplitude total, sem perder de vista que esta medida também é considerada fraca como informação. AT= valor máximo da amostra – valo mínimo da amostra = 10,0 – 4,2 = 5,8 min. Para a mediana, a medida de dispersão adequada é o desvio interquartílico: min5,26,51,8 min6,5 2 8,54,5 5,2 4 10 .1. min1,8 2 5,87,7 5,7 4 10 .3. 4 .. 11 33 13 dj QQPos QQPos n KQPos QQdj K 1 ordem de quartil do posição 3 ordem de quartil do posição - As três medidas de tendência central para ambos os bancos foram exatamente as mesmas, e podem ser consideradas bastante próximas. Esta informação é importante em estatística, pois indica que os dados seguem uma distribuição normal, ou seja, seguem um padrão, que permitem uma avaliação melhor. Estatística II Prof. Laura Maria Saporski Cachuba 9 - Contudo, não podemos analisar as medidas de tendência central isoladamente; então, avaliando em conjunto com as medidas de dispersão adequadas para cada medida de tendência central, encontramos: - Através das estatísticas calculadas, podemos verificar que a variação no tempo de espera na fila é menor no banco com fila única; tanto o desvio-padrão como o dj (intervalo interquartílico) foram bem menores para o banco com fila única; ainda: o coeficiente de variação é bem menor na fila única (6,67%) do que na fila múltipla (25,45%) mostrando que quando se adota fila múltipla há indicações de que o tempo de espera do cliente seja maior. (Lembre-se: dizemos que há indicações porque a estatística descritiva não é conclusiva, apenas informativa). - Ou seja, se fosse possível elaborar um gráfico, caso tivéssemos mais valores na amostra, encontraríamos possivelmente uma curva normal para os dois bancos, mas a curva do banco com fila única seria leptocúrtica e a do banco com fila múltipla, platicúrtica. - Por qual tipo de fila você optaria no “seu” banco? Como o que queremos é que o cliente seja bem atendido, e bom atendimento significa não ficar perdendo tempo em uma fila, parece que a fila única tem melhor resultado que a fila múltipla. Para concluirmos, teríamos que fazer uma análise estatística mais avançada. Mas esta é a indicação que encontramos. OBS: Note que a variável do problema foi número médio de atendimentos por dia! Ou seja, é possível trabalharmos com a média das médias, e calcular posteriores estatísticas normalmente. Exercício 7. Assinale como verdadeiro ou falso: a) [ ] O coeficiente de variação é uma medida que expressa a razão entre o desvio padrão e a média. b) [ ] Num conjunto de valores, todos iguais, o desvio-padrão é também igual a constante. c) [ ] A média de uma série de valores iguais a uma constante é igual a unidade. d) [ ] Na série 60, 50, 90, 70, 80 o valor 70 será a média e a mediana. e) [ ] A média aritmética é a razão entre o somatório dos valores e o número deles; f) [ ] A medida que tem o mesmo número de valores abaixo e acima dela é a mediana Exercício 8. De acordo com o IBGE (1988), a distribuição dos suicídios ocorridos no Brasil em 1986, segundo a causa atribuída, foi a seguinte: 263 por alcoolismo, 198 por dificuldade financeira, 700 por doença mental, 189 por outro tipo de doença, 416 por desilusão amorosa e 217 por outras causas. a) Apresente esta distribuição em uma tabela; b) Indique a média, a mediana e a moda. Qual delas você utilizaria para apresentar os resultados de um trabalho? Por quê? c) Quem é a variável aleatória trabalhada? Identifique e classifique. a) Tab. I – Causas de suicídio ocorridos no Brasil no ano de 1986. CAUSAS OCORRÊNCIAS ALCOOLISMO 263 DIFICULDADE FINANCEIRA 198 DOENÇA MENTAL 700 OUTRO TIPO DE DOENÇA 189 DESILUSÃO AMOROSA 416 OUTRAS CAUSAS 217 ∑ 1983 Fonte: IBGE (1988) Estatística II Prof. Laura Maria Saporski Cachuba 10 Exercício 9. Na companhia A, a média dos salários é de 10.000 u.m. (unidades monetárias) e o 3 quartil é 5.000 u.m.: a) Se você se apresentasse como candidato a essa firma e se o seu salário fosse escolhido ao acaso dentre todos os possíveis salários, o que seria mais provável: ganhar mais ou menos que 5.000 u.m.? Justifique. b) Suponha que na companhia B a média de salários é 7.000 u.m. e a variância é praticamente zero, e lá o seu salário também seria escolhido ao acaso. Em qual companhia você se apresentaria para procurar emprego? Justifique. Estatística II Prof. Laura Maria Saporski Cachuba 11 Outras Estratégias de Análise: A média aritmética e o desvio-padrão, mesmo sendo as melhores medidas para serem utilizadas, também apresentam alguns problemas na sua utilização: a) São afetados, de forma exagerada por valores extremos; b) Apenas com estes dois valores, não temos idéia da assimetria da distribuição dos valores. Tukey sugere 5 medidas (Esquema de 5 números): i) mediana; ii) extremos – maior e menor valor; iii) os quartis. Estas 5 medidas são chamadas estatísticas de ordem (mas não são as únicas) e são medidas resistentes de posição de uma distribuição (são pouco afetadas por mudanças nos dados). Ex. Seja o conjunto: 5 7 8 10 12 15 - a média aritmética é 9,5; a mediana é 9,0; o desvio-padrão é 3,62. - trocando o valor 15 por 150, a média aritmética passa a ser 32; desvio-padrão passa a ser 57,86, no entanto a mediana não se altera. Exemplo de esquema de 5 números para Rol (exemplo usado em sala de aula, apresentado na sequência): n = 50 Mediana 66 Quartis 58,5 72,5 Extremos 48 90 Outra medida de dispersão alternativa é o intervalo interquartil (dj), que é a diferença entre o quartil de ordem 3 e o quartil de ordem 1. Com ele podemos calcular o intervalo interquartílico dado por: djQ . 2 3 1 e djQ . 2 3 3 Estatística II Prof. Laura Maria Saporski Cachuba 12 Graficamente, temos o desenho esquemático chamado Box-Plot: Max = 90,00000 Min = 48,00000 75% = 73,00000 25% = 59,00000 Median v alue: Med = 66,00000 Box & Whisker Plot 45 55 65 75 85 95 PRECO ±1.00*Std. Dev . Std. Dev . = 10,09184 ±1.00*Std. Err. Std. Err. = 1,427200 Mean = 66,46000 Box & Whisker Plot 54 58 62 66 70 74 78 PRECO Estatística II Prof. Laura Maria Saporski Cachuba 13 MEDIDAS DE ASSIMETRIA Assimetria é o grau de deformação de um polígono de frequência. Uma distribuição é simétrica quando: Média = Mediana = Moda. Uma distribuição é: - Assimétrica à esquerda ou negativa quando: Média < Mediana < Moda. - Assimétrica à direita ou positiva quando: Média > Mediana > Moda Coeficiente de Assimetria - 1º Coeficiente de Assimetria (Pearson): s MoX AS onde: - X = É a média aritmética; - Mo = Moda; - s = é o desvio-padrão. Estatística II Prof. Laura Maria Saporski Cachuba 14 Análise do resultado de AS: forte assimetria 1,00 moderada assimetria 1,000,15 fraca assimetria 0,15 AS AS AS Podemos também usar outro coeficiente de assimetria de Pearson, dado por: PadrãoDesvio Mediana - Média3 AS MEDIDAS DE CURTOSE Denominamos curtose o grau de achatamento de uma distribuição em relação a uma distribuição padrão, denominada curava normal (curva correspondente a uma distribuição teórica de probabilidade). Quando a distribuição apresenta uma curva de frequência mais fechada que a normal (ou mais aguda ou afilada em sua parte superior), ela recebe o nome de leptocúrtica. Quando a distribuição apresenta uma curva de frequência mais aberta que a normal (ou mais achatada em sua parte superior), ela recebe o nome da platicúrtica. A curva normal, que é a nossa base referencial, recebe o nome de mesocúrtica. Formas de Analisar os Dados: Para analisar um conjunto de dados, precisamos definir se o trabalho será realizado com os dados da maneira como foram coletados, ou seja, em Rol, o qual denominamos de Dados Desagrupados; ou se este trabalho será feito organizando os dados em níveis, os quais chamaremos de classes e a tabela correspondente de Tabela de Frequências (ou de Distribuição de Frequências). O tipo da variável trabalhada (se quantitativa ou qualitativa) pode ajudar na decisão. De modo geral, os dados sempre podem ser trabalhados como Rol. A decisão pelas Tabelas de Frequência pode ser devido a quantidade muito elevada de dados coletados (amostra), o que pode dificultar a visualização dos dados; ou ainda pelo objetivo proposto, por exemplo, definir níveis (classes) para a variável em estudo. Devemos lembrar sempre que o volume muito grande de dados, por si só, não leva a trabalhar automaticamente com Tabelas de Frequência, uma vez que, com a utilização de computadores, tanto em planilhas como em softwares estatísticos, o tempo para realização da análise é o mesmo. Outros fatores poderão nos levar a decidir qual a melhor forma de trabalhar – com dados agrupados ou desagrupados. Vamos analisar na sequência as duas formas de realizar uma análise para um mesmo conjunto de dados. Para isso, utilize o Formulário I já fornecido. Estatística II Prof. Laura Maria Saporski Cachuba 15 Exercício 10. Para estimar a quantidade de água que seria necessária para abastecer a comunidade da cidade de Aguaceiro na próxima década, o conselho da cidade pediu ao prefeito que descobrisse a quantidade de água que uma amostra de famílias utiliza atualmente. A amostra de 15 famílias utilizou o seguinte número de galões (em milhares) no ano passado. 11,2 13,1 14,0 14,6 15,5 16,4 16,9 18,2 18,3 18,8 19,7 21,5 22,7 23,8 32,2 a) Qual a quantidade média de água utilizada por família? E a mediana? Qual delas você utilizaria para o objetivo deste estudo e por quê? b) Suponha que o conselho da cidade espere que daqui a 10 anos existam 45.000 famílias vivendo em Aguaceiro. Quantos galões de água serão necessários anualmente, se a taxa de consumo por família se mantiver a mesma? c) De que maneiras a informação fornecida em (a) e (b) seria útil para o conselho da cidade? Explique. d) Por que você acha que o conselho usou dados de uma pesquisa ao invés de medir o consumo total da cidade? Você concorda com o critério deles? Por quê? Média: 18,46 Mediana: 18,2 Moda: -- Variância: 26,9954 Desvio-padrão: 5,1957 CV: 28,15% Estatística II Prof. Laura Maria Saporski Cachuba 16 Analisando um Exemplo Exemplo: Em um estudo sobre o tempo que os funcionários de uma empresa demoram a carregar um caminhão com mercadorias (em min) foram coletados 50 tempos referentes a 50 funcionários distintos, conforme quadro abaixo. Para simplificar, vamos considerar que os produtos carregados em todos os caminhões são os mesmos (mesmo peso, marca, quantidade, etc.): a) Em ordem de coleta: 52 78 63 58 64 73 57 76 67 77 60 64 54 64 49 67 62 53 70 86 61 48 74 69 80 71 56 71 72 66 59 62 64 52 65 82 68 67 90 81 78 58 55 69 83 65 50 70 77 66 b) Em ordem crescente: 48 53 58 62 64 66 69 71 77 81 49 54 58 62 64 67 69 72 77 82 50 55 59 63 65 67 70 73 78 83 52 56 60 64 65 67 70 74 78 86 52 57 61 64 66 68 71 76 80 90 Variável coletada: tempo para carregar com mercadorias um caminhão (em min) – variável quantitativa contínua. Interpretando os resultados: Definido o conjunto de dados (observações) com o qual se pretende trabalhar, precisamos decidir se o trabalho será organizado em uma tabela de frequências ou em forma de rol. O tipo da variável trabalhada (se quantitativa ou qualitativa) pode ajudar na decisão. De modo geral, os dados sempre podem ser trabalhados como rol. A decisão pelas tabelas de frequências pode ser devido a quantidade muito grande de dados coletados (amostra), o que pode dificultar a visualização dos dados; ou ainda, pelo objetivo proposto. Por exemplo, definir classes (níveis) para a variável em estudo. Devemos lembrar sempre que o volume muito grande de dados, por si só, não leva a trabalhar em distribuição de frequências, uma vez que com a utilização de computadores o trabalho realizado é praticamente o mesmo. Determinada a forma como se pretende analisar os dados, verificamos a apresentação gráfica dos mesmos. Para o rol, a forma gráfica mais adequada é o Ramo-e-Folhas e para a distribuição de frequências são o Histograma e/ou a Ogiva (ou Polígono) de Frequências. O formato da distribuição é de suma importância, uma vez que, assumido um formato gaussiano (curva da distribuição normal) para a distribuição dos dados, poderemos passar a trabalhar com técnicas estatísticas mais avançadas que nos permitem tirar conclusões e auxiliar na tomada de decisões. Esta definição (normalidade) nos ajudará a fazer inferências e retirar conclusões a respeito dos dados, conclusões que a estatística descritiva não permite por ser somente informativa. Estatística II Prof. Laura Maria Saporski Cachuba 17 Analisando com os Dados Desagrupados (Rol) No nosso exemplo sobre tempo para carregar mercadorias em um caminhão (em min) no período considerado, quando analisamos os dados através de rol, obtemos os valores abaixo para as estatísticas: Cálculos para Dados Desagrupados: 50 904948 n X X n 1i i Moda: valor que ocorre com maior frequência Mo = 64 Mediana: é o valor central dos dados ordenados Md = 66 AT = 90 – 48 = 42 8453,101 150 46,669046,6648 1n Xx S 22 n 1i 2 i 2 09184,108453,101SS 2 %18,15100 46,66 09,10 100 X S CV 145,585,72QQd 13j 2437,0 09,10 6446,66 S MoX AS 25,0 52802 5,585,72 PP2 QQ C 1090 13 5,37 4 50 3Pos5,12 4 50 1Pos 4 n KPos 3Q1QQK 45 100 50 90Pos5 100 50 10Pos 100 n KPos 90P10PPK Resumo das Estatísticas Para Rol (Dados Desagrupados): min 93,5 :superior intervalomin 37,5 :inferior intervalomin14dj 15,18%CVmin10,09184smin 101,8453s dispersão) (pqna caleptocúrti curva 0,25C moderada assimetria 0,2437AS min 80Pmin52Pmin72,5Qmin58,5Q min 64Momin 66Mdmin 66,46X 7minAT da 1/6min42AT50n 22 901031 Ramo e Folhas: CAULE FOLHA Escores = 50 2 4 8 9 11 5 0 2 2 3 4 5 6 7 8 8 9 19 6 0 1 2 2 3 4 4 4 4 5 5 6 6 7 7 7 8 9 9 12 7 0 0 1 1 2 3 4 6 7 7 8 8 5 8 0 1 2 3 6 1 9 0 Estatística II Prof. Laura Maria Saporski Cachuba 18 Analisando graficamente através do Ramo-e-Folhas, observamos uma tendência á normalização da curva; para termos certeza maior à respeito do formato gaussiano dos dados, vamos analisar os índices junto com o gráfico. O coeficiente de assimetria que nos dá o formato da distribuição |0,2437|, indica uma assimetria moderada; o coeficiente de curtose, que nos dá o grau de achatamento da distribuição normal (0,25), indica uma curva leptocúrtica, que significa uma pequena dispersão dos dados; o coeficiente de variação, que fornece a dispersão dos dados em torno da média aritmética indica uma pequena dispersão (15,18%), condizente com a informação fornecida pelo coeficiente de curtose. Analisando as medidas de tendência central, temos: - Podemos calcular as três medidas (média, moda e mediana) porque a variável em estudo (tempo em min para carregar um caminhão no período considerado) assim permite; Se pretendermos trabalhar com estatística indutiva, a melhor escolha será a média (66,46 min); no entanto, não podemos esquecer que a média é uma medida sensível a valores extremos; se a distribuição puder ser considerada normal, esta é a melhor medida de localização do centro. Outro motivo para esta escolha é se pretendermos representar a quantidade total expressa pelos dados; neste caso, se multiplicarmos a média pelo total de elementos, obteremos a quantidade pretendida. - Se a distribuição for multimodal, a medida de tendência central adequada é a moda, pois qualquer outra medida de localização do centro da distribuição pode apresentar dados inflacionados. No exemplo, temos somente uma moda (64 min). - A mediana (66 min) não é tão sensível quanto a média aritmética à distribuição de modo geral; como em uma distribuição simétrica média, moda e mediana coincidem, e no exemplo elas estão bastante próximas, a utilização da mediana dependerá do objetivo proposto (por exemplo, “quebrar” o conjunto de dados em duas partes iguais levaria a utilização da mediana; se quiséssemos separar em grupos de pessoas que precisaram de mais minutos por período e pessoas que precisaram de menos minutos para carregar o caminhão). Analisando as medidas de dispersão temos: a amplitude total (diferença entre o maior e o menor valor observado – 42 min) é uma medida grosseira, porém rápida de se ter uma idéia da dispersão. A utilização de 1/6 deste valor (7 min) como medida de dispersão quando não podemos trabalhar com a média pode, às vezes, ser de grande utilidade. No entanto, é uma medida muito sensível á existência na amostra de uma observação muito grande ou muito pequena. Assim, define- se outra medida, o intervalo interquartil, que é, de certa forma, uma solução, pois não é afetado, de modo geral, pela existência de números muito altos ou muito baixos, uma vez que utiliza os 50% dos valores centrais ordenados. Esta medida é definida como a diferença entre o terceiro e o primeiro quartil (dj=14 min). Do modo como definimos a amplitude interquartil, esperamos que 50% dos elementos do centro da amostra estejam contidos num intervalo com aquela amplitude. No exemplo, entre 72,5 e 58,5. Esta medida, assim como o desvio-padrão, é não negativa e será tanto maior quanto maior for a variabilidade nos dados. Mas ao contrário do que acontece com o desvio-padrão, uma amplitude interquartil nula não significa necessariamente que os dados não apresentem variabilidade. Se optarmos por trabalhar com a média aritmética, o desvio-padrão será a escolha mais correta e indicada para medir a variabilidade dos dados. Há ainda o intervalo criado por Tukey, que nos dá o intervalo que contém aproximadamente 95% dos dados (37,5; 93,5). Não significa que há 95% de probabilidade de que este intervalo seja válido, porém pode-se tentar estimar sem falar em probabilidade por enquanto!! Vamos analisar o mesmo conjunto de dados, agora agrupados em uma tabela de frequência. Estatística II Prof. Laura Maria Saporski Cachuba 19 Analisando com os Dados Agrupados (Tabela de Frequência) O processo de construção de uma tabela de frequência envolve os seguintes passos: Passo 1: Decidir o número de classes de sua tabela de frequência. A título de orientação, o número de classes deve ficar entre 5 e 20. O número efetivo de classes pode depender da conveniência de utilizar números arredondados ou de outros fatores subjetivos. Com notas de testes, por exemplo, pode ser conveniente utilizar 10 classes: 50-54, 55-59, 60-64, ..., 95-99. Passo 2: Determinar o intervalo de classe (c), dividindo a amplitude total pelo número de classes. (A amplitude é a diferença entre o maior e o menor valor.) Arredonde o resultado para mais, até um número conveniente. Esse arredondamento para mais não somente é conveniente como também garante que todos os valores sejam incluídos na tabela de frequências. (Se o número de classes divide exatamente a amplitude, é preciso acrescentar mais uma classe para que todos os dados sejam incluídos.) Passo 3: Escolher como limite inferior da primeira classe o menor valor observado ou um valor ligeiramente inferior a ele. Esse valor serve como ponto de partida. Passo 4: Some o intervalo de classe ao ponto de partida, obtendo o segundo limite inferior de classe. Adicione o intervalo de classe ao segundo limite inferior para obter o terceiro; e assim por diante. Passo 5: Relacione os limites inferiores de classe em uma coluna e introduza os limites superiores, que podem ser facilmente determinados a esta altura. Estes limites são definidos pelas regras de matemática de intervalo aberto à esquerda ou à direita. Passo 6: Represente cada observação por um pequeno traço na classe apropriada e, com auxilio dessa contagem, determine a frequência total de cada classe. Como a determinação do número de classes ainda não é uma imposição legal, podemos tomar um número diferente de classes que resulte em uma tabela de frequências diferente e igualmente correta. Novamente frisamos que a prioridade deve ser a obtenção de uma tabela com valores convenientes e compreensíveis. A tabela de distribuição de frequências nos dá informações úteis tornando um conjunto de dados mais inteligível, mas perdemos a precisão dos dados originais. Não podemos reconstruir os valores iniciais dos dados originais com base na tabela de frequências; sacrificamos a exatidão dos dados originais para termos dados mais compreensíveis. Na construção de tabelas de frequência, devemos observar as seguintes diretrizes: 1. As classes devem ser mutuamente excludentes. Ou seja, cada valor original deve pertencer exatamente a uma, e somente uma classe. Para isso, procure utilizar somente intervalos fechados (ou abertos) à esquerda ou à direita. Evite intervalos fecahdos em ambos os lados ou abertos em ambos os lados, pois isto tende a distorcer os dados da tabela. 2. Todos os valores coletados devem ser incluídos, mesmo os de valor igual a zero, em uma e somente uma classe. 3. Procurar utilizar o mesmo intervalo de classe para todos os níveis, mas é possível utilizar diferentes intervalos de classe, se for necessário para uma melhoria na análise. Embora eventualmente seja difícil evitar intervalos com extremidade aberta, como “65 anos ou mais” esta prática deve ser evitada. 4. Escolher números convenientes para limites de classe. Arredondar para cima a fim de ter menos casas decimais, ou utilizar números adequados à situação. 5. Utilizar entre 5 e 20 classes. 6. A soma das frequências das diversas classes deve ser igual ao número de observações originais. 7. As frequências definidas para cada classe não podem nunca ser iguais a zero, pois este resultado também distorce as estatísticas. Estatística II Prof. Laura Maria Saporski Cachuba 20 Uma maneira prática de montar tabelas de frequência é utilizando softares estatísticos. Mas lembre-se: o software montará a tabela, mas não realizará os cálculos das estatísticas. Como é possível determinar inúmeras tabelas diferentes com o mesmo conjunto de dados, este cálculo é feito à parte, depois da tabela montada. Tanto o excel quanto os softwares estatísticos só realizam cálculos para dados desagrupados (rol)!! Não esqueça deste importante detalhe!! O software indicado para esta disciplina é de domínio público e pode ser baixado direto da internet, para posterior instalação em seu computador. O software cham-se Bioestat e foi criado para área de meio ambiente e sáude. Mas pode ser perfeitamente utilziado por várias outras áreas, pois a análise estatítstica é bastante democrática! Entre no site: www.mamiraua.org.br e procure no menu a opção downloads; a versão atual é a 5.3; o software é simples, em português e de fácil instalação. No nosso exemplo sobre o tempo que os funcionários de uma empresa demoram a carregar um caminhão com mercadorias (em min) em uma amostra de 50 funcionários, quando analisamos os dados através de uma Tabela de Frequência, obtemos os valores abaixo para as estatísticas: Cálculos para dados Agrupados: 76576,650log33,31nlog33,31K 5,63086,6 6576,6 42 K AT c 06,66 50 225,87325,48 1 n fx X K i ii 6,665,6 6141014 1014 5,64c dd d liMo 21 1 89,655,6 14 2225 5,64c fmed med.ant.Facmed.Pos liMd 48,19006,66 150 225,87325,48 X 1n fx S 2 22 2 K 1i i 2 i 2 80,1348,190ss 2 %9,20100 06,66 80,13 100 X s CV 039,0 80,13 6,6606,66 S MoX AS 257,0 94,5275,802 325,58625,72 PP2 QQ C 1090 13 5,37 4 50 3Pos5,12 4 50 1Pos 4 n KPos 3Q1QQK 45 100 50 90Pos5 100 50 10Pos 100 n KPos 90P10PPK Estatística II Prof. Laura Maria Saporski Cachuba 21 625,725,6 6 365,37 71Q 325,585,6 10 125,12 58Q c f antQ.FacQ.Pos liQ 3 1 QK KK K 75,805,6 6 4245 5,77P 94,525,6 9 35 5,51P c f P.ant.FacP.Pos liP 90 10 PK KK K Resumo das Estatísticas para distribuição de Frequência (Dados Agrupados): min 94,075 :superior intervalomin 36,875 :inferior intervalomin 3,14dj %9,20CV min80,31s min 48,190s caleptocúrti curva (curtose) 257,0C fraca assimetria 039,0 min75,80P min94,52P min625,72Q min325,58Q min6,66Momin 89,65Md min06,66 5,630,6 658,6 42 7658,6 7minAT da 1/6min 42 50 22 901031 AS X cclassesK ATn Classes fi xi xi.fi xi 2 xi 2.fi Fac Fr 45 51,5 3 48,25 144,75 2.328,06 6.984,19 3 6% 51,5 58 9 54,75 492,75 2.997,56 26.978,06 12 18% 58 64,5 10 61,25 612,5 3.751,56 37.515,63 22 20% 64,5 71 14 67,75 948,5 4.590,06 64.260,88 36 28% 71 77,5 6 74,25 445,5 5.513,06 33.078,38 42 12% 77,5 84 6 80,75 484,5 6.520,56 39.123,38 48 12% 84 90,5 2 87,25 174,5 7.612,56 15.225,13 50 4% 50 3303,0 223.165,63 100% No exemplo, quando analisamos através de tabela de frequências, os gráficos indicados são agora o Histograma e/ou o Polígono (ou Ogiva) de Frequência, apresentadas nas figuras abaixo. Estatística II Prof. Laura Maria Saporski Cachuba 22 Histograma 0 2 4 6 8 10 12 14 16 45 a 51,5 51,5 a 58 58 a 64,5 64,5 a 71 71 a 77,5 77,5 a 84 84 a 90,5 Classes Fr eqü ênc ias Ogiva (ou Polígono) de Freqüencias 0 2 4 6 8 10 12 14 16 48,25 54,75 61,25 67,75 74,25 80,75 87,25 ponto médio Fr eq üê nc ias Estatística II Prof. Laura Maria Saporski Cachuba 23 O formato apresentado, assim como ocorreu com o Ramo-e-Folhas na análise por rol, mostra uma tendência a aceitarmos a distribuição normal como adequada. O coeficiente de assimetria encontrado 0,039, mostra uma assimetria fraca tendendo a esquerda (sinal negativo); no entanto, a queda abrupta após o limite 71, prejudica um pouco a avaliação e o resultado. Desta forma, se não pudermos aceitar a definição de normalidade, o coeficiente de curtose fica sem função, ou seja, não é muito confiável. Na distribuição de frequências, acabamos aumentando a variabilidade. E, por conseguinte, prejudicando a forma da distribuição. O valor do desvio-padrão (13,8) e por consequência o coeficiente de variação (20,9%) são maiores do que para rol. A escolha do número de classes e do intervalo estipulado afeta a distribuição; poderíamos ter outro resultado, organizando os dados de outra maneira. Quando agrupamos os valores, interferimos nos dados e perdemos um pouco em precisão. O coeficiente de variação indica uma dispersão moderada. Para trabalharmos com distribuição de frequências, caso outro arranjo não fosse indicado, poderíamos necessitar de uma amostra maior, ou inclusão de outras variáveis que afetem a resposta esperada, ou ainda uma definição diferente na forma de coleta (tipo de amostragem adotado). A pouca diferença entre valores de média, moda e mediana nos permite trabalhar com qualquer uma delas. As observações feitas para rol são válidas neste caso também. As estatísticas criadas por Tukey (esquema de 5 números, intervalo interquartil ou Box-Plot) são também válidas para distribuição de frequências. Estatística II Prof. Laura Maria Saporski Cachuba 24 Exercício 11. Foi coletada uma amostra da altura de 22 alunos do sexo masculino, obtendo-se os seguintes resultados: Altura fi Fac xi xifi xi 2fi fr 170 2 172 6 7 19 Complete a tabela e responda: a) Qual é a média e a variância dos dados? 76,30;91,580.1;91,180 2 ssX b) Acima de qual altura se encontram os 11 alunos mais altos? c) Calcule a mediana e a moda. 80,182;33,181 MoMd d) Que medida de tendência central você escolheria para representar os dados? Justifique sua resposta. e) Em outra amostra coletada, observou-se a altura das alunas obtendo-se altura média de 165,02 cm e desvio-padrão de 4,05 cm. Que grupo é mais homogêneo? Que critérios você utilizou para responder a questão? %45,2%;98,21 MH CVCV f) Que gráfico você utilizaria para analisar os dados desta tabela? Por que e com qual finalidade? Estatística II Prof. Laura Maria Saporski Cachuba 25 II. Representação Tabular e Gráfica 2.1 TABELAS Tabela é a forma não discursiva de apresentação de informações que tem por finalidade a descrição e/ou cruzamento de dados numéricos, codificações, especificações técnicas e símbolos. Dessa forma, a apresentação tabular deve sintetizar os dados nas tabelas de modo a facilitar a leitura e propiciar maior rapidez na interpretação das informações. Dependendo de seu conteúdo, as tabelas podem ser classificadas em: tabelas estatísticas, tabelas técnicas, tabelas de rotinas ou controle, tabelas de codificação, tabelas de coleta e tabelas especiais. Os trabalhos técnico-científicos utilizam-se, em geral, de tabelas estatísticas para apresentar dados. Estas podem ser definidas como conjuntos de dados estatísticos, associados a um fenômeno, dispostos numa determinada ordem de classificação. Elas expressam, pois, as variações qualitativas e quantitativas de um fenômeno. A tabela estatística apresenta um conjunto de dados numéricos que expressam as variações quantitativas e/ou qualitativas associadas a um determinado fenômeno. Quanto aos critérios gerais para a apresentação, as tabelas estatísticas: - Devem ser dotadas de todas as informações necessárias a uma completa compreensão do conteúdo, dispensando consultas ao texto, e apresentadas da maneira mais simples e objetiva possível, preferencialmente em uma única página; - Podem ser apresentadas intercaladas no texto, ou em anexo, devendo ser utilizado este último procedimento quando o volume de tabelas for grande, o que dificultaria a leitura continuada do texto; - Quando intercaladas em um texto, devem estar próximas do trecho em que são citadas pela primeira vez, separadas da linha de texto precedente por uma linha em branco; - Devem ser alinhadas preferencialmente às margens laterais do texto e, quando pequenas, devem ser centralizadas; - Não devem apresentar o texto em formato maior que o adotado para o documento; em alguns casos pode ser feita a redução gráfica até um limite que não prejudique a legibilidade do material reduzido; - Não devem apresentar a maior parte das casas vazias, indicando a inexistência do fenômeno do qual tratam. Uma tabela é constituída de: Título: conjunto de informações, as mais completas possíveis, localizado no topo da tabela. Coluna Indicadora: parte da tabela que especifica o conteúdo das linhas. Esta coluna deve estar posicionada logo à esquerda. Cabeçalho: parte superior da tabela que especifica o conteúdo da colunas. Corpo: conjunto de linhas e colunas que contém informações sobre a variável em estudo. É o espaço compreendido entre o cabeçalho e a coluna indicadora. Linhas: retas imaginárias que facilitam a leitura, no sentido horizontal, de dados que inscrevem nos seus cruzamento com as colunas. Casas ou Células: espaço destinado a um só número. Existem ainda, elementos complementares que são: a fonte, as notas e as chamadas, os quais devem ser colocados no rodapé da tabela. As notas devem esclarecer aspectos relevantes do levantamento dos dados ou da apuração. As chamadas são esclarecimentos sobre os dados. Devem ser feitas através de algarismos arábicos escritos entre parênteses, e colocados à direita da coluna. Exemplo: Estatística II Prof. Laura Maria Saporski Cachuba 26 Coluna Indicadora Cabeçalho C Casa ou Célula O L LINHA U N A Rodapé De acordo com a resolução 886 de 1966 do Conselho Nacional de Estatística, nas casas ou células da tabela devemos colocar: - Um traço horizontal - hífen ( - ) quando o valor é zero, não só quanto à natureza das coisas, como quanto ao resultado do inquérito; - Três pontos ( ... ) quando não temos os dados; - Zero ( 0 ) quando o valor é muito pequeno para ser expresso pela unidade utilizada Se os valores são expressos em numerais decimais, precisamos acrescentar à parte decimal um número correspondente de zeros (0,0; 0,00; 0,000); - Xis ( X ) para dado omitido para evitar individualização; - Um ponto de interrogação ( ? ) quando temos dúvida quanto à exatidão de determinado valor. Obs: O lado direito e esquerdo de uma tabela oficial deve ser aberto. 3. Séries Estatísticas É qualquer tabela que apresenta a distribuição de um conjunto de dados estatísticos em função da época, do local ou da espécie. SÉRIES HOMÓGRADAS: são aquelas em que a variável descrita apresenta variação discreta ou descontínua. Podem ser do tipo temporal, geográfica ou específica. a) Série Temporal: identifica-se pelo caráter variável do fator cronológico. O local e a espécie (fenômeno) são elementos fixos. Esta série também é chamada de histórica ou evolutiva. Tabela I – ABC Veículos LTDA. Vendas no 1º bimestre de 1996 Período Unidades Vendidas* Janeiro de 1996 20 Janeiro de 1996 10 Total 30 *Em mil Unidades b) Série Geográfica: Apresenta como elemento variável o fator geográfico. A época e o fato (espécie) são elementos fixos. Também é chamada de espacial, territorial ou de localização. Tabela II – ABC veículos LTDA. Vendas no 1º bimestre de 1996 Período Unidades Vendidas* São Paulo 13 Rio de Janeiro 17 Total 30 *Em mil unidades c) Série Específica: O caráter variável é apenas o fato ou espécie. Também é chamada de séria categórica. Estatística II Prof. Laura Maria Saporski Cachuba 27 Tabela III – ABC Veículos LTDA. Vendas no 1º bimestre de 1996 Marca Unidades Vendidas* FIAT 18 GM 12 Total 30 *Em mil unidades SÉRIES CONJUGADAS: Também chamadas de tabelas de dupla entrada. São apropriadas à apresentação de duas ou mais séries de maneira conjugada, havendo duas ordens de classificação: uma horizontal e outra vertical. O exemplo abaixo é de uma série geográfico-temporal. Tabela IV – ABC Veículos LTDA. Vendas no 1º bimestre de 1996 Filiais Janeiro de 1996 Fevereiro de 1996 São Paulo 10 3 Rio de Janeiro 12 5 Total 22 8 *Em mil unidades 3.1 Descrição Tabular As técnicas usadas na descrição de um único atributo qualitativo são extremamente simples, chegando mesmo a ser intuitivas. Aliás, a simplificação é um dos objetivos da estatística descritiva. Ex. Tabela VII – Distribuição de Frequências da variável reação ao teste sorológico realizado no sangue de 50 indivíduos. Reação Número de Indivíduos + (Positiva) 29 - (Negativa) 21 Total 50 A descrição dos dados referentes a variáveis qualitativas é feita, em geral, através de tabelas de frequências, também conhecidas como tabelas de mono-entrada e como distribuições de frequência dos valores assumidos por alguma variável. Elas são constituídas de duas colunas: uma contendo valores que a variável assume e outra contendo os números de vezes (frequências) com as quais esses valores ocorrem. 2.2 FIGURAS As figuras são construções visuais que ilustram ou exemplificam aspectos tratados no texto. Os tipos mais comuns são mapas, plantas, gráficos de organização (fluxograma e organograma). Os gráficos são construções visuais que, através da manipulação de dados, geram novas informações e as tornam mais legíveis. Eles podem ser classificados de acordo com o modelo empregado. Ao se construir um gráfico, deve-se indicar a menor quantidade de variáveis. Isto porque à medida que se agregam mais variáveis, a leitura pode ficar prejudicada, podendo, inclusive, destruir a informação. Os tipos mais eficientes de gráficos são os lineares e os de barra. É importante salientar que o gráfico de setores (pizza) deve ser utilizado quando se deseja confrontar as partes integrantes de Estatística II Prof. Laura Maria Saporski Cachuba 28 um total, não sendo aconselhável representar um número maior de seis fatias para não prejudicar sua leitura. Gráfico é toda representação de dados e informações por meio de diagramas, desenhos, figuras ou imagens, de modo a possibilitar a interpretação da informação, de forma rápida e objetiva. A preocupação com a exatidão na sua representação deve ser constante, pois a informação transmitida não pode ser distorcida. São representações visuais dos dados estatísticos que devem corresponder, mas nunca substituir as tabelas estatísticas. Características: Uso de escalas, sistema de coordenadas, simplicidade, clareza e veracidade. A escolha do método a empregar quando se deseja representar graficamente alguma informação está diretamente associada ao tipo de dado e ao objetivo a que se propõe: apresentação técnico-científica, publicitária e outras. Gráficos de informação: São gráficos destinados principalmente ao público em geral, objetivando proporcionar uma visualização rápida e clara. São gráficos tipicamente expositivos, dispensando comentários explicativos adicionais. As legendas podem ser omitidas, desde que as informações desejadas estejam presentes. Gráficos de análise: São gráficos que se prestam melhor ao trabalho estatístico, fornecendo elementos úteis à fase de análise dos dados, sem deixar de ser também informativos. Os gráficos de análise frequentemente vêm acompanhados de uma tabela estatística. Inclui-se, muitas vezes um texto explicativo, chamando a atenção do leitor para os pontos principais revelados pelo gráfico. Uso indevido de gráficos: Podem trazer uma idéia falsa dos dados que estão sendo analisados, chegando mesmo a confundir o leitor. Trata-se, na realidade, de um problema de construção de escalas. Um gráfico, se bem construído, consegue transmitir uma idéia com muita rapidez e de forma simples e atraente, levando o leitor a poupar tempo e despender menor esforço na compreensão de uma série de dados, os quais são muitas vezes de difícil percepção na forma tabular. No entanto, se a relação entre os dados apresentados no gráfico não está clara, este deve ser descartado, pois não contribuirá para a análise. Nesse caso, a apresentação em tabelas torna-se mais conveniente. Logo, é condição necessária considerar as características dos dados a fim de escolher corretamente o modelo de gráfico a ser usado. Resumidamente: - Para apresentar dados em uma linha de tempo o gráfico mais indicado é o de linhas. - O gráfico de setores (ou pizza) é usado quando se representa 100% do total da amostra utilizada. Preferencialmente deverá ter no máximo 6 “fatias” para evitar poluição visual e impedir uma boa análise. - Se existir a necessidade de apresentar um número maior de categorias e/ou não se representar o total da amostra, os gráficos de barras serão mais indicados. Para se obter uma visualização correta das informações a serem apresentadas no gráfico, é necessário observar os parâmetros descritos a seguir: Proporções De importância fundamental, o uso de proporções corretas na elaboração do gráfico está diretamente associado á exatidão da informação nele contida. De acordo com as proporções adotadas nas escalas vertical e horizontal, obtém-se um gráfico “mais alto” ou “mais largo”, o que, conforme o caso, pode distorcer o resultado. Estatística II Prof. Laura Maria Saporski Cachuba 29 Um diagrama de linhas, por exemplo, se for mais largo do que alto poderá esticar a curva, dando a impressão de mudanças lentas, enquanto um gráfico muito alto em relação a largura comprime a curva, dando a impressão de alterações bruscas dentro de certo período. Composição É o conjunto formado pelo tamanho, forma e arranjo dos elementos dentro do gráfico. Considere-se que em trabalhos técnico-científicos, a finalidade principal dos gráficos não é a de representar uma composição artística e sim evidenciar informações. Assim, recomenda-se cuidados quanto aos aspectos destacados no gráfico, pois a tentativa de dar ênfase a tudo pode resultar na inexistência de destaques e/ou na falta de clareza. Simplicidade Um gráfico deve ser apresentado de forma simples a fim de propiciar ao observador uma percepção rápida do fenômeno. Mesmo contando com os recursos de informática disponíveis, o gráfico deve conter apenas o essencial para a sua construção. Deve-se evitar a representação de muitos aspectos em um único gráfico, bem como a utilização de traços inúteis que podem dar um tom artístico ao gráfico, mas dificultam a visualização do fenômeno apresentado. Clareza A apresentação do gráfico deve ser clara, de modo a proporcionar a interpretação correta dos valores representados. Os dados numéricos, suas unidades e as linhas que representam os valores devem ser colocados de modo a impossibilitar o aparecimento de dúvidas capazes de acarretar erros e levar a conclusões falsas sobre o fenômeno. O gráfico deve permitir uma única interpretação. Veracidade Um gráfico deve expressar a verdade sobre o fenômeno analisado. Para tanto, é importante que o gráfico seja construído com o máximo cuidado, quer quanto ao traçado, quer quanto á escala utilizada. A confecção de gráficos estatísticos requer, além da precisão no desenho, a escolha do modelo mais adequado, possibilitando que os dados sejam apresentados com exatidão. Necessita também que sejam apresentados com exatidão e que sejam observado alguns critérios gerais na sua apresentação. Em sua maioria, esses gráficos utilizam-se do sistema cartesiano, formado pelo cruzamento do eixo das abscissas (linha horizontal) com o eixo das ordenadas (linha vertical). O ponto de intersecção corresponde ao ponto (0,0), conhecido como origem, de onde se constrói uma escala em duas direções (positiva e negativa). Na escala horizontal (abscissas) representa-se principalmente a variação do fenômeno geográfico, cronológico ou específico (categorias, setores e outros), como, por exemplo, anos meses (cronológico), regiões, municípios (geográfico), setores da economia, classes de renda (específico). Na escala vertical (ordenada) normalmente representam-se os valores relativos ao fenômeno. Na confecção do gráfico deve-se utilizar as duas escalas com exatidão e a divisão destas é determinada pela amplitude dos dados e das categorias a representar. Valores negativos são representados normalmente dentro do sistema cartesiano, devendo-se observar cuidadosamente a forma de apresentá-los. Embora o usual seja a colocação dos valores no eixo das ordenadas, muitas vezes, quando existem dados negativos, é comum apresentá-los no eixo das abscissas, o que resulta em um gráfico confuso. Esse fato ocorre normalmente em trabalhos com fins publicitários. Estatística II Prof. Laura Maria Saporski Cachuba 30 3,2 Classificação dos Gráficos: Diagramas, Estereogramas, Pictogramas e Cartogramas. 1 – Diagramas: Tanto os diagramas quanto os gráficos são representações ilustradas de informações. Ambos são usados para a comunicação visual e seu objetivo é simplificar as informações que transmitem. Mas existem algumas diferenças. Um diagrama destina-se a: - Demonstrar ou explicar o funcionamento de algo. - Esclarecer o relacionamento entre as partes de um todo. O uso de diagramas é uma excelente forma de ilustrar um material conceitual e avivar documentos. Você pode, por exemplo, ilustrar como os personagens de um romance estão relacionados uns aos outros. Um gráfico destina-se a: - Apresentar informações oriundas de uma tabela. - Representar informações específicas graficamente. O uso de gráficos é uma excelente forma de facilitar a exibição e o entendimento de materiais complexos — como comparações, padrões e tendências de dados. Gráficos de Barra ou Coluna são representados em duas dimensões, podendo mostrar mais de uma variável. Não é aconselhável a apresentação de muitas variáveis, pois a interpretação pode ser confusa. São os mais usados na representação de séries estatísticas. Eles podem ser: 1.1 – Gráficos em barras horizontais. 1.2 – Gráficos em barras verticais (colunas). Quando as legendas não são breves usa-se de preferência os gráficos em barras horizontais. Nesses gráficos os retângulos têm a mesma base e as alturas são proporcionais aos respectivos dados. A ordem a ser observada é a cronológica, se a série for histórica, e a decrescente, se for geográfica ou categórica (gráfico de Pareto). 1.3 – Gráficos em barras compostas. 1.4 – Gráficos em colunas superpostas. Estatística II Prof. Laura Maria Saporski Cachuba 31 Gráfico XX: Gráfico de barras para comparação da distribuição de frequências de uma variável (raça) em vários grupos (indigentes, pobres e população total). Eles diferem dos gráficos em barras ou colunas convencionais apenas pelo fato de apresentar cada barra ou coluna segmentada em partes componentes. Servem para representar comparativamente dois ou mais atributos. 1.5 – Gráficos em linhas ou lineares. São frequentemente usados para representação de séries cronológicas com um grande número de períodos de tempo. As linhas são mais eficientes do que as colunas, quando existem intensas flutuações nas séries ou quando há necessidade de se representarem várias séries em um mesmo gráfico. Quando representamos, em um mesmo sistema de coordenada, a variação de dois fenômenos, a parte interna da figura formada pelos gráficos desses fenômenos é denominada de área de excesso. 1.6 – Gráficos em setores. Este gráfico é construído com base em um círculo, e é empregado sempre que desejamos ressaltar a participação do dado no total. O total é representado pelo círculo, que fica dividido em tantos setores quantas são as partes. Os setores são tais que suas áreas são respectivamente proporcionais aos dados da série. O gráfico em setores só deve ser empregado quando há, no máximo, sete dados. Obs: As séries temporais geralmente não são representadas por esse tipo de gráfico. Estatística II Prof. Laura Maria Saporski Cachuba 32 2 – Estereogramas: São gráficos geométricos dispostos em três dimensões, pois representam volume. São usados nas representações gráficas das tabelas de dupla entrada. Em alguns casos este tipo de gráfico fica difícil de ser interpretado dada a pequena precisão que oferecem. 3 – Pictogramas: São construídos a partir de figuras representativas da intensidade do fenômeno. Este tipo de gráfico tem a vantagem de despertar a atenção do público leigo, pois sua forma é atraente e sugestiva. Os símbolos devem ser autoexplicativos. A desvantagem dos pictogramas é que apenas mostram uma visão geral do fenômeno, e não de detalhes minuciosos. Veja o exemplo abaixo: 4 – Cartogramas: São ilustrações relativas a cartas geográficas (mapas). Este gráfico é empregado quando o objetivo é o de figurar os dados estatísticos diretamente relacionados com áreas geográficas ou políticas. Distinguimos duas aplicações: a. Representar dados absolutos (população) – neste caso, lançamos mão, em geral, dos pontos, em número proporcional aos dados. b. Representar dados relativos (densidade) – neste caso, lançamos mão, em geral, de hachuras ou cores. Estatística II Prof. Laura Maria Saporski Cachuba 33 Fonte: IBGE, Amostra do Censo 2000. 3.3. Descrição Gráfica Os gráficos utilizados na descrição gráfica das variáveis qualitativas unidimensionais são: - Gráfico de Barras; - Gráfico de Colunas; - Gráficos de Pareto - Gráfico de Setores Circulares. Estatística II Prof. Laura Maria Saporski Cachuba 34 a) Gráfico de Barras Os gráficos de barras têm por finalidade comparar grandezas, por meio de retângulos de igual largura e alturas proporcionais às respectivas grandezas. Cada barra representa a intensidade de uma modalidade do atributo. As magnitudes das barras são representadas pelos respectivos comprimentos e seu traçado é feito tendo-se como referencia uma escala horizontal. Em geral, as divisões da escala se prolongam em traços verticais por todo o gráfico, facilitando assim a leitura do comprimento de cada barra. A identificação da barra é inscrita á esquerda do gráfico. Há quatro orientações gerais a serem observadas na construção de um gráfico de barras: a) As barras só diferem em comprimento, e não em largura, a qual é arbitrária. b) As barras só devem vir separadas umas das outras pelo mesmo espaço, o qual é deve ser suficiente para que as inscrições que identificam as diferentes barras não tragam confusão ao leitor. Como regra prática pode-se tomar o espaço entre as barras como aproximadamente a metade ou dois terços de suas larguras. A junção das barras (excluindo-se o espaço) é utilizada quando o que se representa no gráfico possui uma continuidade e são ordinais (exemplo: classe socioeconômica) c) As barras devem ser desenhadas observando sua ordem de grandeza, para facilitar a leitura e análise comparativa dos valores. d) Um gráfico, construído para mostrar grandezas absolutas, deverá ter uma linha zero claramente definida e uma escala de quantidades ininterrupta, caso contrário, a leitura e a interpretação do gráfico poderão ficar distorcidas. Fonte: Secretaria de Saúde do Estado do Paraná. b) Gráfico de Colunas Os gráficos de colunas prestam-se à mesma finalidade que os gráficos de barras, sendo, entretanto, preferíveis a esses últimos quando as legendas a se inscreverem sob os retângulos forem breves. Caso contrário, o emprego do gráfico de barras é mais adequado. Então, a única diferença 51,2 20,1 7,3 4,2 4,2 3 3 1,8 1,8 1,2 0,6 0,6 0,6 0 10 20 30 40 50 60 Supermercado Posto de Saúde Hotel Cto. Coml. Clube Social Lanchonete Hospital Refeitório Indl. Creche Escola Festa Comum. Refeitório Com. Domicílio Figura 1. Percentuais de Local de Ocorrência de Surtos de Doenças Transmitidas por Alimentos - Paraná - 1997 Estatística II Prof. Laura Maria Saporski Cachuba 35 entre os dois gráficos reside na direção dos retângulos. Todas as demais observações apresentadas anteriormente são extensíveis a esse último caso. Observe as duas figuras a seguir. Note que a simples alteração na escala modifica a primeira impressão que se tem ao observar o gráfico. Na figura 2, um observador mais desatento pode achar que o resultado foi desfavorável à cantina, devido ao tamanho das barras, indicando o resultado “Péssimo”. No entanto, quando colocamos a escala de 0 a 100, a diferença não chega a ser tão chamativa, e a tendência é que se observem os valores apresentados. Neste caso, notamos que a soma de “Ótima” e “Boa” excede o percentual de “Péssimo”. c) Diagramas de Pareto Uma forma mais conveniente de indicar relações entre dados qualitativos é a construção de um diagrama de Pareto. Recorde que os dados qualitativos representam uma característica não- numérica, como os tipos de morte acidental, exemplos já relacionados aqui. Um diagrama de Pareto é um gráfico em barras para dados qualitativos, com as barras ordenadas de acordo com a frequência. Tal como no caso dos histogramas, as escalas verticais em um diagrama de Pareto 16,13 25,81 2,15 8,60 34,41 12,90 0,00 5,00 10,00 15,00 20,00 25,00 30,00 35,00 Ótima Boa Aceitável Ruim Péssima Não como na cantina Figura 2. Qual a sua opinião sobre a comida servida na Cantina? 16,13 25,81 2,15 8,60 34,41 12,90 0,00 10,00 20,00 30,00 40,00 50,00 60,00 70,00 80,00 90,00 100,00 Ótima Boa Aceitável Ruim Péssima Não como na cantina Figura 3. Qual a sua opinião sobre a comida servida na Cantina? Estatística II Prof. Laura Maria Saporski Cachuba 36 podem representar frequências absolutas ou frequências relativas. A barra mais alta fica à esquerda. e as barras menores na extrema direita. Dispondo as barras por ordem de frequência, o diagrama de Pareto focaliza a atenção sobre as categorias mais importantes. O Princípio de Pareto determina que podemos solucionar 80% dos meus problemas mexendo em somente 20% das causas (ou regra 80/20). Ele foi sugerido por Joseph M. Juran, o mestre da qualidade, que deu o nome em homenagem a Vilfredo Pareto. Pareto era um economista italiano sociopolítico que, no fim do século XIX percebeu que 80% da riqueza italiana ia para 20% da população. A principal característica do princípio é definir visivelmente a relação ação/benefício. Dessa forma, pode-se focar nas ações que nos darão os melhores resultados. Qual a finalidade deste princípio? Este princípio é importante para aqueles que querem entender a mecânica por trás das causas e soluções dos problemas em seus projetos. Por exemplo, se conseguimos identificar os 20% das funções mais utilizadas em nossa área, podemos trabalhar duro para melhorar o todo. Se você entendeu bem o conceito, já descobriu que melhorar esses 20% de código soluciona 80% dos seus problemas. Adicionar a Análise de Pareto à sua análise gerencial é muito interessante, principalmente quando você consegue expandir o conceito da regra para aplicá-la à sua realidade. Isto significa que devo esquecer os tais 20%? Claro que não! Esquecer-se dos 20% poderia significar perder 20% dos teus clientes, o que é um absurdo! Essa análise é voltada para resultados com o menor esforço (quando os prazos estão apertados e a resposta precisa ser rápida), mas temos sempre que trabalhar em todas as causas para que não hajam brechas para a concorrência. Pra finalizar, vale dizer que nem sempre as quantidades vão ser exatamente essas (nem que elas necessariamente somem 100%), mas a idéia principal é que um pequeno número de causas é responsável por um grande número de efeitos. Para construir o diagrama de Pareto: 1- Defina o objetivo da análise (por exemplo: índice de rejeições). 2- Estratifique o objeto a analisar (índice de rejeições: por turno; por tipo de defeito; por máquina; por operador; por custo). 3- Colete os dados, utilizando uma folha de verificação. 4- Classifique cada item. 5- Reorganize os dados em ordem decrescente. 6- Calcule a porcentagem acumulada. 7- Construa o gráfico, após determinar as escalas do eixo horizontal e vertical. 8- Construa a curva da porcentagem acumulada. Ela oferece uma visão mais clara da relação entre as contribuições individuais de cada um dos fatores. Estatística II Prof. Laura Maria Saporski Cachuba 37 Modelo de Lista de verificação: Componente: Conjunto ABC Seção: Linha de montagem Processo de trabalho: montagem Data da produção: 30/03/05 Quantidade produzida: 1.000 peças Inspetor: Tipo de defeito Tabulação Frequência do item Classificação % individual Alinhamento ///// ///// // 12 6º 06% Solda ///// ///// ///// ///// / 21 4º 10% Parafuso solto ///// ///// /////...///// /// 68 1º 34% Junção ///// ///// ///// 15 5º 07% Sujeira ///// ///// /////...///// / 41 2º 20% Riscos ///// ///// /////...///// //// 29 3º 14% Trinca ///// ///// 10 7º 05% Rebarba ///// / 06 8º 03% Bolha / 01 9º 01% Totais 202 - 100% Modelo de Lista de verificação: Componente: Conjunto ABC Seção: Linha de montagem Processo de trabalho: montagem Data da produção: 30/03/09 Quantidade produzida: 1.000 peças Inspetor: Tipo de defeito Tabulação Frequência do item Classificação % Individual % acumulada Parafuso solto ///// ///// /////...///// /// 68 1º 34% 34% Sujeira ///// ///// /////...///// / 41 2º 20% 54% Riscos ///// ///// /////...///// //// 29 3º 14% 68% Solda ///// ///// ///// ///// / 21 4º 10% 78% Junção ///// ///// ///// 15 5º 07% 85% Alinhamento ///// ///// // 12 6º 06% 91% Trinca ///// ///// 10 7º 05% 96% Rebarba ///// / 06 8º 03% 99% Bolha / 01 9º 01% 100% Totais 202 - 100% - Estatística II Prof. Laura Maria Saporski Cachuba 38 Estatística II Prof. Laura Maria Saporski Cachuba 39 d) Gráfico de Setores Circulares Gráficos de setores em círculos são aqueles em que a área do círculo (que equivale a 360º) é proporcional ao total da série estatística a ser representada, enquanto as áreas dos setores são proporcionais às parcelas que constituem a série. Logo, esse tipo de gráfico é adequado quando se deseja apresentar partes de um total, ou seja, quando o objetivo é comparar uma determinada parcela em relação ao total. Preferencialmente deve-se apresentar os valores em percentuais. É muito importante observar a quantidade de categorias a serem consideradas. Embora alguns softwares possibilitem a divisão em um número maior de fatias, não é aconselhável utilizar mais que oito categorias e, mesmo nesse caso, deve-se considerar os valores, pois a comparação entre categorias pode ficar prejudicada e o gráfico poluído, o que dificulta a visualização. Figura 4. Você tem acesso à Internet? 17% 22% 39% 10% 12% Sim, em casa Sim, em casa e na escola Sim, na escola Sim, outros lugares Não Estatística II Prof. Laura Maria Saporski Cachuba 40 Critérios Gerais para Apresentação de Tabelas, Gráficos e Figuras As tabelas, os gráficos e as figuras são apresentados conforme os seguintes critérios: 1. devem ser dotados de todas as informações necessárias a uma completa compreensão do conteúdo, e apresentados da maneira mais simples e objetiva possível; 2. podem ser intercalados no texto ou colocados em anexo. As figuras em anexo devem ser utilizadas quando o volume desses elementos for grande, o que dificultaria a leitura contínua do texto; 3. quando inseridos em um texto, devem estar localizados próximos ao trecho em que são citados pela primeira vez, separados da linha de texto precedente por uma linha em branco; 4. devem ser alinhados preferencialmente nas margens laterais do texto e, quando pequenos, devem ser centralizados; 5. devem ser compostos de maneira a evitar que sua colocação tenha sentido de leitura diferente da normal. Quando isto não for possível, nem mesmo por redução, deverão ser colocados de tal forma que sua leitura seja feita no sentido horário; 6. deve-se evitar o formato maior do que aquele adotado para o texto (formato A4); em alguns casos, pode ser feita redução gráfica, desde que não prejudique a legibilidade do material reduzido; 7. quando for indispensável utilizar abreviaturas que não sejam de uso corrente, deve-se indicar seu significado utilizando uma nota específica; 8. os títulos são listados pela sua natureza (tabela, gráfico e figura), sendo a lista colocada no início do trabalho, após o sumário. A ordem recomendada é a seguinte: figuras, tabelas e gráficos. Partes componentes de Figuras, Tabelas e Gráficos As partes componentes de figuras, tabelas e gráficos são: título; corpo; referência, fonte e/ou autoria; nota(s) ou observações gerais; nota(s) específica(s); e legenda. Título O título compõe-se da referência (tipo de elemento e número), da descrição do conteúdo e da data de referência, apresentado conforme os seguintes critérios: 1. o corpo de tabelas, gráficos e figuras deve ser inserido antes dos títulos dos mesmos; 2. deve ser autoexplicativo, ou seja, apresentar o conteúdo deles de maneira completa; 3. deve ser centralizado em relação aos limites da tabela, gráfico e figura; Referência, fonte e/ou autoria A referência é o componente que identifica uma tabela, gráfico ou figura no texto ou em anexos. Sua presença no título é obrigatória. Exemplos: Tabela 5. Consumo de energia elétrica no Paraná, janeiro de 1995. Gráfico 5. Área, produção e rendimento médio do café, no Brasil e no Paraná. Estatística II Prof. Laura Maria Saporski Cachuba 41 Os seguintes procedimentos devem ser adotados em uma referenciação: a) deve ser escrita com a primeira letra maiúscula e separada da primeira linha da descrição do conteúdo por um ponto; b) as referências devem ser numerados de 1 a n, seguindo uma sequência para cada capítulo; c) na numeração por capítulo, o número de ordem deve ser precedido do número do capítulo, separado deste por um ponto; Exemplos: Tabelas do Capítulo 1 Tabela 1.1. Tabela 1.2. Tabelas do Capítulo 2 Tabela 2.1. Tabela 2.2. d) este mesmo procedimento deve ser feito para tabelas em Anexo, sendo o número de ordem precedido pela letra A (de anexo). Exemplos: Tabelas do Anexo 1 Tabela A.1 Descrição do conteúdo Deve conter a designação do fato observado e o local de ocorrência. A descrição do conteúdo é feita segundo os critérios a seguir: a) deve ser escrita com a primeira letra maiúscula, após a referência e separada desta por um ponto e um espaço. Exemplo: Tabela 5. Rendimento médio da produção de algodão herbáceo no Brasil, 1992. b) deve informar todo o conteúdo do corpo do elemento (tabela, gráfico ou figura); c) quando se tratar de tabela estatística deve ser feita preferencialmente nesta ordem: descrição do cabeçalho, descrição da coluna indicadora e local a que se refere o conteúdo da tabela. Data de referência Este componente identifica o período referente aos dados e/ ou informações registrados. Os critérios a seguir devem ser observados na indicação da data de referência dos dados: a) deve ser obrigatoriamente indicada, exceto quando a natureza dos dados não o permitir, como é o caso de dados físico-territoriais; Exemplo: Tabela 5. Coordenadas geográficas do Paraná, segundo os pontos extremos. b) deve ser colocada após a descrição do conteúdo, na mesma linha, podendo ser integrada à parte descritiva nos casos em que possibilite uma melhor compreensão do conteúdo; Exemplos: Tabela 5. População estimada para o ano 2000 segundo o sexo – Paraná. Corpo É a parte da tabela, gráfico ou figura que contém os dados e informações. Corpo de tabelas estatísticas Em uma tabela estatística o corpo é estruturado com cabeçalho e coluna indicadora, podendo ainda existir uma coluna complementar. Identificam-se, ainda, traços, linhas, colunas e casas. Estatística II Prof. Laura Maria Saporski Cachuba 42 Cabeçalho É a parte superior da tabela que especifica o conteúdo das colunas. Pode ser constituído de um ou vários níveis. Os seguintes procedimentos devem ser adotados na apresentação do cabeçalho de uma tabela: 1. as especificações de primeiro nível devem, preferencialmente, conter as denominações apresentadas no título; 2. na indicação de totais (geral ou parcial) considerar a ordem de apresentação e classificação; 3. as unidades de medida dos dados devem ser indicadas no cabeçalho e/ou na coluna indicadora no mesmo nível da especificação a que se referem, entre parênteses, preferencialmente abaixo da especificação; 4. quando forem utilizadas siglas e abreviaturas que não sejam de uso corrente, deve-se indicar o seu significado utilizando uma nota específica; Coluna indicadora É a parte da tabela que especifica o conteúdo das linhas. Na sua apresentação, devem ser observados os seguintes aspectos: 1. o cabeçalho dessa coluna deve apresentar a denominação constante no título, evitando-se, tanto quanto possível, o uso de palavras de sentido general como Especificação ou Descrição. O termo utilizado no cabeçalho pode ser escrito no singular ou no plural; entretanto, adotada uma forma, esta deve ser mantida em todo o trabalho; 2. a coluna indicadora pode apresentar especificações, que como o cabeçalho, estejam subdivididas em níveis diversos. Nestes casos, as indicações dos níveis subseqüentes são transcritas com um afastamento de dois espaços em relação ao nível anterior; 3. sempre que possível, deve-se evitar o uso de siglas e abreviaturas nas colunas. Totalizações Quanto às totalizações, deve-se observar o seguinte: 1. a soma dos dados numéricos contidos em uma linha ou coluna deve ser indicada pela palavra total, exceto quando a soma se referir a uma área geográfica ou a uma categoria, casos em que deve ser indicada pela designação destas; 2. o total pode preceder ou suceder as parcelas, mas em qualquer dos casos o modo de apresentação deve ser uniforme em todo trabalho. É preferível dar sucessão às parcelas, visando facilitar, quando necessário, à conferência dos dados; 3. os totais parciais devem ser indicados com a palavra Total, escrita apenas com a letra inicial maiúscula. Deve-se evitar o uso do termo subtotal para esta finalidade; 4. a soma dos totais parciais deve ser indicada pela expressão Total geral; 5. os dados das linhas e/ou colunas referentes às totalizações não sofrerão, via de regra, tratamento especial. Havendo necessidade de destacar os dados, deve-se usar um espaçamento maior entre as outras linhas e a linha de totalização, para ressaltá-la, ou então colocar em negrito o termo que indica totalização. Não deverão ser usados traços sob os números para esta finalidade. Linha Corresponde ao conjunto de elementos dispostos horizontalmente no corpo da tabela. Coluna Corresponde ao conjunto de elementos dispostos verticalmente no corpo da tabela. Os dados deverão, preferencialmente, obedecer à seguinte disposição nas colunas: alinhados no canto direito, Estatística II Prof. Laura Maria Saporski Cachuba 43 deixando o espaço correspondente a uma letra da linha imaginária; a última coluna deve estar alinhada no limite direito da tabela, sem espaço. Casa É o elemento do corpo de uma tabela, identificado pelo cruzamento de uma linha com uma coluna. As casas não devem ficar em branco. Caso não se disponha de dados para o seu preenchimento, devem ser utilizados os sinais convencionais adequados. Estes devem obrigatoriamente ser escritos nas publicações antecedendo as tabelas, ou, em se tratando de um número reduzido de tabelas, ser escrito no rodapé da tabela em forma de NOTA. Nos casos em que se dispõe do dado observado, mas é necessário prestar algum esclarecimento adicional (dado preliminar, estimado, retificado), este deve ser feito utilizando-se uma NOTA. Quando o dado apresentado tem valor negativo, o fato deve ser indicado através do sinal negativo. Exemplos: - 327 ou - 32,20 Traço O traço é o elemento utilizado para delimitar o cabeçalho e a finalização da tabela. Os seguintes procedimentos devem ser adotados quanto à utilização de traços em uma tabela: 1. para delimitação das linhas e colunas não deverão ser utilizados traços; 2. obrigatoriamente devem ser traçados o cabeçalho e o limite inferior da tabela; 3. quando uma tabela, por sua excessiva altura, tiver de ocupar mais de uma página, não deve ser delimitada (traçada) na parte inferior, mas apenas na última página. Neste caso, deve-se indicar no rodapé e ao lado direito, a palavra continua escrita em letras minúsculas, alinhada com a tabela; o título e o cabeçalho devem ser repetidos em todas as páginas que forem ocupadas pela tabela. Com exceção da primeira página da tabela (que conterá apenas a palavra continua) e da última página (que conterá apenas a palavra conclusão), todas as outras terão a palavra continuação, localizada acima do cabeçalho, alinhada externamente no limite direito deste, escrita com letras minúsculas. O termo conclusão constará somente da última página da tabela, na mesma posição que o termo continuação, escrito também em letras minúsculas. O Word e o Excel possuem a função “repetir linha de cabeçalho” e “repetir coluna” para tabelas que precisem ser “quebradas” em mais de uma página. 4. as tabelas estatísticas não devem ser delimitadas por traços verticais em suas laterais, o que é permitido para tabelas não estatísticas. Fonte Consiste na indicação da entidade (ou entidades) responsável pelo fornecimento ou elaboração dos dados e/ou informações constantes de tabelas, gráficos e figuras. Exemplos: FONTE: IBGE FONTES: SERPRO, DATAMEC Na indicação da fonte devem ser observados os seguintes critérios: a) quando os dados tiverem sido trabalhados ou elaborados (p. ex.: cálculos de taxas, variações, percentuais, índices, deflação, entre outros), utilizar a expressão FONTE DOS DADOS BRUTOS para indicar o órgão responsável pelo fornecimento dos dados brutos, apresentando numa nota o responsável pelo dado trabalho. Exemplos: FONTE DOS DADOS BRUTOS: Censo Agropecuário - IBGE NOTA: Dados elaborados pelo IPARDES Estatística II Prof. Laura Maria Saporski Cachuba 44 b) as expressões FONTE, FONTES ou FONTE DOS DADOS BRUTOS devem ser escritas em letras maiúsculas e separadas do nome do órgão fornecedor dos dados por meio de dois pontos e um espaço. Após o nome do órgão não há ponto final; Exemplos: FONTE: IPARDES c) o órgão responsável pelo fornecimento dos dados deve ser escrito em letras maiúsculas, quando for utilizada a sua sigla, ou apenas com as iniciais maiúsculas, quando for utilizado o seu nome por extenso. Adotado um dos procedimentos, este deve ser mantido sempre que for possível; d) no caso em que os dados da tabela forem fornecidos por diversas fontes, os nomes ou siglas referentes a estas devem ser separados por vírgulas. Exemplo: FONTES: IBGE, IPARDES, SESA e) quando os dados forem obtidos de publicações periódicas, é conveniente indicar o nome da publicação seguida do órgão editor, separados por hífen e escritos apenas com as iniciais maiúsculas, à exceção das siglas; Exemplo: FONTE: Censo Demográfico - IBGE f) para dados extraídos de publicações monográficas (livros, teses, relatórios de pesquisa entre outros), convém indicar a fonte conforme as normas de referências bibliográficas. g) quando os dados são extraídos de uma publicação, mas a fonte original é outra, é conveniente indicar como fonte o órgão de origem dos dados, informando em uma NOTA de onde foram retirados os dados; Exemplos: FONTE: BACEN NOTA: Extraído da Base Pública do Estado do Paraná (BPUB). Nota Utiliza-se o termo NOTA para apresentar as informações destinadas a conceituar ou esclarecer o conteúdo ou indicar a metodologia utilizada na coleta ou na elaboração dos dados. As notas são apresentadas conforme os seguintes critérios: a) a palavra NOTA deve ser escrita com letras maiúsculas, seguidas de dois pontos, e a descrição ou esclarecimentos, com letras maiúsculas e minúsculas, conforme uso normal, seguido de ponto final; Exemplo: NOTA: Os dados foram extraídos do Censo Demográfico de 1980. b) deve ser apresentada logo a seguir da FONTE; c) quando o esclarecimento ocupar mais de uma linha, o texto da segunda e demais linhas deverá ter início abaixo da primeira letra do esclarecimento; d) quando houver mais de um esclarecimento (mais de uma informação de natureza geral), deve ser usada a palavra NOTAS escrita em letras maiúsculas; Exemplo: NOTAS: 1 Os dados foram extraídos do Censo Demográfico de 1980. 2 A fonte deixou de realizar o levantamento de cana para forragem. e) os esclarecimentos constantes nas NOTAS podem ou não ser numerados. Porém, iniciam-se sempre em nova linha; f) as notas de tabelas estatísticas que ocuparem mais de uma página devem figurar apenas na última página, ao final da tabela. Estatística II Prof. Laura Maria Saporski Cachuba 45 Nota Específica Utiliza-se a nota específica para apresentar informações sobre uma parte ou item específicos de uma tabela, gráfico ou figura, destinados a descrever conceitos ou a esclarecer dados. Os procedimentos a seguir devem ser adotados sempre que se fizer uso de uma nota específica: 1. deve ser chamada, no corpo e no rodapé, por algarismos arábicos, colocados entre parênteses; 2. quanto à disposição no corpo de uma tabela estatística: 1. a numeração das chamadas para as notas específicas deve ser sucessiva, de cima para baixo e da esquerda para a direita; 2. no cabeçalho e na coluna indicadora de tabelas estatísticas deve ser colocada à direita das especificações, preferencialmente com número sobrescrito; 3. quanto à disposição no rodapé: 1. deve ser colocada logo após a nota (ou logo após a FONTE quando não existir NOTA), de acordo com sua sequência, iniciando-se para cada chamada uma nova linha; 2. a indicação de chamada deve ser separada do texto referente à nota específica por meio de um espaço em branco; 3. o texto referente à nota específica deve ser escrito em letras maiúsculas, conforme uso normal, seguido de ponto final; 4. quando o esclarecimento ocupar mais de uma linha, o texto da segunda e das demais linhas deverão acompanhar o alinhamento da primeira linha; 5. as notas específicas de uma tabela estatística que ocupar em mais de uma página devem figurar no rodapé desta, na última página. Legenda É a descrição das convenções utilizadas na elaboração de gráficos, figuras e mapas. É obrigatório o seu uso sempre que for representada mais de uma variável. Estatística II Prof. Laura Maria Saporski Cachuba 46 Elaborando um questionário - QUESTIONÁRIOS Segundo Parasuraman (1991), um questionário é tão somente um conjunto de questões, feito para gerar os dados necessários para se atingir os objetivos do projeto. Embora o mesmo autor afirme que nem todos os projetos de pesquisa utilizam essa forma de instrumento de coleta de dados, o questionário é muito importante na pesquisa científica, especialmente nas ciências sociais. Parasuraman afirma também que construir questionários não é uma tarefa fácil e que aplicar tempo e esforço adequados para a construção do questionário é uma necessidade, um fator de diferenciação favorável. Não existe uma metodologia padrão para o projeto de questionários, porém existem recomendações de diversos autores com relação a essa importante tarefa no processo de pesquisa científica. Também chamados de survey (pesquisa ampla), o questionário é um dos procedimentos mais utilizados para obter informações. É uma técnica de custo razoável, apresenta as mesmas questões para todas as pessoas, garante o anonimato e pode conter questões para atender a finalidades específicas de uma pesquisa. Aplicada criteriosamente, esta técnica apresenta elevada confiabilidade. Podem ser desenvolvidos para medir atitudes, opiniões, comportamento, circunstâncias da vida do cidadão, e outras questões. Quanto à aplicação, os questionários fazem uso de materiais simples como lápis, papel, formulários, etc. Podem ser aplicados individualmente ou em grupos, por telefone, Internet, ou mesmo pelo correio. Pode incluir questões abertas, fechadas, de múltipla escolha, de resposta numérica, ou do tipo sim ou não. Construir um bom questionário depende não só do conhecimento de técnicas mas principalmente da experiência do pesquisador. Contudo, seguir um método de elaboração sem dúvida é essencial, pois identifica as etapas básicas envolvidas na construção de um instrumento eficaz. As etapas necessárias para o desenvolvimento de um questionário são: (i) Justificativa; (ii) Definição dos objetivos; (iii) Redação das questões e afirmações; (iv) Revisão; (v) Definição do formato; (vi) Pré-teste e (vii) Revisão final. A elaboração de um questionário é a atividade que exige maior atenção em todo o processo, pois será ele que trará as informações essenciais para o sucesso da pesquisa. Para se elaborar um questionário não devemos esquecer-nos de estabelecer uma ligação com o problema e os objetivos da pesquisa, as hipóteses da pesquisa, a população a ser pesquisada, os métodos de análise de dados escolhidos e/ou disponíveis. A determinação das informações a serem buscadas deve fluir naturalmente neste momento do processo, desde que as etapas precedentes da pesquisa tenham sido meticulosamente elaboradas. O desenvolvimento do questionário está ligado à formulação exata do problema a ser pesquisado e ao objetivo da pesquisa Ao elaborar o questionário observe as seguintes recomendações básicas: - Listar todos os pontos a pesquisar, evitando a repetição ou a ausência de alguma questão importante. - Elaborar perguntas de fácil entendimento. - Usar linguagem coloquial: clara, simples e objetiva. - Evitar termos técnicos e palavras em outro idioma. - Observar a sequência lógica das questões, facilitando a reposta do entrevistado. Estatística II Prof. Laura Maria Saporski Cachuba 47 - Cuidar do visual (layout) do questionário, tornando mais agradável a sua utilização. - Limitar perguntas a um passado próximo. - Não obrigar o entrevistado a fazer cálculos. - Ter cuidado com perguntas embaraçosas. - Não utilizar, em hipótese alguma, pergunta que induza à resposta. - Fornecer instruções para os entrevistadores. - Preparar, treinar e supervisionar o entrevistador. - Testar o questionário (pré-teste) numa pequena amostra e fazer os ajustes antes de aplicá-lo num grande número de pessoas. - Componentes do questionário Um questionário para ser eficaz deve conter os seguintes tipos de informação: a) Numeração; b) Identificação do respondente. Neste ponto colhe-se apenas o nome do respondente, deixando-se seus dados gerais para o final, do questionário, com vistas a se evitarem vieses. c) Solicitação de cooperação. É importante motivar o respondente através de uma prévia exposição sobre a entidade que está promovendo a pesquisa e sobre as vantagens que essa pesquisa poderá trazer para a sociedade e em particular para o respondente, se for o caso, não se esquecendo do tempo que a pessoa precisará para respondê-lo. d) Instruções. As instruções deverão ser claras e objetivas ao nível de entendimento do respondente e não somente ao nível de entendimento do pesquisador. e) Informações solicitadas. É efetivamente o que se pretende pesquisar. f) Informações de classificação do respondente. Os dados de classificação do respondente normalmente deverão estar no final do questionário. Pode ocorrer distorção se estiverem no início porque o entrevistado poderá distorcer as respostas, caso seus dados pessoais já estejam revelados no inicio da pesquisa. g) Filtro no início do questionário, se houver. - ERROS EM UM PROCESSO DE PESQUISA Em um processo de pesquisa podem ocorrer dois tipos de erros. São eles os erros amostrais e os erros não amostrais. O primeiro está ligado a falhas nos processos de escolha da amostra e da determinação do seu tamanho. Quanto aos erros não amostrais, inúmeras são as fontes de sua ocorrência; entre elas, questionários de dados mal elaborados, com questões tendenciosas ou dúbias e a escolha e/ou o uso incorreto de escalas de medição. A mensuração sempre ocorre em situações complexas, onde diversos fatores influenciam as características medidas e o processo de mensuração, podendo gerar erros não amostrais. Percebe-se, portanto, a importância de um questionário bem construído e bem aplicado, garantindo significativa redução no nível do erro não amostral! DECISÕES PARA A ELABORAÇÃO DO QUESTIONÁRIO a) Decisões sobre o conteúdo das perguntas Com relação ao conteúdo das perguntas, pode-se tentar verificar fatos, crenças quanto a fatos, crenças quanto a sentimentos, descoberta de padrões de ação e de comportamento presente ou passado. Destes itens, os mais difíceis de serem medidos são sentimentos e crenças quanto a fatos, já que são muito íntimos às pessoas, que nem sempre estão dispostas a externá-los. É necessário também que o pesquisador faça algumas reflexões, do tipo: a pergunta é realmente necessária? qual a sua utilidade? Estas perguntas desdobram-se nas seguintes questões: Estatística II Prof. Laura Maria Saporski Cachuba 48 . O assunto exige uma pergunta separada, ou pode ser incluído em outras perguntas? . Existem outras perguntas que já incluem adequadamente este ponto? . A pergunta é desnecessariamente minuciosa e específica? . Várias perguntas são necessárias sobre o assunto desta pergunta ou uma é o suficiente? . Deve-se evitar o uso de abreviação. Não se deve tratar dois assuntos complexos em uma mesma pergunta. . Todos os aspectos importantes sobre este tópico serão obtidos da forma como foi elaborada a pergunta? Em perguntas de opinião, interessa saber os graus de favorabilidade/desfavorabilidade, ou basta saber se é a favor ou contra? . As pessoas têm a informação necessária para responder a pergunta? O pesquisador deve examinar cada assunto, a fim de se certificar se é esperado do respondente que ele seja capaz de fornecer a informação desejada, ou seja, se ele é o portador da informação e se é capaz de lembrar-se dela. Costuma-se usar alguns "filtros", para detectar se o indivíduo tem ou não a informação desejada. Não basta porém que se esteja abordando a pessoa certa, é preciso saber se ela é capaz de se lembrar da informação. Nossa habilidade para nos lembrarmos dos eventos é influenciada pela importância do próprio evento para cada um, do tempo passado desde que ele ocorreu e da presença de estímulos que nos ajudem a recordar. . Os respondentes estarão dispostos a dar a informação? Não basta que o respondente tenha a informação. Ele precisa estar disposto a fornecê-la. Sua predisposição em responder parece ser função do tempo e trabalho envolvidos na elaboração da resposta, de sua habilidade em articular a resposta, e da sensibilidade do assunto tratado. . Que objeções alguém poderia ter para responder esta pergunta? . O tema abordado é muito íntimo, perturbador ou expõe socialmente as pessoas, de forma a causar resistências e respostas falsas? . O tema é embaraçoso para o respondente por colocar em perigo seu prestígio caso seja contrário a idéias socialmente aceitas? Para tentar diminuir esses problemas deve-se inicialmente fazer perguntas que sugiram comportamento comum para depois ir se aprofundando no assunto e assim mesmo procurando se referir a outras pessoas ou utilizar cartões com letras e números para minimizar o impacto sobre o respondente. . Deve a pergunta ser mais concreta, específica e mais diretamente ligada à experiência pessoal de quem responde? · O conteúdo da pergunta é suficientemente geral? Está livre de concreticidade ou especificidade desnecessárias? . O assunto é de tal ordem que uma pergunta específica possa trazer respostas inexatas ou enganadoras? Deve-se tomar o cuidado de não se usar perguntas muito específicas, quando, na verdade, a pesquisa for de caráter geral. Por exemplo, perguntar quantas vezes uma pessoa foi ao supermercado em determinado mês, pode resultar em uma resposta menos precisa do que se fosse perguntado a respeito do seu comportamento usual ou médio durante os meses anteriores. . O conteúdo da pergunta não estará enviesado ou carregado em determinada direção? Esta pergunta desdobra-se nas seguintes questões: - A pergunta é, devidamente, neutra, a fim de não influenciar nas respostas? - Pessoas com opiniões contrárias sobre o assunto não a considerarão tendenciosa? - A pergunta contém opiniões ou julgamentos relacionados ao assunto? - DECISÕES SOBRE O FORMATO DAS RESPOSTAS A escolha do formato das respostas mais adequado deve levar em conta as vantagens e desvantagens de cada tipo para o objetivo da pesquisa. As questões podem ser: a) abertas b) de múltipla escolha Estatística II Prof. Laura Maria Saporski Cachuba 49 c) dicotômicas a) Questões Abertas Nas questões abertas, os respondentes ficam livres para responderem com suas próprias palavras, sem se limitarem a escolha entre um rol de alternativas. Existe concordância em que se deve partir de questões gerais para específicas. Uma pergunta aberta geral, do tipo "Quando se fala em política, o que vem à sua cabeça?", proporciona um "insight" na estrutura de referência do respondente e pode ser muito útil na interpretação de respostas a perguntas posteriores. Outro importante uso é na obtenção de informações adicionais e esclarecimentos, com indagações como: "Por quê?", "Por favor, explique.", "Por que pensa dessa forma?". Segundo Mattar (1994), as principais vantagens e desvantagens das perguntas abertas são: Vantagens - Estimulam a cooperação; - Permitem avaliar melhor as atitudes para análise das questões estruturadas; - São muito úteis como primeira questão de um determinado tema porque deixam o respondente mais à vontade para a entrevista a ser feita; - Cobrem pontos além das questões fechadas; - Têm menor poder de influência nos respondentes do que as perguntas com alternativas previamente estabelecidas: - Exigem menor tempo de elaboração; - Proporcionam comentários, explicações e esclarecimentos significativos para se interpretar e analisar as perguntas com respostas fechadas; - Evita-se o perigo existente no caso das questões fechadas, do pesquisador deixar de relacionar alguma alternativa significativa no rol de opções. Desvantagens - Dão margem à parcialidade do entrevistador na compilação das respostas, já que não há um padrão claro de respostas possíveis. Assim, é difícil a codificação das respostas e sua conseqüente compilação; - Há grande dificuldade para codificarão e possibilidade de interpretação subjetiva de cada decodificador; - Quando aplicadas em forma de entrevistas, podem levar potencialmente a grandes vieses dos entrevistadores; - Quando feitas através de questionários auto-preenchidos, esbarram com as dificuldades de redação da maioria das pessoas, e mesmo com a "preguiça" de escrever. - São menos objetivas, já que o respondente pode divagar e até mesmo fugir do assunto; - São mais onerosas e mais demoradas para serem analisadas que os outros tipos de questões. b) Questões de Múltipla Escolha Nos casos de múltipla escolha, os respondentes optarão por uma das alternativas, ou por determinado número permitido de opções. Ao elaborar perguntas de respostas múltiplas, o pesquisador se depara com dois aspectos essenciais: o número de alternativas oferecidas e os vieses de posição. Pode-se apontar algumas considerações importantes relacionadas às questões de múltipla escolha. As alternativas devem ser coletivamente exaustivas e mutuamente exclusivas, ou seja, devem cobrir todas as respostas possíveis e uma alternativa deve ser totalmente incompatível com todas as demais. A alternativa "Outros. Quais? ______" é de grande ajuda para garantir a exclusão. Para que sejam mutuamente exclusivas, cada respondente deverá identificar apenas uma opção que represente corretamente sua resposta, ou seja, a escolha de uma alternativa deve excluir todas as demais. Estatística II Prof. Laura Maria Saporski Cachuba 50 Quanto aos vieses de posição, estes ocorrem em função da tendência de se escolher, no caso de palavras, as que aparecem como primeiras opções de resposta e, quando se tratar de números, a escolha daquele que ocupa a posição central. No intuito de contornar esses vieses, pode-se alternar a sequência de apresentação das opções de resposta, durante a coleta de dados, através de diversas formas para o questionário, ou para os cartões (caso sejam usados para listar alternativas). Apesar de dificultar o processo, esse procedimento é essencial para controlar esse viés. Segundo Mattar (1994), são as seguintes as principais vantagens e desvantagens das questões de múltipla escolha: Vantagens - Facilidade de aplicação, processo e análise; - Facilidade e rapidez no ato de responder; - Apresentam pouca possibilidade de erros; - Diferentemente das dicotômicas, trabalham com diversas alternativas. Desvantagens - Exigem muito cuidado e tempo de preparação para garantir que todas as opções de respostas sejam oferecidas; - Se alguma alternativa importante não foi previamente incluída, fortes vieses podem ocorrer, mesmo quando esteja sendo oferecida a alternativa "Outros. Quais?"; - O respondente pode ser influenciado pelas alternativas apresentadas. c) Questões Dicotômicas São as que apresentam apenas duas opções de respostas, de caráter bipolar, do tipo: sim/não; concordo/não concordo; gosto/não gosto. Por vezes, uma terceira alternativa é oferecida, indicando desconhecimento ou falta de opinião sobre o assunto. Normalmente, é assim expressa: ( ) não sei ou ( ) não tenho opinião formada. A inclusão desse tipo de resposta, é, por um lado, desaconselhável, pois pode servir de fuga para aquelas pessoas que não desejam tomar uma posição. Por outro lado, a falta dessa opção pode provocar dificuldades para muitas pessoas, que vendo-se forçadas a escolher entre uma das alternativas bipolares, acabam dando respostas enganadoras. A resposta dicotômica é adequada para muitas perguntas que se referem a questões de fato, bem como a problemas claros e a respeito dos quais existem opiniões bem cristalizadas. Segundo Mattar (1994), são as seguintes as principais vantagens e desvantagens das questões dicotômicas: Vantagens - Rapidez e facilidade de aplicação, processo e análise; - Facilidade e rapidez no ato de responder; - Menor risco de parcialidade do entrevistador; - Apresentam pouca possibilidade de erros; - São altamente objetivas. Desvantagens - Polarização de respostas e/ou possibilidade de forçar respostas em relação a um leque de opiniões; - Podem levar a erros de medição, se o tema foi tratado de forma dicotômica, quando na verdade apresenta várias alternativas, por exemplo, entre a concordância total e discordância total; - Dependendo de como a pergunta é feita, questões com respostas dicotômicas são fortemente passíveis de erros sistemáticos. Estatística II Prof. Laura Maria Saporski Cachuba 51 - DECISÕES SOBRE A FORMULAÇÃO DAS PERGUNTAS Na formulação das perguntas deve-se cuidar para que as mesmas tenham o mesmo significado para o pesquisador e para o respondente, evitando-se assim um erro de medição. Sabe-se que a formulação tem efeito sobre as respostas. É conveniente fazer as seguintes recomendações sobre a formulação das perguntas: - Usar comunicação simples e palavras conhecidas; - Não utilizar palavras ambíguas. - Evitar: perguntas que sugiram a resposta; perguntas com conteúdo emocional e/ou sentimento de aprovação ou reprovação; referências a nomes que impliquem em aceitação ou rejeição ou tenham componente afetivo; necessidade do respondente fazer cálculos para responder; perguntas de dupla resposta; alternativas longas; - Evitar mudanças bruscas de temas, (fazer uma ligação entre os temas); - Vieses involuntários, motivados por reação visando prestígio por parte do respondente, retraimento defensivo diante de perguntas personalizadas e a atração exercida pela resposta positiva. São condicionantes das respostas: - Busca de conformidade ao grupo; - Tendência de imitação social; - Medo do julgamento do outro; - Busca de prestígio social; - Participação nas emoções coletivas; - Submissão aos estereótipos culturais; - Medo de mudanças. Outros aspectos/questões referentes à redação das perguntas: - A pergunta pode ser mal compreendida? Contém frases ou termos difíceis e/ou obscuros? - Os termos utilizados serão bem compreendidos pelo público da pesquisa? Termos especializados são usados apenas quando realmente necessários, devendo-se assegurar que seu sentido torne-se claro através de figuras ou de outros meios. - A sentença é curta e simples? Sentenças longas e difíceis tendem as ser mal compreendidas. - Existe indefinição ou ambigüidade? Qual o outro sentido que a pergunta poderá ter para quem responde? - Enfatizar não intencionalmente uma palavra ou frase poderia mudar o sentido da pergunta? Segundo Selltiz et al (1974) se, mesmo depois de certificado que as perguntas estão apresentadas da maneira mais clara possível, ainda houver dúvidas quanto à compreensão, costuma- se incluir perguntas de acompanhamento, do tipo: " O que você quer dizer com isso?". ’Você poderia exemplificar?" Dessa maneira, torna-se possível verificar como a pessoa entendeu a questão e o que pretendeu dizer. - A pergunta exprime adequadamente todas as alternativas, ou mostra apenas um dos lados do tópico em questão? Ambos devem ser citados. - O quadro de referência é claro e uniforme para todas as pessoas que respondem? - A pergunta deixa claro que a pessoa deve respondê-la baseada naquilo que pensa ser a verdade e não naquilo que desejaria que fosse a verdade? - A frase é enviesada, ou seja, está emocionalmente carregada ou deformada para determinado tipo de resposta? - O que traria melhores resultados? Uma redação mais pessoal ou mais impessoal da pergunta? - O que seria melhor? Apresentar a pergunta de maneira direta ou indireta? Não há recomendações concretas quanto ao emprego de perguntas indiretas. Suas possibilidades e limitações devem ser examinadas caso a caso, de acordo com o objetivo da pesquisa. Entram em questão problemas Estatística II Prof. Laura Maria Saporski Cachuba 52 morais e técnicos: saber se a inferências pretendidas podem ser retiradas, sem prejuízo, das provas indiretas; se tal pergunta indireta irá enviesar a resposta; se as perguntas são altamente invasivas da intimidade etc. (Selltiz et al, 1974). - DECISÕES SOBRE A SEQUÊNCIA DAS PERGUNTAS A ordem na qual as perguntas são apresentadas pode ser crucial para o sucesso da pesquisa. Não há regras estabelecidas, mas alguns cuidados devem ser tomados. Mattar (1994) sugere: - Iniciar o questionário com uma pergunta aberta e interessante (para deixar o respondente mais à vontade e assim ser mais espontâneo e sincero ao responder as perguntas restantes). Iniciar com perguntas sobre a opinião do respondente pode fazer com que se sinta prestigiado e se torne disposto a colaborar. O primeiro contato do respondente com o questionário define sua vontade de respondê-lo ou até mesmo a decisão de não respondê-lo; - Usar temas e perguntas gerais no inicio do questionário, deixando as perguntas específicas para depois (vai se fechando o foco gradualmente); - As perguntas mais pessoais, sensíveis ou embaraçosas devem ser feitas somente no final do questionário e convém que sejam alternadas com questões simples; - Deve-se adotar uma ordem lógica de perguntas utilizando um fluxograma ou árvore de decisão para posicionar as perguntas; - Dar uma sequência lógica ao questionário. Mudanças de tópicos repentinas e "ir e voltar" ao assunto devem ser evitados; - Informações que classificam social, econômica ou demograficamente o respondente são pedidas no final, a não ser que alguma delas sirva como "filtro"; - Perguntas de caráter mais invasivo, ou que tratem temas delicados, não devem ser colocados no início do questionário e convém que sejam alternadas com questões simples; Outra preocupação com o questionário é a de explicar as condições adequadas para o seu uso e aplicação, tanto no caso de formulários auto-preenchidos quanto nos que utilizam entrevistadores. Devem ser fornecidas aos entrevistadores instruções claras de como proceder no campo, como abordar os respondentes, como preencher os instrumentos, etc. A seguir, são apresentados alguns pontos sobre os quais os entrevistadores devem ser orientados. - Proporcionar ao respondente uma situação de liberdade, em que a pessoa seja estimulada a apresentar francamente suas opiniões; - Garantir, se for o caso, o anonimato do respondente; - O entrevistador deve ser educado, amistoso e imparcial; - Nunca deverá mostrar surpresa ou desaprovação diante das opiniões de quem responde; - As perguntas precisam ser apresentadas da maneira exata, com as mesmas palavras que foram propostas; - Qualquer explicação improvisada da pergunta é proibida. Em casos em que se imagine, de antemão, que surgirão dúvidas, esclarecimentos devem ser previamente elaborados; - As perguntas devem seguir a ordem exata em que aparecem no questionário; - O entrevistador deve apresentar todas as perguntas, e jamais responder alguma por dedução própria; - Espera-se que o entrevistador registre fiel e integralmente a resposta; - É necessário que os entrevistadores sejam orientados em relação ao processo de amostragem. Por exemplo, como proceder em casos de recusas ou ausências. Estatística II Prof. Laura Maria Saporski Cachuba 53 - DECISÕES SOBRE A APRESENTAÇÃO E O VISUAL (LAYOUT) DO QUESTIONÁRIO (CARACTERÍSTICAS FÍSICAS) São pontos a serem definidos nesta fase: número de páginas; qualidade do papel e da impressão; tipos e tamanho de letras; posicionamento e tamanho dos espaços entre questões; cores da tinta e do papel para as respostas; espaço para resposta de cada questão; separação de campos para facilidade de digitação (praticamente obrigatória para se compilar as respostas e processá-las em tempo reduzido); impressão em frente e verso ou só na frente. Tais itens são relevantes para se ganhar a colaboração dos respondentes. Quanto melhor e mais adequada for a apresentação, maior a probabilidade de se elevar o índice de respostas. - DECISÕES QUANTO AO PRÉ-TESTE É importante a realização de um pré-teste porque é provável que não se consiga prever todos os problemas e/ou dúvidas que podem surgir durante a aplicação do questionário. Sem o pré-teste, pode haver grande perda de tempo, dinheiro e credibilidade caso se constate algum problema grave com o questionário já na fase de aplicação. Nesse caso o questionário terá que ser refeito e estarão perdidas todas as informações já colhidas. Segundo Mattar (1994), os pré-testes podem ser realizados inclusive nos primeiros estágios, quando o instrumento ainda está em desenvolvimento, quando o próprio pesquisador pode realizá- lo, através de entrevista pessoal. As instruções para a entrevista devem estar na formulação final, e serem obedecidas rigorosamente, para se ver se são ou não adequadas. Os resultados do pré-teste são então tabulados para que se conheçam as limitações do instrumento. Goode e Hatt (1972) destacam alguns sinais que indicam algo errado com o instrumento de coleta de dados e que deverão ser objeto de alterações por parte do pesquisador após o pré-teste: a) Ausência de ordem nas respostas. Frequentemente, a causa é uma questão (ou questões) que não se refere à mesma experiência em cada respondente. Isto pode ser provocado pelo uso de palavras difíceis, ou por questões que buscam obter muitos dados de uma só vez, etc. Respostas totalmente desordenadas são um sinal de alerta; b) Respostas "tudo-nada". Questões a que todos respondem da mesma maneira, podem revelar uma resposta estereotipada ou clichê; c) Grande proporção de respostas do tipo "não sei" ou "não compreendo". Estes casos indicam questões formuladas inadequadamente, ou um mau plano de amostragem. d) Grande número de qualificações ou comentários adicionais. É o que ocorre quando o teste piloto relaciona uma série de comentários ou fontes adicionais às alternativas de resposta oferecidas. e) Variação substancial de respostas quando se muda a ordem das questões f) Alta proporção de respostas recusadas. Aconselha-se rever com cuidado cada questão cujas recusas ultrapassem 5% (cinco por cento). Com relação ao pré-teste, recomenda-se: - Seus respondentes devem pertencer à população alvo da pesquisa e ter tempo suficiente para responder todas as questões; - Os entrevistadores devem ser experientes; Com relação aos elementos funcionais do questionário, deve-se verificar no pré-teste: - A clareza e a precisão dos termos utilizados - A necessidade eventual de desmembramento das questões - A forma das perguntas - A ordem das perguntas - A introdução - É importante também se fazer uma reflexão sobre o valor de cada pergunta. Caso o pré-teste revele necessidade de muitas alterações, o questionário revisado deverá ser então novamente testado. O processo será repetido tantas vezes quantas forem necessárias, até que o instrumento se encontre maduro, pronto para ser aplicado. Estatística II Prof. Laura Maria Saporski Cachuba 54 - MEIOS DE APLICAÇÃO DE UM QUESTIONÁRIO Os principais meios para aplicação dos questionários são: correspondência, telefone, e-mail (Internet), entrevista pessoal e auto-aplicável. Correspondência Vantagens: - Ampla cobertura geográfica e de perfil de público-alvo; - Permite maior número de questões; - Baixo custo por questionário. Desvantagens: - Retorno muito baixo, geralmente entre 1% e 2% e não passando de 10%; - Lentidão para retornar. Telefone Vantagens: - Rapidez na obtenção de informações; - Flexibilidade por parte do entrevistador; - Custos baixos quando aplicado numa região restrita. Desvantagens: - Questionários devem ser sucintos; - Restrito a pessoas que possuam telefone; - Horários dos telefonemas. E-mail Vantagens: - Cobertura mundial; - Permite maior número de questões; - Baixo custo por questionário; - Oferece tempo para o entrevistado. Desvantagem: - Retorno baixo; - Pode ser interpretado como e-mail indesejado (spam); - Restrito a pessoas que possuam acesso à Internet; - Não há garantia sobre o perfil do respondente. Entrevistas pessoais Vantagens: - Versatilidade; - Registro de observações; - Interatividade. Desvantagens: - Custo elevado; - O processo pode demorar. Auto-aplicáveis Vantagens: - Fácil operacionalização; - Baixo custo. Desvantagens: - Retorno relativamente baixo; Estatística II Prof. Laura Maria Saporski Cachuba 55 - Respostas nem sempre representativas; - Conta com boa vontade do entrevistado ou estímulos (sorteios, brindes, etc.). Estatística II Prof. Laura Maria Saporski Cachuba 56 Anexo I. Quadro Comparativo entre Técnicas de Coleta de Dados Técnica de Coleta Pontos Fortes Pontos Fracos Questionário - Garante o anonimato - Questões objetivas de fácil pontuação - Questões padronizadas garantem uniformidade - Deixa em aberto o tempo para as pessoas pensarem sobre as respostas - Facilidade de conversão dos dados para arquivos de computador - Custo razoável - Baixa taxa de respostas para questionários enviados pelo correio - Inviabilidade de comprovar respostas ou esclarecê-las - Difícil pontuar questões abertas - Dá margem a respostas influenciadas pelo “desejo de nivelamento social”(*) - Restrito a pessoas aptas à leitura - Pode ter itens polarizados/ambíguos Entrevista - Flexibilidade na aplicação - Facilidade de adaptação de protocolo - Viabiliza a comprovação e esclareci mento de respostas - Taxa de resposta elevada - Pode ser aplicada a pessoas não aptas à leitura - Custo elevado - Consome tempo na aplicação - Sujeita à polarização do entrevistador - Não garante o anonimato - Sensível aos efeitos no entrevistado - Características do entrevistador e do entrevistado - Requer treinamento especializado - Questões que direcionam a resposta Observação Direta - Capaz de captar o comportamento natural das pessoas - Minimiza influência do “desejo de nivelamento social” - Nível de intromissão relativamente baixo - Confiável para observações com baixo nível de inferência - Polarizada pelo observador - Requer treinamento especializado - Efeitos do observador nas pessoas - Pouco confiável para observações com inferências complexas - Não garante anonimato - Observações de interpretação difícil - Não comprova/esclarece o observado - Número restrito de variáveis Registros Institucionais (Análise Documental) - Baixo custo - Tempo de obtenção é reduzido - Informação é estável - Dados incompletos ou desatualizados - Excessivamente agregados - Mudanças de padrões no tempo - Uso restrito (confidencialidade) Estatística II Prof. Laura Maria Saporski Cachuba 57 Técnica de Coleta Pontos Fortes Pontos Fracos - Dados difíceis de recuperar Grupo Focal - Baixo custo e resposta rápida - Flexibilidade na aplicação - Eficientes para obter informações qualitativas em curto prazo - Eficiente para esclarecer questões complexas no desenvolvimento de projetos - Adequado para medir o grau de satisfação das pessoas envolvidas - Exige facilitador/moderador com experiência para conduzir o grupo - Não garante total anonimato - Depende da seleção criteriosa dos participantes - Informações obtidas não podem ser generalizadas (*) “desejo de nivelamento social” refere-se à tendência de alguém responder a um questionário não exatamente da forma em que a realidade se apresenta para ele, mas influenciado por um desejo de se apresentar externamente com outro nível social, mais alto (ou mais baixo), conforme as conveniências de sua imagem perante a sociedade. Por exemplo, em um questionário de uma administradora de cartões de crédito, a pessoa pode se ver impulsionada a declarar uma renda pessoal acima daquela que realmente possui. Fonte: McMillan, J. H. and Schumacher, S. Research in Education. Addison Wesley Educational Publishers Inc., New York, 1997, pp. 274-275. Estatística II Prof. Laura Maria Saporski Cachuba 58 Como Fazer Uma Tabulação e Análise de Dados de Uma Pesquisa A tabulação dos dados é um dos itens que compõem a execução de uma pesquisa. Deve ser entendido como o processo de apuração e de apresentação dos dados. A apresentação é realizada de duas formas: a) apresentação tabular; b) apresentação gráfica. O uso de planilhas eletrônicas (como o Excel, por exemplo) na falta de um software estatístico, ajuda bastante a realização do trabalho, principalmente se os dados já estiverem armazenados neste formato. A análise dos dados é o cálculo de medidas de posição (tendência central, quartis, percentis, etc...), de dispersão, de simetria e de curtose, para a apresentação dos dados e aplicação de testes estatísticos planejados. A interpretação dos dados é um item bastante complexo, pois requer do pesquisador uma postura crítica de como foi conduzida sua pesquisa (falhas e limitações) para que não superestime os resultados e o domínio do tema no qual foi realizada a pesquisa para saber os pontos fracos e fortes dos seus resultados. Tudo isso, aliado ao resultado da análise estatística das variáveis é que vai determinar a interpretação (conclusão) dos resultados. O relatório final (relatório de pesquisa) é um documento que apresenta a idéia central (pergunta de pesquisa e hipótese), a situação atual do conhecimento no assunto, e o método de como chegar à resposta da pergunta inicial, os resultados, a discussão (interpretação dos resultados) e a conclusão (resposta à pergunta de pesquisa). São três as razões para elaborar o relatório final: a primeira, de documentar a pesquisa realizada; a segunda, permitir que outro pesquisador possa avaliar a qualidade da pesquisa (validade, importância e aplicabilidade); a terceira, encaminhar o relatório de pesquisa para comunicar o andamento da mesma. O relatório final deve ser claro, preciso e objetivo na forma de redação. Vamos assumir um modelo simples de pesquisa, a partir de um questionário para entender melhor como funciona uma tabulação. Imaginem o questionário apresentado a seguir aplicado a um grupo de pessoas que freqüentavam uma feira de livros: (sem nos preocuparmos muito com a finalidade da pesquisa, somente para entender a tabulação com finalidade puramente didática). Para facilitar, vamos considerar que a pesquisa foi realizada com 30 pessoas. Estatística II Prof. Laura Maria Saporski Cachuba 59 Pesquisa “Feira do Livro 2008” Aplicador: ______________________________________________ data: ___/___/___ Nº do questionário: _______ 1. Qual a sua idade? a) ( ) abaixo de 25 anos b) ( ) de 25 a 35 anos c) ( ) de 36 a 45 anos d) ( ) de 46 a 55 anos e) ( ) acima de 56 anos 2. Você exerce trabalho remunerado? a) ( ) Sim b) ( ) Não 3. Qual a sua renda familiar mensal? a) ( ) abaixo de R$ 480,00 b) ( ) de R$ 480,00 até R$ 1.200,00 c) ( ) acima de R$ 1.200,00 e até R$ 2.000,00 d) ( ) acima de R$ 2.000,00 e até R$ 2.500,00 e) ( ) acima de R$ 2.500,00 e até R$ 3.500,00 f) ( ) acima de R$ 3.500,00 4. Qual o seu grau de escolaridade? a) ( ) ensino fundamental incompleto b) ( ) ensino fundamental completo c) ( ) ensino médio incompleto d) ( ) ensino médio completo e) ( ) ensino superior incompleto f) ( ) ensino superior completo g) ( ) especialização/mestrado/doutorado 5. Você está estudando atualmente? a) ( ) Sim b) ( ) Não 6. Você tem fluência em alguma língua? a) ( ) Sim. Qual?___________________ b) ( ) Não 7. Como tomou conhecimento da feira? a) ( ) Recomendado por um amigo b) ( ) Mala direta/Carta recebida c) ( ) Folder distribuído na rua d) ( ) Folder distribuído em escolas e) ( ) Televisão f) ( ) Jornal g) ( ) Cartaz /outdoor h) ( ) Rádio i) ( ) Internet j) ( ) Outros. Qual?________________ 8. Você pratica alguma atividade esportiva? a) ( ) Sim. Qual?___________________ b) ( ) Não 9. Responda sobre a seguinte afirmação: As feiras de livros são importantes para ajudar a fortalecer o hábito da leitura. a) ( ) concordo totalmente b) ( ) concordo parcialmente c) ( ) nem concordo nem discordo d) ( ) discordo parcialmente e) ( ) discordo totalmente Estatística II Prof. Laura Maria Saporski Cachuba 60 Notem que a apresentação visual de um questionário também é importante, mesmo que ele não seja entregue ao respondente. A cópia do questionário faz parte do relatório de apresentação da pesquisa como anexo e deve ser “agradável” aos olhos e de preferência concentrado, se possível, em uma página. Observação importante: o questionário exemplo apresenta vários “problemas”; o exercício em aula será analisar os dados da pesquisa fictícia e verificar os possíveis erros encontrados, decorrentes da “pesquisa mal elaborada”. Vamos imaginar possíveis respostas para esta pesquisa, conforme planilha em anexo no final. É possível usar palavras chaves para determinar as perguntas para facilitar. A inserção de marcadores como a, b, c, ..., ajudam na hora de digitar se estivermos usando softwares apropriados, ou não quisermos escrever as palavras por extenso. Por exemplo: em escolaridade, ao invés de escrevermos “superior incompleto” para a resposta, podemos marcar na planilha como e ; procedendo a contagem de “as” , “b´s”, “c´s”, e assim por diante, teremos a resposta de quantas respostas deste tipo tivemos na pesquisa. A digitação fica mais rápida, eficiente e podemos gastar mais tempo com a análise, que é o que realmente importa. Então, fazendo a tabulação com base nos dados apresentados no Anexo I: - A tabulação precisa ser feita pra cada pergunta (que para nós, em estatística, se “transforma” em uma variável, com respostas possíveis de serem determinadas, na maioria dos casos. - Deverá ser feita uma tabela e um gráfico para cada pergunta formulada no questionário. Lembre- se: tabelas e gráficos não tem valor se não forem pelo menos comentados. Analise se o resultado surpreendeu, apresentando resultado diverso do esperado, ou, ao contrário, ocorreu exatamente como vocês achavam que ocorreria. Comente mesmo assim! É importante que quem avalie sua pesquisa saiba o que o levou a pensar desta ou daquela maneira! - Após este trabalho, avalie os objetivos propostos no seu trabalho e veja se eles se verificaram e foram bem respondidos com a sua pesquisa. - Elabore uma conclusão geral, explanando sobre o resultado encontrado na pesquisa, positivo ou não. - “Tabular” nada mais é do que contar as respostas apresentadas em cada questão. Começando com a pergunta 1 (qual a sua idade?), note que para facilitar a análise o questionário “fechou” as idades em categorias. Isto evita o trabalho de coletar e depois montar a tabela de frequência; por outro lado, não permite reversão em outras categorias. Portanto, para usar desta forma é preciso ter certeza de que as categorias estão adequadas ao objetivo da pesquisa. - Na “digitação” optamos por digitar a letra da opção escolhida, logo temos na contagem: - Usando a opção de Tabela Dinâmica do Excel proceda da forma a seguir: Estatística II Prof. Laura Maria Saporski Cachuba 61 - Com a planilha já digitada no Excel, siga os passos abaixo. Estatística II Prof. Laura Maria Saporski Cachuba 62 - entre na Opção Dados – Relatório de tabela e gráfico dinâmicos. Estatística II Prof. Laura Maria Saporski Cachuba 63 - no quadro a seguir deixe marcada a opção “onde estão os dados que você deseja analisar?” – Banco de dados ou lista do Microsoft Excel. E na opção “Que tipo de relatório você deseja criar?” selecione “Tabela Dinâmica” e dê avançar. Estatística II Prof. Laura Maria Saporski Cachuba 64 - na Opção “Onde estão os dado que você deseja usar?” selecione a planilha toda clicando no botão ao lado do intervalo ou digite o intervalo da planilha. Estatística II Prof. Laura Maria Saporski Cachuba 65 - Dê avançar e escolha nova planilha para não poluir e dê concluir. - Vai surgir a seguinte planilha: Estatística II Prof. Laura Maria Saporski Cachuba 66 - Arraste o primeiro item (idade) para a primeira coluna; vai surgir um total de 30; em seguida arraste idade novamente para cima da palavra total e verifique a contagem feita. Estatística II Prof. Laura Maria Saporski Cachuba 67 - Temos então: 17 respostas “a” – ou seja, 17 pessoas com idade abaixo de 25 anos; 7 respostas “b” – ou seja, 7 pessoas com idade 25 a 35 anos; 3 respostas “c” – ou seja, 3 pessoas com idade 36 a 45 anos; 2 respostas “d” – ou seja, 2 pessoas com idade 46 a 55 anos; 1 resposta “e” – ou seja, 1 pessoa com idade acima de 56 anos; Para que a tabela fique mais “bonitinha” ou apresentável, substitua os ‘a´s” e “b`s” pelas respostas apresentadas no questionário. Não esqueçam: tabelas estatísticas são abertas em ambos os lados. Vocês podem usar outro tipo de formatação, mas não podem esquecer isto! Ou seja: Idade Frequência Percentual abaixo de 25 anos 17 57% de 25 a 35 anos 7 23% de 36 a 45 anos 3 10% de 46 a 55 anos 2 7% acima de 56 anos 1 3% Total 30 100% Estatística II Prof. Laura Maria Saporski Cachuba 68 17 7 3 2 1 0 2 4 6 8 10 12 14 16 18 abaixo de 25 anos de 25 a 35 anos de 36 a 45 anos de 46 a 55 anos acima de 56 anos Idade dos Frequentadores da Feira Os visitantes da feira eram, na sua maioria (57%) jovens com idade abaixo de 25 anos. Podemos dizer que o público da feira era basicamente pessoas com idade até 35 anos (80%). (olha a nossa frequência acumulada funcionando como aliada!) - Para trabalhar com as outras variáveis, o procedimento é o mesmo. Nas perguntas abertas a análise será feita manualmente, contanto o nº. de respostas iguais, ou relacionando todas as respostas fornecidas e apresentando, se possível em tabela. Se as respostas forem muito diferentes, relacionamos as respostas e comentamos de modo geral o que obtivemos. - Experimentem copiar a planilha e repetir a análise, ou realizar as outras. Na dúvida sobre a utilização do Excel, caso o nº. de entrevistas tenha sido pequeno, a tabulação pode ser feita manualmente. A idéia é a mesma. E não esqueçam: os comentários sobre cada gráfico e/ou tabela devem dizer mais do que o óbvio! A frase em itálico sobre o gráfico apresentado, seria totalmente inútil se os valores, ao invés de serem valores absolutos, estivessem representados em percentual (o que de modo geral é sempre preferível!). O ideal seria tentar especular o porquê do grande comparecimento de jovens abaixo dos 35 anos e tão poucos acima desta idade. Os mais “velhos” não lêem? Não tem interesse em freqüentar este tipo de feira? Por quê? O ambiente não é agradável e atrativo para todas as idades? E assim por diante... Estatística II Prof. Laura Maria Saporski Cachuba 69 Anexo I. Planilha de Dados. Quest Idade Trab. Remunerado Renda Escolaridade Estudando Fluência Qual língua? Soube/feira Outra Ativ. Esportiva Qual esporte? Hábito 1 a b a c a b a a canoagem a 2 c a b d a b i b b 3 b a b e b a Espanhol e b d 4 d b a c a b d b b 5 b a a e a b d b a 6 a a d a a b c b a 7 a a a e b b c b a 8 a a b c a b c a judô d 9 a b c d a b b b b 10 a b b b a b i b a 11 b a b e a a Inglês e Espanhol d b d 12 b a a d a b c b c 13 c a b c a b e b a 14 a a b d a b f b b 15 a a b b a b g a ciclismo d 16 a b b b a b g b b 17 e b c d a b e b c 18 b a a f a b i b a 19 d a a g b b h a natação a 20 a a d c a b a b c 21 a a b b a b c a natação b 22 b a b f b a Inglês e francês c b b 23 a a a b a b d b b 24 c a b g a b e b d 25 b a c b a b f b a 26 a b a c a a Alemão a a natação d 27 a a b d a b c b c 28 a a b c a b i b b 29 a a f b a b a a natação a 30 a a a d a a Francês c b a Estatística II Prof. Laura Maria Saporski Cachuba 70 II – NOÇÕES DE PROBABILIDADE – CONCEITOS BÁSICOS Todas as vezes que estudamos fenômenos de observação, é preciso distinguir o próprio fenômeno e o modelo matemático que melhor o explique (determinístico ou probabilístico). Os fenômenos estudados pela Estatística são fenômenos cujo resultado, mesmo em condições normais de experimentação, variam de uma observação para outra dificultando dessa maneira a precisão de um resultado futuro. O conhecimento dos aspectos fundamentais do cálculo da probabilidade é uma necessidade essencial para o estudo da Estatística Indutiva ou Inferencial. Para a explicação desses fenômenos – fenômenos aleatórios – adotamos um modelo matemático probabilístico, através do cálculo de probabilidade. 1. Experimento Aleatório: um experimento é dito aleatório quando satisfaz as seguintes condições: a) Pode ser repetido indefinidamente; b) Somos capazes de descrever todos os possíveis resultados de um experimento, embora não sejamos capazes de predizer, com certeza, qual ocorrerá; c) Obedece à regularidade estatística, ou seja, quando o experimento for repetido um grande número de vezes, surgirá uma configuração definida. Ex: lançar um dado e observar a face de cima; temperatura máxima da cidade de Curitiba no mês de março; vazão mínima de um rio, em determinada seção, durante o mês de janeiro. 2. Espaço Amostral: é o conjunto Ω (ômega) de todos os resultados possíveis de um experimento aleatório. Cada resultado do experimento aleatório é denominado ponto amostral. Ω pode ser finito ou infinito. EX: lançamento de um dado: Ω= {1, 2, 3, 4, 5, 6) – conjunto finito; número de automóveis que cruzam uma rodovia no mês de julho: Ω = {1, 2, 3, ..., } – conjunto infinito. 3. Evento: é qualquer subconjunto do espaço amostral Ω. Deve-se considerar como eventos de qualquer espaço amostral o evento impossível. Ø (conjunto vazio) e o evento certo (o próprio espaço amostral Ω). Os eventos podem ser simples – quando possuem um único ponto amostral, ou compostos – quando possuem mais de um ponto amostral. 3.1 Eventos mutuamente exclusivos: dois eventos A e B são denominados mutuamente exclusivos se eles não puderem ocorrer simultaneamente, isto é, BA se . 4. Definição Axiomática de Probabilidade (Kolmogorov): seja o espaço amostral Ω associado a um dado experimento aleatório ε. A cada evento A associamos um número real representado por P(A), denominado de probabilidade de A, satisfazendo as seguintes propriedades: 1ª - 1P(A)0 2ª - P(Ω) = 1, ou seja, a probabilidade do evento certo é igual a 1; 3ª - Se A e B forem eventos mutuamente exclusivos, a probabilidade de ocorrência de um deles é igual à soma das probabilidades de cada um, ou seja P(B)P(A)B)P(A . A 3ª propriedade pode ser generalizada para um sequência finita ou infinita de eventos mutuamente exclusivo, pertencentes a Ω, ou seja 1i ii EPE 1i P . Estatística II Prof. Laura Maria Saporski Cachuba 71 Definição Clássica de Probabilidade: Uma regra prática para a atribuição numérica de probabilidade ao evento E, é dada pelo quociente entre o número de resultados de Ω favoráveis ao evento E, e o número de resultados possíveis de Ω, desde que todos sejam equiprováveis. Portanto, a definição clássica de probabilidade é dada por: E. Evento do ocorrência de adeprobabilid a é EP onde possíveis resultados favoráveis resultados EP 5. Propriedades de Probabilidade: 5.1 Se A é um evento aleatório, então a probabilidade de A não ocorrer é dada por: P(A)-1)AP(1)AP(P(A) :Então 1, )P( 2, axioma Pelo )P(APA vazioconjunto A P(A) -1 )AP( AA A 5.2 Se A e B não são eventos mutuamente exclusivos, então: B)P(A-P(B)P(A) B)P(A A Ω Estatística II Prof. Laura Maria Saporski Cachuba 72 5.3 Probabilidade Condicional e Independência de Eventos: probabilidade de ocorrência simultânea. P(B) B)P(A P(A/B) lê-se probabilidade de A dado B, ou seja a probabilidade da ocorrência do evento A sabendo que o evento B já ocorreu. Se A e B são independentes, então P(B) P(B/A) e P(A)P(A/B) - independência estatística. 5.4 Teorema da Soma ou das Probabilidades Totais: A probabilidade de ocorre pelo menos um entre dois eventos E1 e E2 ocorrerem simultaneamente, ou seja, )EP(E-)P(E)P(E)EP(E 212121 No caso de 3 eventos: E1, E2 e E3, tem-se que: )EEP(E)EP(E-)EP(E-)EP(E-)P(E)P(E)P(E)EEP(E 321323121321321 5.5 Teorema de Bayes: Se E1, E2, ..., En são n eventos dois a dois mutuamente exclusivos e exaurem o conjunto Ω dos eventos elementares, então se n)1,2,...,(i)P(E1 , tem-se: ))P(B/EP(E))P(B/EP(E))P(B/EP(E ))P(B/EP(E /B)P(E nn2211 ii ...1 onde B é um evento que só pode ocorrer como efeito de uma das causas mutuamente exclusivas Ei. O teorema de Bayes fornece a probabilidade de que o evento Ei (evento específico ou evento de interesse) tenha ocorrido na hipótese de que o evento (ou causa) B tenha sido observado. A B Ω Estatística II Prof. Laura Maria Saporski Cachuba 73 Exercício 1. Calcule qual é a sua chance de ganhar na mega-sena com um único cartão em jogo simples (6 dezenas). 860.063.50 720 200.979.045.36 !54!6 !54.55.56.57.58.59.60 !660!6 !60 C !xn!x !n C 606 n x 70000000199,0 860.063.50 1 P megasenana ganhar Exercício 2. Um lote é formado por 10 artigos perfeitos, 4 com pequenos defeitos e 2 com defeitos graves. Calcule a probabilidade de que: a) Selecionando dois artigos, ambos sejam perfeitos; b) Selecionando dois artigos, pelo menos um seja perfeito; c) Selecionando dois artigos, nenhum deles seja perfeito; d) Selecionando dois artigos, ambos tenham defeitos graves; e) Selecionando um artigo, ele não tenha defeito; f) Selecionando um artigo, ele seja perfeito ou tenha defeitos graves. 16 2 DefGP 16 4 PDefP 16 10 PerfP 375,0 240 90 15 9 16 10 Perf/PerfP/PerfPPerfPerfP)a 12121 875,0125,01 240 30 1 15 5 . 16 6 1NPerfNPerfP1 ou 875,0 240 210 240 60 240 60 240 90 15 10 16 6 15 6 16 10 15 9 16 10 PerfNPerfPNPerfPerfPPerfPerfP)b 21 212121 125,0 240 30 15 5 . 16 6 NPerfNPerfP)c 21 0083,0 240 2 15 1 16 2 DefG/DefGP/DefGPDefGDefGP)d 12121 625,0 16 10 PerfP)e 75,0 16 12 0 16 2 16 10 DefGPerfPDefGPPerfPDefGPerfP)f Exercício 3. Um certo tipo de motor elétrico falha somente quando ocorre uma das seguintes situações: A = emperramento dos mancais; B = queima dos enrolamentos; C = desgaste das escovas. Suponha que o emperramento seja 2 vezes mais provável de acontecer do que a queima, esta, por sua vez, sendo 4 vezes mais provável do que o desgaste. Se ocorre uma falha, qual será a probabilidade de que seja devido a cada uma destas circunstâncias? CPescovas das Desgaste BPosenrolament deQueima mancais de toEmperramen CP2 CP8CP4.2BP2AP CBAPCBPCAPBAPCPBPAPCBAP CBAPCBPCAPBAPCPBPAPCBAP Estatística II Prof. Laura Maria Saporski Cachuba 74 Exercício 4. O seguinte grupo está numa sala: 5 homens com mais de 21 anos, 4 homens com menos de 21 anos, 6 mulheres com mais de 21 anos, 3 mulheres com menos de 21 anos. Uma pessoa é escolhida ao acaso. Calcule: a) A probabilidade de ser pessoa com menos de 21 anos ou mulher; b) A probabilidade de ser pessoa com mais de 21 anos e homem; c) A probabilidade de ser mulher. Exercício 5. A probabilidade de que um homem esteja vivo daqui a 30 anos é de 2/5; a de sua mulher é de 2/3. Determinar a probabilidade de que daqui a 30 anos: a) Ambos estejam vivos; b) Nenhum esteja vivo; c) Pelo menos um esteja vivo d) Somente o homem esteja vivo; e) A mulher esteja morta; Exercício 6. A probabilidade do sujeito A acertar uma lata a determinada distância é ¼ e a do sujeito B acertar da mesma forma é 2/5. Se ambos atiram simultaneamente, qual a probabilidade da lata ser atingida? Exercício 7. Um empresa possui em sua linha de produção 3 máquinas – A, B e C – que produzem, respectivamente, 25%, 35% e 40% do total fabricado. Durante a produção dos artigos, cada máquina produz, respectivamente, 5%, 4% e 2% de artigos defeituosos. Escolhe-se um produto ao acaso e verifica-se que o mesmo é defeituoso. Qual a probabilidade de que tenha sido produzido pela máquina A? E pela B? E pela C? Exercício 8. Um pesquisador estudou o comportamento de consumo de bebidas lácteas no Brasil. Analisou a classe econômica do consumidor e o principal aspecto determinante da escolha da marca. Os dados obtidos estão tabulados na tabela abaixo: Classe \ Aspecto Preço Qualidade Soma Alta 42 56 98 Média 37 21 58 Baixa 13 97 110 Total 92 174 266 Qual a probabilidade de um consumidor escolhido ao caso: a) Priorizar preço, dado que é de classe alta; b) Priorizar qualidade, dado que é de classe média; c) Ser de classe baixa, dado que atribui maior importância ao fator qualidade. d) Quantas pessoas foram entrevistadas? Exercício 9. Um casal decide ter 4 filhos e é informado que existe uma chance de 25% de ter um filho com a “síndrome X”. Esta doença possui a mesma chance de ocorrência, independente de qualquer fator (idade dos pais, fatores genéticos, tipo de gestação, etc.). Qual a probabilidade de que o casal em questão: a) Tenha um filho com a “síndrome X”? b) Tenha até 2 filhos com a “síndrome X”? Estatística II Prof. Laura Maria Saporski Cachuba 75 Distribuições de Probabilidade Um modelo probabilístico para um v.a X é uma forma específica de distribuição de probabilidade que reflita o comportamento de X. As propriedades de um modelo probabilístico devem ser: Adequação: o modelo deve refletir adequadamente o mecanismo aleatório que ocasiona variação nas observações; Simplicidade: utilização, sempre que possível, de hipóteses simplificadoras, de modo que o modelo se preste à análise estatística, sem sacrifício da adequação; Parcimônia de parâmetros: um número excessivo de parâmetros prejudicaria a análise estatística. Entre dois modelos que constituam aproximação adequada de um fenômeno, devemos preferir aquele que apresente o menos número de parâmetros. Para isso, dispomos dos modelos clássicos, discretos ou contínuos. Distribuições Discretas de Probabilidade 1. Distribuição Binomial: uma distribuição binomial satisfaz as seguintes condições: a) As diversas provas se realizam sob condições idênticas. Ex: as peças de uma produção são analisadas sob as mesmas condições; b) Cada prova comporta apenas dois resultados possíveis, mutuamente exclusivos, designados por sucesso e falha; c) A probabilidade de sucesso, p, é a mesma em cada prova e permanece constante durante todo o experimento: por consequência, a probabilidade de falha, q, também é constante: q=1-p; d) As provas são independentes umas das outras; o conhecimento do sucesso (ou falha) de uma delas não modifica a probabilidade de sucesso (ou falha) nas provas subseqüentes. Obs: Provas repetidas nas condições (a) e (d) chamam-se provas de Bernoulli. Seja um experimento que consiste em um número fixo, n, de provas de Bernoulli (provas que só comportam duas respostas mutuamente exclusivas) e probabilidade de sucesso, p, constante em cada prova. Então X será v.a. que dá o número x de sucessos em n provas. xnxx qp x n fppnbinX ; onde n e p são parâmetros da distribuição e os valores possíveis de X são inteiros x= 0, 1, 2, ...,n. qpnpnx 2 Em lugar de expressarmos um v.a. binomial como o número X de sucessos, podemos expressá-la em termos de proporção de sucessos, p , que é a razão do número de sucessos para o número de tentativas: n x p , indicada para amostras com reposição. Estatística II Prof. Laura Maria Saporski Cachuba 76 Exercício 10. Refaça o exercício 9. 25,0;4binX 421875,0 3 75,025,0 )!14(!1 !4 )1X(P 14 75.0 1 25,0 1 4 )1X(P)a 39492,021094,042188,031641,0)2x1x0x(P)2X(P)b 2. Distribuição de Poisson: distribuição discreta que dá a frequência de ocorrência de certos tipos de eventos aleatórios, que ocorrem em intervalos de tempo (ou superfície, ou volume, etc.); pode ser usada como aproximação da distribuição binomial. Seja X o número de eventos recebidos durante um período qualquer estipulado; então X te função de probabilidade dada por: 2210 xxxx x x e fPX ,...,,! Exercício 11. Um aparelho de celular costuma receber 4 ligações a cada hora. Qual a probabilidade de receber: a) 3 ligações em 1 hora? b) Exatamente 4 ligações em 1 hora? c) Nenhuma ligação em 1 hora? d) 5 ligações em 15 minutos? e) 8 ligações em 45 minutos? f) Em média, quantas ligações receberá por hora? Com que desvio-padrão? hora/ligações4PX 0,19537 6 6401832,0 !3 3 4 4 e )3X(P)a 0,1954 )4X(P)b 0,01832)0() XPc min15/ligação1 60 154 mim15? min60 )5X(P)d ligações 4 :parâmetro o Acertando )5X(P =0,0031 e) )8X(P =0,0081 f) ligações24ligações4 Estatística II Prof. Laura Maria Saporski Cachuba 77 3. Distribuição Hipergeométrica: seja X o número de sucessos, N o número total de itens na população, K o número total de sucessos, n o número de itens na amostra, a fórmula para determinar as probabilidades hipergeométricas é dada por: p1q N K pqpn 1N nN N Kn n N xn KN x K fpx 2 xx x e :onde étrica Hipergeom A distribuição hipergeométrica é indicada para amostragem sem reposição, ou seja, a probabilidade de sucesso altera-se à medida que selecionamos novo elemento. Quando a população for grande e a amostra relativamente pequena, o fato de amostragem ser feita sem reposição tem pequena influência na probabilidade se sucesso de cada tentativa. Uma “regra” conveniente para usar a binomial como aproximação da hipergeométrica é Nn 050, (quando n for menos de 5% da população). Exercício 12. Suponha que a cada 200 anotações feitas em 20 fichas cadastrais, você constate 1 erros. Solicitando 3 fichas ao caso, qual a probabilidade de que uma delas contenha erro de anotação? K= total de itens de interesse; N = total de itens; n = amostra de itens; x = quantidade de itens de interesse 2453,0 400.313.1 200.322 1XP 400.313.1 110.1620 !197!3 !197198199200 !178!2 !178179180 !19!1 !1920 !197!3 !200 !178!2 !180 !19!1 !20 3 200 13 20200 1 20 1XP n N xn KN x K xXP Distribuições Contínuas de Probabilidade 1. Distribuição Normal: é a mais importante das distribuições contínuas de probabilidade, sendo aplicada em inúmeros fenômenos e utilizada para o desenvolvimento teórico da estatística e nos processos de inferência. É também conhecida como distribuição de probabilidade dos erros de observação, denominando-a “lei normal dos erros”, distribuição de Gauss, Laplace ou Laplace-Gauss. Gauss estabeleceu sua equação como distribuição de probabilidade dos erros de observação, denominando-a “lei normal dos erros”. A distribuição normal tem sua função densidade de probabilidade dada por: Estatística II Prof. Laura Maria Saporski Cachuba 78 2 2 1 2 1 ; x x efNX , onde μ e σ são parâmetros da distribuição (média e desvio-padrão, respectivamente). 20x As principais características da distribuição normal são: 1) A média da distribuição é μ; 2) O desvio-padrão é σ; 3) A moda ocorre em x (ponto de máximo de f(x) e o valor máximo é dado por 2 1 ; 4) A curva é simétrica em relação a um eixo vertical passando por x , isto é, xff xx ; 5) A curva tem inflexões nos pontos x ; 6) A curva normal é assintótica ao eixo horizontal em ambas as direções (quando 0 xfx , ); 7) A área total sob a curva normal e acima do eixo horizontal é igual a 1 (o eixo horizontal é o eixo dos valores da v.a. X normal). A probabilidade da v.a. X estar entre dois valores a e b é igual à área sob a curva e acima do segmento horizontal [a,b]. Então, dxe a b bxaP x 2 2 1 2 1 . Esta integral não pode ser calculada exatamente, e a probabilidade indicada só pode ser obtida aproximadamente por métodos numéricos. Estatística II Prof. Laura Maria Saporski Cachuba 79 Para que o uso de uma tabela possa ser feito, precisaríamos de tabelas de dupla entrada, já que a f.d.p. depende de dois parâmetros. Por esse motivo, utilizamos em recurso de transformações de variável. Então, quando 10 2 e , temos uma normal padrão ou reduzida, definida por: X z , que terá 10;NZ . Através desta padronização, utilizaremos uma única tabela com probabilidades associadas para quaisquer valores dos parâmetros. Nota-se que: a) A nova origem é 0; b) O desvio padrão é a unidade de medida. A tabela da distribuição normal fornece a distribuição acumulada que indica a probabilidade z de ser inferior a um determinado valor z. Geralmente usa-se a letra grega Φ (fi) para representar a função: zZPZ . Estatística II Prof. Laura Maria Saporski Cachuba 80 Exercício 13. Suponha uma turma de estatística, cuja nota média final da turma foi 7,3 com um desvio-padrão de 1,7. Calcule a probabilidade de que um aluno desta turma: a) Tenha tirado nota acima de 8,3; b) Tenha tirado nota abaixo de 3,0; c) Tenha tirado nota entre 4,0 e 6,9; isto representa quantos alunos se a turma é composta de 60 estudantes? d) Tenha tirado nota entre 7,0 e 8,5; e) Tenha tirado nota entre 8,0 e 9,0. 7,1;3,7NX a) 27759,059,0ZP 7,1 3,73,8X P)3,8X(P b) 00570,053,2ZP 7,1 3,70,3X P)0,3X(P alunos 2374,226037898,037898,002618,040516,0 02618,094,1Z 40516,024,0Z 37898,024,0Z94,1P 7,1 3,79,6X 7,1 3,70,4 P)9,6X0,4(P)c 33257,042857,076114,0 76114,071,0Z 42857,018,0Z 33257,071,0Z18,0P 7,1 3,75,8X 7,1 3,70,7 P)5,8X0,7(P)d 18225,065909,084134,0 84134,00,1Z 65909,041,0Z 18225,00,1Z41,0P 7,1 3,70,9X 7,1 3,70,8 P)0,9X0,8(P)e Teorema Central do Limite 1) Quando a população é normal, ;NX , a média amostral X de amostras de tamanho n tem distribuição também normal com a média e desvio padrão n . 2) Para uma população não amostral com média e desvio-padrão , a distribuição da média amostral X para amostras de tamanho n suficientemente grande é aproximadamente normal com média e desvio-padrão n , isto é 10;N n x . Este segundo resultado constitui o Teorema Central do Limite, e se aplica a qualquer v.a., com qualquer distribuição de probabilidade. Este resultado é muito útil em estimação intervalar. Estatística II Prof. Laura Maria Saporski Cachuba 81 A Função Distribuição Acumulada A função distribuição acumulada é definida por: xXPF x , onde X é a v.a. em estudo. Uma função distribuição acumulada contínua ou discreta satisfaz os seguintes requisitos: 1) F(x) está sempre entre 0 e 1; 2) Quando c se torna muito grande, F(x) tende para 1; 3) Quando x se torna muito pequeno, (tendendo para ), F(x) tende para 0; 4) F(x) nunca é decrescente. Se queremos determinar a probabilidade de X ser maior do que determinado valor x, então: xFxXPxXP 11 . Se queremos a probabilidade de X estar entre dois valores dados, então: 1221 xx FFxXxP . Obs. Não utilize estas práticas para v.a’s discretas. Elas só são válidas para v.a’s contínuas. Estatística II Prof. Laura Maria Saporski Cachuba 82 Exercício 14. As vendas de uma lanchonete seguem aproximadamente uma Distribuição Normal, com média R$ 400,00 e desvio-padrão igual a R$ 100,00. Qual a probabilidade de que em um determinado dia a lanchonete fature: a) Entre R$ 450,00 e R$ 650,00; b) Entre R$ 350,00 e R$ 500,00; c) Menos de R$ 400,00; d) Mais de R$ 250,00; e) Mais de R$ 600,00; Exercício 15. A validade de um remédio para cefaléia tem em média 750 dias e desvio-padrão de 40 dias. Calcular a probabilidade do princípio ativo deste remédio durar: a) Entre 600 e 900 dias; b) Mais que 700 dias; c) Menos que 650 dias. Exercício 16. O tempo necessário em uma oficina para o conserto da transmissão de um tipo de automóvel é feito em média em 50 min, com desvio-padrão de 15 min. Um mecânico planeja começar o conserto do carro de um cliente 10 min após o carro ter sido deixado na oficina, comunicando ao cliente que o carro estará pronto num tempo total de uma hora. Qual a probabilidade de que o mecânico esteja enganado? Exercício 17. Uma certa impressora possui uma capacidade em imprimir uma quantidade de letras com média de 1.100 letras por min com desvio-padrão de 75 letras por min. Qual a probabilidade da impressora conseguir imprimir entre 917 e 1.150 letras por min com o tempo de uso? Exercício 18. Um teste de aptidão feito por pilotos de aeronaves em treinamento requer que uma série de operações seja realizada em uma rápida sucessão. Suponha que o tempo necessário para completar o teste seja feito com uma média de 80 min com desvio-padrão de 15 min. Para passar no teste, o candidato deve completá-lo com menos de 60 min. a) Qual a probabilidade de ser aprovado neste teste? Se 65 candidatos fazem o teste, quantos se espera que passem? b) Se os 5% melhores candidatos serão alocados para aeronaves maiores, quão rápido deve ser o candidato para que obtenha esta posição? c) Os 10% piores candidatos deverão refazer o treinamento antes de tornar a fazer o teste. Qual o tempo que levaram para realizar o teste estes candidatos que terão que refazer o treinamento? Se 65 realizaram o teste, quantos terão que retornar ao treinamento? Exercício 19. A distribuição dos pesos de coelhos criados numa granja pode muito bem ser representada por uma distribuição normal com média de 5 Kg e desvio-padrão de 0,8 Kg. Um abatedouro comprará 5.000 coelhos e pretende classificá-los de acordo com o peso do seguinte modo: 20% dos leves como pequenos; os 55% seguintes como médios; os 15% seguintes como grandes e os 10% mais pesados como extras. Quais os limites de peso para cada classificação? Estatística II Prof. Laura Maria Saporski Cachuba 83 Aproximações das Distribuições 1. A distribuição de Poisson como aproximação da distribuição Binomial. A distribuição de Poisson tem grande número de aplicações porque pode ser vista como uma aproximação da distribuição binomial com parâmetros pn e , quando n é grande e p é pequeno, de modo que np seja de tamanho moderado. Ex. Considere um experimento binomial com 200n , 020,p , em que se pede a probabilidade de, no máximo, cinco sucessos. Pela solução, usando a binomial, teremos o seguinte cálculo: xx x x xp 5 5 0 980020 200 5 ,, , para x = 0,1,2,3,4,e 5. Tal probabilidade ultrapassa muito o âmbito das tábuas binomiais usuais, em vista do valor elevado de 200n . Apelando para a distribuição de Poisson: 785205 4020200 , , Xp nppn 2. A distribuição Normal como aproximação da distribuição Binomial. Quando n é grande e p não está muito próximo nem de 0, a distribuição normal constitui uma boa aproximação da binomial, o que permite tratar uma v.a. normal. E, como na binomial, a média é np e o desvio-padrão é qpn , n sendo o número de provas, p a probabilidade de sucesso e pq 1 , padronizamos X da seguinte maneira: npq npb Z npq npa PbXaP npq npX Z Ex. Considere v.a. X com n = 15 e p = 0,4 e calculemos 107 Xp . Pelo cálculo da binomial esta probabilidade dá 0,38084. A aproximação normal dá resultado bastante diferente do resultado exato (0,28), não só porque n é pequeno, mas, principalmente, porque é necessário introduzir uma correção quando se pretende aproximar uma discreta por uma distribuição contínua. Tal correção é chamada correção de continuidade, que consiste em subtrair 0,5 do valor inferior e somar 0,5 ao valor superior. Então: 3906026099110107372260 91 6510 91 656 107 ,,,,,,,,, XPZPZPXP O que representa uma excelente aproximação do valor exato. Estatística II Prof. Laura Maria Saporski Cachuba 84 III - AMOSTRAGEM Os processos de amostragem seriam inúteis se todas as populações estudadas fossem perfeitamente homogêneas. Os diagnósticos de laboratório sobre nosso estado de saúde são feitos com apenas algumas gotas de sangue; este processo fundamenta-se na presunção de que o sangue em circulação está sempre bem misturado e que uma gota conta a mesma história que qualquer outra. Entretanto, quando o material está longe de ser homogêneo, como acontece frequentemente, o processo pelo qual se obtém a amostra se torna crítico, e o estudo das técnicas que assegurem amostras dignas de confiança é importante. - Vantagens do Processo de Amostragem: 1) Custo Reduzido: como os dados são obtidos de apenas uma pequena fração da população, as despesas são menores do que se for empreendido um censo integral. Quando as populações são grandes, podemos obter resultados suficientemente precisos de amostras que representem apenas uma pequena fração da população. 2) Maior Rapidez: os dados podem ser reunidos e sintetizados mais rapidamente com uma amostragem, que com uma contagem completa; este fator é primordial quando se necessita com urgência das informações. 3) Maior Amplitude: os levantamentos que se fundam na amostragem tem maior amplitude e flexibilidade, relativamente às espécies de informações que podem ser obtidas, quando se desejam informações precisas sobre muitas subdivisões da população; o volume da amostragem necessário à realização da tarefa é, por vezes, tão grande que a contagem completa se torna a melhor solução. 4) Maior Exatidão: em virtude de se poder empregar pessoal de melhor qualidade e intensivamente treinado, e por se tornar exeqüível a supervisão mais cuidadosa do campo de trabalho e do processamento dos dados, devido a redução do volume de trabalho, uma amostragem pode, na realidade, proporcionar resultados mais exatos que a espécie de contagem integral. Os Levantamentos por Amostragem podem ser classificados, de um modo geral, em dois tipos: 1) Levantamentos Descritivos: em um levantamento descritivo, o objetivo é, unicamente, a obtenção de uma determinada informação sobre um grande grupo de indivíduos: por exemplo, o número de homens, mulheres e crianças que assistem a um certo programa de televisão; a utilização de determinado tipo de ração em animais em fase de engorda, etc. 2) Levantamentos Analíticos: nos levantamentos analíticos, fazem-se comparações entre diferentes subgrupos da população, a fim de descobrir se entre eles existem diferenças que nos habilitem a formular ou verificar hipóteses sobre as forças que atuam sobre a população. Um levantamento feito em Indianápolis (1953) foi uma tentativa para determinar até que ponto os casais planejam o número e o espaço de intervalo entre os filhos, a atitude dos maridos e esposas em relação a este planejamento, as razões dessas atitudes e o grau de sucesso obtido. A distinção entre os levantamentos descritivos e analíticos não é nítida. Muitos levantamentos fornecem dados que servem a ambos os objetivos. Por exemplo, o comprimento das baganas de cigarro para analisar a relação fumo X câncer pulmonar; o número de moscas de uma cidade para analisar a eficiência das vaporizações contra moscas; o número de assinaturas de um Estatística II Prof. Laura Maria Saporski Cachuba 85 requerimento que não tinham sido escritas, efetivamente, pelas pessoas cujos nomes representavam para verificar a legalidade do documento. O PAPEL DA TEORIA DA AMOSTRAGEM A amostragem é um problema prático que exige muitas espécies diferentes de habilitações. A amostragem exige atenção para todas as fases da atividade: o trabalho deficiente em uma das fases pode arruinar um levantamento em que tudo o mais tenha sido bem feito. O objetivo da teoria da amostragem é tornar esta mais eficiente. O princípio de precisão específica ao menor preço reaparece, repetidamente, na apresentação da teoria. A precisão de um processo de amostragem é julgada pelo exame da distribuição de frequências gerada pela estimativa, quando o processo é aplicado repetidamente, à mesma população. Esta é a técnica padrão, pela qual se julga a precisão em teoria estatística. Uma simplificação maior pode ser introduzida. Com amostras dos tamanhos que são comuns na prática, há, frequentemente, boas razões para se admitir que as estimativas provenientes das amostras distribuem-se mais ou menos normalmente. Dada uma estimativa normalmente distribuída, a forma total da distribuição de frequências é conhecida, desde que conheçamos o valor médio e o desvio-padrão (ou a variância). Uma parte considerável da teoria dos levantamentos por amostragem diz respeito à procura de fórmulas para a determinação desses valores médios e variâncias. Uma diferença entre a teoria do levantamento por amostragem e a teoria clássica da amostragem é que as populações, nos trabalhos de levantamento, contém um número finito de unidades. Os métodos usados na demonstração dos teoremas são diferentes e os resultados são ligeiramente mais complicados, quando a amostragem provém de uma população finita em vez de infinita. Para os efeitos práticos, as diferenças de resultados, para populações finitas ou infinitas, raramente são importantes. Sempre que a amostragem é pequena (em termos do número de unidades de amostragem primárias) em relação ao volume da população, os resultados produzidos pelas populações infinitas são inteiramente adequados. AMOSTRAGEM PELAS PROBABILIDADES Todos os processo de amostragem, para os quais se haja desenvolvido uma teoria, tem as seguintes propriedades matemáticas em comum: 1. Pode-se definir um conjunto de amostras independentes, S1, S2, ... , Sn, que o processo permite selecionar, quando aplicado a uma determinada população. Isso significa que podemos dizer, exatamente, a que unidades de amostragem pertencem S1, S2 , e assim por diante. 2. A cada amostra possível, S1, é atribuído um grau conhecido de probabilidade de seleção i. 3. A escolha de uma das amostras S1 é feita por meio de um processo, no qual todas as amostras possíveis, Si, recebem uma adequada probabilidade de serem escolhidas, i. 4. O método para o cálculo da estimativa decorrente da amostragem deve ser conhecido, devendo fornecer uma estimativa única para qualquer amostragem específica. Podemos admitir, por exemplo, que o valor da estimativa seja a média das medidas individuais das unidades da amostra. Estatística II Prof. Laura Maria Saporski Cachuba 86 Em qualquer processo de amostragem que satisfaça a essas propriedades, estamos em condições de calcular a distribuição de frequência das estimativas que ele produz, quando repetidamente aplicado à mesma população, já que sabemos quão frequentemente uma determinada amostra, Si, será selecionada e podemos calcular a estimativa decorrente dos dados contidos em Si. É evidente, portanto, que se pode estabelecer uma teoria de amostragem para qualquer processo desse tipo, embora os pormenores do estabelecimento possam ser complexos. A expressão “amostragem pelas probabilidades” se refere a um processo desse tipo. Essa não é a única maneira pela qual se pode selecionar uma amostra. Independentemente das probabilidades, são comuns os seguintes tipos de amostragem: 1. A amostragem é restrita a uma parte da população que esteja imediatamente disponível. Ex.: uma amostra de carvão de um vagão aberto pode ser retirada entre as 6 e 9 polegadas superiores do carregamento. 2. A amostra é escolhida ao acaso. Ex.: ao apanhar dez coelhos de uma grande gaiola, em um laboratório, o investigador apanhará, possivelmente, aqueles sobre os quais sua mão cair, sem um planejamento consciente. 3. No caso de uma população pequena, mas heterogênea, o operador inspeciona o conjunto da população e escolhe uma pequena amostragem de unidades “típicas”, isto é, unidades que se aproximam da impressão que ele tem da média da população. Esse processo é, às vezes, denominado de “julgamento” ou “seleção intencional”. 4. As amostras são constituídas, essencialmente, de voluntários, nos estudos em que o processo de medida é desagradável ou penoso para a pessoa que está sendo medida. Sob condições convenientes, quaisquer desses processos podem fornecer resultados úteis. Não são, entretanto, conducentes ao estabelecimento de uma teoria de amostragem, pois não contem nenhum elemento de seleção aleatória. Mesmo quando um processo parece dar certo em uma dessas comparações, isso não garante que o mesmo aconteça em circunstâncias diferentes. Uso da Distribuição Normal – Problemas da Inferência Estatística A amostragens, nos levantamentos, frequentemente são bastante grandes para que as estimativas baseadas nelas sejam mais ou menos normalmente distribuídas. Além disso, com a amostragem pelas probabilidades, temos fórmulas que nos dão o valor médio e a variância da estimativa. Raramente se consegue obter a distribuição exata de alguma variável, ou porque isto é muito dispendioso, ou muito demorado ou às vezes porque consiste num processo destrutivo. Assim, a solução é selecionar parte dos elementos (amostra), analisá-la e inferir propriedades para o todo (população). Este é o objetivo da Inferência Estatística: é o processo pelo qual tomamos decisões válidas para a população, partindo de amostras. Logo, a amostragem consiste no estudo das relações existentes entre as populações e as amostras provenientes das mesmas. Na obtenção das amostras, devemos usar técnicas adequadas para que as mesmas sejam representativas das populações, ou seja, devem possuir as características básicas das populações. Evidentemente, devido à aleatoriedade, sempre existirão certas discrepâncias no processo de amostragem. Assim, temos alguns conceitos básicos necessários para o desenvolvimento da Inferência Estatística. Definição: População é o conjunto de indivíduos (ou objetos), tendo pelo menos uma variável comum observável. Definição: Amostra é qualquer subconjunto da população. Estatística II Prof. Laura Maria Saporski Cachuba 87 Definição: População-alvo é a população sobre a qual vamos fazer inferências baseadas na amostra. Esta especificação pode parecer trivial, mas a verdade é que, em todos os levantamentos, aparecem casos dúbios que merecem maior atenção na composição da amostra. Uma causa frequente de levantamentos ruins é a falta de cuidado com que a população-alvo é definida. Por ex.: Qual a idade média da frota de ônibus de Curitiba? Se só estamos interessadas na região de Curitiba, devemos excluir os ônibus da frota metropolitana, e os escolares da Prefeitura. Definição: Variáveis são características que iremos medir. Aqui o erro mais frequente é querer incluir muitas características. A qualidade da mensuração cai com o aumento do número de perguntas. Devemos, portanto nos fixar apenas em características que contribuam para a quantificação adequada da característica populacional de real interesse para o estudo. Definição: parâmetros são funções de valores populacionais. Definição: estatísticas são funções de valores amostrais. Repetir um experimento muitas vezes, sob as mesmas condições, nem sempre é possível; mas, em determinadas condições, é possível determinar teoricamente o comportamento de algumas medidas feitas na amostra, por exemplo, a média. Mas isso depende, em grande parte do plano adotado para selecionar a amostra. Assim, em problemas envolvendo amostras, antes de tomarmos uma decisão, teríamos que responder a três perguntas: 1. Como escolher a amostra? 2. Que informação pertinente (estatística) será retirada da amostra? 3. Como se comporta a estatística quando o mesmo procedimento de escolher a amostra é usado numa população conhecida? Como selecionar uma amostra? As observações colhidas numa amostra são tanto mais informativas sobre a população, quanto mais conhecemos esta mesma população (como, por ex. no caso do sangue). A maneira de se obter uma amostra é tão importante, e existem tantos modos de fazê-lo, que estes procedimentos constituem uma especialidade dentro da Estatística, conhecida como Amostragem. Mas esses vários procedimentos podem ser agrupados em dois grandes grupos: os chamados planos probabilísticos e não-probabilísticos. O primeiro grupo reúne todas aquelas técnicas que usam mecanismos aleatórios de seleção dos elementos da amostra, atribuindo a cada um deles uma probabilidade, conhecida a priori, de pertencer à amostra. No segundo grupo estão os demais procedimentos, tais como: amostras intencionais, onde os elementos são selecionados com auxílio de especialistas, e amostras de voluntários, como ocorre em alguns testes sobre novos remédios. Ambos os procedimentos tem suas vantagens e desvantagens. A grande vantagem das amostras probabilísticas é medir a precisão da amostra obtida, baseando-se no resultado contido na própria amostra. Tais medidas já são bem mais difíceis para os procedimentos do segundo grupo. Métodos probabilísticos O método de amostragem probabilística exige que cada elemento da população possua determinada probabilidade conhecida e diferente de zero de ser selecionado. Normalmente possuem a mesma probabilidade. Assim, se N for o tamanho da população, a probabilidade de cada elemento será 1/N. Trata-se do método que garante cientificamente a aplicação de técnicas estatísticas de inferências. Somente com base em amostragens probabilísticas é que se podem realizar inferências e deduções sobre a população a partir do conhecimento da amostra. Métodos não-probabilísticos Quando nem todos os elementos da população têm probabilidade conhecida de pertencer à amostra. A característica principal das técnicas de amostragem não-probabilista é a de que, não Estatística II Prof. Laura Maria Saporski Cachuba 88 fazendo uso de formas aleatórias de seleção, torna-se impossível à aplicação de fórmulas estatísticas para o cálculo, por exemplo, entre outros, de erros de amostra. Dito de outro modo, não podem ser objeto de certos tipos de tratamento estatístico. A vantagem do uso da amostragem probabilística é que a mesma permite o cálculo do erro amostral, o que não acontece com a amostragem não probabilística. TÉCNICAS DE AMOSTRAGEM PROBABILÍSTICA 1. Amostragem casual simples (ao acaso, aleatória, elementar): é aquela onde todos os elementos da população tem igual probabilidade de pertencer à amostra. Essa técnica é equivalente a um sorteio lotérico. A probabilidade que cada elemento tem de pertencer à amostra é dada pelo quociente n/N (chamado fração amostral), sendo n o tamanho da amostra e N o tamanho da população. Quando a amostragem for feita com reposição, o número de amostras possíveis é dado por Nn, enquanto que, para a amostragem sem reposição esse número é dado por combinação de N/n. Uma maneira utilizada para fazer o sorteio dos elementos que comporão a amostra é o uso de uma tabela de números aleatórios ou a sua geração através de programas computacionais. Esta tabela (ou relação) consiste de inúmeros dígitos, obtidos por um processo equivalente a um sorteio equiprovável. A forma de utilização da tabela ou relação deverá ser a mesma durante todo o processo de obtenção dos números da amostra. O processo de amostragem aleatória simples pode, por exemplo, lançar mão de uma Tabela de Números Aleatórios (também denominada Tábua de Números Equiprováveis). Essas tabelas foram obtidas através de computadores, com complexa programação, baseada em cálculos estatísticos, e fornecem uma amostra inteiramente ao acaso de números dispostos em colunas e linhas, por várias páginas. A maioria dos softwares também realiza a aleatorização de números sem necessidade de uma tabela. O exemplo a seguir foi retirado da obra de Kendall e Smith, Tables of random sampling numbers (In: Boyd e Westfall, 1978:338) e reproduzido parcialmente. Estatística II Prof. Laura Maria Saporski Cachuba 89 3125 8144 5454 6703 2444 1518 3387 8772 6538 7532 1496 9980 1454 3074 3889 9230 2398 1598 3947 6917 4905 4956 3551 6836 6512 8312 9238 6663 8606 9580 9967 5765 1446 9288 0555 2591 8307 5280 5948 7869 5414 9534 9318 7827 5558 8651 7679 9983 5528 8922 5750 3489 9914 5737 6677 8288 7957 0899 1918 7684 9867 7825 0690 3990 2075 5402 8168 1601 0830 7544 4099 0087 9042 8818 0716 0373 6561 0855 3654 5997 O procedimento é o seguinte; numeram-se todos os componentes da população, dando a cada um deles apenas um número. A seguir, determina-se o total de componentes da amostra e, utilizando a tabela de números aleatórios, selecionam-se os elementos a serem pesquisados. Exemplo: há 980 alunos em uma Faculdade. Deseja-se entrevistar 450. Depois de numerados todos os alunos, de 1 a 980, escolhe-se uma página da tabela, iniciando em qualquer ponto e indo para qualquer direção. A seleção deve ser de grupos de três algarismos, em virtude de o total ser 980. No caso, iniciar-se-ia na 2 coluna de 4 algarismos, desprezando-se o último e indo de cima para baixo. Sem levar em consideração os números superiores a 980, encontrar-se-ia, para os primeiros 15 sorteados, a seguinte sequência: 814, 495, 576, 348, 782, 008, 545, 145, 355, 144, 069, 670, 307, 683 e 782. E assim por diante, até completar o tamanho desejado. A amostra aleatória simples pode apresentar dois tipos: a) sem reposição, o mais utilizado, em que cada elemento só pode entrar uma vez para a amostra; b) com reposição, quando os elementos da população podem entrar mais de uma vez para a amostra. 2. Amostragem Sistemática: É uma forma simplificada da amostragem casual simples, podendo ser utilizada quando os elementos da população se apresentam ordenados e a retirada dos elementos para compor a amostra é feita periodicamente. Por exemplo, em um processo de produção, onde se deseja executar o controle de qualidade, podemos tomar uma peça para compor a amostra, em cada x peças produzidas; ou fichas em um fichário; listas telefônicas, lista de membros de uma associação, guia das ruas de uma cidade, indexação (por ordem alfabética) através de cartões, uma fila de pessoas, prédios de uma rua, etc. A amostragem sistemática é eficiente à medida que a "listagem", a fila, a disposição dos prédios etc., esteja "misturada" no que se refere à característica em estudo. Por exemplo, deseja-se estudar a renda. Uma listagem por ordem alfabética, dos componentes de uma empresa, estará inteiramente misturada em relação a esta característica, o mesmo não ocorrendo se for por ordem, crescente ou decrescente, de salários ou funções executadas. O cuidado a ser tomado nesse processo é quanto à possibilidade da variável de interesse sofrer variações cíclicas, aonde os períodos desse ciclo venham a coincidir com os de retiradas dos elementos. 3. Amostragem por meio de conglomerados: é o processo pelo qual a população se apresenta subdividida em grupos menores, sendo esses grupos menores denominados conglomerados, e sorteamos um número suficiente desses conglomerados. Esse processo é utilizado mais por questões de ordem prática e econômica. O nome conglomerados ou grupos deriva do fato de os conglomerados serem considerados grupos formados e/ou cadastrados da população. Exemplos: escolas, empresas, igrejas, clubes, favelas, etc. A exigência básica é que o indivíduo, objeto da Estatística II Prof. Laura Maria Saporski Cachuba 90 pesquisa, pertença a um e apenas um conglomerado; por exemplo, um estudante não pode estar cadastrado (matriculado) em duas escolas ao mesmo tempo. A amostragem por conglomerados ou grupos é rápida, barata e eficiente, sendo que a unidade de amostragem não é mais o indivíduo, mas um conjunto, facilmente encontrado e identificado, cujos elementos já estão ou podem rapidamente ser cadastrados. O único problema é que os conglomerados raramente são do mesmo tamanho, o que torna difícil ou até mesmo não permite controlar a amplitude da amostra. Recorre-se geralmente a técnicas estatísticas para contornar tal dificuldade. As necessidades específicas da pesquisa determinam, também no caso da amostragem por conglomerados, os procedimentos a seguir: a) os conglomerados são sorteados de forma aleatória e todos os componentes dos conjuntos escolhidos são pesquisados; b) os conglomerados são subdivididos em outros conjuntos e o sorteio aleatório se faz entre os subgrupos, sendo pesquisados todos os seus elementos. c) alguns conglomerados são escolhidos aleatoriamente e, em cada um, os indivíduos a serem pesquisados são sorteados de forma aleatória simples - amostragem em dois estágios, combinando o de conglomerados com o aleatório simples; d) os conglomerados são subdivididos em subgrupos e a seleção se faz em três estágios: alguns são sorteados aleatoriamente e, em cada aglomerado escolhido, são sorteados, também de forma aleatória as pessoas a serem pesquisadas. Esta forma de amostragem também combina as técnicas de conglomerados com a do aleatório simples. As duas últimas formas de amostragem apresentadas denominam-se também em vários degraus. Assim, por exemplo, num levantamento da população de uma cidade, podemos dispor de um mapa indicando cada quarteirão e não dispor de uma relação atualizada dos seus moradores. Pode- se, então, colher uma amostra dos quarteirões e fazer a contagem completa de todos os que residem naqueles quarteirões sorteados. 4. Amostragem Estratificada: é utilizada quando a população pode ser dividida em sub- populações ou estratos, devendo a variável de interesse ser mais ou mesmo homogênea dentro de cada estrato. Na composição da amostra, deverão ser sorteados elementos de todos os estratos, para que todos sejam representados na amostra. Ao contrário dos conglomerados, grupos já existentes na população e frequentemente já "cadastrados" como tal, os estratos são formados pelo pesquisador, segundo as necessidades de seu estudo. Ao formar os estratos, deve-se atentar para que todos os elementos da população estejam enquadrados nos mesmos e que nenhum indivíduo possa ser colocado em dois estratos diferentes, relativos ao mesmo atributo. Outra preocupação do pesquisador deve ser a de tornar os estratos o mais homogêneos possível, sendo, ao mesmo tempo, os diversos estratos heterogêneos uns em relação aos outros. A estratificação deve ser adaptada a cada pesquisa que se deseja realizar. Um conjunto de estratos, adequados para uma pesquisa de opinião pública, pouco interesse terá para uma investigação sobre o peso e a estatura dos estudantes ou a análise da população economicamente ativa. O ideal é que, ao planejar um estudo, o pesquisador faça um exame cuidadoso sobre os estratos a serem utilizados, com vista à sua eficácia para a pesquisa em pauta. Convém também não esquecer que o número de estratos a serem utilizados em cada estudo depende, até certo ponto, da amostra total: uma amostra relativamente pequena, se subdividida por vários estratos, redunda num número, que pode deixar de ser significativo, de elementos em cada estrato (inclusive torna-se extremamente difícil o tratamento estatístico de quantidades reduzidas de elementos por estrato); por outro lado, a extração de um número suficiente de unidades de cada estrato, para que a amostra (estratificada) seja representativa, acabará por aumentar em demasia o tamanho total da amostra, o que aumenta a duração e o custo da pesquisa. A amostra estratificada mais simples é a que contém dois estratos; por exemplo, sexo Estatística II Prof. Laura Maria Saporski Cachuba 91 masculino e feminino. À medida que outras variáveis são acrescidas para a formação dos estratos, o número destes cresce de forma geométrica. Se acrescentarmos ao sexo a procedência (brasileiro ou estrangeiro), ter-se-iam quatro estratos; se fossem incluídos "acima dos trinta anos" e "trinta anos ou menos", ficar-se-ia com 8 estratos, mas se a variável "faixa etária" tiver 5 valores (até 15 anos incompletos; de 15 a 30 anos incompletos; de 30 a 45 anos incompletos; de 45 a 60 anos incompletos; 60 anos e mais), obter-se-ia um total de 20 estratos. Dessa forma, quando se trabalha com mais de dois estratos, é necessário a matriz de classificação, que indicará, entre outras, a incidência percentual de cada estrato na população.Na amostragem estratificada, também de acordo com os objetivos da pesquisa, pode-se proceder de diferentes formas: a) Retirar, de cada estrato, de forma aleatória, amostras rigorosamente iguais. Tal procedimento serve para evitar distorções por parte de atributos que apresentem uma incidência maior na população. Quando as amostras, retiradas dos estratos são iguais, o processo denomina-se amostragem estratificada não proporcional. b) De cada extrato, por meio de técnicas aleatórias, retirar amostras proporcionais à população total contida em cada um. Esta técnica recebe o nome de amostragem estratificada proporcional. Para que se possa colher, em cada estrato, uma amostra proporcional à sua extensão, é necessário conhecer de antemão, a proporção de população pertencente a cada um. Dependendo do estudo, lança-se mão de várias fontes de informação: dados censitários nacionais, estaduais, regionais, etc., listas dos componentes de empresas, sindicatos, faculdades e similares. É importante, para a técnica da amostragem estratificada proporcional, que as informações sobre as proporções da população por estratos não estejam desatualizadas, pois, se assim for, perde-se a vantagem oferecida por ela. A estratificação proporcional protege a representatividade da amostra, ao assegurar que os grupos conhecidos da população sejam representados com justiça na amostra. Finalizando, é importante acentuar que a amostragem estratificada não significa um abandono de processos aleatórios, pois os mesmos são utilizados em todas as etapas, inclusive na seleção dos elementos dentro das camadas (estratos). Para se especificar quantos elementos de cada estrato deverão fazer parte da amostra, existem três maneiras: 1) Uniforme: quando sorteamos mesmo número de elementos de cada estrato. Evidentemente, esse processo dever ser utilizado se os estratos das populações forem pelo menos aproximadamente do mesmo tamanho. 2) Proporcional: quando sorteamos um número de elementos proporcional ao tamanho de cada estrato. Sua utilização é mais geral que a uniforme, pois depende do tamanho de cada estrato. 3) Ótima: quando levamos em consideração o tamanho de cada estrato e também a variação da variável de interesse dentro de cada estrato. Essa variação é expressa em termos do desvio- padrão de cada estrato. Dessa maneira, o estrato que tiver uma variação menor contribuirá com uma quantidade menor de elementos. As variáveis de estratificação mais comuns são: classe social, idade, sexo, profissão ... ou qualquer outro atributo que revele os estratos dentro da população. TÉCNICAS DE AMOSTRAGEM NÃO-PROBABILÍSTICA A característica principal das técnicas de amostragem não-probabilista é a de que, não fazendo uso de formas aleatórias de seleção, torna-se impossível à aplicação de fórmulas estatísticas para o cálculo, por exemplo, entre outros, de erros de amostra. Dito de outro modo, não podem ser objeto de certos tipos de tratamento estatístico. 1. Amostragem Acidental: trata-se de uma amostra formada por aqueles elementos que vão aparecendo, que são possíveis de se obter até completar o número de elementos da amostra. Geralmente utilizada em pesquisas de opinião, em que os entrevistados são acidentalmente escolhidos. Estatística II Prof. Laura Maria Saporski Cachuba 92 2. Amostragem Intencional: de acordo com determinado critério, é escolhido intencionalmente um grupo de elementos que irão compor a amostra. O investigador se dirige intencionalmente a grupos de elementos dos quais se deseja saber a opinião. Por exemplo, numa pesquisa sobre preferência por determinado cosmético, o pesquisador se dirige a um grande salão de beleza e entrevista as pessoas que ali se encontram. 3. Amostragem por Quotas: um dos métodos de amostragem mais comumente usados em levantamentos de mercado e em prévias eleitorais é o método de amostragem por quotas. Ele abrange três fases: a) Classificação da população em termos de propriedades que se sabe, ou presume, serem relevantes para a característica a ser estudada; b) Determinação da proporção da população para cada característica, com base na constituição conhecida, presumida ou estimada, da população; e c) Fixação de quotas para cada observador ou entrevistador a quem tocará a responsabilidade de selecionar interlocutores ou entrevistados, de modo que a amostra total observada ou entrevistada contenha a proporção de cada classe tal como determinada em b. Por exemplo: admite-se que se deseja pesquisar o “trabalho das mulheres”. Provavelmente se terá interesse em considerar: a divisão cidade/campo, a habitação, o número de filhos, a idade dos filhos, a renda média, as faixas etárias... A primeira tarefa é descobrir as proporções (porcentagens) dessas características na população. Imagine-se que haja 47% de homens e 53% de mulheres na população. Logo uma amostra de 50 pessoas deverá Ter 23 homens e 27 mulheres. Então o pesquisador receberá uma “quota” para entrevistar 27 mulheres. A consideração de várias categorias exigirá uma composição amostral que atenda ao n determinado e às proporções populacionais estipuladas. O item dois é inerente ao interesse do pesquisador e o item três será analisado através de intervalos de confiança e testes de hipóteses, assuntos a serem abordados na sequência. Exercício 1. Pretende-se obter uma amostra dos alunos de uma universidade para estimar a proporção que tem trabalho remunerado. Qual é a população em estudo? Qual é o parâmetro que se quer estimar? Você acha que se obteria uma boa amostra dos alunos no restaurante universitário? No ponto de ônibus mais próximo? Nas portas das salas de aula? Ou você tem alternativa melhor? Exercício 2. Para estimar o número médio de pessoas em um domicilio, um pesquisador obteve uma amostra sistemática de 1000 domicílios. No entanto, mesmo fazendo varias visitas, o entrevistador não encontrou pessoas em 147 deles. O pesquisador obteve então uma segunda amostra e quando o entrevistador completou a visita aos 147 domicílios que compunham a amostra de 1000, analisou os dados. Haviam sido contadas 3087 pessoas. O pesquisador considerou então que o numero médio de pessoas em domicilio é 3,1. O que você acha? Estatística II Prof. Laura Maria Saporski Cachuba 93 CÁLCULO DO TAMANHO DA AMOSTRA Na teoria da Amostragem, são consideradas duas dimensões: a) Dimensionamento da amostra; b) Composição da amostra. A composição da amostra diz respeito ao método de amostragem utilizado (probabilístico ou não probabilístico). Para o dimensionamento da amostra, temos as fórmulas básicas a seguir, segundo alguns critérios. Procedimento: a) Analise o questionário ou roteiro da entrevista e escolha uma variável que julgue mais importante para o estudo. Se possível, escolha mais de uma. b) Verifique o nível de mensuração da variável: se nominal, ordinal ou intervalar (discretas ou contínuas). c) Considere o tamanho da população: finita ou infinita. d) Escolha a fórmula adequada para calcular o tamanho de amostra necessário, de acordo com os critérios abaixo: 1) Se a variável escolhida for intervalar (quantitativa) e a população considerada infinita, você poderá determinar o tamanho da amostra pela fórmula: amostra. da partir a calculadaser a amostral média a será X e conhece, não ele que al,populacion média a verdadeira é onde ,X- é, isto ,X e entresuportar admiteor investigad o que diferença máxima a é estimativa de erro O variável.da unidade na expresso ,estimativa de erro d valores.possíveis sobre conjeturasFazer - s;semelhante estudos de valor oResgatar - técnicas;çõesEspecifica - :maneiras trêsmenos pelo de padrão)-desvio (o lo-determiná poderá Você variável.da unidade na expresso população, da padrão-desvio confiança; de nível um fixado padrão, normal curva da abcissaZ :onde 2 d d Z n 2) Se a variável escolhida for intervalar (quantitativa) e a população finita, tem-se: .estimativa de errod população; da tamanhoN população; da padrão-desvio padrão; normal da abscissaZ 1 222 22 ZNd NZ n Estatística II Prof. Laura Maria Saporski Cachuba 94 3) Se a variável escolhida for nominal ou ordinal (qualitativa), e a população considerada infinita, você poderá determinar o tamanho da amostra pela fórmula: amostra. dapartir a calculadoser a evento do realtiva) a(frequênci proporção verdadeira a é p que em ,pˆ-p :é isto ,pˆ e p entresuportar admiteor investigad o que diferença máxima a será caso neste ,estimativa de erro O decimais. em expresso ,estimativa de errod ;pˆ-1qˆ 0,30;pˆ teremos30%,pˆ se Assim, decimais. em expresso Será estudado. sendo está quesetor do empresas grandes de proporção a verdadeirda estimativa aser poderá pˆ empresa, da portefor escolhida variávela se exemplo,Por escolhida. variávelda níveis dos um de proporção a verdadeirda estimativapˆ padrão; normal da abscissaZ :onde ˆˆ 2 2 d d qpZ n 4) Se a variável escolhida for nominal ou ordinal (qualitativa) e a população finita, tem-se: amostral. errod ;pˆ-1qˆ proporção; da estimativapˆ padrão; normal da abscissa Z população; da tamanhoN :onde ˆˆ1 ˆˆ 22 2 qpZNd NqpZ n Estas fórmulas são básicas para qualquer tipo de composição da amostra. No entanto, existem fórmulas específicas segundo o critério de composição da amostra. Se o investigador escolhe mais de uma variável, deve optar pelo maior “n” obtido. Estatística II Prof. Laura Maria Saporski Cachuba 95 Exercício 3. Um fiscal da Vigilância Sanitária precisa verificar se as farmácias da cidade estão cumprindo um novo regulamento. A cidade tem 33 farmácias, mas como a fiscalização demanda muito tempo, o fiscal resolveu optar por uma amostragem. Para escolher a amostra, o fiscal estratificou a população de farmácias de acordo com o volume de vendas. Existem 3 farmácias de uma grande cadeia, 10 de cadeias menores e 20 farmácias pequenas, de proprietários locais. O fiscal decide visitar as três farmácias da grande cadeia, quatro das cadeias menores e três farmácias pequenas. O cumprimento do regulamento, evidentemente desconhecido do fiscal, esta apresentado na tabela a seguir. Com base nessa tabela, a) Sorteie uma amostra estratificada para o local, de acordo com o que ele planejou; b) Estime, com base na amostra, a proporção de farmácias que estão cumprindo o regulamento; c) Com base nos dados da população, estime o parâmetro; d) Você obteve uma boa estimativa? Estrato A (Cadeia Grande) Estrato B (Cadeias Menores) Estrato C (Cadeias Pequenas) 1. Sim 4. Não 14. Sim 24. Sim 2. Sim 5. Sim 15. Não 25. Sim 3. Não 6. Não 16. Não 26. Não 7. Sim 17. Sim 27. Não 8. Não 18. Não 28. Não 9. Não 19. Não 29. Sim 10.Sim 20. Não 30. Sim 11. Não 21. Sim 31. Sim 12. Sim 22. Não 32. Sim 13. Não 23. Não 33. Não Exercício 4. Uma indústria de aparelhos de precisão adquire peças de certa procedência e especifica que a proporção de defeituosos não deve ser superior a 0,1%. A inspeção dos lotes recebidos é feita por amostragem, com base em uma amostra de 100 peças para cada lote, sendo exigido que todas as peças da amostra sejam perfeitas para que o lote seja aceito. Desejando-se ter, no máximo, 10% de probabilidade de se aceitarem os lotes com mais de 1% de defeituosos, qual o tamanho da amostra necessária? Exercício 5. Uma pesquisa indica que “os paranaenses, de forma esmagadora, preferiram um Ford a um Toyota, após fazerem o teste de direção em ambos”. Considerando que você trabalha para a Toyota, que informações você gostaria de obter antes de aceitar os resultados desta pesquisa? Que tipo de amostragem seria preferível nesta situação e por quê? Exercício 6. Um grupo de consumidores gostaria de calcular a quantia média, relativa a contas de energia elétrica, para o mês de julho, para domicílios unifamiliares em uma grande cidade. Com base em estudos conduzidos em outras cidades, supõe-se que o desvio-padrão seja igual a R$145,00. O grupo gostaria de calcular a conta média para o mês de julho, numa margem de R$58,00 da média verdadeira, com 99% de confiança. a) Que tamanho de amostra é necessário sem informarmos o tamanho da população? b) Qual seria o tamanho da amostra se o número de unidades unifamiliares fosse de 301.165 para a cidade em questão? c) Considerando o número de unidades da questão (b), se a confiança for de 94,5% e a margem de R$12,00, qual será o tamanho de amostra adequado? Estatística II Prof. Laura Maria Saporski Cachuba 96 Exercício 7. Uma empresa de televisão a cabo gostaria de calcular a proporção de clientes que comprariam um guia de programação de TV a cabo. A empresa gostaria de ter 94% de confiança de que sua estimativa esteja correta, em uma margem de 5% da população real. Experiências do passado, em outras áreas, indicam que 30% dos clientes comprariam o guia de programação. Supondo que a empresa tem 2.600 clientes: a) Qual o tamanho de amostra necessário para a realização da análise? b) E se a empresa não tivesse a informação de outras áreas a respeito da proporção de clientes que comprariam o guia, como ficaria o tamanho da amostra? Por quê? Posteriormente, para o cálculo do tamanho de amostras, utilizaremos uma planilha feita pelo professor Álvaro Frota, baseada em Cochran (fórmulas anteriormente demonstradas) e elaborada no Excel. O importante é saber interpretar as variáveis do problema em questão; o cálculo em si é secundário. Consulte a planilha fornecida! Estatística II Prof. Laura Maria Saporski Cachuba 97 IV. INFERÊNCIA ESTATÍSTICA 4.1 Introdução Até agora preparamos o caminho para poder entrar nos problemas da inferência estatística. Vimos as diversas técnicas da análise exploratória de dados, as técnicas de amostragem e a teoria de probabilidades, cada uma dessas áreas constitui o tripé da inferência estatística. Figura 4.1. Esquema geral de um curso de estatística. Agora, estamos prontos para entrar na parte fundamental da estatística, que é a tomada de decisões em condições de incerteza. A inferência estatística se divide em duas grandes áreas: Pontual Estimação Inferência Por intervalo Estatística Teste de Hipóteses Estatística Descritiva Amostra- gem Probabili- dade Inferência Estatística Estatística II Prof. Laura Maria Saporski Cachuba 98 4.2 Estimador e Estimativa Estimador t de um parâmetro é a variável aleatória, função dos elementos da amostra que será utilizada na estimação. O valor numérico obtido para o estimador considerado, numa certa amostra, é denominado de estimativa. Por exemplo, ao estimarmos a média da altura de uma população utilizamos como estimador a média aritmética amostral, obtendo como estimativa o valor 173,5 cm. Assim, o estimador é a média aritmética e a estimativa é cmX 5,173 . 4.3 Estimação pontual Quando utilizamos um único dado da amostra para estimar um parâmetro populacional se diz que a estimação é por ponto ou pontual. As estatísticas utilizadas para estimar os parâmetros populacionais são chamados de estimadores: Estatística Parâmetro populacional Estimador Média Média populacional: Média amostral: X Proporção Proporção populacional: Proporção amostral: pˆ Variância Variância populacional: 2 Variância amostral: s2 Desvio padrão Desvio padrão populacional: Desvio padrão amostral: s Coeficiente de correlação Coef. correlação populacional: Coef. correlação amostral: r E, os valores que os estimadores tomam em uma amostra determinada são chamados de estimativas. Propriedades dos estimadores: Seja T um estimador de um parâmetro populacional : Propriedade 1: Justeza ou não-tendenciosidade Um estimador T é dito não viciado ou não-viesado de se : E(T)= Em resumo: é o estimador que mais se aproxima do valor real do verdadeiro parâmetro. Propriedade 2: Eficiência (ou de variância mínima) Dois estimadores não viciados T e T´ de um mesmo parâmetro , e V(T) < V(T´) Então, T é dito ser mais eficiente que T´ Em resumo: O estimador que gerar a menor variância da amostra considerada será o mais eficiente. Propriedade 3: Consistência Um estimador T é consistente se: 0TPLim n , para todo > 0 Isto significa que com amostras suficientemente grandes pode-se tornar o erro de estimação tão pequeno quanto se queira. Por outro lado, se o estimador for justo, a condição de consistência equivale a dizer que sua variância tende a zero, quando n tende a infinito: Estatística II Prof. Laura Maria Saporski Cachuba 99 0TLim 2 n Em resumo: se o estimador é consistente, à medida que aumentamos o tamanho da amostra analisada, a diferença entre a estimativa gerada pelo estimador amostral e o verdadeiro parâmetro diminui, chegando à coincidência quando n = N. Propriedade 4: Suficiência Um estimador é chamado de suficiente se contêm o máximo possível de informação com referência ao parâmetro por ele estimado. Para estimar a média populacional (ou uma medida de tendência central para a população), temos vários estimadores. Comparemos apenas dois, a média amostral e a mediana (supondo o número de dados ímpar, não muda se o número de dados for par): Em resumo: um estimador suficiente é aquele que tem capacidade de retirar da amostra toda a informação que ela pode fornecer. Parâmetro a ser estimado: Média populacional: Propriedades Média amostral: X Mediana(*) Justeza E(X) = Sim E(Mediana) = Sim Eficiência V(X) = 2/n Sim V(Mediana) = 2 Não Consistência Sim Não Suficiência Sim Não (*) para n ímpar A maioria dos estimadores clássicos possuem estas propriedades. 4.4 Estimação por intervalo ou intervalar O problema da estimação pontual, ou por ponto, é que este procedimento não permite julgar qual a possível magnitude do erro que estamos cometendo. Daí surge a idéia de construir intervalos de confiança que estão baseados na distribuição amostral do estimador pontual. Seja o parâmetro , tal que 1 21 ttp onde: - o intervalo t1 t2 é denominado de intervalo de confiança (I.C.); - os extremos deste intervalo (t1 e t2) são denominados limites de confiança; - a probabilidade conhecida 1 - é denominada de nível de confiança. A escolha do nível de confiança (1 - ) depende da precisão com que se deseja estimar o parâmetro. É muito comum a utilização dos níveis 95% e 99%. Evidentemente, o aumento da confiança no intervalo implica no aumento de sua amplitude. 4.4.1 Intervalo de confiança para a média populacional Pelo Teorema Central do Limite sabemos que : n X Z Estatística II Prof. Laura Maria Saporski Cachuba 100 Ou seja, dado podemos encontrar valores Z/2 tal que a: P( - Z/2 < Z < + Z/2) = 1 - Figura 3.2 Distribuição normal padronizada. Suponhamos que = 5%; 1 - = 95%; isso significa que se construíssemos 100 intervalos de confiança, esperaríamos que 95 deles contenham o verdadeiro valor da média, ou seja, haveria uma margem de erro de 5%, o que significaria que devemos esperar que 5 dos 100 intervalos não contenham o verdadeiro valor. Acontece que você pega apenas uma única amostra! Alguém poderia perguntar como é possível estimar a média populacional supondo a variância populacional conhecida? Em alguns casos é possível fazer esta suposição, principalmente, em casos onde se conhece a distribuição da variável em condições ambientais. Por exemplo, a distribuição da pressão sanguínea de pessoas normais (não doentes) é conhecida, porém você deseja conhecer o efeito de um medicamento sobre ela. Você pode partir do pressuposto de que a única mudança que este medicamento vai trazer é o deslocamento da média, mas que o a ingestão do medicamento não vai alterar substancialmente a estrutura de variabilidade9. Neste caso, você pode assumir que a variância da pressão depois de tomar o medicamento é igual a variância antes de tomar o medicamento. Esta suposição pode ser falsa, por essa razão quando testamos hipóteses sobre igualdades de média, a primeira pergunta que devemos responder é se a suposição de igualdade de variâncias se sustenta. Vamos ver as fórmulas utilizadas para cada parâmetro de interesse: 1. Intervalo de Confiança para a média populacional : 1.1. Intervalo de confiança para média populacional quando o desvio-padrão populacional for conhecido: 1 22 n zX n zXP Exercício 1. Um pesquisador está estudando a resistência de um determinado material sob determinadas condições. Ele sabe que esta variável (qual?) tem um desvio-padrão de 2,7. De uma amostra de 17 unidades, obteve uma média de 8,25. Construa um I.C. de 95% de confiança para a resistência média do material. 9 O pressuposto da homocedasticidade da variância na comparação de médias é apresentado mais detalhadamente no tópico de regressão. - 0 Z Estatística II Prof. Laura Maria Saporski Cachuba 101 1.2. Intervalo de confiança para média populacional quando o desvio-padrão populacional for desconhecido e n < 30: Exercício 2. Ao planejar uma represa, o governo deseja estimar o benefício médio anual de irrigação por acre. Para tanto, toma uma a.a.1 de 25 lotes de um acre, obtendo um benefício médio de $8,10, com desvio-padrão de $2,40. O governo deseja saber, com 99% de confiança, quão grande é o benefício médio. Construa um I.C. apropriado e tire conclusões. Se a represa só for construída caso o benefício seja de no mínimo $10,00 você indicaria a construção? Por quê? 1.3. Intervalo de confiança para média populacional quando o desvio-padrão populacional for desconhecido e n 30: 1 22 n s zX n s zXP Exercício 3. Uma amostra de 80 motoristas de determinado estado indica que um automóvel roda, em média, 22.000 Km por ano, com desvio-padrão de 3.800 Km. Construa um I.C. de 98% de confiança para a rodagem anual média dos carros. 2. Intervalo de confiança para a diferença das médias populacionais 1 e 2 2.1. Intervalo de confiança para a diferença das médias populacionais 1 e 2 quando os desvios- padrão populacionais 1 e 2 forem conhecidos: 1 2 2 2 1 2 1 2 2121 2 2 2 1 2 1 2 21 nn zXX nn zXXP Exercício 4. Estão sendo estudados dois processos para conservar vacinas, cuja principal variável de interesse é o tempo de duração das mesmas. No processo A, o tempo X de duração tem uma distribuição normal com média desconhecida e desvio-padrão igual a 5, e no processo B o tempo Y segue também uma distribuição normal com média desconhecida e desvio-padrão igual a 5. Sorteiam-se duas amostras independentes: a de A com 16 vacinas, apresentou um tempo médio de duração igual a 50, e a de B, com 25 vacinas, duração média igual a 60. a) Construa um intervalo para verificar se os dois processos podem ter o mesmo desempenho, com 95% de confiança. Qual a sua conclusão? 11 O significado de “a.a.” é amostra aleatória. taestatístic da liberdade de graus de nº denominado é ; 1-nν Student; de t aestatístic a é t :onde 1 ; 2 ; 2 n s tX n s tXP Estatística II Prof. Laura Maria Saporski Cachuba 102 2.2. Intervalo de confiança para a diferença das médias populacionais 1 e 2 quando os desvios-padrão populacionais 1 e 2 forem desconhecidos e supostamente iguais: 1 1111 21 2 ; 2 2121 21 2 ; 2 21 nn stXX nn stXXP pp .populações duas as para ponderada comum variânciada estimativa a é 2 21 2 2 1 2 2 1 1 12 ps 2 21 n :por dado t aestatístic da liberdade de graus de nº o é Student; de t aestatístic a é t :Onde nn snsn n Obs: É preciso proceder à um teste de hipótese para verificar se as variâncias podem ser consideradas iguais ou diferentes. Exercício 5. Para um particular produto, a média de vendas por estabelecimento no último ano, em uma amostra de n1=10 estabelecimentos, foi de $3.425 de média e desvio-padrão de $200. Para um segundo produto, a média de vendas por estabelecimento, em uma amostra de n2=12 estabelecimentos, foi de $3.250 de média, com desvio-padrão de $175. Suponha que você pode considerar os desvios-padrão como aproximadamente iguais. Estimar a diferença entre o nível médio de vendas por estabelecimento no último ano, utilizando um intervalo de confiança de 99%. 2.3. Intervalo de confiança para a diferença das médias populacionais 1 e 2 quando os desvios-padrão populacionais 1 e 2 forem desconhecidos e supostamente diferentes: 1 2 2 2 1 2 1 ; 2 2121 2 2 2 1 2 1 ; 2 21 n s n s tXX n s n s tXXP 2 2 2 2 e 1 2 1 1 :Onde 1 2 2 2 1 1 2 1 2 21 :Welch-Aspin de correção pela dado t aestatístic da liberdade de graus de nº o é Student; de t aestatístic a é t :Onde n s w n s w n w n w ww Obs: É preciso proceder à um teste de hipótese para verificar se as variâncias podem ser consideradas iguais ou diferentes. Estatística II Prof. Laura Maria Saporski Cachuba 103 Exercício 6. Numa indústria deseja-se testar se a produtividade média do período diurno é superior a produtividade média dos operários do período noturno. Para isso colheram-se duas amostras, uma para cada período, observando-se a produção de cada operário. Os resultados foram os seguintes: n Média Desvio-padrão Diurno 27 12 6,78 Noturno 15 10 10,62 De acordo com estes resultados, quais seriam suas conclusões? Use 1 - = 98%. 3. Intervalo de confiança para a variância populacional 2 : quadrado-qui dea estatísticda liberdade de graus de nº denominado é; 1-n quadrado;-qui dea estatística é 2 :Onde 1 s1ns1n P 2 2 2 2 2 2 1 2 Obs: para calcularmos o Intervalo de Confiança para o desvio-padrão, consideramos a raiz quadrada positiva do I.C. obtido para a variância. Exercício 7. Para uma a.a. de 12 latas de ervilha, tomadas as unidades em 200 g, o desvio-padrão encontrado foi de 1,497. Usando uma confiança de 90%, calcule o intervalo adequado para verificar a variabilidade dos pesos. Qual a sua conclusão à respeito? Considere que o Ipem determina que a variabilidade máxima para este tipo de produto seja de 2 g. 4. Intervalo de confiança para a proporção populacional P: amostrana estimada sucesso de proporçãop :Onde ˆ 1 n pˆ1pˆ zpˆP n pˆ1pˆ zpˆP 22 Exercício 8. Uma concessionária de automóveis gostaria de calcular a proporção de consumidores que ainda possuem o carro que compraram 5 anos atrás. Uma amostra aleatória de 200 consumidores, selecionados a partir dos registros da concessionária de automóveis, indica que 82 consumidores ainda possuem os carros que compraram a 5 anos. Apresente uma estimativa com 94,3% de confiança para a proporção de consumidores que ainda possuem o carro que adquiriram 5 anos atrás. Estatística II Prof. Laura Maria Saporski Cachuba 104 V. TESTE DE HIPÓTESES DEFINIÇÕES: a) Hipóteses estatísticas: são suposições que se faz acerca dos parâmetros de uma população, ao tentar a tomada de decisões. Estas suposições podem ser verdadeiras ou não. b) Hipótese nula e alternativa: - Hipótese nula (H0): é qualquer hipótese que será testada. (Vamos entender como a hipótese de “nulidade”, ou seja, a situação onde “nada muda”); - Hipótese alternativa (H1): é qualquer hipótese diferente da hipótese nula. (Vamos entender como “aquilo que queremos efetivamente testar”). O teste de hipótese coloca a hipótese nula H0 em contraposição à alternativa H1. Ainda: H0 é o que testamos, H1 dará a direção do teste. A “direção do teste” será dada da seguinte forma: (1) esquerda à unilateral Teste 01 00 : : H H (2) direita à unilateral Teste 01 00 : : H H (3) bilateral Teste 01 00 : : H H c) Regiões de aceitação e rejeição: - Região de aceitação (R.A.) é a região em que se aceita a hipótese nula H0. - Região de rejeição (R.R.) ou região crítica: é a região em que se rejeita a hipótese nula H0, sendo complementar à região de aceitação. d) Erros dos tipos I e II: na aplicação de um teste, pode-se cometer dois tipos de erros – erros tipo I (ou tipo ): é o erro cometido ao rejeitarmos a hipótese nula, sendo ela verdadeira; erro tipo II (ou tipo ): é o erro cometido ao aceitarmos a hipótese nula, sendo ela falsa. e) Nível de significância: é a probabilidade máxima com a qual se sujeitaria a correr o risco de um erro tipo I. Essa probabilidade pode ser representada da seguinte maneira: verdadeira rejeitar 00 / HHP . Consequentemente, a probabilidade de cometermos o erro tipo II é dada por: falsa aceitar 00 / HHP . f) Teste unilateral e bilateral: - teste unilateral: quando a R.R. estiver em um dos extremos do eixo da variável de interesse; - teste bilateral: quando a R.R. estiver nos dois extremos do eixo da variável de interesse. g) Curva característica de operação (C.C.O.): é a representação gráfica de . Ela é construída marcando-se no eixo das abscissas os valores testados do parâmetro , ou e uma variável a ele associada, e no eixo das ordenadas a probabilidade de aceitar H0 quando ela for falsa. Uma C.C.O. está associada a cada teste de hipótese e resume as condições fundamentais de funcionamento ou operação do teste. Embora em muitos casos comuns não seja indispensável construir a C.C.O. ela é sempre útil para a compreensão do teste. Estatística II Prof. Laura Maria Saporski Cachuba 105 Resumindo: Passos para construção de um teste de hipótese: Passo No 1: Formular as hipóteses nula e alternativa Passo No 2: Usando a teoria estatística e as informações disponíveis decida qual estatística (estimador) será usada para julgar a hipótese Ho. Não esqueça dos pressupostos implícitos na construção desta estatística Passo No 3: Fixar o nível de significância e construir a Região Crítica Passo Nº 4: Calcular a estatística da amostra Passo No 5: Tomar a decisão (conclusão). A maioria das situações de tomada de decisões ocorrem em situação de incerteza, porque é baseada nos dados de uma amostra proveniente de uma população. Nesses casos, a estatística fornece um poderoso instrumento para a tomada de decisões. Tentaremos, através de um exemplo, explorar a lógica desse tipo de tomada de decisão estatística. Suponha que você tem R$20.000,00 (vinte mil reais) na poupança e está pensando investir esse capital na construção e funcionamento de um posto de gasolina, em um ponto movimentado de Curitiba. Suponha, também, que para o posto ser rentável (pagar o investimento inicial e dar um lucro maior do que a poupança), o número médio () de veículos que passam por aquele ponto por dia (parâmetro) deve ser maior que 2000 (hipótese estatística, chamada de hipótese nula Ho). Este é um problema clássico de teste de hipóteses, pois você decidirá aceitar ou rejeitar a hipótese nula, em função dos resultados de uma amostra. Isto porque seria impossível examinar o número de veículos que passam todos os dias por aquele ponto (população), além da disponibilidade de recursos financeiros, entre outros. Ao pegarmos uma amostra de uma população estamos lidando com leis de probabilidades, logo você não tem condição de saber se sua hipótese nula é verdadeira ou falsa, você apenas pode medir as probabilidades envolvidas na sua tomada de decisão. No nosso exemplo, aceitar a hipótese nula, de que o número de veículos que passam pelo ponto é maior de 2000, implicará em você tirar o dinheiro da poupança e investir no posto de gasolina; mas, a hipótese nula pode ser falsa, e aí, todo o empreendimento estará fadado ao fracasso, você perderá seu capital. O custo de uma decisão errada pode ser muito grande, em termos financeiros, de vidas humanas, etc. Vejamos como é o quadro decisório: Aceitar a hipótese nula (Ho) quando ela é verdadeira é uma decisão correta. No nosso exemplo significa construir o posto e realmente passam 2000 ou mais veículos por dia, logo o investimento será rentável, você recuperará seu capital e terá um retorno financeiro acima do rendimento da caderneta de poupança. Rejeitar uma hipótese falsa, também, é uma decisão correta, no caso, significa não construir o posto, deixar o dinheiro na poupança, uma vez que o posto não tinha chances de ser rentável. Entretanto, existem dois tipos de erro ao tomarmos esse tipo de decisão. O primeiro erro é rejeitar a hipótese nula (Ho) quando ela é verdadeira, chamado de erro de tipo I; no nosso exemplo, significa deixar de construir o posto quando ele seria rentável, neste caso, a perda não inclui valores físicos financeiros, apenas o valor fictício que se deixou de ganhar. O segundo erro é aceitar a hipótese nula (Ho) quando ela é falsa, chamado de erro de tipo II, no exemplo significa construir o posto, quando por aquele ponto passam menos do que 2000 veículos, o que implicaria a perda do capital. EXEMPLO INICIAL: Vamos aceitar, para exemplificar que foi realizada uma amostra com 30 observações, encontrando-se uma média de 2.050 veículos/dia com desvio-padrão de 200 veículos/dia. Vamos realizar o teste e verificar qual a conclusão. Estatística II Prof. Laura Maria Saporski Cachuba 106 Tabela 5.1. Quadro de decisão em condição de incerteza (Postura inovadora) Hipótese nula Ho passam mais de 2000 veículos por dia: Ho: > 2000 Decisão Hipótese (Ho) ser verdadeira: Ho: > 2000 (o posto será rentável) Hipótese (Ho) ser falsa Ho: < 2000 (o posto está fadado ao fracasso) Aceitar a hipótese (construir o posto) Constrói o posto e é rentável Decisão correta (1-) Constrói o posto e ele não é rentável. Perde o capital Erro de tipo II Beta () Rejeitar a hipótese (deixar o dinheiro na poupança) Não constrói o posto, porém seria rentável (deixa de lucrar) Erro de tipo I Alfa () Não constrói o posto e não era rentável Decisão correta (1-) A teoria estatística nos possibilita medir todas as probabilidades envolvidas na questão, logo podemos nos prevenir, controlando a probabilidade de cometer o erro mais grave. A probabilidade de cometer o erro de tipo I (rejeitar a hipótese nula Ho quando ela é verdadeira) é simbolizada por alfa (), também, conhecida como nível de significância. = nível de significância erro de tipo I = P (Rejeitar Ho / Ho é verdadeira) Já a probabilidade de cometer o erro de tipo II (aceitar a hipótese nula Ho quando ela é falsa) é simbolizada por beta (), que está relacionado com o poder do teste. = P (Aceitar Ho / Ho é falsa) erro de tipo II Essas probabilidades, alfa e beta, se relacionam inversamente, quando diminuímos alfa, beta cresce e vice-versa, e não dá para controlar as duas simultaneamente, a menos que se aumente o tamanho da amostra, o que implica no aumento de custos operacionais e de tempo, o que pode inviabilizar a pesquisa. Todos os testes estatísticos foram delineados para controlar alfa () o nível de significância, sendo que beta () é deixado livre. Por essa razão, a formulação da hipótese nula deve ser feita de tal forma que o erro mais grave recaia em alfa. No nosso exemplo analisando os dois tipos de erros, verificamos que o erro mais grave recai em beta. A pergunta é: como devemos formular a hipótese nula Ho, de tal forma que o pior erro caia em alfa? Neste caso, é só trocar a hipótese, negando a afirmação inicial. Vejamos o que acontece no quadro decisório: Estatística II Prof. Laura Maria Saporski Cachuba 107 Tabela 5.2. Mudança no quadro decisório ao mudar a hipótese (Postura conservadora) Hipótese nula Ho passam 2000 ou menos veículos por dia: Ho: < 2000 Decisão Hipótese (Ho) ser verdadeira: Ho: < 2000 (o posto está fadado ao fracasso) Hipótese (Ho) ser falsa Ho: > 2000 (o posto será rentável) Aceitar a hipótese (deixar o dinheiro na poupança) Não constrói o posto e não era rentável Decisão correta (1-) Deixa de construir o posto quando seria rentável (deixa de lucrar) Erro de tipo II Beta () Rejeitar a hipótese (construir o posto) Constrói o posto e ele não é rentável (perde o capital) Erro de tipo I Alfa () Constrói o posto e é rentável Decisão correta ( 1- ) Verificamos que ao negarmos a hipótese que desejamos testar asseguramos que o pior erro recaia em alfa, que é controlado pelo pesquisador. Este tipo de formulação é conhecida como postura conservadora. Ou seja, estamos mais propensos a deixar o dinheiro na poupança (ou deixar do jeito que está) do que investir no risco (mudar para o novo) e, arriscaremos, somente, quando houver evidências da amostra muito fortes a favor do novo. Portanto, devemos ser cuidadosos na formulação de hipóteses para saber qual é o tipo de erro que estamos controlando. O nível de significância é fixado pelo pesquisador. É convencional trabalhar com alfa igual a 1%, 5% ou 10%, sendo que em alguns casos podemos usar níveis maiores. A escolha do nível de significância () estará de acordo com a margem de segurança e da gravidade das consequências de vir a ocorrer o erro de tipo I. Resumindo, teremos: H0 verdadeira H0 falsa Rejeita H0 Erro Tipo I ( ) Correto Aceita H0 Correto Erro Tipo II ( ) Lembre-se: O teste é sempre feito sobre a hipótese nula, mas quem dará a direção do teste será a hipótese alternativa. A formulação de hipóteses: Em todo processo de decisão estatística, além da hipótese nula Ho existe a hipótese alternativa H1. Todo o processo decisório será feito em função de Ho, ou seja, aceitar ou rejeitar Ho. Logo, aceitaremos H1 só se a hipótese nula for rejeitada. É convenção se colocar na Hipótese nula Ho o sinal de igualdade, embora, via de regra, é a negação da hipótese alternativa. Observamos que a maioria dos testes já tem as hipóteses formuladas. A hipótese nula Ho coloca-se com o expresso propósito de ser rejeitada, se for rejeitada, pode-se aceitar a hipótese alternativa (na postura conservadora é a negação do que se quer provar). A hipótese alternativa H1 é a definição operacional da hipótese de pesquisa, que é a predição Estatística II Prof. Laura Maria Saporski Cachuba 108 deduzida da teoria que está sendo testada (na postura conservadora é a afirmação do novo, do que se quer mostrar). Tabela 5.3. Os erros em função da formulação das hipóteses Postura conservadora Postura inovadora Hipótese nula Hipótese alternativa Ho: = 2000 H1: > 2000 Ho: = 2000 H1: < 2000 Erro de tipo I Alfa () Construir o posto e o número médio é inferior a 2000, logo perderemos o capital Não construir o posto e o número médio é maior do que 2000, deixamos de lucrar Erro de tipo II Beta () Não construir o posto e o número médio é maior do que 2000, deixamos de lucrar Construir o posto é o número médio é inferior a 2000, logo perderemos o capital A construção da região crítica ou de rejeição: Uma vez decididas as hipóteses nula e alternativa e o nível de significância, decide-se a estatística a ser utilizada para operacionalizar a hipótese. Essa estatística depende do parâmetro que está sendo testado. No caso da média populacional a estatística será a média amostral, que segue uma distribuição normal, pelo Teorema Central do Limite. Com essas informações se constrói a região crítica. A região crítica ou de rejeição depende da hipótese alternativa e seu tamanho é o mesmo do nível de significância, o complemento é chamado de região de aceitação. A localização da região crítica depende da hipótese alternativa. O processo decisório A decisão de rejeitar ou aceitar a hipótese nula depende dos resultados da amostra. Calculada a estatística apropriada é só verificar em qual das duas regiões ela cai. Se cair na região de aceitação, aceitaremos a hipótese nula, caso contrário, a rejeitaremos. Se a hipótese nula for rejeitada então aceitaremos a hipótese alternativa. Observamos que todo processo decisório é feito com a hipótese nula, a decisão em relação à hipótese alternativa é mera consequência: p-valor > Aceita (ou não rejeita) H0; p-valor < Rejeita H0 Aceita H1; Unilateral Bilateral Unilateral Cauda inferior Bicaudal Cauda superior H1: < 2000 H1: 2000 H1: > 2000 Figura 5.1. Região de rejeição e de aceitação da hipótese nula Operacionalizando a tomada de decisão A R A RA RR RR /2 RR RR /2 Estatística II Prof. Laura Maria Saporski Cachuba 109 A construção da estatística da amostra depende do parâmetro que está sendo testado, se for a média populacional, a estatística estará baseada na distribuição da média amostral, se for a proporção populacional, a estatística usará a proporção amostral e assim por diante. 5.1 Teste de hipótese para a média populacional Suponhamos que você selecionou uma amostra de 35 dias, em meses diferentes (tendo cuidado de representar os dias da semana, bem como os finais de semana) e, que a média amostral seja 2.100 veículos, com um desvio padrão de 200. Como n=35 podemos utilizar a fórmula 1.3 para, estimando o desvio padrão populacional com o desvio padrão da amostra, sob a hipótese nula: Como Zcalculado (2,958) é maior que Ztabelado, (a 5% = 1,65) então rejeita-se Ho, ou seja, é viável construir o posto de gasolina. Este procedimento é trabalhoso, pois você tem que ter a tabela da distribuição da estatística (normal, t-student, etc.), o que só se justifica se você não tiver a mão um pacote estatístico. Para evitar o fato de ter que procurar os valores em tabelas, a maioria dos pacotes estatísticos fornece, além do valor da estatística da amostra, o p-valor (p-value ou significance), conhecido, também, como nível de significância observado ou da amostra. Este valor deve ser comparado com o nível de significância () escolhido pelo pesquisador, neste caso é só comparar os dois valores. Se o p-valor for menor que alfa, rejeita-se a hipótese nula; caso contrário, aceita-se. Como calcular o p-valor: O p-valor é a probabilidade que a estatística supere o valor observado na amostra, maior se for da cauda superior, menor se for da cauda inferior, ou a probabilidade de rejeitar a hipótese nula quando ela é verdadeira, com os valores daquela amostra. Se for cauda superior Ho: = 2000 H1: > 2000 p-valor = P( Z > Zamostra) Se for cauda inferior Ho: = 2000 H1: < 2000 p-valor = P( Z < Zamostra) Se for bicaudal Ho: = 2000 H1: 2000 p-valor = P( Z > Zamostra) se Zamostra for + ou p-valor = P( Z < Zamostra) se Zamostra for – Este valor deve ser multiplicado por 2 No nosso exemplo: p-valor = P ( Z Zamostra) p-valor = P ( Z 2,96) = 0,00153 ou 0,015% Como essa probabilidade é menor que = 0,05 cai na região de rejeição. Logo rejeita-se Ho. As fórmulas utilizadas em teste de hipóteses seguem os mesmos critérios de Intervalo de Confiança. Para teste, acrescentaremos uma fórmula a mais – o teste para dados pareados (ou emparelhados). Estatística II Prof. Laura Maria Saporski Cachuba 110 Os testes para diferença de médias permitem que você compare diferenças entre duas populações independentes, com base em amostras que contenham dados numéricos. O teste a seguir analisa a diferença entre médias a partir de populações relacionadas – ou seja, quando os resultados do primeiro grupo não são independentes dos resultados do segundo grupo. Esta característica de dependência pode ocorrer devido ao fato dos itens ou indivíduos serem alocados em pares, ou combinados de acordo com alguma característica, ou em decorrência de as medições repetidas serem obtidas a partir de uma mesmo conjunto de itens ou indivíduos. Em qualquer um destes casos, a variável de interesse representa a diferença entre os valores das observações, e não os valores das próprias observações. Uma das abordagens do teste é a combinação ou a colocação em pares de itens ou indivíduos de acordo com alguma característica de interesse. Por exemplo, ao testar um produto sob duas estratégias diferentes de propaganda e promoções, uma amostra pode ser coletada com base no tamanho da população e/ou outras variáveis socioeconômicas e demográficas, que, controladas, podem medir os efeitos de duas diferentes campanhas. Outra abordagem envolve a coleta de medições repetidas dos mesmos itens ou indivíduos. Baseando-se no fato de que os mesmos itens ou indivíduos irão se comportar da mesma maneira, caso sejam tratados da mesma forma, o objetivo da análise é demonstrar que quaisquer diferenças entre duas medidas dos mesmos itens ou indivíduos resultam de diferentes condições de tratamento. Por exemplo, num teste de degustação, cada sujeito na amostra pode ser seu próprio controle, de modo que sejam obtidas repetidas medições em relação ao mesmo indivíduo. Independentemente de serem utilizadas amostras combinadas (em pares) ou medições repetidas, o objetivo é estudar as diferenças entre duas medições, reduzindo o efeito da variabilidade decorrente dos próprios itens ou indivíduos. Como de modo geral as amostras tem tamanho reduzido neste tipo de análise, o Teorema do Limite Central nos diz que a estatística t pode ser usado sem perda de precisão, com n-1 graus de liberdade. Assim teremos: :Onde : : 01 00 ddH ddH 1.-npor dado é t aestatístic da liberdade degrau O nula. hipótese na testadamédias de diferença a éd diferenças das padrão desvio o é ; 1 d s :e as;emparelhad sobservaçõe duas as entre diferença ésima-i a representa d que sendo d e n d d :de através obtida média diferença a é d onde 0 n 1i 2 i d i21i n 1i i 0 n d xx n s dd t ii d calc Exemplo: uma empresa de aplicações em software está desenvolvendo um novo pacote de aplicações financeiras. Como o tempo de processamento do computador representa um critério de decisão importante, o analista deseja que o novo pacote, apesar de manter as mesmas características Estatística II Prof. Laura Maria Saporski Cachuba 111 e capacidades do atual líder de mercado, forneça resultados ainda mais rápidos. Se bem sucedido, o novo pacote produzirá os mesmos resultados do atual líder de mercado num tempo menor de processamento. Para avaliar, foi projetado um experimento onde determinados projetos de aplicações financeiras serão utilizados tanto pelo novo pacote de software como pelo pacote líder de mercado, permitindo a avaliação dos dois tempos de processamento. Os resultados encontram-se abaixo: USUÁRIO LIDER NOVO PACOTE DIFERENÇA (di) A 9,98 9,88 0,1 B 9,88 9,86 0,02 C 9,84 9,75 0,09 D 9,99 9,8 0,19 E 9,94 9,87 0,07 F 9,84 9,84 0 G 9,86 9,87 -0,01 Média ( d ) 0,084 Desvio-padrão ( ds ) 0,084354 Elaborando o teste: como não existe uma diferença específica, basta que se comprove que o tempo do líder é estatisticamente maior que o novo pacote (hipótese do pesquisador), então temos: líder pacote nomaior é ntoprocessame de tempodo média a -0: líder pacote do a igualou inferior é ntoprocessame de tempodo média a - 0: 1 0 DH DH Assumindo um nível α=5%, encontraremos na tabela o valor 1,833 (positivo, pois o teste é unilateral a direita). 91-10por dado é t aestatístic da liberdade degrau O 3,15 10 084354,0 0084,0 calct Assim, rejeitamos Ho (Ho é falsa), pois o valor t calculado está na área de rejeição. Portanto, considerando uma amostra de 10 observações, uma confiança de 95%, podemos afirmar que a média do tempo de processamento do Lider de mercado é maior do que o novo pacote. Logo, com o tempo de processamento menor o pacote novo é mais eficiente que o líder de mercado. Estatística II Prof. Laura Maria Saporski Cachuba 112 Exercício 1. Para investigar se as crianças negras de uma geração passada apresentaram conscientização racial e preconceito anti-negro, Clark e Clark (1958) estudaram um grupo de 252 crianças negras. A cada uma pediu-se que escolhesse uma boneca de um grupo de quatro – duas brancas e duas não-brancas. 169 dentre as 252 crianças escolheram boneca branca. Verifique a hipótese, ao nível de 1,5 %, de que as crianças tem preconceito contra os negros (ou seja, são a favor dos brancos). Sugestão: pense em qual seria a hipótese de igualdade! Exercício 2. Um processo de fabricação produziu milhões de chips de TV com vida média de 1.200 h e desvio-padrão de 300 h. Testa-se um novo processo com uma amostra de 100 chips obtendo-se vida média de 1.265 h. Admitindo que o desvio-padrão do processo anterior possa ser utilizado com validade, você diria que este novo processo proporciona uma vida média melhor que a do processo anterior ao nível de 1% e 5%? Exercício 3. O representante de um grupo comunitário informa que está interessado em estabelecer um centro comercial se a renda média familiar na área for no mínimo de $15.000,00. Suponha que, para o tipo de zona em questão, é possível supor que a renda média pode assumir um desvio-padrão de $2.000,00 (baseado em um estudo anterior). Para uma amostra aleatória de n = 15 famílias, a renda familiar obteve uma média de $ 14.000,00. Teste a hipótese adequada, ao nível de significância de 5%, para verificar se é ou não viável a construção do centro comercial nesta localidade. Exercício 4. Uma pesquisa mercadológica sobre fidedignidade a um produto foi realizada em dois anos consecutivos. No primeiro ano em que foi realizada, a preferência pela marca foi de 29%. No segundo ano em que se realizou, de uma amostra de 400 pessoas, 33% delas indicaram preferência pela marca. Existe evidência de que este resultado apresente uma mudança positiva na preferência, considerando um nível de significância de 2%? Se esta significância fosse de 10%, a sua conclusão mudaria? Por quê? Estatística II Prof. Laura Maria Saporski Cachuba 113 VI. AJUSTAMENTO/REGRESSÃO/CORRELAÇÃO Muitas vezes estudamos certos fenômenos que envolvem duas ou mais variáveis, e frequentemente estamos interessados em estabelecer uma relação funcional entre as mesmas. O problema da regressão consiste em determinar a função que exprime essa relação. Com muita frequência, na prática, verifica-se intuitivamente que existe uma relação entre duas (ou mais) variáveis. Por exemplo, verifica-se que a porcentagem de peças defeituosas fabricadas por uma máquina depende da velocidade imprimida a esta; o preço do quilo de batatas influi de algum modo na quantidade total adquirida na última semana do mês em um supermercado. Quando o problema envolve apenas duas variáveis ele é conhecido por regressão simples, e no caso de duas ou mais variáveis por regressão múltipla. Basicamente, um problema de regressão envolve variáveis que podem ser controladas (podem ser relacionadas matematicamente) e variáveis que não podem ser controladas (variação aleatória). Seja Y uma variável aleatória que é influenciada pelas variáveis X1, X2, ... , Xn, então, Y = f(X) + , onde : X é a variável independente (variável explicativa); Y é a variável dependente (variável resposta); é a componente aleatória da variação de Y; f é a função de regressão. Obs.: A escolha da variável explanatória nem sempre é tão óbvia. Por exemplo, quando os valores de X são fixados a priori, ajusta-se a regressão de Y contra X (Y=f(X)). Mas nem sempre os valores de X são fixados a priori. Então, tanto pode-se ajustar a regressão de X contra Y, como Y contra X. Para escolher entre as duas, é preciso identificar a variável que deve ser prevista, conhecido o valor da outra variável; X geralmente é uma variável que pode ser controlada pelo pesquisador. As observações dos fenômenos nos fornecem pares de valores (X;Y) que, locados em um par de eixos cartesianos, configura o que chamamos de gráfico ou diagrama de dispersão. O conjunto de pontos (xi;yi) poderia indicar a existência de uma relação funcional entre as duas variáveis, ficando por conta da variação aleatória as discrepâncias que alguns desses pontos tivessem em relação a equação matemática , que pode ser uma relação linear se os pontos tendem a se agrupar em torno de uma linha reta, ou se os pontos tendem a se agrupar em torno de uma curva exponencial, a relação adequada talvez seja a função exponencial. Enfim, o aspecto pode sugerir uma relação funcional adequada ao problema de regressão. O problema será então encontrar a curva (ou reta) que melhor se ajuste ao conjunto de pontos do diagrama de dispersão. Isto é, trata-se de desenhar a sentimento ou determinar a equação matemática da curva que melhor se acomode ao conjunto de pontos disponíveis. A este problema denominamos AJUSTAMENTO. Abaixo vemos a relação de vários tipos de curva de ajustamento e suas equações: a) Reta (regressão linear): Y = a + bX; b) Polinômios do n-ésimo grau (regressão polinomial): Y = a + bX + cX² + ... + nXk (forma geral); c) Polinômio do 2° grau (parábola quadrática): Y = a + bX + cX² ; d) Polinômio do 3° grau (parábola cúbica): Y = a + bX + cX² + dX³ ; e) Hiperbóle: Y = 1 / a + bX ; f) Curva exponencial: Y = abX ; g) Curva logística: Y = 1 / abX + g; h) Curva geométrica: Y = aXb . Estatística II Prof. Laura Maria Saporski Cachuba 114 O problema de como selecionar, entre todos os diferentes tipos possíveis de curvas, a que melhor e adapta à evolução dos dados não pode ser resolvido pela análise matemática formal. De todas as curvas que se ajustam a um conjunto de pontos, a que tem propriedade de apresentar o mínimo valor para a soma dos quadrados dos desvios entre os valores observados e os calculados é denominada a melhor curva de ajustamento. É a curva de mínimos quadrados. Se a variável X corresponder ao tempo, os dados representarão os valores de Y em diversos momentos. Os dados ordenados em relação ao tempo são denominados séries temporais (históricas ou cronológicas). A curva ajustante, neste caso, é denominada de TENDÊNCIA e é, frequentemente, empregada com o objetivo de fazer previsões (por extrapolações) ou avaliações (por interpolação). 6.1 REGRESSÃO LINEAR SIMPLES O Modelo Estatístico de uma regressão linear simples é do tipo Y = + X + Onde e são parâmetros da regressão, sendo denominado de coeficiente de regressão linear. O significado do coeficiente de regressão linear (coeficiente angular) é a variação da altura Y quando caminhamos uma unidade para a direita na direção de X, isto é, o coeficiente angular b = variação de Y correspondente a uma variação unitária de X. As hipóteses gerais subjacentes ao modelo de regressão linear são que: 1) a variável dependente é uma variável aleatória, ou seja, se o primeiro valor de Y é grande, não há razão para esperar que o segundo Y também o seja (ou seja, pequeno); isto é, não há relacionamento entre os Y´s coletados; 2) as variáveis independente e dependente estão associadas linearmente; 3) as variâncias das distribuições condicionais da variável dependente, dados diferentes valores da variável independente, são todas iguais (homocedasticidade). A homocedasticidade é um termo que designa que a variância dos erros é constante para diferentes valores da variável coletada. Caso a suposição não possa ser considerada válida, teremos como efeito que os estimadores obtidos através do Método de Mínimos Quadrados estarão incorretos, e, portanto, a inferência não será válida. Os estimadores de MQ não são os de mínima variância, porém são os menos viesados. A hipótese (1) indica que, muito embora os valores da variável independente possam ser fixados, os valores da variável dependente devem ser obtidos através de um processo de amostragem. Ao estabelecermos o modelo de regressão linear simples, devemos, portanto, pressupor que: 1) A relação entre X e Y é linear; 2) A variável X não é aleatória, ou seja, os valores de X são fixos; 3) E( ) = 0, ou seja, a média do erro (variável aleatória) é nula; 4) A variância de é sempre ², ou seja, V () = ²; 5) Os erros são independentes; 6) Os erros tem distribuição normal. A medida que a forma se afasta da normal, podem ser preferíveis outras técnicas. Se, em conjunto com a análise de regressão, utiliza-se a estimação por intervalo, é necessária a hipótese adicional de que as distribuições condicionais da variável dependente, dados diferentes valores da variável independente, são todas distribuições normais para os valores da população. Em uma análise de regressão linear, devemos inicialmente estimar os parâmetros e , cujas estimativas chamaremos de a e b, respectivamente. O método utilizado para determinar as estimativas é conhecido como Método dos Mínimos Quadrados (MMQ) que consiste em estimar os valores que minimizam a soma dos quadrados dos desvios. Y=na + b.X X.Y = aX + b.X² Estatística II Prof. Laura Maria Saporski Cachuba 115 Utilizando as variáveis centradas: Xb.-Ya e .. e X onde 1 2 1 1 2 1 11 n i n i ii n i n i ii n i i n i i x yx x Yx b n Y Y n X YYyeXXx O DIAGRAMA DE DISPERSÃO Um diagrama de dispersão é um gráfico no qual cada ponto plotado representa um par observado de valores para as variáveis dependente e independente. O valor da variável independente X é plotado no eixo horizontal, e o valor da variável dependente Y é plotado no eixo vertical. Uma abordagem frequente para relações que não são lineares é determinar um método de transformar os valores de tal forma que a relação dos valores transformados seja linear. A análise de regressão linear pode, então, ser aplicada aos valores transformados, e os valores estimados da variável dependente podem ser transformados de volta à escala original de medida. Um exemplo de uma relação curvilínea seria a relação entre o nível de vendas e os anos desde a incorporação de uma companhia, dado que o nível de fendas a cada ano cresça pela mesma percentagem em relação ao ano anterior. A curva resultante, com uma inclinação crescente, indicaria a assim chamada relação exponencial. ANÁLISE DA VARIÂNCIA APLICADA À REGRESSÃO LINEAR SIMPLES A ANOVA aplicada à Regressão Linear Simples possibilita testar a regressão linear significativa o que é equivalente a mostrar que o coeficiente de regressão 0. Fonte de Variação Graus de Liberdade Soma dos Quadrados Quadrado Médio Estatística F Devido à Regressão K – 1 xySb. 1 . K Sb xy síduodoMédioQaudrado gressãodaMédioQuadrado Re Re Residual n – K xyyy SbS . Kn SbS S xyyy R . 2 Total n -1 yyS n i n i i n i i ii n i iixy n YX YXYYXXS 1 11 1 Estatística II Prof. Laura Maria Saporski Cachuba 116 n i n i n i i iiyy n Y YYYS 1 1 2 122 Teste de Hipótese para a ANOVA: H0: = 0 – a regressão linear de Y sobre X não é significativa; H1: 0 - a regressão linear de Y sobre X é significativa; Se Fcalc > F, com 1,2. rejeita-se a hipótese nula. Se o modelo proposto é correto, QMRes estima 2. Por isso é muitas vezes representado por s2. Se o modelo é inadequado, s2 superestima 2; medirá não só a variável aleatória de Y (ou ) em torno de sua média, mas também o mau ajustamento dos dados ao modelo escolhido – falta de ajuste (aderência). O coeficiente de Determinação: se SQRes = 0, todos os pontos estão sobre a reta estimada. Desejamos, portanto, que este valor seja o menor possível, ou seja, que SQReg esteja muito próxima de SQTotal. Desta forma, a medida de precisão do modelo é dada por: SQTotal gSQ R Re2 , que mede a proporção da variável Y que é explicada pela reta de regressão. Para fazer previsões, é preciso que este valor esteja o mais próximo possível de 1. Exemplo I: Os dados a seguir mostram que o valor investido em propaganda em determinada empresa e o retorno da empresa, ou seja, o valor em u.m. empregado na propaganda (x) determina o retorno da empresa em lucro dado por u.m. (Y) ( Y=f(x) ); Tabela I: Quantidade de u.m. recebida como lucro em função da quantidade de u.m. investida em propaganda. X Y x y x.y x2 y2 X.Y Y2 X2 x.Y 2 3,5 -6,625 -14,15 93,74375 43,890625 200,2225 7,0 12,25 4 -23,1875 3 5,7 -5,625 -11,95 67,21875 31,640625 142,8025 17,1 32,49 9 -32,0625 5 9,9 -3,625 -7,75 28,09375 13,140625 60,0625 49,5 98,01 25 -35,8875 8 16,3 -0,625 -1,35 0,84375 0,390625 1,8225 130,4 265,69 64 -10,1875 10 19,3 1,375 1,65 2,26875 1,890625 2,7225 193,0 372,49 100 26,5375 12 25,7 3,375 8,05 27,16875 11,390625 64,8025 308,4 660,49 144 86,7375 14 28,2 5,375 10,55 56,70625 28,890625 111,3025 394,8 795,24 196 151,575 15 32,6 6,375 14,95 95,30625 40,640625 223,5025 489,0 1062,76 225 207,825 69 141,2 371,35 171,875 807,2425 1589,2 3299,42 767 371,35 média de X = 8,625 média de Y = 17,65 Estatística II Prof. Laura Maria Saporski Cachuba 117 Exemplo II. Em um estudo sobre como a safra de trigo depende do fertilizante, suponhamos que dispomos de fundos para 10 observações experimentais, obtendo os dados abaixo: Xi = quantidade de fertilizante Yi = produção de trigo Y X x y x.y x2 y2 X.Y Y2 X2 x.Y 40 6 -12 -17 204 144 289 240 1600 36 -480 44 10 -8 -13 104 64 169 440 1936 100 -352 46 12 -6 -11 66 36 121 552 2116 144 -276 48 14 -4 -9 36 16 81 672 2304 196 -192 52 16 -2 -5 10 4 25 832 2704 256 -104 58 18 0 1 0 0 1 1044 3364 324 0 60 22 4 3 12 16 9 1320 3600 484 240 68 24 6 11 66 36 121 1632 4624 576 408 74 26 8 17 136 64 289 1924 5476 676 592 80 32 14 23 322 196 529 2560 6400 1024 1120 570 180 956 576 1.634 11.216 34.124 3.816 956 média de Y = 57 média de X = 18 Estatística II Prof. Laura Maria Saporski Cachuba 118 Resolução do Exemplo I: RESUMO RESULTADOS Estatística de regressão R múltiplo 0,996955413 R-Quadrado 0,993920096 R-quadrado ajustado 0,992906779 Erro padrão 0,904428164 Observações 8 ANOVA gl SQ MQ F F de significação Regressão 1 802,3320582 802,3321 980,8576645 7,03936E-08 Resíduo 6 4,907941818 0,81799 Total 7 807,24 Coeficientes Erro padrão Stat t valor-P 95% inferiores 95% superiores Interseção -0,985018182 0,675492312 -1,458223 0,195054171 -2,637889534 0,667853171 LUCRO 2,160581818 0,068987073 31,31865 7,03936E-08 1,991776407 2,329387229 Estatística II Prof. Laura Maria Saporski Cachuba 119 Fig. 6.1 Fig. 6.2 Estatística II Prof. Laura Maria Saporski Cachuba 120 Fig. 6.3 Estatística II Prof. Laura Maria Saporski Cachuba 121 Resolução do Exemplo II : RESUMO DOS RESULTADOS Estatística de regressão R múltiplo 0,985418303 R-Quadrado 0,971049232 R-quadrado ajustado 0,967430386 Erro padrão 2,431706077 Observações 10 ANOVA gl SQ MQ F F de significação Regressão 1 1586,694444 1586,694 268,3311803 1,94353E-07 Resíduo 8 47,30555556 5,913194 Total 9 1634 Coeficientes Erro padrão Stat t valor-P 95% inferiores 95% superiores Interseção 27,125 1,979265348 13,70458 7,74557E-07 22,56080297 31,6892 PRODUÇÃO DE TRIGO 1,659722222 0,101321087 16,38082 1,94353E-07 1,426075227 1,893369 Estatística II Prof. Laura Maria Saporski Cachuba 122 Fig. 6.4 Fig. 6.5 Estatística II Prof. Laura Maria Saporski Cachuba 123 Fig. 6.6 Estatística II Prof. Laura Maria Saporski Cachuba 124 6.2 CORRELAÇÃO E CAUSALIDADE A observação de que duas grandezas tendem simultaneamente a variar no mesmo sentido não implica a presença de um relacionamento causal entre elas. Pode ser a flutuação de uma terceira variável que faz com que X e Y variem no mesmo sentido, embora X e Y sejam não correlacionadas. Esta terceira variável (que causa a correlação observada) é chamada de variável intercorrente (não conhecida), e a falsa correlação é chamada de correlação espúria. Quais os significados de r =1 ; r =-1 ; r = 0 entre duas variáveis X e Y ? Quando estudamos o grau de inter-relacionamento entre duas variáveis, a investigação usualmente começa com uma tentativa de descobrir a forma aproximada da relação. Isto é feito lançando-se as variáveis, aos pares, num gráfico cartesiano formando o que chamamos de diagrama de dispersão. Ainda que nos pareça que o conjunto de pontos (xi;yi) tenda a estar alinhado (segundo uma linha reta) também poderíamos supor que uma curva levemente ondulada serviria. Poderíamos, então, medir, através do coeficiente de correlação linear r, o grau em que as variáveis estão linearmente relacionadas. Tal coeficiente é dado pela expressão: 2 11 2 2 11 2 111 n i i n i i n i i n i i n i i n i i n i ii YYnXXn YXYXn r O valor do coeficiente de correlação linear r oscila no intervalo, –1 r +1 Se as duas variáveis forem perfeitamente correlacionadas positivamente (ascendente) o valor de r será +1. Se a correlação for inversa e perfeita r será –1. Em qualquer destes dois casos, haverá uma relação funcional entre as duas variáveis. Se as duas variáveis forem estatisticamente independentes não haverá associação alguma entre elas e o coeficiente de correlação será zero ou muito próximo deste valor. Os valores intermediários entre 0 e 1 mostram relação estatística entre as variáveis. Estatística II Prof. Laura Maria Saporski Cachuba 125 Observe os exemplos abaixo; estes conjuntos de dados foram preparados pelo estatístico F. J. Ascombe e mostram os perigos de se analisar somente o coeficiente de correlação. Conjunto 1 Conjunto 2 Conjunto 3 Conjunto 4 X Y X Y X Y X Y 10,0 8,04 10,0 9,14 10,0 7,46 8,0 6,58 8,0 6,95 8,0 8,14 8,0 12,74 8,0 5,76 13,0 7,58 13,0 8,74 13,0 12,74 8,0 7,71 9,0 8,81 9,0 8,77 9,0 7,11 8,0 8,84 11,0 8,33 11,0 9,26 11,0 7,81 8,0 8,47 14,0 9,96 14,0 8,10 14,0 8,84 8,0 7,04 6,0 7,24 6,0 6,13 6,0 6,08 8,0 5,25 4,0 4,26 4,0 3,10 4,0 5,39 19,0 12,50 12,0 10,84 12,0 9,13 12,0 8,15 8,0 5,56 7,0 4,82 7,26 7,26 7,0 6,42 8,0 7,91 5,0 5,68 4,74 4,74 5,0 5,73 8,0 6,89 Coef Corr. 0,8164 0,8162 0,8163 0,8165 Médias 9,00 7,50 9,00 7,50 9,00 7,50 9,00 7,50 Desvio 3,317 2,032 3,317 2,032 3,317 2,030 3,317 2,031 Note que as médias e os desvios-padrão dos dados nos quatro conjuntos são exatamente os mesmos valores, bem como o coeficiente de correlação. No entanto, a simples análise gráfica dos Diagrama de Dispersão mostra que os conjuntos estão longe de serem considerados iguais. Se calcularmos as retas de regressão para estes conjuntos encontraremos a mesma reta de regressão: Y = 3,00 + 0,5Xi . No entanto, uma análise mais detalhada do modelo mostrará que nem todas as retas estão bem estimadas. Conjunto 1 0 2 4 6 8 10 12 0 2 4 6 8 10 12 14 16 Fig. 6.7 Estatística II Prof. Laura Maria Saporski Cachuba 126 Conjunto 2 0 1 2 3 4 5 6 7 8 9 10 0 2 4 6 8 10 12 14 16 Fig. 6.8 Conjunto 3 0 2 4 6 8 10 12 14 0 2 4 6 8 10 12 14 16 Fig. 6.9 Estatística II Prof. Laura Maria Saporski Cachuba 127 Conjunto 4 0 2 4 6 8 10 12 14 0 2 4 6 8 10 12 14 16 18 20 Fig. 6.10 “A interpretação do coeficiente de correlação como medida da intensidade de relação linear entre duas variáveis é uma interpretação puramente matemática e é completamente isenta de qualquer implicação de causa e efeito. O fato de que duas variáveis tendam a aumentar ou diminuir juntas não implica que uma delas tenha algum efeito direto ou indireto sobre a outra. Ambas podem ser influenciadas por outras variáveis de maneira a dar origem a forte relação matemática. Por exemplo, durante uma série de anos verificou-se ser de 0,98 o coeficiente de correlação entre o salário de professores e o consumo de bebidas. Durante este período de tempo houve uma forte alta nos ordenados e salários de todos os tipos e uma tendência geral ascendente de bons tempos. Sob tais condições, os salários dos professores também aumentaram. Além disso, a tendência geral ascendente nos ordenados e o poder aquisitivo, junto com o aumento da população, iria refletir num aumento da compra total de bebida. Assim, a alta correlação simplesmente reflete o efeito comum da tendência ascendente sobre duas variáveis. Os coeficientes de correlação devem ser empregados com cuidado se forem dar informações sensíveis concernentes à relação entre pares de variáveis. O sucesso com eles (os coeficientes) requer familiaridade com o campo de aplicação bem como com suas propriedades matemáticas.” (Hoel, p. 169). A interpretação dos valores numéricos obtidos para o coeficiente de correlação, na prática, é uma questão subjetiva e depende basicamente do pesquisador e das variáveis. Podemos, por exemplo, adotar a relação abaixo: r Correlação 0 Nula 0 0,3 Fraca 0,3 0,6 Média 0,6 0,9 Forte 0,9 0,99 Fortíssima 1 Perfeita Estatística II Prof. Laura Maria Saporski Cachuba 128 Exercício. Existe relação entre o volume de uma carga e o tempo gasto para acondicioná-la? Para investigar este fato, sortearam-se 9 pedidos de mercadorias, medindo-se as duas variáveis de interesse. Com os dados obtidos abaixo, quais seriam suas conclusões? TEMPO 84 108 110 133 144 152 180 196 231 VOLUME 48 72 63 82 88 109 112 123 140 6.3 Análise da Variância A Análise da Variância (ANOVA) consiste em uma generalização do teste para a igualdade de duas médias populacionais. No teste para igualdade de duas médias usamos as estatísticas z ou t, conforme os critérios de desvio-padrão; na ANOVA testamos k (k≥2) médias populacionais com base na estatística F. Esta técnica é usada se desejamos testar as hipótese para k (k≥2): k k H H 211 210 : : Para isto, supomos as populações normalmente distribuídas e as variâncias populacionais iguais (homocedasticidade). Considerando as k amostras extraidas das populações cujas médias serão testadas, podemos estimar a variãncia de três maneiras: 1. Variância Total: estimar a variância considerando todas as amostras reunidas em uma única amostra, supondo a hipótese inicial de que as variâncias são todas iguais. 1 1 1 2 2 N Xx s k j n i ij t Onde, o numerador é denominado de Soma Total dos Quadrados e representado por SQT. Esta estimativa terá sentido se a hipótese H0 proposta for verdadeira, o que implica que todas as populações tem, estatisticamente, a mesma média e variância. 2. Variância entre Amostras: sendo verdadeira a hipótese H0, poderermos estimar a variância 2 através das médias das k amostras, ou seja, como se fosse uma amostra de k valores. Como nX 2 2 , e chamando 2 X s a estimativa de 2 X , então a estimativa de 22 de es será: 1 1 1 2 22 k Xx sns k j n i j Xe Onde o numerador é denominado de Soma de Quadrados entre Amostras, representado por SQE. 3. Variância Residual (ouvariância dentro): consiste em estimar a variância dentro de cada amostra e em seguida estimarmos um único valor de 2 , através da combinação dessas k variâncias. Para uma amostra qualquer, a estimativa individual será dada por: Estatística II Prof. Laura Maria Saporski Cachuba 129 1 1 2 2 n xx s n i jij j Combinando as k variâncias, obtemos a estimativa de 2 : kN xx k s s k j n i jij k j j r 1 1 2 1 2 2 Onde o numerador é denominado de Soma dos Quadrados Residuais, representado por SQR. Caso a hipótese H0 seja verdadeira, demonstra-se que as estimativas de 2es e 2ts são independentes. Assim, podemos comparar essas variâncias pela estatística: 2 2 r e calc s s F . O teste será sempre do tipo unilateral, pois sendo H0 falsa, F tenderá sempre a crescer. O valor crítico de F será, para um nível de siginificância α, dado por Fα, com ν1=k-1 e ν2=N-k. Logo, H0 será rejeitada para kNkcalc fF ;1 . 6.4.1 Análise da Variância a um Critério de Classificação Existe apenas uma característica, ou seja, os diferentes valores obtidos na amostra são devidos a apenas um critério de interesse a ser testado. Para k amostras a serem testadas, teremos: amostra ésima-j da tamanhoo é amostrask das sobservaçõe de totalnúmero o é amostrask das conjunto do geral média a é amostra ésima-j da média a é amostra ésima-j da elemento ésimo-i o é j j ij n N X x x Teremos então a sequência de análise: 1) Determinar as hipóteses: k k H H 211 210 : : , onde em H1 pelo menos uma das médias é diferente. 2) Fixar o nível de significância α. RAH0 1-α RRH0 1-α Fα Estatística II Prof. Laura Maria Saporski Cachuba 130 3) Determinar as Regiões de Aceitação e Rejeição. 4) Cálculo da estatística de teste. 5) Conclusão: se kNkcalc fF ;1 , rejeita-se H0, caso contrário, aceita-se H0. SQT=SQE+SQR QUADRO DA ANOVA Fonte de variação Soma de Quadrados Gl Quadrado Médio (s2) Estatística F Entre Amostras SQE k-1 1 2 k SQE QMEse QMR QME s s F r e calc 2 2 Residual SQR N-k kN SQR QMRsr 2 Total SQT N-1 Exemplo: Em uma indústria, quatro operários executam a mesma operação. Com o objetivo de identificar se existe diferença significativa entre os tempos gastos para executar a oepração mencionada, foram realizadas as seguintes observações destes tempos (em segundos): Operário 1 8,1 8,3 8,0 8,1 8,5 Operário 2 8,4 8,4 8,5 8,3 Operário 3 8,8 8,7 8,9 Operário 4 8,3 8,4 8,2 8,2 8,3 8,4 - Verificar ao nível de 5% se a diferença é significativa. 43211 43210 : : H H F tabelado: k-1=4-1=3 ; n-k=18-4=14 34,305,014,3 f Operário 1 Operário 2 Operário 3 Operário 4 Total 8,1 8,4 8,8 8,3 8,3 8,4 8,7 8,4 8,0 8,5 8,9 8,2 8,1 8,3 8,2 8,5 8,3 8,4 41,0 33,6 26,4 49,8 150,8 37,263.1 18 8,150 22 N xij 34,264.14,83,81,8 2222 ijx Estatística II Prof. Laura Maria Saporski Cachuba 131 10,264.1 6 8,49 3 4,26 4 6,33 5 0,41 22222 j ij n x SQE=1.264,10 - 1.263,37=0,73 SQR=1.264,34 - 1.264,10=0,24 SQT=1.264,34 + 1.263,37=0,97 QUADRO DA ANOVA Fonte de variação Soma de Quadrados Gl Quadrado Médio (s2) Estatística F Entre Amostras 0,73 4-1=3 0,243 29,14 017,0 243,0 Residual 0,24 18-4=14 0,017 Total 0,97 18-1=17 Conclusão: Como Fcalc > 34,305,014,3 F , rejeita-se H0, ou seja, existe pelo menos um operário cujos tempos diferem significativamente dos demais. 6.3.2 Método de Scheffé Havendo diferença entre as médias, precisamos verificar qual delas diferem das demais. O quadro da ANOVA apenas aponta a existência de pelo menos uma diferença, mas precisamo saber qual ou quais itens diferem. Existem diversos métodos: método de Tukey, método de Scheffé, método de Duncan e método dos contrastes ortogonais. O método de Scheffé é mais geral e completo, mesmo perdendo um pouco em precisão para os demais. Para o modelo de classificação única, se duas médias diferem significativamente Scheffé demonstrou que jij xx onde: kNk ji Fk nn QMR ;11 11 Para o exemplo em questão: 3,8;8,8;4,8;2,8 017,0 6;3;4;5 4321 4321 xxxx QMR nnnn 34,3;14 11 017,0 ji nn Operários ji xx Conclusão 1 e 2 0,28 0,2 Não diferem 1 e 3 0,30 0,6 diferem 1 e 4 0,25 0,1 Não diferem 2 e 3 0,32 0,4 diferem 2 e 4 0,27 0,1 Não diferem 3 e 4 0,29 0,5 diferem Estatística II Prof. Laura Maria Saporski Cachuba 132 Logo, podemos concluir que o operário 3 difere siginificativamente dos demais em relação ao tempo gasto para executar a operação. Estatística II Prof. Laura Maria Saporski Cachuba 133 REFERÊNCIAS BIBLIOGRÁFICAS 1. MONTGOMERY, Douglas C. Design and Analysis of Experiments –– Third Edition – John Wiiley & Sons, Arizona, USA – 1991. 2. CHISNALL, P. M. Pesquisa mercadológica.. Saraiva, 1980, Rio de Janeiro. 3. BOYD JR., H. W., WESTFALL, R. Pesquisa mercadológica: texto e casos. Fundação Getúlio Vargas, 1979, São Paulo. 4. CASTRO, Cláudio de Moura. A Prática da Pesquisa. McGraw-Hill, 1978. São Paulo. 5. FERRARI, Alfonso Trujillo. Metodologia da Pesquisa Científica. Mcgraw-Hill, 1982. São Paulo. 6. MADOW, William G. Teoria dos Levantamentos por Amostragem. IBGE, 1981. Rio de Janeiro. 7. CHARNETT, Reinaldo e outros. Análise de Modelos de Regressão Linear. 1999, Ed. Unicamp, São Paulo. 8. LEVINE, David M. Estatística: teoria e aplicações. 5ª Ed. Rio de Janeiro: LTC , 2008. 9. SPIEGEL, Murray R. Estatística. 3 ed. São Paulo : McGraw-Hill , c1993. 10. CAMPOS, V.F. Gerência da qualidade total: uma estratégia para aumentar a competitividade da empresa brasileira. Belo Horizonte: Fundação Christiano Ottoni, Escola de Engenharia da UFMG, 1990. 187p. 11. CROSBY, P. A gestão pela qualidade. Banas Qualidade, v.8, n. 70, p. 98. 12. SPIEGEL, Murray R. Estadística. 3 ed. São Paulo : McGraw-Hill , c1993. 13. FONSECA, Jairo Simon da; MARTINS, Gilberto de Andrade. Estatística aplicada. 2ed. São Paulo: Atlas, 1995. 14. PEREIRA, Wilson. Estatística: conceito básico. 2ª Ed. 1990. 15. MARTINS, Gilberto de A. Estatística Geral e Aplicada. 3ª Ed. 2005. 16. CALDEIRA, A. M. S. Estatística. Rio de Janeiro: Conquista, 1990. 17. KARMEL, PH. & POLASEK, M. Estatística geral e aplicada para economistas. São Paulo, Atlas. Prof. Laura Maria Saporski Cachuba 134 ANEXO I: TABELAS ESTATÍSTICAS PARA PROBABILIDADE E INFERÊNCIA. As tabelas a seguir estão liberadas para consulta durante a prova. Para fazer uso do material, uma cópia destes arquivos deverá estar impressa à parte e sem anotações adicionais. Prof. Laura Maria Saporski Cachuba 135 Prof. Laura Maria Saporski Cachuba 136 Prof. Laura Maria Saporski Cachuba 137 Prof. Laura Maria Saporski Cachuba 138 Prof. Laura Maria Saporski Cachuba 139 Prof. Laura Maria Saporski Cachuba 140 Prof. Laura Maria Saporski Cachuba 141 Prof. Laura Maria Saporski Cachuba 142 Prof. Laura Maria Saporski Cachuba 143 Prof. Laura Maria Saporski Cachuba 144 Prof. Laura Maria Saporski Cachuba 145 Prof. Laura Maria Saporski Cachuba 146 Prof. Laura Maria Saporski Cachuba 147 ANEXO II: Instrumental Matemático Arredondamento de dados Muitas vezes, é necessário ou conveniente suprimir unidades inferiores às de determinada ordem. Esta técnica é denominada arredondamento é feito da seguinte maneira: 1 – Quando o primeiro algarismo a ser abandonado é 0,1,2,3 ou 4, fica inalterado o último algarismo a permanecer. EX: 53,24 passa a 53,2; 44,03 passa a 44,0. 2 – Quando o primeiro algarismo a ser abandonado é 6,7,8 ou 9, aumenta-se de uma unidade o algarismo a permanecer. EX: 53,87 passa a 53,9; 44,08 passa a 44,1; 44,99 passa a 45,0. 3 – Quando o primeiro algarismo a ser abandonado é 5, há duas soluções: a) Se ao 5 seguir em qualquer casa um algarismo diferente de zero, aumenta-se uma unidade ao algarismo a permanecer. EX: 2,352 passa a 2,4; 25,6501 passa a 25,7; 76,250002 passa a 76,3. a) Se o 5 for o último algarismo ou se ao 5 só se seguirem zeros, o último algarismo a ser conservado só será aumentado de uma unidade se for ímpar. Exemplos: 24,75 passa a 24,8 24,65 passa a 24,6 24,75000 passa a 24,8 24,6400 passa a 24,6 Obs: Não devemos nunca fazer arredondamentos sucessivos. Exemplo: 17,3452 passa a 17,3 e não para 17,35 e depois para 17,4. Compensação Suponhamos os dados abaixo, aos quais aplicamos as regras do arredondamento: 25,32 + 17,85 + 10,44 + 31,17 = 84,78 25,3 + 17,8 + 10,4 + 31,2 = 84,7 Verificamos que houve uma pequena discordância: a soma é exatamente 84,7 quando, pelo arredondamento, deveria ser 84,8. Entretanto, para a apresentação dos resultados, é necessário que desapareça tal diferença, o que é possível pela prática do que denominamos compensação, conservando o mesmo número de casas decimais. Usamos “descarregar” a diferença na(s) maior(es) parcela(s). Veja: 25,3 + 17,8 + 10,4 + 31,3 = 84,8 Obs: Se a maior parcela é igual ou maior que o dobro de qualquer outra parcela, “descarregamos” a diferença apenas na maior parcela. Prof. Laura Maria Saporski Cachuba 148 Álgebra do Somatório n i n n xxxx xxx 1 211 21 ... ,...,, :por expressa ser pode soma sua X, de valores São Se Regras Básicas para uma variável 1. Se a é uma constante: n i n i ii n i nni n i i n i i xaax xxxaaxaxaxax xaax 1 1 1 2121 11 ...... 2. Se X e Y são duas variáveis, então: n i n i ii n i ii nnnn n i ii n i n i ii n i ii yxyx yyyxxxyxyxyxyx yxyx 1 11 21212211 1 1 11 ......... 3. Se X e Y são duas variáveis e a e b são constantes, então: n i i n i i n i ybxabyax 111 11 4. Se x é a média aritmética de x, então: n i nn n i n i i xnxxxxxxxxxxxxxxx xx 1 12121 1 1 1 0 ......... Como 0 1 1 1 1 11 1 1 n i n i n i i n i n i i xxxxxxn n x x Prof. Laura Maria Saporski Cachuba 149 5. 2 2 1 1 1 2 1 2 2 2 1 1 1 2 1 22 2 1 1 22 1 22 1 2 1 1 1 1 2 1 1 22 1 22 22 22 n x xxx n x nxxnxxx xnxnxxnxnxx xxxxxxxxxx n i n i i n i i n i n i i n i i n i n i i n i i n i n i n i n i n i iii . Regras Para Duas Variáveis Dados: n n xxX yyY ... ,... 1 1 Seja a função yxyxf , , o somatório duplo dessa função pode ser expresso como: nmmm nn m i n j ji m i n j m i n j jiji yxyxyx yxyxyxyxyxyxyx yxmyxf ... ......... , 21 222121 1 21 1 11 1 1 1 1 Observações: 1. a ordem da soma múltipla não importa: m i n j n j m i jiji yxfyxf 1 1 1 1 ,, 2. a notação pode ser simplificada para: i j ji yxf , Prof. Laura Maria Saporski Cachuba 150 ANEXO III: Alfabeto Grego Maiúsculo Minúsculo Nome alfa beta gama delta épsilon dzeta eta teta iota kapa lâmbda mü(mi) nü (ni) Ksi ônicron pi rô sigma tau úpsilom (ipsilon) fi chi (qui) psi ômega Prof. Laura Maria Saporski Cachuba 151 ANEXO IV: Lista para Estatística Descritiva. 1. Contou-se o número de erros de impressão da primeira página de um jornal durante 50 dias, obtendo-se os resultados abaixo: 8 11 8 12 14 13 11 14 14 5 6 10 14 19 6 12 7 5 8 8 10 16 10 12 12 8 11 6 7 12 7 10 14 5 12 7 9 12 11 9 14 8 14 8 12 10 12 22 7 15 a) Elabore uma tabela de frequências. b) Quem é a variável de estudo? Classifique-a. c) Apresente média, moda e mediana. d) Escolha uma das medidas de tendência central e apresente a medida de dispersão adequada para ela. O que você pode concluir? e) O que você pode informar a cerca da assimetria do conjunto de dados? f) Você diria que o número de erros encontrados nos 50 dias de pesquisa pode ser considerado homogêneo? Por quê? g) Qual sua sugestão pessoal (como administrador) sobre a análise que você acaba de fazer? h) Elabore um gráfico adequado e comente o que você observa com ele. 2. A mediana da série { 1, 3, 8, 15, 10, 12, 7 } é : a) igual a 15 b) igual a 10 c) igual a 7 d) igual a 3,5 e) não há mediana, pois não existe repetição de valores. 3. Numa pesquisa de opinião, 80 pessoas são favoráveis ao divórcio, 50 são desfavoráveis, 30 são indiferentes e 20 ainda não têm opinião formada a respeito do assunto. Então a média aritmética será: a) igual a 180, porque todos opinaram somente uma vez. b) igual a 40, porque é a média entre os valores 50 e 30. c) igual a 45. d) igual a 1, porque todos opinaram somente uma vez. e) não há média aritmética. 4. Na série estatística formada por { 3 , 1 , 2 , 3 , 6 }: a) mediana > moda > média. b) moda < média < mediana. c) moda = mediana = média. d) mediana = média e não há moda. e) média > mediana e não há moda. Prof. Laura Maria Saporski Cachuba 152 5. Considere uma série estatística com 2351 elementos. A posição da mediana é representada pelo: a) 1175º elemento. b) 1176º elemento. c) ponto médio entre o 1175º e o 1176º elemento. d) 1175,5º elemento. e) Impossível resolução, pois não há identificação dos elementos 6. Uma pesquisa teve como objeto o transporte coletivo urbano de certa cidade. Seus objetivos foram quantificar a lotação dos ônibus no horário de pico e estabelecer a situação dos usuários desse horário em termos da qualidade do serviço. Utilizou-se a seguinte variável aleatória: X = Número de Passageiros Dentro de um Ônibus em Certo Horário. Analise a tabela abaixo e responda: CLASSE fi xi. xi.fi FAC xi2.fi 50 | 54 4 52 54 | 58 9 56 58 | 62 11 60 62 | 66 8 64 66 | 70 5 68 70 | 74 3 72 Total 40 2.440,00 150.080,00 a) Calcule a medida de tendência central que, na sua opinião, melhor traduz o objetivo proposto. b) Calcule a medida de dispersão que, na sua opinião, melhor traduz o objetivo proposto. c) O que você conclui a respeito dos dados, sabendo que a distribuição apresentou um formato gaussiano aceitável, quando analisado o gráfico adequado? Qual foi a forma (ou formas) gráfica adequada para avaliar os dados? d) Você diria que a forma como os dados foram apresentados responde adequadamente o objetivo proposto? Justifique. Prof. Laura Maria Saporski Cachuba 153 ANEXO V. Lista Treino de Exercícios para Distribuição de Probabilidade. 1. A probabilidade de que um presumível cliente aleatoriamente escolhido faça uma compra é de 0,20. Se um vendedor visita 8 presumíveis clientes, qual a probabilidade de que: a) O vendedor faça exatamente 4 vendas; b) O vendedor faça um número de vendas inferior ou igual a 2; c) O vendedor faça entre 3 (inclusive) e 7 (exclusive) vendas. 2. A probabilidade de que um empregado aleatoriamente escolhido participe de um programa de investimentos em ações patrocinado pela empresa é de 0,40. Se 16 empregados são escolhidos aleatoriamente, qual a probabilidade de que: a) Exatamente 75% deles participe do programa em questão; b) Menos de 5 (exclusive) participem do programa; c) O valor médio e o desvio-padrão dos empregados participantes. 3. Um departamento de conserto de máquinas recebe em média 5 chamadas por hora. Qual a probabilidade de que o departamento receba: a) Mais de 3 (inclusive) chamadas por hora; b) 5 chamadas em meia hora; c) Entre 8 (exclusive) e 12 (inclusive) chamadas de 15 minutos; d) Menos de 2 chamadas (inclusive) em 5 minutos. e) Qual é a média e o desvio-padrão das chamadas por hora? 4. A vida útil de uma certa marca de pneus radiais tem uma distribuição normal com média de 38.000 km e desvio-padrão de 3.000 km. Qual a probabilidade de que o pneu escolhido aleatoriamente tenha vida útil: a) Entre 22.000 e 34.000 km? b) Dure mais do que 40.000 km? c) Se um comerciante encomenda 500 pneus desta marca, qual a quantidade aproximada que terá vida útil superior a 40.000 km? E entre 30.000 e 40.000 km? 5. O tempo necessário para o atendimento de uma pessoa em um guichê de um banco tem média de 130 segundos e desvio padrão de 45 segundos. Qual a probabilidade de você: a) Leve menos de 100 segundos para terminar suas transações? b) Gaste de 2 a 3 minutos no guichê? c) Dentro de que período de tempo os 20% de pessoas que realizam as transações mais rápidas terminam suas transações no guichê? d) Qual o tempo mínimo necessário para os 5% de indivíduos com as transações mais complicadas? 6. Suponha que haja em média 2 suicídios por ano numa população de 50.000 habitantes. Se a população sobe para 100.000 habitantes, encontre a probabilidade de que em um certo ano tenha havido: a) Nenhum suicídio; b) Somente 1 suicídio; c) Exatamente 2 suicídios; d) Menos de 5 (inclusive) suicídios. Prof. Laura Maria Saporski Cachuba 154 7. Suponha que a variável aleatória Q.I. tenha uma distribuição normal com média 100 e desvio-padrão 15. Qual a proporção da população que terá: a) Q.I. menor que 93? b) Q.I. maior que 145? c) Q.I. entre 100 e 140? 8. Em um grupo de 1.500 mulheres entrevistadas, 600 delas foram favoráveis à inserção de um item de segurança específico em um novo automóvel. Em uma amostra de 12 mulheres, qual a probabilidade de que: a) Exatamente 6 mulheres sejam favoráveis à inserção deste item de segurança; b) Mais de 4 (inclusive) mulheres sejam favoráveis à inserção deste item de segurança; c) Pelo menos 8 mulheres sejam favoráveis à inserção deste item de segurança; d) Menos de 3 (inclusive) mulheres sejam favoráveis à inserção deste item de segurança. Respostas: 1. a) 0,04588 b) 0,79691 c) 0,20301; 2. a) 0,00396 b) 0,16657 c) média: 6,4 d.p.: 1,9595; 3. a) 0,8754 b) 0,0668 c) 0 d) 0,991 e) média: 5; d.p.: 2,236; 4. a) 0,09175 b) 0,25142 c) 0,25142 x 500 126 d) 0,74478 x 500 373; 5. a) 0,25142 b) 0,45357 c) 93 segundos d) 204 segundos; 6. a) 0,0183 b) 0,0733 c) 0,1465 d) 0,7852; 7. a) 0,31017 b) 0,00135 c) 0,4962; 8. a) 0,17658 b) 0,77467 c) 0,05731 d) 0,22533. Prof. Laura Maria Saporski Cachuba 155 ANEXO VI: Lista Treino para Inferência Estatística 1. Uma máquina automática de refrigerantes é regulada de modo que a quantidade suprida de cada vez tenha um desvio-padrão de 1,3 dl. Determinar uma estimativa média de 96%, sabendo que uma amostra de 30 copos de refresco acusou conteúdo médio de 21,0 dl. 2. Uma pesquisa mercadológica sobre fidedignidade a um produto foi realizada em dois anos consecutivos. No primeiro ano em que foi realizada, a preferência pela marca foi de 29%. No segundo ano em que se realizou, de uma amostra de 400 pessoas, 33% delas indicaram preferência pela marca. Existe evidência de que este resultado apresente uma mudança positiva na preferência, considerando um nível de significância de 2%? Se esta significância fosse de 10%, a sua conclusão mudaria? Por quê? 3. O diretor de compras de uma fábrica de peças industriais está examinando a possibilidade de comprar um novo tipo de máquina de moer. Ele decidiu que a nova máquina será comprada se houver evidências de que a variabilidade da resistência a ruptura das peças produzidas pelo novo tipo de máquina de moer for menor do que a variabilidade da máquina antiga. A máquina antiga mostra uma média de 65 Kg com desvio-padrão do processo de resistência à ruptura de 10 Kg. Uma amostra de 10 peças retiradas para a máquina nova, mostra uma média de 72 Kg do processo de resistência à ruptura com desvio-padrão de 9 Kg para a nova máquina. Utilizando =1%, há evidências de que a variabilidade da máquina nova é realmente menor que a variabilidade da máquina antiga? Por quê? 4. Dentre 100 peixes capturados num certo lago, 18 não estavam apropriados para consumo devido aos níveis de poluição do ambiente. Construa um intervalo de confiança de 99% para a correspondente verdadeira proporção. 5. Um departamento de manutenção recebe diariamente um carregamento de máquinas defeituosas. Para uma amostra de 10 máquinas, o tempo médio necessário para o conserto foi de 85 min com um desvio-padrão de 15 min. Estimar o tempo médio necessário para consertar as máquinas com 90% de confiança. Estime o tempo total necessário para consertar todas as máquinas, considerando que serão consertadas uma por vez. 6. Um produtor deseja obter peso específico médio 0,8 Kg/dm3 para certo material necessário á sua linha de produção. Admitindo o produtor a possibilidade de uma partida estar acima da especificação, quer saber se poderá, ao nível de 5% de significância, devolver a partida ao fornecedor. Para tanto, colheu uma amostra de 12 porções do material, a qual forneceu média de 0,81 Kg/dm3 e desvio-padrão de 0,02 Kg/dm3 . O fornecedor indica como sendo de 0,01 Kg/dm3 o desvio-padrão do peso específico do produto. Prof. Laura Maria Saporski Cachuba 156 7. O índice médio da receita municipal dos 400 municípios de um estado tem sido de 7 pontos. O governo pretende melhorar este índice e para isso esta melhorando alguns incentivos. Para verificar os efeitos desta nova proposta, sorteou 10 cidades e anotou os índices investidos nas cidades encontrando uma média de 10,56 com desvio-padrão de 2,55. Admitindo uma confiança de 99%, é possível admitir que a receita municipal evidenciou melhorias com esta nova proposta? 8. Sabe-se que o consumo mensal per capita de um determinado produto tem distribuição normal com desvio-padrão de 2 Kg. A diretoria da firma que fabrica o produto resolveu que retiraria o produto da linha de produção se a média de consumo per capita for menor que 8 Kg. Caso contrário, continuaria a fabricá-lo. Em uma amostra com 25 indivíduos encontrou-se uma média de 7,2 Kg. a) Verifique, com 5% de significância, qual deve ser a decisão da diretoria; b) Se a diretoria tivesse fixado uma significância de 1%, sua resposta em a seria a mesma? Justifique. c) Se o desvio-padrão da população fosse de 4 Kg, qual seria a decisão em a e b? Prof. Laura Maria Saporski Cachuba 157 ANEXO VII. RESPOSTAS DAS QUESTÕES PROPOSTAS Capítulo 1 Ex. 1 a) quantitativa contínua b) qualitativa ordinal c) qualitativa nominal d) qualitativa nominal e) quantitativa contínua f) qualitativa nominal Ex. 2 a) quantitativa discreta b) qualitativa nominal c) quantitativa discreta d) quantitativa contínua e) qualitativa nominal f) quantitativa contínua g) qualitativa nominal h) qualitativa nominal i) qualitativa nominal j) qualitativa nominal Ex. 3 - qualitativa nominal Ex. 4 a) quantitativa contínua b) quantitativa discreta c) quantitativa contínua d) qualitativa nominal e) qualitativa nominal f) qualitativa nominal g) qualitativa nominal h) quantitativa discreta i) qualitativa nominal j) qualitativa nominal k) qualitativa ordinal Ex. 7 a) V b) F c) F d) V e) V f) V Prof. Laura Maria Saporski Cachuba 158 Ex. 8 a) TAB. I - Causas de suicídio ocorridos no Brasil no ano de 1986. Fonte: IBGE, 1988. b) Moda: Doença Mental - só é possível calcular a moda, pois a variável é qualitativa nominal. c) variável: causa de suicídio - qualitativa nominal Ex. 9 a) Menos do que 5.000, pois o quartil 3 indica que 75% ganham no máximo até este valor; b) Na Cia. B pois com a variabilidade muito baixa é praticamente certo o salário de 7.000 Ex. 11 a) Média: 180,91 cm Variância: 1.580,91 cm2 b) Acima de 181,33 cm (mediana) c) Mediana: 181,33 cm Moda: 182,80 cm d) -X- e) O das mulheres por apresentar resultado mais homogêneo, de acordo com o coeficiente de variação (CVM: 2,45% CVH: 21,98%) f) Histograma e/ou Ogiva (ou Polígono) de Frequência, pois os dados são agrupados; Capitulo 2 Ex. 4 a) 0,7222 b) 0,2778 c) 0,50 Ex. 5 a) 0,2667 b) 0,20 c) 0,80 d) 0,2667 e) 0,3333 (na situação do casal) Ex. 6 - 0,55 Ex. 7 Máq. A - 0,3623 Máq. B - 0,4058 Máq. C - 0,2319 CAUSA Nº DE OCORRÊNCIAS ALCOOLISMO 263 DIFICULDADE FINANCEIRA 198 DOENÇA MENTAL 700 OUTRO TIPO DE DOENÇA 189 DESILUSÃO AMOROSA 416 OUTRAS CAUSAS 217 ∑ 1.983 Prof. Laura Maria Saporski Cachuba 159 Ex. 14 a) 0,30233 b) 0,53853 c) 0,50 d) 0,93319 e) 0,02275 Ex. 15 a) 0,99983 b) 0,89435 c) 0,00620 Ex. 16 - 0,25142 Ex. 17 - 0,74123 Ex. 18 a) 0,09175 - aproximadamente 6 candidatos b) Devem concluir em até 55,4 min c) Acima de 99,2 min - aproximadamente 7 devem retornar ao treinamento Ex. 19 Pequenos até 4,328 kg Médios de 4,328 kg até 5,536 kg Grandes de 5,536 kg até 6,024 kg Extra acima de 6,024 kg