Esta é uma pré-visualização de arquivo. Entre para ver o arquivo original
Apresentando dados em tabelas e gráficos – Parte II Laboratório de Ciências Algumas Técnicas Estatísticas � Uma das formas de organizar e resumir a informação contida em dados observados é através da tabela de freqüências (distribuição de freqüências) e gráficos. � Técnicas que ajudam na visualização das características dos dados. Algumas Técnicas Estatísticas � As técnicas estatísticas diferem em função do tipo de variável que está sendo analisada. Quantitativas • Idade • Peso • Distância • Salário Qualitativas • Sexo • Raça • Estado Civil • Gravidade de doença Variáveis Tipos de Variáveis Variáveis Quantitativas Contínuas •Altura(cm) •Temperatura (oC) Variáveis Qualitativas Ordinais •Gravidade (L/M/S) •Classe social (A/M/B) Discretas •No de filhos •No de gânglios Nominais •Sexo •Religião •Raça Dados Qualitativos � Como organizar os dados qualitativos? �Tabela de freqüências (distribuição de freqüências). �Gráfico de barras, gráfico setorial (ou em forma de pizza) e o diagrama de Pareto. Dados Quantitativos � Como organizar os dados quantitativos? �Tabela de freqüências (distribuição de freqüências). �Histograma. Exemplo I � Um pesquisador está interessado em fazer um levantamento sobre alguns aspectos socioeconômicos dos empregados da seção de orçamentos da Companhia MB. � Usando informações obtidas do departamento pessoal, ele coletou, por exemplo, informações sobre número de filhos e salário (salários mínimos). Tabela 1: Número de filhos dos funcionários casados da Cia. MB da Seção de Orçamentos. Func. Número de Filhos Func. Número de Filhos 1 1 11 0 2 2 12 2 3 0 13 2 4 1 14 0 5 2 15 5 6 3 16 2 7 0 17 1 8 1 18 3 9 2 19 2 10 1 20 3 Fonte: Tabela de dados brutos – Bussab e Morettin (2010). Comentários � Variável de interesse: número de filhos. � Classificação da variável: variável quantitativa discreta. � Possíveis valores: 0, 1, 2, 3, 4 e 5. � Número pequeno de valores distintos. Notação – Tabela de Freqüências if n ff iri = %100*% ii rr ff = Frequência absoluta da categoria i (número de observações que pertencem à categoria i. Frequência relativa da categoria i. Porcentagem da categoria i. Tabela 2: Distribuição de freqüências da variável número de filhos. i Número de filhos Número de funcionários % de funcionários (fi ) (fri%) 1 0 4 20% 2 1 5 25% 3 2 7 35% 4 3 3 15% 5 4 0 0% 6 5 1 5% Total 20 100% Fonte : Tabela 1. Comentários � Não temos perda de informação dos dados originais. � Percebemos que as famílias mais freqüentes são as de 2 filhos, seguida pelas famílias de 1 filho. Ainda 20% das famílias não tem filhos e são mais comuns que as famílias com 4 ou 5 filhos. Comentários � Quando existe uma ordenação das categorias de uma variável (qualitativa ordinal ou quantitativa), faz sentido inserirmos na tabela uma outra coluna, a da frequência acumulada (fac), que é a soma das frequências relativas, do menor valor até o atual. Construção do Histograma para Dados Discretos � Determine a freqüência e a freqüência relativa de cada valor da variável de interesse. � Marque os valores possíveis da variável em uma escala horizontal. Acima de cada valor, desenhe um retângulo cuja altura seja a freqüência relativa (ou a freqüência) daquele valor. Comentários � A forma da distribuição não sofrerá modificação alguma, devido à proporcionalidade existente entre freqüência e freqüência relativa. � Essa construção assegura que a área de cada retângulo seja proporcional à freqüência relativa do valor. Comentários � Por exemplo, se as freqüências relativas de número de filhos = 3 e número de filhos = 5 são 0,15 e 0,05, respectivamente, a área do retângulo acima de número de filhos = 3 será 3 vezes a área do retângulo acima de número de filhos = 5. Comentários � O histograma é um gráfico de barras para os dados quantitativos, no qual não existem espaços em branco ou lacunas entre as barras adjacentes, como ocorre em um gráfico de barras para dados qualitativos. Exemplo I 543210 30 20 10 0 Número de Filhos P o r c e n t a g e m 5 0 15 35 25 20 Histograma para a variável número de filhos. Discussão � % famílias que não têm filhos? � % famílias com pelo menos 2 filhos? � % famílias com mais de 3 filhos? 5% 55% 20% Exemplo II Tabela 3: Salário dos funcionários da Cia. MB da Seção de Orçamentos. Func. Salário Func. Salário 1 4,00 19 10,53 2 4,56 20 10,76 3 5,25 21 11,06 4 5,73 22 11,59 5 6,26 23 12,00 6 6,66 24 12,79 7 6,86 25 13,23 8 7,39 26 13,6 9 7,59 27 13,85 10 7,44 28 14,69 11 8,12 29 14,71 12 8,46 30 15,99 13 8,74 31 16,22 14 8,95 32 16,61 15 9,13 33 17,26 16 9,35 34 18,75 17 9,77 35 19,40 18 9,80 36 23,30 Fonte: Tabela de dados brutos – Bussab e Morettin (2010). Comentários � Variável de interesse: salário. � Classificação da variável: variável quantitativa contínua. � Possíveis valores: 4,00; 4,56; ... � Muitos valores distintos. Comentários � Solução: agrupar os valores em classes (intervalos) para montar a distribuição de freqüências. � Quantas classes consideramos??? � Depende do tamanho do conjunto de dados (n). Comentários � A escolha dos intervalos é arbitrária e a familiaridade do pesquisador com os dados é que lhe indicará quantas e quais classes devem ser usadas. � Deve-se observar que, com um pequeno número de classes, perde-se informação, e com um número grande de classes, o objetivo de resumir os dados fica prejudicado. Comentários � Regra prática: � Em geral, sugere-se o uso de 5 a 15 classes com a mesma amplitude (preferencialmente). n Procedimento para a Construção da Distribuição de Freqüências com Classes de Mesma Largura Distribuição de Freqüências para Variáveis Contínuas � Encontre o menor e o maior valor das observa- ções (conjunto de dados). �Menor valor = 4,00. �Maior valor = 23,30. Amplitude (R): Maior valor – Menor valor = 23,30 - 4,00 = 19,30. Distribuição de Freqüências para Variáveis Contínuas � Determinar o número de classes (k): �K = = 6 (no máximo 6 classes).n �Determinar o tamanho das classes (h): �h = R/k = 3,21666 ≈ 4. Distribuição de Freqüências para Variáveis Contínuas � Primeira classe: 4,00 |-- 8,00. � Segunda classe: 8,00 |-- 12,00. � E assim por diante... Distribuição de Freqüências para Variáveis Contínuas Classes 4,00|--8,00 8,00|--12,00 12,00|--16,00 16,00|--20,00 20,00|--24,00 Notação: a|-- b a: limite inferior da classe b: limite superior da classe Intervalo fechado em “a” e aberto em “b” = [a,b). Distribuição de Freqüências para Variáveis Contínuas � Freqüências absolutas de cada classe. � Freqüências relativas de cada classe. � Porcentagem de cada classe. Classes 4,00|--8,00 8,00|--12,00 12,00|--16,00 16,00|--20,00 20,00|--24,00 Tabela 4: Distribuição de freqüências da variável salário. i Classes Freqüência Absoluta Freqüência Relativa Porcentagem 1 4,00|--8,00 10 27,78 2 8,00|--12,00 12 0,3333 33,33 3 12,00|--16,00 8 0,2222 22,22 4 16,00|--20,00 5 0,1389 13,89 5 20,00|--24,00 1 0,0278 2,78 Total 36 1 100 Fonte: Tabela 3. 0,2778 Nesta organização de dados, temos perda de informa- ção dos dados originais. Construção do Histograma: Classes de Mesma Largura � Determine a freqüência e a freqüência relativa de cada classe. � Marque os limites de classe em um eixo de medida horizontal. � Acima de cada intervalo, desenhe um retângulo cuja altura seja a freqüência relativa correspondente (ou a freqüência). Histograma para a variável salário Histograma para a variável salário Comentários � Para o caso de termos dados discretos com valores muito distintos é usual proceder o agrupamento dos dados em classes (ou intervalos). � Exemplo: Número de casos de uma doença, número de acidentes, etc. Comentários � Classes de mesma largura podem não ser uma boa escolha se o conjunto de dados se estender para um lado ou para outro. � Usar um número pequeno de classes de mesma largura resulta em quase todas as observações em apenas uma ou duas classes. Comentários � Se for usado um grande número de classes de mesma largura, muitas classes terão freqüência zero. � Uma opção melhor é usar alguns intervalos mais amplos próximos às observações dos extremos e intervalos mais estreitos na região de concentração. Interpretação do Histograma � Em uma análise gráfica procuramos identificar: � PADRÃO GLOBAL nos dados � Desvios acentuados em relação ao mesmo � Importante: � Não perceberemos padrões nos dados se houver um número muito pequeno ou muito grande de intervalos ou classes. Interpretação do Histograma � Procuramos uma impressão geral suavizada. � Não reagimos a pequenas subidas ou descidas. Valores Atípicos (Outliers) � Procuramos por observações que estejam bem afastadas da maioria dos dados. �Observações discrepantes (outliers). � Analisar estas observações com mais cuidado. � Porque razão são tão diferentes? � Está ocorrendo algo incomum ou interessante? � São erros? Valores Atípicos (Outliers) Existência de Mais de Um Pico Existência de Mais de Um Pico � Picos são chamados modas. �Quando há apenas um pico, a moda representa o valor mais popular (ou classe: classe modal). � Presença de diversas modas é indicador de diversos grupos distintos de dados. � Deve-se investigar os motivos de multimodalidade. Moda � Uma distribuição pode não possuir moda (amodal – distribuição “achatada”). � Uma distribuição pode possuir mais de uma moda (multimodal). � Uma distribuição pode possuir apenas uma moda (unimodal). Distribuição “Achatada” Distribuição Multimodal Valores Centrais e Dispersão � Observar: �Onde os dados parecem estar centrados. �Quão espalhados estão os dados. � Posição das modas (caso de multimodalidade). Valores Centrais e Dispersão 43210-1-2 10 9 8 7 6 5 4 3 2 1 0 dados p o r c e n t a g e m Valores Centrais e Dispersão 43210-1-2 10 9 8 7 6 5 4 3 2 1 0 dados p o r c e n t a g e m Mudanças Abruptas � Suspeite de mudanças abruptas. � Tente estabelecer suas causas. Forma da Distribuição � O gráfico parece ser aproximadamente simétrico? � O gráfico apresenta assimetria moderada? Forma da Distribuição � O gráfico apresenta assimetria extrema? Forma da Distribuição � A distribuição de uma variável pode ter várias formas, mas existem duas formas básicas: �Simétrica. �Assimétrica. Distribuição Simétrica � Quando uma distribuição é simétrica em torno de um valor (o mais freqüente), significa que as observações estão igualmente distribuídas em torno desse valor (metade acima e metade abaixo). Exemplos - Forma simétrica assimétrica à esquerda assimétrica à direita Comentários � Usualmente, técnicas estatísticas formais preferem trabalhar com um histograma simétrico com forma de sino. � A forma do histograma pode sugerir uma função matemática cuja curva se ajusta bem ao histograma. 43210-1-2-3-4 100 50 0 dados f r e q ü ê n c i a a b s o l u t a Características a serem procuradas no histograma Fonte: Wild, C. J. & Seber, G. A. Encontros com o Acaso, LTC, 2000. Aspectos Gerais da Distribuição de Freqüências � Ao estudarmos a distribuição de freqüências de uma variável quantitativa, devemos verificar basicamente três características: �Posição Central. �Variabilidade. �Forma. Aspectos Gerais da Distribuição de Freqüências � O histograma permite a visualização destas características da distribuição de freqüências. � Além disso, elas podem ser quantificadas através das medidas resumo (discutidas anteriormente), por exemplo, média, moda e variância. Atividade Descrição dos Dados � Suponha que um questionário foi aplicado aos alunos do primeiro ano de uma escola fornecendo as seguintes informações: � Id: identificação do aluno. � Turma: turma a que o aluno foi alocado (A ou B). � Sexo: F se feminino ou M se masculino. � Idade: idade em anos. � Alt: altura em metros. � Peso: peso em quilogramas. � Filhos: número de filhos na família. Descrição dos Dados � Fuma: hábito de fumar, sim ou não. � Toler: tolerância ao cigarro (I: indiferente, P: incomoda pouco e M: incomoda muito. � Exerc: horas de atividade física, por semana. � Cine: número de vezes que vai ao cinema por semana. �OpCine: opinião a respeito das salas de cinema na cidade (b: regular a boa e M: muito boa). � TV: horas gastas assistindo TV, por semana. �OpTV: opinião a respeito da qualidade da programação na TV (R: ruim, M: média, B: boa e N: não sabe). Tabela 6: Informações de questionário estudantil. Fonte: Magalhães e Lima (2010). Atividade � Construa a tabela de frequências e um gráfico apropriado para a variável Peso: peso em quilogramas. � Interprete os resultados. Id Peso Id Peso Id Peso 1 60,5 11 70,0 21 60,0 2 55,0 12 54,0 22 58,5 3 72,8 13 58,0 23 49,2 4 80,9 14 68,5 24 48,0 5 55,0 15 63,5 25 51,6 6 60,0 16 47,4 26 57,0 7 58,0 17 66,0 27 63,0 8 47,0 18 85,2 28 52,0 9 57,8 19 54,5 29 49,0 10 58,0 20 52,5