Esta é uma pré-visualização de arquivo. Entre para ver o arquivo original
APRESENTAÇÃO DE DADOS (GRÁFICOS) MEDIDAS DE POSIÇÃO Vanêssa Brito Fernandes Neves ESTATÍSTICA E PROBABILIDADE APLICADA À COMPUTAÇÃO CARACTERÍSTICAS IMPORTANTES DOS DADOS Centro: Um valor representativo ou médio, que indica onde se localiza o meio do conjunto de dados. Variação: Uma medida de quanto os valores dos dados variam. Distribuição: A natureza ou forma da distribuição dos dados (ex. uniforme, sino, assimétrica). Outliers ou valores discrepantes: valores amostrais que se localizam muito longe da grande maioria dos outros valores amostrais. Tempo: Características dos dados que mudam com o tempo. APRESENTAÇÃO GRÁFICA DE DADOS Diagrama de Barras Usado para apresentar variáveis qualitativas e quantitativas discretas. As barras do diagrama podem ser verticais ou horizontais. Variáveis qualitativas - ilustrar comparações entre categorias. Variáveis quantitativas discretas - barras do diagrama devem ser verticais. Taxas de mortalidade pelos cânceres mais comuns, sexo feminino. Estado de São Paulo, 1992. 0 2 4 6 8 10 12 14 mama estômago cólon/reto pulmão colo/útero Tipo de Câncer Ó bi to s / 1 00 .0 00 h ab ita nt es DIAGRAMA DE BARRAS - EXEMPLOS Fonte: Fonte: FOSP / Fundação Seade DIAGRAMA DE BARRAS - EXEMPLOS Incidência de efeitos colaterais devido ao uso de um novo agente anti-hipertensivo 0 5 10 15 20 25 30 1 2 3 4 5 número de efeitos colaterais fre qü ên ci a APRESENTAÇÃO GRÁFICA DE DADOS Gráfico de setores Usado para representar variáveis qualitativas. Cada categoria corresponderá a uma divisão ou a um setor de um círculo. Geralmente utilizado quando se pretende comparar o total de cada categoria com o conjunto total. Neste tipo de gráfico, um círculo de raio qualquer vai representar 100% dos dados (360o). Quando usar a freqüência relativa no gráfico, colocar o N. GRÁFICO DE SETORES - EXEMPLO Gráfico em setores da distribuição da tuberculose (Dawson, 2003, p.43) Negros não- hispânicos 37% Brancos não- hipânicos 35% Asiáticos ou habitantes das ilhas do Pacífico 11% Americanos nativos 1% Hipânicos 16% APRESENTAÇÃO GRÁFICA DE DADOS Histograma Adequado para ilustrar o comportamento de valores agrupados em classes. É um gráfico de colunas composto por vários retângulos adjacentes, representando a tabela de freqüência. As classes são colocadas no eixo horizontal e as freqüências no eixo vertical. Na construção devem ser empregadas de 5 a 20 classes. Interpretação: Centro, variação, forma e outlier. Não é apropriado para verificar se há mudanças ao longo do tempo. HISTOGRAMA – EXEMPLO Percentual de linfócitos em pacientes com leucemia linfóide Percentual de linfócitos Freqüência 10 |- 12 5 12 |- 14 6 14 |- 16 5 16 |- 18 1 18 |- 20 2 20 |- 22 1 total 20 HISTOGRAMA - EXEMPLO Percentual de linfócitos em pacientes com leucemia linfóide 0 1 2 3 4 5 6 7 11 13 15 17 19 21 percentual de linfócitos fre qü ên ci a APRESENTAÇÃO GRÁFICA DE DADOS Polígono de freqüência Utilizado na representação de variáveis quantitativas contínuas. Usa segmentos de reta ligados a pontos localizados diretamente acima dos valores dos pontos médios de classe. Os segmentos são estendidos à direita e à esquerda de forma que o gráfico comece e termine no eixo horizontal. Exemplo: tabela usada para construção do histograma POLÍGONO DE FREQÜÊNCIA EXEMPLO Percentual de linfócitos em pacientes com leucemia linfóide 0 1 2 3 4 5 6 7 9 11 13 15 17 19 21 23 percentual de linfócitos fre qü ên cia APRESENTAÇÃO GRÁFICA DE DADOS Ogiva de Galton É um gráfico de linha que representa as freqüências acumuladas. O gráfico se inicia com a fronteira inferior da primeira classe e termina com a fronteira superior da última classe. Exemplo: tabela usada para construção do histograma. OGIVA DE GALTON - EXEMPLO Percentual de linfócitos em pacientes com leucemia linfóide 0 5 10 15 20 25 10 12 14 16 18 20 22 percentual de linfócitos fre qü ên cia ac um ul ad a APRESENTAÇÃO GRÁFICA DE DADOS Ramo-e-folha Representa dados separando cada valor em duas partes: o ramo (dígito mais a esquerda) e a folha (dígito mais a direita). Pode ser expandido ou condensado. Ao virar o ramo-e-folhas de lado podemos ver a distribuição dos dados. Vantagem: os dados originais podem ser recuperados. Usar de 5 a 20 classes. RAMO-E-FOLHA – EXEMPLO 57 63 66 70 74 81 87 94 59 63 68 71 75 83 88 95 60 63 69 72 75 85 88 101 60 64 69 72 77 86 89 107 62 66 70 73 78 86 91 119 Diâmetros abdominais de 40 indivíduos RAMO-E-FOLHA – EXEMPLO Ramo (dezena) Folhas (unidades) 5 7 9 6 0 0 2 3 3 3 4 6 6 8 9 9 7 0 0 1 2 2 3 4 5 5 7 8 8 1 3 5 6 6 7 8 8 9 9 1 4 5 10 1 7 11 9 Diâmetros abdominais de 40 indivíduos APRESENTAÇÃO GRÁFICA DE DADOS Diagrama de dispersão É a melhor maneira de visualizar o relacionamento entre duas variáveis. A representação gráfica é feita no mesmo sistema de coordenadas, em que uma das variáveis é colocada no eixo x e outra no eixo y. O gráfico de dispersão é utilizado para interpretar o relacionamento entre duas variáveis (direção, forma e intensidade do relacionamento). DIAGRAMA DE DISPERSÃO - EXEMPLO Índice de massa corporal (IMC) e percentual de gordura de 10 universitárias. Brasil, 1997 Indivíduo IMC Percentual de gordura 1 21,5 29 2 20,7 25 3 21,3 26 4 19,0 23 5 21,2 25 6 18,6 23 7 16,8 18 8 20,7 28 9 30,8 46 10 18,3 22 Fonte: dados fictícios DIAGRAMA DE DISPERSÃO - EXEMPLO Relação entre IMC e percentual de gordura de 10 universitárias. Brasil, 1997 0 10 20 30 40 50 0 5 10 15 20 25 30 35 IMC Pe rc etu al de g or du ra Boxplot – após MP MEDIDAS DE TENDÊNCIA CENTRAL Resume a quantidade de informações de um conjunto de dados (agrupados ou não) em um único e informativo valor; De importância fundamental para a pesquisa e para a extensão. Geralmente localizado no centro de uma distribuição simétrica ou aproximada; MEDIDAS DE TENDÊNCIA CENTRAL As medidas mais usadas são: Média; Mediana; Moda. A média é a medida de tendência central mais usada e, por isso a mais conhecida. Mas em certas circunstância, para descrever a tendência central dos dados é melhor usar outras medidas como a mediana ou a moda.; MEDIDAS DE TENDÊNCIA CENTRAL Média A média populacional (μ) deve ser diferenciada da média amostral ( ); As médias mais utilizadas são: Média Aritmética: Simples e Ponderada; Média Geométrica; Média Harmônica. x MEDIDAS DE TENDÊNCIA CENTRAL Média Aritmética Simples Conceito familiar e até mesmo intuitivo; DEFINIÇÃO: É a soma dos valores de todos os dados do conjunto dividida pela quantidade desses valores. Logo: MEDIDAS DE TENDÊNCIA CENTRAL FinitaalPopulacionMédiapara, ...211 N xxx N x N N i i população da medidacadaix população da dadosdequantidadeN em que: MEDIDAS DE TENDÊNCIA CENTRAL AmostralMédiapara, ...211 n xxx n x x n n i i em que: amostra da medidacadaix amostra da dadosdequantidaden MEDIDAS DE TENDÊNCIA CENTRAL Média Média amostral Média populacional n x X n i i 1 N x n i i 1 MEDIDAS DE TENDÊNCIA CENTRAL Exemplo: Sejam as notas de 5 provas de um aluno de estatística obtidas em avaliações durante o ano de 2008. para obter a média aritmética simples das notas e saber se o aluno ficará na final, faremos o seguinte cálculo: Prova 1 2 3 4 5 Notas 7,0 3,7 4,9 6,6 7,2 9,5 5 2,76,69,47,30,7 55 54321 5 1 xxxxx x x i i indica que a nota média obtida pelo aluno durante o ano foi 5,9. MEDIDAS DE TENDÊNCIA CENTRAL Média Aritmética Ponderada Média de dados agrupados Média Aritmética Ponderada é a soma do produto dos valores observados com o seus respectivo peso, dividido pela soma dos pesos. MEDIDAS DE TENDÊNCIA CENTRAL PonderadaMédiapara, ... ... 21 2211 1 1 n nn n i i n i ii p ppp pxpxpx p px x em que: n 2,..., 1,i comobservado,valor cada ix n2,..., 1, i com valores,referidos dos pesos ip MEDIDAS DE TENDÊNCIA CENTRAL Exemplo: Porém, o professor de Estatística adotou para 2008 os seguintes pesos para as notas. para obter a média aritmética ponderada das notas e saber se o aluno ficará ou não na final, faremos o seguinte cálculo: Prova 1 2 3 4 5 Notas 7,0 3,7 4,9 6,6 7,2 Pesos 1 1 2 3 3 2,6 33211 )3(2,7)3(6,6)2(9,4)1(7,3)1(0,7 54321 5544332211 1 1 ppppp pxpxpxpxpx p px x n i i n i ii p Com base nos pesos adotados pelo professor, a nota média (ponderada) obtida pelo aluno durante o ano foi 6,2. MEDIDAS DE TENDÊNCIA CENTRAL Média Aritmética Ponderada Se os dados estão distribuídos em classes, isto é, estão apresentados em uma tabela de distribuição de freqüência, para calcular a média multiplique o valor central de cada classe (ponto médio) pela respectiva freqüência, some e divida o total pela soma das freqüências. MEDIDAS DE TENDÊNCIA CENTRAL agrupados dados de PonderadaMédiapara, ... ... 21 2211 1 1 n nn n i i n i ii fff fxfxfx f fx x em que: 2 n 2,..., 1,i comi, classe cada de média LSLI x x i i n2,..., 1, i com classes, referidas das uma cada de frequência if MEDIDAS DE TENDÊNCIA CENTRAL Exemplo: Distribuição de Frequência dos pesos ao nascer, em Kg, de 50 bezerros da raça guzerá: Pesos fi [20,0 ; 22,0) 2 21,0 [22,0 ; 24,0) 5 23,0 [24,0 ; 26,0) 12 25,0 [26,0 ; 28,0) 16 27,0 [28,0 ; 30,0) 10 29,0 [30,0 ; 32,0) 4 31,0 [32,0 ; 34,0) 1 33,0 Total 50 ix MEDIDAS DE TENDÊNCIA CENTRAL 7,26 50 1336 1...52 )0,33(1...)0,23(5)0,21(2 1 1 n i i n i ii f fx x A média de dados agrupados geralmente diferi da média simples. MEDIDAS DE TENDÊNCIA CENTRAL Propriedades da Média Se for somada ou subtraída uma constante K a cada elemento da amostra, a média também será acrescida ou subtraída dessa constante; Kxy ii KXY Se for multiplicada ou dividir cada elemento da amostra uma constante K, a média também será multiplicada ou dividida por essa constante; Kxy ii KXY MEDIDAS DE TENDÊNCIA CENTRAL Propriedades da Média A soma dos desvios ( ) em relação a média é igual a zero para qualquer amostra; Xxd i 0 1 n i d A soma dos quadrados dos desvios em relação à média é chamado desvio mínimo, valor utilizado em otimizações e regressões. n i dD 1 2 MEDIDAS DE TENDÊNCIA CENTRAL Mediana É o valor que ocupa a posição central do conjunto dos dados organizados em ordem crescente. Da definição de mediana, segue-se que essa medida é um valor tal que 50% dos dados são iguais ou menores do que ela. Para calcular a mediana os dados devem estar ordenados. MEDIDAS DE TENDÊNCIA CENTRAL A mediana descreve bem os grandes conjuntos de dados. No caso dos conjuntos com dados discrepantes, isto é, dos conjuntos com um, ou alguns valores, muito maiores ou muito menores que os demais a mediana descreve melhor os dados que a média. MEDIDAS DE TENDÊNCIA CENTRAL Mediana Para calcular a mediana devemos primeiro colocar os valores em ordem crescente (ou decrescente) e, em seguida, aplicar um dos dois processos abaixo: Se o número de valores é ímpar, a mediana é o número localizado exatamente no meio da lista. Se o número de valores é par, a mediana é a média dos 2 valores do meio. MEDIDAS DE TENDÊNCIA CENTRAL Para dados não agrupados Se a quantidade de dados é ímpar, a mediana é o valor que está no centro da série. Se a quantidade de dados é par, a mediana é a média dos dois valores que estão no centro da série. 2 2 2 2 nn xx 2 1nx MEDIDAS DE TENDÊNCIA CENTRAL agrupados dados paraMediana,2 md md a md c f f n LImd em que: mediana classedainferior limitemdLI mediana da frequênciamdf mediana da amplitudemdc anterior classe da acumulada frequênciaaf MEDIDAS DE TENDÊNCIA CENTRAL Exemplo: Considerando o exemplo dos bezerros da raça guzerá: Pesos fi fa [20,0 ; 22,0) 2 2 [22,0 ; 24,0) 5 7 [24,0 ; 26,0) 12 19 [26,0 ; 28,0) 16 35 [28,0 ; 30,0) 10 45 [30,0 ; 32,0) 4 49 [32,0 ; 34,0) 1 50 Total 50 MEDIDAS DE TENDÊNCIA CENTRAL kgmd 75,262 16 19 2 50 0,26 A mediana tem a mesma unidade dos dados. MEDIDAS DE TENDÊNCIA CENTRAL Moda É o valor que ocorre com maior frequência. A idéia da moda é importante, quando existe uma grande quantidade de dados, em especial, se os dados estão distribuídos. Se o conjunto de dados é relativamente pequeno (de 20 a 30 observações), a moda não tem sentido prático. MEDIDAS DE TENDÊNCIA CENTRAL Moda (M) É o valor que ocorre mais freqüentemente. Uma distribuição pode ser unimodal, bimodal, multimodal ou amodal. Moda 5 5 5 3 1 5 1 4 3 5 1 2 2 2 3 4 5 6 6 6 7 9 1 2 3 6 7 8 9 10 MEDIDAS DE TENDÊNCIA CENTRAL agrupados dados paraModa, 21 1 momo cLImo em que: modal classedainferior limitemoLI menterespectivaposterior nteimediatame eanterior nteimediatame a e moda classe da frequência a entre diferença21 e modal da amplitudemoc MEDIDAS DE TENDÊNCIA CENTRAL Exemplo: Considerando o exemplo dos bezerros da raça guzerá: Pesos fi fa [20,0 ; 22,0) 2 2 [22,0 ; 24,0) 5 7 [24,0 ; 26,0) 12 19 [26,0 ; 28,0) 16 35 [28,0 ; 30,0) 10 45 [30,0 ; 32,0) 4 49 [32,0 ; 34,0) 1 50 Total 50 MEDIDAS DE TENDÊNCIA CENTRAL kgmo 8,262 64 4 0,26 A moda tem a mesma unidade dos dados. MEDIDAS DE TENDÊNCIA CENTRAL Comparação entre Média, Mediana e Moda Há um momento em que o pesquisador fará a seguinte pergunta: Qual a medida de tendência central que representa melhor o conjunto de dados em estudo? A média aritmética trabalha com todos os elementos do conjunto de dados, enquanto a mediana utiliza apenas um ou dois valores. No entanto a média sofre influência de valores extremos (muito alto ou baixo) induzindo assim ao erro. É uma medida que pode ser calculada apenas para variáveis quantitativas. MEDIDAS DE TENDÊNCIA CENTRAL A mediana é uma medida que exige uma ordenação de categorias, assim ela só pode ser obtida para variáveis qualitativas ordinais ou para as quantitativas, jamais para variáveis qualitativas nominais. Além disso, a mediana não é influenciada por valores extremos. A moda é uma medida que requer apenas o conhecimento da freqüência absoluta e pode ser utilizada para qualquer tipo de variável, tanto qualitativa, quanto quantitativa. Geralmente, a média e a mediana representam melhor a tendência central dos dados. MEDIDAS DE TENDÊNCIA CENTRAL A determinação das medidas de posição permite discutir sobre a simetria da distribuição dos dados Distribuição simétrica: momdx Distribuição ligeiramente assimétrica: Ocorre pequenas diferenças entre os valores da média, mediana e moda. Aumentando o número de dados, a distribuição tende para o modelo simétrico. MEDIDAS DE TENDÊNCIA CENTRAL Distribuição assimétrica à direita (Assimetria positiva) momdx Distribuição assimétrica à esquerda (Assimetria negativa) momdx MEDIDAS DE TENDÊNCIA CENTRAL ASSIMETRIA A distribuição de dados é assimétrica quando se estende mais para um lado que para o outro. Uma distribuição de dados é simétrica se a metade esquerda do seu histograma é praticamente uma imagem espelhada de sua imagem direita.