Esta é uma pré-visualização de arquivo. Entre para ver o arquivo original
INTRODUÇÃO Histórico Toda Ciência tem suas raízes na história do homem, com a Matemática, que é considerada “A Ciência que une a clareza do raciocínio à síntese da linguagem”, não foi diferente, originou-se do convívio social, das trocas, da contagem, com caráter prático, utilitário e empírico. A Estatística é um ramo da Matemática que também teve sua origem de forma semelhante. Desde a Antiguidade vários povos já registravam o número de habitantes, de nascimento, de óbitos, faziam estimativas de riquezas individuais e sociais, etc. Na idade média colhiam-se informações, geralmente com a finalidade tributária. A partir do século XVI começaram a surgir as primeiras análises de fatos sociais, como batizados, casamentos, funerais, originando as primeiras tábuas e tabelas e os primeiros números relativos. No século XVII, com Godofredo Achenwall, o estudo de tais fatos foi adquirindo proporções verdadeiramente científicas, dando origem a estatística, propriamente dita. Formou-se assim uma ferramenta que através da observação de partes (amostras), chega-se a conclusões sobre um todo (população). Método Estatístico MÉTODO: é um meio mais eficaz para atingir determinada meta. Entre os Métodos Científicos destacamos o método experimental e o método estatístico. Método Experimental: Consiste em manter constante todas as causas, menos uma, que sofre variação para se observar seus efeitos, caso existam. Ex: Estudos da Química, Física, etc. Método Estatístico: diante da impossibilidade de manter as causas constantes (nas ciências sociais), admitem todas essas causas presentes variando-as, registrando essas variações e procurando determinar, no resultado final, que influências cabem a cada uma delas. Ex: Quais as causas que definem o preço de uma mercadoria quando a sua oferta diminui? Seria impossível, no momento da pesquisa, manter constantes a uniformidade dos salários, o gosto dos consumidores, o nível geral de preços, etc. O que é Estatística? A Estatística é parte da Matemática Aplicada que fornece métodos de coleta, organização, descrição, análise e interpretação de dados, úteis nas tomadas de decisão. Como se Classifica a Estatística? Estatística Descritiva: Coleta , organização e descrição dos dados. Estatística Indutiva ou Inferencial: Análise e interpretação dos dados. Permite obter conclusões sobre os dados obtidos inicialmente, que é o objetivo essencial da Estatística. Probabilidade: Útil para analisar situações que envolvem o acaso. Ex: a decisão de parar de imunizar pessoas com mais de vinte anos contra determinada doença. Fases da Pesquisa Estatística Coleta de Dados Após planejamento e determinação das características mensuráveis do objeto em estudo, inicia-se a coleta de dados. Esta pode ser direta ou indireta. A coleta direta é feita sobre registros diversos: nascimento, casamento, óbitos, importação, registros escolares; ou ainda quando os dados são coletados diretamente pelo pesquisador através de questionários (ex: censo). A coleta direta pode ser: contínua; periódica (censos); ocasional. A coleta indireta é uma coleta feita sobre dados colhidos de uma coleta direta (ex: mortalidade infantil) Crítica dos Dados Os dados coletados devem ser observados, à procura de falhas e imperfeições, a fim de não causarem erro nos resultados. Exemplo: Perguntas tendenciosas. O tráfego contribui em maior ou menor grau do que a indústria para a poluição atmosférica? Resposta: 45 % para o tráfego e 32 % para a indústria. A indústria contribui em maior ou menor grau do que o tráfego para a poluição atmosférica? Resposta: 24 % para o tráfego e 57 % para a indústria. Preservação da auto-imagem. Em uma pesquisa telefônica 94 % dos entrevistados disseram que lavam as suas mãos após usar o banheiro, mas a observação em banheiros públicos, esse percentual cai para 68 %. Más Amostras. As pessoas devem ser escolhidas aleatoriamente para a pesquisa, como por exemplo, numa pesquisa de opinião na rua, deve-se entrevistar somente quem pisou em uma determinada marca pré-determinada na calçada. Más perguntas. A pergunta deve conter o linguajar próprio do entrevistado. Geralmente, se o entrevistado não entender a pergunta, ele responderá qualquer coisa, pois tem vergonha de perguntar novamente ou questionar a pergunta. Apuração dos Dados É o processamento dos dados obtidos Exposição dos Dados Através de tabelas ou gráficos, tornando mais fácil seu exame e aplicação de um cálculo estatístico. Análise dos Resultados Através de métodos de estatística indutiva ou inferencial obtêm-se conclusões e revisões de um todo através do exame de apenas uma parte desse todo. Variáveis Qualitativas e Quantitativas Variável é o conjunto de resultados possíveis de um fenômeno. Variável Qualitativa Quando seus valores são expressos por atributos: sexo, cor da pele, etc. Variável Quantitativa Quando os dados são de caráter nitidamente quantitativo, e o conjunto dos resultados possui uma estrutura numérica, trata-se, portanto da estatística de variável e se dividem em: Variável Discreta: Seus valores são expressos geralmente através de números inteiros não negativos. Resulta normalmente de contagens. Ex: Nº de alunos presentes às aulas de introdução à estatística no 1º semestre de 2009: mar = 48 , abr = 45 , mai = 42 , jun = 38. Variável Contínua: Resulta normalmente de uma mensuração, e a escala numérica de seus possíveis valores corresponde ao conjunto R, dos números Reais, ou seja, podem assumir, teoricamente, qualquer valor entre dois limites. Ex.: Quando você vai medir a temperatura de seu corpo com um termômetro de mercúrio o que ocorre é o seguinte: O filete de mercúrio, ao dilatar-se, passará por todas as temperaturas intermediárias até chegar à temperatura atual do seu corpo. Exemplos - Cor dos olhos dos alunos: qualitativa Índice de liquidez nas indústrias capixabas: quantitativa contínua Produção de café no Brasil: quantitativa contínua Número de defeitos em aparelhos de TV: quantitativa discreta Comprimento dos pregos produzidos por uma empresa: quantitativa contínua O ponto obtido em cada jogada de um dado: quantitativa discreta Precisão e Arredondamento A precisão da medida será automaticamente indicada pelo número de decimais com que se escrevem os valores da variável. Ex: 1,80 m indica uma medição com precisão de centésimos. O arredondamento indica o número de dígitos significativos que se deseja obter, ou seja, os valores inferiores à precisão solicitada podem ser desconsiderados. De acordo com resolução do IBGE , para arredondar um número prosseguimos da seguinte maneira: Quando o primeiro algarismo a ser abandonado é 0, 1, 2, 3, ou 4, fica inalterado o último algarismo a permanecer, ou seja, arredonda-se por falta. Ex: 53,24 passa a 53,2 ; 17,3452 passa a 17,3 . Quando o primeiro algarismo a ser abandonado é 6, 7, 8, ou 9, aumenta-se de uma unidade o último algarismo a permanecer, ou seja, arredonda-se por excesso. Ex: 42,87 passa a 42,9 ; 25,08 passa a 25,1; 53,99 passa a 54,0 Quando o primeiro algarismo a ser abandonado é 5, há duas soluções: a) Se ao 5 seguir em qualquer casa um algarismo diferente de 0, aumenta-se de uma unidade o último algarismo a permanecer, ou seja, arredonda-se por excesso. Ex: 2,352 passa a 2,4 ; 25,6501 passa a 25,7. b) Se o 5 for o último algarismo ou se ao 5 só se seguirem zeros, o último algarismo a ser conservado só será aumentado de uma unidade se for ímpar, ou seja, arredonda-se para o par mais próximo. Ex: 24,75 passa a 24,8 24,65 passa a 24,6 ; 24,7500 passa a 24,8 ; 24,6500 passa a 24,6 . Exercícios: Arredonde deixando número inteiro: � 2,38 = 24,65 = 0,351 = 4,24 = 328,35 = 2,97 = 6,829 = 5,55 = 89,99 = � Arredonde deixando uma casa decimal: � 2,38 = 24,65 = 0,351 = 4,24 = 328,35 = 2,97 = 6,829 = 5,55 = 89,99 = � Classifique as seguintes variáveis em: i) Qualitativa; ii) Qualitativa discreta; iii) Quantitativa contínua; iv) Quantitativa discreta; v) Qualitativa contínua.� a) Cor dos olhos � b) Número de filhos de um casal: � c) Peso de um indivíduo: � d) Altura de um indivíduo: � e) Número de alunos de uma escola: � f) Valor obtido na face superior de um dado: � g) Sexo: � h) Comprimento de um seguimento de reta: � i) Área de um Círculo: � j) Quantidade de livros de uma biblioteca: � k) Salário dos Empregados de uma empresa: � l) Estado Civil: � m) Profissão: � n) Volume de água contido numa piscina: � O que é Estatística? Como podemos classificar a estatística? Quais as fases do método estatístico? Qual a diferença entre método científico, experimental e estatístico? AMOSTRAGEM – MÉTODOS PROBABILISTICOS A Amostragem através de métodos probabilísticos exige que cada elemento da população possua determinada probabilidade de ser selecionado. Normalmente possuem a mesma probabilidade. Assim, se N for o tamanho da população, a probabilidade de cada elemento ser selecionado será 1/N. Trata-se do método que garante cientificamente a aplicação das técnicas estatísticas de inferências. Somente com base em amostragens probabilísticas é que se podem realizar inferências ou induções sobre a população a partir do conhecimento da amostra. Amostragem Casual Ou Aleatória Simples É o processo mais elementar e frequentemente utilizado. É equivalente a um sorteio lotérico. Pode ser realizada numerando-se a população de 1 a n e sorteando-se, ou utilizando tabelas de números aleatórios. Exemplo: Vamos obter uma amostra, de 10%, representativa para a pesquisa das estaturas de 90 alunos de uma escola: 1º) Numeramos os alunos de 1 a 90. 2º) Escrevemos os números dos alunos, de 1 a 90, em pedaços iguais de papel, colocamos na urna e após mistura retiramos, um a um, nove números que formarão a amostra. Amostragem Proporcional Estratificada Quando a população se divide em estratos (sub-populações), convém que o sorteio dos elementos da amostra leve em consideração tais estratos, daí obtemos os elementos da amostra proporcional ao número de elementos desses estratos. SEXO POPULACÃO 10 % AMOSTRA MASC. 54 5,4 5 FEM. 36 3,6 4 TOTAL 90 9,0 9 Ex: Vamos obter uma amostra proporcional estratificada, de 10%, do exemplo anterior, supondo, que, dos 90 alunos, 54 sejam meninos e 36 sejam meninas. São, portanto dois estratos (sexo masculino e sexo feminino). Logo, temos: Numeramos então os alunos de 01 a 90, sendo 01 a 54 meninos e 55 a 90, meninas e procedemos o sorteio casual com urna ou tabela de números aleatórios, tomando-se 5 meninos e 4 meninas. Amostragem Sistemática: Quando os elementos da população já se acham ordenados, não há necessidade de construir o sistema de referência. Exemplos: Os prontuários médicos de um hospital; Os prédios de uma rua, etc. Nestes casos, a seleção dos elementos que constituirão a amostra pode ser feita por um sistema imposto pelo pesquisador. Ex: Suponhamos uma rua com 900 casas, das quais desejamos obter uma amostra formada por 50 casas para uma pesquisa de opinião. Solução: Podemos, neste caso, usar o seguinte procedimento: como 900/50 = 18, escolhemos por sorteio casual um número de 01 a 18, o qual indicaria o primeiro elemento sorteado para a amostra; os demais elementos seriam periodicamente considerados de 18 em 18. Assim, suponhamos que o número sorteado fosse a amostra seria: Exercícios: População ou universo é: a) Um conjunto de pessoas; b) Um conjunto de elementos quaisquer c) Um conjunto de pessoas com uma característica comum; d) Um conjunto de elementos com pelo menos uma característica em comum; e) Um conjunto de indivíduo de um mesmo município, estado ou país. Uma parte da população retirada para analisá-la denomina-se: a) Universo; b) Parte; c) Pedaço; d) Dados Brutos; e) Amostra. Diga qual tipo de variáveis estamos trabalhando nos casos abaixo: Nº de inscrições no Seguro Social Nº de passageiros no ônibus da linha Rio-São Paulo Peso Médio dos Recém Nascidos Altitude acima do nível do mar O tempo gasto para uma pessoa fazer uma viagem de carro de Brasília até Belo Horizonte é de aproximadamente 8:00h a uma velocidade média de 93,75km/h. Suponha que existem N = 1.000 fichas de pacientes das quais uma amostra aleatória de n = 20 deve ser selecionada. Determine quais fichas devem ser escolhidas na amostra de tamanho n = 20. Diga que tipo de amostragem você usou e como foram selecionadas as fichas. O que é população e amostra? Quais e como são os processos de amostragem? Em uma escola existem 250 alunos, sendo 35 na 1ª série, 32 na 2ª, 30 na 3ª, 28 na 4ª, 35 na 5ª, 32 na 6ª, 27 na 7 ª e 31 na 8ª. Obtenha uma amostra de 40 alunos e preencha o quadro abaixo. SÉRIES POPULAÇÃO CÁLCULO PROPORCIONAL AMOSTRA 1ª 2ª 3ª 4ª 5ª 6ª 7ª 8ª 35 32 30 28 35 32 27 31 35x40/250 = 5,6 5,12 4,8 4,48 5,6 5,12 4,32 4,96 6 5 5 4 6 5 4 5 Total 250 40 Obtenha uma amostra de 10 notas pertencentes a uma sala de aula com 50 notas organizadas em ordem crescente. Depois disso, calcule a média aritmética das notas. 1,7 2,9 3,8 4,6 5,0 6,0 6,3 7,1 7,9 8,7 2,3 3,5 3,9 4,6 5,3 6 6,4 7,6 8,0 8,9 2,2 3,5 4,3 4,8 5,5 6 6,7 7,6 8,0 9,0 2,6 3,7 4,5 5,0 5,7 6 6,9 7,8 8,2 9,0 2,8 3,8 4,6 5,0 5,8 6 7,0 7,9 8,5 9,5 SÉRIES ESTATÍSTICAS TABELAS: É um quadro que resume um conjunto de dados dispostos segundo linhas e colunas de maneira sistemática. Normas Para Construção de Tabelas Estatística Um dos objetivos da estatística é sintetizar os valores que uma ou mais variáveis podem assumir, para que tenhamos uma visão global da variação das mesmas. Elementos de uma Tabela: Título da Tabela; Corpo da Tabela; Rodapé. EXEMPLO: TABELA 1 – PRODUÇÃO DE CAFÉ BRASIL – 1991 A 1995 Anos Produção (1.000 t) 1991 1992 1993 1994 1995 2.535 2.666 2.122 3.750 2.007 TOTAL 13.080 Fonte: IBGE TÍTULO DA TABELA: Conjunto de informações, as mais completas possíveis, respondendo às perguntas: O que?, Quando? e Onde?, localizado no topo da tabela, além de conter a palavra “TABELA” e sua respectiva numeração. CORPO DA TABELA: É o conjunto de Linhas e Colunas que contém informações sobre a variável em estudo. Cabeçalho da Coluna – Parte superior da tabela que especifica o conteúdo das colunas; Coluna Indicadora – Parte da tabela que especifica o conteúdo das linhas; Linhas – retas imaginárias que facilitam a leitura, no sentido horizontal, de dados que se inscrevem nos seus cruzamentos com as linhas; Casa ou Célula – espaço destinado a um só número; Total – deve ser SEMPRE destacado de alguma forma; Laterais da tabela – não devem ser fechadas. Caso as feche, passa a ser chamada de “QUADRO”. Número – preferencialmente utilizar separador de 1000 (por exemplo: 1.854.985 ao invés de 1854985). Há ainda a considerar os elementos complementares da tabela, que são a fonte, as notas e as chamadas, localizadas, de preferência, no rodapé. Fonte – identifica o responsável (pessoa física ou jurídica) ou responsável pelos dados numéricos; Notas – é o texto que irá esclarecer o conteúdo estudado, que poderá ser de caráter geral ou específico de uma tabela; Chamadas – símbolo remissivo atribuído a algum elemento de uma tabela que necessita de uma nota específica. SINAL CONVENCIONAL: A substituição de uma informação da tabela poderá ser feita pelos sinais abaixo: a) - dado numérico igual a zero; b) ... quando não temos os dados; c) ? quando temos dúvida na informação; d) 0 quando o valor for muito pequeno. SÉRIE ESTATÍSTICA: É qualquer tabela que apresenta a distribuição de um conjunto de dados estatísticos em função da época, do local ou da espécie. São aquelas em que a variável descrita apresenta variação discreta. Podem ser do tipo temporal, geográfica ou específica. Série Temporal ou histórica: Identifica-se pelo caráter variável do fator cronológico. O local e a espécie (fenômeno) são elementos fixos. Esta série também é chamada de histórica ou evolutiva. TABELA 2 – ABC VEÍCULOS LTDA. VENDAS NO 1º BIMESTRE DE 1996 PERÍODO UNIDADES VENDIDAS JAN/96 FEV/96 20.000 10.000 TOTAL 30.000 . Série Geográfica: Apresenta como elemento variável o fator geográfico. A época e o fato (espécie) são elementos fixos. Também é chamada de espacial, territorial ou de localização. TABELA 3 – ABC VEÍCULOS LTDA. VENDAS NO 1º BIMESTRE DE 1996 FILIAIS UNIDADES VENDIDAS São Paulo Rio de Janeiro 13.000 17.000 TOTAL 30.000 Série Específica: O caráter variável é apenas o fato ou espécie. Também é chamada de série categórica. TABELA 4 – ABC VEÍCULOS LTDA. VENDAS NO 1º BIMESTRE DE 1996 MARCA UNIDADES VENDIDAS FIAT GM 18.000 12.000 TOTAL 30.000 Séries Conjugadas: Também chamadas de tabelas de dupla entrada. São apropriadas à apresentação de duas ou mais séries de maneira conjugada, havendo duas ordens de classificação: uma horizontal e outra vertical. O exemplo abaixo é de uma série geográfica-temporal. TABELA 5 – ABC VEÍCULOS LTDA. VENDAS NO 1º BIMESTRE DE 1996 FILIAIS JANEIRO/96 FEVEREIRO/96 São Paulo Rio de Janeiro 10.000 12.000 3.000 5.000 TOTAL 22.000 8.000 Normas Para Construção de Gráficos Estatístico Os gráficos estatísticos têm como objetivo representar os resultados de forma simples, clara e verdadeira, além de demonstrar a evolução do fenômeno em estudo e observar a relação entre os valores da série. Para a confecção de figuras ou gráficos estatísticos, usaremos as seguintes convenções: Largura do gráfico: depende do número de colunas e do espaço a ser utilizado. Altura: aproximadamente da largura. Escala: aproximadamente o valor dado por . Gráficos em Colunas Conjunto de retângulos dispostos verticalmente separados por um espaço. Exemplo: Represente usando gráfico em colunas os valores descritos na tabela 6. TABELA 6 – NÚMERO DE ÓBITOS, SEGUNDO REGIÕES.BRASIL, 1996 E 1999. Região F Fa Fr Fr , a F% Norte 16117 16117 0,0493 0,04933 4,93 Nordeste 69811 85928 0,2137 0,26299 21,37 Sudeste 170050 255978 0,5205 0,78346 52,05 Sul 48921 304899 0,1497 0,93319 14,97 Centro-Oeste 21830 326729 0,0668 1,00000 6,68 BRASIL 326729 ------- 1,0000 ------ 100,00 Histograma de Frequência: Conjunto de retângulos dispostos verticalmente não separados por espaço. Exemplo: Represente usando o gráfico histograma de frequência para a proporção dos óbitos ocorridos em cada região do Brasil, como descritos na tabela 6. Gráfico em Linha Poligonal: Para a construção desse gráfico, marcam-se os valores e depois os liga formando uma linha poligonal. Exemplo: Represente os valores descritos na tabela 6 usando gráfico em linha poligonal. Ogiva Crescente: Esse gráfico é utilizado para indicar a frequência acumulada dos valores. Exemplo: Represente o número de óbitos acumulados entre as regiões do Brasil, como descrito na tabela 6. Gráfico em Setor Circular (Pizza): É a representação dos dados através de um círculo, por meio de setores. Muito utilizado quando pretendemos comparar cada valor da série com o total. Forma de cálculo: Total 360º Parte xº Exemplo: Represente usando o gráfico em setores para indicar a proporção dos óbitos ocorridos em cada região do Brasil, como descritos na tabela 6. Gráfico com Dupla Entrada: Podemos representar no mesmo gráfico mais de uma entrada de valores, possibilitando assim uma melhor análise entre ambas. Construir gráficos de dupla entrada, usando os dados descritos na tabela 7. TABELA 7 – NÚMERO DE ÓBITOS, SEGUNDO SEXO E REGIÕES. BRASIL, 1996 E 1999. REGIÃO Masculino Feminino F Fa Fr Fr , a F% F Fa Fr Fr , a F% Norte 10857 10857 0,0485 0,0485 4,85 5260 5260 0,0512 0,0512 5,12 Nordeste 46242 57099 0,2065 0,2550 20,65 23569 28829 0,2293 0,2805 22,93 Sudeste 118774 175873 0,5304 0,7853 53,04 51276 80105 0,4989 0,7793 49,89 Sul 33113 208986 0,1479 0,9332 14,79 15808 95913 0,1538 0,9331 15,38 Centro-Oeste 14958 223944 0,0668 1,0000 6,68 6872 102785 0,0669 1,0000 6,69 BRASIL 223944 1,0000 100,00 102785 1,0000 100,00 Gráfico em Colunas Ogiva Crescente Gráfico em Colunas Exercícios: Represente a série abaixo usando o gráfico de colunas (dupla entrada) e também com gráfico em linhas poligonal: COMÉRCIO EXTERIOR – BRASIL – 1984-93 ANOS QUANTIDADE (1.000 t) EXPORTAÇÃO IMPORTAÇÃO 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 141.737 146.351 133.832 142.378 169.666 177.033 168.095 165.974 167.295 182.561 53.988 48.870 60.597 61.975 58.085 57.293 57.184 63.278 68.059 77.813 FONTE: Min. Indústria, Comércio e Turismo Represente a tabela usando o gráfico em colunas: � PRODUÇÃO BRASILEIRA DE PETRÓLEO BRUTO 1991-93 ANOS QUANTIDADE(1.000 m3) 1991 1992 1993 36.180,4 36.410,5 37.164,3 � Represente a tabela usando o gráfico em linha poligonal: ENTREGA DE GASOLINA PARA CONSUMO BRASIL – 1988-91 ANOS VOLUME (1.000 m3) 1988 1989 1990 1991 9.267,7 9.723,1 10.121,3 12.345,4 Represente as tabelas por meio de gráficos em setores: ÁREA TERRESTRE – BRASIL REGIÕES RELATIVA (%) Norte Nordeste Sudeste Sul Centro-Oeste 45,25 18,28 10,85 6,76 18,86 TOTAL 100,0 Represente as tabelas por meio de gráficos em colunas múltiplas e ogiva crescente. MATRICULAS NAS ESCOLAS DE 1º GRAU MUNICÍPIO “X” – 1998-99 ESCOLAS ANOS 1998 1999 A B C D E F 147 201 330 377 420 475 286 305 393 492 604 527 FONTE: “Y” Represente as tabelas por meio de gráficos em colunas múltiplas: PROPORÇÃO DOS DOMICÍLIOS POR CONDIÇÃO DE OCUPAÇÃO – 1990-91 ANOS NATUREZA PRÓPRIOS (%) ALUGADOS (%) CEDIDOS (%) 1990 1991 62,7 70,3 22,9 16,5 14,4 13,2 FONTE: IBGE DISTRIBUIÇÃO DE FREQUÊNCIAS Podemos observar que a estatística tem como objetivo encontrar leis de comportamento para todo o conjunto, por meio da sintetização dos dados numéricos sob a forma de tabelas, gráficos e medidas. A essas tabelas estatísticas chamamos de distribuição de frequências, que é o arranjo dos valores e suas respectivas frequências (nº de vezes de aparecimento). Elementos de uma Distribuição de Frequências DADOS BRUTOS: São aqueles que ainda não foram numericamente organizados. ROL: É um arranjo de dados numéricos brutos em ordem crescente ou decrescente de grandeza. DADOS ABSOLUTOS: são resultantes de uma coleta direta, sem outra manipulação senão a contagem. DADOS RELATIVOS: são resultantes de comparações, há um tratamento matemático dos dados para uma melhor interpretação. AMPLITUDE TOTAL (At): É a diferença entre o maior e o menor valor observado. FREQUÊNCIA ABSOLUTA (Fi): É o número de vezes que o elemento aparece na população (amostra), ou o número de elementos pertencentes a uma classe. NÚMERO DE CLASSES (K): Não há fórmula exata para o número de classes, deve-se usar o número de classe mais adequada, que pode ser dado ou pela fórmula de Sturges: AMPLITUDE DA CLASSE (h): Os valores mais adequados para a amplitude de classe são: h=(1, 2, 3, 4, 5, 10 ou múltiplos de 10), ou adequado pela fórmula de Sturges. LIMITE DE CLASSES: São os extremos das classes, quando estas são representadas por variáveis contínuas, representado por: 10 |–| 12: valores entre 10 e 12; 10 –| 12 : valores de 10 a 12, excluindo o 10; 10 |– 12 : valores de 10 a 12, excluindo o 12. Obs.: Neste curso iremos utilizar a última representação. PONTO MÉDIO DA CLASSE (x): É a média aritmética entre o limite superior e o inferior da classe. FREQUÊNCIA SIMPLES ACUMULADA ( Fi ): É a soma das frequências dos valores inferiores ou iguais ao valor dado. FREQUÊNCIA RELATIVA SIMPLES ( fri ): A frequência relativa de um valor é dada por, fr , e será este valor dividido pelo somatório de todos os valores da amostra. FREQUÊNCIA PERCENTUAL ( F % ): É dado pela frequência relativa multiplicado por 100. FREQUÊNCIA RELATIVA ACUMULADA ( Fri ): É a soma das frequências relativas dos valores inferiores ou iguais ao valor dado. Exemplo: O conjunto dos dados numéricos obtidos após a crítica dos valores coletados constitui-se nos dados brutos a seguir: 24 23 22 28 35 21 23 23 33 34 24 21 25 36 26 22 30 32 25 26 33 34 21 31 25 31 26 25 35 33 Colocando em ordem crescente (ROL) o arranjo dos dados brutos obtém-se: A Amplitude Total é a diferença entre o maior e o menor valor observado, deste modo, temos: At = A Distribuição de Frequências para esse arranjo de valores, com h = 3 será: VALORES fi x Fi fri Fri F% 21 |– 24 24 |– 27 27 |– 30 30 |– 33 33 |– 36 36 |– 39 8 22,5 8 8/30 = 0,267 8/30 = 0,267 26,7 30 ----- ---- 1,000 ------ 100,0 O histograma e o polígono de frequências são: O polígono de frequência acumulada Um dado foi lançado 50 vezes e foram registrados os seguintes resultados: 5 4 6 1 2 5 3 1 3 3 4 4 1 5 5 6 1 2 5 1 3 4 5 1 1 6 6 2 1 1 4 4 4 3 4 3 2 2 2 3 6 6 3 2 4 2 6 6 2 1 calcule: A amplitude amostral; As frequências absolutas das classes; As frequências relativas; Os pontos médios das classes; As frequências acumuladas; Dado o rol de medidas das alturas (dadas em cm) de uma amostra de 100 indivíduos de uma faculdade: 151 152 154 155 158 159 159 160 161 161 161 162 163 163 163 164 165 165 165 166 166 166 166 167 167 167 167 167 168 168 168 168 168 168 168 168 168 168 169 169 169 169 169 169 169 170 170 170 170 170 170 170 171 171 171 171 172 172 172 173 173 173 174 174 174 175 175 175 175 176 176 176 176 177 177 177 177 178 178 178 179 179 180 180 180 180 181 181 181 182 182 182 183 184 185 186 187 188 190 190 calcule: A amplitude amostral; O número de classes; A amplitude de classes; As frequências absolutas das classes; As frequências relativas; Os pontos médios das classes; As frequências acumuladas; O histograma e o polígono de frequência; O polígono de frequência acumulada; Os dados seguintes representam 20 observações relativas ao índice pluviométrico em determinado município do Estado: Determinar o número de classes mais adequado, pela regra de Sturges; Construir a tabela de frequências absolutas simples; Determinar as frequências absolutas acumuladas; Determinar as frequências simples relativas. O quadro seguinte representa as alturas (em cm) de 40 alunos de uma classe. 162 163 148 166 169 154 170 166 164 165 159 175 155 163 171 172 170 157 176 157 157 165 158 158 160 158 163 165 164 178 150 168 166 169 152 170 172 165 162 164 Calcular a amplitude total. Admitindo-se 6 classes, qual a amplitude do intervalo de classe? Construir uma tabela de frequência das alturas dos alunos. Determinar os pontos médios das classes. DADOS: Pesos (Kg) dos 190 funcionários da empresa ‘X’: Li=45 Kg ; h = 5 Kg; Ls = 85 Kg; F: 3; 15; 21; 32; 46; 39; 25; 9 Organizar a série estatística; Completar a série com as colunas dos Pm, Fa, Fr, e F% Identificar: A frequência absoluta da 5ª classe; A classe da maior frequência; A frequência total; O limite superior da 4ª classe. � Qual é o percentual de peso incluídos na classe 55 ⌐ 70; Qual é o percentual de pesos maiores ou iguais a 60 Kg; Qual é o percentual de pesos inferiores a 65 Kg; Qual é o percentual de pesos maiores ou iguais a 77 Kg; Qual é a classe do 18º funcionário? E a do 100º? Representar a série graficamente através de Histograma de Frequências; Representar a série graficamente através de Polígono de Frequências; Representar graficamente as frequências acumuladas da série, através do gráfico Ogiva Crescente. As notas obtidas por 50 alunos de uma classe foram: 1 2 3 4 5 6 6 7 7 8 2 3 3 4 5 6 6 7 8 8 2 3 4 4 5 6 6 7 8 9 2 3 4 5 5 6 6 7 8 9 2 3 4 5 5 6 7 7 8 9 Organizar uma distribuição de frequências para variável contínua com h=2; Responda: Qual a amplitude amostral? Qual a amplitude da distribuição? Qual é o nºde classes da distribuição? Qual é o limite inferior da quarta classe? Qual a amplitude do segundo intervalo de classe? MEDIDAS DE POSIÇÃO Até agora os estudos das distribuições de frequências efetuados nos permite localizar a maior e menor concentração dos valores de uma distribuição. No entanto, para destacar as tendências características necessita-se de elementos típicos da distribuição que são as Medidas de Posição e as Medidas de Variabilidade ou Dispersão. As medidas de posição nos orientam quanto a posição da distribuição em relação ao eixo horizontal. As medidas mais importantes são as medidas de tendência central (os dados tendem a se agrupar em torno de valores centrais). Dentre elas destacam-se: A média aritmética A mediana A moda Outras medidas de posição são as separatrizes que são: A mediana Os quartis Os percentis Média Aritmética É igual ao quociente entre a soma dos valores do conjunto e o número total dos valores. Onde são os valores da variável e n o número de valores. 1ª SITUAÇÃO: Dados não agrupados Sejam os elementos de uma amostra, portanto “n” valores da variável x. A média aritmética da variável aleatória de x é definida por, ou simplesmente, onde n é o número de elementos do conjunto. Exemplo: Suponha o conjunto de tempo de serviço de cinco funcionários: 3, 7, 8, 10 e 11. Determinar a média aritmética simples deste conjunto de dados. Interpretação: o tempo médio de serviço deste grupo de funcionários é de 7,8 anos. 2ª SITUAÇÃO: Dados agrupados em uma distribuição de frequência por valores discretos Quando os dados estiverem agrupados numa distribuição de frequência usaremos a média aritmética dos valores , ponderados pelas respectivas frequências absolutas: . Assim Exemplo: Em um determinado dia foi registrado o número de veículos negociados por uma amostra de 10 vendedores de uma agência de automóveis obtendo a seguinte tabela: � � VEÍCULOS NEGOCIADOS NÚMERO DE VENDEDORES 1 2 3 4 1 3 5 1 TOTAL 10 26 Portanto: Interpretação: em média, cada vendedor negociou 2,6 veículos. 3ª SITUAÇÃO: Dados agrupados em uma distribuição de frequências contínua Quando os dados estiverem agrupados numa distribuição de frequência usaremos a média aritmética dos pontos médios de cada classe, ponderados pelas respectivas frequências absolutas: . Desta forma, o cálculo da média passa a ser igual ao da 2ª situação. Assim Exemplo: � A tabela abaixo representa os escores obtidos por um grupo de 58 alunos matriculados em uma determinada disciplina: ESCORES ALUNOS 35 |– 45 45 |– 55 55 |– 65 65 |– 75 75 |– 85 85 |– 95 5 12 18 14 6 3 TOTAL 58 --- Portanto, Interpretação: o desempenho médio deste grupo de alunos foi de 62,24 pontos nesta disciplina. Moda Dentre as principais medidas de posição, destaca-se a moda. É o valor mais frequente da distribuição. 1ª SITUAÇÃO: Dados não agrupados Sejam os elementos de uma amostra, o valor da moda para este tipo de conjunto de dados é simplesmente o valor com maior frequência. Exemplos: � Suponha o conjunto de tempo de serviço de cinco funcionários: 3, 7, 8, 8 e 11. Determinar a moda deste conjunto de dados. distribuição unimodal ou modal Interpretação: o tempo de serviço com maior freqüência (moda) é de 8 anos. Suponha o conjunto de tempo de serviço de cinco funcionários: 3, 3, 7, 8, 8 e 11. Determinar a moda deste conjunto de dados. distribuição bimodal Interpretação: os tempos de serviço com maior frequência foram de 3 e 8 anos. Suponha o conjunto de tempo de serviço de cinco funcionários: 3, 7, 8, 10 e 11. Determinar a moda deste conjunto de dados. Não existe Mo = > distribuição amodal Interpretação: não existe o tempo de serviço com maior frequência. 2ª SITUAÇÃO: Dados agrupados em uma distribuição de frequência por valores discretos Para este tipo de distribuição, a identificação da moda é facilitada pela simples observação do elemento que apresenta maior frequência. Exemplo: � Em um determinado dia foi registrado o número de veículos negociados por uma amostra de 10 vendedor de uma agência de automóveis obtendo a seguinte tabela: VEÍCULOS NEGOCIADOS NÚMERO DE VENDEDORES 1 2 3 4 1 3 5 1 TOTAL 10 Portanto, se a maior freqüência é , logo Mo = 3. Interpretação: A quantidade de veículos comercializados no dia com maior frequência foi de 3 veículos. 3ª SITUAÇÃO: Dados agrupados em uma distribuição de frequências contínua Para dados agrupados em classes, temos diversas fórmulas para o cálculo da moda. A fórmula que utilizaremos será a Fórmula de Czuber. Procedimento: a) Identifica-se a classe modal (aquela que possuir maior freqüência) – CLASSE(Mo). b) Utiliza-se a fórmula: em que: limite inferior da classe modal e h = amplitude da classe modal Exemplo: A tabela abaixo representa os escores obtidos por um grupo de 58 alunos matriculados em uma determinada disciplina: ESCORES ALUNOS 35 |– 45 45 |– 55 55 |– 65 65 |– 75 75 |– 85 85 |– 95 5 12 18 14 6 3 TOTAL 58 Classe Mo = > 55 |– 65 Interpretação: O escore com maior freqüência entre o grupo de 58 alunos foi de 61 pontos. � Mediana Construído o ROL, o valor da mediana é o elemento que ocupa a posição central, ou seja, é o elemento que divide a distribuição em 50% de cada lado: 1ª SITUAÇÃO: Dados não agrupados Sejam os elementos de uma amostra, portanto “n” valores da variável x. A mediana da variável aleatória de x é definida por, Exemplos: Suponha o conjunto de tempo de serviço de cinco funcionários: 3, 7, 8, 10 e 11. Determinar a mediana deste conjunto de dados. Como n = 5, então o valor da mediana estará localizado na posição . Portanto, Md = 8 Interpretação: 50% dos funcionários possuem até 8 anos de tempo de serviço, ou, 50% dos funcionários possuem no mínimo 8 anos de tempo de serviço. Suponha o conjunto de tempo de serviço de cinco funcionários: 3, 7, 8, 10, 11 e 13. Determinar a mediana deste conjunto de dados. Como n = 6, então o valor da mediana estará localizado na posição e . Portanto, Interpretação: 50% dos funcionários possuem até 9 anos de tempo de serviço, ou, 50% dos funcionários possuem no mínimo 9 anos de tempo de serviço. 2ª SITUAÇÃO: Dados agrupados em uma distribuição de frequências por valores discretos Quando os dados estiverem agrupados numa distribuição de freqüência identificaremos a mediana dos valores pela posição da mediana através da freqüência absoluta acumulada – Fa. Exemplo: Em um determinado dia foi registrado o número de veículos negociados por uma amostra de 10 vendedores de uma agência de automóveis, obtendo a seguinte tabela: VEÍCULOS NEGOCIADOS NÚMERO DE VENDEDORES 1 2 3 4 1 3 5 1 1 4 9 10 TOTAL 10 --- Portanto: Interpretação: 50% dos vendedores comercializaram no máximo 3 veículos, ou então, metade dos vendedores comercializaram pelo menos 3 veículos. 3ª SITUAÇÃO: Dados agrupados em uma distribuição de frequências contínua Procedimento: Calcula-se a posição da mediana: Pela identifica-se a classe que contém o valor da mediana – CLASSE (Md) Utiliza-se a fórmula: onde: = Limite inferior da classe mediana n = Tamanho da amostra ou número de elementos = Freqüência acumulada anterior à classe mediana h = Amplitude da classe mediana = Freqüência absoluta simples da classe mediana Exemplo: A tabela a seguir representa os escores obtidos por um grupo de 58 alunos matriculados em uma determinada disciplina: � ESCORES ALUNOS 35 |– 45 45 |– 55 55 |– 65 65 |– 75 75 |– 85 85 |– 95 5 12 18 14 6 3 5 17 35 49 55 58 TOTAL 58 --- Portanto, POS(Md) = 29 CLASSE (Md) = 55 |– 65 Interpretação: 50% dos alunos obtiveram escore máximo de 61,67 pontos, ou então, metade dos alunos obtiveram escore maior que 61,67 pontos. Exercícios Considerando os conjuntos de dados: 3; 5; 2; 6; 7; 10; 12; 9; 5; 7; 2; 5 14,5; 19,5; 13,5; 10,7; 9,8; 7,0 Calcular a média, a moda e a mediana. � Sabendo-se que a produção leiteira diária da vaca A, durante uma semana, foi de 10, 14, 13, 15, 16, 18 e 12 litros. Qual a produção média de leite da vaca na semana? Qual o valor mediano? As notas de um estudante em seis exames foram 8,4; 9,1; 7,2; 6,8; 8,7 e 7,8. Determinar: A mediana das notas. A média das notas. Calcular a média, a moda e a mediana dos valores descritos nas tabelas: X F 3 4 5 6 7 8 3 6 9 8 6 4 Σ 36 � X F 39 41 45 46 50 53 3 9 15 13 8 5 Σ PESOS (Kg) F 40 ⌐ 45 45 ⌐ 50 50 ⌐ 55 55 ⌐ 60 60 ⌐ 65 65 ⌐ 70 70 ⌐ 75 75 ⌐ 80 5 9 13 17 17 13 9 5 Σ � X F 150 155 162 169 174 180 5 3 12 23 18 9 Σ O consumo de energia elétrica e o número de usuários são mostrados na seguinte tabela. Calcular a média, a moda e o valor mediano de consumo. Consumo (Kwh) Número de usuários 5 ⌐ 25 25 ⌐ 45 45 ⌐ 65 65 ⌐ 85 85 ⌐ 105 105 ⌐ 125 125 ⌐ 145 145 ⌐ 165 4 6 14 26 14 8 6 2 Σ 80 � MEDIDAS SEPARATRIZES Quartis Os quartis dividem um conjunto de dados em quatro partes iguais. Assim, Onde: = 1º quartil, deixa 25% dos elementos. = 2º quartil, coincide com a mediana, deixa 50% dos elementos. = 3º quartil, deixa 75% dos elementos. Procedimento: Calcula-se a posição do quartil: Pela Fa identifica-se a classe que contém o valor do quartil – CLASSE(Qi) Utiliza-se a fórmula: onde: = Limite inferior da classe quartílica; n = Tamanho da amostra ou número de elementos; = Freqüência acumulada anterior à classe quartílica; h = Amplitude da classe quartílica; = Freqüência absoluta simples da classe quartílica. Exemplo: A tabela abaixo representa os escores obtidos por um grupo de 58 alunos matriculados em uma determinada disciplina. Calcule o primeiro e o terceiro quartil. ESCORES ALUNOS 35 |– 45 45 |– 55 55 |– 65 65 |– 75 75 |– 85 85 |– 95 5 12 18 14 6 3 5 17 35 49 55 58 TOTAL 58 --- Portanto, POS(Q1) = 58/4 = 14,5 CLASSE (Q1) = 45 |– 55 Interpretação: 25% dos alunos obtiveram escore máximo de 52,92 pontos, ou então, 75% dos alunos obtiveram escore maior que 52,92 pontos. POS(Q3) = = 43,5 CLASSE (Q3) = 65 |– 75 Interpretação: 75% dos alunos obtiveram escore máximo de 71,07 pontos, ou então, 25% dos alunos obtiveram escore maior que 71,07 pontos. � Decis São valores que divide a série em dez partes. Procedimento: Calcula-se a posição do Decil: Pela Fa identifica-se a classe que contém o valor do Decil – CLASSE(Di) Utiliza-se a fórmula: onde: = Limite inferior da classe do decil; n = Tamanho da amostra ou número de elementos; = Freqüência acumulada anterior à classe do decil; h = Amplitude da classe do decil; = Freqüência absoluta simples da classe do decil. A tabela abaixo representa os escores obtidos por um grupo de 58 alunos matriculados em uma determinada disciplina. Calcule o sexto decil. ESCORES ALUNOS 35 |– 45 45 |– 55 55 |– 65 65 |– 75 75 |– 85 85 |– 95 5 12 18 14 6 3 5 17 35 49 55 58 TOTAL 58 --- Portanto, POS(D6) = = 34,8 CLASSE (D6) = 55 |– 65 Interpretação: 60% dos alunos obtiveram escore máximo de 64,89 pontos, ou então, 40% dos alunos obtiveram escore maior que 64,89 pontos. Percentis São as medidas que dividem a amostra em 100 partes iguais. Procedimento: Calcula-se a posição do Percentil: Pela Fa identifica-se a classe que contém o valor do Percentil – CLASSE(Pi) Utiliza-se a fórmula: onde: = Limite inferior da classe do percentil; n = Tamanho da amostra ou número de elementos; = Freqüência acumulada anterior à classe do percentil; h = Amplitude da classe do percentil; = Freqüência absoluta simples da classe do percentil. A tabela abaixo representa os escores obtidos por um grupo de 58 alunos matriculados em uma determinada disciplina. Calcule o percentil de ordem 23. ESCORES ALUNOS 35 |– 45 45 |– 55 55 |– 65 65 |– 75 75 |– 85 85 |– 95 5 12 18 14 6 3 5 17 35 49 55 58 TOTAL 58 --- Portanto, POS(P23) = = 13,34 CLASSE(P23) = 45 |– 55 Interpretação: 23% dos alunos obtiveram escore máximo de 51,95 pontos, ou então, 77% dos alunos obtiveram escore maior que 51,95 pontos. � Exercícios: Considere a seguinte tabela: CLASSES 2,75 |– 2,80 2,80 |– 2,85 2,85 |– 2,90 2,90 |– 2,95 2,95 |– 3,00 3,00 |– 3,05 3,05 |– 3,10 3,10 |– 3,15 3,15 |– 3,20 3,20 |– 3,25 2 3 10 11 24 14 9 8 6 3 TOTAL 90 Identificar os seguintes elementos da tabela: Frequência simples absoluta da quinta classe. Frequência total. Limite inferior da sexta classe. Limite superior da quarta classe. Amplitude do intervalo de classe. Amplitude total. Ponto médio da terceira classe. Número total de classe. Frequência absoluta acumulada além da sexta classe. Porcentagem de valores iguais ou maiores que 2,95. Para os valores descritos na tabela anterior calcular: D2, D7 e D9 Q1 e Q3 P17, P33, P62, P79 � Responda as questões abaixo: I) Média, Mediana e Moda são medidas de : a) ( ) Dispersão b) ( ) posição c) ( ) assimetria d) ( ) curtose II) Na série 10, 20, 40, 50, 70, 80 a mediana será: a) ( ) 30 b) ( ) 35 c) ( ) 40 d) ( ) 45 III) 50% dos dados da distribuição situa-se: a) ( ) abaixo da média c) ( ) abaixo da moda b) ( ) acima da mediana d) ( ) acima da média � MEDIDAS DE DISPERSÃO As medidas de dispersão indicam se os valores estão relativamente próximos um dos outros, ou separados em torno de uma medida de posição: a média. Consideraremos quatro medidas de dispersão: Desvio–médio, Variância, Desvio Padrão e Coeficiente de Variação. Desvio–Médio O desvio-médio analisa a média dos desvios em torno da média. O desvio em torno da média é definido como 1ª SITUAÇÃO: Dados não agrupados Sejam os elementos de uma amostra, portanto “n” valores da variável x, com média igual a . O desvio-médio da variável aleatória de x é, onde n é o número de elementos do conjunto. Exemplo: Suponha o conjunto de tempo de serviço de cinco funcionários: 3, 7, 8, 10 e 11. Determinar o desvio-médio deste conjunto de dados. como então, Interpretação: em média, o tempo de serviço deste grupo de funcionários se desvia em ______ anos em torno dos 7,8 anos de tempo médio de serviço. � 2ª SITUAÇÃO: Dados agrupados em uma distribuição de frequência por valores simples Quando os dados estiverem agrupados numa distribuição de freqüência usaremos o desvio-médio dos valores , ponderados pelas respectivas freqüências absolutas: , como no cálculo da média aritmética. Assim: Exemplo: Em um determinado dia foi registrado o número de veículos negociados por uma amostra de 10 vendedores de uma agência de automóveis como mostra a tabela abaixo. O cálculo do desvio-médio será: VEÍCULOS NEGOCIADOS NÚMERO DE VENDEDORES 1 2 3 4 1 3 5 1 TOTAL 10 Interpretação: em média, a quantidade de veículos negociado de cada vendedor possuiu uma distância de 0,68 em torno dos 2,6 veículos comercializados em média por vendedor. � 3ª SITUAÇÃO: Dados agrupados em uma distribuição de frequência por classes Quando os dados estiverem agrupados numa distribuição de freqüência usaremos o desvio-médio dos pontos médios , de cada classe, ponderados pelas respectivas freqüências absolutas: . Desta forma, o cálculo do desvio-médio passa a ser igual ao da 2ª situação. Assim: Exemplo: A tabela abaixo representa os escores obtidos por um grupo de 58 alunos matriculados em uma determinada disciplina. O cálculo do desvio-médio será: ESCORES ALUNOS 35 |– 45 45 |– 55 55 |– 65 65 |– 75 75 |– 85 85 |– 95 5 12 18 14 6 3 TOTAL 58 ------ Interpretação: Em média, a nota de cada aluno deste grupo teve um distanciamento de 10,29 pontos em torno do desempenho médio deste grupo de alunos, que foi de 62,24 pontos nesta disciplina. � Variância e Desvio–Padrão A variância de um conjunto de dados é a média dos quadrados dos desvios dos valores a contar da média. A fórmula da variância poderá ser calculada de duas formas: POPULACIONAL, representada letra grega AMOSTRAL, representada por 1ª SITUAÇÃO: Dados não agrupados Sejam os elementos , portanto “n” valores da variável x, com média igual a . A variância da variável aleatória de x é, ou Exemplo: Suponha o conjunto de tempo de serviço de cinco funcionários: 3, 7, 8, 10 e 11. Determinar o desvio-padrão deste conjunto de dados. (fazer a série estatística) Interpretação: encontramos então uma variância para o tempo de serviço de anos2. Para eliminarmos o quadrado da unidade de medida, extraímos a raiz quadrada do resultado da variância, que chegamos a uma terceira medida de dispersão, chamada de DESVIO-PADRÃO: POPULACIONAL, representada letra grega AMOSTRAL, representada por Portanto, o desvio-padrão do exemplo foi de anos. Ou seja, se calcularmos um intervalo utilizando um desvio-padrão em torno da média, encontraremos a concentração da maioria (aproximadamente 68,3%) dos dados. 2ª SITUAÇÃO: Dados agrupados em uma distribuição de frequência por valores simples Quando os dados estiverem agrupados numa distribuição de freqüência usaremos a variância dos valores , ponderados pelas respectivas freqüências absolutas: . Assim: ou Exemplo: Em um determinado dia foi registrado o número de veículos negociados por uma amostra de 10 vendedores de uma agência de automóveis como mostra a tabela abaixo. O cálculo do desvio-médio, variância e desvio padrão para este caso será: VEÍCULOS NEGOCIADOS NÚMERO DE VENDEDORES 1 2 3 4 1 3 5 1 TOTAL 10 Interpretação: Portanto, o desvio-padrão do exemplo foi de veículos. Ou seja, se calcularmos um intervalo utilizando um desvio-padrão em torno da média, encontraremos a concentração da maioria dos veículos negociados por vendedor. 3ª SITUAÇÃO: Dados agrupados em uma distribuição de frequência por classes Quando os dados estiverem agrupados numa distribuição de freqüência usaremos a variância dos pontos médios de cada classe, ponderados pelas respectivas freqüências absolutas: . Desta forma, o cálculo da variância passa a ser igual ao da 2ª situação. Assim, ou Exemplo: A tabela abaixo representa os escores obtidos por um grupo de 58 alunos matriculados em uma determinada disciplina. O cálculo do desvio-médio, variância e desvio padrão para este caso será: ESCORES ALUNOS 35 |– 45 45 |– 55 55 |– 65 65 |– 75 75 |– 85 85 |– 95 5 12 18 14 6 3 TOTAL 58 ------ ------ � Interpretação: Portanto, o desvio-padrão do exemplo foi de pontos. Ou seja, se calcularmos um intervalo utilizando um desvio-padrão em torno do escore médio de 62,24 pontos, encontraremos a concentração da maioria dos alunos dentro deste intervalo de pontuação. Coeficiente de Variação Trata-se de uma média relativa à dispersão, útil para a comparação e observação em termos relativos do grau de concentração em torno da média de séries distintas. É dada por: ou Classificação da distribuição quanto à dispersão: DISPERSÇÃO BAIXA: DISPERSÇÃO MÉDIA: 15% < CV < 30% DISPERSÇÃO ALTA: Exemplo: Numa empresa o salário médio dos funcionários do sexo masculino é de R$ 4.000,00, com um desvio padrão de R$ 1.500,00, e os funcionários do sexo feminino é em média de R$ 3.000,00, com um desvio padrão de R$ 1.200,00. Determinar quanto a homogeneidade da população dos funcionários masculinos e femininos. � Interpretação: Logo, podemos concluir que o salário das mulheres apresenta maior dispersão relativa que a dos homens, desta forma, dizemos que a distribuição de salário das mulheres é menos homogênea que a distribuição de salários dos homens. Exercícios Calcular a amplitude total, o desvio médio, a variância e o desvio padrão dos valores abaixo: 3; 7; 4; 5; 4; 8; 3 20; 31; 15; 40; 50 1; 3; 4; 8 12; 10; 20; 13; 15 � 9; 9; 9; 9 3; 7; 9; 5 2,4; 1,6; 3,8; 4,1; 3,4 � Calcular a variância e o desvio padrão dos dados tabulados: � Valores (x) 5 6 8 10 11 � Idades (x) F 16 17 19 20 21 3 7 15 8 2 35 � Pesos (Kg) F 40 ⌐ 45 45 ⌐ 50 50 ⌐ 55 55 ⌐ 60 60 ⌐ 65 65 ⌐ 70 2 5 10 17 6 3 43 Comparar quanto a homogeneidade as amostras A, B e C � Amostra A Pesos (Kg) F 40 42 45 47 48 2 7 10 8 3 30 � Amostra B Estaturas (cm) F 145 148 152 163 165 169 1 4 7 10 6 2 30 � Amostra C QUANTIDADES 100 |– 150 150 |– 200 200 |– 250 250 |– 300 300 |– 350 350 |– 400 15 17 18 20 16 12 TOTAL � Com base nas distribuições i, ii e iii, comparar quanto a homogeneidade as seguintes distribuições: Pesos (kg): 50 kg ; 100 kg2; Salários (u.m.): 520 u.m. ; 50 u.m.; Estaturas (cm): 161,6 cm; 151,29 cm2; � As idades dos alunos do 1º ano do curso de Engenharia Ambiental são: (3,0) 17 20 19 21 20 20 21 18 20 19 19 22 23 18 23 25 21 24 19 18 25 17 18 22 24 19 20 22 19 23 � Organizar a distribuição de frequências Calcular o desvio médio; Calcular a idade modal e mediana; Calcular o desvio padrão.(1,0) � Calcular a moda, a mediana, o 3º decil, o 82º centil, o desvio padrão e o coeficiente de variação dos valores descritos na AMOSTRA abaixo: CUSTOS (R$) F 450 ⌐ 550 550 ⌐ 650 650 ⌐ 750 750 ⌐ 850 850 ⌐ 950 950 ⌐ 1050 1050 ⌐ 1150 11 14 17 20 13 10 8 Σ � Complete a tabela a seguir: CLASSE F Pm = x Fa Fr 62 |--- 65 12 36 66,5 84 126 225 300 0,02 0,06 0,15 TOTAL Calcular as estaturas média, modal e mediana de bebês conforme a tabela abaixo. Depois disso, calcular também o desvio médio, o 75º centil, a variância, o desvio padrão e seu coeficiente de variação. ESTATURAS (cm) F 50 |--- 54 54 |--- 58 58 |--- 62 62 |--- 66 66 |--- 70 70 |--- 74 4 9 11 8 5 3 TOTAL 40 � Numa empresa o salário médio dos funcionários do sexo masculino é de R$ 4.000,00, com um desvio padrão de R$ 1.500,00, e os funcionários do sexo feminino é em média de R$ 3.000,00, com um desvio padrão de R$ 1.200,00. Indique qual classe de salários e mais homogênea. Uma nova ração foi fornecida a suínos recém desmamados e deseja-se avaliar sua eficiência. A ração tradicional dava um ganho de peso ao redor de 3,5 kg em um mês. A seguir, apresentamos os dados referentes ao ganho, em quilos, para essa nova ração, aplicada durante um mês em 200 animais nas condições acima. Construa o histograma Determine o 1º , 2º e 3º quartis. Você acha que a nova ração é mais eficiente que a tradicional? Justifique. Determinar seu coeficiente de variação. Ganho de Peso (Kg) F 1,0 |---- 2,0 2,0 |---- 3,0 3,0 |---- 4,0 4,0 |---- 5,0 5,0 |---- 6,0 6,0 |---- 7,0 45 83 52 15 4 1 TOTAL 200 � Como parte de uma avaliação médica em uma empresa, foi medida a frequência cardíaca dos funcionários de um determinado setor. Frequência Cardíaca (bpm) F 60 |---- 65 65 |---- 70 70 |---- 75 75 |---- 80 80 |---- 85 85 |---- 90 90 |---- 95 95 |---- 100 11 35 68 20 12 10 1 3 TOTAL Obtenha o histograma de frequências; Frequências cardíacas que estejam abaixo de 62 ou acima de 92 requerem acompanhamento médico. Qual é a porcentagem de funcionários nestas condições? Uma frequência ao redor de 72 batidas por minuto é considerada padrão. Você acha que de modo geral esses funcionários se encaixam nesse caso? � Calcule a moda, a média, a mediana, o desvio padrão e o coeficiente de variação para a seguinte distribuição. Salário (R$) F 450 |--- 550 550 |--- 650 650 |--- 750 750 |--- 850 850 |--- 950 950 |--- 1050 1050 |--- 1150 8 10 11 16 13 5 1 TOTAL 64 � PROBABILIDADE Introdução O cálculo das probabilidades pertence ao campo da Matemática Aplicada, entretanto a maioria dos fenômenos de que trata a Estatística são de natureza aleatória ou probabilística. O conhecimento dos aspectos fundamentais do cálculo das probabilidades é uma necessidade essencial para o estudo da Estatística Indutiva ou Inferencial. Experimento Aleatório São fenômenos que, mesmo repetido várias vezes sob condições semelhantes, apresentam resultados imprevisíveis. O resultado final depende do acaso. Exemplo: Da afirmação "é provável que o meu time ganhe a partida hoje" pode resultar: - vitória - derrota - empate Portanto, o resultado final pode ter três possibilidades. No lançamento de uma moeda, pode aparecer face cara (C) ou face coroa (R) voltada para cima. Espaço Amostral É o conjunto universo ou o conjunto de resultados possíveis de um experimento aleatório. No experimento aleatório "lançamento de uma moeda" temos o Espaço Amostral S{cara, coroa}. No experimento aleatório "lançamento de um dado" temos o Espaço Amostral S{1, 2, 3, 4, 5, 6}. No experimento aleatório "dois lançamentos sucessivos de uma moeda" temos o Espaço Amostral: S{(C,C) , (C,R) , (R,C) , (R,R)} Obs: cada elemento do Espaço Amostral que corresponde a um resultado recebe o nome de ponto amostral. No primeiro exemplo: cara (C) pertence ao Espaço Amostral {cara, coroa}. Eventos de um Espaço Amostral É qualquer subconjunto do Espaço Amostral de um experimento aleatório. Se considerarmos S como Espaço Amostral e E como evento: Assim, qualquer que seja E, se E S (E está contido em S), então E é um evento de S. Se E = S , E é chamado de evento certo. Se E S e E é um conjunto unitário, E é chamado de evento elementar. Se E = Ø , E é chamado de evento impossível. Se E1 E2 = S e E1 E2 = E1 e E2 são eventos complementares. Exercícios: No lançamento de um dado temos S = {1,2,3,4,5,6}. Formule os eventos definidos pelas sentenças: Obter um número par na face superior do dado: Obter um número menor ou igual a 6 na face superior: Obter o número 4 na face superior: Obter um número maior que 6 na face superior: No lançamento de duas moedas (uma de 10 centavos e outra de 5 centavos) Qual é o Espaço Amostral? Formule os eventos definidos pelas sentenças: Obter uma cara: Obter pelo menos uma cara: Obter apenas um cara: Obter no máximo duas caras: Obter uma cara e uma coroa: Obter uma cara ou uma coroa: � Conceito de Probabilidade Chamamos de probabilidade de um evento (sendo que A está contido no Espaço Amostral S ) o número real P(A), tal que é o quociente entre o número de casos favoráveis de n(A) sobre o número total de casos n(S). OBS: Quando todos os elementos do Espaço Amostral tem a mesma chance de acontecer, o Espaço Amostral é chamado de conjunto equiprovável. Exemplos: No lançamento de uma moeda qual a probabilidade de obter cara em um evento A? No lançamento de um dado qual a probabilidade de obter um número par em um evento A? No lançamento de um dado qual a probabilidade de obter um número menor ou igual a 6 em um evento A? No lançamento de um dado qual a probabilidade de obter um número maior que 6 em um evento A ? � Eventos Complementares Dois eventos e de um Espaço Amostral , são eventos complementares se: e Sabemos que um evento pode ocorrer ou não. Sendo p a probabilidade de que ele ocorra (sucesso) e q a probabilidade de que ele não ocorra (insucesso), para um mesmo evento existe sempre a relação: Exemplos: Sabemos que a probabilidade de tirar o nº 4 no lançamento de um dado é p=______. logo, a probabilidade de não tirar o nº 4 no lançamento de um dado é ou q =___________. Calcular a probabilidade de um piloto de automóveis vencer uma dada corrida, onde as suas "chances", segundo os entendidos, são de "3 para 2". Calcule também a probabilidade dele perder. OBS: O termo "3 para 2" significa : De cada 5 corridas ele ganha 3 e perde 2. Seja S = {a,b,c,d} . Consideremos a seguinte distribuição de probabilidades: P(a) = 1/8 ; P(b) = 1/8 ; P(c) = 1/4 e P(d) = x . Calcule o valor de x : Três cavalos C1, C2 e C3 disputam um páreo, onde só se premiará o vencedor. Um conhecedor dos 3 cavalos afirma que as "chances" de C1 vencer são o dobro das de C2,e que C2 tem o triplo das "chances" de C3. Calcule as probabilidades de cada cavalo vencer o páreo: Um experimento aleatório consiste no lançamento de um dado. Determinar a probabilidade de ocorrer: Um número par; Um número maior que 1; Um número múltiplo de 3; Um número divisível pela unidade; Um número divisível por 7. � Um experimento aleatório consiste no lançamento simultâneo de duas moedas. Determinar a probabilidade de ocorrer: Faces iguais; Nenhuma face cara; Três faces cara. Um experimento aleatório consiste no lançamento simultâneo de três moedas. Determinar a probabilidade de ocorrer: Três faces cara; Duas faces cara; Pelo menos uma faces cara; No máximo uma face cara. � Um experimento aleatório consiste no lançamento simultâneo de dois dados. Determinar a probabilidade de ocorrer: 1 2 3 4 5 6 1 2 3 4 5 6 Espaço Amostral: Números iguais; Números iguais com soma 9; Números cujas somas seja 12; Números cujas somas não seja 12; Números múltiplos de 3 em ambos os dados; A soma ser par; A soma ser múltiplo de 3; A soma ser número primo; O produto ser menor que 10; O produto ser um número maior que 5 e menor que 10; O produto ser no máximo 20; O produto ser múltiplo de 4; O produto ser no mínimo 15; O primeiro ser par e o segundo ser maio que 4; Os dois dados mostrem apenas 3 ou 4 ou ambos; Não apareçam 3 nem 4; Apenas o 1º dado mostra menos que 3 pontos. � Eventos Exclusivos Dois ou mais eventos são mutuamente exclusivos quando a realização de um exclui a realização do(s) outro(s). Assim, no lançamento de uma moeda, o evento "tirar cara" e o evento "tirar coroa" são mutuamente exclusivos, já que, ao se realizar um deles, o outro não se realiza. Se dois eventos são mutuamente exclusivos, a probabilidade de que um ou outro se realize é igual à soma das probabilidades de que cada um deles se realize: Observe que neste caso, , pois os eventos são exclusivos. Exemplo: No lançamento de um dado qual a probabilidade de se tirar o nº 3 ou o nº 4 ? Adição de Probabilidades � Obs: Na probabilidade da união de dois eventos A e B, quando há elementos comuns, devemos excluir as probabilidades dos elementos comuns a A e B (elementos de A B ) para não serem computadas duas vezes. Assim subtraímos sua interseção. Exemplo: Um número é escolhido ao acaso entre os 20 primeiros inteiros positivos. Determinar a probabilidade de que o nº escolhido seja divisível: Por 4; Por 6; Por 4 e por 6; Por 4 ou por 6; Por 5 e por 7; Por 5 ou por 7. Retirando-se uma carta de um baralho de 52 cartas, qual a probabilidade da carta retirada ser ou um ÁS ou uma carta de COPAS ? � Eventos Independentes Dois ou mais eventos são independentes quando a realização ou não realização de um dos eventos não afeta a probabilidade da realização do outro e vice-versa. Quando temos n eventos independentes, por exemplo, a probabilidade da ocorrência simultânea de ambos é igual ao produto das probabilidades individuais. Desta forma, Exemplo: Quando lançamos dois dados, o resultado obtido em um deles independe do resultado obtido no outro. Então qual seria a probabilidade de obtermos, simultaneamente, o nº 4 no primeiro dado e o nº 3 no segundo dado? � Probabilidade Condicional Se A e B são dois eventos, a probabilidade de B ocorrer, depois de A ter acontecido é definida por: , ou seja, é chamada probabilidade condicional de B. Neste caso, os eventos são dependentes e definidos pela fórmula: ou Duas cartas são retiradas de um baralho sem haver reposição. Qual a probabilidade de ambas serem COPAS ? Obs: No exemplo anterior se a 1ª carta retirada voltasse ao baralho o experimento seria do tipo com reposição e seria um evento independente. O resultado seria: � Exercícios: Qual a probabilidade de sair o ás de ouro quando retiramos uma carta de um baralho de 52 cartas? Qual a probabilidade de sair um rei quando retiramos uma carta de um baralho de 52 cartas? Qual a probabilidade de sair o um REI ou um ÁS quando retiramos 1 carta de um baralho de 52 cartas ? Uma urna A contém: 3 bolas brancas, 4 pretas, 2 verdes; uma urna B contém: 5 bolas brancas, 2 pretas, 1 verde; uma urna C contém: 2 bolas brancas, 3 pretas e 4 verdes. Uma bola é retirada de cada urna. Qual é a probabilidade de as três bolas retiradas da primeira, segunda e terceira urnas serem, respectivamente, branca, preta e verde? � Dois dados são lançados simultaneamente. Determine a probabilidade de a soma ser 10 ou maior que 10. Um lote é formado por 10 peças boas, 4 com defeitos e 2 com defeitos graves. Uma peça é escolhida ao acaso. Calcule a probabilidade de que: Ela não tenha defeitos graves; Ela não tenha defeitos; Ela seja boa ou tenha defeitos graves. São dados dois baralhos de 52 cartas. Tiramos, ao mesmo tempo, uma carta do primeiro baralho e uma carta do segundo. Qual a probabilidade de tirarmos uma DAMA e um REI, não necessariamente nessa ordem? � Duas cartas são retiradas de um baralho sem haver reposição. Qual a probabilidade de ambas serem COPAS ou ESPADAS ? Duas bolas são retiradas (sem reposição) de uma urna que contém 2 bolas brancas e 3 bolas pretas. Qual a probabilidade de que a 1ª seja branca e a 2ª seja preta? Duas bolas são retiradas (com reposição) de uma urna que contém 2 bolas brancas e 3 bolas pretas. Qual a probabilidade de que a 1ª seja branca e a 2ª seja preta? Duas bolas são retiradas (sem reposição) de uma urna que contém 2 bolas brancas e 3 bolas pretas e 5 bolas verdes. Qual a probabilidade de que ambas sejam verdes? Qual a probabilidade de que ambas sejam da mesma cor? � Duas bolas são retiradas (com reposição) de uma urna que contém 2 bolas brancas e 3 bolas pretas e 5 bolas verdes. Qual a probabilidade de que ambas sejam verdes? Qual a probabilidade de que ambas sejam da mesma cor? No lançamento simultâneo de dois dados, qual é a probabilidade de: A soma ser par e o produto ser 12; A soma ser par ou o produto ser 12. � Em uma urna contém 5 bolas, numeradas de 1 a 5, respectivamente. Determinar a probabilidade de: Em três retiradas sucessivas e sem reposição, retirar as bolas 1, 2 e 3, respectivamente, nesta ordem. Em três retiradas sucessivas e com reposição, retirar as bolas 1, 2 e 3, respectivamente, nesta ordem. Em três retiradas sucessivas e sem reposição, retirar as bolas 1, 2 e 3, em qualquer ordem de aparecimento. Em três retiradas sucessivas e com reposição, retirar as bolas 1, 2 e 3, em qualquer ordem de aparecimento. Uma carta é retirada ao acaso de um baralho de 52 cartas. Qual a probabilidade de que a carta retirada seja uma dama ou uma carta de copas? � Probabilidades Binomiais Seja um evento do Espaço Amostral e o seu complementar. Assim, a probabilidade de e ocorrer pode ser definida por: O Espaço Amostral para um evento se repetindo vezes pode ser expresso pelos termos do binômio , onde para cada termo deste binômio, o valor do expoente de representa o número de vezes que o evento se repete, ou seja, o número de vezes que ocorre sucesso. A probabilidade de ocorrer um evento exatamente vezes em provas é que corresponde ao termo geral do binômio dado por: onde Exemplos de Probabilidades binomiais: No lançamento simultâneo de 3 moedas, determinar a probabilidade de ocorrer: Faces iguais; Nenhuma face cara; Pelo menos duas faces cara. � Resolver o exercício anterior utilizando probabilidades binomiais. Para uma moeda, temos: Ocorrer face Cara (Sucesso) p = Não ocorrer face Cara (Insucesso) q = Assim, para uma moeda, temos Para três moedas, temos: � No lançamento simultâneo de 5 moedas, determinar a probabilidade de ocorrer: Faces iguais ; 3 faces Cara; No máximo 3 faces Cara 2 faces Coroa; Pelo menos 2 faces Coroa. � Num determinado colégio 60% dos estudantes fumam cigarros. Escolhe-se 8 estudantes ao acaso para darem sua opinião sobre o fumo. Determinar a probabilidade de: Nenhum ser fumante; Todos serem fumantes; No máximo 2 serem fumantes; Pelo menos a metade ser fumante. � Jogando-se 5 dados, determinar a probabilidade de ocorrer: Um múltiplo de 3, quatro vezes; Um múltiplo de 3, pelo menos quatro vezes; Um não múltiplo de 3, duas vezes; Um múltiplo de 3, todas as vezes. No lançamento simultâneo de 12 moedas, determinar a probabilidade de ocorrer 8 faces cara. � Dois times de futebol, A e B, de mesmo nível, jogam entre si 6 vezes. Encontre a probabilidade de o time A vencer 4 jogos. Um atirador normalmente acerta no máximo 25% dos disparos que efetua. Se der 8 tiros qual a probabilidade dele acertar: Exatamente 3 tiros; No máximo 2 tiros; No mínimo 6 tiros. � Em certo país a proporção é de 600 mulheres em cada 1000 habitantes. Qual é a probabilidade de entre 10 irmãos haver 6 do sexo masculino. Sabe-se que dos 30 alunos de uma classe 25 não estão satisfeitos com o livro texto adotado. Se for tomada uma amostra de 7 alunos, qual a probabilidade de que estejam insatisfeitos: 5 alunos; No mínimo 3 alunos; No máximo 4 alunos; Entre 3 e 7 alunos (3 e 7 inclusos). � Uma moeda é lançada 11 vezes seguidas. Determinar a probabilidade de aparecerem 7 faces cara Em um lote de 12 peças, 4 são defeituosas. Sendo retiradas aleatoriamente 4 peças, calcule: A probabilidade de ambas serem defeituosas; A probabilidade de ambas não serem defeituosas; A probabilidade de ao menos três ser defeituosa. Lança-se simultaneamente 10 dados. Determinar a probabilidade de: Em 7 deles aparecerem um ponto maior que 4. Em 4 deles aparecer um ponto maior que 4. � Teorema da Probabilidade Total Seja um conjunto de eventos mutuamente exclusivos cuja união forma o Espaço Amostral ou seja . Seja B outro evento qualquer no mesmo Espaço Amostral, tal que P(B) > 0. Então: Usando o Teorema do Produto: Onde, é a probabilidade de B ocorrer, depois de A ter acontecido. Assim, temos: Que é o Teorema da Probabilidade Total. Exemplo: Segundo especialistas esportivos, a probabilidade de que um time vença o próximo jogo é estimada em 0,70 se não chover, e só de 0,50 se chover. Se os registros meteorológicos anunciam uma probabilidade de 0,40 de chover na data do jogo, qual será então a probabilidade desse time ganhar o próximo jogo? � Você entra num torneio de xadrez no qual sua probabilidade de vencer é de 0,3 contra metade dos jogadores – tipo 1 0,4 contra um quarto dos jogadores – tipo 2 0,5 contra um quarto dos jogadores – tipo 3 Você joga com um jogador escolhido ao acaso. Qual é sua probabilidade de vencer? R: 0,38 = 38% Segundo especialistas esportivos, a probabilidade do Corinthians vencer o próximo jogo é estimada em 0,90 se não chover, e de 0,70 se chover. Se os registros meteorológicos anunciam uma probabilidade de 0,60 de chover na data do jogo, qual será então a probabilidade do timão ganhar o próximo jogo? � Teorema de Bayes A partir do Teorema do Produto, temos: Assim substituindo e , vem Exemplos: Certo professor da UNICENTRO 4/5 das vezes vai trabalhar usando um fusca e usando um carro importado nas demais vezes. Quando ele usa o fusca, 75 % das vezes ele chega em casa antes das 23 horas e quando usa o carro importado só chega em casa antes das 23 horas em 60% das vezes. Ontem o professor chegou em casa após às 23 horas. Qual a probabilidade de que ele, no dia de ontem, tenha usado o fusca? � Uma empresa produz circuitos em três fábricas, denotadas por I, II e III. A fábrica I produz 40% dos circuitos, enquanto a II e III produzem 30% cada uma. As probabilidades de que um circuito produzido por essas fábricas não funcione são 0,01; 0,04 e 0,03 respectivamente. Escolhido ao acaso um circuito da produção conjunta das três fábricas, qual a probabilidade do circuito não funcionar? Suponha que o circuito escolhido ao acaso seja defeituoso. Determine qual a probabilidade do circuito ter sido fabricado por I. � Certo aluno da UNICENTRO 3/4 das vezes vai estudar usando ônibus e vai de carona nas demais vezes. Quando ele usa o ônibus, 35 % das vezes ele chega em casa depois das 23 horas e quando vai de carona só chega em casa antes das 23 horas em 0,55 das vezes. Ontem o aluno chegou em casa antes das 23 horas. Qual a probabilidade em percentual de que ele, no dia de ontem, tenha usado o ônibus? R: 78 % Uma determinada peça é manufaturada por 3 fábricas: A, B e C. Sabe-se que A produz o dobro de peças que B e que B e C produzem o mesmo número de peças. Sabe-se ainda que 2% das peças produzidas por A e por B são defeituosas, enquanto que 4% das produzidas por C são defeituosas. Todas as peças produzidas são misturadas e colocadas em um depósito. Se do depósito for retirada uma peça ao acaso, qual a probabilidade de que ela seja defeituosa? � Suponha-se que no exercício anterior, uma peça é retirada do depósito e se verifica que é defeituosa. Qual a probabilidade de que tenha sido produzida pela fábrica A? ou B? ou ainda C? Três máquinas, A, B e C produzem 50%, 30% e 20%, respectivamente do total de peças de uma fábrica. As percentagens de produção defeituosa destas máquinas são 3%, 4% e 5%. Se uma peça é selecionada aleatoriamente, ache a probabilidade de ela ser defeituosa. Suponha agora que uma peça selecionada aleatoriamente seja defeituosa. Encontre a probabilidade de ela ter sido produzida pela máquina A, por B e também por C. � Sr Ray Moon Dee, ao dirigir-se ao trabalho, usa um ônibus ou o metrô com probabilidade de 0,2 e 0,8, nessa ordem. Quando toma o ônibus, chega atrasado 30% das vezes. Quando toma o metrô, atrasa-se 20% dos dias. Qual a probabilidade de o Sr Ray Moon Dee Chegar atrasado ao trabalho? E se o Sr Ray Moon Dee Chegar atrasado ao trabalho em determinado dia, qual a probabilidade dele haver tomado um ônibus? Em certo colégio, 5% dos homens e 2% das mulheres têm mais que 1,80m de altura. Por outro lado, 60% dos estudantes são homens. Se um estudante é selecionado aleatoriamente e tem mais de 1,80m de altura, qual a probabilidade de que o estudante seja mulher? � Exercícios Auxiliares (UnB-DF) Se a família Silva tiver 5 filhos e a família Oliveira tiver 4, qual a probabilidade de que todos os filhos dos Silva sejam meninas e todos os dos Oliveira sejam meninos? a) 1/325 b) 1/512 c) 1/682 d) 1/921 e) 1/1754 Um fabricante de peças de automóveis garante que uma caixa de suas peças conterá no máximo 2 defeituosas. Se a caixa contém 18 peças e a experiência tem demonstrado que esse processo de fabricação produz 5% de defeituosas, qual a probabilidade de que uma caixa satisfaça a garantia? Se a probabilidade de um indivíduo acusar reação negativa à injeção de determinado soro é 0,001, determine a probabilidade de que, em 2000 indivíduos: Exatamente 3 acusem reação negativa; Mais de 2 indivíduos acusem reação negativa. � A experiência mostra que, de cada 400 lâmpadas, 2 se queimam ao serem ligadas. Qual a probabilidade de que, numa instalação de: 600 lâmpadas, no mínimo 3 se queimem? 900 lâmpadas, exatamente 8 se queimem? Supondo lançamentos INDEPENDENTES de um dado honesto. Qual a probabilidade de que no vigésimo quinto lançamento ocorra a face 4 pela quinta vez? Um atirador normalmente acerta 90% dos disparos que efetua. Se der 9 tiros qual a probabilidade de: Acertar 6 tiros; Acertar no mínimo 7 tiros; Errar 3 tiros; Errar no máximo 2 tiros. � Dos estudantes de um colégio, 41% fumam cigarro. Escolhem-se seis ao acaso para darem sua opinião sobre o fumo. Determine a probabilidade de nenhum dos seis ser fumante. P(x) = 4,22% Determine a probabilidade de todos os seis fumarem. P(x) = 0,48% Um fabricante de lajotas suspeita que 2% de seu produto apresenta algum defeito. Se tal suspeita é correta, determine a probabilidade de que, numa amostra de nove lajotas: Haja ao menos uma defeituosa. P(x) = 16,63% Não haja nenhuma defeituosa. P(x) = 83,37% � Sabe-se que, dos 30 alunos de uma classe, 25 não estão satisfeitos com o livro texto adotado. Se for tomada uma amostra de 5 alunos, qual a probabilidade de que estejam insatisfeitos: 4 alunos; P(x) =40,34%. no mínimo 2; P(x) = 99,64% no máximo 3 alunos; P(x) = 20,26% entre 2 e 5 alunos. P(x) = 56,86% Em uma urna contém 30% de bolas brancas. Determinar a probabilidade de na retirada sucessiva de 13 bolas, 7 serem brancas. � DISTRIBUIÇÃO DE PROBABILIDADES Uma distribuição de probabilidades é uma distribuição de freqüências relativas para os resultados de um espaço amostral. Mostra a proporção das vezes em que a variável aleatória tende a assumir cada um dos diversos valores. Variável Aleatória: Resultado possível de um experimento aleatório. Principais tipos de distribuições: Distribuições Discretas ou Descontínuas – dados podem ser contados. Binomial Poisson Multinomial Geométrica Hipergeométrica Distribuições Contínuas – dados que não podem ser contados ou valores muito grandes. Uniformes Normais Exponencial Distribuições Discreta de Probabilidades A cada valor de uma variável aleatória discreta pode ser atribuída uma probabilidade. Ao enumerar cada valor da variável aleatória com a sua probabilidade correspondente, forma-se uma distribuição de probabilidade. Dessa forma, uma distribuição de probabilidade discreta é o conjunto de todos os valores que podem ser assumidos pela variável aleatória discreta, com as respectivas probabilidades. Exemplo: DISTRIBUIÇÃO DOS RESULTADOS DE UM JOGO DE DADO x F Fr = F/n F% = Fr . 100 P(x) = Fr = F/n 1 2 3 4 5 6 1 1 1 1 1 1 1/6 = 0,1667 1/6 = 0,1667 1/6 = 0,1667 1/6 = 0,1667 1/6 = 0,1667 1/6 = 0,1667 16,67 16,67 16,67 16,67 16,67 16,67 0,1667 0,1667 0,1667 0,1667 0,1667 0,1667 TOTAL 6 1 100 1 � Média, Variância e Desvio Padrão A Média ou Esperança Matemática de uma distribuição discreta de probabilidades é dada por: A Variância de uma distribuição discreta de probabilidades é dada por: O Desvio Padrão da distribuição de probabilidades é dado por: A média e a variância de uma distribuição de probabilidades são chamadas de Parâmetros da Distribuição e indica-se por Calcular os parâmetros da distribuição, considerando uma distribuição de freqüência e uma distribuição de probabilidades. DISTRIBUIÇÃO DOS RESULTADOS DE UM JOGO DE DADO x F x . F 1 1 2 1 3 1 4 1 5 1 6 1 TOTAL 6 � Organizar a distribuição de probabilidades e calcular os parâmetros da distribuição para os dados abaixo. IDADE DOS ALUNOS DA TURMA ‘X’ 17 20 19 21 20 20 19 21 18 20 19 22 23 18 21 19 21 21 18 20 19 21 17 23 20 22 17 22 18 20 Idade (x) F 17 18 19 20 21 22 23 TOTAL � Um experimento aleatório consiste no lançamento simultâneo de 2 dados. Organizar a distribuição de freqüências e calcular os parâmetros da distribuição, considerando: : a diferença em módulo entre os pontos; x F 0 1 2 3 4 5 TOTAL : a soma dos pontos. X F 2 3 4 5 6 7 8 9 10 11 12 TOTAL � Um jogador A aposta R$ 100,00 com B e lança dois dados. Se sair soma 8, recebe R$ 100,00; Se sair soma 9, recebe R$ 125,00 Se sair soma 10, recebe R$ 150,00; Se sair soma 11 ou 12, recebe R$ 200,00 Nos demais casos, A perde a aposta. Qual a esperança de lucro do jogador A? E o desvio padrão? x ( ) TOTAL � Um vendedor espera vender um automóvel em 5 dias. A expectativa de que venda no primeiro dia é 50%. No segundo dia é 30%, no terceiro dia 10% e no quarto e quinto dia 5% em ambos. Seu lucro é de R$ 3.000,00 se vender no primeiro dia e diminui 40% a cada dia de demora para vender o carro. Calcular o valor esperado de lucro pelo vendedor nesta venda e seu desvio padrão. x ( ) TOTAL Um produto deve ser lançado no mercado no próximo ano. A expectativa do departamento de venda de que o produto seja bem sucedido é de 80%. Nesse caso, o lucro esperado é de R$ 1.000,00. Se isso não acontecer, o prejuízo deve chegar a R$ 500,00. Calcule o lucro médio, a variância e o desvio padrão. x ( ) TOTAL � O tempo em minutos necessário para um operário processar uma certa peça é 2, 3, 4, 5, 6 ou 7, com probabilidade e 10%, 10%, 30%, 20%, 20% e 10% respectivamente.calcular o tempo médio de processamento. x ( ) TOTAL No exercício anterior, para cada peça processada o operário ganha um fixo de R$ 2,00, mas se ele processa a peça em menos de 6 minutos ganha R$ 0,50 por minuto poupado. Calcular a quantia média ganha por peça. x ( ) TOTAL � Uma máquina fabrica placas de papelão que podem apresentar nenhum, 1, 2, 3 ou 4 defeitos com a probabilidade de 90%, 5%, 3%, 1% e 1%, respectivamente.o preço de venda de uma peça perfeita é de R$ 10,00 e a medida que apresenta defeitos o preço cai 50% para cada defeito apresentado. Determinar o preço médio de vendas dessas placas, o desvio padrão e o coeficiente de variação. Defeitos x ( ) 0 1 2 3 4 TOTAL Um jogador A aposta R$ 40,00 com B e lança quatro moedas. Se sair faces iguais, recebe R$ 40,00; Se sair uma face cara, recebe R$ 80,00; Se sair duas faces caras, recebe R$ 100,00 Nos demais casos A perde a aposta. Qual a esperança de lucro do jogador A? e o desvio padrão? x ( ) TOTAL � Distribuição Binomial Vamos imaginar fenômenos cujos resultados só podem ser de dois tipos, um dos quais é considerado como sucesso e o outro insucesso. Este fenômeno pode ser repetido tantas vezes quanto se queira (n vezes), nas mesmas condições. As provas repetidas devem ser independentes, isto é, o resultado de uma não deve afetar os resultados das sucessivas. No decorrer do experimento, a probabilidade p do sucesso e a probabilidade de q (q = 1 – p) do insucesso manter-se-ão constantes. Nessas condições x é uma variável aleatória discreta que segue uma distribuição binomial. P(x) = é a probabilidade de que o evento se realize k vezes em n provas. p = é a probabilidade de que o evento se realize em uma só prova (sucesso). q = é a probabilidade de que o evento não se em uma só prova (insucesso). OBS: O nome binomial é devido à fórmula, pois representa o termo geral do desenvolvimento do binômio de Newton. Exemplos: Uma moeda é lançada 5 vezes seguidas e independentes. Organizar a distribuição de probabilidade de serem obtidas caras nestas 5 provas; ; ; ; x (ocorrer cara) 0 1 2 3 4 5 TOTAL 1 � Calcular a esperança de obter Caras nestes experimentos; Calcular os parâmetros da distribuição. A probabilidade de um atirador acertar o alvo é 2/3. Se ele atirar 5 vezes, qual a esperança de acertos? E o desvio padrão? x ( ) 0 1 2 3 4 5 TOTAL � Jogando-se um dado três vezes, determine a esperança de se obter um múltiplo de três. x ( ) 1 2 3 TOTAL 1 Seis parafusos são escolhidos ao acaso da produção de certa máquina, que apresenta 10% de peças defeituosas. Qual a probabilidade de serem defeituosos dois deles? � Distribuição de Poisson Distribuição de probabilidades aplicada para acontecimentos raros, entretanto o seu maior uso prático é como aproximação para a distribuição binomial. A é calculada pela fórmula abaixo: Onde é a média da distribuição para n elementos e é o número de sucessos pedidos. OBSERVAÇÕES IMPORTANTES: Quando um acontecimento segue a distribuição binomial com um “p” (sucesso) muito pequeno de tal modo que temos que ter um “n” muito grande para que o sucesso ocorra. Podemos simplificar os cálculos usando a distribuição de Poisson como aproximação para a distribuição binomial. Para que os resultados aproximados pela distribuição de Poisson sejam satisfatórios, só devemos fazer a substituição da distribuição binomial pela de Poisson quando “n” for maior ou igual a 50 e “p” menor ou igual a 0,1 ou “p” maior ou igual a 0,9 ( “p” próximo de 0 ou próximo de 1). Exercícios Se 2% dos fusíveis são defeituosos. Qual a probabilidade de que uma amostra de 400 fusíveis exatamente 6 sejam defeituosos? � Se o número de peixes pescados por hora em certo pesqueiro é uma variável que segue a distribuição de Poisson com média igual a 1,8, achar a probabilidade de que um pescador, pescando durante uma hora: Não pegue nenhum peixe. Pegue exatamente 2 peixes. Pegue no máximo 4 peixes. Pegue pelo menos dois peixes. � Se 4% de passageiros de avião têm problemas com a bagagem. Qual a probabilidade de que entre 150 passageiros até 2 passageiros tenham problemas com suas bagagens? Os registros indicam que há uma probabilidade de 0,00006 de um pneu de um carro furar durante a travessia de certo túnel. Qual a probabilidade de que ao menos 2 dentre 10.000 carros que passem pelo túnel tenham um pneu furado? � Distribuição Normal Entre as distribuições teóricas de variável aleatória contínua, uma das mais empregadas é a distribuição Normal. Propriedades da distribuição normal : 1ª - A variável aleatória x pode assumir todo e qualquer valor real. 2ª - A representação gráfica da distribuição normal é uma curva em forma de sino, simétrica em torno da média, que recebe o nome de curva normal ou de Gauss. 3ª - A área total limitada pela curva e pelo eixo das abscissas é igual a 1, já que essa área corresponde à probabilidade de a variável aleatória x assumir qualquer valor real. 4ª - A curva normal é assintótica em relação ao eixo das abscissas, isto é, aproxima-se indefinidamente do eixo das abscissas sem, contudo, alcançá-lo. 5ª - Como a curva é simétrica em torno da média, a probabilidade de ocorrer valor maior que a média é igual à probabilidade de ocorrer valor menor do que a média, isto é, ambas as probabilidades são iguais a 0,5 ou 50%. Cada metade da curva representa 50% de probabilidade. Qualquer Distribuição Normal (variável x) pode ser convertida em uma distribuição normal padronizada (variável z) pelo uso da fórmula: Depois disso, procura-se os valores correspondentes de z na tabela de áreas de uma distribuição normal . Qual é a área sob a curva normal contida nos intervalos , e ? Com base nos resultados de uma distribuição normal, calcular e interpretar a 2ª e a 3ª faixa de dispersão através de da tabela de áreas. Como se chega aos valores 95,44% e 99,74%? � � Uma variável aleatória é normalmente distribuída com média e variância . Qual a probabilidade desta variável assumir um valor: Entre 67 e 71; Entre 62 e 70; Entre 69 e 73; Abaixo de 60; Acima de 65. � Um estudo das estaturas dos alunos da Universidade “X”, mostrou uma distribuição normal com média de 172 cm e desvio padrão de 5 cm. Qual é a porcentagem dos alunos com estaturas : Entre 167 e 177 cm; Entre 161 e 174 cm; Acima de 180 cm; Abaixo de 175 cm; � Se a variável x admite distribuição normal com média 30 e variância 9, calcule: ; ; ; . � Seja uma distribuição normal com parâmetros , determinar: ; ; . Se a altura média dos 600 estudantes de uma universidade é 172 cm e a variância 49 cm2, qual é a probabilidade e o numero de estudantes com altura entre 160 cm e 170 cm. Com base no problema anterior, qual é a altura que separa os 40 % dos alunos mais baixos? � Determine os valores de z que correspondem as seguintes áreas (probabilidades) Área à direita de z é 0,0505; Área à esquerda de z é 35,20 %; Área à esquerda de z é 80,51 %; Área entre –z e z é 0,9544; Área à direita de z é 20 %; Área à direita de z é 70 %; Área entre –z e z é 45 %. � Seja x a variável aleatória que representa os diâmetros dos parafusos produzidos por certa máquina. Vamos supor que essa variável tenha distribuição normal com média = 2 cm e desvio padrão = 0,04 cm. Qual a probabilidade de um parafuso ter o diâmetro com valor entre 2 e 2,05 cm ? Resposta: P (0 < Z < 1,25 ) = 0,3944 ou 39,44 %, assim a probabilidade de um certo parafuso apresentar um diâmetro entre a média = 2cm e x = 2,05 cm é de 39,44 %. � Determine as probabilidades: a) P(-1,25 < Z < 0) = b) P(-0,5 < Z < 1,48) = c) P(0,8 < Z < 1,23) = d) P(-1,25 < Z < -1,20) = e) P( Z < 0,92) = f) P(Z > 0,6) = � Os salários dos bancários são distribuídos normalmente, em torno da média R$ 10.000,00, com desvio padrão de R$ 800,00. Calcule a probabilidade de um bancário ter o salário situado entre R$ 9.800,00 e R$ 10.400,00. R: 29,02 % � Um teste padronizado de escolaridade tem distribuição normal com média = 100 e desvio padrão = 10. Determine a probabilidade de um aluno submetido ao teste ter nota : maior que 120 maior que 80 entre 85 e 115 maior que 100 � Em uma população de indivíduos adultos de sexo masculino, cuja estatura média é 1,70 m e desvio padrão é 0,08 m, determinar: Qual é o intervalo de alturas em que 95% da população está compreendido? Qual a probabilidade de um indivíduo apresentar estatura entre 1,60 e 1,82 m? � INFERÊNCIA ESTATÍSTICA Estimação de Parâmetros Populacionais Testes de Hipóteses Tendo em vista que o objetivo da inferência estatística é obter informações referentes a uma população em estudo, através de resultados obtidos na observação de uma ou mais amostras extraídas dessa população, os resultados amostrais serão tomados como resultados válidos para a população estudada. Como resultados de amostras estão sujeitos a variações, por exemplo, duas amostras diferentes, extraídas da mesma população, podem apresentar, por ex., médias diferentes, a passagem de um resultado amostral para um populacional exige cuidados. Assim, as técnicas de inferência são elaboradas com base nas distribuições de probabilidade das variáveis estudadas na população. Estimação de Parâmetros Populacionais Estimar significa calcular o valor de medidas referentes a uma população, tais como: média populacional ( ( ), variância ( (2 ) ou desvio padrão (( ), denominadas parâmetros populacionais. Para calcular o valor desses parâmetros a partir de valores obtidos na amostra, pode-se utilizar dois tipos de estimação: por ponto e por intervalo. Estimação por ponto: para estimar um parâmetro, é utilizado um único número real determinado a partir dos dados amostrais. Por exemplo, a média de uma amostra é uma estimativa por ponto da média populacional ( e portanto, um estimador do parâmetros (.. A tabela abaixo apresenta os estimadores, freqüentemente utilizados por estatísticos, na estimação por ponto : parâmetro estimador média ( Variância (2 s2 Desvio padrão ( s proporção p OBS: numerosos têm sido os critérios utilizados por estatísticos para escolher estimadores apropriados para estimar os parâmetros populacionais, com base em dados amostrais. É de conhecimento que tais estimativas dificilmente coincidem com o verdadeiro valor do parâmetro populacional, portanto é mais conveniente estimar os parâmetros por meio de intervalos. Estimação por intervalo: quando se estabelecem limites ao redor do parâmetro em estudo (um valor mínimo e um valor máximo), de modo que, baseado em dados amostrais e com dada probabilidade de (1-()% (geralmente igual a 90%, 95% ou 99%) pode-se afirmar que o verdadeiro valor do parâmetro da população está contido nesse intervalo. Esses limites são chamados intervalos ou limites de confiança. OBS 1: quando se constrói um intervalo de confiança e se estabelece uma probabilidade de (1-()%= 95% ou 0,95, por exemplo, significa que o risco de erro de inferência estatística é de ( = 5% = 0,05, ou seja, existe uma probabilidade de 95% de que o intervalo contém o parâmetro populacional em estudo e 5% de probabilidade de que o intervalo não contém o parâmetro em estudo. OBS 2: Sabe-se que na distribuição normal, existe uma relação entre valores simétricos do desvio padrão ao redor da média e a probabilidade associada na área sob a curva delimitada por esses valores dos desvios padrões. Por exemplo: a probabilidade de que as observações de uma amostra se situem no intervalo é de 95,44%. 95,44 % � Estimação da Média Populacional quando a é Conhecida O procedimento para estimar a média ( de uma população, começa por calcular a média amostral , de uma amostra aleatória retirada dessa população. Para facilitar a compreensão, inicialmente vamos supor que conhecemos o valor da média da população ( . Em geral, o valor da média da amostra não coincide com o valor da média da população, ou seja: Erro de estimativa ( A distância entre o verdadeiro valor da média ( e o valor da média amostral , denominada erro de estimativa, pode ser medida a partir de qualquer um dos dois valores. Como o parâmetro da população é desconhecido, utiliza-se o valor da amostra para estimar o parâmetro da população. Assim, o valor da média de uma amostra retirada de uma população é aceita como o valor inicial da média dessa população. Intervalo de Confiança para a Média Populacional quando é Conhecida Se uma variável aleatória X de uma população de tamanho N, tem média ( e variância (2, todas as possíveis amostras de tamanho n (30, retiradas dessa população podem apresentar médias com valores diferentes. No entanto, a média de todas as médias amostrais, é o próprio valor da média da população, ou seja, = (, e a distribuição das médias amostrais segue uma distribuição normal, não importando como se distribuem os dados na população original. Porém, para n ( 30, a distribuição das médias amostrais segue uma distribuição normal somente se, a população for normalmente distribuída. Quanto a variância das médias amostrais ( ): a) para populações infinitas: e portanto, o desvio padrão das médias amostrais é: . b) para populações finitas: = e . Assim, a distribuição das médias amostrais: para populações infinitas será normalmente distribuída, com média = ( e variância = , ou seja: para populações finitas será normalmente distribuída, com média = ( e variância = , ou seja: A distribuição amostral das médias segue uma curva normal e portanto, a área total sob a curva é igual a 1. Considerando que para transformar uma distribuição X na distribuição normal z utiliza-se a mudança de variável , a variável normal padronizada de será: Assim, fixando o nível de confiança (1-(), tem-se: 1-( - 0 Ou seja: P ( - < z < ) = 1- ( Substituindo z, tem-se: P (- < < ) = 1- (. → P(- . < - ( < . ) = 1 - ( Tem-se que o intervalo de confiança para a média populacional, conhecido (2 é dado por: P( � A duração de vida de uma peça de equipamentos é tal que ( = 5 horas. Foram amostradas aleatoriamente 100 dessas peças, obtendo-se média de 500 horas. Construir um intervalo de confiança para a verdadeira duração média da peça com um nível de 95% de confiança. ( = 5 hs - = 500 hs - n = 100 - 1- (= 0,95 ( = 0,05 ( 1,96 pois 0,95 0,025 0,475 0,475 0,025 -1,96 0 1,96 P( Como não se conhece o tamanho N da população, tem-se um caso de população infinita, então: . Logo: P( P(500 – 1,96. P(499,02 < ( < 500,98) = 95% Interpretação: o intervalo (499,02;500,98) contém a duração média da peça com 95% de confiança., ou seja, a duração média da peça é de 499,02 horas a 500,98 horas. � OBS: Considerando como população no problema anterior a produção de 1.000 peças, determine o intervalo para a média populacional. Como N = 1.000, tem-se população finita, logo: . Então: N = 1.000 - ( = 5 hs - = 500 hs - n = 100 - 1- (= 0,95 x 100 = 95% - ( = 0,05 P( P( em que: 1,96 P(500– 1,96. Logo: P(499,07<(<500,93) = 95% contém a duração média das 1000 peças com 95% de confiança. � De uma população normal X, com (2 = 9, tiramos uma amostra de 25 observações, obtendo = 6,08. Determine o intervalo de confiança para a média da população com um nível de 90% de confiança. ( = 3 - = 6,08 - n = 25 e população normal - 1- (= 0,90 x 100 = 90% ( = 0,10 ( 1,64 pois 0,90 0,45 0,45 -1,64 0 1,64 P( Como não se conhece o tamanho N da população, tem-se um caso de população infinita, então: . Logo: P( P(6,28 – 1,64. P(5,096 < ( < 7,064) = 90% Interpretação: o intervalo (5,096;7,064) contém a média com 90% de confiança., ou seja, a média é de 5,096 a 7,064. � Intervalo de Confiança para a Média Populacional quando não é Conhecida O processo é semelhante, entretanto como não se conhece a variância (2 e conseqüentemente o desvio padrão ( da população, substituí-se ( por s (desvio padrão da amostra) e tem-se dois casos a considerar: 1º) Se o tamanho da amostra for n ( 30 fica garantido o uso da distribuição normal e assim o intervalo de confiança para a média será dado por: P( (conforme Exemplo resolvido acima) 2º) Se o tamanho da amostra for n ( 30 utiliza-se uma nova distribuição, denominada distribuição t de Student. Ou seja, ao substituir por na fórmula: z fica definida a variável t, denominada variável com distribuição t de Student, dada por: t com n –1= ( graus de liberdade Fixando um nível de confiança (1-(), tem-se: ( = n-1 1-( 0 Assim: P( � OBS: A distribuição t foi descoberta por Gosset e publicada em trabalho assinado com o pseudônimo de Student. O gráfico é simétrico em relação a média e assemelha-se a distribuição normal padronizada. Entretanto é mais disperso que a distribuição normal padronizada. Por exemplo: Distribuição z Distribuição t À medida que o número de elementos n da amostra for aumentado, a distribuição t se aproxima de z, o que pode ser verificado nas tabelas correspondentes. O valor de t é dado através de tabela ( tabela 2). A amostra: 9, 8, 12, 7, 9, 6, 11, 6, 10, 9 foi extraída de uma população normal. Construa um intervalo de confiança para a média ao nível de 95%. Observe que a amostra foi retirada de uma população normal infinita. n =10 < 30 logo usamos distribuição t ( ( s2 = ( s = 2 Como 1-( = 95% ( ( = 5% ou 0,05. graus de liberdade e ( = n-1 = 10 -1 = 9, tem-se consultando a tabela t de Student: ( =9 95% 2,5% 2,5% -2,2622 2,2622 Logo, substituindo os valores na fórmula, tem-se: P( P Assim, o intervalo [7,27;10,13] contém a verdadeira média com 95% de confiança. OBS: Para os casos de populações finitas, usa-se: . Assim, o intervalo será dado por: P( � Testes de Hipóteses Os trabalhos científicos são realizados com objetivos bem estabelecidos, expressos através de afirmações que os pesquisadores desejam verificar. Tais afirmações provisórias, denominadas hipóteses, podem ser aceitas ou rejeitadas a partir de informações obtidas através de dados amostrais. Considerando que, na maioria das vezes, os dados provêm de amostras, a decisão final a respeito de uma hipótese científica está associada a uma probabilidade de erro. Assim, teste de hipóteses é um procedimento estatístico pelo qual se aceita ou rejeita uma hipótese estatística sobre o valor de um parâmetro populacional, baseado em informações amostrais e associando à conclusão a um risco máximo de erro. Os testes de hipóteses dividem-se em dois grupos: - Testes de hipóteses paramétricos: são aqueles que se referem as hipóteses sobre os parâmetros populacionais e dependem de pressuposições sobre a forma da distribuição da população – geralmente exige-se populações com distribuição normal. - Testes de hipóteses não-paramétricos: geralmente envolvem hipóteses que não dependem de pressuposições acerca da forma da distribuição da população. Esses testes são recomendados para análises de resultados de experimentos com dados emparelhados – do tipo antes-depois, para verificar se variáveis são independentes ou relacionadas, e também para o tratamento estatístico de dados oriundos de tabelas de dupla entrada (avaliar a correlação entre variáveis). São os indicados quando a variável é qualitativa. Conceitos Iniciais: Hipóteses estatísticas: suposições feitas acerca de parâmetros populacionais (média (, desvio padrão (, proporção p, etc...). Uma hipótese estatística deve explicitar e comparar parâmetros, afirmando igualdade ou não entre eles. São de dois tipos: a) Hipótese nula (H0): estabelece a ausência de diferença entre os parâmetros da população amostrada ( (A, (A, pA) e da população tomada como referência ((0, (0, p0). É sempre a primeira a ser formulada. Por exemplo: se um pesquisador deseja testar se a altura média da população brasileira é de 1,65m (1,65m é o parâmetro tomado como referência = (0), ele deve formular a hipótese: H0: (A = (0 ou H0: (A = 1,65m (a média da população amostrada é igual a média tomada como referência igual a 1,65 m). b) Hipótese alternativa (H1): é qualquer hipótese diferente da hipótese nula. Nas aplicações dos testes, geralmente a hipótese nula é expressa com o sinal de igualdade, enquanto as hipóteses alternativas são expressas com os sinais de desigualdades: >, < ou . Por exemplo, a hipótese alternativa para a altura média da população pode ser: H1: (A 1,65m (teste do tipo bilateral) ou H1: (A > 1,65m (teste do tipo unilateral direito) ou H1: (A < 1,65 m (teste do tipo unilateral esquerdo). OBS: como as hipóteses nula e alternativa estão sempre em contraposição, então: Aceitar H0 significa rejeitar H1 e Rejeitar H0 significa aceitar H1 Erros de decisão: ao tomar a decisão de aceitar ou rejeitar a hipótese H0, podem ocorrer dois tipos de erros: o erro do tipo I e o erro do tipo II. Erro do tipo I: é o erro cometido quando se rejeita H0, sendo que a mesma é verdadeira. A probabilidade de ocorrência desse erro é representada por (. O valor de ( pode ser fixado pelo pesquisador. Erro do tipo II: é o erro cometido quando se aceita a hipótese H0, sendo que a mesma é falsa. A probabilidade de ocorrência desse erro é representada por (. A determinação de ( é mais complexa, pois há necessidade de se conhecer o valor do parâmetro na população amostrada. Assim, ela não é realizada, é mais cômodo rejeitar a hipótese H0 do que aceitá-la. Nível de significância: É definido como a probabilidade máxima a qual se sujeita cometer o erro tipo I. É representada por (. O valor de ( deve ser fixado pelo pesquisador. Na prática é usual a utilização de ( = 0,05 (5%) ou ( = 0,01 (1%). Como os testes estudados geralmente fixam apenas o nível de significância (, são mais conhecidos como testes de significância. Estatística do teste: é calculada com base numa amostra aleatória obtida da população em estudo. Para cada tipo de teste escolhe-se a estatística adequada. Pode ser utilizado o teste z, o teste t, o teste F e o teste qui-quadrado (2 e outros. Região crítica ou de rejeição (RR) : é formada por todos os valores da estatística do teste que conduzem à rejeição da hipótese nula H0. Se H1: (A (0 o teste é do tipo bilateral e há duas RR, uma na cauda esquerda e outra na cauda direita da curva de probabilidade. Se H1: (A > (0 o teste é do tipo unilateral direito e a RR fica na cauda direita da curva; se H1: (A < (0 , o teste é do tipo unilateral esquerdo e a RR fica na cauda esquerda da curva. Para H1: (A (0 Para H1: (A > (0 Para H1: (A < (0 RR RR (/2 RA (/2 RR RA ( 1-( RR ( RA 1-( Valor crítico: é o valor que delimita as regiões de rejeição de H0 e a região de aceitação de H0. Se a hipótese alternativa é do tipo , ou seja: H1: (A (0 tem-se um teste bilateral, e nesse caso tem-se dois valores críticos. Se a hipótese alternativa é do tipo > ou <, ou seja: H1: (A > (0 ou H1: (A< (0 tem-se um teste unilateral, e nesse caso tem-se apenas um valor crítico. O valor ou os valores críticos são determinados através de tabelas conforme a estatística do teste. Para H1: (A (0 Para H1: (A > (0 Para H1: (A < (0 RR RR (/2 RA (/2 -ztab +ztab RR RA ( 1-( +ztab RR ( RA 1-( -ztab Tomada de decisão: compara o valor da estatística calculada com base na amostra e o valor crítico teórico adequado. � Esquema geral de um teste de significância: 1º) Formula-se a hipótese nula H0 2º) Formula-se a hipótese alternativa H1 adequada ao problema (teste unilateral esquerdo, unilateral direito ou bilateral) 3º) Fixa-se o nível de significância ( (geralmente 5% ou 1%) 4º) Levanta-se uma amostra de tamanho n e calcula-se uma estimativa do parâmetro populacional em estudo: para a média populacional (, s2 para (2, para p, etc... 5º) Escolhe-se o teste adequado e definem-se as regiões de rejeição (RR) e aceitação (RA) de H0 através da determinação do valor crítico observado na tabela adequada. 6º) Calcula-se a estatística do teste 7º) Compara-se a estatística do teste com o valor crítico e toma-se a decisão de aceitar ou rejeitar H0 3.2.) Tipos de testes Teste de significância para uma amostra: Quando o pesquisador deseja testar se os resultados de um experimento estão de acordo com padrões existentes. Pode ser realizado para testar: testar se a média de uma população amostrada ((A) é igual a média populacional tomada como referência ((0). Neste caso, testa-se: H0: (A = (0 e H1: (A (0 ou H1: (A > (0 ou H1: (A < (0 ; Caso se conheça a variância (2 da população em estudo e a população tenha ou não distribuição normal, utiliza-se o teste z não importando o tamanho da amostra. Caso não se conheça a variância (2 da população em estudo, há dois testes estatísticos a serem utilizados. Ou seja, para amostras grandes, n 30, população normal ou não, utiliza-se o teste z e como estimativa para (2. Para amostras pequenas, n< 30, a população de origem da amostra deve ser normalmente distribuída e utiliza-se o teste t (de Student). Assim: Condições Tamanho da amostra Hipóteses Tipo de teste RA e RR de H0 Teste (2 conhecido qualquer H0: (A = (0 H1: (A (0 bilateral RR RR (/2 RA (/2 1-( -ztab +ztab população normal ou não H0: (A = (0 H1: (A > (0 Unilateral direito RR RA ( 1-( +ztab H0: (A = (0 H1: (A <(0 Unilateral esquerdo RR ( RA 1-( -ztab (2 desconhe- cido população normal ou não usa-se s como estimativa de n 30 H0: (A = (0 H1:(A (0 bilateral RR RR (/2 RA (/2 1-( -ztab +ztab H0: (A = (0 H1: (A > (0 Unilateral direito RR RA ( 1-( +ztab H0: (A = (0 H1: (A <(0 Unilateral esquerdo RR ( RA 1-( -ztab população normal usa-se s como estimativa de n<30 H0: (A = (0 H1:(A (0 bilateral RR RR (/2 RA (/2 1-( -ttab +ttab H0: (A = (0 H1: (A > (0 Unilateral direito RR RA ( 1-( +ttab H0: (A = (0 H1: (A <(0 Unilateral esquerdo RR ( RA 1-( -ttab OBS: 1) a) para populações infinitas: ou (N desconhecido) b) para populações finitas: ou (N conhecido) � EXERCÍCIOS – exemplos: (CALLEGARI-JAQUES, 2003, p.54) Suponha que um pesquisador deseje verificar se o medicamento M, utilizado no tratamento de determinado sintoma, apresenta, como efeito colateral, uma alteração nos níveis de pressão arterial sistólica (PAS). Como se trata de um medicamento de uso comum, o investigador não tem dificuldades em localizar pessoas que estão tomando a droga. Seleciona, então, ao acaso, 60 indivíduos adultos, certificando-se de que suas pressões arteriais eram normais antes de serem medicados. O pesquisador mede a pressão arterial nessas pessoas após elas terem ingerido o medicamento durante igual período de tempo, e obtém a média de 135 mmHg. Um extenso estudo realizado em adultos do Rio grande do Sul mostrou que a pressão arterial sistólica tem, neste estado, média igual a 128 mmHg, com desvio padrão de 24 mmHg (Achutti e colaboradores, 1985). Com base nessas informações, pode o pesquisador concluir que o medicamento M altera a pressão arterial dos pacientes que o ingerem? Admita ( = 0,05. Solução: n=60 indivíduos, ( = 0,05, = 135 mmHg e ( = 24 mmHg 1º passo: H0 : (A = 128 mmHg (média da população amostrada é igual a média tomada como referência igual a 128 mmHg) 2º passo: H1 : (A 128 mmHg (média da população amostrada é diferente da média tomada como referência igual a 128 mmHg) ( teste bilateral 3º passo: ( = 0,05 ( valor dado no problema) 4º passo: n = 60 indivíduos > 30 e = 135 mmHg Como N é desconhecido, mas ( = 24 mmHg ( 5º passo: como H1 : (A 128 mmHg, o teste é bilateral ( RA corresponde a 0,95 (95%) e RR corresponde a 0,05 (5%). Sendo o teste bilateral, tem-se duas RR, logo cada RR corresponde a 0,025 (2,5%) e tem-se dois valores críticos. Como n > 30, (2 conhecido utiliza-se o teste z ( os valores críticos serão -ztab = -1,96 e +ztab.= 1,96. Então: RR RA RR -1,96 0 +1,96 6º passo: cálculo da estatística z ou zcalc : ( ( zcalc.= 2,26 7º passo: como zcalc = 2,26 > ztab = 1,96, a estatística do teste está na RR da cauda direita, logo rejeita-se H0 e conclui-se que a média amostral difere significativamente da média tomada como referência, assim, a PAS dos indivíduos tratados com o medicamento M é mais elevada do que a PAS da população de pessoas não tratadas. � Suponha que um pesquisador deseje verificar se o medicamento M, utilizado no tratamento de determinado sintoma, apresenta, como efeito colateral, uma alteração nos níveis de pressão arterial sistólica (PAS). Como se trata de um medicamento de uso comum, o investigador não tem dificuldades em localizar pessoas que estão tomando a droga. Seleciona, então, ao acaso, 60 indivíduos adultos, certificando-se de que suas pressões arteriais eram normais antes de serem medicados. O pesquisador mede a pressão arterial nessas pessoas após elas terem ingerido o medicamento durante igual período de tempo, e obtém a média de 130 mmHg. Um extenso estudo realizado em adultos do Rio grande do Sul mostrou que a pressão arterial sistólica tem, neste estado, média igual a 124 mmHg, com desvio padrão de 18 mmHg (Achutti e colaboradores, 1985). Com base nessas informações, pode o pesquisador concluir que o medicamento M altera a pressão arterial dos pacientes que o ingerem? Admita ( = 0,01. � (MARQUES, 2004, p. 13) Uma amostra das idades (em anos) de 40 trabalhadores que apresentam perdas auditivas leves resultou nos seguintes valores: 30 32 45 40 25 28 30 35 32 40 44 25 28 32 34 36 43 48 45 34 28 26 38 40 30 32 34 26 25 30 38 42 45 30 30 33 34 48 45 40 Pode-se afirmar, ao nível de significância de 1%, que a idade média dos trabalhadores da população de origem desta amostra é inferior a 40 anos: Solução: n = 40 trabalhadores, ( = 0,01 e ( desconhecido 1º passo: H0 : (A = 40 anos (média da população amostrada é igual a média tomada como referência igual a 40 anos) 2º passo: H1 : (A < 40 anos (média da população amostrada é menor que a média tomada como referência igual a 40 anos) ( teste unilateral esquerdo 3º passo: ( = 0,01 ( valor dado no problema) 4º passo: n=40 trabalhadores > 30 e (2 desconhecido( calcula-se como estimativa de (A e como estimativa de ( = = e s = = 6,89 anos Como N é desconhecido ( 5º passo: como H1: (A < 40 anos o teste é unilateral esquerdo ( RA corresponde a 0,99 (99%) e RR a 0,01 (1%). Sendo o teste unilateral esquerdo, tem-se a RR na cauda esquerda da curva e um valor crítico. Como n > 30, (2 desconhecido utiliza-se o teste z ( o valor crítico será ztab.= -2,3263 RR 0,99 0,01 RA 0,49 0,50 -2,3263 0 6º passo: cálculo da estatística z ou zcalc : ( ( zcalc.= -4,5872 7º passo: como zcalc = -4,5872 < ztab = -2,3263, a estatística do teste está na RR conclui-se que ao nível de significância de 1%, rejeita-se H0, ou seja, a idade média da população é significativamente inferior a 40 anos. � Uma amostra das idades (em anos) de 40 trabalhadores que apresentam perdas auditivas leves resultou nos seguintes valores: 30 32 45 40 25 28 30 35 32 40 44 25 28 32 34 36 43 48 45 34 28 26 38 40 30 32 34 26 25 30 38 42 45 30 30 33 34 48 45 40 Pode-se afirmar, ao nível de significância de 5%, que a idade média dos trabalhadores da população de origem desta amostra é inferior a 35 anos: � (MARQUES, 2004, p. 10) De acordo com pesquisas realizadas, sabe-se que o tempo médio de reação a determinado estímulo auditivo é 5 segundos. Um pesquisador afirma que, atualmente, este tempo médio é superior a 5 segundos. Uma amostra de 12 pacientes submetidos ao estímulo resultou nos tempos: 5,2; 5,0; 4,8; 5,6; 4,7; 5,3; 5,4; 4,7; 4,9; 5,1 e 5,4 segundos. Sabendo-se que os tempos de reação seguem uma distribuição normal, pode-se dizer, num nível de significância de 0,05 (5%) que a afirmação do pesquisador está correta? Solução: n=12 pacientes, ( = 0,05 e ( é desconhecido, então: 1º passo: H0 : (A = 5s (média da população amostrada é igual a média tomada como referência igual a 5 segundos) 2º passo: H1 : (A > 5s (média da população amostrada é maior que a média tomada como referência igual a 5 segundos) ( teste unilateral direito 3º passo: ( = 0,05 (valor dado no problema) 4º passo: n=12 pacientes < 30 e (2 desconhecido( calcula-se como estimativa de (A e como estimativa de ( = = 5,1s e s = = 0,33s Como N é desconhecido ( 5º passo: como H1: (A > 5s o teste é unilateral direito ( RA corresponde a 0,95 (95%) e RR a 0,05 (5%). Sendo o teste unilateral direito, tem-se a RR na cauda direita da curva e um valor crítico. Como n < 30, (2 desconhecido e sabendo-se que os tempos de reação seguem uma distribuição normal utiliza-se o teste t de Student. ( o valor crítico será t tab.= 1,7959 RA 0,95 RR 0,05 0,50 0,45 0 1,7959 6º passo: cálculo da estatística t de Student ou tcalc : ( ( tcalc.= 1,0493 7º passo: como tcalc = 1,0493 < ttab = 1,7959, a estatística do teste está na RA, e conclui-se que o tempo médio de reação a determinado estímulo é igual a 5s. Logo a afirmação do pesquisador é INCORRETA. � Uma fábrica anuncia que o índice de nicotina dos cigarros da marca X apresenta-se abaixo de 26 mg por cigarro. Um laboratório realiza 10 análises do índice obtendo: 26, 24, 23, 22, 28, 25, 27, 26, 28, 24. Sabe-se que o índice de nicotina dos cigarros da marca X se distribui normalmente com variância 5,36 mg. Pode-se aceitar a afirmação do fabricante, ao nível de 5%? � Os registros dos últimos anos de um colégio atestam para os calouros admitidos uma nota média 115 (teste vocacional). Para testar a hipótese de que a média de uma nova turma é a mesma das turmas anteriores, retirou-se, ao acaso, uma amostra de 20 notas, obtendo-se média 118 e desvio padrão 20. Admita ( = 5%. � Está sendo proposta uma dieta que visa reduzir o nível de colesterol sanguíneo. De uma população em que o nível médio é 262 mg/ml, e o desvio padrão, 70 mg/ml, é selecionada uma amostra de 20 pessoas que se submetem a esta dieta. Ao final de certo tempo, o nível de colesterol é medido nessas pessoas e a média é 233 mg/ml. Pode-se afirmar que a dieta produziu realmente uma redução no colesterol sanguíneo (( = 0,05) ou a diferença deve ser atribuída ao acaso? � (MARQUES, 2004, p. 33) Uma amostra dos pesos ao nascer de 40 nascidos vivos resultou nos valores: 3,725 3,400 2,850 2,700 2,650 4,100 3,700 3,300 3,650 2,950 2,400 3,150 2,980 3,250 3,100 3,240 2,680 2,500 4,050 3,800 3,100 3,300 3,260 2,500 3,100 2,050 3,100 2,960 3,050 2,650 3,950 3,120 2,700 2,300 3,150 3,000 2,200 2,400 3,020 3,700 Com base nessa amostra, teste a afirmação de que o peso médio ao nascer de nascidos vivos é superior a 3,200 kg. Utilizar ( = 5%. � Um certo tipo de rato apresenta, nos três primeiros meses de vida, um ganho médio de peso de 58 g. Uma amostra de 10 ratos foi alimentada desde o nascimento até a idade de 3 meses com uma ração especial, e o ganho de peso de cada rato foi: 55, 58, 60, 62, 65, 67, 54, 64, 62 e 68. Há razões para crer, ao nível de 5%, que a ração especial aumenta o peso nos 3 primeiros meses de vida? � Testar se a proporção de ocorrência de determinado evento (pA) é igual a determinado valor especificado ( p0 ). Neste caso testa-se: H0: pA = p0 (proporção amostrada é igual a proporção tomada como referência) e H1: pA p0 ou H1: pA > p0 ou H1: pA < p0 ; Sendo n o tamanho da amostra e p0 o valor numérico da proporção a ser testada, deverão ser satisfeitas as seguintes condições: n.p0 5 e n.(1-p0) 5, para que a distribuição das freqüências relativas seja normal e o teste z seja válido. Assim: Condições Hipóteses Tipo de teste RA e RR de H0 Teste n.p0 5 e n.(1-p0) 5 H0: pA = p0 H1: pA p0 bilateral RR 1-α RR (/2 RA (/2 -ztab +ztab população normal H0: pA = p0 H1: pA > p0 Unilateral direito RR RA ( 1-( +ztab +ztab z = H0: pA = p0 H1: pA <p0 Unilateral esquerdo RR RA 1-( -ztab � Um pesquisador afirma que, em certa instituição de ensino, para cada 60 crianças na faixa etária de 5 a 10 anos, mais de 3 apresentam distúrbios da linguagem ou da fala. Para testar a afirmação do pesquisador, foi utilizada uma amostra aleatória de 200 crianças desta instituição e constatou-se a existência do problema em 15 delas. Ao nível de significância de 5%, pode-se aceitar a afirmação do pesquisador? Solução: n = 200 crianças, ( = 0,05, p0 = e pA = 1º passo: H0 : pA = 0,05 (proporção da população amostrada é igual a proporção tomada como referência pelo pesquisador igual p0= 0,05) 2º passo: H1 : pA > 0,05 (proporção da população amostrada é superior a proporção tomada como referência pelo pesquisador igual a p0= 0,05) ( teste unilateral direito 3º passo: ( = 0,05 (valor dado no problema) 4º passo: n = 200 crianças ( n.p0 = 200 0,05 = 10 > 5 e n.(1-p0) = 200.(1-0,05) = 190 > 5 ( tem-se distribuição normalmente distribuída. Logo: 5º passo: como H1: pA > 0,05, o teste é unilateral à direita ( RA corresponde a 0,95 (95%) e RR corresponde a 0,05 (5%). Sendo o teste unilateral direito, tem-se a RR na cauda direita da curva e um valor crítico, obtido através do teste z ( o valor crítico será ztab = 1,96. RA RR 0,95 0,05 0,50 0,45 0 +1,96 6º passo: cálculo da estatística z ou zcalc : zcalc. = ( ( zcalc.= 1,6234 7º passo: como zcalc = 1,6234 < ztab = 1,96, a estatística do teste está na RA, logo, aceita-se H0 e conclui-se que a proporção de crianças com distúrbios da linguagem ou da fala não é superior a 0,05. A afirmação do pesquisador está incorreta. Um fabricante de droga medicinal afirma que ela é 90% eficaz na cura de uma alergia, em um determinado período. Em uma amostra de 200 pacientes, a droga curou 150 pessoas. Testar ao nível de 1% se a pretensão do fabricante é legítima. � As condições de mortalidade de uma região são tais que a proporção de nascidos que sobrevivem até 60 anos é de 60%. Testar essa hipótese, ao nível de 5%, se em 1000 nascimentos amostrados aleatoriamente, verificaram-se 530 sobreviventes até 60 anos. � Com base nos dados do Highway Loss Data Institute, em 821 acidentes com carros equipados com air-bag, 46 resultaram em hospitalizações. Teste a afirmação, com nível de significância de 0,01, de que, em casos de carros equipados com air-bag, a taxa de hospitalização é inferior a 7,8%. � Em uma pesquisa envolvendo crianças menores de 7 anos, com distúrbio da linguagem ou da fala verificou-se 40% com diagnóstico de dislalia. Sabendo-se que a amostra aleatória pesquisada foi de 35 crianças, pode-se afirmar, ao nível de significância de 5% que em toda a população de crianças menores de 7 anos que apresentam distúrbio da linguagem ou da fala, o percentual com diagnóstico de dislalia deve ser superior a 38%? � testar se as freqüências absolutas observadas em uma amostra diferem significativamente das freqüências absolutas esperadas (variáveis qualitativas). Neste caso, testa-se: H0: não há diferença significativa entre a distribuição de freqüências observadas e esperadas H1: há diferença significativa entre a distribuição de freqüências observadas e esperadas Deve ser usado exclusivamente para variáveis qualitativas nominais ou ordinais com observações independentes (trata-se de um teste não-paramétrico). Quando o nº de categorias (k) da variável utilizada for igual a 2, cada freqüência esperada ou teórica (Ei) não deve ser inferior a 5. Quando o nº de categorias (k) for superior a 2, utilizar o teste somente se menos de 20% das freqüências esperadas ou teóricas (Ei) forem inferiores a 5, não sendo qualquer uma delas inferior a 1. Uma forma de aumentar as freqüências esperadas consiste na combinação de categorias adjacentes, desde que tenha sentido. Nesse caso, utiliza-se o teste (2 qui-quadrado ou teste de aderência. A forma da distribuição (2 depende do nº de categorias que compõe a variável qualitativa. Via de regra ela é assimétrica, começando no zero e apresentando valores positivos. A assimetria diminui à medida que aumenta o nº de categorias, as quais determinam o nº de graus de liberdade. Para simplificar, a distribuição (2 será apresentada por meio de uma curva assimétrica geral, sem a preocupação de detalhar sua forma conforme o nº de graus de liberdade. A região de significância (RR) é unilateral e está localizada na extremidade direita da curva. O valor crítico (2 para o nível de significância desejado deve ser procurado tabela (2. (tabela 3) Por exemplo: admita k = 10 ( (=k-1 = 9 e ( = 1% ( = 0,05 Procedimento para consulta na tabela da distribuição (2 : ( ( 0,10 0,05 0,025 0,01 0,005 1 2 : 9 21,6660 : Assim: Condições Hipóteses Tipo de teste RA e RR de H0 Teste Variáveis qualitativas nominais ou ordinais Se k = 2 ( Ei >5 Se k > 2 ( no mínimo 20% das Ei entre 1 e 5 H0: não há H1: há ( 1-( RR RA Unilateral direito = EXERCÍCIOS EX 1: Sabe-se de estudos realizados em um longo período de tempo que o percentual esperado de deficientes auditivos em certa comunidade é de 4% com grau de perda auditiva leve, 3% com perda moderada, 36% com perda severa e 57% com perda profunda. Uma amostra de 200 deficientes foi coletada atualmente na comunidade, resultando 10 casos com grau de perda auditiva leve, 10 com perda moderada, 80 com perda severa e 100 com perda profunda. Ao nível de significância de 1%, pode-se dizer que os resultados dessa nova pesquisa concordam com os valores esperados? Solução: n = 200 crianças, ( = 0,01, k=4 ( 4 categorias: leve, moderada, severa e profunda) 1º passo: H0: não há diferença significativa entre a distribuição de freqüências observadas e esperadas de deficientes auditivos segundo os graus de perda. 2º passo: H1: há diferença significativa entre a distribuição de freqüências observadas e esperadas de deficientes auditivos segundo os graus de perda. 3º passo: ( = 0,01 (valor dado no problema) 4º passo: k = 4 então gl = k-1 = 4-1 = 3 >2. calcula-se as Ei para verificar se são todas >5 ou se no mínimo 20% estão entre 1 e 5. caso positivo, utiliza-se a distribuição qui quadrado (2 . categorias Oi Ei Leve 10 0,04 200 = 8 Moderada 10 0,03 200 = 6 Severa 80 0,36 200 = 72 profunda 100 0,57 200 = 114 TOTAL 200 200 5º passo: Como todas as Ei são >5, não há restrição ao uso da distribuição qui quadrado ( a região de RR de H0 corresponde a 0,01 (1%) e a RA de H0 corresponde a 0,99 (99%) e o valor crítico obtido através do teste será = 11,3449 RA RR 0,99 0,01 0,50 0,49 0 11,3449 6º passo: cálculo da estatística (2 ou : = ( = 7º passo: como = 5,7749 < = 11,3449, a estatística do teste está na RA, logo, aceita-se H0 e conclui-se que não há diferença significativa entre a distribuição de freqüências observadas e esperadas. EXERCÍCIOS: 1) (MARQUES, 2004, p. 34) Através de pesquisas realizadas durante um longo período de tempo sabe-se que os responsáveis pelo encaminhamento das crianças ao atendimento fonoaudiológico são: profissionais da saúde, 73% dos casos, família em 13% dos casos, escola em 7% dos casos e amigos em 7% dos casos. Em uma pesquisa recente, envolvendo uma amostra de 100 crianças, verificou-se que os resultados foram: 78% (profissionais da saúde) , 15% (família), 4% (escola) e 3% (amigos). Pode-se afirmar, ao nível de significância de 1%, que os resultados dessa nova pesquisa concordam com os valores esperados? 2) (MARTINS, 2002, p. 258) deseja-se testar se o número de acidentes em uma rodovia se distribui igualmente pelos dias da semana. Para tanto, foram levantados os seguintes dados: Dia da semana Dom. Seg. Ter. Qua. Qui. Sex. Sáb. Número de acidentes 33 26 21 22 17 20 36 Adotar α = 5%. Respostas: � Teste de significância para duas amostras: Usados quando o pesquisador deseja determinar se existe diferença significativa entre dois tratamentos ou duas metodologias (ex: um novo tratamento e o tratamento convencional para verificar a eficácia ou não do mesmo, ou um nova metodologia de ensino e a metodologia existente). Pode ser realizado para testar: médias proporções variâncias teste para comparação entre duas médias 1º caso: amostras independentes 2º caso: amostras dependentes ou relacionadas 1º caso: Quando as duas amostras são independentes: Neste caso testa-se: H0: não há diferença significativa entre as duas médias populacionais μ1 e μ2, então μ1-μ2 = 0 ou μ1 = μ2 H1: há diferença significativa entre as duas médias populacionais μ1 e μ2, então μ1-μ2 0 ou μ1 μ2 Caso as amostras sejam pequenas (na prática, n<30), as populações de onde as amostras foram obtidas, com relação a variável de interesse devem ter distribuição normal. No caso de grandes amostras essa restrição não se aplica. No caso de pequenas amostras (n1 + n2 < 30) , há dois casos a considerar: 1º) variâncias populacionais (12 e (22 desconhecidas mas supostas iguais ((12 = (22) 2º) variâncias populacionais (12 e (22 desconhecidas e supostas diferentes ((12 ( (22) ( Para o caso em que as variâncias populacionais (12 e (22 são desconhecidas mas supostas iguais ((12 = (22), utiliza-se o teste t, ou seja: tcalc = em que s = e para determinar o tcrítico utiliza-se ( = n1 + n2 – 2 ( graus de liberdade) EXEMPLO: Em uma pesquisa sobre o tempo de reação a um estímulo auditivo, foram consideradas duas amostras. Uma delas constituída de 10 pacientes do sexo feminino, resultando nos seguintes tempos (em segundos): 5,3 4,5 5,7 6,2 4,8 6,8 4,5 5,0 5,3 4,9 E a outra constituída de 12 pacientes do sexo masculino, resultando nos seguintes tempos (em segundos): 4,2 3,8 3,6 5,4 3,6 4,1 5,6 4,3 4,5 5,2 3,5 3,4 Sabendo-se que os tempos de reação seguem uma distribuição normal nos dois grupos, pode-se dizer, num nível de significância de 0,05 (5%), que existe diferença significativa entre os tempos médios de reação para os dois sexos? Supor variâncias populacionais iguais. Solução: n1 = 10 pacientes do SF, n2 = 12 pacientes do SM, ( = 0,05 1º passo: H0: não há diferença significativa, na média, entre os tempos de reação para os dois grupos ( (1 = (2) 2º passo: H1: há diferença significativa, na média, entre os tempos de reação para os dois grupos ( (1 ( (2) 3º passo: ( = 0,05 (valor dado no problema) 4º passo: Para o grupo feminino: Para o grupo masculino: = = s12 = = s22 = = � 5º passo: como as amostras são pequenas ( menores de 30 elementos) e as variâncias populacionais são desconhecidas mas supostamente iguais ((12 = (22), utiliza-se o teste t. Então calcula-se o tcrítico na tabela para ( = n1 + n2 – 2 ( ( = 10+ 12 – 2 ( ( = 20, teste bilateral com ( = 0,05. Portanto: RR RA RR 0,025 0,95 0,025 -2,0860 +2,0860 6º passo: Calcula-se a estatística do teste: tcalc = em que s = Logo: s = ( s = e tcalc = ( tcalc = 7º passo: Como tcalc = 3,0931 é maior que 2,0860, cai na RR, rejeita-se H0, ou seja, existe diferença significativa, na média entre os tempos médios de reação dos grupos masculino e feminino, ao nível de significância de 5%. ( Para o caso em que as variâncias populacionais (12 e (22 são desconhecidas e supostas diferentes ((12 ( (22), também utiliza-se o teste t, porém: tcalc = e para determinar o tcrítico utiliza-se : ( = graus de liberdade = em que: w1 = e w2 = � EXEMPLO: Em uma pesquisa sobre dificuldade de aprendizagem de crianças com problemas de linguagem ou fala, trabalhou-se com dois grupos, sendo o grupo experimental constituído por 8 crianças que receberam um tratamento especial e o grupo de controle constituído por 10 crianças que receberam um tratamento padrão. Em um teste para avaliação dos dois grupos, cronometrou-se o tempo (em minutos) gasto para realização de determinada tarefa. Os resultados obtidos foram: GE: 15,4 – 15,8 – 14,8 – 16,2 – 15,0 – 14,1 – 16,4 – 15,5 GC: 15,8 – 18,0 – 14,0 – 17,8 – 19,2 – 21,3 – 15,2 – 20,5 – 15,0 – 19,2 Existe diferença significativa, ao nível de significância de 1%, entre os tempos médios para os dois grupos na realização daquela atividade. Solução: n1 = 8 crianças, n2 = 10 crianças, ( = 0,01 1º passo: H0: não há diferença significativa, na média, entre os tempos de realização da tarefa para os dois grupos ( (1 = (2) 2º passo: H1: há diferença significativa, na média, entre os tempos de realização da tarefa para os dois grupos ( (1 ( (2) 3º passo: ( = 0,01 (valor dado no problema) 4º passo: Para o GE: Para o GC: = = s12 = = s22 = = 5º passo: como as amostras são pequenas (menores que 30 elementos) e as variâncias populacionais são desconhecidas e supostamente diferentes ((12 ( (22), utiliza-se o teste t. Calcula-se o o tcrítico na tabela, para: ( = teste bilateral com ( = 0,01 Para o cálculo de ( precisamos calcular w1 = e w2 = . Então w1 = ( w1 = w2 = ( w2 = ( = ( ( = Usando a tabela para ( = 11, ( = 0,01 e teste bilateral, tem-se tcrítico= 3,1058 Portanto: RR RA RR 0,025 0,95 0,025 -3,1058 +3,1058 6º passo: Calcula-se a estatística do teste: tcalc = ( tcalc = 7º passo: Como tcalc = -2,6385 está na RA, aceita-se H0, ou seja, não existe diferença significativa, entre os tempos médios de realização da tarefa entre os dois grupos, ao nível de significância de 1%. 2º caso: Quando as duas amostras são dependentes ou relacionadas Duas amostras são dependentes ou relacionadas quando fazemos estudos comparativos em que uma mesma unidade experimental fornece dados em duas situações diferentes. É usado para testar diferenças do tipo “antes” e “depois” Neste caso testa-se: H0: não há diferença significativa entre as duas médias populacionais μ1 e μ2, então μ1 – μ2 = 0 ou μ1 = μ2 H1: há diferença significativa entre as duas médias populacionais μ1 e μ2, então μ1 - μ2 0 ou μ1 μ2 Caso as amostras sejam pequenas (na prática, n<30), as populações de onde as amostras foram obtidas, com relação a variável de interesse devem ter distribuição normal. No caso de grandes amostras essa restrição não se aplica. OBS: como as amostras são relacionadas, pode-se transformar as duas amostras em uma amostra das diferenças entre os pares de observações, ou seja, nas diferenças: di = x1i – x2i , sendo x1i e x2i o i-ésimo par considerado. Utiliza-se o teste t para ( = n-1 graus de liberdade, sendo n o tamanho das amostras e tcalc = em que e sd = EX: Em uma pesquisa sobre qualidade vocal envolvendo locutores de rádio, nas emissões em padrão vocal espontâneo e profissional, utilizou-se de uma amostra aleatória de 11 locutores. Foi feita a leitura de um texto comercial em padrão vocal espontâneo e profissional, sendo a duração (em segundos) cronometrada, resultando na tabela: sujeitos Padrão vocal espontâneo Padrão vocal profissional 1 2 3 4 5 6 7 8 9 10 11 22,873 24,018 19,966 17,864 19,210 23,870 20,407 22,987 21,808 18,849 20,924 23,991 22,199 22,041 20,718 23,391 21,280 19,342 24,873 21,347 20,877 20,844 Pode-se afirmar, ao nível de significância de 5%, que não existe uma diferença significativa entre os tempos médios de duração das leituras do texto comercial nos padrões vocais espontâneo e profissional? Solução: n1=n2=n=11, ( = 0,05 1º passo: H0: não há diferença significativa entre os tempos médios da duração da leitura do texto comercial nos padrões vocais espontâneo e profissional ((1 = (2) 2º passo: H1: há diferença significativa entre os tempos médios da duração da leitura do texto comercial nos padrões vocais espontâneo e profissional ( (1 ( (2) 3º passo: ( = 0,05 (valor dado no problema) 4º passo: ( sd = ( sd = 5º passo: como os dados são emparelhados (relacionados) e n1=n2=n=11 tem-se que : ( = n-1 graus de liberdade, então ( = 11-1 = 10 graus de liberdade. Portanto, para um teste bilateral com ( = 0,05 e ( = 11-1 = 10 utilizando-se o teste t, determina-se tcrítico na tabela ( tcrítico = 2,2281. Portanto: RR RA RR 0,025 0,95 0,025 -2,2281 +2,2281 6º passo: Calcula-se a estatística do teste: tcalc = ( tcalc = ( tcalc = 7º passo: Como tcalc = -1,1655 está na RA, aceita-se H0, ou seja, não existe diferença significativa, entre os tempos médios de leitura do texto comercial nos padrões vocais espontâneo e profissional, ao nível de significância de 5%. � EXERCÍCIOS: 1) Foi cronometrado o tempo para dois grupos de crianças (sexo masculino e feminino) executarem uma mesma tarefa, os resultados em segundos foram: SM : 8 – 7 – 6 – 8 – 6 - 5 – 6 – 6 – 5 – 7 SF : 7 – 6 – 9 – 9 – 8 – 7 – 8 – 5 – 8 – 7 – 6 – 7 Sabendo-se que esses tempos seguem distribuição normal, pode-se afirmar, ao nível de significância de 1% que não existe diferença significativa entre as diferenças de tempo para os dois grupos? 2) Uma amostra aleatória de oito indivíduos foi utilizada p-ara testar a perda de peso durante um treinamento esportivo. Os resultados dos pesos antes e depois do treinamento são dados a seguir: Sujeito 1 2 3 4 5 6 7 8 PA (Kg) PD (kg) 65 64 87 84 75 74 80 80 70 67 78 80 64 60 95 95 Pode-se afirmar, ao nível de 5%, que o treinamento não causou diferença entre os pesos? 3) Uma turma de 10 alunos é separada dos demais para ser testada. Aplica-se uma prova de matemática são: 4,5 – 5,0 – 5,5 – 6,0 – 3,5 – 4,0 – 5,0 – 6,5 – 7,0 – 8,0. Um novo processo de aprendizagem de matemática é introduzido, e a turma é ensinada por esse novo método. No final, aplica-se uma prova de mesmo nível de dificuldades, e as notas obtidas pelos alunos, na ordem das primeiras, são respectivamente: 5,0 – 5,0 – 6,0 – 7,0 – 3,0 – 4,5 – 4,0 – 7,0 – 7,5 – 9,0. Há razões para crer que o novo processo aumentou o nível de aprendizado da turma em matemática, a 5%? 4) O QI de 16 estudantes de uma zona pobre de certa cidade apresenta a média de 107 pontos com desvio padrão de 10 pontos, enquanto os 14 estudantes de outra região rica da cidade apresentam uma média de 112 pontos com desvio padrão de 8 pontos. O QI em ambas as regiões tem distribuição normal. Há diferença significativa entre os QIs médios dos dois grupos? Respostas: teste para comparação entre duas proporções: Neste caso testa-se: H0: não há diferença entre as duas proporções, ou seja: p1=p2 ou a diferença entre as duas proporções populacionais p1 e p2 é d 0, ou seja p1-p2 = d0 H1: há diferença entre as duas proporções populacionais, ou seja, p1 ≠ p2 ou a diferença entre as duas proporções populacionais p1 e p2 é diferente de d0, ou seja, p1-p2≠d0 ou a diferença entre as duas proporções populacionais p1 e p2 é maior que d0, ou seja, p1-p2>d0, ou a diferença entre as duas proporções populacionais p1 e p2 é menor que d0, ou seja, p1-p2<d0, As duas amostras, de tamanhos n1 e n2, devem ser independentes, satisfazendo às condições n1.p1 ≥ 25 e n1.(1-p1) ≥ 5, n2.p2 ≥ 25 e n2.(1-p2) ≥ 5. Utiliza-se o teste z considerando: se d0 ≠ 0 → z = onde e são as proporções amostrais se d0=0 → z = onde é a proporção amostral combinada. 0% 50% 100% Md �PAGE � �PAGE �33� Estatística Aplicada a Psicologia – Professora Priscila – 2013 _1309889025.unknown _1314513165.unknown _1319870260.unknown _1327826913.unknown _1338203924.unknown _1349677955.unknown _1350237981.unknown _1350238585.unknown _1350237077.unknown _1349678079.unknown _1350237012.unknown _1349680811.unknown _1349677969.unknown _1349677771.unknown _1349677817.unknown _1349677678.unknown _1349676983.unknown _1327829915.unknown _1338203654.unknown _1338203916.unknown _1338203615.unknown _1327829850.unknown _1327829892.unknown _1327827091.unknown _1327829216.unknown _1327782909.unknown _1327825669.unknown _1327826294.unknown _1327826885.unknown _1327825988.unknown _1327824380.unknown _1327825574.unknown _1327824347.unknown _1320840646.unknown _1327782879.unknown _1319870493.unknown _1319870644.unknown _1319870478.unknown _1319870484.unknown _1319466742.unknown _1319870019.unknown _1319870231.unknown _1319870236.unknown _1319870183.unknown _1319870188.unknown _1319870202.unknown _1319870171.unknown _1319870176.unknown _1319869782.unknown _1319870007.unknown _1319870013.unknown _1319869999.unknown _1319466935.unknown _1318746432.unknown _1319463203.unknown _1319466705.unknown _1318746499.unknown _1318746514.unknown _1319463171.unknown _1318746501.unknown _1318746447.unknown _1314514282.unknown _1318746389.unknown _1314513226.unknown _1314513331.unknown _1309951380.unknown _1314513006.unknown _1314513119.unknown _1314513139.unknown _1314513158.unknown _1314513134.unknown _1314513125.unknown _1314513053.unknown _1314513086.unknown _1314513034.unknown _1314513039.unknown _1309954461.unknown _1309954756.unknown _1314512973.unknown _1314512978.unknown _1314512926.unknown _1314512950.unknown _1314512880.unknown _1309954742.unknown _1309953179.unknown _1309953269.unknown _1309954277.unknown _1309951397.unknown _1309940348.unknown _1309951331.unknown _1309951351.unknown _1309951055.unknown _1309939269.unknown _1309940296.unknown _1309939252.unknown _1309889988.unknown _1309890069.unknown _1309890148.unknown _1309890061.unknown _1309889987.unknown _1293366797.unknown _1295850010.unknown _1309759585.unknown _1309871298.unknown _1309872812.unknown _1309888524.unknown _1309888680.unknown _1309888934.unknown _1309873346.unknown _1309871441.unknown _1309872753.unknown _1309871363.unknown _1309869222.unknown _1309870607.unknown _1309871250.unknown _1309869243.unknown _1309869902.unknown _1309869986.unknown _1309869402.unknown _1309869210.unknown _1299047313.unknown _1299069399.unknown _1299264021.unknown _1305919111.unknown _1309757910.unknown _1309758054.unknown _1309759574.unknown _1309758013.unknown _1307181199.unknown _1307181215.unknown _1299264266.unknown _1299265257.unknown _1299265235.unknown _1299264214.unknown _1299240306.unknown _1299262487.unknown _1299069480.unknown _1299240288.unknown _1299234558.unknown _1299069408.unknown _1299067334.unknown _1299068426.unknown _1299069297.unknown _1299069344.unknown _1299068645.unknown _1299067351.unknown _1299066650.unknown _1299067322.unknown _1299066596.unknown _1295851522.unknown _1295851741.unknown _1295853657.unknown _1295853774.unknown _1295853826.unknown _1295853727.unknown _1295851775.unknown _1295851612.unknown _1295851626.unknown _1295851602.unknown _1295850259.unknown _1295850464.unknown _1295850859.unknown _1295850894.unknown _1295850453.unknown _1295850064.unknown _1295850241.unknown _1295850042.unknown _1293374872.unknown _1295801293.unknown _1295807801.unknown _1295849285.unknown _1295849375.unknown _1295849689.unknown _1295846077.unknown _1295802258.unknown _1295807610.unknown _1295802319.unknown _1295807545.unknown _1295801613.unknown _1295802088.unknown _1295801509.unknown _1293375905.unknown _1295799866.unknown _1295800666.unknown _1295800811.unknown _1295801244.unknown _1295800418.unknown _1293377313.unknown _1293377368.unknown _1293377439.unknown _1293375494.unknown _1293375566.unknown _1293375725.unknown _1293375523.unknown _1293375364.unknown _1293375058.unknown _1293375183.unknown _1293372587.unknown _1293374491.unknown _1293374638.unknown _1293374615.unknown _1293372662.unknown _1293374340.unknown _1293372619.unknown _1293369600.unknown _1293372307.unknown _1293372129.unknown _1293372159.unknown _1293369719.unknown _1293367047.unknown _1293367377.unknown _1293368404.unknown _1293366936.unknown _1256466243.unknown _1264170273.unknown _1264170581.unknown _1264170712.unknown _1264171291.unknown _1264171336.unknown _1284222527.unknown _1284222536.unknown _1284222543.unknown _1284222546.unknown _1284222532.unknown _1264171346.unknown _1264171310.unknown _1264171328.unknown _1264171293.unknown _1264171044.unknown _1264171050.unknown _1264171272.unknown _1264171029.unknown _1264170649.unknown _1264170662.unknown _1264170707.unknown _1264170655.unknown _1264170604.unknown _1264170637.unknown _1264170586.unknown _1264170538.unknown _1264170552.unknown _1264170575.unknown _1264170577.unknown _1264170546.unknown _1264170304.unknown _1264170439.unknown _1264170446.unknown _1264170451.unknown _1264170319.unknown _1264170275.unknown _1264170077.unknown _1264170155.unknown _1264170160.unknown _1264170173.unknown _1264170157.unknown _1264170141.unknown _1264170148.unknown _1264170091.unknown _1256466459.unknown _1264169881.unknown _1264170068.unknown _1264170075.unknown _1264170062.unknown _1257000130.unknown _1264169734.unknown _1257000041.unknown _1256466391.unknown _1256466417.unknown _1256466344.unknown _1208271566.unknown _1215947351.unknown _1218381401.unknown _1256466128.unknown _1256466182.unknown _1256466221.unknown _1246865260.unknown _1246877843.unknown _1243678625.unknown _1243679826.unknown _1243679840.unknown _1218381638.unknown _1215959617.unknown _1218380178.unknown _1218380758.unknown _1218380779.unknown _1218381053.unknown _1218380200.unknown _1218380590.unknown _1216626043.unknown _1215955614.unknown _1215955958.unknown _1215956472.unknown _1215947883.unknown _1212317042.unknown _1212822350.unknown _1212822719.unknown _1215947318.unknown _1212822683.unknown _1212326697.unknown _1212821900.unknown _1212821990.unknown _1212599825.unknown _1212819727.unknown _1212598852.unknown _1212317067.unknown _1211723619.unknown _1212314333.unknown _1212315047.unknown _1212315378.unknown _1211723653.unknown _1208347063.unknown _1211625005.unknown _1208346282.unknown _1162373431.unknown _1180266286.unknown _1180943367.unknown _1180954770.unknown _1208241995.unknown _1208242063.unknown _1208242088.unknown _1208242026.unknown _1180954834.unknown _1180954751.unknown _1180943321.unknown _1180943348.unknown _1180876521.unknown _1162381339.unknown _1180263975.unknown _1180266010.unknown _1180266088.unknown _1175495311.unknown _1175495283.unknown _1162373618.unknown _1160395069.unknown _1161105276.unknown _1161107989.unknown _1162373029.unknown _1161108582.unknown _1161107941.unknown _1160546978.unknown _1161105257.unknown _1160547036.unknown _1160546966.unknown _1160392631.unknown _1160394205.unknown _1153167111.unknown _1153167124.unknown _1153165707.unknown _1143946868.unknown