Esta é uma pré-visualização de arquivo. Entre para ver o arquivo original
ESTATÍSTICA Análise Exploratória de Dados Probabilidade Variáveis Aleatórias PROFESSORES: Dr. José Carlos Dalmas Ms. José da Costa Soeiro Ms. Carla Franciele Höring LONDRINA 2013 Dr. José Carlos Dalmas / Ms. José da Costa Soeiro / Ms. Carla Franciele Höring Centro de Ciências Exatas (CCE) – Departamento de Estatística (DSTA) 2 ESTATÍSTICA INTRODUÇÃO No moderno ambiente administrativo e econômico global, dispõe-se de uma vasta quantidade de informações estatística. Os gerentes tomadores de decisão de maior sucesso são capazes de entender a informação e usá-la eficazmente. A seguir, fornecemos alguns exemplos que ilustram o uso da estatística. Nos negócios frequentemente necessita de previsões sobre o futuro do ambiente econômico, tais como: previsão de taxas de inflação, índice de preços do consumidor, taxa de desemprego e a utilização da capacidade de produção. Escritórios de Contabilidade usam o procedimento de amostragem estatística quando realiza auditorias, cálculo de índices etc. Os consultores financeiros utilizam uma série de informações estatísticas para guiar suas recomendações de investimentos. No caso das ações, os consultores revêem diversos dados financeiros incluindo relações preço/ganhos e rendimento de dividendos para concluir se uma ação individual está sendo sobre ou subavaliada. Para estabelecer estratégias de marketing, os gerentes utilizam se da estatística para melhor entender o comportamento do mercado consumidor. A estatística pode ser utilizada como uma ferramenta de controle da qualidade, com a criação de cartas de controle, bem como no monitoramento do processo de produção. Pode se definir a Estatística como: um conjunto de métodos e processos quantitativos que servem para estudar e medir os fenômenos coletivos, conforme Bernoulli. No estudo estatístico, o que interessa são os fatos que envolvem os elementos dos fenômenos, como eles se relacionam e qual o seu comportamento. Para isso, é necessário que esse estudo seja feito através uma investigação planejada, desenvolvida e redigida de acordo com a metodologia de pesquisa científica. METODOLOGIA DA ESTATÍSTICA Dependendo do objetivo da pesquisa pode-se classificar a metodologia estatística a ser aplicada como: Estatística Descritiva Usualmente a expressão estatística descritiva é empregada para descrever, analisar e interpretar os registros quantitativos relativos aos atributos do fenômeno em estudo. Dr. José Carlos Dalmas / Ms. José da Costa Soeiro / Ms. Carla Franciele Höring Centro de Ciências Exatas (CCE) – Departamento de Estatística (DSTA) 3 Estatística Indutiva A estatística indutiva é a parte da Estatística que tem por objetivo obter e generalizar conclusões para o todo a partir da análise de uma parcela. OBTENÇÃO DE DADOS A aplicação da análise estatística é utilizada a partir dos dados obtidos que descrevem os elementos observados, tais como: características de pessoas, animais, empresas, indústrias, sistema de produção, fenômenos físicos ou químicos etc. A coleta desses elementos pode ser feita através de instrumentos, que se adéquam ao tipo de pesquisa, ou seja, questionários, planilhas de anotações ou através de desenvolvimento de experimentos. NOÇÕES BÁSICAS População É o grupo de todos os elementos que possuem características comuns, que determinam o universo a ser pesquisado. Censo É quando no estudo das características utilizam-se todos os elementos da população. Amostra Quando somente uma parte da população é analisada, retirada com técnicas estatísticas adequadas, de forma a garantir a representatividade das características dos elementos da população. AMOSTRAGEM Amostragem é um procedimento usado utilizado na retirada de amostras representativas da população. Para se aplicar a amostragem deve se observar a composição da população, o método de amostragem necessário e o tamanho da amostra. Dr. José Carlos Dalmas / Ms. José da Costa Soeiro / Ms. Carla Franciele Höring Centro de Ciências Exatas (CCE) – Departamento de Estatística (DSTA) 4 RETIRADA DA AMOSTRA Basicamente existem dois métodos para a composição da amostra: probabilístico e não probabilístico. MÉTODOS PROBABILÍSTICOS O método de amostragem probabilística exige que cada elemento da população possua a mesma probabilidade de ser selecionado. Assim, considerando N o tamanho da população, a probabilidade de cada elemento será 1/N. Trata-se de um método que garante cientificamente a aplicação das técnicas estatísticas. Os tipos de amostragem probabilísticos mais usados são: Amostragem Simples ao Acaso (ASA): Também conhecida como amostragem aleatória é aplicada quando a população é considerada homogênea, ou seja, quando todos os seus elementos têm a mesma característica e a mesma chance (probabilidade) de serem selecionados. Para se aplicar essa amostragem deve-se considerar um sistema de permita a seleção dos elementos através de um processo aleatório, ou seja, numerar todos os elementos e, efetuar sucessivos sorteios até atingir o tamanho da amostra desejado. Amostragem Sistemática: Trata-se de uma variação da amostragem aleatória, utilizada quando a população se encontra segundo algum critério, como fichas de um fichário, listas telefônicas, pessoas organizadas em filas, produção em série etc. Tal amostragem exige o seguinte procedimento: Calcular o intervalo de retirada, que corresponde a quantidade de elementos de cada grupo a ser dividida a população, obtido pela divisão do tamanho da população (N) pelo tamanho da amostra (n), n Ns . Conhecido o valor de S (chamado de salto), sorteia-se um entre eles, que indicará a posição do primeiro elemento da amostra. Para a retirada dos demais elementos deve-se somar o valor de S à posição do elemento retirado anteriormente até compor a amostra desejada. Por exemplo: Seja o tamanho da população (N) = 1000 O tamanho da amostra (n) = 100 Logo o salto será S = 10 Dr. José Carlos Dalmas / Ms. José da Costa Soeiro / Ms. Carla Franciele Höring Centro de Ciências Exatas (CCE) – Departamento de Estatística (DSTA) 5 Dentre os dez primeiros elementos da população determinado pelo salto, sorteia se um elemento suponha que tenha sido o número dois. Portanto, os elementos da população que ocupam as posições: 2 o ; 12 o ; 22 o ; 32 o ; ...; 992 o , irão compor a amostra, ou seja, a cada dez elementos da população um será o representante na amostra. Amostragem Estratificada: Utilizada quando a população é heterogênea onde se distingui grupos mais ou menos homogêneos, os quais se denominam de estratos. Para a estratificação de uma população pode-se utilizar de algumas características, tais como: classe social, idade, sexo, profissão, ou qualquer outro atributo que revele os estratos dentro da população. Após a determinação dos estratos, seleciona-se uma amostra aleatória de cada estrato. O número de elementos retirados de cada grupo poderá ser proporcional ao tamanho do estrato, obtendo assim, a Amostragem Estratificada Proporcional. Tabela - Tamanho da amostra proporcional aos estratos. Estrato Tamanho do estrato Relação (%) Tamanho da amostra I 50 10 4 II 150 30 12 III 300 60 24 Total N= 500 100 n=40 Amostragem por Conglomerado: Algumas populações não permitem, ou tornam extremamente difícil que se identifiquem seus elementos, mas pode ser relativamente fácil separá-los na forma de grupos. Por exemplo, podem-se separar os grupos levando em consideração: quarteirões, famílias, organizações, agências, edifícios, etc. O procedimento de retirada da amostra consiste em sortear os grupos e todos os elementos desses participarão da amostra. Assim, por exemplo, num levantamento da população de uma cidade, pode-se dispor do mapa indicando cada quarteirão e não dispor de uma relação atualizada dos seus moradores. Então, colhe-se uma amostra dos quarteirões e faz-se a coleta dos dados de todos os que residem naqueles quarteirões sorteados. MÉTODOS NÃO PROBABILÍSTICOS São amostragens em que os elementos são retirados em situações que não possibilitem a seleção aleatória. Esse tipo de amostragem pode oferecer boas estimativas das características da população. Dr. José Carlos Dalmas / Ms. José da Costa Soeiro / Ms. Carla Franciele Höring Centro de Ciências Exatas (CCE) – Departamento de Estatística (DSTA) 6 São utilizadas em casos como: ensaios de drogas, vacinas, técnicas cirúrgicas, pesquisa de opinião, etc. Destacam-se entre elas: Amostragem por conveniência: Ocorre quando o pesquisador seleciona os membros da população dos quais é mais fácil se obter informações. Esse tipo de amostragem, embora não aleatória, é bastante utilizada na área de marketing. Neste caso, é importante o senso crítico do pesquisador para evitar vieses, como, não selecionar sempre pessoas de mesmo sexo, de mesma faixa etária, etc. Amostragem por julgamento: Ocorre quando o pesquisador utiliza seu próprio julgamento ao selecionar os membros da população, através do estabelecimento de uma característica que permite identificar elementos com boas perspectivas de fornecer as informações necessárias. Amostragem por quotas: devem–se determinar as quotas de controle dos elementos pelas características da população alvo, que podem ser determinada através do sexo, idade, raça, renda, escolaridade etc. Com esse procedimento de quotas fica assegurada que a composição da amostra seja a mesma que a composição da população. A seguir os elementos da amostra são selecionados à medida que se ajustem as quotas de controle. Exemplo: Quantidade Sexo Escolaridade Idade Renda 5 Masculino Superior 30 10 s.m 3 Feminino Médio completo 18 3 s.m Observação: Quanto menor o número de características de cada quota mais facilmente fecha-se a coleta. VARIÁVEL Representa as características dos indivíduos que pode assumir diferentes valores. Se um instrumento de uma pesquisa contém as seguintes perguntas: Perguntas Gerem informações para as seguintes variáveis Variáveis Qual a sua idade? Qual o número de pessoas de sua família? Qual a renda familiar? Qual é o seu estado civil? Você tem emprego fixo? Qual o tempo de trabalho na empresa? - Idade - Tamanho da família - Renda familiar - Estado civil - Emprego - Tempo de trabalho. Dr. José Carlos Dalmas / Ms. José da Costa Soeiro / Ms. Carla Franciele Höring Centro de Ciências Exatas (CCE) – Departamento de Estatística (DSTA) 7 CLASSIFICAÇÃO DAS VARIÁVEIS Ao se fazer um estudo estatístico tem-se que considerar o tipo da variável: Variáveis qualitativas são as que descrevem os atributos de um elemento. Variáveis quantitativas são as provenientes de uma contagem ou mensuração. As variáveis qualitativas e as quantitativas dividem-se em dois tipos: Variáveis Tipos Descrição Exemplos Qualitativas ou Categóricas Nominal Sem ordenação. Cor dos olhos, sexo, estado civil. Ordinal Com ordenação. Grau de instrução; classe social. Quantitativas Discretas Oriunda de contagem. Número de funcionários; número acidentes de trabalho ocorrido durante um mês. Contínuas Oriunda de medição. Altura, peso, diâmetro de uma peça. ATIVIDADE 1 - AMOSTRAGEM / VARIÁVEIS TAMANHO DA AMOSTRA Outro fator importante na aplicação da técnica de amostragem a ser considerado é o tamanho da amostra que possa representar significativamente a população. Para a determinação do tamanho da amostra deve se levar em conta além do tamanho da população, os seguintes níveis: Nível de confiança (nível de segurança) é a probabilidade associada aos resultados, obtidos em uma amostra, como sendo verdadeiros para os parâmetros da população. A probabilidade complementar é denominada de nível de significância, que consiste na probabilidade do erro, ou seja, afirmar um valor que não é verdadeiro para a população. Margem de erro (nível de precisão) é a diferença máxima a ser aceita entre a estatística amostral e o parâmetro populacional. Dr. José Carlos Dalmas / Ms. José da Costa Soeiro / Ms. Carla Franciele Höring Centro de Ciências Exatas (CCE) – Departamento de Estatística (DSTA) 8 No caso de uma pesquisa com o objetivo de analisar variáveis categóricas, onde a estatística de interesse na pesquisa é a proporção, onde os resultados são representados por porcentagem de ocorrência dos itens: Determina se o tamanho mínimo inicial de uma amostra baseado nos níveis definidos pelo pesquisador: 2 2 0 1. d ppZ n Sendo: n0 tamanho inicial da amostra Z (distribuição normal) associado ao nível de confiança estabelecido; p proporção populacional estimada que possa ter o aspecto pesquisado (chamada de prevalência ou incidência). d margem de erro (nível de precisão). Caso se conheça o tamanho da população (N), adéqua o tamanho inicial da amostra ao tamanho da população finita pela relação: Nn Nn n 0 0 . Exemplos: 1) Se considerar que uma pesquisa terá o nível de confiança de: 95%, com margem de erro de 3% para mais e para menos, sendo que a proporção populacional (incidência) com o atributo pesquisado seja de 15%. Determine: a) a amostra mínima inicial; b) a amostra mínima final, caso a população tenha 25.486 elementos. c) a amostra mínima final se a população tiver 250 elementos. 2) Considerando nível de confiança de 90%, com margem de erro de 4% e proporção de incidência de 30%. Qual o tamanho mínimo da amostra para uma população infinita? 3) Determine o tamanho da amostra inicial com nível de confiança de 95% e margem de erro de 3%? Quadro do tamanho mínimo da amostra conforme o tamanho da população, ao nível de confiança de 95% e incidência de 50%. POPULAÇÃO (N) AMOSTRA (n) MARGEM DE ERRO d=3% MARGEM DE ERRO d=5% 100 91 79 1000 516 277 5000 879 356 20000 1013 377 100000 1055 383 500000 1064 384 1000000 1067 384 Dr. José Carlos Dalmas / Ms. José da Costa Soeiro / Ms. Carla Franciele Höring Centro de Ciências Exatas (CCE) – Departamento de Estatística (DSTA) 9 Todavia, algumas observações podem ser levadas em considerações, a saber: Quanto maior o número de elementos numa amostra, menor a margem de erro. Quanto maior a homogeneidade da população, menor o tamanho da amostra. ATIVIDADE 2: TAMANHO DA AMOSTRA DESCRIÇÃO E APRESENTAÇÃO DE DADOS Os dados obtidos em pesquisas devem ser analisados e interpretados com o auxílio de métodos estatísticos, o que consiste na análise exploratória dos dados. Na primeira etapa deve-se fazer uma análise descritiva que consiste na organização, descrição dos dados, na identificação de valores que representem o elemento típico e, na quantificação da variabilidade presente nos dados. DADOS São as informações inerentes às variáveis que caracterizam os elementos que constituem a população ou a amostra. Dados Brutos São os dados obtidos diretamente da pesquisa, sem terem passados por nenhum processo de síntese ou análise. O grupo dessas informações obtidas através das variáveis compõe o que se denomina de Banco de Dados. Exemplo: Banco de Dados dos funcionários da Companhia Estilo Modas. N Estado Civil Grau de Instrução No de filhos Salário (x s.mínimo) idade 1 solteiro fundamental 4,00 26 2 casado fundamental 0 4,56 32 3 casado fundamental 2 5,25 36 4 solteiro Médio 5,73 20 5 solteiro fundamental 6,26 40 6 casado fundamental 1 6,66 28 7 solteiro fundamental 6,86 41 8 solteiro fundamental 7,39 43 9 casado Médio 1 7,59 34 10 solteiro Médio 7,44 23 11 casado Médio 2 8,12 33 12 solteiro fundamental 8,46 27 Dr. José Carlos Dalmas / Ms. José da Costa Soeiro / Ms. Carla Franciele Höring Centro de Ciências Exatas (CCE) – Departamento de Estatística (DSTA) 10 N Estado Civil Grau de Instrução No de filhos Salário (x s.mínimo) idade 13 solteiro Médio 8,74 37 14 casado fundamental 3 8,95 44 15 casado Médio 0 9,13 30 16 solteiro Médio 9,35 38 17 casado Médio 1 9,77 31 18 casado fundamental 2 9,8 39 19 solteiro Superior 10,53 25 20 solteiro Médio 10,76 37 21 casado Médio 1 11,06 30 As variáveis: estado civil, grau de instrução são qualitativas, enquanto que o número de filhos é uma variável quantitativa discreta e os salários e as idades representam variáveis quantitativas contínuas, embora à idade esteja escrita de forma discreta. ROL Rol é o arranjo dos dados brutos numéricos em ordem crescente ou decrescente, se os dados forem qualitativos o rol é construído em ordem alfabética. Pode-se, pelo rol, verificar de maneira mais clara e rápida o comportamento dos dados do conjunto identificando o maior e o menor valor, além de alguns elementos que podem se repetir várias vezes. REPRESENTAÇÃO TABULAR Consiste em apresentar os dados coletados através de tabelas mostrando de forma resumida o que ocorre com os dados observados. Para organizar uma série estatística ou uma distribuição de frequências existem algumas normas nacionais ditadas pela Associação Brasileira de Normas Técnicas (ABNT) as quais devem ser respeitadas. Assim, toda tabela estatística deve conter: Elementos essenciais Título – indica a natureza do fato estudado (o quê?), o local (onde?) e a época (quando?). Corpo – é o conjunto de linhas e colunas que contém as informações. Cabeçalho – designa a natureza do conteúdo de cada coluna. Coluna indicadora – mostra a natureza do conteúdo de cada linha. Elementos complementares (se necessário) Os elementos complementares geralmente são colocados no rodapé da tabela, que se situa abaixo do traço horizontal da parte inferior da tabela, os quais são: Dr. José Carlos Dalmas / Ms. José da Costa Soeiro / Ms. Carla Franciele Höring Centro de Ciências Exatas (CCE) – Departamento de Estatística (DSTA) 11 Fonte – é o indicativo da entidade responsável pela sua organização ou fornecedora dos dados primários. Notas – são colocadas para esclarecimentos de ordem geral. Chamadas – servem para esclarecer minúcias em relação às caselas, colunas ou linhas. Nenhuma casela da tabela deve ficar em branco, apresentando sempre um número ou sinal. Exemplo: Percentuais de exportações brasileiras por Estados, Maio/2008 TÍTULO Estados Percentuais CABEÇALHO Minas Gerais 21,92 CORPO São Paulo 39,96 Rio Grande do Sul 17,50 Espírito Santo 7,68 COLUNA INDICADORA Paraná 9,56 Santa Catarina 3,38 Total 100,00 Fonte: Ministério da Agricultura RODAPÉ Sinais Convencionais - (hífen), quando o valor numérico é nulo; ... (reticência), quando não se dispõe do dado; 0; 0,0; 0,00 (zero), quando o valor numérico é muito pequeno para ser expresso pela unidade utilizada, respeitando o número de casas decimais adotado; Normas de construção a) As tabelas devem ser fechadas acima e abaixo por linha horizontal, não sendo fechadas à direita e à esquerda por linhas verticais. b) O cabeçalho, os totais e os subtotais devem ser destacados por traços horizontais; c) Manter a uniformidade do número de casas decimais. Dr. José Carlos Dalmas / Ms. José da Costa Soeiro / Ms. Carla Franciele Höring Centro de Ciências Exatas (CCE) – Departamento de Estatística (DSTA) 12 Exemplo - Tabela univariável Tabela – Mercado brasileiro de chocolate (2000) Empresas Porcentagem Lacta 35,4 Nestlé 31,6 Garoto 22,0 Neugbauer 3,6 Ferrero Rocher 0,9 Outras 6,5 Total 100,0 Fonte: ACB Exemplo - Tabela bivariável Tabela - Índice percentual do rendimento da Poupança no Brasil (2007) Meses Índice (%) Mensal Anual Agosto 0,65 5,29 Setembro 0,54 5,85 Outubro 0,61 6,50 Novembro 0,56 7,10 Dezembro 0,56 7,70 Total Fonte: Indicadores Econômicos da Agência de notícias Dossiê-Dinheiro ATIVIDADE 3 - REPRESENTAÇÃO TABULAR Dr. José Carlos Dalmas / Ms. José da Costa Soeiro / Ms. Carla Franciele Höring Centro de Ciências Exatas (CCE) – Departamento de Estatística (DSTA) 13 TABELA DE DISTRIBUIÇÃO DE FREQUÊNCIAS Quando se estuda uma variável, o maior interesse do pesquisador é conhecer o comportamento dessa variável através da variação contida nos seus dados. A simples inspeção visual desses dados dificilmente trará alguma informação relevante, assim, é necessário sintetizá-los na forma de tabelas. Uma distribuição de frequência é um sumário tabular de dados que mostra a frequência (o número) de observações em cada uma dos diversos intervalos ou categorias. Para os dados qualitativos: Distribuição dos empregados da seção de orçamentos da Companhia MB segundo o grau de instrução – 2011 Grau de instrução Frequência Absoluta (fi) Frequência Relativa (fr%) Fundamental 12 33,33 Médio 18 50,00 Superior 6 16,67 Total 36 100 Fonte: RH Observa se de forma rápida e concisa as informações sobre o grau de instrução dos empregados da empresa, onde se destaca que a metade deles cursou o ensino médio (50%) e somente seis têm curso superior o que equivale a 17% aproximadamente de todos os empregados. Para dados quantitativos a) discretos: Idade dos funcionários da Companhia MB (2011) Idade Frequência Absoluta (fi) Frequência Relativa (fr%) 20 8 22,22 22 17 47,22 26 6 16,67 30 4 11,11 35 1 2,78 Total 36 100,00 Fonte: RH Dr. José Carlos Dalmas / Ms. José da Costa Soeiro / Ms. Carla Franciele Höring Centro de Ciências Exatas (CCE) – Departamento de Estatística (DSTA) 14 b) contínuos: Faixa salarial de empregados da seção de orçamentos da Companhia MB (2011) Faixa Salarial (s.m) fi fr% 4,00 | 8,00 10 27,78 8,00 | 12,00 12 33,33 12,00 | 16,00 8 22,22 16,00 | 20,00 5 13,89 20,00 | 24,00 1 2,78 Total 36 100 Fonte: RH Para se agrupar os dados selecionam-se intervalos contínuos, onde cada valor coletado será alocado. Estes intervalos são chamados de intervalos de classe. Etapas para a construção tabela de distribuição de frequências: 1 a Etapa: Encontrar o menor e o maior valor do conjunto de dados e calcular a amplitude entre eles por: At = no do maior – no do menor 2 a . Etapa: Não existindo um critério rígido para estabelecer o número ideal de intervalos, sugere-se que não se utilize menos de 6 e não mais de 15 intervalos. A experiência tem demonstrado que se pode determinar o número de intervalos (classes) através de: n tamanhode amostra uma para ,nlog.3,31K ou nK 3 a . Etapa: Determinar a amplitude dos intervalos usando: K At C Sempre que possível pode-se arredondar o valor da amplitude dos intervalos para valores inteiros, o que possibilita melhor leitura da tabela. 4 a . Etapa: Definir os limites dos intervalos que podem ser expressos: a) 20 ||30: contém os extremos 20 e 30; b) 20| 30: contém o extremo 20 e não contém o extremo 30; c) 20 |30: não contém o extremo 20, mas contém o extremo 30; d) 20 30: não contém os extremos 20 e 30. Dr. José Carlos Dalmas / Ms. José da Costa Soeiro / Ms. Carla Franciele Höring Centro de Ciências Exatas (CCE) – Departamento de Estatística (DSTA) 15 Exemplo: 1) O conjunto de dados apresenta o número de clientes atendidos na LOJA AKI-É-BARATO nos meses de março e abril de 2012. 42 47 51 52 55 56 57 57 58 59 60 60 62 62 63 63 63 63 65 67 68 69 71 72 72 72 72 73 74 74 75 76 77 77 77 79 80 80 80 81 82 84 84 86 86 91 93 95 95 98 99 100 103 105 106 107 108 110 112 113 2) O conjunto de dados apresenta o número de minutos que 50 usuários de Internet gastaram na rede durante o dia 30 de janeiro de 2013. 7 7 11 17 17 18 19 20 21 22 23 28 29 29 30 30 31 31 33 34 36 37 39 39 39 40 41 41 42 44 44 46 50 51 53 54 54 56 56 56 59 62 67 69 72 73 77 78 80 86 3) Faturamento (R$ 1000) do Supermercado Pague e Leve Ltda. Nos 40 dias de funcionamento nos meses janeiro e fevereiro de 2013. 381 389 389 418 429 430 472 486 568 623 669 682 699 728 821 821 822 856 866 904 904 912 924 926 968 973 989 996 1006 1007 1028 1084 1109 1112 1148 1149 1168 1175 1201 1209 REPRESENTAÇÃO GRÁFICA A representação gráfica da distribuição de uma variável tem a vantagem de, rápida e concisamente, informar sobre sua variabilidade. Nos gráficos deve sempre: Ter um título, onde se destaca o fato, o local e o tempo. Ser construído em uma escala que não desfigure os fatos ou as relações que se deseja destacar. A altura de um gráfico deve compreender entre 60% a 80% da largura. Dr. José Carlos Dalmas / Ms. José da Costa Soeiro / Ms. Carla Franciele Höring Centro de Ciências Exatas (CCE) – Departamento de Estatística (DSTA) 16 Colocar a fonte de obtenção dos dados, caso não seja o próprio autor que tenha feito a coleta. REPRESENTAÇÃO GRÁFICA PARA VARIÁVEL QUALITATIVA (CATEGÓRICA) Para esse tipo de variável os gráficos mais utilizados são: de colunas, de barras, de setores e de linhas. a) Gráfico de Colunas Figura – Porcentagem total de produtos exportados em alguns estados do Brasil em março de 2010. b) Gráfico de Setores Figura – Porcentagem total de produtos exportados em alguns estados do Brasil em março de 2010. 0 5 10 15 20 25 30 35 40 Minas Gerais São Paulo Rio Grande do Sul Espírito Santo Paraná Santa Catarina P o r c e n ta g e m Minas Gerais 22% São Paulo 39% Rio Grande do Sul 18% Espírito Santo 8% Paraná 10% Santa Catarina 3% Dr. José Carlos Dalmas / Ms. José da Costa Soeiro / Ms. Carla Franciele Höring Centro de Ciências Exatas (CCE) – Departamento de Estatística (DSTA) 17 c) Gráfico de Barras Figura – Porcentagem total de produtos exportados em alguns estados do Brasil em março de 2010. d) Gráfico de Linha É o tipo mais utilizado para representar a evolução de uma variável ao longo do tempo. Figura – Série de cotações históricas da arroba do boi gordo no estado de São Paulo, Janeiro de 1999 à Dezembro 2008. 0 5 10 15 20 25 30 35 40 Minas Gerais São Paulo Rio Grande do Sul Espírito Santo Paraná Santa Catarina Porcentagem 0 20 40 60 80 100 Reais Dólar Dr. José Carlos Dalmas / Ms. José da Costa Soeiro / Ms. Carla Franciele Höring Centro de Ciências Exatas (CCE) – Departamento de Estatística (DSTA) 18 DISTRIBUIÇÃO DE DUAS OU MAIS VARIÁVEIS QUALITATIVAS Figura – Produção internacional de carne bovina no Brasil e Estados Unidos entre os anos de 2000 e 2005 (FAO) Figura – Produção internacional de carne bovina no Brasil e Estados Unidos entre os anos de 2000 e 2005 (FAO) REPRESENTAÇÃO GRÁFICA DE VARIÁVEIS QUANTITATIVAS Para variáveis contínuas organizadas em tabelas de distribuições de frequências, três tipos de gráficos são utilizados: histograma, polígono de frequência e ogivas. 0 2000 4000 6000 8000 10000 12000 14000 2000 2001 2002 2003 2004 2005 M il h õ e s d e T o n e la d a s Ano Brasil EUA 0 2000 4000 6000 8000 10000 12000 14000 2000 2001 2002 2003 2004 2005 M il h õ e s d e T o n e la d a s Ano Brasil EUA Dr. José Carlos Dalmas / Ms. José da Costa Soeiro / Ms. Carla Franciele Höring Centro de Ciências Exatas (CCE) – Departamento de Estatística (DSTA) 19 Histograma Figura – Faturamento em milhões de reais da empresa AJK, 2010. Polígono de Frequências Figura – Faturamento em milhões de reais da empresa AJK, 2010 0 10 20 30 40 50 60 3 11 13 5 7 9 15 17 21 19 23 25 27 0 10 20 30 40 50 60 2 4 6 8 10 12 14 16 18 20 24 22 26 28 Dr. José Carlos Dalmas / Ms. José da Costa Soeiro / Ms. Carla Franciele Höring Centro de Ciências Exatas (CCE) – Departamento de Estatística (DSTA) 20 Ogiva Figura – Faturamento em milhões de reais da empresa AJK, 2010 ATIVIDADE 4 - DISTRIBUIÇÃO DE FREQUÊNCIAS MÉTODOS NUMÉRICOS Vimos que o resumo dos dados por meio de tabelas, gráficos e distribuições de frequências nos fornece informações sobre o comportamento de uma variável, mais informações complementares podem ser obtidas através valores representativos do conjunto, determinados pelas seguintes medidas: Medidas de Posição: média, mediana e moda. Medidas de Dispersão: amplitude total, variância, desvio-padrão e coeficiente de variação. Medidas Separatrizes: quartil, decil e percentil. MEDIDAS DE POSIÇÃO As medidas de posição (média, mediana, moda) descrevem apenas uma das características dos valores numéricos de um conjunto de observações, o da tendência central, 0% 20% 40% 60% 80% 100% 2 3 5 7 9 11 13 15 17 19 21 23 25 Dr. José Carlos Dalmas / Ms. José da Costa Soeiro / Ms. Carla Franciele Höring Centro de Ciências Exatas (CCE) – Departamento de Estatística (DSTA) 21 pois representam os fenômenos pelos seus valores médios, em torno dos quais tendem a concentrar seus valores. Também são chamadas por medidas de tendência central. Média Aritmética Seja uma amostra de n elementos composta pelos seguintes valores: x1, x2,..., xn. A média aritmética simples desses elementos é a soma das observações dividida pelo número delas. É representada por: n x X n i i 1 ou simplesmente n x X Onde: n é o número de observações da amostra. Se os dados são relativos a uma população, a média aritmética simples é calculada por: N x Sendo N é o número de elementos da população. Exemplo: As taxas de juros recebidas por uma amostra de 10 ações durante certo período foram (medidas em porcentagem): 2,59; 2,64; 2,60; 2,62; 2,57; 2,55; 2,61; 2,50; 2,63; 2,64. Calcule a média. X = Mediana A mediana é outra medida de tendência central de uma variável. A mediana é o valor que fica no meio da seqüência quando os dados são arranjados na ordem ascendente. Com um número ímpar de observações, a mediana é o valor do meio, ou seja, que divide os valores em partes iguais. Um número par de observações não tem um valor único no meio. Neste caso, seguimos a convenção de definir a mediana como sendo a média dos valores das duas observações do meio. Dr. José Carlos Dalmas / Ms. José da Costa Soeiro / Ms. Carla Franciele Höring Centro de Ciências Exatas (CCE) – Departamento de Estatística (DSTA) 22 50% 50% Md Exemplo: Para ilustrar o cálculo da mediana vamos considerar os seguintes dados que se referem aos salários iniciais pagos para uma amostra de 11 economistas: 2350; 2450; 2550; 2380; 2560; 2210; 2390; 2630; 2440; 2420; 2380 Arranjando as observações na ordem crescente, obtém-se a seguinte lista, chamada de rol: 2210; 2350; 2380; 2380; 2390; 2420; 2440; 2450; 2550; 2560; 2630 Uma vez que o número de observações é ímpar, a mediana é o valor que se encontra exatamente do meio da série. Assim, a mediana dos salários é 2420. Se retirar o valor 2210 dessa amostra, teremos um número par de salários: 2350; 2380; 2380; 2390; 2420; 2440; 2450; 2550; 2560; 2630 Assim, a mediana será a média dos dois valores centrais, que são: 2420 e 2440. 2430 2 24402420 MdMediana Moda A moda é a observação mais freqüente. Caso não haja observação mais freqüente, a distribuição é amodal. Podemos ter um conjunto unimodal (com uma moda), bimodal (com duas modas) ou multimodal (com três ou mais modas). Para ilustrar a identificação da moda, considere a amostra dos salários iniciais para os graduados em economia, apresentados anteriormente, nela verifica-se que o salário mensal inicial que ocorre mais de uma vez é 238, portanto, ele é a moda. A moda é uma importante medida de posição para os dados qualitativos. Dr. José Carlos Dalmas / Ms. José da Costa Soeiro / Ms. Carla Franciele Höring Centro de Ciências Exatas (CCE) – Departamento de Estatística (DSTA) 23 Exemplo: O conjunto de dados de preferência de refrigerantes resultou na seguinte distribuição de frequência: REFRIGERANTES FREQUÊNCIA Coca-Cola 19 Coca-Cola Light 8 Pepsi-Cola 13 Sprite 5 TOTAL 45 A moda ou o refrigerante mais comprado é a Coca-Cola. Para este tipo de dados não tem sentido falar em média ou mediana. A moda fornece a informação de interesse, o elemento que ocorre com maior freqüência. MEDIDAS DE DISPERSÃO São valores que representam a variabilidade de um conjunto numérico, isto é, o afastamento dos dados em relação a medida central. Quanto maior a dispersão menor poder representativo da medida central (média). Vários grupos podem ter a mesma média, mas serem muito diferentes na composição dos seus valores. Por exemplo: GRUPO VALORES MÉDIA A 5 5 5 5 B 4 5 6 5 C 1 5 9 5 A média dos três grupos é a mesma (5), mas no grupo “A” não há variação entre os dados, enquanto no grupo “B” a variação é menor que no grupo “C”. Verifica se que embora a média seja a mesma, mas os elementos são diferentes em cada grupo, logo a medida de dispersão pode representar, através de um único valor, as distâncias entre os elementos e a média dos grupos. Esses valores são determinados pelas seguintes medidas: Amplitude total. Variância. Desvio padrão. Coeficiente de Variação. Dr. José Carlos Dalmas / Ms. José da Costa Soeiro / Ms. Carla Franciele Höring Centro de Ciências Exatas (CCE) – Departamento de Estatística (DSTA) 24 Amplitude Total A amplitude total é a medida de dispersão mais simples. É denotada por At e calculada pela diferença entre os valores extremos, ou seja: At = valor máximo – valor mínimo GRUPO VALORES MÉDIA AMPLITUDE TOTAL A 5 5 5 5 0 B 4 5 6 5 2 C 1 5 9 5 8 Facilmente observa se a dispersão dos conjuntos através, da amplitude total, maior dispersão maior valor. Exemplo: Os seguintes dados foram obtidos para o número de minutos gastos ouvindo música. 8,3 14,3 24,6 37,0 39,2 50,2 59,2 64,9 81,7 90,3 Assim a amplitude total do conjunto é: At = Variância Como a amplitude total é uma medida que não leva em consideração todos os valores coletados, o cálculo da variância permite que seja usado todos os valores, sendo que sua medida corresponde a média dos quadrados das diferenças de cada valor com a média do grupo. É calculada pelas as expressões abaixo: Amostra População 1n n x x s 2 i2 i 2 N N x x 2 i2 i 2 Exemplo 1: A amostra apresenta o preço (R$) recomendável para diversas ações comerciais 20 22 14 15 25 18 40 Dr. José Carlos Dalmas / Ms. José da Costa Soeiro / Ms. Carla Franciele Höring Centro de Ciências Exatas (CCE) – Departamento de Estatística (DSTA) 25 Exemplo 2: Um departamento de produção usa o procedimento de amostragem para testar a qualidade de seus produtos. O departamento emprega a seguinte regra de decisão em uma estação de inspeção: se uma amostra de 14 itens tem uma variância maior que 0,005, a linha de produção precisa ser interrompida para reparos. Para testar a qualidade de seus produtos coletou-se uma amostra conforme quadro abaixo: 3,43 3,45 3,43 3,48 3,52 3,50 3,39 3,48 3,41 3,38 3,49 3,45 3,51 3,50 A linha de produção deveria ser interrompida? Desvio – Padrão O desvio padrão define-se como a raiz quadrada da variância o que possibilita uma medida na mesma unidade dos dados. Faz-se uma distinção entre o desvio padrão σ (sigma) do total de uma população, e o desvio padrão s de um subconjunto em amostra Amostra População 2ss 2 Exemplo: Considerando os dados do exemplo anterior, tem-se: 2ss = Coeficiente de Variação Para uma variável quantitativa O coeficiente de variação serve para nos indicar o grau de representatividade da média dentro de um conjunto de dados, bem como para comparar o comportamento de dois conjuntos com unidades diferentes, pois trata se de uma medida relativa. É calculado por: x s CV É uma medida descritiva que indica a magnitude do desvio-padrão em relação à média. Dr. José Carlos Dalmas / Ms. José da Costa Soeiro / Ms. Carla Franciele Höring Centro de Ciências Exatas (CCE) – Departamento de Estatística (DSTA) 26 Por ser uma medida sem a influência das unidades (adimensional), podendo ser representada na forma percentual, bastando para isso multiplicá-la por 100. Exemplo: Tomando a média e desvio padrão do Exemplo 1 anterior, o coeficiente de variação será: ESTATÍSTICAS VALOR Média Desvio padrão Coeficiente de Variação Quanto menor o coeficiente de variação maior a representatividade da média. Exemplo: Em uma semana uma empresa recebeu as seguintes quantidades de pedidos para os produtos A e B. Determine os coeficientes de variação para cada produto. PRODUTO A 39 33 25 30 41 36 37 PRODUTO B 50 52 47 49 54 40 43 PRODUTO MÉDIA DESVIO PADRÃO COEFICIENTE DE VARIAÇÃO A B Para duas variáveis quantitativas Exemplo para a comparação dos coeficientes de variação entre duas variáveis. A tabela a seguir apresenta as medidas de tendência central; a dispersão absoluta e a relativa dos pesos e alturas de funcionários: PARÂMETROS ALTURA PESO Média (X) 168 cm 53 kg Desvio-padrão (s) 30 cm 9,49 Kg Coeficiente de Variação (C.V) 17,86% 17,90% Observa-se então, que embora o desvio padrão das alturas, seja aproximadamente, três vezes maior que o desvio padrão dos pesos, os coeficientes de variação são praticamente iguais para as duas amostras, isso significa que, embora os desvios padrão sejam discrepantes e por possuírem unidades diferentes, não podemos fazer esse tipo de comparação diretamente nos desvios, porém o grau de concentração dos dados em torno da média em cada variável é Dr. José Carlos Dalmas / Ms. José da Costa Soeiro / Ms. Carla Franciele Höring Centro de Ciências Exatas (CCE) – Departamento de Estatística (DSTA) 27 aproximadamente igual é o que indicam os coeficientes de variação, onde os resultados não têm influencia das unidades. Exemplos: 1) Uma variável contábil, medida em milhares de reais, foi observada em dois grupos de empresas apresentando os resultados seguintes: GRUPO MÉDIA DESVIO PADRÃO A 20 4 B 10 3 Qual produto que apresenta a maior dispersão absoluta e o de maior dispersão relativa? 2) Os dados abaixo representam o volume de vendas de dois vendedores em cinco meses. MÊS VENDEDOR 1 VENDEDOR 2 Janeiro 20 30 Fevereiro 22 14 Março 18 20 Abril 20 12 Maio 20 24 Verifique qual vendedor tem menor variação nas quantidades vendidas mensalmente. ATIVIDADE 5 – MEDIDAS DE POSIÇÃO E DISPERSÃO MEDIDAS SEPARATRIZES: QUARTIS, DECIS E PERCENTIS Quartis Frequentemente é desejável dividir os dados em quatro partes, cada parte contendo aproximadamente um quarto, ou 25% das observações. A figura abaixo mostra um conjunto de dados divididos em quatro partes. 25% 25% 25% 25% Q1 Q2 Q3 Os pontos da divisão são referidos como quartis e estão definidos como: Q1 = primeiro quartil, separa 25% dos elementos abaixo do seu valor. Q2 = segundo quartil, separa 50% dos elementos (também mediana). Q3 = terceiro quartil, separa 75% dos elementos abaixo do seu valor. Decis Os decis dividem um conjunto de dados em dez partes iguais. Dr. José Carlos Dalmas / Ms. José da Costa Soeiro / Ms. Carla Franciele Höring Centro de Ciências Exatas (CCE) – Departamento de Estatística (DSTA) 28 10% 10% ... 10%... 10% 10% D1 D2 ... D5 ... D9 onde: D1 = 1 0 decil, deixa 10% dos elementos abaixo do seu valor. D2 = 2 0 decil, deixa 20% dos elementos abaixo do seu valor. ............................................................. D5 = 5 0 decil, deixa 50% dos elementos (coincide com a mediana) ............................................................ D9 = 9 0 decil, deixa 90% dos elementos abaixo do seu valor. Percentis Os percentis são as medidas que dividem um conjunto de dados em cem partes iguais. 1% 1% . . . 1 % 1% P1 P2 P50 . . . P98 P99 onde: P1 = 1 0 percentil, deixa 1% dos elementos abaixo do seu valor. P2 = 2 0 percentil, deixa 2% dos elementos abaixo do seu valor. ............................................................. P50 = 50 0 percentil, deixa 50% dos elementos. (coincide com a mediana) ............................................................. P99 = 99 0 percentil, deixa 99% dos elementos abaixo do seu valor. Exemplo: A tabela representa o tempo de espera para ser atendido. 4,44 4,47 4,48 4,51 4,54 4,54 4,61 4,64 4,66 4,68 4,68 4,69 4,71 4,73 4,76 4,78 4,80 4,81 4,86 4,86 4,87 4,88 490 4,90 4,95 4,95 4,96 4,97 4,98 4,98 4,99 5,00 5,01 5,01 5,01 5,02 5,04 5,05 5,08 5,09 5,09 5,10 5,11 5,11 5,16 5,16 5,18 5,18 5,19 5,24 5,24 5,26 5,27 5,27 5,29 5,32 5,35 5,46 5,50 5,85 Para se determinar o valor correspondente de um percentil, deve se: 1 o ) Ordenar os dados em rol crescente. 2 o ) Determinar o indicador de localização (L), dado por: 100 .nk L , onde: k é o percentual desejado e n é o número de valores do conjunto de dados. Se o valor de L for decimal, deve se recorrer a um dos seguintes procedimentos: 1) Interpolação aritmética, que calcula o valor da parte decimal a partir da diferença com o menor valor do intervalo a qual esta inserido o percentil. Por exemplo, se o valor do L for igual a 12,6, isso mostra que o valor do percentil pretendido está entre os valores que ocupam as posições 12 a e 13 a , devendo então calcular a diferença de 0,6 a partir do valor que ocupa a 12 a através de uma regra de três, ou 2) Arredonda se o seu valor para o maior inteiro mais próximo. Dr. José Carlos Dalmas / Ms. José da Costa Soeiro / Ms. Carla Franciele Höring Centro de Ciências Exatas (CCE) – Departamento de Estatística (DSTA) 29 Se o valor de L for inteiro, deve se somar o valor correspondente a L ao valor de L+1 e dividir o resultado por dois. Exemplo: Calcular o percentil 25, que corresponde ao primeiro quartil, que deixa 25% dos dados abaixo e 75% dos dados acima do seu valor, usa se: 15 100 60.25 L Por se tratar de um número inteiro, deve se usar o 15º e o 16º valor em seu cálculo. Assim: 77,4 2 78,476,4 25 P = Q1. Isto equivale a dizer que 25% das pessoas levaram até 4,77 minutos para serem atendidas. Para se calcular o percentil 78 (P78), que deixa pelo menos 78% dos dados abaixo do seu valor, deve se: Localizar a sua posição na amostra através de: 8,46 100 60.78 L . Como o valor de L é decimal, vamos considerar as duas possibilidades: 1) Interpolação aritmética: no valor de L está entre as posições 46 a e 47 a , onde estão os valores 5,16 e 5,18, observa-se que para uma diferença de uma unidade na posição tem se uma diferença de 0,02 nos valores dos tempos, assim aplicando uma regra de três para determinar o valor para a diferença de 0,06, logo; Posição Tempo 1 → 0,02 0,06 → X X = 0,0012 Como a diferença 0,06 é com a posição 46 a então basta somar o valor 5,16 e o valor de X, então o valor do P78 é 5,16 +0,0012 = 5,1612. (valor exato) 2) Arredondamento Sendo 8,46 100 60.78 L , arredonda se para 47 a posição, assim o valor de P78 será o valor 5,18 (valor aproximado). Assim, o valor 5,18 é o P78 que representa o tempo máximo gasto para serem atendidos 78% dos clientes. Observação: Caso se deseja calcular o quartil ou o decil, devem-se considerar as seguintes maneiras de determinar a posição do valor procurado. Para o quartil: 4 .nk L sendo K = 1, 2, ou 3. Para o decil: 10 .nk L sendo o valor de K um número de 1 a 9. Dr. José Carlos Dalmas / Ms. José da Costa Soeiro / Ms. Carla Franciele Höring Centro de Ciências Exatas (CCE) – Departamento de Estatística (DSTA) 30 BOX PLOT O box plot introduzido pelo estatístico americano John Tukey em 1977 é a forma de representar graficamente os dados da distribuição de uma variável quantitativa em função de seus parâmetros. Os cinco itens ou valores: o menor valor (x1), os quartis (Q1, Q2 e Q3) e o maior valor (xn), é importante para se ter uma idéia da posição, dispersão e assimetria da distribuição dos dados. Na sua construção são considerados os quartis e os limites da distribuição, permitindo uma visualização do posicionamento da distribuição na escala da variável. Para melhor compreensão deste box plot, a figura abaixo apresenta um esquema sintetizado: Figura – Esquema para construção do box plot A escala de medida da variável encontra-se na linha horizontal do quadro onde está inserida a figura. Na caixa retangular da figura são fornecidos os quartis Q1, na parte esquerda, e Q3 na parte direita da caixa. Entre eles encontra-se a mediana da distribuição. Observe que 50% da distribuição têm valores dentro da caixa. As linhas horizontais que saem da caixa terminam nos limites: inferior (LI) e superior (LS) da distribuição. Esses limites são determinados em função da distância entre os dois quartis (Q3 e Q1), isto é, do desvio inter-quartílico dado por: DQ = Q3 – Q1 seja o tamanho da Q1 Md Q3 Ponto Externo * 0 Ponto Solto 1,5DQ DQ 1,5DQ Valores LI LS Valores típicos 3,0DQ Limite inferior Limite superior Dr. José Carlos Dalmas / Ms. José da Costa Soeiro / Ms. Carla Franciele Höring Centro de Ciências Exatas (CCE) – Departamento de Estatística (DSTA) 31 caixa. Para determinar os limites deve-se primeiramente calcular, o denominaremos de B1 = 1,5. DQ, assim os limites serão: LI = Q1 – B1 e LS = Q3 + B1 Entre esses limites encontram-se os valores considerados como típicos da distribuição. Valores com afastamento superior a B1, para cima ou para baixo, são considerados atípicos, ou possíveis outliers. Caso detecta a presença desses pontos, deve-se calcular o B2 = 3. DQ, e verificar a existência de pontos entre B1 e B2, são chamados de pontos soltos, representados por (o). Valores com afastamento superior a B2 para cima ou para baixo são considerados como pontos externos, representados na figura por (*). Quanto maior for o valor do desvio inter-quartílico (DQ), maior a variabilidade da distribuição. Exemplo: O objetivo do administrador é lucrar o máximo possível com o capital investido em sua empresa. Uma medida de bom desempenho é o retorno sobre os investimentos. A seguir são apresentados os mais recentes retornos em milhares (R$). 2.210 2.255 2.350 2.380 2.380 2.390 2.420 2.440 2.450 2.550 2.630 2.825 Resumo de cinco pontos: menor valor = 2.210, quartil 1 = 2.365, quartil 2 = 2.405, quartil 3 = = 2.500 e o maior valor = 2.825. Desvio inter-quartílico (Tamanho da caixa) = DQ = Q3 – Q1 = 2.500 – 2365 = 135 e o B1 = 1,5..DQ = 1,5. 135 = 202,5, logo os limites serão: LI = Q1 – B1 = 2365 – 202,5 = 2162,5 e o LS = Q3 + B1 = 2.500 + 202,5 = 2.702,5. Verifica-se que do lado esquerdo do conjunto todos os valores são menores que o limite inferior calculado, assim, a semi reta não deve ultrapassar o menor valor do conjunto, do lado direito do conjunto existe um ponto fora de B1, então, a semi reta deve atingir o tamanho de LS, em seguida, deve se calcular o B2, B2 = 3. DQ = 3. 135 = 405, assim os pontos de referencia para o novo limite do lado direito é dado por: Q3 + B2 = 2.500 + 405 = 2.905, observa-se que o valor (2825) esta entre B1 Dr. José Carlos Dalmas / Ms. José da Costa Soeiro / Ms. Carla Franciele Höring Centro de Ciências Exatas (CCE) – Departamento de Estatística (DSTA) 32 e B2, logo se trata de um ponto solto que deve ser representado por (0). Os dados fora destes limites são considerados pontos fora da curva. A Figura apresenta um esquema do box plot com esses resultados: Figura – Resultados do desempenho de retorno de investimento da empresa Observações atípicas (outlier) É muito comum aparecerem entre os dados coletados, observações atípicas (outliers), isto é, valores muito grandes ou muito pequenos em relação aos demais. Um conjunto de dados pode apresentar apenas um ou vários outliers. Observações atípicas alteram enormemente a média e a variabilidade do grupo a que pertencem e podem até mesmo distorcer as conclusões obtidas através de uma análise estatística padrão. Portanto, é de fundamental importância detectar e dar um tratamento adequado a elas. Causas do aparecimento de outliers Dentre as possíveis causas do aparecimento de outliers, pode citar as seguintes: Leitura, anotação ou transição incorreta dos dados. Erro na execução do experimento ou na tomada da medida. Mudanças não controláveis nas condições experimentais ou dos pacientes. Medidas a serem tomadas Quando um outlier é detectado, duas medidas podem ser tomadas: abandoná-lo ou conservá-lo. Existem justificativas para cada uma dessas medidas e o tipo de análise pode variar, dependendo se o outlier foi ou não eliminado. 2.162,5 2.365 2.405 2.500 2.702,5 Ponto fora da curva 2.825 2.210 Dr. José Carlos Dalmas / Ms. José da Costa Soeiro / Ms. Carla Franciele Höring Centro de Ciências Exatas (CCE) – Departamento de Estatística (DSTA) 33 Um outlier deve ser eliminado da análise quando houver uma justificativa convincente, por exemplo, quando a observação é incorreta ou houve erro na execução do experimento ou na anotação da medida. Após a eliminação do outlier pode-se fazer a análise estatística usando-se apenas as observações restantes, ou uma análise mais sofisticada, que foge ao nível deste texto. Por outro lado, se nenhuma explicação pode ser dada à observação atípica, o outlier pode refletir uma característica do que está sendo estudado. Neste caso, tal observação deve ser incluída na análise e um tratamento especial deve ser dado aos dados. Por exemplo, pode- se usar uma ponderação da influência das observações ou alternativamente uma transformação ( x , log x, etc.) da variável estudada. Exemplo: Considere uma amostra com os seguintes valores dos preços praticados em 13 estabelecimentos comerciais: 3 15 17 18 21 21 22 25 27 30 38 49 68 a) Forneça a regra de cinco itens para os dados. b) Calcule os limites superior e inferior. c) Trace o gráfico em caixa ATIVIDADE 6 – SEPARATRIZES / BOXPLOT Dr. José Carlos Dalmas / Ms. José da Costa Soeiro / Ms. Carla Franciele Höring Centro de Ciências Exatas (CCE) – Departamento de Estatística (DSTA) 34 PROBABILIDADE E AS VARIÁVEIS ALEATÓRIAS DISCRETAS E CONTÍNUAS INTRODUÇÃO À PROBABILIDADE As decisões nos negócios são freqüentemente baseadas na análise de incertezas tais como as seguintes: Quais são as chances de as vendas decrescerem se aumentarmos os preços? Qual é a plausibilidade de um novo método de montagem aumentar a produtividade? Qual é a probabilidade do projeto terminar no prazo? Quais são as chances de um novo investimento ser lucrativo? A probabilidade é uma medida numérica associada a ocorrência de certo fato. Os valores da probabilidade são sempre atribuídos numa escala de 0 a 1. A probabilidade próxima de zero indica baixa possibilidade de ocorrência do fato; já próxima de 1 indica a maior facilidade de ocorrência deste fato. Por exemplo, se considerarmos o fato "chover amanhã", entendemos que quando a previsão do tempo indica 0,05 "uma probabilidade próxima de zero de chover" significa "quase sem chance de chover". No entanto, se uma probabilidade 0,90 de chuva é anunciada, sabemos que é muito provável que chova. Uma probabilidade de 0,50 indica que é tão provável que chova como não. A probabilidade pode assumir qualquer valor dentro da seguinte escala: A aplicação da probabilidade está presente em qualquer área de trabalho, até na nossa vida particular onde nos ajuda desenvolver planejamentos, estratégias nos negócios e nas atitudes que iremos tomar, como no caso do motorista que anda em alta velocidade, achando sempre que existe pouca possibilidade de ser apanhado. Nos negócios, as pessoas se sentem mais estimuladas aplicar seu dinheiro onde houver maior chance de se obter lucro. Assim, a probabilidade mede a possibilidade de ocorrência de um determinado fato. Como a probabilidade está associada à ocorrência de um acontecimento, denominado de experimento, os possíveis resultados desse acontecimento determinam um conjunto 0 0,5 1,0 Chance crescente de ocorrência Dr. José Carlos Dalmas / Ms. José da Costa Soeiro / Ms. Carla Franciele Höring Centro de Ciências Exatas (CCE) – Departamento de Estatística (DSTA) 35 chamado de espaço amostral, e sub grupos associados a esse espaço são chamados de eventos. Por exemplo: No caso do lançamento de um dado, todos os resultados possíveis, compõem o espaço amostral representado por: S= {1, 2, 3, 4, 5, 6} Nesse experimento a probabilidade de sair cada um desses valores é 1/6, ou 0,17. O valor da probabilidade é sempre expresso sem unidade de medida, pois, representa o relacionamento entre dois conjuntos, ou de um elemento com seu próprio conjunto. Para melhor entendimento dessa relação, expressa se em porcentagem, logo a probabilidade de cada elemento no lançamento de um dado é aproximadamente 17%. Para o experimento do lançamento de um dado sua distribuição de probabilidade é expressa da seguinte forma: Número 1 2 3 4 5 6 Soma Probabilidade 1/6 1/6 1/6 1/6 1/6 1/6 6/6 = 1 Verifica se: Que os elementos do espaço amostral têm a mesma probabilidade, o que determina um espaço amostral considerado equiprovável. Todas as probabilidades são positivas. A soma das probabilidades é igual a um, ou seja, para todos os espaços amostrais a probabilidade a será: P(S) = 1. É importante salientar que: A probabilidade é igual a zero quando o evento for vazio (), isto é: P() = 0. Sendo A , o evento complementar do evento A, a sua probabilidade pode ser calculada através de: P( A ) = 1 - P(A) No caso de um evento com o seguinte atributo o número ser menor que quatro, o evento é: A={1, 2, 3}, para o cálculo da probabilidade associada a esse evento,usa se: amostralespaçodoelementosdeNúmero AeventodoelementosdeNúmero AP )( ou Dr. José Carlos Dalmas / Ms. José da Costa Soeiro / Ms. Carla Franciele Höring Centro de Ciências Exatas (CCE) – Departamento de Estatística (DSTA) 36 possíveiscasosdeNúmero favoráveiscasosdeNúmero AP )( Assim para o evento A, tem se: %505,0 6 3 )( AP . Outros exemplos: 1) Num encontro consiste 25 estudantes de administração, 10 de economia, 15 de contábeis a e 8 de engenharia de produção. Se uma pessoa é selecionada aleatoriamente pelo o instrutor para responder a uma pergunta, determine a probabilidade de que o estudante escolhido: a) seja da administração; b) seja da engenharia de produção ou contábeis; c) não seja da economia. 2) Suponha que em um lote de 12 peças, 4 sejam defeituosas. Duas peças são retiradas aleatoriamente. Calcule a probabilidade de: a) ambas sejam defeituosas; b) ambas sejam perfeitas; c) pelo menos uma seja defeituosa. 3) Um grupo de pessoas está numa sala e é constituído por: 5 rapazes de mais de 21 anos, 4 rapazes com menos de 21 anos, 6 moças com mais de 21 anos e 3 moças com menos de 21 anos. Uma pessoa é escolhida ao acaso dentre as 18. Qual a probabilidade de: a) ter mais de 21 anos; b) ser um rapaz; c) ser uma moça; d) ser moça com menos 21 anos. 4) O sistema escolar do país Só alegria fornece acesso a internet a 21.733 escolas do nível fundamental, 7.286 escolas do nível médio e 10.682 do nível superior. Existem no país 51.745 escolas do nível fundamental, 14.012 do nível médio e 17.229 do nível superior. a) se você escolher aleatoriamente uma escola do nível fundamental para visitar, qual é a probabilidade de que ela tenha acesso a internet? b) se você escolher aleatoriamente uma escola do nível médio para visitar, qual é a probabilidade de que ela tenha acesso a internet? c) se você escolher aleatoriamente uma escola para visitar, qual é a probabilidade de que ela seja do nível fundamental? d) se você escolher aleatoriamente uma escola para visitar, qual é a probabilidade de que ela tenha acesso a internet? ATIVIDADE 7 - PROBABILIDADE Dr. José Carlos Dalmas / Ms. José da Costa Soeiro / Ms. Carla Franciele Höring Centro de Ciências Exatas (CCE) – Departamento de Estatística (DSTA) 37 VARIÁVEIS ALEATÓRIAS Uma variável aleatória fornece um meio para se descrever os resultados experimentais, através de valores numéricos, associando um valor numérico a cada resultado do experimento. Essa variável aleatória se classifica como discreta ou contínua, dependendo dos valores numéricos que assume. VARIÁVEIS ALEATÓRIAS DISCRETAS Uma variável que pode assumir tanto um número finito de valores como infinita seqüência de valores tais como 0,1,2,3,4,... é denominada variável aleatória discreta. EXEMPLOS: EXPERIMENTOS VAR. ALEATÓRIAS DISCRETAS POSSÍVEIS VALORES DA VARIÁVEL Atender cinco clientes no de clientes que compram 0,1,2,3,4,5 Inspecionar 50 declarações de Imposto de Renda no de declarações com erros 0,1,2,3,...,49,50 Verificar as refeições servidas num restaurante durante um dia no de refeições servidas 0,1,2,3,4,5,... DISTRIBUIÇÃO DE PROBABILIDADE Para uma variável aleatória discreta x, a distribuição de probabilidade é definida por uma função de probabilidade, denotada por f(x). Essa função dá a probabilidade para cada um dos valores da variável aleatória. No desenvolvimento de uma função de probabilidade para qualquer variável discreta, duas condições precisam ser satisfeitas: p(x) 0 e p(x) = 1 Considere as vendas de automóveis de certa empresa como exemplo de uma variável aleatória discreta e sua distribuição de probabilidade. Nos últimos 300 dias de operação, os dados de vendas mostram 54 dias sem vendas de automóveis, 117 dias com 1 automóvel vendido, 72 dias com 2 automóveis vendidos, 42 dias Dr. José Carlos Dalmas / Ms. José da Costa Soeiro / Ms. Carla Franciele Höring Centro de Ciências Exatas (CCE) – Departamento de Estatística (DSTA) 38 com 3 automóveis vendidos, 12 com 4 automóveis vendidos e 3 dias com 5 automóveis vendidos. Sendo a variável aleatória de interesse x o número de automóveis vendidos durante um dia. E sua distribuição de probabilidade é dada por: X 0 1 2 3 4 5 Total p(x) 54/300 117/300 72/300 42/300 12/300 3/300 300/300 A principal vantagem de se definir uma variável aleatória com sua distribuição de probabilidade é que observando a distribuição das vendas de automóveis desta empresa, vemos que o número mais provável de automóveis vendidos durante um dia é um com a probabilidade de 0,39 (117/300). Além disso, outras probabilidades podem ser calculadas, pois se o gerente quiser saber qual a probabilidade de se vender três automóveis ou mais durante um dia, p(3) + p(4) + p(5) = 0,14 + 0,04 + 0,01 = 0,19. Essas probabilidades fornecem informações que possibilitam entender o processo de venda de automóveis da sua empresa. Uma distribuição de probabilidades de uma variável aleatória discreta apresenta sempre duas características numéricas que são muito importantes para descrição do comportamento dessa variável, são os parâmetros das distribuições, que chamamos de esperança matemática e variância. ESPERANÇA MATEMÁTICA Denotada por E(x), que representa a média de uma variável aleatória. O valor esperado é uma média ponderada dos valores que a variável aleatória pode assumir, onde os pesos são as probabilidades. A expressão matemática para representar o valor esperado da variável aleatória x é: )(.)( xfxxE Exemplo: Tendo a distribuição de probabilidade do número de automóveis vendidos durante um dia na SOCAR. X f(x) x.f(x) x 2 .f(x) 0 0,18 0 0 1 0,39 0,39 0,39 2 0,24 0,48 0,96 3 0,14 0,42 1,26 4 0,04 0,16 0,64 5 0,01 0,05 0,25 Total 1,5 3,5 )x(f.x)x(E 1,5. Significa que se espera vender em média 1,5 carros por dia. Dr. José Carlos Dalmas / Ms. José da Costa Soeiro / Ms. Carla Franciele Höring Centro de Ciências Exatas (CCE) – Departamento de Estatística (DSTA) 39 VARIÂNCIA A variância é uma média ponderada dos desvios da variável aleatória em relação a sua média, elevados ao quadrado, onde os pesos são as probabilidades. A expressão matemática usada para o seu cálculo está a seguir. Sendo )x(f.x)x(E 22 = 3,5. Logo a variância é: 2222 )x(E)x(E)x(f.)x()x(V = 3,5 – (1,5)2 = 1,25 DESVIO – PADRÃO O desvio padrão da variável x é a raiz quadrada da variância, isto é: )( xV = 12,125,1 DISTRIBUIÇÃO BINOMIAL Vários tipos de variável aleatória são usados com tanta freqüência que receberam nomes especiais. Uma distribuição de variável aleatória discreta importante é a chamada distribuição binomial. A distribuição binomial se aplica a qualquer situação em que se realizam várias provas independentes, cada uma das quais comporta apenas um dentre dois resultados possíveis. Esses dois resultados chamam-se “sucesso” e “fracasso”. Seja X o número de sucessos. Se a probabilidade de sucesso em cada prova é p e a probabilidade de fracasso é q = 1 – p. Então a fórmula da função de probabilidade para a variável aleatória binomial é: xnxx n qpCxP ..)( Onde: p = probabilidade do sucesso (o que se está sendo verificado) q = probabilidade do fracasso, sendo p + q = 1, logo q = 1 – p. x nC A combinação de n elementos tomados x a x, dada por: !xn!x !n Cxn Dr. José Carlos Dalmas / Ms. José da Costa Soeiro / Ms. Carla Franciele Höring Centro de Ciências Exatas (CCE) – Departamento de Estatística (DSTA) 40 Sendo a Esperança (média) dada por: pnxE .)( e a variância qpnxV ..)( Exemplo 1: Sabendo-se que 80% dos clientes de uma agência bancária são homens, qual a probabilidade de se encontrar numa amostra de dez clientes: a) Exatamente sete clientes homens? b) Mais de sete clientes homens? c) Nenhum cliente homem? d) Calcule a média esperada e o desvio padrão de clientes do sexo masculino. Exemplo 2: Uma firma exportadora sabe que 5% das exportações algum problema na documentação. Se ela realizar negócios com seis clientes, determine a probabilidade de: a) Exatamente dois apresentarem problemas. b) Ao menos um apresentar problema. c) No mínimo quatro apresentarem problemas. d) Exatamente cinco não apresentarem problemas. d) Determine a média esperada e variância que descreve o comportamento deste negócio de exportação. Exemplo 3: O departamento de qualidade de uma empresa seleciona, aleatoriamente, alguns itens que chegam “a empresa e submete-os a testes”. Para avaliar um lote de 150 refrigeradores, o departamento de qualidade selecionou 10 refrigeradores. Ele vai recomendar a aceitação do se não existir item defeituoso na amostra. Supondo que o processo produtivo desses refrigeradores gera um percentual de 3% de defeituosos, responda: qual a probabilidade de que o lote venha a ser aceito? ATIVIDADE 8 - DISTRIBUIÇÃO BINOMIAL VARIÁVEL ALEATÓRIA CONTÍNUA Uma variável aleatória que pode assumir qualquer valor numérico em um intervalo ou uma coleção de intervalos é chamada de variável aleatória contínua. Como exemplo, podemos considerar os resultados experimentais baseados em medição, ou seja: tempo, peso, distância, temperatura etc. EXEMPLOS: EXPERIMENTOS V. A. CONTÍNUAS POSSÍVEIS VALORES V. A. C. Anotar o tempo gasto no atendimento de clientes. Tempo x 0 Anotar os volumes em recipientes de refrigerante (Max =300 ml). Volume 0 x 300 ml Anotar o tempo gasto nas ligações telefônicas. Tempo x 0 Dr. José Carlos Dalmas / Ms. José da Costa Soeiro / Ms. Carla Franciele Höring Centro de Ciências Exatas (CCE) – Departamento de Estatística (DSTA) 41 FUNÇÃO DE DENSIDADE DE PROBABILIDADE Para as variáveis aleatórias contínuas a sua FUNÇÃO DE DENSIDADE DE PROBABILIDADE satisfaz as seguintes condições: a ) p (x) 0 , x R b ) 1 )( dxxp A aplicação da integral em uma função é um cálculo matemático, que às vezes, é difícil devido ao tipo da função que determina o comportamento da variável, sendo que a probabilidade é dada pela área determinada através da integral entre dois pontos que determina o intervalo considerado na função. DISTRIBUIÇÃO NORMAL É a mais importante distribuição de probabilidade, sendo aplicada em inúmeros fenômenos e utilizada para o desenvolvimento teórico da estatística. É também conhecida como distribuição de Gauss, Laplace ou Laplace-Gauss. A distribuição normal é um exemplo de distribuição de variável aleatória contínua. Na verdade há muitas distribuições normais diferentes. Pode-se identificar uma distribuição normal especificando-se dois números: a média e a variância (ou desvio padrão). A média está localizada no pico da distribuição. A variância define a forma da distribuição, se ela é muito dispersa ou se a maior parte da área se concentra na proximidade do pico, ou seja, do valor médio. Se X é uma variável aleatória normal com média () e variância (2), então sua função de densidade é dada por: 0 . 2 1 )( 2 2 1 x paraexp x Onde é a média o seu desvio padrão. Dr. José Carlos Dalmas / Ms. José da Costa Soeiro / Ms. Carla Franciele Höring Centro de Ciências Exatas (CCE) – Departamento de Estatística (DSTA) 42 O gráfico determinado pela função da distribuição normal assemelha-se muito a um sino, com o pico localizado na média () conforme figura abaixo: A distribuição normal é especificada pela média e o desvio padrão. A variância (2) determina a forma da curva; sendo que quanto maior o valor da variância significa maior dispersão na curva. Sua probabilidade é determinada pela área sob a curva, através da integral no intervalo associado aos valores da variável. As principais características dessa função são: A curva é simétrica em relação à média () A média = mediana = moda É assintótica em relação ao eixo das abscissas. DISTRIBUIÇÃO NORMAL PADRONIZADA Na maioria das vezes em que necessitamos da área sob a curva normal, devemos recorrer a uma tabela. Seria impossível elaborar uma tabela para cada distribuição normal com todos os valores possíveis da média e da variância. Felizmente, podemos achar os resultados para qualquer distribuição normal apelando para uma tabela de distribuição normal com média = 0 e variância 2 = 1. Essa distribuição normal especial é chamada distribuição normal padrão. Na prática, a distribuição normal apresenta um número muito grande de combinações entre a média e o desvio padrão. No entanto, através da mudança de variável, contornamos esse problema, fazendo com que todas as inúmeras distribuições normais reduzam-se a apenas uma, ou seja, à distribuição Z. Além da variável z ser desprovida da unidade de medida (isto é, constitui um número puro), ela serve para qualquer tipo de variável, independentemente de sua unidade usando a seguinte fórmula: x z Onde z tem distribuição normal reduzida com a seguinte função densidade de probabilidade. Dr. José Carlos Dalmas / Ms. José da Costa Soeiro / Ms. Carla Franciele Höring Centro de Ciências Exatas (CCE) – Departamento de Estatística (DSTA) 43 .e 2πσ. 1 = p(x) 2 σ μx 2 1 Sendo x z 2 2 . 2 1 z ezp Exemplo 1: Usando a tabela da normal reduzida, calcule as seguintes probabilidades. a) P (-2,34 < z < 0) b) P (-0,5 < z < 1,48) c) P (0,86 < z < 2,89) d) P (-1,02 < z < -1,97) e) P (z > 1,47) f) P (z < 2,05) g) P (z > -2,63) h) P (z < -0,44) Exemplo 2: Os salários pagos para os funcionários em determinada empresa seguem uma distribuição normal com média igual a R$ 1.400,00 e desvio padrão igual a R$ 227,00. Calcule a probabilidade de um funcionário escolhido ao acaso apresentar salário: a) maior que R$ 1.680,00 b) menor que R$ 1450,00 c) qual o salário máximo para os 15% que detém os menores salários? Exemplo 3: O tempo para um sistema computacional execute determinada tarefa é uma variável aleatória com distribuição normal, com média 320 segundos e desvio padrão de 7 segundos. a) Qual é a probabilidade de a tarefa ser executada entre 310 a 325 segundos. b) Qual o tempo mínimo que separa os 10% dos tempos que mais demoram na execução? Exemplo 4: Seja x a variável aleatória contínua com distribuição normal com um tempo médio de atendimento de 2 minutos por cliente e desvio padrão 0,04 min. Determine a probabilidade de um cliente ser atendido: a) Entre 2 e 2,05 min. b) Menos de 1,90 min. ATIVIDADE 9 - DISTRIBUIÇÃO NORMAL Dr. José Carlos Dalmas / Ms. José da Costa Soeiro / Ms. Carla Franciele Höring Centro de Ciências Exatas (CCE) – Departamento de Estatística (DSTA) 44 ATIVIDADE 1 - AMOSTRAGEM / VARIÁVEIS 1) Classifique as seguintes variáveis como quantitativas ou qualitativas: idade, sexo, renda familiar, religião, cor, tempo de execução de uma tarefa e atividades esportivas. 2) Identifique as situações apresentas abaixo como variável quantitativa discreta ou contínua: a) cada cigarro ( Ki-Mata) tem 16,1 mg de alcatrão; b) o altímetro de um avião indica uma altitude de 21359 pés; c) uma pesquisa efetuada com 1015 pessoas indica que 40 delas são assinantes de um serviço de computador on-line; d) o radar indica que Guga executou um saque com 110 Km/h; e) de 1000 consumidores pesquisados, 930 reconheceram a marca da sopa Ki-delicia; f) o tempo total gasto anualmente por um motorista de táxi em Nova York ao dar passagem a pedestres é de 2,4 segundos; g) ao terminar uma partida de vôlei um atleta pesa 1,4 Kg a menos do início da partida 3) Escreva sobre a forma de obter uma amostra de uma população que se considera organizada alfabeticamente. 4) Destaque a característica observada na população para aplicação da amostragem estratificada ou por conglomerado. Escreva os procedimentos que devem ser realizados nessas amostragens. 5) O Laboratório de Teste Produtos para o Consumidor seleciona uma dúzia de pilhas (indicadas como de nove volts) de cada um dos fabricantes, e testa a capacidade efetiva de cada uma.Que tipo de amostragem (aleatória, estratificada, sistemática, por conglomerado, de conveniência) está sendo utilizado? 6) Identifique o tipo de amostragem utilizada: simples ao acaso, sistemática, estratificada, por conglomerado, por conveniência e por quota: a) Um assessor de um candidato deseja retirar uma amostra de 200 das 7.964 residências familiares de um município. Para isto, lhes atribui os números: 0001, 0002, ..., 7964. b) Um pesquisador da Universidade Estadual de Londrina pesquisa todos os estudantes de uma das turmas de Economia selecionada aleatoriamente. c) A empresa Sony seleciona um a cada 100 CDs de sua linha de produção para fazer teste de qualidade. d) O Programa de Planejamento Familiar deseja se informar sobre os pontos de vista dos homens e das mulheres sobre o uso de anticoncepcionais. Para isso entrevista todos os homens e mulheres desta comunidade. e) O departamento de compras de uma Empresa deseja verificar a qualidade das peças adquiridas de seus fornecedores. Para isto, seleciona aleatoriamente uma amostra das peças de cada um de seus fornecedores. f) Ao fazer uma pesquisa para o noticiário vespertino, um repórter da TV entrevista 20 pessoas que saem do auditório do Teatro Cultura. g) Das pessoas escaladas para um de júri, fez-se um sorteio entre as mulheres e entre os homens. Dr. José Carlos Dalmas / Ms. José da Costa Soeiro / Ms. Carla Franciele Höring Centro de Ciências Exatas (CCE) – Departamento de Estatística (DSTA) 45 ATIVIDADE 2 - TAMANHO DE AMOSTRA 1) Em uma população de 4.780 elementos, qual o tamanho mínimo de uma amostra para que sejam respeitados os seguintes níveis de probabilidade: de significância de 5% e o erro amostral de 2%? (Z=1,96) 2) Deve-se extrair uma amostra de tamanho n = 320 de uma população de tamanho N = 2000, que consiste de quatro estratos de tamanhos N1 = 500, N2 = 1200, N3 = 200 e N4 = 100. Se a alocação deve ser proporcional, qual o tamanho da amostra a ser extraída de cada um dos quatro estratos. 3) Deseja-se fazer uma pesquisa junto a uma empresa para saber o interesse dos funcionários em realizar cursos no exterior. Existem 3 mil funcionários, sendo 1,8 mil com mais dez anos de empresa e 1,2 mil com menos. Qual deve ser o tamanho da amostra probabilística sabendo-se que em cursos semelhantes 5% dos funcionários acima de dez anos e 10% dos com menos de dez anos de empresa participaram. Considerando 2% para o erro amostral e 90% de segurança. (Z = 1,64) 4) Qual o tamanho da amostra necessária para obter o intervalo de 98% de segurança para uma proporção populacional se o erro tolerável é 9%?(Z=2,33) 5) Em uma pesquisa recente de mercado, o analista deseja estimar a proporção de pessoas que compram o sabonete Cremoso e Refrescante. Pede-se: a) que tamanho de amostra devemos escolher se queremos que, com probabilidade de segurança de 87%, a estimativa não desvie do verdadeiro valor por mais de 3%? (Z=1,51), b) se tivermos a informação adicional de que a aceitação do sabonete é de no mínimo 82%, qual deve ser então o tamanho da amostra?(Z=1,51). c) se decidimos por uma amostra de tamanho 81, qual o erro máximo que cometemos com uma probabilidade 90%, caso nada saibamos? (Z=1,64) 6) Uma pesquisa de mercado tem como objetivo estimar a proporção de pessoas que consomem o biscoito Delícia Total. Pede-se: a) que tamanho de amostra devemos colher se queremos que, com nível de confiança de 92%, a estimativa não desvie do verdadeiro valor por mais de 4%?(Z=1,75), b) se tivermos a informação adicional de que a proporção de consumo do tal biscoito é no máximo de 35%, qual então deve ser o tamanho da amostra?(Z=1,75), c) decidimos colher uma amostra de tamanho 130. Qual o erro máximo que cometemos com nível de confiança de 96%? (Z=2,05) 7) Uma empresa de pesquisa eleitoral foi contratada por u, político com o objetivo de investigar a preferência dos eleitores pelo candidato da situação na próxima eleição. Sabe-se que a empresa e o partido concordaram em usar um nível de confiança igual a 95% e um erro máximo igual a 4%. Calcule os tamanhos das amostras necessárias nos seguintes casos. Município Universo dos eleitores Valor suposto para a incidência Gigantópolis Muito grande Nenhum Miracema do Sul 5.000 6% Bela Morada do Oeste 30.000 Nenhum 8) Um candidato a prefeito gostaria de fazer uma pesquisa eleitoral sobre a intenção de voto na sua cidade de 45.896 eleitores. Sabe-se que sua popularidade é muito grande e existem boas perspectivas para o candidato no primeiro turno das eleições. Estima-se que 72% dos eleitores pretendem votar no candidato. Assumindo um nível de confiança de 91% e um erro amostral de 2%, qual deveria ser o tamanho da amostra a ser analisada? (Z=1,70) Dr. José Carlos Dalmas / Ms. José da Costa Soeiro / Ms. Carla Franciele Höring Centro de Ciências Exatas (CCE) – Departamento de Estatística (DSTA) 46 ATIVIDADE 3 - REPRESENTAÇÃO TABULAR 1) Numa pesquisa visando analisar os moradores da cidade Morando Bem, um dos pontos recaiu sobre a renda familiar e o tamanho das famílias dos moradores. Numa amostra de 150 moradores entrevistados verificou-se que: -dos 52 moradores de renda baixa, cinco tinham famílias pequenas e 15 famílias médias; -dentre aqueles de renda média baixa, oito tinham famílias pequenas, 10 famílias médias e 20 famílias grandes; -dentre os 45 moradores de renda média, 25 tinham famílias médias e oito famílias grandes; -dos 12 que representavam os moradores de renda média alta, seis tinham famílias pequenas e apenas duas de famílias grandes; -além disso, a amostra continha três moradores de renda alta: dois com famílias pequenas e um com família média. De acordo com os dados acima, construa uma tabela que descreva os dados, apresentando as frequências e porcentagens em relação ao total geral. 2) No ano de 2003, foram atendidos 627 clientes no setor de reclamação no Banco Money. Em 2004 foram atendidos 813 clientes. Em 2003, 595 eram brasileiros, dos quais 185 mulheres, sendo que havia apenas cinco moças estrangeiras. Em 2004 foram atendidos 50 estrangeiros, dos quais apenas 6 eram mulheres. Dos brasileiros atendidos nesse ano, haviam 204 mulheres. Represente esses dados na forma tabular. 3) Uma pesquisa de opinião pública entrevistou 950 pessoas a respeito da fluoração da água da cidade, dessas 432 mostravam-se favoráveis, 322 eram contrárias, 122 não tinham opinião formada sobre a questão e as restantes não responderam. Mostre esses dados através de uma representação tabular, apresentando as frequências e também os percentuais. 4) Construa uma distribuição tabular para mostrar que, de acordo com uma pesquisa desenvolvida pelo PNAD (Pesquisa Nacional por Amostra de Domicílios), em 1996 havia no Brasil 53,6 milhões de pessoas com renda familiar mensal até 330 reais (pobres e miseráveis), 58,7 milhões de pessoas com renda familiar mensal de 330 reais até 1300 reais (emergentes) e 32,2 milhões de pessoas com renda familiar mensal acima de 1300 reais (classe média e rica), apresentar também em porcentagem. 5) Substituir por uma tabela o trecho do relatório seguinte, retirado de um artigo da revista Veja, de 1987: “Ao contrário do que muitos imaginavam a Lei no 6515/77 não motivou muitos casais. Não existem estatísticas recente que permitam afirmar-se que hoje, conforme asseguram alguns, os divórcios têm aumentado. Baseado em dados existentes entre 1982 e 1985, a situação no Rio, São Paulo e Brasília, é a seguinte: 1982 – Rio: 5.288 separações e 3.840 divórcios; São Paulo: 17.855 separações e 11.585 divórcios; Brasília: 941 separações e 430 divórcios; 1983 – Rio: 6.183 separações e 4.428 divórcios; São Paulo: 11.549 divórcios e 20.646 separações; Brasília: 739 separações e 228 divórcios; 1984 – Rio: 6.819 separações e 3.854 divórcios; São Paulo: 10.606 divórcios e 23.970 separações; Brasília: 1.000 separações e 354 divórcios; 1985 – Rio: 4.603 divórcios e 8.298 separações; São Paulo: 30.340 separações e 13.257 divórcios; Brasília: 1.317 separações e 557 divórcios”. As informações foram obtidas nas Varas de Família. Dr. José Carlos Dalmas / Ms. José da Costa Soeiro / Ms. Carla Franciele Höring Centro de Ciências Exatas (CCE) – Departamento de Estatística (DSTA) 47 6) Construa uma tabela com os dados abaixo, destacando as marcas, frequências absolutas e as frequências relativas percentuais e elabora um título para a tabela. Os dados representam as marcas de refrigerantes comprados no supermercado Barato que Só, em 10 de janeiro de 2010. Coca-Cola Pepsi-Cola Coca-Cola Light Pepsi-Cola Sprite Coca-Cola Sprite Coca-Cola Coca-Cola Coca-Cola Coca-Cola Light Coca-Cola Pepsi-Cola Coca-Cola Light Coca-Cola Pepsi-Cola Sprite Coca-Cola Sprite Coca-Cola Light Coca-Cola Pepsi-Cola Coca-Cola Light Coca-Cola Light Coca-Cola Pepsi-Cola Sprite Coca-Cola Pepsi-Cola S*+- prite Coca-Cola Coca-Cola Coca-Cola Light Coca-Cola Pepsi-Cola Pepsi-Cola Coca-Cola Light Coca-Cola Light Coca-Cola Sprite Coca-Cola Light Pepsi-Cola Sprite Pepsi-Cola Pepsi-Cola Pepsi-Cola Coca-Cola Light Coca-Cola Coca-Cola Light Coca-Cola 7) A tabela seguinte apresenta a tabulação cruzada de uma pesquisa sobre o fato de um estudante possuir habilitação ou não. Encontre o que se pede: a) tamanho da amostra analisada; b) número de alunos habilitados analisados; c) número de alunos Economia analisados; d) o percentual de alunos habilitados do curso de Administração; e) percentual dos alunos não habilitados que cursam Engenharia. Distribuição de alunos da Faculdade do Saber, quanto ao curso e a habilitação - 2008 Curso Possui habilitação Total Sim Não Administração fi 3 2 5 % linha 60 40 100 % coluna 30 20 25 % total 15 10 25 Economia fi 3 6 9 % linha 33,3 66,7 100 % coluna 30 60 45 % total 15 30 45 Engenharia fi 4 2 6 % linha 66,7 33,3 100 % coluna 40 20 30 % total 20 10 30 Total fi 10 10 20 % linha 50 50 100 % coluna 100 100 100 % total 50 50 100 Dr. José Carlos Dalmas / Ms. José da Costa Soeiro / Ms. Carla Franciele Höring Centro de Ciências Exatas (CCE) – Departamento de Estatística (DSTA) 48 ATIVIDADE 4 - DISTRIBUIÇÃO DE FREQUÊNCIAS 1) O rol abaixo apresenta as idades de uma amostra de executivos da cidade de Londrina em agosto de 2008. Construa uma tabela de distribuição de frequências completa. 28 31 32 35 36 36 36 38 39 39 40 40 40 41 42 42 42 42 42 43 44 44 45 47 47 47 48 48 48 49 49 49 49 50 50 51 51 51 54 54 54 55 56 56 57 57 60 61 61 62 2) Os dados abaixo se referem ao tempo de atendimento de telefone (segundos) da empresa SÓQUEROVOCÊ. Construa uma tabela de distribuição de frequências completa. 756 587 929 871 378 503 564 1128 693 748 448 670 1023 335 540 853 852 495 666 474 443 325 514 404 820 915 793 778 627 483 861 337 292 1070 625 457 676 494 420 862 991 615 609 723 794 447 704 396 235 552 626 688 506 700 240 363 860 670 396 345 3) O Departamento de Pessoal da Empresa AZ Ltda. fez um levantamento dos salários dos 120 funcionários do setor administrativo, em salários mínimos conforme a tabela: a) Complete a tabela com as frequências possíveis e os pontos médios. b) Represente graficamente através do histograma e polígono de frequência. Salários do setor administrativo da Empresa AZ Ltda. – março/2008 Faixa Salarial (s.m) fi 1 | 3 30 3 | 5 48 5 | 7 24 7 | 9 18 Total 4) Responda as questões considerando a seguinte distribuição de frequências. Tempo gasto para emissão de notas fiscais da Empresa AKI - fevereiro de 2006 Tempo (min) fi fr% 1 | 3 30 15 3 | 5 40 20 5 | 7 70 35 7 | 9 38 19 9 | 11 13 6,5 11| 13 09 4,5 Total 200 100 a) Quantas notas tiveram um tempo menor que 7 minutos? b) Qual a porcentagem de notas que demoraram 9 minutos ou mais? c) Qual o tempo médio para as notas pertencentes à classe de maior frequência? d) Qual a porcentagem das notas emitidas que demoraram o menor tempo? 5) Tendo a seguinte distribuição de frequências complete as informações. Distribuição dos salários (R$ mil) dos empregados da Empresa Só Ganha - 2008 Dr. José Carlos Dalmas / Ms. José da Costa Soeiro / Ms. Carla Franciele Höring Centro de Ciências Exatas (CCE) – Departamento de Estatística (DSTA) 49 Salários fi fr% Fc Frc% 2,75 | 2,80 5 2,80 | 2,85 13 2,85 | 2,90 32 2,90 | 2,95 8 2,95 | 3,00 47 3,00 | 3,05 3 Total 50 100 6) A tabela a seguir apresenta a distribuição de renda de uma amostra da população de uma cidade do nordeste do país. Faça uma análise da tabela e descreva o perfil da renda nesta cidade, represente através do histograma e do polígono de frequência. Renda de 80 pessoas da cidade Sósofre – março de 2008 Renda (s.m) fi fr% Fc Frc% 1 | 3 58 72,50 58 72,50 3 | 5 10 12,50 68 85,00 5 | 7 7 8,75 75 93,75 Mais que 7 5 6,25 80 100,00 Total 80 100,00 Dr. José Carlos Dalmas / Ms. José da Costa Soeiro / Ms. Carla Franciele Höring Centro de Ciências Exatas (CCE) – Departamento de Estatística (DSTA) 50 ATIVIDADE 5 – MEDIDAS DE POSIÇÃO E DISPERSÃO 1) Os dados representam os números de acidentes ocorridos em julho de 2002, em Vila Boa de Morar, em 18 cruzamentos sem indicação de conversão à esquerda: 2 6 8 10 12 11 14 18 22 24 25 26 28 29 31 32 32 35 Faça uma análise de exploração de dados, calculando as seguintes estatísticas: a) média; b) mediana; c) moda; d) desvio- padrão; e)coeficiente de variação. 2) Um dos objetivos do aplicador é lucrar o máximo possível com o capital investido. Uma medida do bom desempenho é retorno deste investimento. A seguir estão apresentados os retornos dos investimentos de 24 aplicadores (em porcentagem). 5,0 5,1 6,2 8,6 9,0 9,2 9,6 11,2 12,2 12,3 12,8 14,5 14,7 15,8 16,6 17,3 17,3 19,2 19,6 22,9 30,3 31,1 41,6 52,7 Determine as seguintes medidas: média, mediana, moda, desvio padrão e o coeficiente de variação. 3) Uma loja vende cinco produtos básicos A, B, C, D, E. O lucro por unidade comercializada destes produtos vale respectivamente $200,00; $300,00; $500,00; $1.000,00; $5.000,00. A loja vendeu em determinado mês 20; 30; 20; 10; 5 unidades respectivamente. Qual foi o lucro médio comercializado por esta loja? 4) Os dados abaixo informam os minutos gastos para o atendimento no caixa de um determinado banco. Calcule: média, mediana, moda, desvio padrão e coeficiente de variação. 2,0 2,4 2,7 3,0 3,6 3,9 4,2 4,2 4,2 5,1 5,4 5,7 5,9 6,0 6,0 6,0 6,1 6,2 6,4 6,5 6,8 6,9 6,9 7,2 7,2 7,4 7,5 7,5 7,7 7,8 7,8 7,8 7,8 8,0 8,1 8,1 8,4 8,4 8,7 9 9,1 9,3 9,4 9,5 10,9 10,9 10,9 11,2 11,3 11,8 13,2 13,6 13,8 15,3 5) Um produto é acondicionado em lotes contendo cada um deles 10 unidades. O lote só é aprovado se apresentar um peso superior a 40 quilos. Se as unidades que compõem determinado lote pesam 3; 4; 3,5; 5; 3,5; 4; 5; 5,5; 4; 5, este lote será aprovado? Qual o peso médio do produto? 6) O transporte público e o automóvel são dois meios que um empregado pode usar para ir ao trabalho diariamente. Amostras de tempo para cada meio estão registradas a seguir. Os tempos estão em minutos. T.Público 28 29 32 37 33 25 29 32 41 34 T.Automóvel 29 31 33 32 34 30 31 32 35 33 a) Calcule o tempo médio da amostra de cada meio de transporte para ir ao trabalho. b) Calcule o coeficiente de variação para cada meio de transporte. c) Com base nos resultados (a) e (b), descreva as características de cada meio de transporte? 7) Considerando os resultados das turmas A e B. Compare as turmas quanto à homogeneidade dos dados calculando o coeficiente de variação. Dr. José Carlos Dalmas / Ms. José da Costa Soeiro / Ms. Carla Franciele Höring Centro de Ciências Exatas (CCE) – Departamento de Estatística (DSTA) 51 TURMA MÉDIA DESVIO-PADRÃO A 22,5 4,5 B 24,0 5,4 8) Deseja-se comparar a qualidade de um produto produzido por duas fábricas. Essa qualidade é definida pela uniformidade com que o produto é produzido em cada fábrica. A qualidade das duas fábricas é a mesma conforme as medidas abaixo? ESTATÍSTICAS A B Tamanho 21 117 Média 21,15 21,12 Variância 0,0412 0,1734 Dr. José Carlos Dalmas / Ms. José da Costa Soeiro / Ms. Carla Franciele Höring Centro de Ciências Exatas (CCE) – Departamento de Estatística (DSTA) 52 ATIVIDADE 6 – SEPARATRIZES / BOXPLOT 1) Os dados abaixo se referem aos minutos gastos para o atendimento no caixa de um determinado banco (min). Faça uma analise descritiva completa para os dados abaixo, ou seja, calcule as medidas de posição, dispersão e construa o gráfico de Box plot. 6 12 12 14 15 15 15 15 16 17 18 18 19 19 19 20 21 21 22 22 22 23 23 23 23 23 23 24 25 25 25 27 27 28 32 2) Um dos objetivos da administração é lucrar o máximo possível com o capital investido em sua empresa. Uma medida de bom desempenho é o retorno sobre a contrapartida - razão da entrada liquida pela contrapartida das ações. Mostrados a seguir estão os mais recentes retornos sobre as porcentagens de contrapartida para 25 empresas. 9,0 19,6 22,9 41,6 11,4 15,8 52,7 17,3 12,3 5,1 17,3 31,1 9,6 8,6 11,2 12,8 12,2 14,5 9,2 16,6 5,0 30,3 14,7 19,2 6,2 a) Forneça a regra de cinco itens para os dados. b) Calcule os limites inferior e superior. c) Trace o gráfico em caixa. 3) Os dados abaixo se referem aos resultados obtidos em um teste em um grupo de pessoas: 1,5 1,5 1,8 1,8 1,9 2,0 2,4 2,7 3,0 3,6 3,9 4,2 4,2 4,2 4,2 4,2 4,2 4,5 5,1 5,1 5,4 5,7 5,9 6,0 6,0 6,0 6,0 6,0 6,1 6,2 6,4 6,5 6,8 6,9 6,9 7,2 7,2 7,2 7,4 7,4 7,5 7,5 7,7 7,8 7,8 7,8 7,8 8,0 8,1 8,1 8,1 8,1 8,4 8,4 8,7 9,0 9,1 9,3 9,4 9,5 4)Uma amostra dos salários iniciais pagos aos novos graduados em economia é apresentada a seguir. Os dados estão em milhares de reais. 2,07 1,98 2,72 1,82 2,42 2,27 2,38 2,07 2,21 2,59 2,53 2,93 2,91 3,00 3,02 2,89 3,04 3,03 2,11 2,06 2,33 3,06 2,23 3,09 3,01 3,05 2,29 3,18 2,53 2,33 a) Quartil 1 e 3 b) Calcule os decis 3 e 6 c) Calcule os percentis 9 e 90 Dr. José Carlos Dalmas / Ms. José da Costa Soeiro / Ms. Carla Franciele Höring Centro de Ciências Exatas (CCE) – Departamento de Estatística (DSTA) 53 ATIVIDADE 7 – PROBABILIDADE 1) Numa empresa há 10 homens e 20 mulheres. Metade dos homens e das mulheres é casada. Ao retirar ao acaso uma pessoa, qual a probabilidade de ser: a) ser mulher b) ser homem c) ser homem e casado d) ser mulher e solteira e) sabendo que é mulher de ser casada? 2) Dois dados são lançados simultaneamente. Qual a probabilidade de: a) a soma ser menor que quatro b) a soma ser nove c) o primeiro resultado ser maior que o segundo d) os resultados serem iguais. 3) Um estudo de 500 vôos da Voe Alegre selecionados ao acaso mostrou que 430 chegaram no horário. Qual é a probabilidade de um vôo dessa empresa não chegar no horário? 4) Dentre 400 motoristas selecionados ao acaso na faixa etária de 20 a 24 anos, 136 estiveram envolvidos em acidentes de carros no ano anterior. Selecionado ao acaso um motorista dessa faixa etária, qual a probabilidade de ele (ou ela) se envolver em um acidente de carro no próximo? 5) Quanto o antialérgico Tira Tira foi testado clinicamente, 70 pessoas tiveram sonolência e 711 não. Com essa amostra estime a probabilidade de um usuário desse antialérgico ter sonolência. 6) Numa bolsa tem se cinco moedas de R$ 1,00 e quatro de R$ 0,50. Qual a probabilidade de ao se retirar duas moedas se obtenha R$ 1,50. 7) Em um lote tem oito peças com pequenos defeitos, 12 com grandes defeitos e 15 perfeitas. Qual a probabilidade ao se retirar: a) uma peça ao acaso e ela seja perfeita ou tenha pequenos defeitos? b) quatro peças ao acaso, todas tenham grandes defeitos? 8) Se há seis pneus defeituosos em um lote de quinze, escolhem-se três pneus para uma inspeção, qual é a probabilidade de que: a) um dos pneus defeituosos seja incluído? b) no mínimo dois tenham defeitos? c) no máximo dois sejam perfeitos? 9) Uma empresa de seguros oferece quatro níveis de dedução- nenhum, baixo, médio e alto- para os possuidores de apólices de seguros residenciais e três níveis diferentes (baixo, médio e alto) para os possuidores de apólices de seguros de automóveis. A tabela a seguir fornece as proporções das diversas categorias de segurados que possuem ambos os tipos de seguros. AUTOMÓVEL RESIDENCIAL Nenhum Baixo Médio Alto Baixo 0,04 0,06 0,05 0,03 Médio 0,07 0,10 0,20 0,10 Alto 0,02 0,03 0,15 0,15 Suponha que um indivíduo que possua ambos os tipos de apólices seja selecionado aleatoriamente. a) Qual é a probabilidade de que o indivíduo tenha dedução média de automóvel e alta de residência? b) Qual é a probabilidade de que o indivíduo tenha dedução Baixa de automóvel? Uma dedução baixa de residência? c) Qual é a probabilidade de que o indivíduo esteja na mesma categoria para deduções de automóvel e residência? d) Com base na resposta da parte c, qual é a probabilidade de que duas categorias sejam diferentes? e) Qual é a probabilidade de que o indivíduo tenha ao menos um nível baixo de dedução? Dr. José Carlos Dalmas / Ms. José da Costa Soeiro / Ms. Carla Franciele Höring Centro de Ciências Exatas (CCE) – Departamento de Estatística (DSTA) 54 f) Usando a resposta da parte (e), qual é a probabilidade de que nenhum nível de dedução seja baixo? 10) A tabela abaixo relata a freqüência com que 2000 segurados usaram o hospital. HOMENS MULHERES TOTAL Usaram o hospital 100 150 Não usaram o hospital 900 850 TOTAL 1000 1000 Qual a probabilidade de que uma pessoa segurada: a) tenha usado o hospital dado que ela seja mulher? b) não tenha usado o hospital? 11) Num grupo de 15 pessoas temos: HOMENS MULHERES TOTAL EMPREGADOS 5 3 8 DESEMPREGADOS 5 2 7 TOTAL 10 5 15 Qual a probabilidade de que um indivíduo escolhido aleatoriamente esteja: a) Desempregado. b) Empregado. c) Mulher desempregada? d) empregado sabendo que é homem? 12) A tabela abaixo mostra as promoções oficiais masculinas e femininas de uma grande força policial metropolitana. MASCULINO FEMININO TOTAL Promovidos 288 36 Não-promovidos 672 204 TOTAL Qual a probabilidade de um oficial ser promovido dado que é masculino? 13) Em um levantamento com estudantes de MBA, os seguintes dados foram obtidos sobre a razão principal de ter se ligado à escola que eles se matricularam. Qualidade Custo/Conveniência Outras TOTAL Tempo Integral 421 393 76 890 Tempo Parcial 400 593 46 1039 TOTAL 821 986 122 1929 a) Se um estudante é de tempo integral, qual a probabilidade de que a qualidade tenha sido a razão de sua escolha? b) Qual a probabilidade de que o custo/conveniência tenha sido a razão da escolha? Dr. José Carlos Dalmas / Ms. José da Costa Soeiro / Ms. Carla Franciele Höring Centro de Ciências Exatas (CCE) – Departamento de Estatística (DSTA) 55 ATIVIDADE 8 – DISTRIBUIÇÃO BINOMIAL 1) Uma pesquisa revelou que 25% dos clientes de certo banco tem detinham a maior parte de suas aplicações em ações. Escolhidos ao acaso 15 clientes, qual é a probabilidade de que pelo menos três deles tenha esse perfil? 2) Cinco por cento dos motoristas de ônibus de certa cidade são mulheres. Suponha que 10 motoristas são selecionados aleatoriamente para serem entrevistados sobre a qualidade de suas condições de trabalho. a) Qual é a probabilidade de que dois dos motoristas sejam mulheres? b) Qual é a probabilidade de que nenhum seja mulher? c) Qual é a probabilidade de que pelo menos um será mulher? 3) A probabilidade de uma imobiliária de não receber um aluguel em imóveis de alto padrão é de um terço. Em seis casas de alto padrão alugadas, qual a probabilidade de: a) Não receba o aluguel de duas casas? b) Não receba o aluguel de nenhuma casa? 4) A probabilidade de um presumível cliente, escolhido aleatoriamente, faça uma compra, é de 30%. Se o vendedor visita cinco clientes, qual a probabilidade que ele realizará: a) Exatamente três vendas? b) Quatro ou mais vendas? c) Menos de duas vendas 5) Um fabricante de mesas de bilhar suspeita que 2% de seus produtos apresentam algum tipo de defeito. Se tal suspeita é correta, determine a probabilidade de que numa amostra de nove mesas: a) Não ache nem uma defeituosa b) Ache ao menos uma defeituosa. 6) Se há três pneus defeituosos em um lote de 20, e se escolhem quatro pneus do lote para uma inspeção, qual é a probabilidade de que um dos pneus defeituosos seja incluído? 7) Se os registros indicam que 504 dentre 813 lavadoras automáticas de pratos vendidas por uma grande loja de varejo exigiram reparos dentro da garantia de um ano, qual é a probabilidade de que em uma amostra de 10 lavadoras, uma dessas não venha a exigir reparo dentro da garantia? 8) Suponha que haja uma probabilidade de 60% de um carro furtado em certa cidade do sul ser recuperado. Determine a probabilidade de: a) dois dentre 10 carros furtados serem recuperados; b) no mínimo nove dentre 10 carros furtados serem recuperados. 9) A probabilidade de um automóvel, trafegando por uma rodovia, ter seus pneus classificados como adequados é de 70%. Doze carros são detidos para verificação. Determine as probabilidades: a) de seis terem pneus adequados; b) pelo menos 10 terem pneus adequados. Dr. José Carlos Dalmas / Ms. José da Costa Soeiro / Ms. Carla Franciele Höring Centro de Ciências Exatas (CCE) – Departamento de Estatística (DSTA) 56 ATIVIDADE 9 – DISTRIBUIÇÃO NORMAL 1) Dado que z é uma variável aleatória normal, encontre a área para cada uma das situações. a) à direita de 0,44 b) entre –1,57 e 0,49 c) à esquerda de 1,20 d) entre 0,52 e 1,22 e) à direita de –0,23 f) entre –1,74 e –1,04 2) Dado que z é uma variável aleatória normal, encontre z para cada uma das situações. a) a área à direita de z é 69,15% d ) a área entre –z e z é 90,30% b) a área à esquerda de z é 21,19% e) a área entre 0 e z é 47,50% c) a área à esquerda de z é 99,48% f) a área entre –z e z é 20,52% 3) O tempo médio que um assinante gasta lendo o jornal Ki- Notícia é de 49 minutos, com desvio padrão de 16 minutos e que os tempos sejam distribuídos normalmente. a) qual é a probabilidade de que um assinante não gastar mais do que 30 minutos lendo o jornal? b) para que 10% que gastam o maior tempo lendo o jornal, quanto tempo isso representa? c) qual o tempo máximo gasto pelos 24% dos que gastam menos tempo na leitura? 4) Os depósitos efetuados no Banco da Ribeira durante o mês de janeiro são distribuídos normalmente, com média de 10.000,00 u.m. e desvio padrão de 1.500 u.m. Um depósito é selecionado aleatoriamente. Encontre a probabilidade de que o depósito seja: a) um valor entre 12.000 u.m. a 15000 u.m.; b) maior do que 20.000 u.m.; c) qual o valor do depósito que possa separar os 20% dos menores depósitos. 5) As sardinhas processadas por uma indústria de enlatados têm comprimento médio de 11,5 cm, com desvio padrão de 0,64 cm. Se a distribuição dos comprimentos das sardinhas pode ser aproximada satisfatoriamente por uma distribuição normal, qual a porcentagem das sardinhas: a) tem comprimento inferior a 10,2 cm? b) tem comprimento entre 11,2 e 11,7 cm? 6) Em qualquer distribuição normal, qual a porcentagem da área total que cai: a) entre -1 e +1 b) entre -2 a +2 c) entre -3 a +3 Na tabela o valor de =1 7) Suponha que a renda média de uma grande comunidade possa ser aproximadamente normal com média de R$ 1500,00 e desvio padrão de R$ 300,00. a) que porcentagem da população terá renda superior a R$ 1860,00; b) numa amostra de 50 assalariados, quantos terão menos de R$ 1050,00 de renda? 8)A distribuição dos pesos de coelhos criados numa granja pode muito bem ser representada por uma distribuição normal, com média de 3Kg e o desvio padrão de 0,8Kg. Um abatedouro comprará 5.000 coelhos e pretende classificá-los de acordo com o peso, do seguinte modo: 20% dos leves como pequenos, os 55% seguintes como médios, os 15% seguintes como grandes e os 10% mais pesados como extras. Quais os limites de peso para cada classe? 9) Uma máquina automática de encher de garrafas de refrigerantes está regulada para que o volume médio do líquido em cada garrafa seja de 1.000 cm 3 e o desvio padrão de 10 cm 3 . Pode-se admitir que Dr. José Carlos Dalmas / Ms. José da Costa Soeiro / Ms. Carla Franciele Höring Centro de Ciências Exatas (CCE) – Departamento de Estatística (DSTA) 57 a variável volume tenha distribuição normal, qual a porcentagem de garrafas em que o volume de líquido é menor que 990 cm 3 ? 10) Uma fábrica de sabonetes sabe que seus produtos pesam, em média, 98 gramas, com desvio padrão de 7 gramas. Em um mês de produção, são fabricadas 420.000 unidades. Para garantir, com 92% de probabilidade, a produção mensal, quantas toneladas de matéria-prima devem ser adquiridas? 11) Há duas máquinas disponíveis para o corte de rolhas para garrafas de vinho. A primeira produz rolhas com diâmetros que possuem uma distribuição normal com média 3 cm e desvio padrão 0,1 cm. A segunda máquina produz rolhas com diâmetros que possuem uma distribuição normal com média 3,04 c e o desvio padrão 0,02 cm. A s rolhas aceitáveis possuem diâmetros entre 2,9 cm e 3,1 cm. Que máquina tem maior probabilidade de produzir uma rolha aceitável? Dr. José Carlos Dalmas / Ms. José da Costa Soeiro / Ms. Carla Franciele Höring Centro de Ciências Exatas (CCE) – Departamento de Estatística (DSTA) 58 ÁREAS DE UMA DISTRIBUIÇÃO NORMAL PADRÃO Cada casa na tabela dá a proporção sob a curva entre Z = 0 e um valor positivo Z. As áreas para os valores de Z negativos são obtidas por simetria. Z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09 0,0 0,0000 0,0040 0,0080 0,0120 0,0160 0,0199 0,0239 0,0279 0,0319 0,0359 0,1 0,0398 0,0438 0,0478 0,0517 0,0557 0,0596 0,0636 0,0675 0,0714 0,0753 0,2 0,0793 0,0832 0,0871 0,0910 0,0948 0,0987 0,1026 0,1064 0,1103 0,1141 0,3 0,1179 0,1217 0,1255 0,1293 0,1331 0,1368 0,1406 0,1443 0,1480 0,1517 0,4 0,1554 0,1591 0,1628 0,1664 0,1700 0,1736 0,1772 0,1808 0,1844 0,1879 0,5 0,1915 0,1950 0,1985 0,2019 0,2054 0,2088 0,2123 0,2157 0,2190 0,2224 0,6 0,2257 0,2291 0,2324 0,2357 0,2389 0,2422 0,2454 0,2486 0,2517 0,2549 0,7 0,2580 0,2611 0,2642 0,2673 0,2703 0,2734 0,2764 0,2794 0,2823 0,2852 0,8 0,2881 0,2910 0,2939 0,2967 0,2995 0,3023 0,3051 0,3078 0,3106 0,3133 0,9 0,3159 0,3186 0,3212 0,3238 0,3264 0,3289 0,3315 0,3340 0,3365 0,3389 1,0 0,3413 0,3438 0,3461 0,3485 0,3508 0,3531 0,3554 0,3577 0,3599 0,3621 1,1 0,3643 0,3665 0,3686 0,3708 0,3729 0,3749 0,3770 0,3790 0,3810 0,3830 1,2 0,3849 0,3869 0,3888 0,3907 0,3925 0,3944 0,3962 0,3980 0,3997 0,4015 1,3 0,4032 0,4049 0,4066 0,4082 0,4099 0,4115 0, 4131 0,4147 0,4162 0,4177 1,4 0,4192 0,4207 0,4222 0,4236 0,4251 0,4265 0,4279 0,4292 0,4306 0,4319 1,5 0,4332 0,4345 0,4357 0,4370 0,4382 0,4394 0,4406 0,4418 0,4429 0,4441 1,6 0,4452 0,4463 0,4474 0,4484 0,4495 0,4505 0,4515 0,4525 0,4535 0,4545 1,7 0,4554 0,4564 0,4573 0,4582 0,4591 0,4599 0,4608 0,4616 0,4625 0,4633 1,8 0,4641 0,4649 0,4656 0,4664 0,4671 0,4678 0,4686 0,4693 0,4699 0,4706 1,9 0,4713 0,4719 0,4726 0,4732 0,4738 0,4744 0,4750 0,4756 0,4761 0,4767 2,0 0,4772 0,4778 0,4783 0,4788 0,4793 0,4798 0,4803 0,4808 0,4812 0,4817 2,1 0,4821 0,4826 0,4830 0,4834 0,4838 0,4842 0,4846 0,4850 0,4854 0,4857 2,2 0,4861 0,4864 0,4868 0,4871 0,4875 0,4878 0,4881 0,4884 0,4887 0,4890 2,3 0,4893 0,4896 0,4898 0,4901 0,4904 0,4906 0,4909 0,4911 0,4913 0,4916 2,4 0,4918 0,4920 0,4922 0,4925 0,4927 0,4929 0,4931 0,4932 0,4934 0,4936 2,5 0,4938 0,4940 0,4941 0,4943 0,4945 0,4946 0,4948 0,4949 0,4951 0,4952 2,6 0,4953 0,4955 0,4956 0,4957 0,4959 0,4960 0,4961 0,4962 0,4963 0,4964 2,7 0,4965 0,4966 0,4967 0,4968 0,4969 0,4970 0,4971 0,4972 0,4973 0,4974 2,8 0,4974 0,4975 0,4976 0,4977 0,4977 0,4978 0,4979 0,4979 0,4980 0,4981 2,9 0,4981 0,4982 0,4982 0,4983 0,4984 0,4984 0,4985 0,4985 0,4986 0,4986 3,0 0,4987 0,4987 0,4987 0,4988 0,4988 0,4989 0,4989 0,4989 0,4990 0,4990