Esta é uma pré-visualização de arquivo. Entre para ver o arquivo original
- 1 - Uanderson Rebula de Oliveira Probabilidade & Estatística Universidade Estácio de Sá Engenharia de Produção Uanderson Rebula de Oliveira uanderson@csn.com.br www.uandersonrebula.blogspot.com | www.iluminaconsultoria.com.br PROBABILIDADE & ESTATÍSTICA - 2 - Uanderson Rebula de Oliveira Probabilidade & Estatística EMENTA: Conceitos Preliminares. Séries Estatísticas. Medidas de posição e de variação. Conceitos Básicos de Probabilidade. Variáveis Aleatórias. Distribuições de Probabilidades. OBJETIVO: Refletir a partir da Estatística Básica sobre as ferramentas consolidadas pelo uso e pela ciência, disponíveis a todos, que auxiliam na tomada de decisão. Engenharia de Produção UANDERSON REBULA DE OLIVEIRA Pós-graduado em Controladoria e Finanças-Universidade Federal de Lavras-UFLA Pós-graduado em Logística Empresarial-Universidade Estácio de Sá-UNESA Graduado em Ciências Contábeis-Universidade Barra Mansa-UBM Técnico em Metalurgia-Escola Técnica Pandiá Calógeras-ETPC Técnico em Segurança do Trabalho-ETPC Operador Siderúrgico e Industrial-ETPC Professor na UNIFOA no curso de Pós graduação em Engenharia de Segurança do Trabalho. Professor na Universidade Barra Mansa – UBM nos cursos de Engenharia de Produção e de Petróleo. Professor da Universidade Estácio de Sá - UNESA nas disciplinas de Gestão Financeira de Empresas, Fundamentos da Contabilidade e Matemática Financeira, Probabilidade e Estatística para o curso de Engenharia de Produção, Estatística I e II para o curso de Administração, Ergonomia, Higiene e Segurança do Trabalho, Gestão de Segurança e Análise de Processos Industriais (Gestão Ambiental), Gestão da Qualidade: programa 5S (curso de férias). Professor na Associação Educacional Dom Bosco para os cursos de Adminitração e Logística. Ex-professor Conteudista na UNESA (elaboração de Planos de Ensino e de Aula, a nível nacional). Professor em escolas técnicas nas disciplinas de Estatística Aplicada, Estatística de Acidentes do Trabalho, Probabilidades, Contabilidade Básica de Custos, Metodologia de Pesquisa Científica, Segurança na Engenharia de Construção Civil e Higiene do Trabalho. Ex-professor do SENAI. Consultor interno, desenvolvedor e instrutor de cursos corporativos na CSN, a níveis Estratégicos, Táticos e Operacionais. Membro do IBS–Instituto Brasileiro de Siderurgia. Resende - RJ – 2012.1 PROBABILIDADE & ESTATÍSTICA - 3 - Uanderson Rebula de Oliveira Probabilidade & Estatística APRESENTAÇÃO DA DISCIPLINA Uma das ferramentas mais utilizadas hoje em dia pelos cientistas, analistas financeiros, médicos, engenheiros, jornalistas etc. é a Estatística, que descreve os dados observados e desenvolve a metodologia para a tomada de decisão em presença da incerteza. O verbete estatística foi introduzido no século XVIII, tendo origem na palavra latina status (Estado), e serviu inicialmente a objetivos ligados à organização político-social, como o fornecimento de dados ao sistema de poder vigente. Hoje em dia, os modelos de aplicação da Teoria Estatística se estendem por todas as áreas do conhecimento, como testes educacionais, pesquisas eleitorais, análise de riscos ambientais, finanças, controle de qualidade, análises clínicas, índices de desenvolvimento, modelagem de fenômenos atmosféricos etc. Podemos informalmente dizer que a Teoria Estatística é uma ferramenta que ajuda a tomar decisões com base na evidência disponível, decisões essas afetadas por margens de erro, calculadas através de modelos de probabilidade. No entanto, a probabilidade se desenvolveu muito antes de ser usada em aplicações da Teoria Estatística. Um dos marcos consagrados na literatura probabilística foi a correspondência entre B. Pascal (1623-1662) e P. Fermat (1601- 1665), onde o tema era a probabilidade de ganhar em um jogo com dois jogadores, sob determinadas condições. Isso mostra que o desenvolvimento da teoria de probabilidades começou com uma paixão humana, que são os jogos de azar, mas evoluiu para uma área fortemente teórica, em uma perspectiva de modelar a incerteza, derivando probabilidades a partir de modelos matemáticos. A análise combinatória deve grande parte de seu desenvolvimento à necessidade de resolver problemas probabilísticos ligados à contagem, mas hoje há diversas áreas em que seus resultados são fundamentais para o desenvolvimento de teorias, como, por exemplo, a área de sistemas de informação. Nesta apostila encontraremos as definições de Estatística, vocabulário básico, população e amostra, séries estatísticas, medidas de tendência central, medidas de variabilidade, probabilidades, variáveis aleatórias e distribuições de probabilidades. - 4 - Uanderson Rebula de Oliveira Probabilidade & Estatística Falou mais o Senhor a Moisés, no deserto de Sinai, na tenda da congregação, no primeiro dia do mês segundo, no segundo ano da sua saída da terra do Egito, dizendo: Tomai a soma de toda a congregação dos filhos de Israel, segundo as suas gerações, segundo a casa dos seus pais, conforme o número dos nomes de todo o varão, cabeça por cabeça; Da idade de vinte anos e para cima, todos os que saem à guerra em Israel; a estes contareis segundo os seus exércitos, tu e Aarão. Estará convosco, de cada tribo, um homem que seja cabeça da casa dos seus pais. Todos os contados, pois, foram seiscentos e três mil, quinhentos e cinquenta. Números 1: 1-4; 46 - 5 - Uanderson Rebula de Oliveira Probabilidade & Estatística Sumário 1 – CONCEITOS PRELIMINARES 1.1 CONCEITO E IMPORTÂNCIA DA ESTATÍSTICA, 7 1.2 FASES DO ESTUDO ESTATÍSTICO, 11 1.3 VOCABULÁRIO BÁSICO DE ESTATÍSTICA, 12 1.4 POPULAÇÃO E AMOSTRA, 14 1.5 ESTATÍSTICA DESCRITIVA E INFERENCIAL , 16 2 – SÉRIES ESTATÍSTICAS 2.1 CONCEITOS E TIPOS DE SÉRIES ESTATÍSTICAS, 18 Tabelas, 18 Gráficos, 19 2.2 DISTRIBUIÇÃO DE FREQUÊNCIA, 22 Freqüência absoluta e histograma, 22 Freqüência relativa, absoluta acumulada e relativa acumulada, 23 Agrupamento em classes, 24 Polígono de freqüência e ogiva, 25 3 – MEDIDAS 3.1 MEDIDAS DE POSIÇÃO, 27 MÉDIA, 27 Média simples, 27 Média ponderada, 27 Média de distribuição de frequência, 28 MEDIANA, 29 MODA, 30 RELAÇÃO ENTRE MÉDIA, MEDIANA E MODA, 32 3.2 MEDIDAS DE VARIAÇÃO (OU DISPERSÃO), 33 Variância e Desvio Padrão, 34 Coeficiente de Variação, 36 Desvio padrão de Distribuição de freqüência, 37 4 – INTRODUÇÃO À PROBABILIDADE 4.1 CONCEITOS BÁSICOS EM PROBABILIDADE, 39 Experimento aleatório, 39 Espaço amostral, 40 Princípio fundamental da contagem, 40 Eventos, 42 Probabilidade clássica, 42 REFERÊNCIAS BIBLIOGRÁFICAS, 44 ANEXO I – LIVROS RECOMENDADOS, 45 ANEXO II – Software BIOESTAT , 46 ANEXO III – ESTATÍSTICA NO EXCEL, 47 - 6 - Uanderson Rebula de Oliveira Probabilidade & Estatística 1 CONCEITOS PRELIMINARES - 7 - Uanderson Rebula de Oliveira Probabilidade & Estatística 1.1 CONCEITO E IMPORTÂNCIA DA ESTATÍSTICA ESTATÍSTICA NA PRÁTICA Analise as informações abaixo para melhor compreensão do conceito de Estatística. ACIDENTES DO TRABALHO NO BRASIL – 1970 a 2005 Conceito de Acidente: Lesão corporal ou doença, relacionada com o exercício do trabalho. (Lei 8.213/91 – art. 19 a 21) INSS: Órgão público responsável pela coleta, organização e representação dos dados. ; Coleta: Por meio de um formulário eletrônico denominado “CAT – Comunicação de Acidente do Trabalho”, enviado pelas empresas quando da ocorrência, conforme determina o art. 22 da Lei 8.213/91. ; Organização: Através de um grande banco de dados do INSS. ; Representação: Através de um documento denominado “Anuário Estatístico de Acidentes do Trabalho”, contendo tabelas, gráficos e diversas análises. Disponível no site www.previdencia.gov.br, na seção “Estatística”. Motivo: Quando o trabalhador se afasta por motivo de acidente, o INSS concede benefícios acidentários, como auxílio doença acidentário, auxílio acidente, aposentadoria por invalidez, pensão por morte, reabilitação entre outros. COMPILAÇÃO E ANÁLISE DE DADOS (INFORMAÇÕES) sobre acidentes do trabalho, de 1970 a 2005: Observa-se ao longo dos anos o aumento gradativo da quantidade de trabalhadores no Brasil, de 7.284.022 chegando a 33.238.617, reflexo do crescimento econômico do País. Essas informações (dados) são importantes para fins de comparação com a evolução da quantidade de acidentes do trabalho no mesmo período, como segue abaixo: No período de 1970 a 1976 a quantidade de acidentes foi alta, comparando-se com a pequena quantidade de trabalhadores no mesmo período. Somente a partir de 1978 os acidentes começaram a reduzir, em razão da aprovação das Normas Regulamentadoras – NR’s (disponível no www.mte.gov.br), tornando-se de aplicação obrigatória em todo o País. Esta redução pode ser vista como positiva, entretanto, não podemos comemorar esses números, pois a quantidade de acidentes ainda é alarmante e está praticamente estagnada, desde 1994. 7.284.022 8.148.987 11.537.024 14.945.489 16.638.799 18.686.355 19.476.36219.673.915 22.163.827 23.661.57923.198.656 22.272.843 23.667.24123.830.312 24.491.635 26.228.629 27.189.614 28.683.91329.544.927 31.407.576 33.238.617 0 5.000.000 10.000.000 15.000.000 20.000.000 25.000.000 30.000.000 35.000.000 1970 1972 1974 1976 1978 1980 1982 1984 1986 1988 1990 1992 1994 1996 1998 2000 2001 2002 2003 2004 2005 Evolução da QUANTIDADE de TRABALHADORES no Brasil - 1970 a 2005. FONTE: Revista Proteção Anos 1.220.111 1.504.723 1.796.671 1.743.825 1.551.461 1.464.211 1.178.472 961.575 1.207.859 991.581 693.572 532.514 388.304 395.455 414.341 363.868340.251393.071 399.077 465.700 491.711 0 250.000 500.000 750.000 1.000.000 1.250.000 1.500.000 1.750.000 2.000.000 1970 1972 1974 1976 1978 1980 1982 1984 1986 1988 1990 1992 1994 1996 1998 2000 2001 2002 2003 2004 2005 Involução da QUANTIDADE de ACIDENTES DO TRABALHO no Brasil - 1970 a 2005. Anos FONTE: Revista Proteção Aprovação das NR’s - 8 - Uanderson Rebula de Oliveira Probabilidade & Estatística E as regiões? Como esses acidentes estão distribuídos nas regiões do país? Qual a pior região? Vejamos abaixo em um Cartograma (mapa com dados), REFERENTE AO ANO DE 2005 (491.711 acidentes): Observa-se que a região em 1° lugar em número de acidentes é a Sudeste, em 2° está a região Sul, em 3° a região Nordeste, em 4° a região Centro-Oeste e por último a Norte. Ao analisarmos este gráfico podemos tomar diversas conclusões, porém, tais conclusões somente são possíveis através de um estudo, o que demanda tempo. Todavia, observa-se que a quantidade de acidentes acompanha a porcentagem da participação do PIB da região. Esta correlação pode ser resultado do reflexo da economia da região. Ora, a região Sudeste, por exemplo, corresponde a 56,5% do PIB do País. Logicamente esta região possui um maior número de empresas e, consequentemente, maior número de mão-de-obra e atividades produtivas, fato que pode justificar a enorme quantidade de acidentes comparada com as demais regiões. Esses dados também podem estar relacionados com as políticas dos estados e das empresas, a atuação das fiscalizações do Ministério do Trabalho, as culturas das regiões, os investimentos empresariais, a capacitação de mão de obra (treinamentos) entre outros fatores. Entende-se por Produto Interno Bruto (PIB) a soma, em valores monetários, de todos os bens e serviços finais produzidos em uma determinada região. Tradicionalmente, no Brasil, as políticas de desenvolvimento têm se restringido aos aspectos econômicos e vêm sendo traçadas de maneira paralela ou pouco articuladas com as políticas sociais, cabendo a estas últimas arcarem com os ônus dos possíveis danos gerados sobre a saúde da população, dos trabalhadores em particular e a degradação ambiental. Para que o Estado cumpra seu papel para a garantia desses direitos, é mister a formulação e implementação de políticas e ações de governo. POSSÍVEIS SOLUÇÕES PARA REDUZIR OS ACIDENTES A partir da análise dos dados podemos concluir que a política de segurança do trabalho adotada no País está estagnada. A simples aplicação da norma regulamentadora não está sendo suficiente para reduzir o índice de acidentes. Os dados nos mostram que não haverá mudanças significativas se não forem feitas alterações nessa política. Para contornar a situação, os Ministérios do Trabalho, da Saúde e da Previdência Social publicaram, para consulta pública, em 29.12.2004 a PNSST - POLÍTICA NACIONAL DE SEGURANÇA E SAÚDE DO TRABALHADOR, com a finalidade de promover a melhoria da qualidade de vida e da saúde do trabalhador. Os Ministérios reconheceram a deficiência da segurança do trabalho no país, carecendo de mecanismos que: • Incentivem medidas de prevenção; • Responsabilizem os empregadores; • Propiciem o efetivo reconhecimento dos direitos do trabalhador; • Diminuam a existência de conflitos institucionais; • Tarifem de maneira mais adequada as empresas e • Possibilite um melhor gerenciamento dos fatores de riscos ocupacionais. Distribuição da quantidade e porcentagem de acidentes de trabalho no Brasil por Regiões, correlacionados com o Produto Interno Bruto - PIB - ano 2005. FONTE: Adaptado da Revista Proteção e do IBGE (www.ibge.gov.br) NORDESTE • Acidentes: 49.010 (10% do total) • PIB: 13,1% de participação SUDESTE • Acidentes: 279.689 (57% do total) • PIB: 56,5% de participação NORTE • Acidentes: 19.117 (4% do total) • PIB: 5% de participação CENTRO-OESTE • Acidentes: 31.470 (6% do total) • PIB: 8,9% de participação SUL • Acidentes: 112.425 (23% do total) • PIB: 16,6% de participação Espírito Santo - 11.039 acidentes Minas Gerais - 52.335 acidentes Rio de Janeiro - 34.610 acidentes São Paulo - 181.705 acidentes É campeão de acidentes no Brasil, participando com 181.705, o que corresponde a 37% do total; por conseguinte o seu PIB também é o maior do País, com 33,9% de participação. - 9 - Uanderson Rebula de Oliveira Probabilidade & Estatística Face ao exposto, a PNSST propõe, dentre outras, as seguintes ações a serem desenvolvidas pelos três Ministérios: Área Ações Tributos1, financiamentos e licitações. ) Estabelecer política tributária que privilegie empresas com menores índices de acidentes e que invistam na melhoria das condições de trabalho; ) Criar linhas de financiamento para a melhoria das condições de trabalho, incluindo máquinas e equipamentos, em especial para as pequenas e médias empresas; ) Incluir requisitos de SST para concessão de financiamentos públicos e privados; ) Incluir requisitos de SST nos processos de licitação dos órgãos públicos; ) Instituir a obrigatoriedade de publicação de balanço de SST para as empresas, a exemplo do que já ocorre com os dados contábeis; Educação e pesquisa ) Incluir conhecimentos básicos em SST no currículo do ensino fundamental e médio; ) Incluir disciplinas em SST no currículo de ensino superior, em especial nas carreiras de profissionais de saúde, engenharia e administração; ) Estimular a produção de estudos e pesquisas na área de interesse desta Política; ) Articular instituições de pesquisa e universidades para a execução de estudos e pesquisas em SST, integrando uma rede de colaboradores para o desenvolvimento técnico - cientifico na área; ) Desenvolver um amplo programa de capacitação dos profissionais, para o desenvolvimento das ações em segurança e saúde do trabalhador; Ambientes nocivos ) Eliminar as políticas de monetarização dos riscos (adicionais de riscos). ) Outras ações Coleta de dados ) Compatibilizar os instrumentos de coleta de dados e fluxos de informações. ) Incluir nos Sistemas e Bancos de Dados as informações contidas nos relatórios de intervenções e análises dos ambientes de trabalho, elaborados pelos órgãos de governo envolvidos nesta Política. CONSIDERAÇÕES FINAIS SOBRE O ESTUDO DE ACIDENTES. O que acabamos de ver é um estudo estatístico. Como vimos, os dados sobre acidentes do trabalho no Brasil são controladas pelo INSS. A comunicação de acidentes permite ao INSS estimar e acompanhar o real impacto do trabalho sobre a saúde e a segurança da população brasileira. O INSS coleta, organiza, apresenta e publica as estatísticas de acidentes do trabalho no Brasil. Conforme observado, quando ocorre um acidente, a empresa, por força de lei, é obrigada a enviar a CAT ao INSS, alimentando, assim, o seu grande banco de dados. É importante ressaltar que os dados de acidentes de trabalho não se constituem, tão somente, num importante registro histórico, mas sim numa ferramenta inestimável para os profissionais que desempenham atividades nas áreas de saúde e segurança do trabalhador, assim como pesquisadores e demais pessoas interessadas no tema. A análise desses dados possibilita a construção de um diagnóstico mais preciso acerca da epidemiologia dos acidentes, propiciando, assim, a elaboração de políticas mais eficazes para as áreas relacionadas com o tema. TÓPICO PARA REFLEXÃO Acidente do Trabalho: o problema do Brasil. Os acidentes de trabalho afetam a produtividade econômica, são responsáveis por um impacto substancial sobre o sistema de proteção social e influenciam o nível de satisfação do trabalhador e o bem estar geral da população. Estima-se que a ausência de segurança nos ambientes de trabalho no Brasil tenha gerado, no ano de 2003, um custo de cerca de R$32,8 bilhões para o país. Deste total, R$ 8,2 bilhões correspondem a gastos com benefícios acidentários e aposentadorias especiais, equivalente a 30% da necessidade de financiamento do Regime Geral de Previdência Social - RGPS verificado em 2003, que foi de R$ 27 bilhões. O restante da despesa corresponde à assistência à saúde do acidentado, indenizações, retreinamento, reinserção no mercado de trabalho e horas de trabalho perdidas. Isso sem levar em consideração o sub-dimensionamento na apuração das contas da Previdência Social, que desembolsa e contabiliza como despesas não acidentárias os benefícios por incapacidade, cujas CAT não foram emitidas. Ou seja, sob a categoria do auxílio doença não ocupacional, encontra-se encoberto um grande contingente de acidentes que não compõem as contas acidentárias. Parte deste “custo segurança no trabalho” afeta negativamente a competitividade das empresas, pois ele aumenta o preço da mão-de-obra, o que se reflete no preço dos produtos. Por outro lado, o incremento das despesas públicas com previdência, reabilitação profissional e saúde reduz a disponibilidade de recursos orçamentários para outras áreas ou induz o aumento da carga tributária sobre a sociedade. De outro lado, algumas empresas afastam trabalhadores, e muitas vezes os despedem logo após a concessão do beneficio. Com isso, o trabalhador se afasta, já sendo portador de doença crônica contraída no labor, e o desemprego poderá se prolongar na medida em que, para obter o novo emprego, será necessária a realização do exame admissional, no qual serão eleitos apenas aqueles considerados como “aptos” e, portanto, não portadores de enfermidades. Fonte: RESOLUÇÃO CNPS Nº 1.269, DE 15 DE FEVEREIRO DE 2006 _________________ 1. Tributo: Impostos; taxas e contribuições de melhoria, devida ao poder público. - 10 - Uanderson Rebula de Oliveira Probabilidade & Estatística CONCEITO DE ESTATÍSTICA É A CIÊNCIA QUE SE DEDICA EM COLETAR, ORGANIZAR, APRESENTAR, ANALISAR E INTERPRETAR DADOS (INFORMAÇÕES) PARA TOMADA DE DECISÃO. ; Estatística é a ciência dos dados. A Estatística lida com a coleta, o processamento e disposição de dados (informações), atuando como ferramenta crucial nos processos de soluções de problemas. A Estatística facilita o estabelecimento de conclusões confiáveis sobre algum fenômeno que esteja sendo estudado (WERKEMA, 1995). ; É por meio da análise e interpretação dos dados estatísticos que é possível o conhecimento de uma realidade, de seus problemas, bem como, a formulação de soluções apropriadas por meio de um planejamento objetivo da ação, para além dos “achismos” e “casuismos” comuns. ; No uso diário o termo “estatística” refere-se a fatos numéricos. Tenha em mente, entretanto, que estatística é bem diferente de matemática. Estatística é, antes de qualquer coisa, um método científico que determina questões de pesquisa; projeta estudos e experimentos; coleta, organiza, resume e analisa dados; interpreta resultados e esboça conclusões. Ou seja, utiliza-se dados como evidências para responder a interessantes questões sobre o mundo. A matemática só é utilizada para calcular a estatística e realizar algumas das análises, mais isso é apenas uma pequena parte do que realmente é a estatística. Portanto, a estatística mantém com a matemática uma relação de dependência, solicitando-lhe auxílio, sem o qual não poderia desenvolver-se. ; A Estatística é uma ciência interdisciplinar, ou seja, é comum a duas ou mais disciplinas ou ramos de conhecimento. Assim, a Estatística é aplicada na Medicina, Administração, Engenharias, Economia, Contabilidade, Direito, Segurança do Trabalho, Qualidade, Marketing entre outras áreas. Veja abaixo. Medicina. Estudos de epidemiologia, inter-relações dos determinantes da freqüência e distribuição de doenças populacionais *Engenharia de Produção. Estudos de um conjunto de dados de todas as fases de um processo produtivo. Segurança do Trabalho. Estudos de acidentes e doenças, suas causas, quantidade, parte atingida, setores, % de afastamentos etc. Contabilidade. Estudos das informações financeiras das empresas públicas e privadas. Finanças. Estudos de uma série de informações estatísticas para orientar investimentos. Economia. Estudos de taxas de inflação, índice de preços, taxa de desemprego, futuro da economia. *Engenharia de Produção – A aplicação da Estatística na produção merece especial atenção. A atual ênfase na qualidade torna o controle da qualidade uma importante aplicação da estatística na área da produção. Usa-se uma série de mapas estatísticos de controle de qualidade para monitorar o resultado (output) de um processo de produção. Suponha, por exemplo, que uma máquina preencha recipientes com 2 litros de determinado refrigerante. Periodicamente, um operador do setor de produção seleciona uma quantidade de recipientes e verifica a exatidão, ou seja, se não há desvios. A Estatística também é usada na Engenharia de Produção para Estratificação, que consiste no agrupamento da informação (dados) sob vários pontos de vista, de modo a focalizar a ação, considerando os fatores equipamento, tempo entre outros. Exemplo: Tipo de dano: Operador: Máquina de lavar: Roupas danificadas em uma lavanderia Tipo de roupa: Marca do sabão: Máquina de secar: - 11 - Uanderson Rebula de Oliveira Probabilidade & Estatística 1.2 FASES DO ESTUDO ESTATÍSTICO Um estudo estatístico confiável depende do planejamento e da correta execução das seguintes etapas: 1. Definir o que será estudado e a natureza dos dados, como exemplo: ESTUDO NATUREZA DOS DADOS Acidentes do Trabalho no Brasil ; Quantidade e período ; Por regiões, estados ou municípios ; Por atividade econômica ; Por idade dos acidentados ; Por parte do corpo atingida ; Por causas dos acidentes etc. Peças danificadas na linha A ; Tipo de peça | Tipo de defeito ; Quantidade ; Período e Turnos ; Máquinas e Operadores ; Matéria prima etc. Defina com clareza os objetivos da pesquisa, ou seja, o que se pretende apurar, que tipo de problema buscará detectar. 2. Coletar dados Após definir o que será estudado e o estabelecimento do planejamento do trabalho (forma de coleta dos dados, cronograma das atividades, custos envolvidos, levantamento das informações disponíveis), o passo seguinte é o da coleta de dados, que consiste na busca ou compilação dos dados, componentes do fenômeno a ser estudado. Nessa etapa recolhem-se os dados tendo o cuidado de controlar a qualidade da informação. O sucesso de uma pesquisa depende muito da qualidade dos dados recolhidos. Podem ser por meio de Criação de Softwares, a exemplo da CAT; Uso de Softwares da empresa; Dados históricos da empresa (físicos); Pesquisas com questionários etc. 3. Organizar e contar dados À procura de falhas e imperfeições, os dados devem ser cuidadosamente organizados e contados, a fim de não incorrermos em erros grosseiros que possam influenciar nos resultados. No exemplo da “Estatística na prática”, após a coleta da quantidade de acidentes por meio da CAT, organiza-os por período, regiões etc. Da mesma maneira, se você usa um questionário para coletar dados na empresa, organiza-os da forma necessária à pesquisa, além da contagem a ser feita. 4. Apresentação de dados 5. Análise dos dados e tomada de decisão Chegamos à fase mais complexa do processo estatístico, que consiste na análise dos dados. Por fim, a partir da análise realizada, poderemos chegar a uma tomada de decisão. Observe o estudo “Estatística na prática”. O que resultou a análise dos acidentes no Brasil, no período de 1970 a 2005? Veja que os Ministérios do Trabalho, Previdência Social e da Saúde se mobilizaram para resolverem essa questão de saúde pública, com diversas ações a serem implementadas no país. A partir dessa discussão, fica claro que um profissional com conhecimentos de Estatística terá maior facilidade em identificar um problema em sua área de atuação, determinar os tipos de dados que irão contribuir para sua análise, coletar esses dados e a seguir estabelecer conclusões e determinar um plano de ação para a solução do problema detectado. Os dados devem ser apresentados sob a forma de tabelas ou gráficos, a fim de tornar mais fácil e rápido o exame daquilo que está sendo estudado. 1.220. 111 1.504. 723 1.796.671 1.743.825 1.551.461 1.464.211 1.178. 472 961. 575 1. 207.859 991.581 693. 572 532.514 388.304 395. 455 414.341 363. 868 340.251 393.071 399.077 465.700 491.711 0 250 .000 500 .000 750 .000 1.000 .000 1.250 .000 1.500 .000 1.750 .000 2.000 .000 1970 1972 1974 19 76 1978 19 80 1982 1 984 1986 1 988 1990 1992 1994 1996 199 8 2000 20 01 2002 20 03 2004 2 005 Involução da QUANTIDADE de ACIDENTES DO TRABALHO no Brasil - 1970 a 2005. Anos FONTE: Revista Proteção Aprovação das NR’s - 12 - Uanderson Rebula de Oliveira Probabilidade & Estatística 1.3 VOCABULÁRIO BÁSICO DE ESTATÍSTICA O vocabulário utilizado em estudos estatísticos teve sua origem nos primeiros estudos feitos pela humanidade e que eram relativos à demografia (estudo estatístico das populações). Por isso a Estatística emprega termos próprios dessa área de conhecimento, mas com um sentido diferenciado. Assim, para dar prosseguimento, é de extrema importância destacar alguns termos utilizados no jargão estatístico. VARIÁVEL – É o termo usado para aquilo que você está pesquisando, estudando, analisando. , ; No estudo representado no gráfico abaixo a variável é o acidente do trabalho. Utilizada como um adjetivo do vocabulário do dia-a-dia, variável sugere que alguma coisa se modifica ou varia. São exemplos de Variáveis Doenças, Sexo, Estaturas, Peso, Idade, Renda, Natalidade, Mortalidade, PIB, Inflação, Exportações brasileiras, Produção de café, Alimentação, Peças produzidas por hora, Paradas de produção no mês, Rotatividade de estoque por ano, Poluição, Clima na região sudeste, Consumo de energia no mês, Vendas mensais de uma empresa, Produção diária de automóveis etc. EXEMPLO DE APLICAÇÃO: A associação dos moradores de um bairro queria traçar um perfil dos frequentadores de um parque ali situado. Uma equipe de pesquisa elaborou questões a fim de reunir as informações procuradas. Numa manhã de quarta-feira, 6 pessoas foram entrevistadas e cada uma respondeu a questões para identificar idade, número de vezes que freqüenta o parque por semana, estado civil, meio de transporte utilizado para chegar ao parque, tempo de permanência no parque e renda familiar mensal. Os resultados são mostrados na tabela a seguir: Cada um dos aspectos investigados — os quais permitirão fazer a análise desejada — é denominado variável. 1.220.111 1.504.723 1.796.671 1.743.825 1.551.461 1.464.211 1.178.472 961.575 1.207.859 991.581 693.572 532.514 388.304 395.455 414.341 363.868340.251393.071 399.077 465.700 491.711 0 250.000 500.000 750.000 1.000.000 1.250.000 1.500.000 1.750.000 2.000.000 1970 1972 1974 1976 1978 1980 1982 1984 1986 1988 1990 1992 1994 1996 1998 2000 2001 2002 2003 2004 2005 Involução da QUANTIDADE de ACIDENTES DO TRABALHO no Brasil - 1970 a 2005. FONTE: Revista Proteção Anos VARIÁVEL Variáveis - 13 - Uanderson Rebula de Oliveira Probabilidade & Estatística TIPOS DE VARIÁVEIS Há, pois, uma divisão principal para as variáveis estatísticas, que consiste em considerá-las como Variáveis Quantitativas (discretas ou contínuas) e Variáveis Qualitativas (nominal ou ordinal). Esta divisão é de facílima compreensão! Então, os tipos de Variáveis da pesquisa do parque serão: PARA LEITURA Se a dúvida persiste, você pode observar no quadro abaixo mais esclarecimentos sobre esses conceitos. Tipo de VARIÁVEL Resposta fornecida à pesquisa Quantitativa (Em números) Será Quantitativa a variável para a qual se possa atribuir um valor numérico. Se a resposta fornecida à pesquisa estiver expressa por um número, então a variável é quantitativa. Por exemplo: quantos livros você lê por ano? A resposta é um número? Então, variável quantitativa. Quantas pessoas moram em sua casa? A resposta é um número? Então, novamente, variável quantitativa. No caso do estudo “ACIDENTE DO TRABALHO, é uma variável quantitativa, pois estudamos a quantidade de acidentes no período de 1970 a 2005 ; Discreta (números inteiros) (contagem) Variável Quantitativa Discreta é a variável quantitativa que assume somente números inteiros. Resulta, geralmente, de contagem. Esta variável não pode assumir qualquer valor, dentro de um intervalo de valores de resultados possíveis. Por exemplo, se eu pergunto quantos irmãos você tem, a resposta jamais poderia ser “tenho 3,75 irmãos”, ou “tenho 4,8 irmãos”, ou seja, a resposta não poderia assumir todos os valores de um intervalo! Este acima é o conceito formal de variável discreta! O conceito para memorizar é o seguinte: aquela variável obtida por meio de uma contagem. Em outras palavras: a variável discreta você conta!. Exemplos: quantas pessoas moram na sua casa? Quantos livros você tem? Quantos carros você tem? Se, para responder à pergunta, você faz uma contagem, então está diante de uma variável quantitativa discreta. ; Contínua (Números não inteiros) (medição) Variável Quantitativa Contínua é aquela que pode assumir qualquer valor dentro de um intervalo de resultados possíveis. Se eu pergunto quantos quilos você pesa, a resposta pode ser 65,35kg. Se eu pergunto qual a temperatura na cidade hoje, a resposta pode ser 27,35°C. Para facilitar a memorização, basta lembrar que a variável quantitativa contínua pode ser obtida por uma medição, ou seja, a variável contínua você mede! Exemplos: peso, altura, duração de tempo para resolução de uma prova, pressão, temperatura etc. Qualitativa (nomes, atributos) Se a pergunta é “qual a sua cor preferida?”, logicamente a resposta não será um número, daí estaremos tratando de uma variável qualitativa, ou seja, aquela para a qual não se atribui um valor numérico. Exemplos: Sexo: masculino ou feminino VARIÁVEL QUANTITATIVA QUALITATIVA DISCRETA CONTÍNUA Quando não é possível ordenar as categorias. Ex.: sexo (masculino ou feminino), Cor dos olhos (preto ou verde), campo de estudo (Engenharia, Direito etc) Não é possível estabelecer uma ordem, uma gradação, o mais ou menos importante, prioritário etc. ORDINAL NOMINAL Quando as variáveis forem em números inteiros, obtido por contagem: 0 1 2 3 4 55 77 987 etc. Ex.: Idade (anos), gols de futebol, etc Quando as variáveis forem em números não inteiros, assumem qualquer valor: 0,2 1,12 3,77 4,768 etc. Ex.: Altura (cm), peso (kg), tempo (hh:mm) Números Nome Inteiro Não inteiros Quando é possível ordenas as categorias. Pesquisa de alimentação: [1] Ótimo [2] Bom [3] Regular [4] ruim Grau de instrução de funcionários de uma empresa 1º grau 2º grau Superior Mestrado Doutorado Ordenável Não é ordenável Qualitativa nominal Quantitativa discreta Quantitativa contínua - 14 - Uanderson Rebula de Oliveira Probabilidade & Estatística 1.4 POPULAÇÃO E AMOSTRA Quando você quer saber se a sopa ficou boa, o que você faz? Mexe a panela, retira um pouco com uma colher e prova. Depois tira uma conclusão sobre todo o conteúdo da panela sem, na verdade, ter provado tudo. Portanto, é possível ter uma idéia de como a sopa está sem ter que comer tudo. Isso é o que se faz em estatística. A estatística deixou de ser a simples catalogação de dados numéricos e se tornou o estudo de como chegar a conclusões sobre o todo (população), partindo da observação e análise de partes desse todo (amostra). Essa é sua maior riqueza. Assim, podemos conceituar população e amostra como: POPULAÇÃO É UM CONJUNTO DE TODOS OS ELEMENTOS EM ESTUDO. AMOSTRA É UMA PARTE DA POPULAÇÃO (ou subconjunto). ; Muitas vezes quando queremos fazer um estudo estatístico, não é possível analisar toda a população envolvida com o fato que pretendemos investigar, como exemplo o sangue de uma pessoa ou a poluição de um rio. É impossível o teste do todo. Há situações também em que é inviável o estudo da população, por exemplo, a pesquisa com todos os torcedores em um estádio de futebol durante uma partida. Nesses casos, o estatístico recorre a uma amostra que, basicamente, constitui uma redução da população a dimensões menores, sem perda das características essenciais. ; Os resultados fundamentados em uma amostra não serão exatamente os mesmos que você encontraria se estudasse toda a população, pois, quando você retira uma amostra, você não obtém informações a respeito de todos em uma dada população. Portanto, é importante entender que os resultados da amostra fornecem somente estimativas dos valores das características populacionais. Com métodos de amostragens apropriados, os resultados da amostra produzirão “boas” estimativas da população, ou seja, um estudo bem feito não elimina o erro, mas limita-o a uma margem, procurando torná-la o menor possível. Quando aprendemos estatística inferencial, também aprendemos técnicas para controlar esses erros de amostragem. 4 razões para selecionar uma amostra O número de elementos em uma população é muito grande; Demanda menos tempo do que selecionar todos os itens de uma população; É menos dispendioso (caro) do que selecionar todos os itens de uma população; Uma análise amostral é menos cansativa e mais prática do que uma análise da população inteira. São exemplos de População e Amostra: MEDICINA. Pretende-se estudar o efeito de um novo medicamento para curar determinada doença. É selecionado um grupo de 50 doentes, administrando-se o novo medicamento a 10 desses doentes escolhidos ao acaso e o medicamento habitual aos restantes. População: Todos os 50 doentes com a doença que o medicamento a estudar pretende tratar. Amostra: Os 10 doentes selecionados. CONTROLE DE QUALIDADE. O Gerente de Produção de uma fábrica de parafusos pretende assegurar-se de que a porcentagem de peças defeituosas não excede um determinado valor, a partir do qual determinada encomenda poderia ser rejeitada. População: Todos os parafusos fabricados ou a fabricar, utilizando o mesmo processo. Amostra: Parafusos escolhidos ao acaso entre os lotes produzidos. Podemos visualizar o conceito de população e amostra na figura ao lado. Quando pesquisamos toda a população, damos o nome de censo. A precisão depende do tamanho da amostra, e quanto maior é o tamanho amostral, maior será a precisão das informações. AMOSTRA (uma parte da população) POPULAÇÃO (todos os elementos em estudo) AMOSTRA (uma parte da população) POPULAÇÃO (todos os elementos em estudo) N é designado para População n é designado para Amostra “N” “n” - 15 - Uanderson Rebula de Oliveira Probabilidade & Estatística ESTUDOS DE MERCADO. O gerente de uma fábrica de produtos desportivos pretende lançar uma nova linha de esquis, pelo que encarrega uma empresa especialista em estudos de mercado de “estimar“ a porcentagem de potenciais compradores desse produto. População: conjunto de todos os praticantes de desportos de neve. Amostra: conjunto de alguns praticantes inquiridos pela empresa. SISTEMAS DE PRODUÇÃO. Um fabricante de pneus desenvolveu um novo tipo de pneu e quer saber o aumento da durabilidade em termos de kilometragem em relação à atual linha da empresa. Produz diariamente 1000 pneus e selecionou 120 para testes. População: 1000 pneus. Amostra: 120 pneus. OUTROS EXEMPLOS DE AMOSTRAS: - 16 - Uanderson Rebula de Oliveira Probabilidade & Estatística 1.5 ESTATÍSTICA DESCRITIVA E ESTATÍSTICA INFERENCIAL Estatística Descritiva – É o ramo da estatística que envolve a organização, o resumo e a representação dos dados para tomada de decisão. Estatística Inferencial – É o ramo da estatística que envolve o uso da amostra para chegar a conclusões sobre a população. É o caso das pesquisas eleitorais feita pelo IBOPE. Entrevistam uma parte da população para tirar conclusões sobre o eleitorado brasileiro. Uma ferramenta básica no estudo da estatística inferencial é a probabilidade. Algumas ferramentas aplicadas à Estatística Inferencial: Probabilidades Uma Probabilidade é uma medida numérica que representa a chance de um evento ocorrer. Ex.: Ao lançar um dado, qual a probabilidade de obter o valor 4? R = 1/6 = 16% Estimação, margem de erro e intervalo de confiança Suponha que o tempo médio que você leva para chegar ao trabalho de carro é de 35’, com uma margem de erro de 5’ para mais ou para menos. A estimativa é de que o tempo médio gasto até chegar ao trabalho fica em algum ponto entre 30’ e 40’. Esta estimativa é um intervalo de confiança, pois leva em consideração o fato de que os resultados da amostra irão variar e dá uma indicação de uma variação esperada. A margem de erro é uma medida de quão próximo você espera que seus resultados representem toda a população que está sendo estudada. Vários fatores influenciam a amplitude de um intervalo de confiança, tais como o tamanho amostral, a variabilidade da população e o quanto você espera obter de precisão. A maioria dos pesquisadores contenta-se com 95% de confiança em seus resultados. Estar 95% confiante indica que se você coletar muitas, mas muitas amostras e calcular o intervalo de confiança para todas, 95% dessas amostras terão intervalos de confiança que abrangerão o alvo. Teste de hipótese Teste de hipótese é um procedimento estatístico em que os dados são coletados e medidos para comprovar uma alegação feita sobre uma população. Por exemplo, se uma pizzaria alega entregar as pizzas dentro de 30’ a partir do pedido, você pode testar se essa alegação é verdadeira, coletando uma amostra aleatória do tempo de entrega durante um determinado período de tempo e observar o tempo médio de entrega para essa amostra. AMOSTRA (uma parte da população) POPULAÇÃO (todos os elementos em estudo) AMOSTRA (uma parte da população) POPULAÇÃO (todos os elementos em estudo) Inferência - 17 - Uanderson Rebula de Oliveira Probabilidade & Estatística 2 SÉRIES ESTATÍSTICAS - 18 - Uanderson Rebula de Oliveira Probabilidade & Estatística 2.1 CONCEITOS E TIPOS DE SÉRIES As tabelas e gráficos constituem um importante instrumento de análise e interpretação de um conjunto de dados. Diariamente é possível encontrar tabelas e gráficos nos mais variados veículos de comunicação (jornais, revistas, televisão, Internet), associadas a assuntos diversos do nosso dia-a-dia, como resultados de pesquisas de opinião, saúde e desenvolvimento humano, economia, esportes, cidadania, etc. A importância das tabelas e dos gráficos está ligada sobretudo à facilidade e rapidez na absorção e interpretação das informações por parte do leitor e também às inúmeras possibilidades de ilustração e resumo dos dados apresentados. TABELAS São quadros que resumem um conjunto de dados. Tipos de Tabelas SÉRIE HISTÓRICA Descreve os valores da variável, discriminados por TEMPO (anos, meses, dias, horas, etc. SÉRIE GEOGRÁFICA Descreve os valores da variável, discriminados por REGIÕES (países, cidades, bairros, ruas, layout, etc) SÉRIE ESPECÍFICA Descreve os valores da variável, discriminados por temas ESPECIFICOS. SÉRIE CONJUGADA É utilizado quando temos a necessidade de apresentar em uma única tabela a variação de valores DE MAIS DE UMA VARIÁVEL, isto é, fazer de forma conjugada de duas ou mais séries. Esta série, por exemplo, é GEOGRÁFICA – HISTÓRICA Título – conjunto de informações sobre o estudo. Cabeçalho –especifica o conteúdo das colunas Coluna indicadora –especifica o conteúdo das linhas Coluna numérica -–especifica a quantidade das linhas Linhas – retas imaginárias de dados Célula – espaço destinado a um só número Rodapé – simplesmente a fonte dos dados - 19 - Uanderson Rebula de Oliveira Probabilidade & Estatística GRÁFICOS A importância dos gráficos está ligada à facilidade e rapidez na absorção e interpretação das informações e também às inúmeras possibilidades de ilustração e resumo dos dados apresentados. Eis os mais usados: Gráfico em Linha É a representação dos valores por meio de linhas. Usamos quando precisamos de uma informação rápida de um valor ao longo do tempo. Gráfico em Colunas É a representação dos valores por meio de retângulos, dispostos verticalmente. Utiliza-se muito quando necessitamos saber a quantidade de valor. ACIDENTES DO TRABALHO EM SÃO PAULO: 1989 - 1991 0 500 1000 1500 2000 2500 1989 1990 1991 anos Q ua nt id ad e São Paulo Guarulhos Campinas Osasco Santos FONTE: Dados fictícios QUANTIDADE DE ACIDENTES DO TRABALHO SÃO PAULO: 1989 - 1994 6254 7265 6325 5458 8658 9578 0 2000 4000 6000 8000 10000 12000 1989 1990 1991 1992 1993 1994 Anos Q ua nt id ad e FONTE: Dados fictícios ACIDENTES DO TRABALHO SÃO PAULO: 1989 - 1994 6254 7265 6325 5458 8658 9578 0 2000 4000 6000 8000 10000 1989 1990 1991 1992 1993 1994 Anos Q ua nt id ad e FONTE: Dados fictícios - 20 - Uanderson Rebula de Oliveira Probabilidade & Estatística Gráfico em Barras É o mesmo conceito que o de Colunas, porém utiliza-se sempre que os dizeres a serem inscritos são extensos. Gráfico em Setores Este gráfico é construído com base em um círculo, e é empregado sempre que desejamos ressaltar a participação de um dado no total, geralmente na forma de porcentagem. Gráfico de Pareto É um gráfico de colunas na qual a altura de cada barra representa os dados, porém na ordem de altura decrescente, com a coluna mais alta posicionada à esquerda. Tal posicionamento ajuda a enfatizar dados importantes e é frequentemente usado nos negócios. Os cinco veículos mais vendidos no Brasil em janeiro de 1995 Veículo Quantidade (milhões) Ômega 34 Monza 30 Gol 25 Corsa 22 Fusca 15 FONTE: dados fictícios QUANTIDADE DE ACIDENTES DO TRABALHO EM SÃO PAULO - POR TIPO - 1989 55 1396 698 3578 598 0 1000 2000 3000 4000 Impacto Perfuração Atrito Queda Corte Ti po Quantidade FONTE: Dados fictícios ACIDENTES DO TRABALHO SÃO PAULO - 1989 FONTE: Dados fictícios Os cinco veículos mais vendidos no Brasil em janeiro de 1995 15 2225 30 34 0 10 20 30 40 Ômega Monza Gol Corsa Fusca Veículos Q ua nt id ad e (m ilh õe s) FONTE: Dados fictícios - 21 - Uanderson Rebula de Oliveira Probabilidade & Estatística Número de cada Delegacia Gráfico Cartograma Este gráfico é empregado quando o objetivo é o de figurar os dados estatísticos diretamente relacionados com áreas geográficas ou políticas (mapas), corpo humano entre outras figuras. FONTE: SSP/SP - 22 - Uanderson Rebula de Oliveira Probabilidade & Estatística 2.2 DISTRIBUIÇÃO DE FREQUÊNCIA Frequência absoluta e Histograma Ao se trabalhar com grandes conjuntos de dados, em geral é útil organizá-los e resumi-los em uma tabela, chamada Distribuição de frequência. ; Na distribuição de frequência listamos todos os valores coletados, um em cada linha, marcam-se as vezes em que eles aparecem, incluindo as repetições, e conta-se a quantidade de ocorrências de cada valor. Por este motivo, tabelas que apresentam valores e suas ocorrências denominam-se distribuição de freqüências. ; O termo “freqüência” indica o número de vezes que um dado aparece numa observação estatística. EXEMPLO Um professor organizou os resultados obtidos em uma prova com 25 alunos da seguinte forma: Notas dos 25 alunos Comentário 4,0 5,0 7,0 9,0 9,0 4,0 5,0 7,0 9,0 9,0 4,0 5,0 7,0 9,0 9,0 4,0 6,0 8,0 9,0 9,0 4,0 6,0 8,0 9,0 9,0 Agora ele pode fazer uma representação gráfica para analisar o desempenho da turma. Em primeiro lugar, o professor pode fazer uma tabulação dos dados, ou seja, organizá-los de modo que a consulta a eles seja simplificada. Então, faremos a distribuição de freqüência destas notas, por meio da contagem de dados. Distribuição de freqüência Comentário Nota Freqüência, f (nº de alunos) 4,0 5 5,0 3 6,0 2 7,0 3 8,0 2 9,0 10 ∑f=25 Esta forma de organizar dados é conhecida como distribuição de frequência, e o número de vezes que um dado aparece é chamado de frequência absoluta, representado por f. Exemplos: ; A frequência absoluta da nota 4,0 é 5. ; A freqüência absoluta da nota 9,0 é 10. O símbolo grego ∑ “sigma” significa “somatório”, muito usado em Estatística. Portanto, ∑f=25 significa a soma de 5+3+2+3+2+10. Representamos a freqüência por um gráfico, chamado Histograma. HISTOGRAMA Comentário ESTA FREQUÊNCIA QUE ACABAMOS DE ESTUDAR É DENOMINADA FREQUENCIA ABSOLUTA (f), QUE É SIMPLESMENTE A CONTAGEM DOS DADOS. ; Em Estatística não trabalhamos somente com frequência absoluta (f), mas também com outros tipos de freqüências, que são: freqüência relativa (fr), frequência absoluta acumulada (Fa) e frequência relativa acumulada (FRa). ; Estudaremos agora cada uma delas. Quando os dados numéricos são organizados, eles geralmente são ordenados do menor para o maior, divididos em grupos de tamanho razoável e, depois, são colocados em gráficos para que se examine sua forma, ou distribuição (no exemplo: 4,0 – 5,0 – 6,0 – 7,0 – 8,0 – 9,0). Este gráfico é chamado de Histograma. Um histograma é um gráfico de colunas juntas. Em um histograma não existem espaços entre as colunas adjacentes, como ocorre em um gráfico de colunas. No exemplo, a escala horizontal (→) representa as notas e a escala vertical (↑) as freqüências. O histograma ao lado indica que cinco alunos tiraram a nota 4,0; três alunos tiraram a nota 5,0; dois alunos tiraram a nota 6,0; três alunos tiraram a nota 7,0; dois alunos tiraram 8,0 e dez alunos tiraram 9,0. 5 3 2 3 2 10 0 2 4 6 8 10 12 N úm er o d e al un os 4,0 5,0 6,0 7,0 8,0 9,0 Nota Desempenho dos alunos na prova - 23 - Uanderson Rebula de Oliveira Probabilidade & Estatística Frequência Relativa fr (%) Conceito. Representado por fr(%), significa a relação existente entre a frequência absoluta f e a soma das freqüências ∑f. É a porcentagem (%) do número de vezes que cada dado aparece em relação ao total. EXEMPLO 5/25 * 100 = 20%. freqüência relativa fr (%) Comentários aos cálculos Nota f fr(%) 4,0 5 20% 5,0 3 12% 6,0 2 8% 7,0 3 12% 8,0 2 8% 9,0 10 40% ∑f=25 100% A frequência relativa fr(%) é obtida por f/∑f * 100, conforme abaixo: ; A fr(%) da nota 4,0 é 5/25 * 100 = 20%. ; A fr(%) da nota 5,0 é 3/25 * 100 = 12% ; A fr(%) da nota 6,0 é 2/25 * 100 = 8% ; A fr(%) da nota 7,0 é 3/25 * 100 = 12% ; A fr(%) da nota 8,0 é 2/25 * 100 = 8% ; A fr(%) da nota 9,0 é 10/25 * 100 = 40%. Frequência Absoluta Acumulada Fa Conceito. Representado por Fa, significa a soma das freqüências absolutas até o elemento analisado. EXEMPLO Fa2=5+3 = 8 frequência absoluta acumulada (Fa) Comentários aos cálculos Nota f fr(%) Fa 4,0 5 20% 5 5,0 3 12% 8 6,0 2 8% 10 7,0 3 12% 13 8,0 2 8% 15 9,0 10 40% 25 ∑f=25 100% - A frequência absoluta acumulada Fa é obtida conforme abaixo: ; A Fa da nota 4,0 é 5 (sempre repete a primeira). ; A Fa das notas 4,0 e 5,0 é 5+3=8. ; A Fa das notas 4,0, 5,0 e 6,0 é 5+3+2=10. ; A Fa das notas 4,0, 5,0, 6,0 e 7,0 é 5+3+2+3=13. ; A Fa das notas 4,0, 5,0, 6,0, 7,0 e 8,0 é 5+3+2+3+2=15. ; A Fa das notas 4,0, 5,0, 6,0, 7,0, 8,0 e 9,0 é 5+3+2+3+2+10=25 Frequência Relativa Acumulada FRa (%) Conceito. Representado por FRa (%), significa a soma das freqüências relativas fr(%) até o elemento analisado. EXEMPLO 20% + 12% = 32% frequência relativa acumulada (FRa) Comentários aos cálculos Nota f fr(%) Fa FRa(%) 4,0 5 20% 5 20% 5,0 3 12% 8 32% 6,0 2 8% 10 40% 7,0 3 12% 13 52% 8,0 2 8% 15 60% 9,0 10 40% 25 100% ∑f=25 100% - - A frequência relativa acumulada FRa(%) é obtida conforme abaixo: ; A FRa(%) de 4,0 é 20% (sempre repete a primeira). ; A FRa(%) de 4,0 e 5,0 é 20+12 = 32% ; A FRa(%) de 4,0, 5,0 e 6,0 é 20+12+8 = 40% ; A FRa(%) de 4,0, 5,0, 6,0 e 7,0 é 20+12+8+12 = 52% ; A FRa(%) de 4,0, 5,0, 6,0, 7,0 e 8,0 é 20+12+8+12+8 = 60% ; A FRa(%) de 4,0, 5,0, 6,0, 7,0, 8,0 e 9,0 é 20+12+8+12+8+40=100% NOTA IMPORTANTE SOBRE DISTRIBUIÇÃO DE FREQUÊNCIA: Nota f fr(%) Fa FRa(%) 25 100% ∑f=25 100% - - Para saber se o desenvolvimento da distribuição de freqüência por completo está correto, os valores ao lado, em vermelho, deverão coincidir. - 24 - Uanderson Rebula de Oliveira Probabilidade & Estatística Agrupamento em Classes Em uma distribuição de frequência, ao se trabalhar com grandes conjuntos de dados e com valores dispersos, podemos agrupá-los em classes. ; Se um conjunto de dados for muito disperso, uma representação melhor seria através do agrupamento dos dados com a construção de classes de frequência. Caso isso não ocorresse, a tabela ficaria muito extensa. Veja abaixo: EXEMPLO Um radar instalado na Dutra registrou a velocidade (em Km/h) de 40 veículos, indicadas abaixo: Velocidade de 40 veículos (Km/h) Distribuição de frequência É fácil ver que a distribuição de frequências diretamente obtida a partir desses dados é dada uma tabela razoavelmente extensa. 70 90 100 110 123 71 93 102 115 123 73 95 103 115 123 76 97 105 115 123 80 97 105 117 124 81 97 109 117 124 83 99 109 121 128 86 99 109 121 128 Nota f 70 1 71 1 73 1 76 1 80 1 81 1 83 1 86 1 90 1 93 1 95 1 97 3 99 2 100 1 102 1 103 1 105 2 109 3 110 1 115 3 117 2 121 2 123 4 124 2 128 2 ∑f=40 Distribuição de frequência com classes i Velocidade (Km/h) f 1 70 |⎯ 80 4 2 80 |⎯ 90 4 3 90 |⎯ 100 8 4 100 |⎯ 110 8 5 110 |⎯ 120 6 6 120 |⎯ 130 10 ∑f=40 A distribuição em ”classes” é como se fosse uma compressão dos dados. Imagine se fizéssemos uma distribuição de frequência de todas velocidades (de 70 a 128). A tabela ficaria imensa! Por este motivo existe a distribuição de frequência com classes. Como criar uma Distribuição de Freqüência com classes 1. Calcule a quantidade de classes (i), pela raiz da quantidade de dados. São 40 veículos. Então, 40 = 6,3 ≅ i = 6 classes. 2. Calcule a amplitude de classe (h) que é o tamanho da classe, sendo: Maior valor – Menor valor = 128 – 70 = 9,6 ≅ h=10 quantidade de classes (i) 6 Nota: o Maior valor (128) e o Menor valor (70) são obtidos da lista dos registros das velocidades dos 40 veículos. 3. Montar as classes a partir do Menor valor (70), somando com a amplitude de classe (10) até que se chegue na 6ª classe, assim: TIPOS DE INTERVALOS DE CLASSE No Brasil usa-se o intervalo |⎯ (Resolução 866/66 do IBGE). Já na literatura estrangeira utiliza-se comumente com intervalo fechado. CONCEITOS IMPORTANTES LIMITES DE CLASSE - São os valores extremos de cada classe. No exemplo 70 |⎯ 80, temos que o limite inferior é 70 e o limite superior 80. AMPLITUDE TOTAL DA DISTRIBUIÇÃO (AT) – É a diferença entre o limite superior da última classe e o limite inferior da primeira classe, no exemplo 130 – 70 = 60. AMPLITUDE AMOSTRAL (AA) – É a diferença entre o valor máximo e o valor mínimo da amostra, no exemplo 128 – 70 = 58. i Velocidade (Km/h) 1 70 +10 80 2... 80 +10 90 ...6 120 +10 130 Tipo Representação Dados do intervalo Aberto 70 ⎯ 80 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80 Fechado à esquerda 70 |⎯ 80 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80 Fechado 70 |⎯| 80 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80 Fechado à direita 70 ⎯| 80 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80 Classes Limite inferior Limite superior - 25 - Uanderson Rebula de Oliveira Probabilidade & Estatística 0 2 4 6 8 10 12 Q ua nt id ad e de v eí cu lo s Resultados dos registros de um radar 70 75 80 85 90 95 100 105 110 115 120 125 130 Velocidade (Km/h) Abaixo vemos as distribuições de frequências absoluta f, relativa fr(%), absoluta acumulada Fa e relativa acumulada FRa(%), bem como o Histograma desta distribuição. Distribuição de freqüência com classes f, fr(%), Fa e FRa (%) OUTRAS REPRESENTAÇÕES GRÁFICAS DE UMA DISTRIBUIÇÃO DE FREQUÊNCIA Polígono de frequência – É um gráfico em linha que representa os pontos centrais dos intervalos de classe. Para construir este gráfico, você deve calcular o ponto central de classe (xi), que é o ponto que divide o intervalo de classe em duas partes iguais. Por exemplo, a velocidade dos veículos da 1ª classe pode ser representada por 70 + 80 = 75Km/h 2 A construção de um polígono de frequências é muito simples. Primeiro, construímos um histograma; depois marcamos no “telhado” de cada coluna o ponto central e unimos sequencialmente esses pontos. Ogiva – (pronuncia-se o’jiva). Conhecida também por polígono de frequência acumulada. É um gráfico em linha que representa as freqüências acumuladas (Fa), levantada nos pontos correspondentes aos limites superiores dos intervalos de classe. Para construí-la, você deve elaborar o histograma de freqüência f em uma escala menor, considerando o último valor a freqüência acumulada da última classe, no caso, 40. i Velocidade (Km/h) f Fr(%) Fa FRa(%) 1 70 |⎯ 80 4 10% 4 10% 2 80 |⎯ 90 4 10% 8 20% 3 90 |⎯ 100 8 20% 16 40% 4 100 |⎯ 110 8 20% 24 60% 5 110 |⎯ 120 6 15% 30 75% 6 120 |⎯ 130 10 25% 40 100% ∑f=40 100% i Velocidade (Km/h) f xi 1 70 |⎯ 80 4 75 2 80 |⎯ 90 4 85 3 90 |⎯ 100 8 95 4 100 |⎯ 110 8 105 5 110 |⎯ 120 6 115 6 120 |⎯ 130 10 125 ∑f=40 i Velocidade (Km/h) f Fa 1 70 |⎯ 80 4 4 2 80 |⎯ 90 4 8 3 90 |⎯ 100 8 16 4 100 |⎯ 110 8 24 5 110 |⎯ 120 6 30 6 120 |⎯ 130 10 40 ∑f=40 4 4 8 8 6 10 0 2 4 6 8 10 12 Q ua nt id ad e de v eí cu lo s Resultados dos registros de um radar 70 80 90 100 110 120 130 Velocidade (Km/h) 70 |⎯ 80 Ponto central 75Km/h Velocidade (Km/h) 4 4 8 8 6 10 0 5 10 15 20 25 30 35 40 Q ua nt id ad e de v eí cu lo s Resultados dos registros de um radar 70 80 90 100 110 120 130 4 8 16 24 30 40 - 26 - Uanderson Rebula de Oliveira Probabilidade & Estatística 3 MEDIDAS O que podemos dizer se um professor quer saber sobre as notas dos alunos de uma sala? Poderíamos, talvez, utilizar para resposta uma tabela com as frequências das notas. Porém, o professor gostaria de uma resposta rápida, que sintetize a informação que se tem, e não uma distribuição de frequência das notas coletadas. Para resumir a quantidade de informação contida em um conjunto de dados, utilizamos, em estatística, medidas que descrevem, por meio de um só número, características desses dados. Notas dos alunos 4,0 4,0 4,0 4,0 4,0 5,0 5,0 5,0 6,0 6,0 7,0 7,0 7,0 8,0 8,0 9,0 9,0 9,0 9,0 9,0 9,0 9,0 9,0 9,0 9,0 Medidas estatísticas Média = 6,9 (valor “ponto de equilíbrio” desse conjunto de dados) Mediana = 8,0 (valor que está no meio) Moda = 9,0 (valor mais frequente) - 27 - Uanderson Rebula de Oliveira Probabilidade & Estatística 3.1 MEDIDAS DE POSIÇÃO Agora você vai trabalhar com medidas de posição que, como o próprio nome indica, são medidas que indicam a localização dos dados. O objetivo não é o cálculo das medidas, mas, sim, explorar propriedades e relações entre três das principais medidas de posição: Média, Mediana e Moda. MÉDIA MÉDIA SIMPLES - É uma medida que representa o ponto de equilíbrio num conjunto de dados. ; A média simples é uma medida considerada como um valor normal ou típico em um conjunto de dados. Cada dado tem igual importância e peso. Sofre a influência de todos os dados. A Média simples é obtida pela seguinte equação: x = ∑x → soma dos valores dos dados n → quantidade de dados A Média é representada por x (lê-se “x barra”) EXEMPLO. Supondo que uma escola adote como critério de aprovação a Média 7,0 e, considerando as quatro notas de João e Maria durante o ano, informe se foram aprovados. Notas de João: 3,5 | 6,0 | 9,5 | 9,0 | x = ∑x 3,5 + 6,0 + 9,5 + 9,0 n 4 x = 7,0 → aprovado MÉDIA PONDERADA. Semelhante a Média simples, porém, atribuindo-se a cada dado um peso que retrate a sua importância. ; O termo “ponderação” é sinônimo de peso, importância, relevância. Sugere, então, a atribuição de um peso a um determinado dado. Em alguns casos, os valores variam em grau de importância, de modo que podemos querer ponderá-los apropriadamente. É calculada multiplicando-se um peso por cada valor, fazendo com que alguns valores influenciem mais fortemente a média do que outros. A Média ponderada é obtida pela seguinte equação: px = ∑(x . p) → soma dos valores . pesos ∑ p → soma dos pesos Vamos representar a Média ponderada por px EXEMPLO Supondo que uma escola adote como critério de aprovação a Média 7,0, sendo que as provas bimestrais são ponderadas com pesos 1, 2, 3 e 4, respectivamente para o 1º bim, 2º bim, 3º bim e 4º bim. Considerando as notas de João (na ordem bimestral crescente), informe se foi aprovado. Notas de João: | 9,0 | 8,0 | 6,0 | 5,0 Pesos 1 2 3 4 px = ∑(x . p) ∑ p px = (9,0 . 1) + (8,0 . 2) + (6,0 . 3) + (5,0 . 4) 1+2+3+4 px = 6,3 → reprovado Nota. Em uma média simples ele seria aprovado por 7,0. Importante: Os pesos são representados pela quantidade (frequência). A atribuição de pesos visa fazer com que certos valores tenham mais influência no resultado do que outros. Média de João 3.5 6.0 7,0 9.5 9.0 0.0 2.0 4.0 6.0 8.0 10.0 N ot as 1º Bim 2º Bim Média 3º Bim 4º Bim Bimestres Média das notas de João 9,0 1 8,0 2 6,3 6,0 3 5,0 4 0,0 2,0 4,0 6,0 8,0 10,0 N ot as e p es os 1º Bim 2º Bim Média 3º Bim 4º Bim Bimestres Média ponderada das notas de João Média ponderada - 28 - Uanderson Rebula de Oliveira Probabilidade & Estatística MÉDIA DE DISTRIBUIÇÃO DE FREQUÊNCIA – aplica-se quando não se tem a lista original dos dados Quando trabalhamos com uma distribuição de frequência, não sabemos os valores exatos que caem em determinada classe. Para tornar possíveis os cálculos, consideramos que, em cada classe, todos os valores amostrais sejam iguais ao ponto central de classe. Por exemplo, considere o intervalo de classe 70 |⎯ 80, com uma frequência de 4. Admitimos que todos os 4 valores sejam iguais a 75 (o ponto central de classe). Com o total de 75 repetido 4 vezes, temos um total de 75 x 4 = 300. Podemos, então, somar esses produtos obtidos de cada classe para encontrar o total de todos os valores, os quais, então, dividimos pela quantidade de dados. É importante salientar que a distribuição de frequência resulta em uma aproximação da média porque não se baseia na lista original exata dos valores amostrais. CALCULANDO A MÉDIA DE DISTRIBUIÇÃO DE FREQUÊNCIA COM INTERVALO DE CLASSE i Velocidade (Km/h) f x f . x 1 70 |⎯ 80 4 75 300 2 80 |⎯ 90 4 85 340 3 90 |⎯ 100 8 95 760 4 100 |⎯ 110 8 105 840 5 110 |⎯ 120 6 115 690 6 120 |⎯ 130 10 125 1250 ∑f=40 - ∑(f.x) = 4180 Procedimento: 1. Multiplicar as frequências f pelos pontos centrais de classe x e adicionar os produtos. 2. Somar as frequências f; 3. Somar os produtos (f.x); 4. Aplicar a fórmula abaixo: x = ∑(f.x) → 4180 = 104,5 Km/h ∑f 40 Média a partir de um HISTOGRAMA COM INTERVALOS DE CLASSE: Não é necessário montar tabela. Veja na figura ao lado que basta multiplicar a frequência pelo ponto médio e adicionar os produtos. Depois, divida pela soma das freqüências. (4*75)+(4*85)+(8*95)+(8*105)+(6*115)+(10*125) 4+4+8+8+6+10 x = ∑(f.x) → 4180 = 104,5 Km/h ∑f 40 CALCULANDO A MÉDIA DE DISTRIBUIÇÃO DE FREQUÊNCIA SEM INTERVALO DE CLASSE Nota (x) f (nº de alunos) f . x 4,0 5 20 5,0 3 15 6,0 2 12 7,0 3 21 8,0 2 16 9,0 10 90 ∑f=25 ∑(f.x) = 174 Quando a distribuição não tem agrupamento de classes, consideraremos as frequências como sendo os pesos dos elementos correspondentes: (5*4,0)+(3*5,0)+(2*6,0)+(3*7,0)+(2*8,0)+(10*9,0) 5+3+2+3+2+10 x =∑(f.x) → 174 = 6,96 ∑f 25 Média a partir de um HISTOGRAMA SEM INTERVALO DE CLASSE Multiplique a freqüência por “x” (notas) e adicione os produtos. Depois, divida pela soma das freqüências. (5*4,0)+(3*5,0)+(2*6,0)+(3*7,0)+(2*8,0)+(10*9,0) 5+3+2+3+2+10 x =∑(f.x) → 174 = 6,96 ∑f 25 Ponto central de classe x = 4 4 8 8 6 1 0 0 2 4 6 8 1 0 1 2 Q ua nt id ad e de v eí cu lo s R e su lta d o s d o s re g istro s d e u m ra d a r 70 80 90 100 110 120 130 Velocidade (Km/h) X = 5 3 2 3 2 10 0 2 4 6 8 10 12 N úm er o de al un os 4.0 5.0 6.0 7.0 8.0 9.0 Nota Desempenho dos alunos na prova x 75 85 95 105 115 125 x x + (4*75)+(4*85) ... - 29 - Uanderson Rebula de Oliveira Probabilidade & Estatística MEDIANA Medida que representa o valor que está no MEIO de um conjunto de dados. Uma desvantagem da média simples é que ela é sensível a qualquer valor, de modo que um valor excepcional pode afetar drasticamente a média. A Mediana supera grandemente essa desvantagem, pois não é afetada por valores extremos, de tal modo que você pode utilizar a mediana quando estão presentes valores extremos. Como achar a mediana de um conjunto de dados Para quantidade ÍMPAR de valores A Posição do termo central é dada por: 2 1nP += Ex.: 12, 78, 69, 75, 80, 71, 82, 73, 785. n=9 2 19P += = 5 → 5ª posição A Md é o valor da 5º posição. Ordenando os dados, temos: 12, 69, 71, 73, 75 ,78, 80, 82, 785 1ª 2ª 3ª 4ª 5ª 6ª 7ª 8ª 9ª Mediana Para quantidade PAR de valores As posições dos termos centrais são dadas por: 2 nP1= e P2 = a que sucede P1 Ex.: 12, 78, 69, 75, 80, 71, 82, 73, 785, 995. n=10 2 10P1= = 5ª posição e P2 = 6ª posição A Md é o valor entre a 5º e 6ª posição. Ordenando os dados, temos: 12, 69, 71, 73, 75, 78 80, 82, 785, 995 1ª 2ª 3ª 4ª 5ª 6ª 7ª 8ª 9ª 10ª Mediana A Md é a Média dos dois termos centrais. 2 7875Md += = 76,5 MEDIANA de uma distribuição de freqüência e Histograma SEM INTERVALOS DE CLASSE Nota f Fa Observações 4,0 4 4 Da 1ª até a 4ª 5,0 3 7 Da 5ª até a 7ª 6,0 2 9 Da 8ª até a 9ª 7,0 3 12 Da 10ª até a 12ª 8,0 2 14 Da 13ª até a 14ª 9,0 11 25 Da 15ª até a 25ª ∑f = n = 25 → ímpar 2 1nP += → 2 125+ = 13ª Os dados já estão ordenados. Então a Md é o valor da 13ª posição. Através da Fa fica fácil identificar a posição central: Então, a nota Md = 8,0 ∑f=25 MEDIANA de uma distribuição de freqüência e Histograma COM INTERVALOS DE CLASSE Acumule Fa e ache a posição da Md i Velocidades f Fa 1 70 |⎯ 80 4 4 2 80 |⎯ 90 4 8 3 90 |⎯ 100 8 16 4 100 |⎯ 110 8 24 5 110 |⎯ 120 6 30 6 120 |⎯ 130 10 40 ∑f=40 Independente se n é ímpar ou par usa-se a equação n/2. Então, 40/2 = 20 A Md está na 20ª posição e será algum valor da classe mediana 100 |⎯ 110. A partir da equação abaixo podemos achar uma aproximação da Md. f h* Fa - 2 n lMd ant inf ⎥⎦ ⎤⎢⎣ ⎡ += l inf = limite inferior da classe mediana Faant = Fa da classe anterior h = amplitude do intervalo de classe f = freqüência da classe mediana Resolvendo a equação, temos: 8 10*16 - 2 40 Md ⎥⎦ ⎤⎢⎣ ⎡ += 100 Md = 105 Km/h, aproximadamente O total das freqüências é 40. Então, a Md será 40/2 = 20ª posição. Observe pelo Fa que a classe mediana é 100 |⎯ 110. Também é possível determinar l inf, Fa ant, h e f. Então, aplicando a equação, temos: 8 10*16 - 2 40 Md ⎥⎦ ⎤⎢⎣ ⎡ += 100 = 105 km/h, aproximadamente 0% 50% 100% Mediana 4 4 8 8 6 10 0 2 4 6 8 10 12 Q ua nt id ad e de v eí cu lo s Resultados dos registros de um radar 70 80 90 100 110 120 130 Velocidade (Km/h) Fa 20ª Fa ant = 16 (4+4+8) ← h → 10 f = 8 l inf 20ª Md = 8,0 4 3 2 3 2 11 0 2 4 6 8 10 12 N úm er o de a lu no s 4.0 5.0 6.0 7.0 8.0 9.0 Nota Desempenho dos alunos na prova Fa 13ª - 30 - Uanderson Rebula de Oliveira Probabilidade & Estatística 5 3 2 3 2 10 0 2 4 6 8 10 12 N úm er o d e al un os 4,0 5,0 6,0 7,0 8,0 9,0 Nota Desempenho dos alunos na prova NOTA SOBRE A MEDIANA. A mediana é menos utilizada do que a média simples. A mediana pode ser aplicada quando existem valores discrepantes em um conjunto de dados. Por exemplo, se a renda per capita de sete famílias fosse: $240; $370; $410; $520; $630; $680 e $820, a mediana seria $520 e a média $524. Essas duas medidas poderiam representar este conjunto de dados. Mas se a renda de sete famílias fosse: $240; $370; $410; $520; $630; $680 e $10.000, o valor da mediana manter-se-ia o mesmo, enquanto a média simples passaria a ser $1.836, pois foi influenciada pelo valor discrepante ($10.000), que não é uma medida ideal para representar este conjunto de dados. A medida ideal seria a mediana. Note que os valores discrepantes tem, pois, muito menor influência sobre a mediana do que sobre a média. Em relação à mediana na distribuição de freqüência com intervalos de classe, admite-se que as velocidades dos veículos se distribuem continuamente. Nesse caso, a mediana é a velocidade para o qual a metade da freqüência total 40/2 = 20 fica situada abaixo e a outra acima dele. Ora, a soma das três primeiras freqüências de classe é 4+4+8 = 16. Então, para obter a 20ª velocidade desejada, são necessários mais 4 dos 8 casos existentes na 4ª classe. Como o quarto intervalo de classe, 100 |⎯ 110, a mediana situa-se a 4/8 de distância, e é: 100 + 4/8 (110 – 100) = 105 km/h. Com a equação fica mais fácil encontrar a mediana pois não exige este tipo de raciocínio. MODA Medida que representa o valor que mais se REPETE em um conjunto de dados. Na linguagem coloquial, moda é algo que está em evidência, ou seja, algo que se vê bastante! Em estatística a moda é o valor que detém o maior número de observações, ou seja, o valor ou valores mais frequentes em uma série de dados. A moda não é necessariamente única, ao contrário da média simples ou da mediana. É especialmente útil quando os valores ou observações não são numéricos, uma vez que a média e a mediana podem não ser bem definidas. Exemplos: A série {1, 3, 5, 5, 5, 6, 6, 7} apresenta moda = 5, pois é o número que mais se repete. A série {1, 3, 5, 5, 6, 6, 7, 8} apresenta duas modas (Bimodal): 5 e 6, pois são os que mais se repetem. A série {1, 3, 5, 5, 6, 6, 7, 7} apresenta mais do que duas modas (Polimodal): 5, 6 e 7 A série {1, 3, 2, 5, 8, 7, 9, 10} não apresenta moda = amodal, pois nenhum número se repete. MODA de uma distribuição de freqüência e Histograma SEM INTERVALOS DE CLASSE Notas dos alunos A Moda será a nota 9,0, pois é a que mais se repete no conjunto de dados 4,0 5,0 8,0 9,0 4,0 6,0 9,0 9,0 4,0 6,0 9,0 9,0 4,0 7,0 9,0 9,0 4,0 7,0 9,0 5,0 7,0 9,0 5,0 8,0 9,0 Nota f (nº de alunos) 4,0 5 5,0 3 6,0 2 7,0 3 8,0 2 9,0 10 ∑f=25 MODA de uma distribuição de frequência e Histograma COM INTERVALOS DE CLASSE a) Moda Bruta i Velocidade (Km/h) f 1 70 |⎯ 80 4 2 80 |⎯ 90 4 3 90 |⎯ 100 8 4 100 |⎯ 110 8 5 110 |⎯ 120 6 6 120 |⎯ 130 10 ∑f=40 A Moda Bruta será o ponto médio de classe modal, que é a classe que apresenta a maior frequência. Então: Mo = 120 + 130 = 125Km/h 2 NOTAS SOBRE A MODA. Na distribuição de freqüência em classes, o método utilizado para encontrar a moda por meio do ponto médio de classe é chamado de moda bruta, e é apenas uma aproximação pois não foi baseada na lista original de dados. Existem outros métodos para encontrar a Moda de uma distribuição de freqüência com intervalo de classe: Método de Czuber, Método de King e Método de Pearson, normalmente exigidos em concursos públicos. Moda Nota 9,0 4 4 8 8 6 10 0 2 4 6 8 10 12 Q ua nt id ad e de v eí cu lo s Resultados dos registros de um radar 70 80 90 100 110 120 130 Velocidade (Km/h) 120+130 = 125Km/h 2 Classe modal (tem maior frequência) - 31 - Uanderson Rebula de Oliveira Probabilidade & Estatística b) Moda de czuber h 2D1D 1DCzuberMo *++= l =l limite inferior da classe modal D1 = f* – f(ant) D2 = f* – f(post) h = amplitude da classe modal f* = frequência da classe modal f(ant) = frequência da classe anterior à classe modal f(post) = frequência da classe posterior à classe modal Exemplo de cálculo da Moda de Czuber (pela Distribuição de Freqüência e pelo Histograma) Registro das velocidades de veículos em uma rodovia i Velocidade (Km/h) f 1 70 |⎯ 80 4 2 80 |⎯ 90 4 3 90 |⎯ 100 8 4 100 |⎯ 110 8 5 110 |⎯ 120 6 6 120 |⎯ 130 10 ∑f=40 h DD DlMo * 21 1 ++= → 10104 4120 * ++=Mo 85122,=Mo Nota: Como não existe frequência simples da classe posterior à classe modal, então f- f(post) = 10 - 0. - FUNDAMENTOS DA EQUAÇÃO DE CZUBER – Pode-se determinar graficamente a posição da Moda no histograma representativo de uma distribuição de frequências. O método descrito abaixo é o equivalente geométrico da equação de Czuber. 1º - A partir dos vértices superiores do retângulo correspondente à classe modal (A e B), traçamos os seguimentos concorrentes AC e BD, ligando cada um deles ao vértice superior adjacente do retângulo correspondente a uma classe vizinha, conforme ilustrado na figura acima. 2º - A partir da interseção dos segmentos AC e BD, baixamos uma perpendicular ao eixo horizontal, determinando o ponto que indica a Moda, que é 122,85. (10 - 6) (10 - 6) (10 - 0) 4 4 8 8 6 10 0 2 4 6 8 10 12 Q ua nt id ad e de v eí cu lo s Resultados dos registros de um radar 70 80 90 100 110 120 130 Velocidade (Km/h) f* f(ant) h* f(post) Classe modal Classe modal (tem maior frequência) - 32 - Uanderson Rebula de Oliveira Probabilidade & Estatística RELAÇÃO ENTRE MÉDIA, MEDIANA E MODA. Pelo formato da distribuição dos dados, sempre existirá uma relação empírica (baseado na experiência) entre a média, mediana e a moda. Através dessa relação podemos saber, aproximadamente, onde se encontram essas medidas, sem necessidade de cálculos. Quando a Média, Mediana e Moda se coincidem, chamamos a distribuição dos dados de Simétrica ou Normal. Média = mediana = moda SIMÉTRICA ou NORMAL ou FORMA DE SINO Quando a distribuição tem a forma de sino (linha tracejada), a quantidade de dados vai aumentando, atinge um pico, e depois diminui. Se dividíssemos em duas metades, a partir do centro, note que os dois lados seriam iguais. O calculo abaixo confirma a afirmativa que numa distribuição normal a média, mediana e moda se coincidem. Média = 70(3) + 80(4) + 90(7) + 100(4) + 110(3) = 90 Km/h 3+4+7+4+3 Mediana = 90 Km/h Moda = 90 Km/h Quando a Média, Mediana e Moda não se coincidem, chamamos a distribuição dos dados de assimétrica. Média < mediana < moda Assimétrica à esquerda (ou negativa) Neste tipo de distribuição, a média, mediana e a moda estarão aproximadamente conforme gráfico ao lado. A média será menor que a mediana e a moda. O cálculo abaixo confirma a afirmativa: Média = 70(1) + 80(3) + 90(6) + 100(9) + 110(2) = 94 Km/h 1+3+6+9+2 Mediana = 100 Km/h Moda = 100 Km/h Média > mediana > moda Assimétrica à direita (ou positiva) Neste tipo de distribuição, a média, mediana e a moda estarão aproximadamente conforme gráfico ao lado. A média será maior que a mediana e a moda. O cálculo abaixo confirma a afirmativa: Média = 70(2) + 80(9) + 90(6) + 100(3) + 110(1) = 86Km/h 2+9+6+3+1 Mediana = 80 Km/h Moda = 80 Km/h 1 3 6 9 2 0 2 4 6 8 10 12 Q ua nt id ad e de v eí cu lo s Resultados dos registros de um radar 70 80 90 100 110 Velocidade (Km/h) Mediana Moda Média 2 9 6 3 1 0 2 4 6 8 10 12 Q ua nt id ad e de v eí cu lo s Resultados dos registros de um radar 70 80 90 100 110 Velocidade (Km/h) Mediana Moda Média 3 4 7 4 3 0 2 4 6 8 10 Q ua nt id ad e de v eí cu lo s Resultados dos registros de um radar 70 80 90 100 110 Velocidade (Km/h) Média Mediana Moda Me Md Mo 94 < 100 ≤ 100 Me Mo Md 86 > 80 ≥ 80 90=90=90 - 33 - Uanderson Rebula de Oliveira Probabilidade & Estatística 3.2 MEDIDAS DE VARIAÇÃO (OU DISPERSÃO) O termo “variação” sugere tornar vário ou diverso; alterar, diversificar; mudar; ser inconstante; não ser conforme, discrepar. Na maioria dos casos existirá variação em um conjunto de dados, independente da característica que você esteja medindo, pois nem todos os indivíduos terão o mesmo exato valor para todas as variáveis. EXEMPLO Durante o ano letivo a Média das notas de João, Mário, Maria e José foi 7,0. Se considerarmos apenas a Média, não notaremos qualquer diferença entre os quatro alunos. No entanto, observa-se que as notas são muito diferentes em relação a Média. Há variação de notas e, no caso de João e José, é bem discrepante: Diante deste contexto, podemos questionar: qual o aluno é mais estável? Qual teve melhor desempenho? Qual o aluno com pior desempenho? Notadamente o aluno de melhor desempenho é o Mário, pois todas as suas notas foram 7,0 e, portanto, não houve nenhuma variação em relação a Média. Já José e João tiveram o pior desempenho pois suas notas estiveram muito distantes da Média. Neste capítulo vamos desenvolver maneiras específicas de realmente medirmos a variação, de modo que possamos usar números específicos em lugar de julgamento subjetivo. Outros exemplos de variações: ; Os preços das casas variam de casa para casa, de ano para ano e de estado para estado. ; Os preços de um produto variam de supermercado para supermercado. ; O tempo que você leva para chegar ao trabalho varia dia a dia. ; O tamanho das peças produzidas em uma empresa também varia. ; A renda familiar varia de família para família, de país para país e de ano para ano. ; Os resultados das partidas de futebol, de temporada para temporada, variam. ; As notas que você tira nas provas, não diferente, também variam. ; Seu saldo bancário também varia, podendo ser de hora em hora, dia a dia, mês a mês. 3,5 6,0 7,0 9,5 9,0 0,0 2,0 4,0 6,0 8,0 10,0 N ot as 1º Bim 2º Bim Média 3º Bim 4º Bim Bimestres Média das notas de João 7,0 7,0 7,0 7,0 7,0 0,0 2,0 4,0 6,0 8,0 10,0 N ot as 1º Bim 2º Bim Média 3º Bim 4º Bim Bimestres Média das notas de Mário 6,5 6,5 7,0 7,5 7,5 0,0 2,0 4,0 6,0 8,0 10,0 N ot as 1º Bim 2º Bim Média 3º Bim 4º Bim Bimestres Média das notas de Maria 4,0 9,5 7,0 8,5 6,0 0,0 2,0 4,0 6,0 8,0 10,0 N ot as 1º Bim 2º Bim Média 3º Bim 4º Bim Bimestres Média das notas de José Sem variação a partir da Média Grande variação a partir da Média Pequena variação a partir da Média Grande variação a partir da Média - 34 - Uanderson Rebula de Oliveira Probabilidade & Estatística VARIÂNCIA E DESVIO PADRÃO (amostral) São medidas que representam “um valor médio de variação” em torno da média. O desvio padrão é um modo que se usa para medir a variação entre os números em um conjunto de dados. Assim como o termo sugere, um desvio padrão é um padrão (ou seja, algo típico) de desvio (ou distância) da média. O desvio padrão é uma estatística importante, mas, frequentemente, é omitida quando a média é relatada. Sem ele, você está recebendo apenas uma parte da história sobre os dados. Os estatísticos gostam de contar a história do homem que estava com um dos pés em um balde de água gelada e o outro em um balde de água fervendo. O homem dizia que, na média, ele estava se sentindo ótimo! Mas imagine a variação da temperatura para cada um dos pés. Agora, colocando os pés no chão, o preço médio de uma casa, por exemplo, não lhe diz nada sobre a variedade de preços de casas com a qual você pode se deparar enquanto estiver procurando uma casa para comprar. A média dos salários pode não representar o que realmente está se passando em sua empresa se os salários forem discrepantes. Entendendo a Variância e o Desvio Padrão Calculando a Variância e o Desvio Padrão Desvios em torno da Média das notas de João No gráfico percebemos que o desvio determina o quanto cada elemento do conjunto de dados se distancia da média 7,0. No 1º Bim. faltam -3,5 para se chegar a Média e no 2º Bim. -1,0. Já nos 3º e 4º Bim. temos +2,5 e +2,0 acima da média, respectivamente. Transpondo essas informações para uma tabela, temos: Notas (x) Média ( x ) Desvios (x - x ) 3,5 7,0 -3,5 6,0 7,0 -1,0 9,5 7,0 2,5 9,0 7,0 2,0 - - ∑=0 Perceba que a soma dos desvios é igual a zero. Esta característica não é exclusiva deste exemplo. Ela sempre ocorre e prende-se ao fato de que a média é o ponto de equilíbrio em um conjunto de dados. Como os desvios indicam o grau de variação dos valores em relação à média, seria interessante poder encontrar um único número que o representasse. Algo como a média dos desvios. Mas, para fazer essa média, precisamos somar os desvios e acabamos de ver que essa soma é sempre igual a zero. O problema da soma dos desvios foi resolvido pelos matemáticos: basta elevar cada desvio ao quadrado antes de somá-los. Um número ao quadrado é sempre positivo, portanto a soma não se anula mais, e a média dos desvios ao quadrado pode ser calculada: Notas (x) Média ( x ) Desvios (x - x ) Desvios elevado ao quadrado (x - x )2 3,5 7,0 -3,5 (-3,5)2 = 12,25 6,0 7,0 -1,0 (-1,0)2 = 1 9,5 7,0 +2,5 (2,5)2 = 6,25 9,0 7,0 +2,0 (2,0)2 = 4 n=4 - ∑=0 ∑ =23,5 Variância Agora, podemos calcular a média dos quadrados dos desvios, chamada de Variância, representada por S2: S2 = ∑ − )( xx 2 → n - 1 23,5 = 7,8 4 - 1 A divisão por n−1 (grau de liberdade) aparece por fornecer um melhor resultado do que a divisão por n. Para entender melhor o grau de liberdade pesquise: distribuição “t de Student”. Desvio padrão Mas, se elevamos os desvios ao quadrado para poder calcular sua média, não seria correto que agora fizéssemos a raiz quadrada dessa média, para desfazer a potenciação? Sim, e o valor dessa raiz é chamado Desvio padrão, representado por S: Desvio padrão → S = 8,7 = 2,8 Interpretação: O desvio padrão indica que a maioria das notas de João está concentrada dentro dos limites de ± 2,8 em torno da média 7,0. Ou seja, se concentrando entre 4,2 e 9,8 (veja abaixo). O entendimento completo da interpretação do desvio padrão será estudado em “distribuição Normal”. Equação da Variância e Desvio padrão Podemos concluir, então, o uso das equações: Variância S2 = ∑ − )( xx 2 n - 1 Desvio padrão S = 2S 7,0 4,2 -2,8 +2,8 9,8 3,5 6,0 7,0 9,5 9,0 0,0 2,0 4,0 6,0 8,0 10,0 N ot as 1º Bim 2º Bim Média 3º Bim 4º Bim Bimestres -3,5 -1,0 + 2,5 +2,0 Desvios da média - 35 - Uanderson Rebula de Oliveira Probabilidade & Estatística Calculando a Variância e o Desvio padrão das notas de Maria, José e Mário – passo a passo. Notas de Maria: 6,5 6,5 7,5 7,5 1º Calcular a Média n xx ∑= x = 6,5+6,5+7,5+7,5 = 7,0 4 2º Calcular a Variância S2 = 1 )( 2 − −∑ n xx S2 = (6,5 – 7,0)2 + (6,5 – 7,0)2 + (7,5 – 7,0)2 + (7,5 – 7,0)2 = 0,33 4 – 1 3º Calcular o Desvio padrão S = 2S → 33,0 S = 0,5 Interpretação: O resultado indica que a maioria das notas de Maria está concentrada dentro dos limites de ± 0,5 em torno da Média 7,0. Ou seja, se concentrando entre 6,5 e 7,5. Notas de José: 4,0 9,5 8,5 6,0 1º Calcular a Média n xx ∑= x = 4,0+9,5+8,5+6,5 = 7,0 4 2º Calcular a Variância S2 = 1 )( 2 − −∑ n xx S2 = (4,0 – 7,0)2 + (9,5 – 7,0)2 + (8,5 – 7,0)2 + (6,0 – 7,0)2 = 6,16 4 - 1 3º Calcular o Desvio padrão S = 2S → 16,6 S = 2,5 Interpretação: O resultado indica que a maioria das notas de Maria está concentrada dentro dos limites de ± 2,5 em torno da Média 7,0. Ou seja, se concentrando entre 4,5 e 9,5. Notas de Mário: 7,0 7,0 7,0 7,0 1º Calcular a Média n xx ∑= x = 7,0+7,0+7,0+7,0 = 7,0 4 2º Calcular a Variância S2 = 1 )( 2 − −∑ n xx S2 = (7,0 – 7,0)2 + (7,0 – 7,0)2 + (7,0 – 7,0)2 + (7,0 – 7,0)2 = 0 4 - 1 3º Calcular o Desvio padrão S = 2S → S = 0 O resultado indica que todas as notas de Mário estão dentro dos limites de ± 0 em torno da Média 7,0. Ou seja, se concentrando exatamente na média 7,0. Portanto, sem variação. NOTAS SOBRE O DESVIO PADRÃO. O desvio padrão é sempre um valor que está na mesma unidade dos dados originais. Um desvio padrão pequeno, basicamente, significa que os valores do conjunto de dados estão, na média, próximos do centro desse conjunto, enquanto um desvio padrão grande significa que os valores do conjunto de dados estão, na média, mais afastados do centro. Então, quanto mais espalhados ou dispersos forem os dados, maior será o desvio padrão e, quanto mais concentrados ou homogêneos forem os dados, menor será o desvio padrão. Se os valores forem iguais, ou seja, sem variação, o desvio padrão será zero. Um desvio padrão pequeno pode ser um bom objetivo em determinadas situações, onde os resultados são restritos, como exemplo, na produção e no controle de qualidade de uma indústria. Uma determinada peça de carro que deve ter centímetros de diâmetro para encaixar perfeitamente não pode apresentar um desvio padrão grande, nesse caso, significaria que acabariam sendo jogadas fora, pois ou não se encaixariam adequadamente ou os carros teriam problemas. Observe que o desvio padrão das notas de João indica que estão concentradas dentro dos limites de ± 2,8 em torno da média 7,0. Ou seja, se concentrando entre 4,2 e 9,8. Isto representa um desvio padrão grande. 7,0 6,5 -0,5 +0,5 7,5 7,0 4,5 -2,5 +2,5 9,5 média desvios Desvio padrão - 36 - Uanderson Rebula de Oliveira Probabilidade & Estatística COEFICIENTE DE VARIAÇÃO - CV É a medida relativa do desvio padrão que é expressa sob a forma de porcentagem (%). Em algumas situações, podemos estar interessados em uma estatística que indique qual é o tamanho do desvio padrão em relação à média. A melhor forma de representá-la é através do coeficiente de variação por ser expressa na forma de porcentagem. Equação do Cv: Cv = S x 100 x Ou seja: Cv = Desvio padrão x 100 Média Exemplo: Com a média 7,0 de João e Desvio padrão de 2,8, temos: Cv = 2,8 x 100 → 40% 7,0 O resultado indica que a Média 7,0 de João teve um Desvio padrão em torno de 40%. Interpretação estatística do Cv: Cv ≤ 15% = pequena variação em torno da média 15% < Cv < 30% = moderada variação em torno da média Cv ≥ 30% = grande variação em torno da média Fazendo a Distribuição de Variabilidade das notas de João, Maria, José e Mário, temos: Alunos x S Cv (%) Cálculo do Cv (%) Interpretação do Cv João 7,0 2,8 40% → 2,8/7,0 x 100 Grande variação Maria 7,0 0,5 7% → 0,5/7,0 x 100 Pequena variação José 7,0 2,5 36% → 2,5/7,0 x 100 Grande variação Mário 7,0 0 0% - VANTAGEM DO CV. O Cv é útil para compararmos a variabilidade de variáveis que têm desvios padrão diferentes e médias diferentes Exemplo: Suponha que o lote A de peças tenha média de 40 cm de comprimento com desvio padrão de 5 cm; e o lote B tenha média de 55 cm com desvio padrão de 6 cm. QUAL LOTE EM MAIOR VARIAÇÃO? Lote A Cv = 5 x 100 = 12,5% 40 Lote B Cv = 8 x 100 = 14,54% 55 DESVIO PADRÃO DE DISTRIBUIÇÃO DE FREQUÊNCIA Quando não temos a lista original dos dados, da mesma forma que a média, podemos encontrar o desvio padrão aproximado de uma distribuição de frequência. Neste caso, usamos a equação do desvio padrão estudado, adicionado de f, como abaixo. Desvio padrão SEM INTERVALO DE CLASSE 1º - Cálculo da média x = ∑(f.x) → 2.900 = 72,5 Km/h ∑f 40 2º - Cálculo do desvio padrão S = 1f )2x(x f * − − ∑ ∑ → 1 - 40 2100 = 7,3 km/h i Velocidade (Km/h) f f . xi (xi – x ) 2 * f 1 60 x 4 = 240 (60 – 72,5)2 * 4 = 625 2 65 6 390 (65 – 72,5)2 * 6 = 337 3 70 11 770 (70 – 72,5)2 * 11 = 69 4 75 8 600 (75 – 72,5)2 * 8 = 50 5 80 7 560 (80 – 72,5)2 * 7 = 394 6 85 4 340 (85 – 72,5)2 * 4 = 625 ∑f=40 ∑(f.xi) = 2.900 ∑ = 2.100 - 37 - Uanderson Rebula de Oliveira Probabilidade & Estatística Desvio padrão COM INTERVALO DE CLASSE Cálculo da média x = ∑(f. x) → 4180 = 104,5 Km/h ∑f 40 Cálculo do desvio padrão S = 1f )2x(x f * − − ∑ ∑ → 1 - 40 10.589 = 16,47 km/h Cálculo do Desvio padrão a partir de um Histograma em classes: Primeiramente, você deve calcular a média: (75*4) + (85*4) + ... + (125*10) = 104,5 Km/h 4 + 4 + 8 + ... + 10 S = 1f )2x(x f * − − ∑ ∑ Depois, calcule o Desvio padrão, observando os dados circulados no gráfico acima: (75-104,5)2 * 4 + (85-104,5)2 * 4 + ... + (125-104,5)2 * 10 = 10.589 → 26271, = 16,47Km/h 40 – 1 40-1 i Velocidade (Km/h) f xi f . xi (xi – x ) 2 * f 1 70 |⎯ 80 4 x 75 = 300 (75 – 104,5)2 * 4 = 3.481 2 80 |⎯ 90 4 85 340 (85 – 104,5)2 * 4 = 1.521 3 90 |⎯ 100 8 95 760 (95 – 104,5)2 * 8 = 722 4 100 |⎯ 110 8 105 840 (105 – 104,5)2 * 8 = 2 5 110 |⎯ 120 6 115 690 (115 – 104,5)2 * 6 = 661 6 120 |⎯ 130 10 125 1250 (125 – 104,5)2 * 10 = 4.202 ∑f=40 - ∑(f.xi) = 4180 ∑ = 10.589 4 4 8 8 6 1 0 0 2 4 6 8 1 0 1 2 Q ua nt id ad e de v eí cu lo s R e s u l t a d o s d o s r e g i s t r o s d e u m r a d a r 70 80 90 100 110 120 130 Velocidade (Km/h) 75 85 95 105 115 125 x x + (4*75)+(4*85) ... - 38 - Uanderson Rebula de Oliveira Probabilidade & Estatística É possível quantificar o acaso? INTRODUÇÃO À PROBABILIDADES 4 - 39 - Uanderson Rebula de Oliveira Probabilidade & Estatística 4.1 CONCEITOS BÁSICOS DE PROBABILIDADES Uma Probabilidade é um valor numérico que representa a possibilidade de que um evento venha a ocorrer. Dois exemplos clássicos (por sua simplicidade) do conceito de Probabilidade são: Ao lançar um dado, qual a probabilidade de obter o valor 4? Ao lançar uma moeda, qual a probabilidade de obter “cara” ou “coroa”? Como representar numericamente as possibilidades (chances) desses acontecimentos? Conhecidas certas condições, é perfeitamente possível responder a essas duas perguntas, antes mesmo da realização desses experimentos. A teoria da probabilidade surgiu para tentar calcular a “chance” de ocorrência de um resultado imprevisível, porém, pertencente a um conjunto de resultados possíveis. Todos os dias somos confrontados com situações, que nos conduzem a utilizar a teoria de probabilidade: Dizemos que existe uma pequena probabilidade de ganhar na loteria; O político deseja saber qual a sua probabilidade de ganhar as eleições; Dizemos que existe uma grande probabilidade de não chover num dia de verão; O gerente quer saber a probabilidade de o projeto ser concluído no prazo; O analista financeiro quer saber a chance de um novo investimento ser lucrativo; O gerente de marketing quer saber as chances de queda de vendas se aumentar os preços; O eng. produção quer saber a probabilidade de um novo método de montagem aumentar a produtividade. É POSSÍVEL QUANTIFICAR O ACASO. Desse modo, se houver probabilidades disponíveis, podemos determinar a possibilidade de cada um dos eventos ocorrer. Para continuar o estudo de probabilidades, três conceitos são extremamente importantes: Experimento aleatório, espaço amostral e eventos. Experimento aleatório É um experimento cujo resultado é imprevisível, porém pertencente a um conjunto de resultados possíveis. É o fenômeno que estamos interessados em observar, e cada resultado dele é uma experiência. Embora não saibamos qual o resultado que irá ocorrer num experimento, em geral, conseguimos descrever o conjunto de todos os resultados possíveis que podem ocorrer. Exemplos: EXPERIMENTO Resultados possíveis Jogar uma moeda Cara ou Coroa Lançar um dado 1, 2, 3, 4, 5, 6 Jogar uma partida de futebol Ganhar, empatar, perder Fazer um contato de vendas Comprar, não comprar Selecionar uma peça para inspeção Defeituosa, não defeituosa Nascimento de uma criança Masculino, feminino A principal característica do experimento é ser casual, no sentido de que, apesar de conhecermos seus possíveis resultados, não podemos dizer com certeza o que vai ser obtido. Quantas e quais as possibilidades de resultados desses experimentos são questões que tentamos responder para avaliar as chances de eles acontecerem. - 40 - Uanderson Rebula de Oliveira Probabilidade & Estatística Espaço amostral É o conjunto de todos os resultados possíveis de um experimento aleatório. ; Note que, ao especificar todos os resultados possíveis, identificamos o espaço amostral, representado por S. São exemplos de espaços amostrais: EXPERIMENTO ALEATÓRIO ESPAÇO AMOSTRAL Jogar uma moeda S = { Cara, Coroa} Lançar um dado S = {1, 2, 3, 4, 5, 6} Jogar uma partida de futebol S = {Ganhar, Empatar, Perder} Fazer um contato de vendas S = {Comprar, Não comprar} Selecionar uma peça para inspeção S = {Defeituosa, Não defeituosa} Nascimento de uma criança S = {Masculino, Feminino} Princípio Fundamental da Contagem (principio multiplicativo) O problema de determinar o espaço amostral surge quando as possibilidades de combinações são muitas e podem nos deixar confusos (Ex.: ao lançar 2 dados, quais os resultados possíveis?). Para resolver esta questão recorremos à organização da contagem denominada Princípio Fundamental de Contagem, representada graficamente pelo Diagrama de árvore, onde mostra todos os possíveis resultados de um acontecimento. Exemplo clássico: Suponha que José tenha 2 bermudas (preta e vermelha) e 3 camisas (azul, preta e verde). De quantas maneiras diferentes (resultados possíveis) José pode se vestir usando uma bermuda e uma camisa? Utilizando um diagrama de árvore teremos: Figura. Diagrama de árvore 2 x 3 = 6 possibilidades (espaço amostral) Princípio multiplicativo Observe que há duas possibilidades de escolher uma bermuda. Para cada uma delas, três possibilidades de escolher uma camiseta. Logo, o número total de maneiras diferentes de José se vestir é: 2 x 3 = 6 Como o número de resultados foi obtido por meio de uma multiplicação, dizemos que foi aplicado o princípio multiplicativo. O princípio multiplicativo constitui a ferramenta básica para determinar o nº de todas as possibilidades (espaço amostral) de um experimento sem que seja necessário enumerar cada etapa. Para isto, basta conhecemos o número de possibilidades de cada etapa e, multiplicando todos esses números, teremos o número total de possibilidades. Portanto, temos abaixo a fórmula: Fórmula do princípio multiplicativo np1 x np2 x ... x npk = ntp np1 → nº possibilidades da 1ª etapa np2 → nº possibilidades da 2ª etapa npk → nº possibilidades da k-ésima etapa ntp → nº total de possibilidades Princípio multiplicativo: 2 x 3 = 6 BERMUDAS 2 possibilidades CAMISAS 3 possibilidades 1ª etapa 2ª etapa - 41 - Uanderson Rebula de Oliveira Probabilidade & Estatística 1 1 2 3 4 5 6 ( 1, 1 ) ( 1, 2 ) ( 1, 3 ) ( 1, 4 ) ( 1, 5 ) ( 1, 6 ) 2 1 2 3 4 5 6 ( 2, 1 ) ( 2, 2 ) ( 2, 3 ) ( 2, 4 ) ( 2, 5 ) ( 2, 6 ) 3 1 2 3 4 5 6 ( 3, 1 ) ( 3, 2 ) ( 3, 3 ) ( 3, 4 ) ( 3, 5 ) ( 3, 6 ) 4 1 2 3 4 5 6 ( 4, 1 ) ( 4, 2 ) ( 4, 3 ) ( 4, 4 ) ( 4, 5 ) ( 4, 6 ) 5 1 2 3 4 5 6 ( 5, 1 ) ( 5, 2 ) ( 5, 3 ) ( 5, 4 ) ( 5, 5 ) ( 5, 6 ) 6 1 2 3 4 5 6 ( 6, 1 ) ( 6, 2 ) ( 6, 3 ) ( 6, 4 ) ( 6, 5 ) ( 6, 6 ) Lançar dois dados 1 1 2 3 4 5 6 ( 1, 1 ) ( 1, 2 ) ( 1, 3 ) ( 1, 4 ) ( 1, 5 ) ( 1, 6 ) 1 1 2 3 4 5 6 ( 1, 1 ) ( 1, 2 ) ( 1, 3 ) ( 1, 4 ) ( 1, 5 ) ( 1, 6 ) 2 1 2 3 4 5 6 ( 2, 1 ) ( 2, 2 ) ( 2, 3 ) ( 2, 4 ) ( 2, 5 ) ( 2, 6 ) 2 1 2 3 4 5 6 ( 2, 1 ) ( 2, 2 ) ( 2, 3 ) ( 2, 4 ) ( 2, 5 ) ( 2, 6 ) 3 1 2 3 4 5 6 ( 3, 1 ) ( 3, 2 ) ( 3, 3 ) ( 3, 4 ) ( 3, 5 ) ( 3, 6 ) 3 1 2 3 4 5 6 ( 3, 1 ) ( 3, 2 ) ( 3, 3 ) ( 3, 4 ) ( 3, 5 ) ( 3, 6 ) 4 1 2 3 4 5 6 ( 4, 1 ) ( 4, 2 ) ( 4, 3 ) ( 4, 4 ) ( 4, 5 ) ( 4, 6 ) 4 1 2 3 4 5 6 ( 4, 1 ) ( 4, 2 ) ( 4, 3 ) ( 4, 4 ) ( 4, 5 ) ( 4, 6 ) 5 1 2 3 4 5 6 ( 5, 1 ) ( 5, 2 ) ( 5, 3 ) ( 5, 4 ) ( 5, 5 ) ( 5, 6 ) 5 1 2 3 4 5 6 ( 5, 1 ) ( 5, 2 ) ( 5, 3 ) ( 5, 4 ) ( 5, 5 ) ( 5, 6 ) 6 1 2 3 4 5 6 ( 6, 1 ) ( 6, 2 ) ( 6, 3 ) ( 6, 4 ) ( 6, 5 ) ( 6, 6 ) 6 1 2 3 4 5 6 ( 6, 1 ) ( 6, 2 ) ( 6, 3 ) ( 6, 4 ) ( 6, 5 ) ( 6, 6 ) Lançar dois dados Ao lançar dois dados, quantos resultados serão possíveis? Observe pelo diagrama de árvore ao lado que, quando dois dados são lançados, cada um deles tem seis resultados possíveis; juntos, esses seis resultados possíveis para cada dado produzem 36 (6x6) combinações, ou seja, 36 pares possíveis. Ao lançar os dados abaixo, quantos resultados serão possíveis? Três dados → 6x6x6 = 216 Quatro dados → 6x6x6x6 = 1.296 Cinco dados → 65 = 7.776 Oito dados → 68 = 1.679.616 Dez dados → 610 = 60.466.176 Um projeto de ampliação da capacidade produtiva da empresa ABC divide-se em duas etapas seqüenciais: etapa 1 (projeto – em 2, 3 ou 4 meses) e etapa 2 (construção – em 6,7 ou 8 meses). Quais os resultados possíveis? Qual o prazo mais provável para conclusão total do projeto? Sabendo-se que os números do Seguro Social são constituídos de 9 dígitos e cada um deles tem 10 resultados possíveis (0,1,2...9), determine o número de Seguros diferentes que podem ser formados. 2 5 7 6 3 7 2 7 8 Espaço amostral 0 1 . 9 0 1 . 9 0 1 . 9 0 1 . 9 0 1 . 9 0 1 . 9 0 1 . 9 0 1 . 9 0 1 . 9 Aplicando o princípio multiplicativo, temos: 10 x 10 x 10 x 10 x 10 x 10 x 10 x 10 x 10 1.000.000.000 (1 bilhão de resultados possíveis) 10 x 10 x 10 x 10 x 10 x 10 x 10 x 10 x 10 = 1.000.000.000 6 x 6 = 36 - 42 - Uanderson Rebula de Oliveira Probabilidade & Estatística Eventos É cada resultado possível dentro de um espaço amostral. ; Evento é o resultado do experimento. Exemplos: Evento A → {sair número dois} → A={2}. Evento B → {sair número maior que 4} → B={5,6}. Evento C → {sair número par} →C={2,4,6}. Lançar um dado e observar sua face S = {1,2,3,4,5,6} Evento D → {sair número menor que 2} → D={1}. Representação gráfica .O Diagrama de Venn pode representar o espaço amostral e o evento. Evento A → {sair número dois} → A={2}. Evento C → {sair número par} → C={2,4,6}. A área do círculo representa o Evento e a área do retângulo representa todos os elementos de um espaço amostral. Probabilidade Clássica Normalmente existem muitos resultados possíveis em um experimento aleatório. A maior ou menor possibilidade de ocorrência dos diversos eventos é medida por um número chamado Probabilidade. Portanto, temos a seguinte expressão como medida numérica de Probabilidade: P = _n(A)_ → S → número de elementos no evento A espaço amostral Sendo: P – Probabilidade | (A) – Evento específico | P(A) – probabilidade de ocorrência do evento A EXEMPLOS 1) No lançamento de um dado, qual a probabilidade de o resultado ser o número 2? A = {2} S = {1,2,3,4,5,6} → A = 1 → S = 6 Logo: P(A) = 1 = 0,1666 = 16,66% 6 Dizemos que a probabilidade de o resultado ser o número 2 é de 1 chance em 6 ou 0,1666 ou 16,66%. 2) No lançamento de um dado, qual a probabilidade de o resultado ser um número par? A = {2,4,6} S = {1,2,3,4,5,6} → A = 3 → S = 6 Logo: P(A) = 3 = 0,50 = 50% 6 Dizemos que a probabilidade de o resultado ser um número par é de 3 chances em 6 ou 0,50 ou 50%. S = {1,2,3,4,5,6} C = {2,4,6} C 1 3 4 5 6 S 2 Espaço amostral Evento S = {1,2,3,4,5,6} A = {2} A 1 3 4 5 6 S 2 Espaço amostral Evento - 43 - Uanderson Rebula de Oliveira Probabilidade & Estatística 3) No lançamento de uma moeda, qual a probabilidade de o resultado ser Cara? A = {Ca} S = {Ca,Co} → A = 1 → S = 2 Logo: P(A) = 1 = 0,50 = 50% 2 4) Numa urna estão 10 bolas, sendo 8 pretas (P) e 2 brancas (B). Pegando-se uma bola qualquer dessa urna, qual a probabilidade de ela ser branca? A = {B,B} S = {P,P,P,P,P,P,P,P,B,B} → A = 2 → S = 10 Logo: P(A) = 2 = 0,20 = 20% 10 5) Em um lote de 10 peças, 2 são defeituosas. Sendo retirada uma peça, qual a probabilidade de essa peça ser defeituosa? Considerando N – Normal e D – Defeituosa, temos: A = {D, D} S = {N,N,N,N,N,N,N,N,D,D} → A = 2 → S = 10 Logo: P(A) = 2 = 0,2 = 20% 10 Naipes Observe o baralho abaixo (Total de 52 cartas) Valete Dama Reis Ás (Paus) 13 cartas (Ouros) 13 cartas (Espadas) 13 cartas (Copas) 13 cartas Ao retiramos uma carta de um baralho de 52 cartas qual a probabilidade de o resultado: 7) Sair um Ás de Ouros: Como temos somente 1 Ás de Ouros no baralho, então: A = {Ás} S = {52 cartas} → A = 1 → S = 52 Logo: P(A) = 1 = 0,019 = 1,9% 52 8) Sair um Reis: Como temos 4 Reis no baralho (um de Paus, um de Ouros, um de Espadas e um de Copas). Então: A = {R,R,R,R} S = {52 cartas} → A = 4 → S = 52 Logo: P(A) = 4 = 0,076 = 7,6% 52 Interpretação dos valores probabilísticos Os valores probabilísticos sempre são atribuídos em uma escala de 0 a 1 (ou 0% a 100%) A probabilidade como uma medida numérica da possibilidade de ocorrência de um evento 0 0,5 1 Chance 50-50 0% 50% 100% Impossível improvável provável Certo - 44 - Uanderson Rebula de Oliveira Probabilidade & Estatística REFERÊNCIAS BIBLIOGRÁFICAS ANDERSON, David R.; SWEENEY, Dennis J.; WILLIANS, Thomas A. Estatística aplicada à administração e economia. 2 ed. São Paulo: Cengage Learning, 2009. 597 p. BRUNI, Adriano Leal. Estatística para concursos. São Paulo: Atlas, 2008. 197p. COSTA, Sérgio Francisco. Introdução ilustrada à estatística. 4 ed. São Paulo: Harbra, 2005. 399 p. CRESPO, Antônio Arnot. Estatística fácil. 17 ed. São Paulo: Saraiva, 1999. 224 p. FARIAS, Alfredo Alves et al. Introdução à estatística. 2 ed. Rio de Janeiro: LTC, 2003, 320 p. GIOVANNI José Ruy; BONJORNO, José Roberto; GIOVANNI JR., José Rui. Matemática fundamental: uma nova abordagem – volume único. São Paulo: FTD, 2002. 712 p. HAZZAN, Samuel. Fundamentos da matemática elementar: Matemática financeira, comercial e estatística descritiva. Volume 11. 1 ed. São Paulo: Atual editora, 2004. 230p. Instituto Brasileiro de Geografia e Estatística – IBGE. A instituição. Disponível em <http://www.ibge.gov.br/home/disseminacao/eventos/missao/default.shtm>. Acesso em 06 abr 2010. LAPPONI, Juan Carlos. Estatística usando o Excel. 4 ed. Rio de Janeiro: Elsevier, 2005. 476 p. LARSON, Ron; FARBER, Betsy. Estatística aplicada. 4 ed. São Paulo: Pearson, 2010. 637 p. LEVINE, David M. et al. Estatística: teoria e aplicações. 5 ed. Rio de Janeiro: LTC, 2008. 752 p. LOPES, Paulo Afonso. Probabilidade e estatística: conceitos, modelos e aplicações em Excel. Ernesto Reichmann, 1999. 174 p. MANDIN, Daniel. Estatística descomplicada. 9 ed. Brasília: Vestcon, 2002. 227 p. MONTGOMERY, Douglas C.; RUNGER, George C. Estatística aplicada e probabilidade para engenheiros. 2 ed. Rio de Janeiro: LTC, 2003. 465 p. OLIVEIRA, Uanderson Rebula de. Ergonomia, higiene e segurança do trabalho. Resende-RJ: Apostila. Universidade Estácio de Sá, 2009. 199 p. RUMSEY, Deborah. Estatística para leigos. Rio de Janeiro: Alta books, 2009. 350 p. SILVA, Ermes Medeiros et al. Estatística: para os cursos de Economia, Administração e Ciências Contábeis - volume 1. 2 ed. São Paulo: Atlas, 1996. 189 p. SMOLE, Kátia Stocco; DINIZ, Maria Ignez. Matemática–ensino médio. 5 ed. São Paulo: Saraiva, 2005. 558p. SPIEGEL, Murray R. Estatística: resumo da teoria, 875 problemas resolvidos, 619 problemas propostos. São Paulo: McGraw-Hill do Brasil, 1977. 580 p. TRIOLA, Mario F. Introdução à estatística. 10 ed. Rio de Janeiro: LTC, 2008. 696 p. URBANO, João. Estatística: uma nova abordagem. Rio de Janeiro: Ciência moderna, 2010. 530p. VASCONCELLOS, Maria José Couto; SCORDAMAGLIO, Maria Terezinha; CÂNDIDO, Suzana Laino. Coleção Matemática. 1ª e 3ª série do ensino médio. São Paulo: Editora do Brasil, 2004. 232 p. WERKEMA, Maria Cristina Catarino. As ferramentas da qualidade no gerenciamento dos processos. Belo Horizonte: EDG, 1995. 128 p. - 45 - Uanderson Rebula de Oliveira Probabilidade & Estatística SITES PARA CONSULTA www.brasilescola.com Instituto de pesquisa econômica aplicada - http://www.ipea.gov.br Instituto brasileiro de geografia e estatística - http://www.ibge.gov.br Associação Brasileira de Estatística - http://www.ime.usp.br/~abe/ www.ibope.com.br ANEXO I - LIVROS RECOMENDADOS Um livro introdutório de estatística que inclui um estilo de escrita amigável, conteúdo que reflete as características importantes de um curso introdutório moderno de estatística, o uso da tecnologia computacional mais recente, de conjuntos de dados interessantes e reais, e abundância de componentes pedagógicos. O CD-ROM inclui os conjuntos de dados do Apêndice B do livro. Esses conjuntos de dados encontram-se armazenados em formato texto, planilhas do Minitab, planilhas do Excel e uma aplicação para a calculadora TI-83. Inclui também programas para a calculadora gráfica TI-83 Plus®, o Programa Estatístico STATDISK (Versão 9.1) e um suplemento do Excel, desenvolvido para aumentar os recursos dos programas estatísticos do Excel. Este livro diferencia-se dos tradicionais livros, materiais de referência e manuais de estatísticas, pois possui: Explicações intuitivas e práticas sobre conceitos estatísticos, ideias, técnicas, fórmulas e cálculos. Passo a passo conciso e claro de procedimentos que intuitivamente explicam como lidar com problemas estatísticos. Exemplos interessantes do mundo real relacionados ao cotidiano pessoal e profissional. Respostas honestas e sinceras para perguntas como “O que isso realmente significa?” e “Quando e como eu vou usar isso?” Neste livro você encontrará: Explicações em português de fácil entendimento. Informações fáceis de localizar e passo-a-passo. Ícones e outros recursos de identificação e memorização. Folha de cola para destacar com informações práticas. Listas dos 10 melhores relacionados ao assunto. Um toque de humor e diversão. Onde comprar: www.submarino.com.br - 46 - Uanderson Rebula de Oliveira Probabilidade & Estatística ANEXO II - SOFTWARE BIOESTAT Texto extraído da tese de doutorado em Engenharia de Ualison Rebula de Oliveira Existem inúmeros recursos tecnológicos para a análise estatística de dados, que vão desde calculadoras, a exemplo da TI – 83 PLUS, a aplicativos específicos, tais como o STATDISK e o MINITAB (TRIOLA, 2005). Assim, buscando-se recursos computacionais que facilitassem o tratamento de dados, vários aplicativos e softwares estatísticos foram pesquisados, dos quais se destacam a planilha Excel, o STATDISK, o MINITAB, o BioEstat, o SPSS e algumas páginas na Internet que oferecem programas em Javascript para cálculos on-line, a exemplo da página na Internet www.stat.ucla.edu. Após análise de pós e contras de cada aplicativo pesquisado, selecionou-se o pacote estatístico BioEstat, disponível para download no site www.mamiraua.org.br, por possuir as seguintes características positivas: i) serventia tanto para a Estatística descritiva como para testes estatísticos não-paramétricos; ii) ser em português; iii) possuir manual em PDF com diversos exemplos; iv) ser de fácil utilização; v) ser gratuito; vi) ser referenciado em vários livros, sites e entidades de pesquisa – conforme Siegel & Castellan Junior (2006), o BioEstat é o melhor programa disponível na atualidade para o cálculo do qui-quadrado; vii) possuir apoio do CNPQ; e viii) estar na versão 5.0 e possuir mais de 20 anos de criação. INTERFACE BIOESTAT Baixar software: www.mamiraua.org.br - 47 - Uanderson Rebula de Oliveira Probabilidade & Estatística Anexo III - ESTATÍSTICA NO EXCEL O Excel dispõe da função “Estatística”. Assim, tudo que vimos poderá ser desenvolvido pelo excel, bastando inserir os valores da variável de interesse. Para saber mais, basta adquirir o livro “Estatística usando o excel”, de Juan Carlos Lapponi. WWW.SUBMARINO.COM.BR 4ª Edição, Edição 2005, 496 págs. Editora Elsevier Campus - Acompanha CD-ROM com Planilhas, Modelos, Simuladores etc. para Excel. O conteúdo deste livro é útil para: Estudantes que cursam Estatística nas diversas áreas do conhecimento e em diferentes níveis de graduação como, em ordem alfabética, Administração, Biologia, Contabilidade, Economia, Engenharia, Finanças, Marketing, Medicina, etc. Estudantes que necessitam aprimorar ou complementar seus conhecimentos de Estatística utilizando o Excel. Profissionais das diversas áreas que utilizam os conceitos de Estatística e necessitam, ou gostariam, de utilizar as funções estatísticas, as ferramentas de análise, planilhas, modelos e simuladores de estatística em Excel. Todos aqueles que poderão utilizar as planilhas, modelos e simuladores de estatística em Excel da forma como estão no CD-Rom, ou modificando-os, para atender às suas necessidades. Alunos de áreas correlatas que utilizarão estatística e desejam antecipar seu aprendizado e agregar valor ao seu conhecimento visando o mercado de trabalho. Usuários de Excel que desejam conhecer e aprender a utilizar os recursos de Estatística disponíveis. TÓPICOS • DADOS, VARIÁVEIS E AMOSTRAS • DESCRIÇÃO DE AMOSTRAS COM TABELAS E GRÁFICOS • MEDIDAS DE TENDÊNCIA CENTRAL • MEDIDAS DE DISPERSÃO/VARIAÇÃO • PROBABILIDADE • CORRELAÇÃO • VARIÁVEIS ALEATÓRIAS E DISTRIBUIÇÕES DISCRETAS • DISTRIBUIÇÕES CONTÍNUAS • COMBINAÇÃO LINEAR DE VARIÁVEIS ALEATÓRIAS • DISTRIBUIÇÃO AMOSTRAL • ESTIMAÇÃO • TESTE DE HIPÓTESES • TESTES DE HIPÓTESES COM DUAS AMOSTRAS • ANÁLISE DA VARIÂNCIA • REGRESSÃO LINEAR • AJUSTE NÃO LINEAR