Esta é uma pré-visualização de arquivo. Entre para ver o arquivo original
Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 1 Estatística Aula 01 Estatística Descritiva. 1 Introdução ................................................................................................................................ 5 2 Tipos de Variáveis ................................................................................................................. 6 3 Rol ............................................................................................................................................... 7 4 Séries Estatísticas ................................................................................................................. 8 5 Técnicas de Descrição Gráfica ........................................................................................ 10 5.1 Descrição Gráfica de Variáveis Qualitativas ....................................................... 10 5.2 Descrição Gráfica de Variáveis Quantitativas Discretas ................................ 11 5.3 Descrição Gráfica de Variáveis Quantitativas Contínuas .............................. 13 6 Caracterização de uma Distribuição de Frequências ............................................. 16 6.1 Medidas de Posição ...................................................................................................... 16 7 Medidas de Dispersão ........................................................................................................ 24 7.1 Variância .......................................................................................................................... 25 7.2 Desvio Padrão ................................................................................................................ 29 7.3 Coeficiente de Variação .............................................................................................. 29 7.4 Desvio Interquartílico .................................................................................................. 30 7.5 Diagrama de Caixa ....................................................................................................... 30 8 Momentos ............................................................................................................................... 33 9 Medidas de Assimetria ....................................................................................................... 35 10 Medidas de Achatamento ou Curtose ....................................................................... 38 11 Ramo e Folhas ................................................................................................................... 39 12 Resumo................................................................................................................................. 41 13 Exercícios de Fixação ...................................................................................................... 44 14 Gabarito ............................................................................................................................... 67 15 Resolução dos Exercícios de Fixação ........................................................................ 68 Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 2 Olá, tudo bem com você? Bem vindo às aulas de Estatística! Sou o professor Alexandre Lima. É uma imensa satisfação tê-lo como meu aluno. Como este é o nosso primeiro encontro, peço a sua licença para uma breve apresentação sobre a minha formação e a minha experiência como professor para concursos. Em seguida, tecerei alguns comentários preliminares que julgo serem pertinentes. Obtive o grau de Bacharel em Ciências Navais com ênfase em Eletrônica pela Escola Naval e os de Engenheiro Elétrico (com ênfase em Telecomunicações), Mestre e Doutor em Engenharia Elétrica (com ênfase em sistemas eletrônicos) pela Escola Politécnica da Universidade de São Paulo. Sou Auditor-Fiscal Tributário Municipal de São Paulo (“Fiscal do ISS/SP”) há mais de uma década. Em paralelo, exerço o magistério universitário e ministro aulas de Contabilidade, Raciocínio Lógico-Quantitativo e Estatística para concursos. Aqui no “Ponto”, já tive a oportunidade de ministrar vários cursos nas áreas de Estatística, Contabilidade e Raciocínio Lógico-Quantitativo. Este curso de Estatística para Analista do Banco Central (BACEN) – Área 2 – visa a abordagem de todo o conteúdo programático de Estatística conforme o edital do último concurso (publicado em 2009), que, como você sabe, foi organizado pela Fundação Cesgranrio. Pretendo resolver junto com você muitas questões da Cesgranrio que já caíram em concursos anteriores. Não obstante, é bom esclarecer que também costumo resolver, por razões didáticas, questões propostas por outras bancas. Observe que todas as questões incluídas nas aulas são cuidadosamente selecionadas para que o seu aproveitamento seja máximo. As soluções apresentadas são resultantes de um longo processo evolutivo, fruto de uma intensa interação com os alunos via forum web etc. Muitos alunos reclamam da minha linha de ação, afirmando que gostariam de um curso que contivesse somente questões da banca organizadora. Eu discordo totalmente desse ponto de vista porque a nossa matéria é uma ciência exata. A Estatística não muda com a banca. Mas é claro que darei preferência, sempre que possível, para a resolução de questões da Cesgranrio. Serei sincero com você: a Estatística não é uma matéria fácil. Um bom aproveitamento desta disciplina requererá muita dedicação e esforço, o que significará, na prática, que você deverá treinar exaustivamente por meio da resolução dos exercícios. Garanto que se você treinar, treinar e treinar, o bom desempenho na prova será mera consequência do treinamento. Por outro lado, a minha tarefa como seu professor consistirá em apresentar os elementos sensíveis do assunto, numa ordem sugestiva e com uma distribuição adequada do conteúdo. Eu o incentivo a perguntar via forum web sempre que tiver dúvidas. Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 3 Acredito que o segredo para ser aprovado em qualquer concurso reside na capacidade de abstrair, que consiste, a rigor, em apreender o essencial e ignorar o incidental, ver o que é significativo e pôr de lado o irrelevante, reconhecer o importante como importante e o negligenciável como negligenciável. Portanto, espero que você chegue ao final deste curso com uma compreensão razoável das ideias fundamentais da Estatística que será cobrada na prova. Não tente aprender tudo o que será ensinado de uma só vez. Há que digerir os conceitos. A minha experiência mostra que quem tenta aprender tudo de uma só tacada não aprende nada. Mudando um pouco de assunto. Fiz uma revisão conjunta dos cronogramas de Estatística e Econometria, para que as aulas desta última disciplina sejam dadas após as aulas da primeira. Como você sabe, um bom aproveitamento do curso de Econometria depende da nossa bagagem em Estatística. Seguem-se os cronogramas das aulas restantes de Estatística e de Econometria: ESTATÍSTICA: Aula 2 (25/06/2012): Probabilidades: conjuntos, eventos, axiomas, probabilidades conjunta e condicional, independência, regras de adição, regra da multiplicação, teoremas da probabilidade total e de Bayes. Aula 3 (29/06/2012): Variável Aleatória: definição, função discreta de probabilidade, função de distribuição de probabilidade, função densidade de probabilidade. Valor Esperado: média, variância e valor esperado de função de variável aleatória. Desigualdade de Chebyshev. Principais distribuições de probabilidade (binomial, Poisson, normal etc.). Aula 4 (02/07/2012): Variável Aleatória Bivariada: função de probabilidade conjunta, função de probabilidade marginal, função de probabilidade condicional. Variáveis aleatórias independentes. Esperanças envolvendo duas ou mais variáveis: correlação e covariância. Introdução à Regressão Linear. Aula 5 (06/07/2012): Amostragem: amostragem aleatória, teorema do limite central, distribuições amostrais. Aula 6 (23/07/2012): Estimação: estimador e estimativa, justeza, vício de estimação, eficiência, erro quadrático médio, método da máxima verossimilhança. Estimação por ponto e por intervalo. Intervalos de confiança. Aula 7 (27/07/2012): Teste de Hipóteses: para médias, proporções e variâncias populacionais. Valor-p (probabilidade de significância). Teste de hipóteses não paramétrico. Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 4 Aula 8 (30/07/2012): Inferência Estatística e Análise de Variância do Modelo de Regressão Linear Simples. ECONOMETRIA: Aula 1 (06/08/2012): Introdução à Econometria. Aula 2 (13/08/2012): Regressão Linear Múltipla: especificação e estimação do modelo de regressão linear múltipla, inferência estatística. Aula 3 (20/08/2012): Noções de processos estocásticos: especificação, propriedades da função de autocovariância, estacionariedade, ergodicidade, processos lineares estacionários (processos ruído branco, autorregressivo (AR), de médias móveis (MA), autorregressivos e de médias móveis (ARMA)), processos lineares não estacionários (modelo ARIMA). Aula 4 (27/08/2012): Séries temporais: modelagem, estacionariedade e invertibilidade. Números Índices. Aula 5 (03/09/2012): Testes de raízes unitárias para estacionariedade. Cointegração e correlação de erros. Aula 6 (10/09/2012): Modelos com variáveis defasadas. Vetor autorregressivo (VAR). Revisão e/ou complementos da matéria. Voltemos ao nosso curso. Na aula de hoje, veremos alguns tópicos de estatística descritiva tais como gráficos, tabelas, séries, tipos de variáveis, distribuições de freqüência, medidas de posição (média, mediana e moda) e medidas de dispersão (desvio padrão, variância e coeficiente de variação). É bom começar do início! É bastante provável que a sua prova não enfoque a estatística descritiva (mas lembre-se que o edital ainda não saiu). Contudo, a experiência indica que não é recomendável começar este curso pela inferência estatística. Isto seria uma temeridade do ponto de vista didático, pois haveria uma lacuna conceitual. Além disso, este curso tem como objetivo ser autocontido, de modo que você não sinta necessidade de estudar por outro material que não seja este. As notas explicativas estão indicadas pelos símbolos (*) ou (**). Optei por não usar notas de rodapé para que haja uma melhor fluência da sua leitura. A última seção da exposição teórica traz um resumo de alguns conceitos e fórmulas importantes para a prova. Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 5 1 Introdução A Estatística é a ciência que se preocupa em coletar, analisar e fazer inferências a partir de dados. A sua matéria-prima é um conjunto de dados. Ela é uma ciência meio, e não fim, sendo útil em vários campos do conhecimento, tais como física, engenharia, medicina, atuária, biologia, economia, administração, etc. Métodos estatísticos nos ajudam a entender o problema da variabilidade. Mas o que seria essa variabilidade? A idéia é simples. Diversas observações de um sistema ou fenômeno não produzem exatamente o mesmo resultado. E isto ocorre porque sistemas/fenômenos físicos estão sujeitos à variabilidade. Considere, por exemplo, o consumo mensal de energia elétrica da sua casa. Você observa o mesmo consumo mensal todos os meses? É claro que não! Às vezes, o consumo varia consideravelmente, como nos meses de verão (devido ao uso de ar-condicionado, ventilador, etc.) e de inverno (por causa da utilização de sistemas de aquecimento, secadora de roupas, etc.). Outro exemplo prático seria a arrecadação mensal de tributos do governo. O governo precisa saber quais são as fontes potenciais de variabilidade no sistema de arrecadação. É aí que entra a Estatística, pois ela é capaz de descrever a variabilidade e de indicar quais fontes de variabilidade são mais importantes ou quais têm impacto significativo sobre o desempenho da arrecadação. A Estatística pode ser dividida em duas partes: a Estatística Descritiva, que aborda a coleta, organização e a descrição dos dados experimentais (*), e a Inferência Estatística(ou Estatística Indutiva), cujo objetivo é inferir propriedades de um agregado maior (a população) a partir de um conjunto menor (a amostra). A inferência estatística não é exata; as suas induções sempre possuem um determinado grau de incerteza (**) (*) As etapas de coleta, organização é descrição podem ser resumidas pela terminologia síntese dos dados. (**) A indução é um processo de raciocínio em que, partindo-se do conhecimento de uma parte, procura-se tirar conclusões sobre o todo. Uma população ou universo é um conjunto de elementos com pelo menos uma característica comum. A população pode ser finita ou infinita. Por exemplo, o número de pneus defeituosos produzidos em um dia por uma determinada fábrica, é uma população de tamanho finito. Já as observações obtidas pela medição diária de gases de efeito estufa representam uma população de tamanho infinito. A característica comum deve delimitar de forma exata quais os elementos que pertencem à população e quais os que não pertencem. Considere, por exemplo, a população dos indivíduos do sexo masculino inscritos no próximo concurso para o BACEN. Essa população não inclui as pessoas do sexo feminino que farão o mesmo concurso. Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 6 Depois que caracterizamos a população, procedemos ao levantamento de dados acerca da característica (ou características) de interesse no estudo em questão. Na maioria dos problemas de inferência estatística, é impossível ou impraticável observar toda a população. Devemos então restringir nossas observações a uma parte da população, isto é, a uma amostra proveniente dessa população. Uma amostra é, portanto, um subconjunto finito de uma população, e todos os seus elementos serão examinados para a realização do estudo estatístico desejado. Quanto maior a amostra, mais precisas e confiáveis serão as induções realizadas sobre a população. No limite, resultados 100% confiáveis podem ser obtidos através do exame completo da população. Na prática, isso não é necessário, pois induções suficientemente precisas e confiáveis podem ser realizadas desde que o tamanho da amostra seja corretamente dimensionado. Retornaremos ao estudo da Inferência Estatística, de forma bastante detalhada, em aulas posteriores. A partir deste ponto, voltaremos a nossa atenção para o foco desta aula, que é o estudo da Estatística Descritiva. 2 Tipos de Variáveis A função da Estatística Descritiva é organizar as informações contidas nos resultados observados. De forma geral, podemos ter cada um dos elementos de uma população ou amostra associado a mais de uma característica de interesse. Por exemplo, o conjunto dos elementos sob investigação pode ser uma amostra da população dos candidatos do sexo masculino inscritos no último concurso para BACEN. Este é o conjunto dos elementos fisicamente definidos e considerados. Para este conjunto, as variáveis (características) de interesse poderiam ser: idade, peso e altura. Neste curso, veremos apenas o caso de variáveis unidimensionais, em que apenas uma característica de interesse está associada a cada elemento do conjunto examinado. Há casos, porém, em que duas ou mais características precisam ser simultaneamente estudadas. A característica de interesse poderá ser qualitativa ou quantitativa. Tem-se, portanto, variáveis qualitativas ou quantitativas. A variável será qualitativa quando resultar de uma classificação por tipos ou atributos, como, por exemplo: a) População: moradores de uma cidade. Variável: sexo (masculino ou feminino). b) População: peças produzidas por uma máquina. Variável: qualidade (perfeita ou defeituosa). Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 7 Os atributos ou variáveis qualitativas são denominados ordinais sempre que pode-se estabelecer uma ordem ou hierarquia entre as respostas obtidas no levantamento estatístico. Por exemplo, o IBGE efetua periodicamente o levantamento do grau de instrução dos brasileiros por meio de um censo completo da população. As respostas possíveis para essa pesquisa seriam algo como “sem instrução escolar”, “nível fundamental incompleto”, “nível fundamental completo”, “nível médio incompleto”, “nível médio completo”, “nível superior incompleto” e “nível superior completo. Essas respostas não são números, são variáveis qualitativas. Como é possível estabelecer uma hierarquia entre as possíveis respostas, tem-se uma variável qualitativa ordinal. Por outro lado, a variável será quantitativa quando seus valores forem expressos em números. As variáveis quantitativas podem ser discretas ou contínuas. Uma variável contínua é aquela cujos possíveis valores pertencem a um intervalo de números reais e que resulta de uma mensuração, como, por exemplo, a estatura de um indivíduo. Uma variável discreta é aquela cujos possíveis valores formam um conjunto finito ou enumerável de números, e que resultam, freqüentemente, de uma contagem. Exemplos de variáveis discretas: a) População: casais residentes em um distrito de uma cidade. Variável: número de filhos. b) População: carros produzidos em uma linha de montagem. Variável: número de defeitos por unidade. Exemplos de variáveis contínuas: a) População: detergentes de uma certa marca e tipo. Variável: peso líquido. b) População: peças produzidas por uma máquina. Variável: diâmetro externo. A Estatística Descritiva pode descrever os dados através de gráficos, distribuições de frequência ou medidas associadas a essas distribuições, conforme veremos a seguir. 3 Rol Vimos que a organização dos dados coletados é uma das etapas do processo estatístico a cargo da Estatística Descritiva. Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 8 Um rol é um arranjo dos dados em ordem crescente ou decrescente. Assim, {10, 8, 20, 12, 15, 3, 2, 4} são dados brutos e {2, 3, 4, 8, 10, 12, 15, 20} constituem o rol. 4 Séries Estatísticas As tabelas são recursos utilizados pela Estatística, com o objetivo de organizar e facilitar a visualização e comparação dos dados. As tabelas permitem uma visão geral dos valores assumidos pelas variáveis dentro de certos parâmetros. É chamada série estatística toda tabela que apresenta um conjunto de dados estatísticos distribuídos em função da época, do local ou da espécie. As séries estatísticas podem ser classificadas em • históricas; • geográficas; • específicas; e • distribuição de frequências. Exemplos: 1) Série histórica: Índice Nacional de Preços ao Consumidor Amplo (IPCA) IPCA (%) Jun/2011 0,15 Mai/2011 0,47 Abr/2011 0,77 Mar/2011 0,79 Fev/2011 0,80 Jan/2011 0,83 Dez/2010 0,63 Nov/2010 0,83 Out/2010 0,75 Set/2010 0,45 Ago/2010 0,04 Jul/2010 0,01 Jun/2010 0,00 Fonte: IBGE Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 9 2) Série geográfica: os 10 maiores PIB do mundo PIB 2010 País US$ (bilhões) EUA 14.582 China 5.878 Japão 5.497 Alemanha 3.309 França 2.560 Reino Unido 2.246 Brasil 2.087 Itália 2.051 Canadá 1.574 Fonte: Banco Mundial 3) Série específica: número de formandos por curso de graduação de uma universidade NÚMERO DE ALUNOS EGRESSOS - 2010 Cursos No de egressos Engenharia 100 Direito 250 Administração 150 Economia 50 Contabilidade 50 (*) Valores hipotéticos 4) Distribuição de frequências: Altura dos alunos de uma academia ginástica Alturas (m) No de alunos 1,50 |-- 1,60 25 1,60 |-- 1,70 45 1,70 |-- 1,80 80 1,80 |-- 1,90 15 1,90 |-- 2,00 5 2,00 |-- 2,10 1 (*) Valores hipotéticos O conceito de distribuição de frequências é importante e será visto com um maior grau de detalhamento na próxima seção. Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 10 5 Técnicas de Descrição Gráfica A frequência de um dado valor de uma variável (qualitativa ou quantitativa) é definida como o número de vezes que esse valor foi observado. Seja fi a frequência do i-ésimo valor observado. Se o número total de elementos observados é n, então vale a relação (1) nf k 1i i =∑ = em que k denota o número de diferentes valores existentes da variável. A associação das respectivas frequências a todos os diferentes valores observados define a distribuição de frequências do conjunto de valores observados. Também podemos trabalhar com a noção de frequência relativa de um valor observado, definida como (2) n fp ii = . Observe que (3) ∑ = = k 1i ip 1. 5.1 Descrição Gráfica de Variáveis Qualitativas O gráfico obtido por meio do cálculo das frequências ou frequências relativas poderá ser um diagrama de barras, um diagrama circular ou qualquer outro tipo de diagrama equivalente. Exemplo. Considere um grupo de 147 candidatos a um curso de MBA, classificados segundo a sua graduação, conforme a Tabela 1. Tabela 1: formação de graduação. Formação Frequências Freq. Relativa (%) Engenheiros 45 30,61 Administradores 38 25,85 Economistas 35 23,81 Contadores 16 10,88 Outros 13 8,84 Total 147 100,00 Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 11 Os dados estão representados por meio de um diagrama de barras e por um diagrama circular (veja as duas figuras a seguir). 5.2 Descrição Gráfica de Variáveis Quantitativas Discretas A descrição gráfica de variáveis quantitativas discretas é normalmente feita por meio de um diagrama de barras. Como a variável é quantitativa, seus valores numéricos podem ser representados num eixo horizontal. Neste caso, as barras do diagrama serão verticais. Exemplo. Considere a variável “número de defeitos por unidade” obtidos a partir de produtos retirados de uma linha de produção. Seja o conjunto de 20 valores obtidos conforme a Tabela 2. Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 12 Tabela 2: distribuição de frequências. xi fi pi 0 8 0,20 1 14 0,35 2 10 0,25 3 4 0,10 4 2 0,05 5 2 0,05 Total 40 1,00 A figura abaixo mostra o diagrama de barras associado aos dados da Tabela 2. Também é possível representar graficamente os dados da Tabela 2 utilizando as frequências acumuladas, que serão denotadas por Fi. A frequência acumulada, em qualquer ponto do eixo horizontal (ou eixo das abscissas), é a soma das frequências de todos os valores menores ou iguais ao valor correspondente a esse ponto. De forma análoga, também temos as frequências relativas acumuladas Pi. A Tabela 3 ilustra as frequências e frequências relativas acumuladas para os dados da Tabela 2. A figura a seguir mostra o gráfico das frequências acumuladas. Tabela 3: frequências acumuladas. xi Fi Pi 0 8 0,20 1 22 0,55 2 32 0,80 3 36 0,90 4 38 0,95 5 40 1,00 Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 13 5.3 Descrição Gráfica de Variáveis Quantitativas Contínuas O diagrama de barras não é usado na descrição gráfica de variáveis quantitativas contínuas (*). O Exemplo a seguir ilustra a técnica usualmente empregada na prática. (*) Devido à natureza contínua da variável. Exemplo. Considere a variável comprimento de peças produzidas em uma fábrica, dada em centímetros: 10,4 10,5 10,8 10,2 10,6 10,6 10,2 10,7 10,4 10,5 10,3 10,5 10,4 10,7 10,4 10,9 10,5 10,3 10,6 10,5 10,4 10,5 10,6 10,9 10,7 Na Tabela 4, temos os dados acima organizados em termos de frequências e de frequências relativas, simples e acumuladas. Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 14 Tabela 4: distribuição das frequências e das frequências acumuladas. xi fi Fi pi Pi 10,2 2 2 0,08 0,08 10,3 2 4 0,08 0,16 10,4 5 9 0,20 0,36 10,5 6 15 0,24 0,60 10,6 4 19 0,16 0,76 10,7 3 22 0,12 0,88 10,8 1 23 0,04 0,92 10,9 2 25 0,08 1,00 25 1,00 A próxima figura é uma representação gráfica das duas primeiras colunas da Tabela 4. É importante que você aprenda a interpretar corretamente o gráfico da figura a seguir. Por exemplo, a frequência 2 associada ao valor 10,3 quer dizer, na verdade, que temos dois valores compreendidos entre os limites 10,25 e 10,35, que foram aproximados, no processo de medição, para 10,3. Portanto, uma representação gráfica correta deverá associar a frequência 2 ao intervalo 10,25 - 10,35. Isto é feito por meio de uma figura formada com retângulos cujas áreas representam as frequências dos diversos intervalos existentes. Tal figura é denominada histograma. 10.2 10.3 10.4 10.5 10.6 10.7 10.8 10.9 11 0 1 2 3 4 5 6 7 x f No caso das variáveis contínuas, as frequências sempre serão associadas a intervalos de variação da variável e não a valores individuais. Tais intervalos são chamados de classes de frequências. Estas classes são usualmente representadas pelos seus pontos médios. Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 15 Variáveis contínuas também podem ser representadas pelo polígono de frequências, que é obtido unindo-se os pontos médios dos patamares do histograma. Para completar a figura, consideram-se duas classes laterais com frequência nula (*). A figura a seguir ilustra o polígono de frequências correspondente ao histograma da figura anterior. (*) Exceto no caso de variáveis essencialmente positivas cujo histograma se inicia no valor zero, pois não haveria sentido em se considerar um intervalo com valores negativos. 10.2 10.3 10.4 10.5 10.6 10.7 10.8 10.9 11 0 1 2 3 4 5 6 7 x f A figura a seguir mostra os gráficos das frequências relativas acumuladas e do polígono de frequências relativas acumuladas (ou ogivas percentuais (*)) relativos ao último exemplo. (*) O polígono de frequências acumuladas também pode ser chamado de ogiva. Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 16 10.2 10.3 10.4 10.5 10.6 10.7 10.8 10.9 11 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 x P Na prática, às vezes é necessário agrupar os dados em classes de frequência que englobam diversos valores da variável. A frequência de cada classe será, nesse caso, igual à soma das frequências de todos os valores existentes dentro da classe. Este procedimento corresponde a uma diminuição proposital da precisão com que os dados foram computados. O problema a resolver, em tais casos, é o de determinar qual o número k de classes a constituir, qual o tamanho ou amplitude h dessas classes e quais os seus limites. Seja R a amplitude do conjunto de dados, ou seja, a diferença entre o maior e o menor dos valores observados. Fixado o número k de classes, resulta (4) k Rh ≈ . 6 Caracterização de uma Distribuição de Frequências A distribuição de frequências de uma variável quantitativa também pode ser caracterizada por grandezas numéricas denominadas medidas da distribuição de frequências. As medidas buscam sumarizar as informações disponíveis sobre o comportamento de uma variável. Há medidas de posição, de dispersão, de assimetria e de achatamento ou curtose. As medidas de posição e de dispersão são as mais importantes na prática e servem para localizar as distribuições e caracterizar a sua variabilidade. As medidas de dispersão serão vistas na próxima aula. 6.1 Medidas de Posição As medidas de posição servem para localizar a distribuição de frequências sobre o eixo de variação da variável em questão. Estudaremos, nesta aula, a média, a mediana e a moda. Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 17 A média e a mediana indicam, por critérios diferentes, o centro da distribuição de frequências, ou seja, são medidas de tendência central. A moda, por sua vez, indica a região de maior concentração de frequências na distribuição. Média Aritmética Suponha que você more em São Paulo (capital) e que esteja planejando uma viagem de carro para o Rio de Janeiro (capital) pela rodovia BR-116 (rodovia Pres. Dutra) no próximo feriadão. Qual seria o tempo gasto na viagem? Bem, a resposta “mais exata”, do ponto de vista estatístico, uma vez que o tempo de viagem é uma grandeza aleatória (o tempo de viagem varia em função de fatores sobre os quais não temos controle tais como congestionamentos devidos a acidentes com veículos, fiscalizações da Polícia Rodoviária, etc.), seria fornecer a distribuição de frequências dos tempos de viagem de carro para o Rio de Janeiro (vamos admitir que você viaje de carro com alguma frequência para o Rio de Janeiro e que tenha coletado esse conjunto de dados). Porém, ninguém espera que você dê como resposta uma distribuição de frequências dos tempos de viagem. O que se espera é que você forneça o tempo esperado ou médio que será gasto na viagem. Como calculamos a média de uma distribuição de frequências? Responderemos essa pergunta na sequência. A média aritmética, ou média, de um conjunto de n números n21 x,...,x,x é definida por (leia-se “x barra”) (5) ∑= ∑ =+++= = x n 1x n 1 n x...xxx n 1j j n21 Exemplo. A média dos números 3, 4, 8, 11 e 13 é 8,7 5 1311843x =++++= Se k valores distintos observados ocorrerem com as frequências k21 f,...,f,f , respectivamente, a média será (6) ∑∑∑ ∑ == = = ===+++ +++= k 1j jj k 1j jjk 1j j k 1j jj k21 kk2211 xpxf n 1 f xf f...ff xf...xfxfx em que pj denota a j-ésima frequência relativa. Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 18 Exemplo. Se 4, 7, 5, 2 ocorrerem com as frequências 3, 2, 4 e 1, respectivamente, a média aritmética será de 8,4 1423 )12()45()27()34(x =+++ ×+×+×+×= Mencionamos acima que a média caracteriza o centro da distribuição de frequências; fazendo uma analogia com a mecânica, poderíamos interpretar a média como sendo o “centro de gravidade” de uma distribuição de frequências. Podemos destacar as seguintes propriedades da média: a) multiplicando todos os valores de uma variável por uma constante, a média do conjunto fica multiplicada por essa constante. Seja x a variável de interesse, c um valor constante e y = cx. Então xcy = . b) somando ou subtraindo uma constante a todos os valores de uma variável, a média do conjunto fica acrescida ou diminuída dessa constante. Seja x a variável de interesse, c um valor constante e cxy ±= . Então cxy ±= . Média Aritmética de Dados Agrupados Quando os dados são apresentados em uma distribuição de frequências, todos os valores incluídos num certo intervalo de classe são considerados coincidentes com o ponto médio do intervalo. As fórmulas (5) e (6) serão válidas para esses dados agrupados quando se interpretar jx como o ponto médio e jf como a frequência de classe correspondente. Exemplo. Seja a distribuição em classes de frequência dada na Tabela 5. Temos que 0,55 100 500.5 n fx x ii === ∑ . Tabela 5: cálculo da média. Classe (limites reais) fi xi xifi 40,0 � 45,0 6 42,5 255 45,0 � 50,0 16 47,5 760 50,0 � 55,0 32 52,5 1.680 55,0 � 60,0 24 57,5 1.380 60,0 � 65,0 14 62,5 875 65,0 � 70,0 6 67,5 405 70,0 � 75,0 2 72,5 145 100 5.500 Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 19 Média das médias Sejam os conjuntos A com An valores, B com Bn valores, ..., e K com Kn valores. Se A tem média Ax , B tem média Bx , ..., e K tem média Kx , então a média do conjunto maior que é formado pela reunião de todos os elementos dos conjuntos A, B, ..., K em um único conjunto é dada por: (7) KBA KKBBAA n...nn xn...xnxnx +++ +++= , Exemplo. Em uma empresa, há 400 homens e 100 mulheres. Os salários médios pagos aos empregados dos sexos masculino e feminino são de R$ 2.520,00 e R$ 2.420,00, respectivamente. Calcule a média global dos salários. Dados: 400nH = , 520.2xH = ; 100nM = , 420.2xM = 500.2 500 420.2100520.2400 nn xnxnx MH MMHH =×+×=+ += Média global dos salários = R$ 2.500,00 Outros Tipos de Média Podemos definir outros tipos de média de um conjunto de dados, tais como a média geométrica gx , a média harmônica hx e a média ponderada px dadas por (8) n n21g x...x.xx = (9) n21 h x 1... x 1 x 1 nx +++ = (10) n21 nn2211 p w...ww xw...xwxwx +++ +++= em que n21 w,...,w,w denotam fatores de ponderação ou pesos. Exemplo. A média geométrica dos números 2, 4 e 8 é: 464842x 33g ==××= Exemplo. A média harmônica dos números 2, 4 e 8 é: Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 20 43,3 8 1 4 1 2 1 3xh ≈++ = Exemplo. O desempenho em um curso de graduação é avaliado por meio das notas obtidas nas provas bimestrais P1 e P2 e pela nota de Atividades (A). Sabendo-se que a P2 tem peso 5, que a P1 tem peso 2 e que A tem peso 3, determine a média final do aluno que obteve as seguintes notas (em uma escala de 0 a 10): P1 = 5,0, P2 = 4,5 e A=8,5. 4,535,5 10 5,53 352 )5,83()5,45()0,52(xp ≈==++ ×+×+×= Relação entre as médias aritmética, geométrica e harmônica A média geométrica de um conjunto de números positivos n21 x,...,x,x é menor do que ou igual à sua média aritmética, mas é maior do que ou igual à sua média harmônica: média harmônica≤ média geométrica ≤ média aritmética Mediana A mediana caracteriza o centro de uma distribuição de frequências com base na ordem dos valores que formam o conjunto de dados. A mediana é o valor que ocupa a posição central dos dados ordenados. A mediana é o valor que divide a distribuição ao meio, deixando os 50% menores valores de um lado e os 50% maiores valores do outro lado. A mediana de um conjunto de n valores ordenados, sendo n ímpar, é definida como o valor de ordem (n+1)/2 desse conjunto. Se n for par, consideraremos a mediana como o valor médio entre os valores de ordem n/2 e (n/2) + 1 do conjunto de dados. Exemplo. A mediana dos nove valores já ordenados, 12 14 15 19 20 22 26 27 30 é igual a 20. A mediana dos oito valores já ordenados, 12 14 15 19 20 26 27 30 é igual a (19+20)/2 = 19,5. A mediana (md) de uma distribuição em classes de frequências é dada pela expressão Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 21 (11) md md a i hf F)2/n(Lmd ×−+= em que iL é o limite inferior da classe que contém a mediana, n é o número de elementos do conjunto de dados, aF é a soma das frequências das classes anteriores à que contém a mediana, mdf é a frequência da classe que contém a mediana e mdh é a amplitude da classe que contém a mediana. A expressão (11) supõe que os valores observados da variável tenham se distribuído homogeneamente dentro das diversas classes. Exemplo. Considere os dados da Tabela 5, repetidos abaixo na Tabela 6. Tabela 6 Classe (limites reais) fi 40,0 � 45,0 6 45,0 � 50,0 16 50,0 � 55,0 32 55,0 � 60,0 24 60,0 � 65,0 14 65,0 � 70,0 6 70,0 � 75,0 2 100 A mediana é 375,545 32 22500,50md =×−+= . Em certos casos práticos, como aqueles que envolvem distribuições de frequência com valores extremos, é mais conveniente usar a mediana como medida de tendência central, pois a média sofre influência de valores extremos. Neste caso, a mediana fornecerá uma melhor idéia do centro da distribuição de frequências da variável sob análise. A mediana de uma distribuição em classes de frequências pode ser geometricamente interpretada como o ponto tal que uma vertical por ela traçada divide a área sob o histograma em duas partes iguais. A mediana e a média são coincidentes quando a distribuição é simétrica. Em distribuições assimétricas, a média tende a deslocar-se para o lado da cauda mais longa (vide figura abaixo). Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 22 A mediana divide o conjunto ordenado de dados em dois subconjuntos com igual número de elementos. Há outras maneiras de se dividir os dados ordenados. Os quartis (Q1, Q2, Q3) dividem o conjunto ordenado de valores em quatro subconjuntos com igual número de elementos. O primeiro quartil (Q1) ou quartil inferior (Qi) delimita os 25% menores valores; o segundo quartil é a própria mediana e o terceiro quartil (Q3) ou quartil superior (Qs) é o valor que separa os 25% maiores valores (veja a próxima figura). Além dos quartis, podemos definir os decis (D1, D2,..., D9), que são os valores que dividem os dados ordenados em dez partes iguais (note que a mediana corresponde ao quinto decil D5) e os percentis,que são os valores que dividem os dados ordenados em 100 partes iguais, sendo representados por P1, P2,..., P99 (a mediana é o percentil P50). De maneira geral, os quartis, decis e percentis e outros valores obtidos mediante subdivisões dos dados em partes iguais são denominados quantis. Os quartis, os decis e os percentis são medidas de posição separatrizes, pois são valores que ocupam determinados lugares do eixo horizontal da distribuição de frequências, abrangendo intervalos iguais de um conjunto de valores coletados e organizados. Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 23 Observe que a mediana, além de ser uma medida de posição de tendência central, é também uma medida separatriz. Moda A moda é dada pelo valor mais freqüente (ou de máxima frequência). Sendo assim, a moda para o conjunto de dados da Tabela 2 é 1 e, no caso da Tabela 6, a classe modal é 50,0 � 55,0. Se todas as realizações do conjunto de valores observados ocorrem com a mesma frequência, diz-se que a série estatística é amodal, ou seja, não tem valor modal. Exemplo. Seja a série estatística {2, 1, 9, 4, 5, 20, 8, 7, 11, 19}. Essa série é amodal, pois não há repetição de valores (todos ocorrem o mesmo número de vezes). Pode haver mais de uma moda em um conjunto de valores. Se houver apenas uma moda, a distribuição é dita unimodal. Se houver duas, é bimodal, se possuir três é trimodal e assim sucessivamente. No caso de distribuições de frequência em classes de mesma amplitude, é comum definir-se a moda (mo) como um ponto pertencente à classe modal, dado por (12) h dd dLmo 21 1 i ++= , em que iL é o limite inferior da classe modal, 1d é a diferença entre a frequência da classe modal e a da classe imediatamente anterior, 2d é a diferença entre a frequência da classe modal e a da classe imediatamente seguinte e h é a amplitude das classes. A fórmula (12) corresponde ao cálculo da moda pelo Método de Czuber. Exemplo.Considere os dados da Tabela 6. Então 0,50Li = , 161632d1 =−= , 82432d2 =−= , 5h = e a moda é 3,535 816 160,50mo ≈×++= . A moda também pode ser calculada pelo Método de King: h ff f Lmo antpost post i ++= , Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 24 em que iL denota o limite inferior da classe modal, postf é a frequência da classeposteriorà classe modal, antf é a frequência da classe anterior à classe modal e h é a amplitude da classe modal. Caso a questão da prova não especifique, deverá ser utilizado o método de Czuber. Relação Empírica entre a Média, a Mediana e a Moda Para as curvas de frequência unimodal moderadamente inclinadas (assimétricas), a seguinte relação empírica é válida (13) )mdx(3mox −×=− ou seja, Média � Moda = 3(Média - Mediana). A figura abaixo mostra as posições relativas da moda, mediana e média para uma distribuição de frequência (levemente) inclinada para a direita. 7 Medidas de Dispersão Pense na seguinte situação: uma pessoa faz quatro refeições por dia, enquanto que outra não faz nenhuma refeição por dia. Na média, ambas fazem duas refeições por dia. Isto quer dizer que os dois indivíduos estão bem alimentados? A resposta óbvia é não. É para isso que servem as medidas de dispersão, isto é, medidas de como os dados estão agrupados: mais ou menos próximos entre si (mais ou menos dispersos). Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 25 As medidas de dispersão indicam o quanto os dados se apresentam dispersos em torno da região central. Desta forma, caracterizam o grau de variabilidade existente nos dados. As seguintes medidas de dispersão nos interessam: a variância, o desvio padrão, o coeficiente de variação e o desvio interquartílico. 7.1 Variância A variância de um conjunto de observações }x,...,x,x{ n21 pode ser calculada pela fórmula (14) ∑ = −= n 1i 2 i 2 x )xx(n 1s em que 2xs denota a variância e x representa a média aritmética. Se os valores distintos k21 x,...,x,x ocorrerem com as frequências k21 f,...,f,f (∑ = = k 1i if n ), respectivamente, a variância será dada por (*) (15) ∑ = −= k 1i 2 ii 2 x )xx(fn 1s . (*) Em (14) e (15), consideramos que os dados se referem a uma população finita. Caso os dados estejam associados a uma amostra, o fator n (= Σfi) que aparece no denominador do lado direito de (14) e (15) deve ser substituído por (n–1). A justificativa para o uso do fator (n–1) será apresentada em outra aula, mas já posso adiantar que ela está relacionada à inferência estatística. Não obstante, a diferença entre as duas definições torna-se desprezível para grandes valores de n (n>30). A variância tem, entre outras, as seguintes propriedades: a) multiplicando todos os valores de uma variável por uma constante, a variância do conjunto fica multiplicada pelo quadrado dessa constante. Seja x a variável de interesse, c um valor constante e y = cx. Então 2x 22 y scs = . b) somando ou subtraindo uma constante a todos os valores de uma variável, a variância não se altera. Seja x a variável de interesse, c um valor constante e y = x + c. Então 2xy 2s s= . Note-se que (14) pode ser reescrita na forma 2 i 2 i 2 i i i 2 i 2 x xxn 1x n 1x n 1s −⎟⎠ ⎞⎜⎝ ⎛=⎟⎠ ⎞⎜⎝ ⎛−⎟⎠ ⎞⎜⎝ ⎛= ∑∑∑ , Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 26 ou seja, como a diferença entre a média aritmética dos quadrados dos valores e o quadrado da média aritmética dos valores: ⇒ VARIÂNCIA = Média dos Quadrados – Quadrado da Média. Exemplo. Considere o conjunto de dados {2, 5, 8, 11, 14}. Então a variância desse conjunto é A) 8 B) 20,25 C) 18 D) 24 E) 22 Resolução A média do conjunto é 8 5 1411852x =++++= e a variância .18 5 )814()811()88()85()82( n )xx( s 222222 i2 x =−+−+−+−+−=−= ∑ Também podemos usar a fórmula "maceteada" da variância: Variância = Média dos Quadrados – Quadrado da Média = 2 i i x 2x n 1 −⎞⎟⎠⎜⎝ ⎛ ∑ Sequência de cálculos: 1) Média dos quadrados: 82 5 410 5 1411852x n 1 22222 i 2 i ==++++=∑ . 2) Quadrado da média: 648xx n 1 22 2 i i ===⎟⎠ ⎞⎜⎝ ⎛ ∑ . Então, Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 27 3) 186482s2x =−= (mesmo resultado!). GABARITO: C Variância Combinada Considere o conjunto de dados A com NA elementos, média A e variância 2As e o conjunto B com NB elementos, média B e variância 2Bs . Pode-se demonstrar que a variância da população conjunta A+B, também denominada variância combinada ou global, é dada por 2 BABA 2 BA 2 2 BA NN BA NN B NN A s ⎥⎦ ⎤⎢⎣ ⎡ + +−+++= ∑ ∑∑∑ + . Fazendo N = NA + NB, obtemos 222 2 BA N BA N B N A s ⎟⎟⎠ ⎞⎜⎜⎝ ⎛ +−+= ∑∑∑∑+ . Exemplo (Administrador(a) Júnior/REFAP/2007/Cesgranrio). O setor de recursos humanos de uma empresa tem o hábito de divulgar separadamente a média e a variância das notas das avaliações dos funcionários do sexo feminino e do masculino. Na última avaliação, os resultados obtidos foram: Feminino Masculino Número de funcionários 20 30 Média 6 7 Variância 3,4 4 A média e a variância das notas dos funcionários dessa empresa, respectivamente, valem: A) 6,5 e 3,7 B) 6,6 e 3,4 C) 6,6 e 4,0 D) 7,5 e 3,7 E) 13,0 e 7,5 Resolução Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 28 Dados: NA = 20, 6A = e 4,3s2A = (conjunto feminino); NB = 30, 7B = e 0,4s2B = (conjunto masculino). A média global ou média das médias é dada pela média ponderada das médias dos conjuntos: .6,6 3020 730620 NN BNANX BA BA BA =+ ×+×=+ +=+ O resultado acima já nos permite eliminar as opções A, D e E. Restaram as alternativas B e C. A variância combinada é dada por 222 2 BA N BA N B N A s ⎟⎟⎠ ⎞⎜⎜⎝ ⎛ +−+= ∑∑∑∑+ . Calcularemos a variância combinada se soubermos os valores das somatórias ∑ A (soma de A), ∑B (soma de B), ∑ 2A (soma dos quadrados de A) e ∑ 2B (soma dos quadrados de B). A média do conjunto A é 6 ⇒ 120A6 20 A =⇒= ∑∑ (soma de A = 120). A média do conjunto B é 7 ⇒ 210B7 30 B =⇒= ∑∑ (soma de B = 210). A variância de A é 3,4. Então, 4,39 20 A 4,36 20 A 4,3A 20 A 4,3 N A N A s 2 2 2 2 22 AA 2 2 A =⇒=−⇒=−⇒⎟ =⎟⎠ ⎞⎜⎜⎝ ⎛−= ∑∑∑∑∑ 7884,3920A 2 =×=⇒ ∑ (soma dos quadrados de A = 788). A variância de B é 4,0. Logo, 0,53 30 B 0,47 30 B 0,4B 30 B 0,4 N B N B s 2 2 2 2 22 BB 2 2 B =⇒=−⇒=−⇒⎟ =⎟⎠ ⎞⎜⎜⎝ ⎛−= ∑∑∑∑∑ 590.15330B2 =×=⇒ ∑ (soma dos quadrados de B = 1.590). Finalmente, temos que Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 29 2 22222 2 BA 6,656,4750 330 50 378.2 50 210120 50 590.1 50 788 N BA N B N A s −=⎟⎠ ⎞⎜⎝ ⎛−=⎟⎠ ⎞⎜⎝ ⎛ +−+⎟ =⎟⎠ ⎞⎜⎜⎝ ⎛ +−+= ∑∑∑∑+ 0,456,4356,47s2 BA =−=+ ⇒ variância combinada = 4,0. GABARITO: C Nota: se as médias dos conjuntos A e B forem iguais, ou seja, se BA = , a variância combinada pode ser calculada por meio da fórmula simplificada N sNsN NN sNsNs 2 BB 2 AA BA 2 BB 2 AA2 BA +=+ +=+ , em que N = NA + NB. Repare que trata-se de uma média ponderada das variâncias individuais. Atenção: a fórmula acima é um caso particular da fórmula anterior da variância combinada. Você só poderá aplicá-la quando as médias dos conjuntos A e B forem iguais! 7.2 Desvio Padrão O desvio padrão de um conjunto de dados é a raiz quadrada positiva da variância, ou seja, (16) 2xxs s+= . O desvio padrão está na mesma unidade da variável, sendo, por isso, de maior interesse na prática. Exemplo. Determine o desvio padrão do conjunto 2, 5, 8, 11, 14. Vimos que esse conjunto possui variância igual a 18. Logo, 24,418sx ≈= . 7.3 Coeficiente de Variação O coeficiente de variação é definido como o quociente entre o desvio padrão e a média, sendo frequentemente expresso em porcentagem: (17) x s)x(cv x= . Esta medida caracteriza a dispersão dos dados em termos relativos a seu valor médio. Exemplo. Determine o coeficiente de variação do conjunto 2, 5, 8, 11, 14. Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 30 O conjunto tem média 8 e desvio padrão 4,24. Portanto, %5353,0 8 24,4)x(cv =≈= . 7.4 Desvio Interquartílico O desvio interquartílico, definido por (18) isQ QQd −= , em que Qd denota o desvio interquartílico, sQ é o quartil superior e iQ o quartil inferior, pode ser usado como uma medida de dispersão. Em distribuições mais dispersas, os valores dos quartis ficam mais distantes. Em distribuições simétricas, a distância entre o quartil inferior e a mediana é igual à distância entre a mediana e o quartil superior, enquanto que em distribuições assimétricas essas distâncias são diferentes. Exemplo. O primeiro e o terceiro quartis da distribuição das alturas dos estudantes da Universidade de São Paulo são 165,56 cm e 178,59 cm, respectivamente. Calcule o desvio interquartílico dessa distribuição. 03,1356,16559,178QQd isQ =−=−= cm. 7.5 Diagrama de Caixa Um diagrama de caixa ou box plot ou “caixa-de-bigodes” é um retângulo que representa o desvio interquartílico (IQR) (é a estatística Qd definida por (18)). Para construir esse diagrama (veja a próxima figura), consideramos um retângulo onde estão representados a mediana, o primeiro quartil (Q1) e o terceiro quartil (Q3). A partir do retângulo, para cima, segue uma linha até o ponto mais remoto que não pode exceder LS = Q3 + 1,5.IQR, chamado limite superior. De modo análogo, a partir do retângulo, para baixo, segue uma linha até o ponto mais remoto que não seja menor que LS = Q1 –1,5.IQR, chamado limite inferior. Os valores compreendidos entre esses dois limites são chamandos valores adjacentes. As observações que estiverem acima do limite superior ou abaixo do limite inferior serão denominadas pontos exteriores. Essas observações são destoantes das demais e podem ou não ser o que chamamos de outliers ou valores atípicos (*)1. Um outlier pode ser produto de um erro de observação ou de arredondamento. Contudo, as denominações pontos exteriores e outliers são frequentemente usadas com o mesmo significado por alguns autores2: observações fora de lugar, discrepantes ou atípicas. 1 BUSSAB, Wilton de O.; MORETTIN, Pedro Alberto. Estatística Básica. São Paulo: Ed. Saraiva, 2010. 2 MONTGOMERY, Douglas C.; RUNGER, George C. Estatística Aplicada e Probabilidade para Engenheiros. Rio de Janeiro: LTC, 2008. Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 31 (*) A média aritmética é sensível a outliers. Um único valor “ruim” do conjunto de dados pode distorcer a média, ou seja, pode mover a média para longe do centro da distribuição de frequências. As médias geométrica e harmônica, assim como a aritmética, também não são robustas a outliers. O box plot nos dá uma noção da posição, dispersão, assimetria, caudas e dados discrepantes da distribuição. A posição central é dada pela mediana e a dispersão por IQR. As posições relativas de Q1, Q2 e Q3 nos dão uma idéia da assimetria da distribuição. Os comprimentos das caudas são dados pelas linhas que vão do retângulo aos valores remotos e pelos valores atípicos. Os comprimentos das caudas são dados pelas linhas que vão do retângulo aos valores remotos e pelos valores atípicos. Exemplo. Considere um conjunto de dados com os seguintes percentis: 0% 25% 50% 75% 100% 1,7524 4,6901 5,7004 6,1768 7,3658 A próxima figura é um box plot do conjunto de dados que gerou a tabela de percentis acima. A cauda inferior é longa e isto indica que a distribuição é assimétrica. Note também a presença de outliers na parte inferior do box plot (são os pontos vermelhos). Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 32 1 2 3 4 5 6 7 V al or es A figura abaixo mostra o histograma associado ao box plot do exemplo. 1 2 3 4 5 6 7 8 0 10 20 30 40 50 60 70 80 90 _______________________________________________________ A próxima figura reforça a relação do box plot com o histograma. A distribuição da esquerda é simétrica, enquanto que a da direita é assimétrica. Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 33 Os box plots da figura abaixo mostram a comparação dos tamanhos das pétalas em duas amostras das espécies de flor-de-lis versicolor e virginica3. versicolor virginica 3 3.5 4 4.5 5 5.5 6 6.5 7 V al or es A existência de um outlier nos dados da espécie versicolor é indicada pelo ponto vermelho na parte inferior esquerda da figura. 8 Momentos O momento de ordem t associado às observações n21 x,...,x,x é definido como (19) ∑ = = n 1i t it xn 1M . Define-se o momento de ordem t centrado em relação a uma constante “a” como 3 Conjunto de dados de Fisher. Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 34 (20) ∑ = −= n 1i t i a t )ax(n 1M . O caso do momento centrado em relação a média x é de especial interesse em Estatística e será designado por momento centrado de ordem t, dado por (21) ∑ = −= n 1i t it )xx(n 1m . As expressões (19), (20) e (21) podem ser reescritas levando-se em consideração as frequências dos diferentes valores existentes (lembre que ∑ = = k 1i fi n ). Tem-se, então, respectivamente, (22) ∑ = = k 1i t iit fxn 1M (23) i k 1i t i a t f)ax(n 1M ∑ = −= (24) ∑ = −= k 1i i t it f)xx(n 1m Observe que o momento de ordem 1 é igual à média, ou seja, (25) xM1 = , pois ∑ = = n 1i i1 xn 1M (basta aplicar (19) com t=1). O momento centrado de primeira ordem é nulo (26) 0m1 = , porque 0xxxnx n 1xx n 1)xx( n 1m n 1i i n 1i n 1i i n 1i i1 =−=⎥⎦ ⎤⎢⎣ ⎡ −=⎥⎦ ⎤⎢⎣ ⎡ −=−= ∑∑∑∑ ==== . O momento centrado de segunda ordem é a variância (27) 2x2m s= haja vista que, 2x n 1i 2 i2 s)xx(n 1m ∑ = =−= . Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 35 9 Medidas de Assimetria Assimetria é o grau de desvio, ou afastamento da simetria, de uma distribuição. As distribuições alongadas à direita são ditas positivamente assimétricas, e as alongadas à esquerda, negativamente assimétricas. O momento centrado de terceira ordem pode ser usado como medida da assimetria de uma distribuição. Entretanto, uma medida mais conveniente de assimetria, por ser adimensional, é dada pelo coeficiente de assimetria (A), definido como a razão entre o momento centrado de terceira ordem e o cubo do desvio padrão: (28) . s mA 3 x 3= O coeficiente de assimetria (28) indica o sentido da assimetria e pode ser usado para comparar vários casos porque é adimensional. O sinal do coeficiente de assimetria será positivo ou negativo se a distribuição for assimétrica à direita ou à esquerda, respectivamente. A assimetria também pode ser medida pelo primeiro coeficiente de assimetria de Pearson (29) x 1p s moxA −= em que x é a média, mo denota a moda e xs é o desvio padrão. Para evitar o emprego da moda em (29), pode-se adotar a fórmula empírica (média – moda) = 3(média - mediana), de forma que (29) pode ser reescrita como 2p x A s )mdx(3 =− conhecida como segundo coeficiente de assimetria de Pearson. Uma outra medida de assimetria, denominada coeficiente quartílico de assimetria ( qA ), é definida pela fórmula (30) 13 13 q QQ Qmd2QA − +−= . Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 36 Exemplo (Assessor Especializado/IPEA/2004/FCC). Numa distribuição de frequências com assimetria negativa mais de 50% dos dados situam-se A) sobre a média B) acima da média C) entre a média e a moda D) entre a média e a mediana E) acima da mediana Resolução A próxima figura ilustra uma Distribuição de Frequências com Assimetria Negativa ou à Esquerda: 2 3 4 5 6 7 8 Observe que Média < Mediana < Moda Bizu: na assimetria negativa, você deve “puxar a seta” com a mão esquerda, de forma que: 1) a seta puxa a média; 2) a moda está no topo; e 3) a mediana está no meio. Uma distribuição de frequências com assimetria negativa é alongada à esquerda. A mediana é o valor que divide a distribuição ao meio, deixando os 50% menores valores de um lado e os 50% maiores valores do outro lado. Logo, numa distribuição de frequências com assimetria negativa, mais de Moda Mediana Média Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 37 50% dos dados estão acima da média (pois a média é menor do que a mediana). Assimetria Positiva ou à Direita: Média > Mediana > Moda ou Moda < Mediana < Média 0 1 2 3 4 5 6 7 8 9 0 a 10 10 a 20 20 a 30 30 a 40 40 a 50 Bizu: na assimetria positiva ou à direita, você deve “puxar a seta” com a mão direita, de modo que: 1) a seta puxa a média; 2) a moda está no topo; e 3) a mediana está no meio. GABARITO: B Exemplo (Analista IRB/2004/ESAF) O desenho esquemático (diagrama de caixa) apresentado abaixo representa o resumo de cinco números {51,00;54,75;69,50;78,00;95,00} para um conjunto de observações amostrais do atributo Y. Assinale a opção que dá o valor do coeficiente de assimetria de Pearson para a amostra em apreço. A) -0,269 B) -0,500 Moda Mediana Média Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 38 C) 0,000 D) 0,294 E) -0,294 Resolução Temos cinco números: {51,00;54,75;69,50;78,00;95,00}. É razoável admitir que eles representem as seguintes medidas: - Valor Mínimo = 51,00 - Q1 = 54,75 - Mediana (md) = 69,50 - Q3 = 78,00 - Valor Máximo = 95,00 Note que o diagrama de caixa apresentado não representa de forma fidedigna as cinco medidas do atributo Y. Paciência! Não vale a pena brigar com a banca. O objetivo é ser aprovado no concurso! Vimos que o primeiro coeficiente de assimetria de Pearson é dado pela fórmula . s moxA x 1p −= Entretanto, não é possível calcular o coeficiente de assimetria de Pearson com os dados da questão (quais são os valores da média e da moda?). O que está acontecendo nesta questão? Calma ... pode ser que a banca tenha alguma outra medida de assimetria em mente. Que tal calcular o coeficiente quartílico de assimetria? Não custa nada. Então vamos lá! 269,0 75,5478 )50,692(75,5478 QQ md2QQA 13 13 q −=− ×−+=− −+= . Coeficiente quartílico de assimetria = -0,269 GABARITO: A 10 Medidas de Achatamento ou Curtose As medidas de curtose visam caracterizar a forma da distribuição quanto ao seu achatamento. A referência para comparação é dada pela distribuição normal, modelo probabilístico teórico de grande aplicação prática (*). Diz-se que a distribuição normal é mesocúrtica (veja a figura abaixo). As distribuições mais achatadas que a normal são platicúrticas e as menos achatadas são leptocúrticas. Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 39 (*) Não fique preocupado se você não lembra o que é a curva normal. Neste momento, basta que você saiba que o formato da curva normal lembra um sino. A caracterização do achatamento de uma distribuição só tem sentido se a distribuição for aproximadamente simétrica. Entre as possíveis medidas de achatamento, temos o coeficiente do momento de curtose (a4), definido como a razão entre o momento centrado de quarta ordem e a quarta potência do desvio padrão: (31) . s ma 4 x 4 4 = Esse coeficiente é adimensional, sendo menor que três para as distribuições platicúrticas, igual a três para a normal e maior que três para as distribuições leptocúrticas. Outra medida de curtose também empregada, denominada coeficiente percentílico de curtose, baseia-se nos quartis e percentis e é definida por: (32) 1090 PP QK −= em que Q é a metade da distância interquartílica, ou seja, Q = (Q3 - Q1)/2. 11 Ramo e Folhas Vimos que o histograma e os gráficos em barras dão uma idéia da forma da distribuição da variável sob consideração. Um procedimento alternativo para resumir um conjunto de valores, com o objetivo de se obter uma idéia da forma de sua distribuição, é o diagrama de ramo-e-folhas. Exemplo (baseado em questão do AFPS/2002/ESAF) Construa o ramo-e- folhas associado às seguintes observações: 82, 90, 90, 93, 99, 100, 100, 101, 101, 102, 102, 102, 103, 104, 104, 105, 107, 107, 107, 107, 107, 110, 111, Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 40 113, 115, 115, 116, 117, 119, 120, 120, 121, 121, 124, 125, 125, 125, 127, 130, 130, 134, 135, 135, 135, 136, 140, 143, 145, 158. Não existe uma regra fixa para construir o diagrama de ramo-e-folhas, mas a idéia básica é dividir cada observação em duas partes: a primeira (o ramo) é colocada à esquerda de uma linha vertical, a segunda (a folha) é colocada à direita. Assim, para os valores 90 e 93, o 9 é o ramo e 0 e 3 são as folhas. O diagrama de ramo-e-folhas correspondente às observações amostrais deste exemplo é o seguinte: 8 | 2 8 | 9 | 003 9 | 9 10| 0011222344 10| 577777 11| 013 11| 55679 12| 00114 12| 5557 13| 004 13| 5556 14| 03 14| 5 15| 15| 8 Na tabela a seguir, fi denota a frequência simples e Fi é a freqüência acumulada das observações: Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 41 Ramos Folhas fi Fi 8 2 1 1 8 0 1 9 003 3 4 9 9 1 5 10 0011222344 10 15 10 577777 6 21 11 013 3 24 11 55679 5 29 12 00114 5 34 12 5557 4 38 13 004 3 41 13 5556 4 45 14 03 2 47 14 5 1 48 15 0 48 15 8 1 49 A tabela acima mostra que foram acumuladas 24 observações até a última folha do sétimo ramo. Note que há 49 observações no total e que a mediana corresponde à 1ª folha do oitavo ramo, cujo valor é 115. 12 Resumo - A frequência de um dado valor de uma variável (qualitativa ou quantitativa) é definida como o número de vezes que esse valor foi observado. - A associação das respectivas frequências a todos os diferentes valores observados define a distribuição de frequências do conjunto de valores observados. - A frequência acumulada de um dado valor é igual a soma das frequências de todos os valores menores ou iguais ao valor em consideração. - Um histograma é um gráfico da distribuição de frequências de uma variável quantitativa. - As medidas de posição servem para localizar a distribuição de frequências sobre o eixo de variação da variável (eixo horizontal). - A média, a mediana e a moda são medidas de posição. Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 42 - Média aritmética: ∑ = =+++= n 1i i n21 x n 1 n x...xxx - Média das médias: KBA KKBBAA n...nn xn...xnxnx +++ +++= - Média geométrica: n/1 n 1i i n n21g xx...x.xx ⎟⎟⎠ ⎞⎜⎜⎝ ⎛== ∏ = - Média harmônica: ∑ = = +++ = n 1i in21 h x 1 n x 1... x 1 x 1 nx - Média ponderada: ∑ ∑ = ==+++ +++= n 1i i n 1i ii n21 nn2211 p w xw w...ww xw...xwxwx - A mediana é o valor que divide a distribuição ao meio, deixando os 50% menores valores de um lado e os 50% maiores valores do outro lado. - A moda é dada pelo valor mais freqüente (ou de máxima frequência). - Variância = Média dos Quadrados – Quadrado da Média = 2 i i x 2x n 1 −⎟⎠ ⎞⎜⎝ ⎛ ∑ - Variância amostral: 2 n 1i 2 i n 1i 2 i 2 x x1n nx 1n 1)xx( 1n 1s ⎟⎠ ⎞⎜⎝ ⎛ −−−=−−= ∑∑ == - Variância combinada dos conjuntos A e B: 222 2 BA N BA N B N A s ⎟⎟⎠ ⎞⎜⎜⎝ ⎛ +−+= ∑∑∑∑+ - Desvio Padrão = Raiz Quadrada positiva da Variância. - Coeficiente de variação: x s)x(cv x= . - Desvio interquartílico: isQ QQd −= - Um diagrama de caixa ou box-plot é um retângulo que representa o desvio interquartílico. Esse retângulo indica, portanto, a faixa dos 50% dos valores mais típicos da distribuição. O retângulo é dividido no valor correspondente à mediana; assim, ele indica o quartil inferior, a mediana e o quartil superior. Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 43 - Coeficiente percentílico de curtose: 1090 PP QK −= , em que Q é a metade da distância interquartílica, ou seja, Q = (Q3 - Q1)/2. Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 44 13 Exercícios de Fixação Julgue os itens a seguir. 1. A estatística descritiva usa os dados de uma amostra para fazer estimativas e testar hipóteses a respeito das características de uma população. 2. A inferência estatística aborda a organização e a descrição dos dados experimentais. 3. Uma variável estatística será qualitativa quando resultar de uma classificação por tipos ou atributos. 4. Uma variável estatística será quantitativa quando seus valores forem expressos em números. 5. O rol é um arranjo dos dados brutos. 6. Série estatística é toda tabela que apresenta um conjunto de dados estatísticos distribuídos em função da época, do local ou da espécie. 7. (Analista da SUSEP/2006/ESAF) Para um conjunto determinado de números positivos temos: X como a média aritmética, G como a média geométrica e H como a média harmônica, podemos afirmar que A) X menor ou igual a G menor ou igual a H. B) G maior do que X maior do que H. C) X menor ou igual a H menor ou igual a G. D) H menor ou igual a G menor ou igual a X . E) H maior do que G maior do que X . 8. (ATM-Recife/2003/ESAF) Em uma amostra para obter-se informações sobre a distribuição salarial de homens e mulheres, encontrou-se que o salário médio vale R$ 1.200,00. O salário médio observado para homens foi de R$ 1.300,00 e para as mulheres foi de R$ 1.100,00. Assinale a opção correta: A) O número de homens na amostra é igual ao número de mulheres. B) O número de homens na amostra é o dobro do número de mulheres. C) O número de homens na amostra é o triplo do número de mulheres. D) O número de mulheres na amostra é o dobro do número de homens. E) O número de homens na amostra é o quádruplo do número de mulheres. Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 45 Classificação mínimo 1º quartil mediana média 3º quartil máximo variância A 20 25 27,5 30 32,5 50 49 B 18 23 32 33 42 52 100 A ou B x y z 31 w u v (Papiloscopista PF/2004/Cespe-UnB) De acordo com um levantamento estatístico, a média das idades de um grupo de presidiários é igual a 31 anos de idade. Nesse levantamento, os presidiários foram classificados como A ou B, dependendo da sua condição psicossocial. Constatou-se que a média das idades dos presidiários classificados como A é menor que a média das idades dos presidiários classificados como B. A tabela acima apresenta algumas medidas estatísticas obtidas por meio desse levantamento. A partir das informações acima, julgue os itens que se seguem. 9. A moda das idades dos presidiários classificados como A, segundo a fórmula de Czuber, está entre 25,5 e 26 anos de idade. 10. O número de presidiários classificados como A é igual ao dobro do número de presidiários classificados como B. (Papiloscopista PF/2004/Cespe-UnB) O ser humano tem impressos nos dedos das mãos pelo menos quatro desenhos diferentes. Embora pessoas diferentes tenham sempre digitais diferentes, esses desenhos formam padrões conhecidos como tipos fundamentais de impressões digitais. Há raras exceções a essa regra de classificação. Por isso, essa regra é utilizada para a identificação de uma pessoa. Um perito, observando os dedos indicadores direitos de 200 indivíduos, obteve a seguinte distribuição dos tipos fundamentais, segundo o gênero (homem/mulher). Tipo fundamental gênero arco presilha interna presilha externa verticilo total homem 15 15 35 35 100 mulher 15 10 40 35 100 No estudo desse perito, foram associados valores x, y e z para cada indivíduo, da seguinte maneira: x = 1, caso o tipo fundamental da impressão digital do indivíduo for verticilo e x = 0, caso contrário; y = 1 se o tipo fundamental da impressão digital do indivíduo for arco e y = 0, caso contrário; z = 1 se o indivíduo for mulher e z = 0 se for homem. Como resultado desse procedimento, formam-se três séries estatísticas, respectivamente, X, Y e Z, cada uma com duzentas observações. A partir dessas informações, julgue os itens a seguir. Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 46 11. A mediana de X é superior a 0,8. 12. A mediana do produto X × Z é menor que 0,025. (Agente Fiscal de Rendas SP/2009/FCC/Adaptada) Para resolver as próximas duas questões, considere a tabela de frequências relativas abaixo, que mostra a distribuição dos valores arrecadados, em 2008, sobre determinado tributo, referente a um ramo de atividade escolhido para análise. Sabe-se que: I – As frequências absolutas correspondem às quantidades de recolhimentos, sendo as frequências relativas do segundo e terceiro intervalos de classe iguais a x e y, respectivamente. II – A média aritmética da distribuição, valor arrecadado por recolhimento, é igual a R$ 3.350,00 (valor encontrado considerando que todos os valores incluídos num certo intervalo de classe são coincidentes com o ponto médio desse intervalo). Valores Arrecadados (R$) Frequências Relativas 1.000,00 |---------- 2.000,00 0,10 2.000,00 |---------- 3.000,00 x 3.000,00 |---------- 4.000,00 y 4.000,00 |---------- 5.000,00 0,20 5.000,00 |---------- 6.000,00 0,10 Total 1,00 13. A porcentagem de recolhimentos com valores arrecadados maiores ou iguais a R$ 3.000,00 é A) 70% B) 65% C) 55% D) 45% E) 40% 14. Utilizando o método da interpolação linear, tem-se que o valor da respectiva mediana é A) R$ 3,120,00 B) R$ 3,200,00 C) R$ 3,400,00 D) R$ 3,600,00 E) R$ 3,800,00 Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 47 15. (APOFP-SP/2009/ESAF) Determine a mediana das seguintes observações: 17, 12, 9, 23, 14, 6, 3, 18, 42, 25, 18, 12, 34, 5, 17, 20, 7, 8, 21, 13, 31, 24, 9 A) 13,5 B) 17 C) 14,5 D) 15,5 E) 14 16. (ICMS-SP/2006/FCC) O histograma de frequências absolutas, abaixo, demonstra o comportamento dos valores arrecadados de um determinado tributo, no ano de 2005, em uma região a ser analisada: Observação: Considere que todos os intervalos de classe de histograma são fechados à esquerda e abertos à direita. Utilizando-se as informações contidas neste histograma, calculou-se a média aritmética destes valores arrecadados, considerando que todos os valores incluídos num certo intervalo de classe são coincidentes com o ponto médio deste intervalo. Também calculou-se a mediana de tais valores pelo método da interpolação linear. Então, o módulo da diferença entre a média aritmética e a mediana é igual a A) R$ 100,00 B) R$ 400,00 C) R$ 800,00 D) R$ 900,00 Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 48 E) R$ 1.000,00 (AFRF/2002/ESAF/Adaptada) Em um ensaio para o estudo da distribuição de um atributo financeiro (X) foram examinados 200 itens de natureza contábil do balanço de uma empresa. Esse exercício produziu a tabela de freqüências abaixo. A coluna Classes representa intervalos de valores de X em reais e a coluna P representa a freqüência relativa acumulada. Não existem observações coincidentes com os extremos das classes. As próximas três questões referem-se a esses ensaios. Classes P (%) 70-90 5 90-110 15 110-130 40 130-150 70 150-170 85 170-190 95 190-210 100 17. Assinale a opção que dá o valor médio amostral de X. A) 140,10 B) 115,50 C) 120,00 D) 140,00 E) 138,00 18. Assinale a opção que corresponde à estimativa do quinto decil da distribuição de X. A) 138,00 B) 140,00 C) 136,67 D) 139,01 E) 140,66 19. Assinale a opção que corresponde à estimativa da freqüência relativa de observações de X menores ou iguais a 145. A) 62,5% B) 70,0% C) 50,0% Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 49 D) 45,0% E) 53,4% 20. (ICMS-RJ/2011/FGV) Em uma repartição, foi tomada uma amostra do número de filhos de 4 funcionários. O resultado foi {2, 1, 4, 2}. A média geométrica simples dessa amostra é A) 2,25. B) 1,75. C) 2. D) 2,4 E) 2,5 21. (Técnico Administrativo/BNDES/2010/CESGRANRIO) Dez mulheres adultas foram submetidas a uma pesquisa. A cada uma delas perguntou-se: “Quantos filhos você tem?”. O entrevistador foi anotando cada uma das respostas na ordem em que foram obtidas. No entanto, devido à pressa, esqueceu-se de registrar uma das respostas. A listagem abaixo reproduz as respostas dadas, na ordem em que foram registradas. 2 0 3 1 1 0 1 4 1 A partir das informações acima, analise as afirmativas a seguir. I - A moda das quantidades de filhos dessas dez mulheres independe da resposta não registrada. II - A mediana das quantidades de filhos dessas dez mulheres depende da resposta não registrada. III - A média das quantidades de filhos dessas dez mulheres independe da resposta não registrada. Está correto APENAS o que se afirma em A) I. B) II. C) III. D) I e II. E) II e III. 22. (AFTE-RO/2010/FCC) Em uma cidade é realizado um levantamento referente aos valores recolhidos de determinado tributo estadual no período de um mês. Analisando os documentos de arrecadação, detectou-se 6 níveis de Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 50 valores conforme consta no eixo horizontal do gráfico abaixo, em que as colunas representam as quantidades de recolhimentos correspondentes. Com relação às medidas de posição deste levantamento tem-se que o valor da A) média aritmética é igual ao valor da mediana.. B) média aritmética supera o valor da moda em R$ 125,00. C) moda supera o valor da mediana em R$ 500,00. D) mediana supera o valor da média aritmética em R$ 25,00. E) média aritmética é igual a metade da soma da mediana e a moda. 23. (Administrador(a) Júnior Petrobrás/2010/Cesgranrio) Uma loja de conveniência localizada em um posto de combustível realizou um levantamento sobre o valor das compras realizadas pelos seus clientes. Para tal tomou uma amostra aleatória de 21 compras, que apresentou, em reais, o seguinte resultado: Índice Valor Índice Valor Índice Valor 1 19,40 8 22,00 15 18,00 2 14,00 9 34,00 16 29,00 3 18,30 10 15,50 17 34,00 4 27,20 11 28,50 18 15,50 5 8,70 12 34,00 19 13,40 6 10,30 13 10,80 20 17,00 7 7,20 14 15,50 21 19,00 A mediana dessa série de observações é (A)15,50 (B) 18,00 (C) 18,30 (D) 28,50 Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 51 (E)34,00 24. (Administrador Jr – REFAP/2007/Cesgranrio) O gráfico de setores abaixo representa a distribuição de freqüências relativas dos salários de uma empresa, em salários mínimos. Não existem observações coincidentes com os extremos das classes O primeiro e o terceiro quartis da distribuição, respectivamente, valem: A) 2,25 e 4,00 B) 2,25 e 5,75 C) 4,00 e 2,25 D) 4,00 e 5,75 E) 5,75 e 12,00 Considere as asserções a seguir. 25. (Analista C&T Jr - Estatística/CAPES/2008/Cesgranrio) A moda de um conjunto de observações é sempre um dos valores observados. PORQUE A moda é uma medida de posição de um conjunto de observações. Analisando-se as asserções, conclui-se que A) as duas asserções são verdadeiras, e a segunda é uma justificativa correta da primeira. B) as duas asserções são verdadeiras, e a segunda não é uma justificativa correta da primeira C) a primeira asserção é verdadeira, e a segunda é falsa. D) a primeira asserção é falsa, e a segunda é verdadeira. Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 52 E) a primeira e a segunda asserções são falsas. (Analista C&T Jr - Estatística/CAPES/2008/Cesgranrio/Adaptada) Responda à próxima questão com base nos resultados das Avaliações Trienais de 2004 e 2007 realizadas pela Capes nos cursos de pós-graduação do país apresentados na tabela a seguir. 26. O conceito médio na Avaliação Trienal de 2004 é A) 3,0 B) 5,5 C) 4,5 D) 5,0 E) 4,0 Com relação a estatística, julgue o item a seguir. 27. (Papiloscopista da PF/2012/CESPE-UnB) Ao contrário da mediana amostral, a média aritmética é menos sensível à presença de valores extremos (ou valores atípicos ou outliers). 28. (Estatístico/MI-CENAD/2012/ESAF) A distribuição de frequências em classes do salário mensal x, medido em número de salários mínimos, de uma amostra aleatória de 50 funcionários de uma empresa, é apresentada a seguir. x f mais de 0 a 10 22 mais de 10 a 20 13 mais de 20 a 30 10 mais de 30 a 40 3 mais de 40 a 50 2 Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 53 Usando o ponto médio como representativo da classe, determine o valor mais próximo da média amostral do salário mensal. A) 14,5 B) 15,0 C) 15,8 D) 16,1 E) 16,5 29. (Estatístico/MI-CENAD/2012/ESAF) Determine o valor mais próximo da mediana do salário mensal da distribuição de frequências apresentada na Questão 28, interpolando linearmente dentro das classes, se necessário. A) 15 B) 14,3 C) 13,7 D) 12,3 E) 7,3 30. (Analista/IRB/2005-2006/ESAF) No campo estatístico, ogivas são: A) polígonos de freqüência acumulada. B) polígonos de freqüência acumulada relativa ou percentual. C) histograma de distribuição de freqüência. D) histograma de distribuição de freqüência relativa ou percentual. E) o equivalente à amplitude do intervalo. 31. (Analista/IRB/2005-2006/ESAF) Histograma e Polígono de freqüência são A) a mesma representação gráfica (idênticas) de uma distribuição de freqüência. B) um texto descritivo e uma representação gráfica de uma distribuição de freqüência. C) um texto descritivo e uma função gráfica de uma distribuição de freqüência. D) duas representações gráficas de uma distribuição de freqüência. E) duas representações gráficas de uma distribuição de freqüência, porém com sentidos opostos. 32. (Técnico de Defesa Aérea e Controle de Tráfego Aéreo – Área: Estatística/2009/Cesgranrio) As informações contidas nos dois Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 54 histogramas se referem à distribuição dos salários dos funcionários de uma empresa, segundo a classificação dos funcionários em sênior e master. As estimativas da média salarial do grupo sênior e da mediana salarial do grupo dos master são, em salários mínimos, respectivamente, (A) 14,5 e 17,00 (B) 14,9 e 17,00 (C) 14,9 e 17,25 (D) 14,9 e 17,40 (E) 17,2 e 17,25 Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 55 Variável X Frequência relativa 0 0,10 1 0,20 2 0,30 3 0,40 (SEAD-CPC/2007/Cespe-UnB/Adaptada) Considerando a tabela acima, que apresenta as freqüências relativas de uma variável X, relativa a uma contagem, julgue os itens a seguir. 33. A média de X é inferior a 1,5. 34. A moda e a mediana de X são iguais a 3. (AFTE-RS/2009/Fundatec) A tabela a seguir representa a distribuição de frequências da idade de uma amostra de moradores de um asilo. Utilize para resolver as questões 35 e 36. Xi fi 70 |-- 74 7 74 |-- 78 19 78 |-- 82 13 82 |-- 86 11 86 |-- 90 6 90 |-- 94 4 Total 60 35. A idade aproximada da mediana é A) 78,22. B) 80,00. C) 79,38. D) 78,55. E) 79,23. 36. O valor da moda pelo método de King é A) 72,8. Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 56 B) 76,6. C) 80,0. D) 76,0. E) 19,0. 37. (Administrador(a) Júnior Petrobrás/2011/Cesgranrio) No histograma acima, os pontos médios das classes inicial e final são 40 e 80, respectivamente. Sabendo-se que todas as classes têm a mesma amplitude, a estimativa adequada para a média e para a mediana dessa distribuição são, respectivamente, (A) 59,5 e 59,5 (B) 59,5 e 60 (C) 60 e59 (D) 60 e 59,5 (E) 60 e60 38. (Técnico Adm. Saúde/SEARH-SESAP-RN/2008/Consulplan) A medida de posição mais usada é a média aritmética e a principal desvantagem da média com relação a mediana é: (A) Seu estimador X , ser viciado. (B) Apresentar valor sempre maior que a mediana. (C) Não ser influenciado por todos os valores da amostra. (D) Seu estimador X , ter variância mínima. (E) Ser influenciado por valores extremos. Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 57 39. (Técnico Adm. Saúde/SEARH-SESAP-RN/2008/Consulplan) Um estudo buscou localizar o ganho de peso de mulheres grávidas entre o 3o e 8o mês de gestação com acompanhamento pré-natal na rede estadual de saúde, apresentado através do histograma abaixo: Com base no gráfico, calcule a média do ganho de peso das gestantes: (A) 6,0 Kg (B) 6,2 Kg (C) 6,4 Kg (D) 6,6 Kg (E) 6,8 Kg 40. (Técnico Adm. Saúde/SEARH-SESAP-RN/2008/Consulplan) Uma certa montadora de automóveis afirma que seu novo modelo tem um consumo médio urbano superior a 14Km/L; foram realizados 100 testes, apresentados na tabela abaixo: Consumo Frequência absoluta [10 – 12) 30 [12 – 14) 20 [14 – 16) 25 [16 – 18) 25 Total Com base nas informações anteriores, assinale a medida de posição que apresenta melhor resultado para a montadora: (A) A média, cujo valor é dado por 14 Km/L. Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 58 (B) A mediana, cujo valor é dado por 14 Km/L. (C) A moda, cujo valor é dado por 14 Km/L. (D) A média, cujo valor é dado por 13,9 Km/L. (E) A mediana, cujo valor é dado por 13,9 Km/L. (Auxiliar de Estatística – Pref. Caratinga/2005/Consulplan/Adaptada) A Prefeitura Municipal de Caratinga necessitando conhecer o rendimento e efetuar estatísticas, realizou um teste aplicado aos servidores do Departamento de Recursos Humanos. No teste havia 20 (vinte) questões objetivas de múltipla escolha, tendo os 20 (vinte) servidores participantes do teste obtido as seguintes pontuações: 04 servidores → 04 acertos 02 servidores → 06 acertos 03 servidores → 08 acertos 04 servidores → 12 acertos 02 servidores → 14 acertos 05 servidores → 17 acertos Com base na situação apresentada, responda as questões 41, 42 e 43. 41. O valor individual mais freqüente da série apresentada é o seguinte número de acertos: (A) 17 (B) 14 (C) 12 (D) 8 (E) 6 42. A média aritmética da série é igual a: (A) 20 (B) 3,05 (C) 10,65 (D) 12 (E) 11 43. A amostra utilizada para conhecer o rendimento e efetuar as estatísticas no Departamento de Recursos Humanos da Prefeitura Municipal de Caratinga é igual a quantos elementos? (A) 4 (B) 6 Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 59 (C) 14 (D) 17 (E) 20 44. (Agente Fiscal de Rendas SP/2006/FCC). Considerando as respectivas definições e propriedades relacionadas às medidas de posição e de variabilidade, é correto afirmar: A) Concedendo-se um reajuste de 10% em todos os salários de uma empresa, tem-se também que a respectiva variância fica multiplicada por 1,10. B) Definindo-se coeficiente de variação (CV) como sendo o quociente da divisão do desvio padrão pela respectiva média aritmética (diferente de zero) de uma sequência de valores, tem-se então que CV também poderá ser obtido dividindo a correspondente variância pelo quadrado da média aritmética. C) Subtraindo um valor fixo de cada salário dos funcionários de uma empresa, tem-se que o respectivo desvio padrão dos novos valores é igual ao valor do desvio padrão dos valores anteriores. D) Dividindo todos os valores de uma sequência de números estritamente positivos por 4, tem-se que o respectivo desvio padrão fica dividido por 2. E) Em qualquer distribuição de valores em estudo, a diferença entre a mediana e a moda é sempre diferente de zero. 45. (ICMS-RJ/2009/FGV) Para comparar as rendas de dois grupos de pessoas, A e B, foram preparados diagramas de caixas (box-plots) com os valores observados dos salários, representados na figura a seguir: A respeito desses diagramas, considere as seguintes afirmativas: I. O salário médio dos dois grupos é o mesmo. II. A distribuição dos salários no grupo A é assimétrica à direita. III. Há mais pessoas no grupo A do que no grupo B. Assinale: A) se somente a afirmativa I for verdadeira. B) se somente a afirmativa II for verdadeira. Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 60 C) se somente a afirmativa III for verdadeira. D) se somente as afirmativas I e II forem verdadeiras. E) se somente as afirmativas II e III forem verdadeiras. 46. (ICMS-RJ/2008/FGV) Uma companhia utiliza um sistema de avaliação de desempenho de seus funcionários por meio de dois indicadores de performance: Qualidade das tarefas e a Tempestividade com que as tarefas são realizadas. Os funcionários receberam, na última avaliação, as medidas indicadas na tabela a seguir: Medidas Indicador Qualidade Tempestividade Média 50 25 Desvio-Padrão 10,0 6,0 Coeficiente de Variação (%) 20 24 Com base na tabela, é correto afirmar que: A) a média aritmética não é uma boa medida para representar a performance dos funcionários em face do elevado nível de dispersão das avaliações. B) as avaliações da Qualidade foram mais dispersas do que as avaliações da Tempestividade. C) as avaliações da Qualidade foram mais homogêneas do que as da Tempestividade. D)os funcionários demoram mais para realizar as tarefas, mas a qualidade das tarefas, mas a qualidade das tarefas é melhor. E) nada se pode afirmar sem o conhecimento do tamanho da amostra. 47. (ICMS-RJ/2007/FGV) Considere as informações contidas no Box Plot abaixo, referente aos salários dos engenheiros de uma empresa, por sexo. Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 61 É correto afirmar que: A) o salário médio dos homens é igual ao das mulheres. B) a distribuição dos salários das mulheres é assimétrica negativa. C) o desvio interquartílico dos salários das mulheres é maior do que o dos homens. D) a distribuição dos salários dos homens é atípica. E) o salário mediano das mulheres é superior ao dos homens. 48. (AFRF/2001/ESAF) Numa amostra de tamanho 20 de uma população de contas a receber, representadas genericamente por X, foram determinadas a média amostral M = 100 e o desvio-padrão s = 13 da variável transformada (X � 200)/5. Assinale a opção que dá o coeficiente de variação amostral de X: A) 3,0% B) 9,3% C) 17,0% D) 17,3% E) 10,0% (AFRF/2002/ESAF/Adaptada) Em um ensaio para o estudo da distribuição de um atributo financeiro (X) foram examinados 200 itens de natureza contábil do balanço de uma empresa. Esse exercício produziu a tabela de freqüências abaixo. A coluna Classes representa intervalos de valores de X em reais e a coluna P representa a freqüência relativa acumulada. Não existem observações coincidentes com os Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 62 extremos das classes. As próximas três questões referem-se a esses ensaios. Classes P (%) 70-90 5 90-110 15 110-130 40 130-150 70 150-170 85 170-190 95 190-210 100 49. Seja S o desvio padrão do atributo X. Assinale a opção que corresponde à medida de assimetria de X como definida pelo primeiro coeficiente de Pearson. A) 3/S B) 4/S C) 5/S D) 6/S E) 0 50. Considere a transformação Z=(X-140)/10. Para o atributo Z encontrou-se ∑ = = 7 1i 2 ii 680.1fZ , onde fi é a freqüência simples da classe i e Zi o ponto médio de classe transformado. Assinale a opção que dá a variância amostral do atributo X. A) 720,00 B) 840,20 C) 900,10 D) 1200,15 E) 560,30 51. Entende-se por curtose de uma distribuição seu grau de achatamento, em geral medido em relação à distribuição normal. Uma medida de curtose é dada pelo quociente 1090 PP Qk −= onde Q é a metade da distância interquartílica e P90 e P10 representam os percentis de 90% e 10%, respectivamente. Assinale a opção que dá o valor da curtose k para a distribuição de X. Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 63 A) 0,263 B) 0,250 C) 0,300 D) 0,242 E) 0,000 52. (Analista do BACEN/2006/FCC) A média aritmética dos valores das vendas diárias realizadas pelas 50 empresas do Setor A é de R$ 1.000,00, com desvio padrão de R$ 100,00. Sabe-se ainda que a média aritmética dos valores das vendas diárias realizadas pelas 200 empresas do Setor B é de R$ 2.000,00, com desvio padrão de R$ 200,00. A variância em (R$)2 dos valores das vendas diárias realizadas pelos dois setores reunidos é A) 34.000,00 B) 50.000,00 C) 194.000,00 D) 207.500,00 E) 288.000,00 53. (ICMS-RJ/2010/FGV) A média, a mediana e a variância das idades de um grupo de vinte pessoas são, hoje, iguais, respectivamente, a 34, 35 e 24. Daqui a dez anos, os valores da média, da mediana e da variância das idades dessas pessoas serão, respectivamente: A) 44, 35 e 34 B) 44, 45 e 12 C) 44, 45 e 24 D) 34, 35 e 12 E) 44, 45 e 124 54. (AFPS/2002/ESAF) O diagrama de ramos e folhas abaixo corresponde às observações (82, ..., 158) do atributo X. Assinale a opção que dá o valor mediano de X 8 | 2 8 | 9 | 003 9 | 9 10| 0011222344 10| 577777 11| 013 11| 55679 12| 00114 12| 5557 Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 64 13| 004 13| 5556 14| 03 14| 5 15| 15| 8 A) 105 B) 110 C) 104 D) 107 E) 115 (Analista de Estatística/Perito/MPU/2010/CESPE) Considere que um perito tenha efetuado um estudo acerca do tempo gasto — X —, em meses, por empresas notificadas para quitar suas pendências com a Previdência Social. Uma amostra de 35 empresas notificadas com pendências foi selecionada de um banco de dados da Previdência. A partir dessa amostra, o perito fez uma análise exploratória da variável X, cujos resultados são apresentados a seguir. Estatísticas Descritivas: tempo mínimo = 2 meses tempo máximo = 128 meses ∑ = = 35 1i i ;1027x ∑ = = 35 1i 2 i ;66317x 11,30135x35 1 235 1i i =⎟⎠ ⎞⎜⎝ ⎛∑ = Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 65 Nesse estudo, o perito efetuou avaliações acerca do número de irregularidades – Y – que geraram pendências em função do porte das empresas: com menos de 20 empregados e com 20 ou mais empregados. Os resultados foram os seguintes. tamanho da empresa y s n < 20 empregados 6,8 1,7 15 ≥ 20 empregados 2,6 1,3 20 Com base nessas informações julgue os itens de 55 a 60. 55. O diagrama de caixas, conhecido como boxplot, indica que a distribuição de X é assimétrica. Portanto, o número de observações acima do segundo quartil (Q2) foi proporcionalmente superior ao número de observações abaixo de Q2. 56. O tempo mediano da variável X foi aproximadamente igual a 29,34 meses. 57. No diagrama de caixas, quatro observações foram identificadas como valores atípicos por estarem fora do intervalo [0; 77,25]. 58. O diagrama apresentado a seguir é o resumo dos 5 números para a distribuição de X. 17 6 34,5 2 128 59. Nessa situação, a variabilidade do número de irregularidades nas empresas com menos de 20 empregados corresponde à metade da variabilidade do número de irregularidades nas empresas com 20 ou mais empregados. Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 66 60. O desvio padrão amostral de X foi inferior a 31 meses. (Analista Judiciário/TST/2007/Cespe-UnB/Adaptada) Considere que, em um ambiente de trabalho industrial, as seguintes medições acerca da poluição do ar tenham sido observadas: 1, 6, 4, 3, 2, 3, 1, 5, 1, 4. Nessas situação, julgue os itens que se seguem. 61. A mediana da amostra é igual a 2,5. 62. As médias harmônica e geométrica são ambas inferiores a 3. 63. O terceiro quartil é igual a 3. 64. A variância amostral é superior a 2,8. Variável X Frequência relativa 0 0,10 1 0,20 2 0,30 3 0,40 (SEAD-CPC/2007/Cespe-UnB/Adaptada) Considerando a tabela acima, que apresenta as freqüências relativas de uma variável X, relativa a uma contagem, julgue os itens a seguir. 65. A média de X é inferior a 1,5. 66. O desvio-padrão de X é inferior a 1,5. 67. A moda e a mediana de X são iguais a 3. 68. O coeficiente de variação de X é superior a 1. 69. (Analista/IRB/2005-2006/ESAF) O grau ao qual os dados numéricos tendem a dispersar-se em torno de um valor médio chama-se A) média. B) variação ou dispersão dos dados. C) mediana. D) correlação ou dispersão. E) moda. Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 67 14 Gabarito 1 – E 2 – E 3 – C 4 – C 5 – E 6 – C 7 – D 8 – A 9 – E 10 – C 11 – E 12 – C 13 – C 14 – B 15 – B 16 – A 17 – E 18 – C 19 – A 20 – C 21 – A 22 – D 23 – B 24 – B 25 – D 26 – E 27 – E 28 – B 29 – D 30 – A 31 – D 32 – C 33 - E 34 – E 35 – E 36 – B 37 – D 38 – E 39 – C 40 – B 41 – A 42 – C 43 – E 44 – C 45 – B 46 – C 47 – C 48 – B 49 – A 50 – B 51 – D 52 – C 53 – C 54 – E 55 – E 56 – E 57 – C 58 – C 59 – C 60 – E 61 – E 62 – C 63 – E 64 – C 65 – E 66 – C 67 – E 68 – E 69 – B – – – Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 68 15 Resolução dos Exercícios de Fixação Julgue os itens a seguir. 1. A estatística descritiva usa os dados de uma amostra para fazer estimativas e testar hipóteses a respeito das características de uma população. Resolução O item está errado porque dá a definição de Inferência Estatística. Aproveitaremos a oportunidade para enunciar os conceitos de população e amostra. POPULAÇÃO Uma população é o conjunto de todos os elementos de interesse em determinado estudo. AMOSTRA Uma amostra é um subconjunto de uma população. GABARITO: E 2. A inferência estatística aborda a organização e a descrição dos dados experimentais. Resolução O item está errado porque enuncia a definição de Estatística Descritiva. A maioria das informações estatísticas publicadas no jornais, revistas, relatórios de empresas, etc., consiste em dados sumariados e apresentados de forma fácil de entender para o leitor. Esses sumários de dados, que podem ser tabulares, gráficos ou numéricos, são conhecidos como Estatística Descritiva. GABARITO: E 3. Uma variável estatística será qualitativa quando resultar de uma classificação por tipos ou atributos. Resolução A variável será qualitativa quando resultar de uma classificação por tipos ou atributos, como, por exemplo: c) População: moradores de uma cidade. Variável: sexo (masculino ou feminino). Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 69 d) População: peças produzidas por uma máquina. Variável: qualidade (perfeita ou defeituosa). Item certo. GABARITO: C 4. Uma variável estatística será quantitativa quando seus valores forem expressos em números. Resolução Item certo. As variáveis quantitativas podem ser discretas ou contínuas. Uma variável contínua é aquela cujos possíveis valores pertencem a um intervalo de números reais e que resulta de uma mensuração, como, por exemplo, a estatura de um indivíduo. Uma variável discreta é aquela cujos possíveis valores formam um conjunto finito ou enumerável de números, e que resultam, freqüentemente, de uma contagem. Exemplos de variáveis discretas: c) População: casais residentes em um distrito de uma cidade. Variável: número de filhos. d) População: carros produzidos em uma linha de montagem. Variável: número de defeitos por unidade. Exemplos de variáveis contínuas: c) População: detergentes de uma certa marca e tipo. Variável: peso líquido. d) População: peças produzidas por uma máquina. Variável: diâmetro externo. GABARITO: C 5. O rol é um arranjo dos dados brutos. Resolução Um rol é um arranjo dos dados em ordem crescente ou decrescente. Assim, {10, 8, 20, 12, 15, 3, 2, 4} são dados brutos, ou seja, estão fora de ordem, e {2, 3, 4, 8, 10, 12, 15, 20} constituem o rol. Um arranjo dos dados brutos pode estar fora de ordem (crescente ou decrescente). Logo, o item está errado. Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 70 GABARITO: E 6. Série estatística é toda tabela que apresenta um conjunto de dados estatísticos distribuídos em função da época, do local ou da espécie. Resolução A definição é correta. As séries estatísticas podem ser classificadas em • históricas; • geográficas; • específicas; e • distribuição de frequências. GABARITO: C 7. (Analista da SUSEP/2006/ESAF) Para um conjunto determinado de números positivos temos: X como a média aritmética, G como a média geométrica e H como a média harmônica, podemos afirmar que A) X menor ou igual a G menor ou igual a H. B) G maior do que X maior do que H. C) X menor ou igual a H menor ou igual a G. D) H menor ou igual a G menor ou igual a X . E) H maior do que G maior do que X . Resolução A média geométrica (G) de um conjunto de números positivos n21 X,...,X,X é menor ou igual a média aritmética ( X ), mas é maior ou igual a média harmônica: .XGH ≤≤ A igualdade entre as médias ocorre quando todos os números n21 X,...,X,X são iguais. GABARITO: D 8. (ATM-Recife/2003/ESAF) Em uma amostra para obter-se informações sobre a distribuição salarial de homens e mulheres, encontrou-se que o salário médio vale R$ 1.200,00. O salário médio observado para homens foi de R$ 1.300,00 e para as mulheres foi de R$ 1.100,00. Assinale a opção correta: Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 71 A) O número de homens na amostra é igual ao número de mulheres. B) O número de homens na amostra é o dobro do número de mulheres. C) O número de homens na amostra é o triplo do número de mulheres. D) O número de mulheres na amostra é o dobro do número de homens. E) O número de homens na amostra é o quádruplo do número de mulheres. Resolução Dados fornecidos: - média salarial dos homens: HX = 1.300; - média salarial das Mulheres: MX = 1.100; - salário médio (média combinada) = MHX + = 1.200. Variáveis incógnitas: - NH: número de homens; - NM: número de mulheres. O que esta questão está cobrando? O que está por detrás das alternativas? Diríamos que a pergunta a ser respondida é a seguinte: ⇒ Qual é a relação existente entre as variáveis NH e NM? Os dados fornecidos pela banca sugerem que a questão poderá ser resolvida através da aplicação da fórmula da média das médias (média global ou média combinada), a qual corresponde à média ponderada das médias salariais HX e MX . Não custa nada tentar, certo? Então vamos lá. 200.1 NN N100.1N300.1 NN XNXNX MH MH MH MMHH MH =+ +=+ +=+ 1.300 NH + 1.100 NM = 1.200 NH + 1.200 NM 100 NH = 100NM ⇒ NH = NM A nossa tentativa deu certo. Concluímos que o número de homens na amostra é igual ao número de mulheres (alternativa “A”). GABARITO: A Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 72 Classificação mínimo 1º quartil mediana média 3º quartil máximo variância A 20 25 27,5 30 32,5 50 49 B 18 23 32 33 42 52 100 A ou B x y z 31 w u v (Papiloscopista PF/2004/Cespe-UnB) De acordo com um levantamento estatístico, a média das idades de um grupo de presidiários é igual a 31 anos de idade. Nesse levantamento, os presidiários foram classificados como A ou B, dependendo da sua condição psicossocial. Constatou-se que a média das idades dos presidiários classificados como A é menor que a média das idades dos presidiários classificados como B. A tabela acima apresenta algumas medidas estatísticas obtidas por meio desse levantamento. A partir das informações acima, julgue os itens que se seguem. 9. A moda das idades dos presidiários classificados como A, segundo a fórmula de Czuber, está entre 25,5 e 26 anos de idade. Resolução No caso de distribuições de frequência em classes de mesma amplitude, é comum definir-se a moda (mo) como um ponto pertencente à classe modal, dado por h dd dLmo 21 1 i ++= , em que iL é o limite inferior da classe modal, 1d é a diferença entre a frequência da classe modal e a da classe imediatamente anterior, 2d é a diferença entre a frequência da classe modal e a da classe imediatamente seguinte e h é a amplitude das classes. Observe que os dados do levantamento estatístico não estão agrupados em intervalos de classe, ou seja, não temos acesso ao histograma correspondente. Portanto, a fórmula da moda segundo Czuber não pode ser aplicada ao item (o mesmo se aplica para a fórmula da moda segundo King). A conclusão de que “A moda das idades dos presidiários classificados como A, segundo a fórmula de Czuber, está entre 25,5 e 26 anos de idade” é um mero “chute”. GABARITO: E 10. O número de presidiários classificados como A é igual ao dobro do número de presidiários classificados como B. Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 73 Resolução Dados: 30A = , 33B = . Média das médias ( X ): BA BA nn BnAnX + += ⇒ BA BA nn 33n30n31 + += ⇒ BA n2n = em que An e Bn denotam o número de presidiários classificados como A e o número de presidiários classificados como B, respectivamente. Logo, é correto afirmar que o número de presidiários classificados como A é igual ao dobro do número de presidiários classificados como B. GABARITO: C (Papiloscopista PF/2004/Cespe-UnB) O ser humano tem impressos nos dedos das mãos pelo menos quatro desenhos diferentes. Embora pessoas diferentes tenham sempre digitais diferentes, esses desenhos formam padrões conhecidos como tipos fundamentais de impressões digitais. Há raras exceções a essa regra de classificação. Por isso, essa regra é utilizada para a identificação de uma pessoa. Um perito, observando os dedos indicadores direitos de 200 indivíduos, obteve a seguinte distribuição dos tipos fundamentais, segundo o gênero (homem/mulher). Tipo fundamental gênero arco presilha interna presilha externa verticilo total homem 15 15 35 35 100 mulher 15 10 40 35 100 No estudo desse perito, foram associados valores x, y e z para cada indivíduo, da seguinte maneira: x = 1, caso o tipo fundamental da impressão digital do indivíduo for verticilo e x = 0, caso contrário; y = 1 se o tipo fundamental da impressão digital do indivíduo for arco e y = 0, caso contrário; z = 1 se o indivíduo for mulher e z = 0 se for homem. Como resultado desse procedimento, formam-se três séries estatísticas, respectivamente, X, Y e Z, cada uma com duzentas observações. A partir dessas informações, julgue os itens a seguir. 11. A mediana de X é superior a 0,8. Resolução Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 74 O total de homens e mulheres com impressão digital verticilo é 70. Logo, sobram 200 – 70 = 130 homens e mulheres que não têm impressão digital verticilo. O rol da série x possui 130 zeros e 70 uns. Portanto, a mediana é zero (0), menor que 0,8. GABARITO: E 12. A mediana do produto X × Z é menor que 0,025. Resolução Dados: - x = 1 se o tipo fundamental da impressão digital do indivíduo for verticilo; - x = 0 se o tipo fundamental da impressão digital do indivíduo NÃO for verticilo; - z = 1 se o indivíduo for mulher; e - z = 0 se o indivíduo for homem. A série W = X × Z registra as pessoas do gênero feminimo E com impressão digital verticilo. Neste caso, a série W tem 35 “uns” (xz = 1.1 = 1 se uma mulher tem impressão digital verticilo) e 200 – 35 = 165 “zeros” (xz = 0.z = 0 se um homem ou mulher não tem impressão digital verticilo). Logo, a mediana de W é zero, menor que 0,025. GABARITO: C (Agente Fiscal de Rendas SP/2009/FCC/Adaptada) Para resolver as próximas duas questões, considere a tabela de frequências relativas abaixo, que mostra a distribuição dos valores arrecadados, em 2008, sobre determinado tributo, referente a um ramo de atividade escolhido para análise. Sabe-se que: I – As frequências absolutas correspondem às quantidades de recolhimentos, sendo as frequências relativas do segundo e terceiro intervalos de classe iguais a x e y, respectivamente. II – A média aritmética da distribuição, valor arrecadado por recolhimento, é igual a R$ 3.350,00 (valor encontrado considerando que todos os valores incluídos num certo intervalo de classe são coincidentes com o ponto médio desse intervalo). Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 75 Valores Arrecadados (R$) Frequências Relativas 1.000,00 |---------- 2.000,00 0,10 2.000,00 |---------- 3.000,00 x 3.000,00 |---------- 4.000,00 y 4.000,00 |---------- 5.000,00 0,20 5.000,00 |---------- 6.000,00 0,10 Total 1,00 13. A porcentagem de recolhimentos com valores arrecadados maiores ou iguais a R$ 3.000,00 é A) 70% B) 65% C) 55% D) 45% E) 40% Resolução Seja a tabela a seguir, em que xi denota o ponto médio da classe i, pi representa a frequência relativa da classe i e Pi é a frequência acumulada da classe i. Classes (em R$ mil) xi pi Pi 1,0 |--- 2,0 1,5 0,10 0,10 2,0 |--- 3,0 2,5 x 0,10 + x 3,0 |--- 4,0 3,5 y 0,10 + x + y 4,0 |--- 5,0 4,5 0,20 0,30 + x + y 5,0 |--- 6,0 5,5 0,10 0,40 + x + y Total 1,00 Temos duas frequências relativas incógnitas: x e y. Logo, precisaremos montar um sistema de duas equações a duas incógnitas para resolver x e y. O enunciado diz que 35,3x = (em R$ mil). Portanto, )10,05,5()20,05,4(y5,3x5,2)10,05,1(px35,3x i ii ×+×+++×=== ∑ 35,355,090,0y5,3x5,215,0 =++++ 75,1y5,3x5,2 =+ (1) Por outro lado, sabemos que 1p i i =∑ ⇒ 00,140,0yx =++ ⇒ 60,0yx =+ (2) Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 76 Chegamos então ao sistema ⎩⎨ ⎧ =+ =+ 60,0yx 75,1y5,3x5,2 Podemos resolver o sistema da seguinte forma: multiplique a equação (2) por -2,5 e some-a com a equação (1): -2,5x – 2,5y +2,5x + 3,5y = 1,75 – 1,50 0x + 1,0y = 0,25 ⇒ y = 0,25 Substituindo o valor de y em (2), tem-se que x + 0,25 = 0,60 ⇒ x = 0,60 – 0,25 = 0,35. Então a solução é: 35,0x = e 25,0y = . A versão final da tabela é: Classes (em R$ mil) xi pi Pi 1,0 |--- 2,0 1,5 0,10 0,10 2,0 |--- 3,0 2,5 0,35 0,45 3,0 |--- 4,0 3,5 0,25 0,70 4,0 |--- 5,0 4,5 0,20 0,90 5,0 |--- 6,0 5,5 0,10 1,00 Total 1,00 E a porcentagem de recolhimentos com valores arrecadados maiores ou iguais a R$ 3.000,00 é: 0,25 + 0,20 + 0,10 = 0,55 = 55%. GABARITO: C 14. Utilizando o método da interpolação linear, tem-se que o valor da respectiva mediana é A) R$ 3,120,00 B) R$ 3,200,00 C) R$ 3,400,00 D) R$ 3,600,00 E) R$ 3,800,00 Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 77 Resolução Classes (em R$ mil) xi pi Pi 1,0 |--- 2,0 1,5 0,10 0,10 2,0 |--- 3,0 2,5 0,35 0,45 3,0 |--- 4,0 (classe da mediana) 3,5 0,25 0,70 4,0 |--- 5,0 4,5 0,20 0,90 5,0 |--- 6,0 5,5 0,10 1,00 Total 1,00 A mediana é o valor que divide a distribuição ao meio, deixando os 50% menores valores de um lado e os 50% maiores valores do outro lado. Fazendo a interpolação linear (regra de três), temos que: (4,0 – 3,0) = 1,0 (amplitude da classe da mediana) está para X (amplitude na classe da mediana correspondente à mediana) assim como (70% – 45%) está (50% – 45%): 45,050,0 45,070,0 X 0,1 − −= ⇒ 05,0 25,0 X 0,1 = ⇒ 20,0 25,0 05,0X == Logo: md = 3,0 + 0,2 = R$ 3,2 mil. GABARITO: B 15. (APOFP-SP/2009/ESAF) Determine a mediana das seguintes observações: 17, 12, 9, 23, 14, 6, 3, 18, 42, 25, 18, 12, 34, 5, 17, 20, 7, 8, 21, 13, 31, 24, 9 A) 13,5 B) 17 C) 14,5 D) 15,5 E) 14 Resolução A mediana de um conjunto de n valores ordenados, sendo n ímpar, é definida como o valor de ordem (n+1)/2 desse conjunto. Se n for par, a mediana poderia ser definida como qualquer valor situado entre o de ordem n/2 e o de ordem (n/2)+1. Por simplificação, para n par, consideraremos a mediana como o valor médio entre os valores de ordem n/2 e (n/2)+1 do conjunto de dados Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 78 Total de elementos do conjunto = n = 23 (ímpar) Mediana (número ímpar de elementos) => Posição = (n+1)/2 = 24/4 = 12 Vamos colocar os elementos do conjunto em ordem crescente: 3, 5, 6, 7, 8, 9, 9, 12, 12, 13, 14, 17, 17, 18, 18, 20, 21, 23, 24, 25, 31, 34, 42 Elemento na Posição 12 = 17 GABARITO: B 16. (ICMS-SP/2006/FCC) O histograma de frequências absolutas, abaixo, demonstra o comportamento dos valores arrecadados de um determinado tributo, no ano de 2005, em uma região a ser analisada: Observação: Considere que todos os intervalos de classe de histograma são fechados à esquerda e abertos à direita. Utilizando-se as informações contidas neste histograma, calculou-se a média aritmética destes valores arrecadados, considerando que todos os valores incluídos num certo intervalo de classe são coincidentes com o ponto médio deste intervalo. Também calculou-se a mediana de tais valores pelo método da interpolação linear. Então, o módulo da diferença entre a média aritmética e a mediana é igual a A) R$ 100,00 B) R$ 400,00 C) R$ 800,00 D) R$ 900,00 Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 79 E) R$ 1.000,00 Resolução Quando os dados são apresentados em uma distribuição de freqüências, todos os valores incluídos num certo intervalo de classe são considerados coincidentes com o ponto médio do intervalo. Considere a tabela a seguir para o cálculo da média aritmética: Classe (em R$ mil) fi xi xifi 1,0 - 2,0 200 1,5 300 2,0 – 3,0 400 2,5 1.000 3,0 – 4,0 500 3,5 1.750 4,0 – 5,0 600 4,5 2.700 5,0 – 6,0 300 5,5 1.650 Total 2.000 7.400 Então, 70,3 000.2 400.7 n fx x ii === ∑ (em R$ mil). Aprendemos que a mediana é o valor que divide a distribuição ao meio, deixando os 50% menores valores de um lado e os 50% maiores valores do outro lado. Considere a tabela abaixo (cálculo da mediana): Classe (em R$ mil) fi xi pi Pi 1,0 - 2,0 200 1,5 200/2000=0,10 0,10 2,0 – 3,0 400 2,5 400/2000=0,20 0,30 3,0 – 4,0 500 3,5 500/2000=0,25 0,55 4,0 – 5,0 600 4,5 600/2000=0,30 0,85 5,0 – 6,0 300 5,5 300/2000=0,15 1,00 Total 2.000 1,00 Fazendo a interpolação linear (regra de três), temos que: (4,0 – 3,0) = 1,0 (amplitude da classe da mediana) está para X (amplitude na classe da mediana correspondente à mediana) assim como (55% – 30%) está (50% – 30%): 30,050,0 30,055,0 X 0,1 − −= ⇒ 20,0 25,0 X 0,1 = ⇒ 80,0 5 4 25 20 25,0 20,0X ==== Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 80 Então, md = 3,0 + 0,8 = 3,8 (em R$ mil). Assim, 100|800.3700.3||mdx| =−=− . GABARITO: A (AFRF/2002/ESAF/Adaptada) Em um ensaio para o estudo da distribuição de um atributo financeiro (X) foram examinados 200 itens de natureza contábil do balanço de uma empresa. Esse exercício produziu a tabela de freqüências abaixo. A coluna Classes representa intervalos de valores de X em reais e a coluna P representa a freqüência relativa acumulada. Não existem observações coincidentes com os extremos das classes. As próximas três questões referem-se a esses ensaios. Classes P (%) 70-90 5 90-110 15 110-130 40 130-150 70 150-170 85 170-190 95 190-210 100 17. Assinale a opção que dá o valor médio amostral de X. A) 140,10 B) 115,50 C) 120,00 D) 140,00 E) 138,00 Resolução Se k valores distintos observados k21 x,...,x,x ocorrerem com as freqüências relativas k21 p,...,p,p , respectivamente, a média será dada por ∑ = = k 1j jjpxx em que pj denota a j-ésima frequência relativa. Quando os dados são apresentados em uma distribuição de freqüências, todos os valores incluídos num certo intervalo de classe são considerados Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 81 coincidentes com o ponto médio do intervalo. A fórmula anterior será válida para esses dados agrupados quando se interpretar jx como o ponto médio e jp como a frequência relativa. Classe (limites reais) Pj pi xi xjpj 70 � 90 0,05 0,05 (90+70)/2=80 4 90 � 110 0,15 0,15�0,05=0,10 (110+90)/2=100 10 110 � 130 0,40 0,40�0,15=0,25 (130+110)/2=120 30 130 � 150 0,70 0,70�0,40=0,30 (150+130)/2=140 42 150 � 170 0,85 0,85�0,70=0,15 (170+150)/2=160 24 170 � 190 0,95 0,95�0,85=0,10 (190+170)/2=180 18 190 � 210 1,00 1,00�0,95=0,05 (210+190)/2=200 10 Soma 1,00 138 Logo, 138pxx k 1j jj == ∑ = , conforme a tabela acima. GABARITO: E 18. Assinale a opção que corresponde à estimativa do quinto decil da distribuição de X. A) 138,00 B) 140,00 C) 136,67 D) 139,01 E) 140,66 Resolução A mediana é o quinto decil. A mediana (md) de uma distribuição em classes de freqüências é dada pela expressão md md a i hf F)2/n(Lmd ×−+= , em que iL é o limite inferior da classe que contém a mediana, n é o número de elementos do conjunto de dados, aF é a soma das frequências das classes anteriores à que contém a mediana, mdf é a frequência da classe que contém a mediana e mdh é a amplitude da classe que contém a mediana. Seja a Tabela das freqüências (fj) e freqüências acumuladas (Fj) abaixo: Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 82 Classe (limites reais) pj fj Fj 70 � 90 0,05 200 x 0,05 =10 10 90 � 110 0,10 200 x 0,10 =20 10 + 20 = 30 110 � 130 0,25 200 x 0,25 =50 30 + 50 = 80 130 � 150 0,30 200 x 0,30 =60 80 + 60 = 140 150 � 170 0,15 200 x 0,15 =30 140 + 30 = 170 170 � 190 0,10 200 x 0,10 =20 170 + 20 = 190 190 � 210 0,05 200 x 0,05 =10 190 + 20 = 200 Soma 1,00 200 = n Temos que: 200n = , 130Li = , 80Fa = , 60fmd = e 20hmd = Então, 67,13620 60 80)2/200(130md ≈×−+= . GABARITO: C 19. Assinale a opção que corresponde à estimativa da freqüência relativa de observações de X menores ou iguais a 145. A) 62,5% B) 70,0% C) 50,0% D) 45,0% E) 53,4% Resolução A questão cobra o cálculo da estimativa da freqüência relativa de observações de X menores ou iguais a 145, ou seja, o cálculo da frequência relativa acumulada até X = 145. Considere a tabela a seguir: Classes f 70-90 10 90-110 20 110-130 50 130-150 60 Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 83 A amplitude da classe em que está situado o valor X = 145 é (150 – 130) = 20. Seja a sub-classe (130, 145) com frequência a determinar Δ (X é o extremo superior desta sub-classe). Podemos determinar a frequência Δ da sub-classe (130, 145), cuja amplitude é (145 – 130) = 15, através da seguinte interpolação (regra de três): 20 está para 60 assim como 15 está para Δ ou Δ↔ ↔ 15 6020 Multiplicando em “xis” a regra de três acima, obtemos 20 x Δ = 15 x 60 Δ = 45 A tabela a seguir mostra que a frequência acumulada até X = 145 é 125. Classes f 70-90 10 90-110 20 110-130 50 130-145 45 Soma F=125 Finalmente, a frequência relativa acumulada (P) até X = 145 é dada por P = F/n = 125/200 = 0,625 = 62,5% GABARITO: A Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 84 20. (ICMS-RJ/2011/FGV) Em uma repartição, foi tomada uma amostra do número de filhos de 4 funcionários. O resultado foi {2, 1, 4, 2}. A média geométrica simples dessa amostra é A) 2,25. B) 1,75. C) 2. D) 2,4 E) 2,5 Resolução MÉDIA GEOMÉTRICA ( ) 222222242x 4/1444g ==×××=××= GABARITO: C 21. (Técnico Administrativo/BNDES/2010/CESGRANRIO) Dez mulheres adultas foram submetidas a uma pesquisa. A cada uma delas perguntou-se: “Quantos filhos você tem?”. O entrevistador foi anotando cada uma das respostas na ordem em que foram obtidas. No entanto, devido à pressa, esqueceu-se de registrar uma das respostas. A listagem abaixo reproduz as respostas dadas, na ordem em que foram registradas. 2 0 3 1 1 0 1 4 1 A partir das informações acima, analise as afirmativas a seguir. I - A moda das quantidades de filhos dessas dez mulheres independe da resposta não registrada. II - A mediana das quantidades de filhos dessas dez mulheres depende da resposta não registrada. III - A média das quantidades de filhos dessas dez mulheres independe da resposta não registrada. Está correto APENAS o que se afirma em A) I. B) II. C) III. D) I e II. E) II e III. Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 85 Resolução ANÁLISE DAS AFIRMATIVAS I – A observação de maior frequência (moda) possível é forçosamente o valor “1”, haja vista que poderá ocorrer até 5 vezes (estamos assumindo que a resposta não registrada tenha sido um filho). Caso a reposta não registrada tenha sido zero filho, então o valor “0” poderá ocorrer 3 vezes, e assim sucessivamente para os demais valores. Desta maneira, a moda das quantidades de filhos das dez mulheres é o valor 1, independentemente da resposta não registrada. Afirmativa correta. II – Temos uma distribuição de frequências sem intervalos de classe. Neste caso, basta identificar a freqüência acumulada imediatamente superior à metade da soma das freqüências, que é igual a 5 nesta questão, pois há 10 mulheres. A mediana será aquele valor da variável que corresponde a tal freqüência acumulada. Para responder se a mediana das quantidades de filhos das dez mulheres depende ou não da resposta não registrada, faremos uma análise exaustiva de várias hipóteses: • Hipótese 1: três mulheres responderam que têm zero filho; • Hipótese 2: cinco mulheres responderam que têm 1 filho; • Hipótese 3: duas mulheres responderam que têm 2 filhos; e • Assim sucessivamente. Hipótese 1: 3 mulheres responderam que têm 0 filho. No de filhos Freq. Freq. Acumulada 0 3 3 1 4 7 2 1 8 3 1 9 4 1 10 Soma 10 mediana Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 86 Hipótese 2: 5 mulheres responderam que têm 1 filho. No de filhos Freq. Freq. Acumulada 0 2 2 1 5 7 2 1 8 3 1 9 4 1 10 Soma 10 Hipótese 3: 2 mulheres responderam que têm 2 filhos. No de filhos Freq. Freq. Acumulada 0 2 2 1 4 6 2 2 8 3 1 9 4 1 10 Soma 10 Hipótese 4: 2 mulheres responderam que têm 3 filhos. No de filhos Freq. Freq. Acumulada 0 2 2 1 4 6 2 1 7 3 2 9 4 1 10 Soma 10 Hipótese 5: 2 mulheres responderam que têm 4 filhos. No de filhos Freq. Freq. Acumulada 0 2 2 1 4 6 2 1 7 3 1 8 4 2 10 Soma 10 mediana mediana mediana mediana Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 87 Hipótese 6: 1 mulher respondeu que têm 5 ou mais filhos. No de filhos Freq. Freq. Acumulada 0 2 2 1 4 6 2 1 7 3 1 8 4 1 9 5 ou mais 1 10 Soma 10 Observe que a mediana é igual a 1 para todos os casos. Portanto, a mediana das quantidades de filhos dessas dez mulheres INDEPENDE da resposta não registrada. Afirmativa incorreta. III - Calcule a média considerando a hipótese 1 (3 mulheres responderam que têm 0 filho): 3,1 10 13 10 4324 10 )14()13()12()41()30(x ==+++=×+×+×+×+×= . Agora, calcule a média considerando a hipótese 2 (5 mulheres responderam que têm 1 filho): 4,1 10 14 10 4325 10 )14()13()12()51()20(x ==+++=×+×+×+×+×= . Constatamos que a média das quantidades de filhos das dez mulheres DEPENDE da resposta não registrada. Afirmativa incorreta. GABARITO: A 22. (AFTE-RO/2010/FCC) Em uma cidade é realizado um levantamento referente aos valores recolhidos de determinado tributo estadual no período de um mês. Analisando os documentos de arrecadação, detectou-se 6 níveis de valores conforme consta no eixo horizontal do gráfico abaixo, em que as colunas representam as quantidades de recolhimentos correspondentes. mediana Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 88 Com relação às medidas de posição deste levantamento tem-se que o valor da A) média aritmética é igual ao valor da mediana.. B) média aritmética supera o valor da moda em R$ 125,00. C) moda supera o valor da mediana em R$ 500,00. D) mediana supera o valor da média aritmética em R$ 25,00. E) média aritmética é igual a metade da soma da mediana e a moda. Resolução Valor Freq. Freq. Acumulada Valor x Freq 500 30 30 15.000 1.000 50 80 50.000 1.500 60 140 90.000 2.000 30 170 60.000 2.500 20 190 50.000 3.000 10 200 30.000 Soma 200 295.000 Temos que: • Moda = 1.500 (valor mais frequente) • Média = 295.000/200 = 1.475 • Mediana (*) = 1.500 = Média + 25 ⇒ alternativa D. (*) Lembre do procedimento de cálculo da mediana para uma distribuição de frequências sem intervalos de classe. Você deverá identificar a freqüência acumulada imediatamente superior à metade da soma das freqüências, cujo valor é 100, uma vez que a soma das frequências dá 200. Na tabela acima, a frequência acumulada para o valor 1.500 é 140, valor imediatamente superior a 100. mediana Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 89 GABARITO: D 23. (Administrador(a) Júnior Petrobrás/2010/Cesgranrio) Uma loja de conveniência localizada em um posto de combustível realizou um levantamento sobre o valor das compras realizadas pelos seus clientes. Para tal tomou uma amostra aleatória de 21 compras, que apresentou, em reais, o seguinte resultado: Índice Valor Índice Valor Índice Valor 1 19,40 8 22,00 15 18,00 2 14,00 9 34,00 16 29,00 3 18,30 10 15,50 17 34,00 4 27,20 11 28,50 18 15,50 5 8,70 12 34,00 19 13,40 6 10,30 13 10,80 20 17,00 7 7,20 14 15,50 21 19,00 A mediana dessa série de observações é (A)15,50 (B) 18,00 (C) 18,30 (D) 28,50 (E)34,00 Resolução A mediana é o valor que ocupa a posição central da série de observações, quando estão ordenadas em ordem crescente. Assim, se as observações forem 3, 4, 7, 8 e 8, a mediana é o valor 7, correspondendo à terceira observação. Quando o número de observações for par, usa-se como mediana a média aritmética das duas observações centrais. Acrescentando-se o valor 9 à série acima, a mediana será (7 + 8)/2 = 7,5. Para a presente questão, temos a seguinte série ordenada em ordem crescente de valores: ⇒ {7,20 8,70 10,30 10,80 13,40 14,00 15,50 15,50 15,50 17,00 18,00 18,30 19,00 19,40 22,00 27,20 28,50 29,00 34,00 34,00 34,00} Observe que o valor 18,00 corresponde à 11a observação do conjunto de dados (posição central). Logo, a mediana da série dada é 18,00. GABARITO: B Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 90 24. (Administrador Jr – REFAP/2007/Cesgranrio) O gráfico de setores abaixo representa a distribuição de freqüências relativas dos salários de uma empresa, em salários mínimos. Não existem observações coincidentes com os extremos das classes O primeiro e o terceiro quartis da distribuição, respectivamente, valem: A) 2,25 e 4,00 B) 2,25 e 5,75 C) 4,00 e 2,25 D) 4,00 e 5,75 E) 5,75 e 12,00 Resolução Os quartis (Q1, Q2, Q3) dividem a distribuição de frequências em quatro subconjuntos com igual número de elementos. O primeiro quartil (Q1) ou quartil inferior (Qi) delimita os 25% menores valores; o segundo quartil é a própria mediana e o terceiro quartil (Q3) ou quartil superior (Qs) é o valor que separa os 25% maiores valores. Podemos resolver a questão de uma forma "maceteada", sem fazer uma conta, se mapearmos o gráfico de setores fornecido pelo enunciado em um histograma, como ilustrado pela figura a seguir. O histograma abaixo representa a distribuição de frequências dos salários da empresa. Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 91 Primeiramente, observe que, se 40% dos colaboradores da empresa ganham salários na faixa de 1 a 3 salários mínimos, então os 25% menores salários devem estar na faixa de 1 a 3 salários mínimos. Logo, o primeiro quartil (Q1) é um número entre 1 e 3. Concorda? Esta constatação elimina as opções C, D e E. Sobraram apenas as alternativas A e B. Isto quer dizer que Q1= 2,25. Analisemos a opção A. Ela afirma que Q3 = 4,00. Será que isto é verdade? Vamos conferir. Se 30% dos colaboradores estão na faixa de 3 a 5 salários mínimos, então 15% das pessoas estão na faixa de 3 a 4 salários mínimos (fiz uma regra de três "de cabeça"). Então, 40% + 15% = 55% dos colaboradores ganham menos de 4 salários mínimos, ou, dito de outra forma, 100% − 55% = 45% ganham pelo menos 4 salários mínimos. Como o terceiro quartil (Q3) ou quartil superior (Qs) é o valor que separa os 25% maiores valores, temos que a opção A é falsa. Sobrou apenas a alternativa B! Portanto, Q3 = 5,75. A figura abaixo ilustra a posição de Q1 e Q3 na distribuição da questão. Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 92 GABARITO: B Considere as asserções a seguir. 25. (Analista C&T Jr - Estatística/CAPES/2008/Cesgranrio) A moda de um conjunto de observações é sempre um dos valores observados. PORQUE A moda é uma medida de posição de um conjunto de observações. Analisando-se as asserções, conclui-se que A) as duas asserções são verdadeiras, e a segunda é uma justificativa correta da primeira. B) as duas asserções são verdadeiras, e a segunda não é uma justificativa correta da primeira C) a primeira asserção é verdadeira, e a segunda é falsa. D) a primeira asserção é falsa, e a segunda é verdadeira. E) a primeira e a segunda asserções são falsas. Resolução Análise das asserções Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 93 Analisemos primeiramente a segunda asserção: "A moda é uma medida de posição de um conjunto de observações". Ela é verdadeira, conforme visto nesta aula. Passemos à avaliação primeira asserção: "A moda de um conjunto de observações é sempre um dos valores observados". Considere a seguinte série estatística: 4, 7, 5, 7, 10, 2, 12, 8, 7, 5, 2, 10, 8, 11, 7, 3, 9, 6, 8, 5, 8, 2, 5. Organizando os dados em ordem crescente: 2, 2, 2, 3, 4, 5, 5, 5, 5, 6, 7, 7, 7, 7, 8, 8, 8, 8, 9, 10, 10, 11, 12 Observe que na série o valor 2 ocorre 3 vezes, o 5 ocorre 4 vezes, o 7 ocorre 4 vezes, o 8 ocorre 4 vezes e o 10 ocorre 2 vezes. Logo a série é trimodal, pois há 3 valores modais: 5, 7, e 8. Considere outra série estatística: 2, 3, 5, 6, 7, 9, 14, 15. Qual seria o valor modal dessa série? A resposta correta é a seguinte: a série é amodal, ou seja, não tem valor modal, uma vez que todas as observações ocorrem o mesmo número de vezes. Os exemplos dados indicam que a moda não é sempre um dos valores observados. Podem ser 0, 2, 3 etc. Concluímos que a primeira asserção é falsa. A opção correta é a D. GABARITO: D (Analista C&T Jr - Estatística/CAPES/2008/Cesgranrio/Adaptada) Responda à próxima questão com base nos resultados das Avaliações Trienais de 2004 e 2007 realizadas pela Capes nos cursos de pós-graduação do país apresentados na tabela a seguir. 26. O conceito médio na Avaliação Trienal de 2004 é A) 3,0 Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 94 B) 5,5 C) 4,5 D) 5,0 E) 4,0 Resolução O conceito médio de 2004 deve ser calculado de acordo com a seguinte fórmula: 0,4 256.2 )762()6145()5476()4677()3896(x ≈×+×+×+×+×= ⇒ opção E. GABARITO: E Com relação a estatística, julgue o item a seguir. 27. (Papiloscopista da PF/2012/CESPE-UnB) Ao contrário da mediana amostral, a média aritmética é menos sensível à presença de valores extremos (ou valores atípicos ou outliers). Resolução Primeiramente, façamos uma breve revisão conceitual. As medidas de posição de tendência central são: média aritmética, moda e mediana. A mediana, os quartis, os decis e os percentis são as medidas separatrizes. Conclui-se que a mediana é, ao mesmo tempo, uma medida de posição e uma medida separatriz. As medidas de tendência central também são chamadas de promédios. Essa denominação é dada porque os dados observados tendem a agrupar-se em torno dos valores centrais da distribuição de frequências. Outros promédios menos utilizados são a média geométrica e a média harmônica. A mediana é conveniente para séries estatísticas onde existem valores extremos (ou valores atípicos ou outliers), em que valores grandes e pequenos coexistem dentro da mesma série. Para esses casos, a mediana caracteriza o promédio mais confiável. Por outro lado, a média aritmética é mais sensível à presença de valores extremos do que a mediana. Item errado. Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 95 GABARITO: E 28. (Estatístico/MI-CENAD/2012/ESAF) A distribuição de frequências em classes do salário mensal x, medido em número de salários mínimos, de uma amostra aleatória de 50 funcionários de uma empresa, é apresentado a seguir. x f mais de 0 a 10 22 mais de 10 a 20 13 mais de 20 a 30 10 mais de 30 a 40 3 mais de 40 a 50 2 Usando o ponto médio como representativo da classe, determine o valor mais próximo da média amostral do salário mensal. A) 14,5 B) 15,0 C) 15,8 D) 16,1 E) 16,5 Resolução ponto médio da classe f 5 22 15 13 25 10 35 3 45 2 Soma das frequências 50 Média aritmética: 0,15 50 750 50 )245()335()1025()1315()225(x ==×+×+×+×+×= Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 96 GABARITO: B 29. (Estatístico/MI-CENAD/2012/ESAF) Determine o valor mais próximo da mediana do salário mensal da distribuição de frequências apresentada na Questão 28, interpolando linearmente dentro das classes, se necessário. A) 15 B) 14,3 C) 13,7 D) 12,3 E) 7,3 Resolução A frequência acumulada até a mediana é igual a metade da soma das frequências. Para esta questão, a frequência acumulada até a mediana é 25. A tabela a seguir mostra que a frequência acumulada até x = 10 é 22 e que a a frequência acumulada até x = 20 é 35. Logo, a mediana está situada no intervalo (10,20). x f fac mais de 0 a 10 22 22 mais de 10 a 20 13 35 mais de 20 a 30 10 45 mais de 30 a 40 3 48 mais de 40 a 50 2 50 Soma das frequências 50 – A mediana será obtida por meio de uma interpolação linear dentro da classe da mediana (regra de três): (Md – 10) está para (25 – 22) assim como (20 – 10) está para (35 – 22) 2235 1020 2225 10Md − −=− − classe da mediana Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 97 13 10 3 10Md =− 30)10Md(13 =− 3,1213/160Md160Md1330130Md13 ≈=⇒=⇒=− GABARITO: D 30. (Analista/IRB/2005-2006/ESAF) No campo estatístico, ogivas são: A) polígonos de freqüência acumulada. B) polígonos de freqüência acumulada relativa ou percentual. C) histograma de distribuição de freqüência. D) histograma de distribuição de freqüência relativa ou percentual. E) o equivalente à amplitude do intervalo. Resolução Variáveis contínuas podem ser representadas por um polígono de frequências, que é obtido unindo-se os pontos médios dos patamares do histograma. A figura a seguir ilustra o polígono de frequências (linha azul) associado a um dado histograma (linha preta). 10.2 10.3 10.4 10.5 10.6 10.7 10.8 10.9 11 0 1 2 3 4 5 6 7 x f A figura a seguir mostra os gráficos das frequências relativas acumuladas (linha preta) e do polígono de frequências relativas acumuladas ou ogivas percentuais (linha azul) relativos ao histograma anterior. Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 98 10.2 10.3 10.4 10.5 10.6 10.7 10.8 10.9 11 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 x P No campo estatístico, ogivas são polígonos de freqüência acumulada (opção A). Não confunda as ogivas percentuais, que são polígonos de freqüências relativas acumuladas, com as ogivas, que são polígonos de freqüências acumuladas. GABARITO: A 31. (Analista/IRB/2005-2006/ESAF) Histograma e Polígono de freqüência são A) a mesma representação gráfica (idênticas) de uma distribuição de freqüência. B) um texto descritivo e uma representação gráfica de uma distribuição de freqüência. C) um texto descritivo e uma função gráfica de uma distribuição de freqüência. D) duas representações gráficas de uma distribuição de freqüência. E) duas representações gráficas de uma distribuição de freqüência, porém com sentidos opostos. Resolução Histograma é um gráfico que representa as distribuições de frequência, isto é, os dados agrupados em classe, onde cada classe é representada por um retângulo vertical, disposto de forma contígua aos demais. As bases dos Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 99 triângulos correspondem aos limites das classes (limites inferior e superior) e as alturas são as freqüências, absolutas ou relativas, de cada classe. O Polígono de Freqüências corresponde ao gráfico construído pela união dos pontos médios das bases superiores dos retângulos de um histograma. Portanto, histograma e polígono de freqüência são duas representações gráficas de uma distribuição de freqüência. GABARITO: D 32. (Técnico de Defesa Aérea e Controle de Tráfego Aéreo – Área: Estatística/2009/Cesgranrio) As informações contidas nos dois histogramas se referem à distribuição dos salários dos funcionários de uma empresa, segundo a classificação dos funcionários em sênior e master. As estimativas da média salarial do grupo sênior e da mediana salarial do grupo dos master são, em salários mínimos, respectivamente, (A) 14,5 e 17,00 (B) 14,9 e 17,00 (C) 14,9 e 17,25 Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 100 (D) 14,9 e 17,40 (E) 17,2 e 17,25 Resolução Média salarial do grupo sênior: Média = Σ fclasse i.xi em que xi denota o ponto médio da classe i e fclasse i é a frequência relativa da classe i. Média = (0,30 x 13) + (0,50 x 15) + (0,15 x 17) + (0,05 x 19) Média = 3,90 + 7,50 + 2,55 + 0,95 = 14,90 Mediana salarial do grupo master: Note que a frequência acumulada até 16 salários é 25% e que a frequência acumulada até 18 salários é (25% + 40%) = 65%. Logo, a mediana está na classe 16 – 18. A mediana pode ser calculada pela seguinte regra de três: (18 – 16) está para 40% assim como x está para 25% 25,04,0 2 x= ⇒ 25,0 x 4,0 2 = ⇒ 25,1 4 5 20 25 20,0 25,0 40,0 25,02x ====×= Mediana = 16 + 1,25 = 17,25 GABARITO: C Variável X Frequência relativa 0 0,10 1 0,20 2 0,30 3 0,40 Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 101 (SEAD-CPC/2007/Cespe-UnB/Adaptada) Considerando a tabela acima, que apresenta as freqüências relativas de uma variável X, relativa a uma contagem, julgue os itens a seguir. 33. A média de X é inferior a 1,5. Resolução ∑= iipXX , em que pi denota a frequência relativa de Xi. 0,22,16,02,00)40,03()30,02()20,01()10,00(X =+++=×+×+×+×= ⇒ superior a 1,5. Item errado. GABARITO: E 34. A moda e a mediana de X são iguais a 3. Resolução Variável X Frequência relativa Frequência relativa acumulada 0 0,10 0,10 1 0,20 0,30 2 0,30 0,60 3 0,40 1,00 O valor de maior frequência é 3,0 ⇒ moda = 3. A mediana é 2, haja vista que a frequência acumulada até X=1 é 30% e até X=2 é 60%. Item errado. GABARITO: E Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 102 (AFTE-RS/2009/Fundatec) A tabela a seguir representa a distribuição de frequências da idade de uma amostra de moradores de um asilo. Utilize para resolver as questões 35 e 36. Xi fi 70 |-- 74 7 74 |-- 78 19 78 |-- 82 13 82 |-- 86 11 86 |-- 90 6 90 |-- 94 4 Total 60 35. A idade aproximada da mediana é A) 78,22. B) 80,00. C) 79,38. D) 78,55. E) 79,23. Resolução A tabela abaixo mostra que a soma das frequências é 60 e que a frequência acumulada até a idade X = 82 é 39. Sabemos que a frequência acumulada até a mediana é igual a metade da soma das frequências, ou seja, a frequência acumulada até a mediana é igual a 60/2 = 30. Como a frequência acumulada até a idade X = 78 é 26 (menor que 30), temos que a mediana está situada na classe 78 |-- 82. Xi fi fac 70 |-- 74 7 7 74 |-- 78 19 26 78 |-- 82 13 39 82 |-- 86 11 50 86 |-- 90 6 56 90 |-- 94 4 60 Total 60 classe da mediana Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 103 A mediana será obtida por meio de uma interpolação linear dentro da classe da mediana (regra de três): (Md – 78) está para (30 – 26) assim como (82 – 78) está para (39 – 26) 2639 7882 2630 78Md − −=− − 13 4 4 78Md =− 16)78Md(13 =− 23,79Md030.1Md1316014.1Md13 =⇒=⇒=− GABARITO: E 36. O valor da moda pelo método de King é A) 72,8. B) 76,6. C) 80,0. D) 76,0. E) 19,0. Resolução A moda de uma distribuição é o valor que ocorre com a maior frequência. A tabela a seguir mostra que a frequência é máxima na classe modal é 74 |-- 78. Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 104 Xi fi fac 70 |-- 74 7 7 74 |-- 78 19 26 78 |-- 82 13 39 82 |-- 86 11 50 86 |-- 90 6 56 90 |-- 94 4 60 Total 60 Fórmula da moda pelo método de King: 6,766,274 713 13474 fantfpost fposthLMo i =+=⎟⎠ ⎞⎜⎝ ⎛ ++⎟ =⎟⎠ ⎞⎜⎜⎝ ⎛ ++= em que Li = 74 denota o limite inferior da classe modal, fpost = 13 é a frequência da classe posterior à classe modal, fant = 7 é a frequência da classe anterior à classe modal e h = 78 – 74 = 4 é a amplitude da classe modal. Vamos relembrar como a moda é calculada pela fórmula de Czuber? 7,7667,274 612 12474 dd dhLMo 21 1 i ≈+=⎟⎠ ⎞⎜⎝ ⎛ ++⎟ =⎟⎠ ⎞⎜⎜⎝ ⎛ ++= em que d1 = 19 – 7 = 12 é a diferença entre a frequência da classe modal e a da classe imediatamente anterior e d2 = 19 – 13 = 6 é a diferença entre a frequência da classe modal e a da classe imediatamente posterior. Note que os resultados pelos dois métodos são aproximadamente iguais (como era de se esperar!). Ressaltamos que o cálculo da moda deve ser efetuado pela fórmula de Czuber caso a questão da prova não especifique o método a ser utilizado. GABARITO: B classe da moda Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 105 37. (Administrador(a) Júnior Petrobrás/2011/Cesgranrio) No histograma acima, os pontos médios das classes inicial e final são 40 e 80, respectivamente. Sabendo-se que todas as classes têm a mesma amplitude, a estimativa adequada para a média e para a mediana dessa distribuição são, respectivamente, (A) 59,5 e 59,5 (B) 59,5 e 60 (C) 60 e59 (D) 60 e 59,5 (E) 60 e60 Resolução Observe que a amplitude das classes é igual a 10. A tabela a seguir ilustra a distribuição dos dados em classes de frequência. Classe ponto médio (Xi,médio) fi fac 35 |-- 45 40 1 1 45 |-- 55 50 6 7 55 |-- 65 60 10 17 65 |-- 75 70 4 21 75 |-- 85 80 2 23 Total 23 Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 106 Cálculo da média Média = X = Σi (Xi,médio.fi)/Σi fi 60 23 380.1 241061 )280()470()1060()650()140(X ==++++ ×+×+×+×+×= Cálculo da mediana A soma das frequências é 23. Portanto, a frequência acumulada até a mediana é dada por 23/2 = 11,5. Conclui-se que a mediana está na classe 55 |-- 65, haja vista que a frequência acumulada até a classe anterior é 7, menor que 11,5. A mediana (md) é calculada pela seguinte regra de três: (md – 55) está para (11,5 – 7) assim como (65 – 55) está para (17 – 7) 717 5565 75,11 55md − −=− − ⇒ 5,410)55md(10 ×=− ⇒ 5,455md =− ⇒ 5,59md = GABARITO: D 38. (Técnico Adm. Saúde/SEARH-SESAP-RN/2008/Consulplan) A medida de posição mais usada é a média aritmética e a principal desvantagem da média com relação a mediana é: (A) Seu estimador X , ser viciado. (B) Apresentar valor sempre maior que a mediana. (C) Não ser influenciado por todos os valores da amostra. (D) Seu estimador X , ter variância mínima. (E) Ser influenciado por valores extremos. Resolução A média aritmética é influenciada pelos valores extremos da distribuição. Esta é a principal desvantagem da média aritmética com relação à mediana (opção E). Não é correto afirmar que a principal desvantagem da média com relação a mediana é Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 107 “Apresentar valor sempre maior que a mediana.” (opção B) pois a média pode ser menor que a mediana. Também não é correto afirmar que a principal desvantagem da média com relação a mediana é “Não ser influenciado por todos os valores da amostra.” (opção C) porque tanto a média como a mediana são influenciadas por todos os valores da amostra. Por ora, não fique preocupado em entender as afirmativas das opções A e D, pois trata-se de matéria a ser dada nas aulas sobre inferência estatística. GABARITO: E 39. (Técnico Adm. Saúde/SEARH-SESAP-RN/2008/Consulplan) Um estudo buscou localizar o ganho de peso de mulheres grávidas entre o 3o e 8o mês de gestação com acompanhamento pré-natal na rede estadual de saúde, apresentado através do histograma abaixo: Com base no gráfico, calcule a média do ganho de peso das gestantes: (A) 6,0 Kg (B) 6,2 Kg (C) 6,4 Kg (D) 6,6 Kg (E) 6,8 Kg Resolução A tabela a seguir ilustra a distribuição dos dados em classes de frequência. Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 108 Classe ponto médio (Xi,médio) fi fac 3 |-- 5 4 25 25 5 |-- 7 6 40 65 7 |-- 9 8 25 90 9 |-- 11 10 10 100 Total 100 Cálculo da média Média = X = Σi (Xi,médio.fi)/Σi fi 4,6 100 640 10254025 )1010()258()406()254(X ==+++ ×+×+×+×= GABARITO: C 40. (Técnico Adm. Saúde/SEARH-SESAP-RN/2008/Consulplan) Uma certa montadora de automóveis afirma que seu novo modelo tem um consumo médio urbano superior a 14Km/L; foram realizados 100 testes, apresentados na tabela abaixo: Consumo Frequência absoluta [10 – 12) 30 [12 – 14) 20 [14 – 16) 25 [16 – 18) 25 Total Com base nas informações anteriores, assinale a medida de posição que apresenta melhor resultado para a montadora: (A) A média, cujo valor é dado por 14 Km/L. (B) A mediana, cujo valor é dado por 14 Km/L. (C) A moda, cujo valor é dado por 14 Km/L. (D) A média, cujo valor é dado por 13,9 Km/L. (E) A mediana, cujo valor é dado por 13,9 Km/L. Resolução Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 109 A montadora afirma que seu novo modelo tem um consumo médio urbano superior a 14Km/L. Não sabemos, a princípio, qual medida de posição de tendência central foi utilizada na estatística do consumo médio. Será necessário calcular a média, a moda e a mediana para dar a resposta. A tabela a seguir mostra a distribuição dos dados em classes de frequência. Consumo ponto médio (Xi,médio) Frequência absoluta Frequência acumulada [10 – 12) 11 30 30 [12 – 14) 13 20 50 [14 – 16) 15 25 75 [16 – 18) 17 25 100 Total 100 Cálculo da média: Média = X = Σi (Xi,médio.fi)/Σi fi 90,13 100 390.1 25252030 )2517()2515()2013()3011(X ==+++ ×+×+×+×= Km/L Cálculo da mediana: Observe que a frequência acumulada até x = 14 Km/L é 50, sendo este valor igual a metade da soma das frequências das classes. Logo, a mediana é 14 Km/L. Observe que a mediana é superior à média. Por enquanto, a medida de posição que apresenta melhor resultado para a montadora é a mediana. Cálculo da moda: A classe [10 – 12) possui a maior frequência absoluta (=30). Logo, a moda está localizada nesta classe. Não é necessário calcular a moda, pois o extremo superior da classe modal (12 Km/L) é menor do que a média aritmética. Conclui-se que a medida de posição que apresenta melhor resultado para a montadora é a mediana. GABARITO: B (Auxiliar de Estatística – Pref. Caratinga/2005/Consulplan/Adaptada) A Prefeitura Municipal de Caratinga necessitando conhecer o rendimento e efetuar estatísticas, realizou um teste aplicado aos servidores do Departamento de Recursos Humanos. No teste havia 20 (vinte) questões Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 110 objetivas de múltipla escolha, tendo os 20 (vinte) servidores participantes do teste obtido as seguintes pontuações: 04 servidores → 04 acertos 02 servidores → 06 acertos 03 servidores → 08 acertos 04 servidores → 12 acertos 02 servidores → 14 acertos 05 servidores → 17 acertos Com base na situação apresentada, responda as questões 41, 42 e 43. 41. O valor individual mais freqüente da série apresentada é o seguinte número de acertos: (A) 17 (B) 14 (C) 12 (D) 8 (E) 6 Resolução A tabela a seguir mostra que a moda da série é 17, que corresponde ao valor individual mais freqüente da série apresentada. Xi (no de acertos) fi (no de servidores) 4 4 6 2 8 3 12 4 14 2 17 5 Total 20 GABARITO: A 42. A média aritmética da série é igual a: (A) 20 Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 111 (B) 3,05 (C) 10,65 (D) 12 (E) 11 Resolução Cálculo da média: Média = X = Σi Xi.fi / Σi fi 65,10 20 213 524324 )517()214()412()38()26()44(X ==+++++ ×+×+×+×+×+×= Km/L GABARITO: C 43. A amostra utilizada para conhecer o rendimento e efetuar as estatísticas no Departamento de Recursos Humanos da Prefeitura Municipal de Caratinga é igual a quantos elementos? (A) 4 (B) 6 (C) 14 (D) 17 (E) 20 Resolução O enunciado afirma que 20 (vinte) servidores participaram do teste. Logo, a amostra tem 20 elementos. GABARITO: E 44. (Agente Fiscal de Rendas SP/2006/FCC). Considerando as respectivas definições e propriedades relacionadas às medidas de posição e de variabilidade, é correto afirmar: A) Concedendo-se um reajuste de 10% em todos os salários de uma empresa, tem-se também que a respectiva variância fica multiplicada por 1,10. B) Definindo-se coeficiente de variação (CV) como sendo o quociente da divisão do desvio padrão pela respectiva média aritmética (diferente de zero) de uma sequência de valores, tem-se então que CV também poderá ser obtido dividindo a correspondente variância pelo quadrado da média aritmética. Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 112 C) Subtraindo um valor fixo de cada salário dos funcionários de uma empresa, tem-se que o respectivo desvio padrão dos novos valores é igual ao valor do desvio padrão dos valores anteriores. D) Dividindo todos os valores de uma sequência de números estritamente positivos por 4, tem-se que o respectivo desvio padrão fica dividido por 2. E) Em qualquer distribuição de valores em estudo, a diferença entre a mediana e a moda é sempre diferente de zero. Resolução Análise das alternativas: A) Primeiramente, aproveitaremos a oportunidade para demonstrar que a variância é dada pela diferença entre a Média dos Quadrados e o Quadrado da Média. n nxxx2 n 1x n 1)xxx2x( n 1)xx( n 1s 2n 1i i n 1i 2 i n 1i 2 i 2 i n 1i 2 i 2 x +−=+−=−= ∑∑∑∑ ==== 2n 1i i n 1i 2 i 2 n 1i 2 i 22 n 1i 2 i 2 x xn 1x n 1xx n 1xx2x n 1s ⎟⎠ ⎞⎜⎝ ⎛−=−=+−= ∑∑∑∑ ==== ou seja, Variância = Média dos Quadrados – Quadrado da Média Seja ix o salário do i-ésimo empregado. Se é concedido um reajuste de 10% em todos os salários, o salário reajustado do i-ésimo empregado passará a valer ix1,1 e a nova variância 2 x's será 2n 1i i n 1i 2 i 2n 1i i n 1i 2 i 2 x xn 1,1x21,1 n 1x1,1 n 1)x1,1( n 1's ⎟⎠ ⎞⎜⎝ ⎛−⎟⎠ ⎞⎜⎝ ⎛=⎟⎠ ⎞⎜⎝ ⎛−⎟⎠ ⎞⎜⎝ ⎛= ∑∑∑∑ ==== ⎥⎥⎦ ⎤⎢⎢⎣ ⎡ ⎟⎠ ⎞⎜⎝ ⎛−=⎟⎠ ⎞⎜⎝ ⎛−⎟⎠ ⎞⎜⎝ ⎛=⎟⎠ ⎞⎜⎝ ⎛−⎟⎠ ⎞⎜⎝ ⎛= ∑∑∑∑∑∑ ====== 2n 1i i n 1i 2 i 2n 1i i n 1i 2 i 2n 1i i n 1i 2 i 2 x xn 1x n 121,1x n 121,1x n 121,1x n 1,1x n 21,1's 2 x 2 x s21,1's = Note que a nova variância ficará multiplicada pelo quadrado da constante (1,102 = 1,21) ⇒ FALSA. B) O Coeficiente de Variação (CV) é definido como o quociente entre o desvio padrão e a média, sendo frequentemente expresso em porcentagem: Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 113 2 2 x 2 xx x s x s x s)x(cv =⎟⎠ ⎞⎜⎝ ⎛≠= ⇒ FALSA. C) A variância tem, entre outras, as seguintes propriedades: - multiplicando-se todos os valores de uma variável por uma constante, a variância do conjunto fica multiplicada pelo quadrado dessa constante. Seja x a variável de interesse, c um valor constante e y = cx. Então 2x 22 y scs = . - somando-se ou subtraindo-se uma constante a todos os valores de uma variável, a variância não se altera. Seja x a variável de interesse, c um valor constante e y = x + c. Então 2xy 2s s= . Portanto, esta alternativa é VERDADEIRA. D) Dividindo todos os valores de uma série por 4, tem-se que o desvio padrão também ficará dividido por 4 ⇒ FALSA. E) Esta afirmação é verdadeira somente para distribuições assimétricas ⇒ FALSA. GABARITO: C 45. (ICMS-RJ/2009/FGV) Para comparar as rendas de dois grupos de pessoas, A e B, foram preparados diagramas de caixas (box-plots) com os valores observados dos salários, representados na figura a seguir: A respeito desses diagramas, considere as seguintes afirmativas: I. O salário médio dos dois grupos é o mesmo. II. A distribuição dos salários no grupo A é assimétrica à direita. III. Há mais pessoas no grupo A do que no grupo B. Assinale: A) se somente a afirmativa I for verdadeira. Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 114 B) se somente a afirmativa II for verdadeira. C) se somente a afirmativa III for verdadeira. D) se somente as afirmativas I e II forem verdadeiras. E) se somente as afirmativas II e III forem verdadeiras. Resolução ANÁLISE DAS AFIRMATIVAS I- Os diagramas de caixas indicam que as medianas dois grupos A e B são iguais e não as suas respectivas médias ⇒ FALSA. II- A distribuição dos salários no grupo A é assimétrica à direita porque a distância entre o terceiro quartil (Q3) e a mediana (md), ou seja, Q3 � md, é maior do que a distância entre a mediana e o primeiro quartil, dada por md � Q1. ⇒ VERDADEIRA. III- O número de pessoas nos dois grupos é igual, haja vista que as distâncias entre os extremos superior e inferior nas distribuições dois dois grupos é aproximadamente 2.500 (3.100 � 600 = 2.500 para o grupo A e 2.900 � 400). ⇒ FALSA. GABARITO: B 46. (ICMS-RJ/2008/FGV) Uma companhia utiliza um sistema de avaliação de desempenho de seus funcionários por meio de dois indicadores de performance: Qualidade das tarefas e a Tempestividade com que as tarefas são realizadas. Os funcionários receberam, na última avaliação, as medidas indicadas na tabela a seguir: Medidas Indicador Qualidade Tempestividade Média 50 25 Desvio-Padrão 10,0 6,0 Coeficiente de Variação (%) 20 24 Com base na tabela, é correto afirmar que: Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 115 A) a média aritmética não é uma boa medida para representar a performance dos funcionários em face do elevado nível de dispersão das avaliações. B) as avaliações da Qualidade foram mais dispersas do que as avaliações da Tempestividade. C) as avaliações da Qualidade foram mais homogêneas do que as da Tempestividade. D)os funcionários demoram mais para realizar as tarefas, mas a qualidade das tarefas, mas a qualidade das tarefas é melhor. E) nada se pode afirmar sem o conhecimento do tamanho da amostra. Resolução Análise das afirmativas: A) A média aritmética é uma medida de posição de uma distribuição de frequências. Logo, é uma medida válida (“boa”) para caracterizar o desempenho dos funcionários. Além disso, não se pode afirmar que a média não seja uma medida “boa” devido ao elevado nível de dispersão da distribuição. Posição e dispersão são características distintas de uma distribuição de frequências ⇒ ERRADA. B) As medidas de coeficiente de variação ( x/s)x(cv x= ) dizem que é o contrário, ou seja, as avaliações da Tempestividade foram mais dispersas do que as avaliações da Qualidade, pois )qualidade(cv2024)dadetempestivi(cv =>= ⇒ ERRADA. C) As avaliações da Qualidade foram mais homogêneas, ou seja, menos dispersas, do que as da Tempestividade, haja vista que )dadetempestivi(cv2420)qualidade(cv =<= ⇒ CERTA. D) Qualidade e Tempestividade são variáveis distintas; logo, essa comparação não faz sentido (não podemos comparar “banana” com “laranja”). A qualidade das tarefas é melhor em relação a quê? Os funcionários demoram mais para realizar as tarefas em relação a qual métrica de comparação? ⇒ ERRADA. E) Está implícito que a companhia avaliou todos os seus funcionários. Logo, as medidas referem-se à população dos funcionários. As medidas tabeladas não são estimativas de parâmetros da população, mas sim os verdadeiros valores de média, desvio-padrão e coeficiente de variação das variáveis Qualidade e Tempestividade ⇒ ERRADA. GABARITO: C 47. (ICMS-RJ/2007/FGV) Considere as informações contidas no Box Plot abaixo, referente aos salários dos engenheiros de uma empresa, por sexo. Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 116 É correto afirmar que: A) o salário médio dos homens é igual ao das mulheres. B) a distribuição dos salários das mulheres é assimétrica negativa. C) o desvio interquartílico dos salários das mulheres é maior do que o dos homens. D) a distribuição dos salários dos homens é atípica. E) o salário mediano das mulheres é superior ao dos homens. Resolução Análise das afirmativas: A) Os diagramas de caixa indicam que as medianas dos salários, e não os salários médios, são iguais, com um valor aproximado de R$ 3.700 ⇒ ERRADA. B) A distribuição dos salários das mulheres é assimétrica positiva, pois é alongada à direita (a distância entre o quartil superior e a mediana é maior do que distância entre o quartil inferior e a mediana) ⇒ ERRADA. C) O desvio interquartílico dos salários das mulheres é aproximadamente igual a 4.400 � 3.400 = 1.000. O desvio interquartílico dos salários dos homens é aproximadamente igual a 3.900 � 3.300 = 600. Logo a afirmativa está CERTA. D) O enunciado não fornece dados para se fazer este tipo de conclusão. Qual seria a distribuição dos salários dos homens típica? ⇒ ERRADA. Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 117 E) O salário mediano das mulheres é igual ao dos homens ⇒ ERRADA. GABARITO: C 48. (AFRF/2001/ESAF) Numa amostra de tamanho 20 de uma população de contas a receber, representadas genericamente por X, foram determinadas a média amostral M = 100 e o desvio-padrão s = 13 da variável transformada (X � 200)/5. Assinale a opção que dá o coeficiente de variação amostral de X: A) 3,0% B) 9,3% C) 17,0% D) 17,3% E) 10,0% Resolução Chamemos a variável transformada de Y, dada pela relação Y = (X – 200)/5 Logo, X = 5Y + 200 A média de Y é 100, ou seja, M = Y = 100. Calculemos a média de X. Por conveniência, denotemos a média de X por E(X) (= X ) e a média de Y por E(Y) (= Y ), em que E representa o operador média aritmética. As seguintes propriedades são válidas para a média: • E(X+Y) = E(X) + E(Y) ⇒ a média da soma é igual a soma das médias (propriedade de linearidade da média); • E(5Y) = 5.E(Y) ⇒ a média de uma variável multiplicada por uma constante é igual a média da variável multiplicada pela constante; e • E(200) = 200 ⇒ a média de uma constante dada é igual a própria constante. Apliquemos as propriedades dadas acima para calcular a média de X: E(X) = E(5Y + 200) = E(5Y) + E(200) = 5E(Y) + 200 = (5 x 100) + 200 = 700 Seja a variável W = 5Y. As seguintes propriedades são válidas para a variância: Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 118 • Var(5Y) = 52.Var(Y) = 25.Var(Y) ⇒ a variância de uma variável multiplicada por uma constante é igual a variância da variável multiplicada pelo quadrado da constante; e • Var(W + 200) = Var(W) ⇒ a variância de uma variável somada a uma constante é igual a variância da variável. Calculemos a variância de X: Var(X) = Var(5Y + 200) = Var(5Y) = 25.Var(Y) Sabemos que o desvio padrão (S) corresponde à raiz quadrada positiva da variância. Então Sx = [25.Var(Y)]1/2 = 5.Sy = 5 x 13 = 65 Agora podemos calcular o coeficiente de variação: CVx = Sx/ X = 65/700 = 0,093 = 9,3% GABARITO: B (AFRF/2002/ESAF/Adaptada) Em um ensaio para o estudo da distribuição de um atributo financeiro (X) foram examinados 200 itens de natureza contábil do balanço de uma empresa. Esse exercício produziu a tabela de freqüências abaixo. A coluna Classes representa intervalos de valores de X em reais e a coluna P representa a freqüência relativa acumulada. Não existem observações coincidentes com os extremos das classes. As próximas três questões referem-se a esses ensaios. Classes P (%) 70-90 5 90-110 15 110-130 40 130-150 70 150-170 85 170-190 95 190-210 100 49. Seja S o desvio padrão do atributo X. Assinale a opção que corresponde à medida de assimetria de X como definida pelo primeiro coeficiente de Pearson. A) 3/S B) 4/S Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 119 C) 5/S D) 6/S E) 0 Resolução A questão aborda o cálculo do índice de assimetria de Pearson, dado por . S mXA x 0 ⎟⎜ −= Inicialmente, temos que calcular a moda mo. Como a questão não especificou o método de cálculo, se de Czuber ou de King, devemos usar a fórmula de Czuber: ⎞ ⎟⎠⎜⎝ ⎛ +×+= 21 1 i0 dd dhLm em que: - iL é o limite inferior da classe modal, - 1d é a diferença entre a freqüência da classe modal e a da classe imediatamente anterior, - 2d é a diferença entre a freqüência da classe modal e a da classe imediatamente seguinte e - h é a amplitude das classes. Considere a tabela a seguir, em que a classe modal está destacada em azul. Classes P (%) frequência Relativa acumulada p(%) frequência relativa f frequência 70 � 90 5 5 = 5% x 200 = 10 90 � 110 15 = 15 – 5 = 10 = 10% x 200 =20 110 � 130 40 = 40 – 15 = 25 = 25% x 200 =50 130 � 150 70 = 70 – 40 = 30 = 30% x 200 =60 150 � 170 85 = 85 – 70 = 15 = 15% x 200 =30 170 � 190 95 = 95 – 85 = 10 = 10% x 200 =20 190 � 210 100 = 100 – 95 = 5 = 5% x 200 =10 Soma 200 Temos que, 130Li = , 105060d1 =−= , 303060d2 =−= e 20130150h =−= . Logo, Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 120 .135513025,020130 3010 1020130m0 =+=×+=⎟⎠ ⎞⎜⎝ ⎛ +×+= Se k valores distintos k21 X,...,X,X ocorrem com as freqüências relativas k21 p,...,p,p , respectivamente, a média será ∑ = = k 1j jjpXX em que pj denota a j-ésima frequência relativa. Quando os dados são apresentados em uma distribuição de freqüências, todos os valores incluídos num certo intervalo de classe são considerados coincidentes com o ponto médio do intervalo. As fórmula acima será válida para esses dados agrupados quando se interpretar jX como o ponto médio e jp como a frequência relativa. Classes ponto médio da classe Xj pj Xj.pj 70 � 90 80 0,05 4 90 � 110 100 0,10 10 110 � 130 120 0,25 30 130 � 150 140 0,30 42 150 � 170 160 0,15 24 170 � 190 180 0,10 18 190 � 210 200 0,05 10 Soma 1,00 138 Logo, 77665544332211 k 1j jj pXpXpXpXpXpXpXpXX ++++++== ∑ = )05,0200()10,0180()15,0160()30,0140()25,0120()10,0100()05,080(X ×+×+×+×+×+×+×= 1381018244230104X =++++++= Finalmente, . S 3 S 135138 S mXA x 0 =−=−= GABARITO: A Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 121 50. Considere a transformação Z=(X-140)/10. Para o atributo Z encontrou-se ∑ = = 7 1i 2 ii 680.1fZ , onde fi é a freqüência simples da classe i e Zi o ponto médio de classe transformado. Assinale a opção que dá a variância amostral do atributo X. A) 720,00 B) 840,20 C) 900,10 D) 1200,15 E) 560,30 Resolução A questão cobra o cálculo da variância amostral de X, denotada por 2XS)X(Var = . A relação existente X e Z é dada pela fórmula 10/)140X(Z −= ou 140Z10X += . Portanto, a variância de X é dada por (lembre das propriedades da variância): )Z(Var100)Z10(Var)140Z10(Var)X(Var ==+= O valor de Var(X) é 100 vezes o valor de Var(Z). Será necessário calcular a variância amostral de Z, definida como ∑ = −⎟⎠ ⎞⎜⎝ ⎛ −= k 1i 2 ii 2 Z )ZZ(f1n 1S em que Z representa a média de Z. Você reparou que a definição da variância amostral trabalha com o fator 1/(n–1), em lugar de 1/n? Por ora, pedimos que você simplesmente aceite a definição acima, sem se preocupar em entender porque é necessário considerar o fator 1/(n– 1). Mas garantimos que isto ficará claro nas aulas de inferência estatística. Espere até lá! Vamos desenvolver a expressão que define a variância amostral de Z? ( )∑∑ == +−−=−−=⇒ k 1i 2 i 2 ii k 1i 2 ii 2 Z ZZZ2Zf1n 1)ZZ(f 1n 1S em que foi usada a igualdade 2i 2 i 2 i ZZZ2Z)ZZ( +−=− , ( ) ( ) ( ) ( )⎥⎦⎤⎢⎣⎡ +−−=+−−=⇒ ∑ ∑∑∑ = === k 1i k 1i 2 i k 1i ii 2 ii k 1i 2 iii 2 ii 2 Z ZfZZ2fZf1n 1ZfZZ2fZf 1n 1S Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 122 ( ) ( ) ⎥⎦⎤⎢⎣⎡ +−−=⇒ ∑ ∑∑= == k 1i k 1i i 2 k 1i ii 2 ii 2 Z fZZfZ2Zf1n 1S em que foram usadas as seguintes simplificações: - ∑∑ == = k 1i ii k 1i ii ZfZ2ZZ2f , pois Z2 é um número; logo pode ser colocado em evidência; e - ( ) ∑∑ == = k 1i i 2 k 1i 2 i fZZf , pois 2Z é um número; logo pode ser colocado em evidência. ⎤⎥⎦⎢⎣ ⎡ −−=⎥⎦ ⎤⎢⎣ ⎡ +−−=⎥⎦ ⎤⎢⎣ ⎡ +−−=⇒ ∑∑∑ === k 1i 22 ii k 1i 222 ii k 1i 22 ii 2 Z nZZf1n 1nZnZ2Zf 1n 1nZZnZ2Zf 1n 1S em que usamos a igualdade ( )∑ = = k 1i ii ZnZf 2 k 1i 2 ii 2 Z Z1n nZf 1n 1S ⎟⎠ ⎞⎜⎝ ⎛ −−⎟⎠ ⎞⎜⎝ ⎛ −=⇒ ∑= ou Variância Amostral de Z = Soma dos Quadrados/(n–1) – Média de Z ao Quadrado corrigida pelo fator n/(n–1) Nota: a fórmula da variância amostral é importante para a sua prova. Observe que o enunciado já forneceu o valor da soma de quadrados de Z ( 680.1fZ2 =∑ ). Só falta calcular a média de Z ( Z= ), representada a seguir por )Z(E , por ser mais conveniente ao desenvolvimento: ( )[ ] ( )[ ] 10 140X140XE 10 1)140(EXE 10 1)140X(E 10 1 10 140XE)Z(E −=−=−=−=⎟⎠ ⎞⎜⎝ ⎛ −=⇒ onde )X(EX = , .20,0 10 140138Z)Z(E −=−==⇒ Logo, ( ) 402,8040,0005,1442,820,0 199 200 199 680.1Z 1n nZf 1n 1S 22 k 1i 2 ii 2 Z =×−=−×⎟⎠ ⎞⎜⎝ ⎛−=⎟⎠ ⎞⎜⎝ ⎛ −−⎟⎠ ⎞⎜⎝ ⎛ −=⇒ ∑= Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 123 Finalmente, 20,840402,8100S100S 2Z 2 X =×=×=⇒ GABARITO: B 51. Entende-se por curtose de uma distribuição seu grau de achatamento, em geral medido em relação à distribuição normal. Uma medida de curtose é dada pelo quociente 1090 PP Qk −= onde Q é a metade da distância interquartílica e P90 e P10 representam os percentis de 90% e 10%, respectivamente. Assinale a opção que dá o valor da curtose k para a distribuição de X. A) 0,263 B) 0,250 C) 0,300 D) 0,242 E) 0,000 Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 124 Resolução Considere a tabela a seguir: Classes P (%) f F 70-90 5 10 10 90-110 15 20 30 ⇒ n/10 = 20 < F = 30 ⇒ Classe do Primeiro Decil (D1)ou Percentil de 10% (P10) 110-130 40 50 80 ⇒ n/4 = 50 < F = 80 ⇒ Classe do Primeiro Quartil (Q1) ou Percentil de 25% (P25) 130-150 70 60 140 150-170 85 30 170 ⇒ (3n)/4 = 150 < F = 170 ⇒ Classe do Terceiro Quartil (Q3) ou Percentil de 75% (P75) 170-190 95 20 190 ⇒ (9n)/10 = 180 < F = 190 ⇒ Classe do Nono Decil (D9) ou Percentil de 90% (P90) 190-210 100 10 200 O Terceiro Quartil (Q3) é obtido pela seguinte interpolação linear (ou regra de três): (170 – 150) está para (85% – 70%) assim como Δ está para (75% – 70%) ou 5 1520 ↔Δ ↔ Multiplicando em “xis” a regra de três acima, obtemos 15 x Δ = 20 x 5 Δ = 20/3 ≅ 6,67 Portanto, Q3 = 150 + Δ = 150 + 6,67 = 156,67. O Primeiro Quartil (Q1) é obtido pela seguinte interpolação linear: Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 125 (130 – 110) está para (40% – 15%) assim como Δ está para (25% – 15%) ou 10 2520 ↔Δ ↔ Multiplicando em “xis” a regra de três acima, obtemos 25 x Δ = 20 x 10 Δ = 200/25 = 8,00 Logo, Q1 = 110,00 + 8,00 = 118,00. O Percentil de 90% (P90) é obtido pela seguinte interpolação linear: (190 – 170) está para (95% – 85%) assim como Δ está para (90% – 85%) ou 5 1020 ↔Δ ↔ Multiplicando em “xis” a regra de três acima, obtemos 10 x Δ = 20 x 5 Δ = 10 Logo, P90 = 170,00 + 10,00 = 180,00. O Percentil de 10% (P10) é obtido pela seguinte interpolação linear: (110 – 90) está para (15% – 5%) assim como Δ está para (10% –5%) Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 126 ou 5 1020 ↔Δ ↔ Multiplicando em “xis” a regra de três acima, obtemos 10 x Δ = 20 x 5 Δ = 10 Logo, P10 = 90,00 + 10,00 = 100,00. Cálculo da Curtose: 34,192/67,382/)00,11867,156(2/)QQ(Q 13 ==−=−= 242,0 00,80 34,19 00,10000,180 34,19 PP Qk 1090 ==−=−= Curtose = 0,242 Nota: você também pode resolver este tipo de questão por meio da aplicação das fórmulas. Vimos que a mediana é dada por md md a i hf F)2/n(Lmd ×⎥⎦ ⎤⎢⎣ ⎡ −+= A fórmula acima pode ser generalizada para os quantis, como descrito a seguir. Terceiro Quartil: 67,15620 30 140150150h f F)4/n3(LQ i i a i3 ≈×⎟⎠ ⎞⎜⎝ ⎛ −+=×⎥⎦ ⎤⎢⎣ ⎡ −+= Primeiro Quartil: 00,11820 50 3050110h f F)4/n(LQ i i a i1 =×⎟⎠ ⎞⎜⎝ ⎛ −+=×⎥⎦ ⎤⎢⎣ ⎡ −+= Metade da distância interquartílica: 34,192/)11867,156(2/)QQ(Q 13 =−=−= Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 127 Nono Decil: 00,18020 20 170180170h f F)10/n9(LD i i a i9 =×⎟⎠ ⎞⎜⎝ ⎛ −+=×⎥⎦ ⎤⎢⎣ ⎡ −+= Primeiro Decil: 00,10020 20 102090h f F)10/n(LD i i a i1 =×⎟⎠ ⎞⎜⎝ ⎛ −+=×⎥⎦ ⎤⎢⎣ ⎡ −+= Foram obtidos os mesmos resultados para os quantis, como já era esperado. GABARITO: D 52. (Analista do BACEN/2006/FCC) A média aritmética dos valores das vendas diárias realizadas pelas 50 empresas do Setor A é de R$ 1.000,00, com desvio padrão de R$ 100,00. Sabe-se ainda que a média aritmética dos valores das vendas diárias realizadas pelas 200 empresas do Setor B é de R$ 2.000,00, com desvio padrão de R$ 200,00. A variância em (R$)2 dos valores das vendas diárias realizadas pelos dois setores reunidos é A) 34.000,00 B) 50.000,00 C) 194.000,00 D) 207.500,00 E) 288.000,00 Resolução A questão cobra o cálculo da “variância em (R$)2 dos valores das vendas diárias realizadas pelos dois setores reunidos”, ou seja, a variância da população conjunta }b,...,b,b,a,...,a,a{BA BA N21N21 =+ . A Variância da população conjunta A+B é dada por 2 BABA 2 BA 2 2 BA NN BA NN B NN A S)BA(Var ⎥⎦ ⎤⎢⎣ ⎡ + +−+++==+ ∑ ∑∑∑ + . Fazendo N = NA + NB, obtemos Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 128 222 2 BA N BA N B N A S ⎟⎟⎠ ⎞⎜⎜⎝ ⎛ +−+= ∑∑∑∑+ . em que N = NA + NB = 50 + 200 = 250. ⇒ Variância(A+B) = Média dos Quadrados de A + Média dos Quadrados de B – Quadrado da Média de A+B A variância 2 BAS + será calculada uma vez conhecidos os valores dos somatórios ∑ 2A , ∑ 2B , ∑A e ∑B . Os somatórios ∑A e ∑B serão calculados em função das médias aritméticas A e B , respectivamente. Os somatórios ∑ 2A , ∑ 2B serão determinados em função de ( 2AS , A ) e ( 2BS , B ), respectivamente. A fim de facilitar as contas, cortaremos três zeros dos dados fornecidos: 1000.1/000.1A == 1,0000.1/100SA == 2000.1/000.2B == 2,0000.1/200SB == ∑= A501A ⇒ 5050150AA =×=×=∑ ∑= B2001B ⇒ 400200BB =×=∑ 222 A AA50 1S −= ∑ ⇒ 5,50]101,0[50]11,0[50)AS(50A 2222A2 =+×=+×=+×=∑ 222 B BB200 1S −= ∑ ⇒ 808]404,0[200]22,0[200)BS(200B 2222B2 =+×=+×=+×=∑ ⎟ =⎟⎠ ⎞⎜⎜⎝ ⎛ +−+= ∑∑∑∑+ 2 222 BA N BA B N 1A N 1S 1940,024,34340,38,12320,32020,0 250 40050 250 808 250 5,50 2 2 =−=−+=⎟⎠ ⎞⎜⎝ ⎛ +−+= Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 129 Para dar a resposta final, devemos multiplicar a variância (= quadrado do desvio padrão) obtida acima por (1.000)2, haja vista que as médias e desvios padrão foram divididas por 1.000: 000.1941019410100,194)10(100,194000.11940,0S 36323322 BA =×=××=××=×= −−+ ⇒ A variância em (R$)2 dos valores das vendas diárias realizadas pelos dois setores reunidos é 194.000. GABARITO: C 53. (ICMS-RJ/2010/FGV) A média, a mediana e a variância das idades de um grupo de vinte pessoas são, hoje, iguais, respectivamente, a 34, 35 e 24. Daqui a dez anos, os valores da média, da mediana e da variância das idades dessas pessoas serão, respectivamente: A) 44, 35 e 34 B) 44, 45 e 12 C) 44, 45 e 24 D) 34, 35 e 12 E) 44, 45 e 124 Resolução Está implícito que todas as pessoas do grupo estarão vivas daqui a dez anos. A dispersão da distribuição de frequências (das idades) não mudará com o envelhecimento das pessoas do grupo (ou seja, a forma da distribuição se mantém ao longo do tempo). Logo, a variância daqui a dez anos ainda será igual a 24. A única opção com este valor é a C. Daqui a dez anos, a média e a mediana serão acrescidas de 10 unidades (anos), haja vista que a distribuição de frequências sofrerá um deslocamento para a direita de 10 unidades. Assim, a média e a mediana serão iguais a 44 e 45, respectivamente. GABARITO: C Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 130 54. (AFPS/2002/ESAF) O diagrama de ramos e folhas abaixo corresponde às observações (82, ..., 158) do atributo X. Assinale a opção que dá o valor mediano de X 8 | 2 8 | 9 | 003 9 | 9 10| 0011222344 10| 577777 11| 013 11| 55679 12| 00114 12| 5557 13| 004 13| 5556 14| 03 14| 5 15| 15| 8 A) 105 B) 110 C) 104 D) 107 E) 115 Resolução Não existe uma regra fixa para construir o diagrama de ramo-e-folhas, mas a idéia básica é dividir cada observação em duas partes: a primeira (o ramo) é colocada à esquerda de uma linha vertical, a segunda (a folha) é colocada à direita. Assim, para os valores 90 e 93, o 9 é o ramo e 0 e 3 são as folhas. Na tabela a seguir, fi denota a frequência e Fi é a freqüência acumulada das observações: Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 131 Ramos Folhas fi Fi 8 2 1 1 8 0 1 9 003 3 4 9 9 1 5 10 0011222344 10 15 10 577777 6 21 11 013 3 24 11 55679 5 29 12 00114 5 34 12 5557 4 38 13 004 3 41 13 5556 4 45 14 03 2 47 14 5 1 48 15 0 48 15 8 1 49 A tabela acima mostra que foram acumuladas 24 observações até a última folha do sétimo ramo. Note que há 49 observações no total e que a mediana corresponde à 1ª folha do oitavo ramo, cujo valor é 115. GABARITO: E (Analista de Estatística/Perito/MPU/2010/CESPE) Considere que um perito tenha efetuado um estudo acerca do tempo gasto — X —, em meses, por empresas notificadas para quitar suas pendências com a Previdência Social. Uma amostra de 35 empresas notificadas com pendências foi selecionada de um banco de dados da Previdência. A partir dessa amostra, o perito fez uma análise exploratória da variável X, cujos resultados são apresentados a seguir. Estatísticas Descritivas: tempo mínimo = 2 meses tempo máximo = 128 meses ∑ = = 35 1i i ;1027x ∑ = = 35 1i 2 i ;66317x 11,30135x35 1 235 1i i =⎟⎠ ⎞⎜⎝ ⎛∑ = Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 132 Nesse estudo, o perito efetuou avaliações acerca do número de irregularidades – Y – que geraram pendências em função do porte das empresas: com menos de 20 empregados e com 20 ou mais empregados. Os resultados foram os seguintes. tamanho da empresa y s n < 20 empregados 6,8 1,7 15 ≥ 20 empregados 2,6 1,3 20 Com base nessas informações julgue os itens de 55 a 60. 55. O diagrama de caixas, conhecido como boxplot, indica que a distribuição de X é assimétrica. Portanto, o número de observações acima do segundo quartil (Q2) foi proporcionalmente superior ao número de observações abaixo de Q2. Resolução É correto afirmar que o boxplot indica que a distribuição de X é assimétrica, pois a distribuição tem cauda levemente alongada para a direita (note que a distância entre o quartil superior e a mediana é maior que a distância entre o Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 133 quartil inferior e a mediana). Mas é incorreto dizer que o número de observações acima do segundo quartil (mediana) foi proporcionalmente superior ao número de observações abaixo da mediana, haja vista que a mediana divide o conjunto ordenado de dados em dois subconjuntos com igual número de elementos. Portanto, o item está errado. GABARITO: E 56. O tempo mediano da variável X foi aproximadamente igual a 29,34 meses. Resolução Rol: {2 3 4 4 6 6 6 6 6 6 7 10 11 12 12 14 15 17 17 20 20 23 25 25 27 34 35 49 57 62 68 88 92 110 128} O rol acima possui 35 amostras em ordem crescente. A mediana é o valor que ocupa a 18ª posição, a saber, o valor 17. Uma rápida inspeção do box plot confirma que o valor da mediana é inferior a 20. Item errado. GABARITO: E 57. No diagrama de caixas, quatro observações foram identificadas como valores atípicos por estarem fora do intervalo [0; 77,25]. Resolução Uma rápida inspeção do box plot sugere que os valores 88, 92, 110 e 128 (vide diagrama de ramo e folhas) são outliers. Item Certo. Resolvemos mais detalhadamente a seguir. Rol: {2 3 4 4 6 6 6 6 6 6 7 10 11 12 12 14 15 17 17 20 20 23 25 25 27 34 35 49 57 62 68 88 92 110 128} Q1 (primeiro quartil) = 6 (ocupa a 9ª posição do rol) Q3 (terceiro quartil) = 35 (ocupa a 27ª posição do rol) Logo, o desvio interquartílico (IQR) é dado por IQR = Q3 – Q1 = 35 – 6 = 29 E o Limite Superior (LS) do diagrama será LS = Q3 + (1,5 x IQR) = 35 + 1,5 x 29 = 35 + 43,5 = 78,5 Contudo, a banca trabalhou com LS = 77,25, valor diferente do calculado acima. Qual é a provável causa dessa discrepância? Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 134 Vamos supor a banca tenha adotado Q3= (34 + 35)/2 = 34,5. Neste caso, IQR = Q3 – Q1 = 34,5 - 6 = 28,5 ⇒ 28,5 x 1,5 = 42,75 ⇒ LS = 42,75 + 34,5 = 77,25. Foi daí que saiu o valor 77,25 citado no item. Mas isso não quer dizer que eu concorde com o raciocínio da banca. A questão não foi anulada. GABARITO: C 58. O diagrama apresentado a seguir é o resumo dos 5 números para a distribuição de X. 17 6 34,5 2 128 Resolução O diagrama com o resumo dos 5 números tem a seguinte interpretação: 17 (mediana) 6 (quartil inferior) 34,5 (quartil superior) 2 (mínimo amostral) 128 (máximo amostral) Os diagramas de caixas e de ramo e folhas confirmam que os dados relacionados acima estão corretos. GABARITO: C 59. Nessa situação, a variabilidade do número de irregularidades nas empresas com menos de 20 empregados corresponde à metade da variabilidade do número de irregularidades nas empresas com 20 ou mais empregados. Resolução Considere que o número de irregularidades nas empresas com menos de 20 empregados seja representado pela variável A e o número de irregularidades nas empresas com 20 ou mais empregados pela variável B. A comparação entre as variabilidades (dispersões) das distribuições de A e B deve ser feita em termos relativos. Para tal, deve-se usar o coeficiente de variação (CV), que é definido como a razão entre o desvio padrão e a média. Esta medida de dispersão caracteriza o espalhamento dos valores da distribuição em termos relativos ao seu valor médio (*). Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 135 CV(A) = SA/MédiaA = 1,7/6,8 = 1/4 = 0,25 CV(B) = SB/MédiaB = 1,3/2,6 = 1/2 = 0,50 ⇒ CV(A) = CV(B)/2 (item correto!) (*) Não faz sentido comparar objetos diferentes (por exemplo, banana com laranja), utilizando uma medida absoluta como o desvio padrão. É por isso que é necessário trabalhar com um adimensional como o coeficiente de variação. GABARITO: C 60. O desvio padrão amostral de X foi inferior a 31 meses. Resolução Variância = Média dos Quadrados – Quadrado da Média Como o valor de n=35 é “grande”, usaremos a fórmula aproximada ∑ ∑ ⎟⎠⎞⎜⎝⎛−= 2 22 x n 1x n 1S QUADRADO DA MÉDIA: ( ) ( ) 11,135.30 35 1x n 1 n 1x n 1x n 1 22 2 2 ×=⎥⎦ ⎤⎢⎣ ⎡×==⎟⎠ ⎞⎜⎝ ⎛ ∑∑∑ MÉDIA DOS QUADRADOS: 317.66 35 1x n 1 2 ×=∑ VARIÂNCIA: 77,033.1 35 09,181.36 35 11,135.30 35 317.66S2 ==−= ⇒ 15,3277,033.1s ≈= O desvio padrão é superior a 31 meses. GABARITO: E (Analista Judiciário/TST/2007/Cespe-UnB/Adaptada) Considere que, em um ambiente de trabalho industrial, as seguintes medições acerca da Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 136 poluição do ar tenham sido observadas: 1, 6, 4, 3, 2, 3, 1, 5, 1, 4. Nessas situação, julgue os itens que se seguem. 61. A mediana da amostra é igual a 2,5. Resolução Rol: 1, 1, 1, 2, 3, 3, 4, 4, 5, 6 (N = 10 medições) N = 10 é par. Então mediana = média aritmética entre as 5a e 6a medições do rol mediana = (3+3)/2 = 3 GABARITO: E 62. As médias harmônica e geométrica são ambas inferiores a 3. Resolução Fórmulas: Média geométrica: n/1 n 1i i n n21g xx...x.xx ⎟⎟⎠ ⎞⎜⎜⎝ ⎛== ∏ = Média harmônica: ∑ = = +++ = n 1i in21 h x 1 n x 1... x 1 x 1 nx Média geométrica: ( ) 1010/110/1n n21g 864086406544332111x...x.xx ==×××××××××== E agora, como fazer a conta acima? Como você poderia efetuar a raiz décima de 8640 em uma situação real de prova? Nós faríamos uma conta aproximada, como números inteiros. Quer ver? Quanto dá 310? 310 = 33 x 33 x 33 x 3 = 27 x 27 x 27 x 3 = 19683 x 3 > 8640 Logo, 38640x 10g <= Média harmônica: Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 137 32 151 300 30 613 10 6 1 5 1 4 1 4 1 3 1 3 1 2 1 1 1 1 1 1 1 10 x 1... x 1 x 1 nx n21 h <≈=+ = +++++++++ = +++ = GABARITO: C 63. O terceiro quartil é igual a 3. Resolução Rol: 1, 1, 1, 2, 3, 3, 4, 4, 5, 6 (N = 10 medições) O terceiro quartil é a mediana da sub-série 3, 4, 4, 5, 6 ⇒ Q3 = 4 GABARITO: E 64. A variância amostral é superior a 2,8. Resolução Variância Amostral = 2 i 2 i x1n nx 1n 1 −−⎟⎠ ⎞⎜⎝ ⎛ − ∑ Média dos Quadrados de uma amostra: 1183625161699436544332111x 2222222222 i 2 i =+++++++=+++++++++=∑ 1,13 9 118x 1n 1 i 2 i ≈=− ∑ Observe que a fórmula da média dos quadrados leva em conta o fator 1/(n–1) em lugar de 1/n porque trata-se da variância de uma amostra. Quadrado da Média de uma amostra: 3 10 30 10 6544332111x ==+++++++++= ⇒ 9x2 = ⇒ 109 9 10x 1n n 2 =×=⎟⎠ ⎞⎜⎝ ⎛ − Variância amostral= 13,1 – 10 = 3,1 > 2,8 ⇒ item certo. Nota: calculemos a variância da população: 118x i 2 i =∑ ⇒ 8,1110118xn1 i 2i ==∑ Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 138 Média dos quadrados = 11,8 Quadrado da média = 9 Variância = média dos quadrados – quadrado da média = 11,8 – 9 = 2,8 ⇒ você julgaria que o item é errado pela conta aproximada. Neste caso, o erro de aproximação é (3,1 – 2,8) = 0,3, correspondente a aproximadamente 10% do valor da variância amostral (significativo!). O erro percentual da conta aproximada é grande porque o número de amostras (n=10) é “pequeno”. GABARITO: C Variável X Frequência relativa 0 0,10 1 0,20 2 0,30 3 0,40 (SEAD-CPC/2007/Cespe-UnB/Adaptada) Considerando a tabela acima, que apresenta as freqüências relativas de uma variável X, relativa a uma contagem, julgue os itens a seguir. 65. A média de X é inferior a 1,5. Resolução ∑= iipXX , em que pi denota a frequência relativa de Xi. 0,22,16,02,00)40,03()30,02()20,01()10,00(X =+++=×+×+×+×= ⇒ inferior a 1,5. Item certo. ∑ − GABARITO: E 66. O desvio-padrão de X é inferior a 1,5. Resolução = 22 ii2x XpXS = média dos quadrados – quadrado da média [ ] 0,146,32,12,002)40,03()30,02()20,01()10,00(S 222222x =−+++=−×+×+×+×= 0,1S2xx ==σ ⇒ item certo. Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 139 GABARITO: C 67. A moda e a mediana de X são iguais a 3. Resolução Variável X Frequência relativa Frequência relativa acumulada 0 0,10 0,10 1 0,20 0,30 2 0,30 0,60 3 0,40 1,00 O valor de maior frequência é 3,0 ⇒ moda = 3. A mediana é 2, haja vista que a frequência acumulada até X=1 é 30% e até X=2 é 60%. Item errado. GABARITO: E 68. O coeficiente de variação de X é superior a 1. Resolução 5,0 2 1 X SCV xx === ⇒ inferior a 1. Item errado. GABARITO: E 69. (Analista/IRB/2005-2006/ESAF) O grau ao qual os dados numéricos tendem a dispersar-se em torno de um valor médio chama-se A) média. B) variação ou dispersão dos dados. C) mediana. D) correlação ou dispersão. E) moda. Resolução Pacote de Teoria e Exercícios para Analista do BACEN – Área 2 Estatística – Prof. Alexandre Lima Prof. Alexandre Lima www.pontodosconcursos.com.br 140 As medidas de dispersão de uma distribuição de frequências (amplitude, variância, desvio padrão e coeficiente de variação) têm como finalidade indicar o quanto os dados se apresentam dispersos em torno da região central da distribuição. As medidas de posição servem para localizar a distribuição de frequências sobre o eixo de variação da variável em questão. A média e a mediana indicam, por critérios diferentes, o centro da distribuição de frequências. É por isso que também costuma-se dizer que são medidas de tendência central. A moda, por sua vez, indica a região de maior concentração de frequências na distribuição. A melhor reposta para a questão é a alternativa B: “O grau ao qual os dados numéricos tendem a dispersar-se em torno de um valor médio chama-se variação ou dispersão dos dados.” GABARITO: B Abraços e até a próxima aula, Bons estudos, Alexandre Lima alexandre@pontodosconcursos.com.br