Esta é uma pré-visualização de arquivo. Entre para ver o arquivo original
I In ns st ti i t tu ut to o d de e E En ns s i in no o J Jo os sé é R Ro od dr ri ig g u ue es s d da a S Si i l lv va a Autorizado Pelo Parecer nº. 1144/002 – CEE/RJ INTRODUÇÃO À ESTATÍSTICA 2 Sumário 1 Apresentação.......................................................................................................................4 2 A Estatística.........................................................................................................................5 3 População e Amostra...........................................................................................................5 4 Estatística Descritiva e Indutiva ...........................................................................................6 5 Tipos de Variáveis ...............................................................................................................6 5.1 Exercícios:....................................................................................................................7 6 Amostragem ........................................................................................................................7 6.1 Exercícios:....................................................................................................................8 7 Técnicas de descrição gráfica..............................................................................................9 7.1 Tabelas.........................................................................................................................9 7.2 Gráficos........................................................................................................................9 7.2.1 Diagramas.............................................................................................................9 7.2.2 Cartogramas........................................................................................................11 7.2.3 Pictogramas.........................................................................................................12 7.3 Exercícios...................................................................................................................12 8 Distribuição de frequência..................................................................................................13 8.1 Exemplo Resolvido: ....................................................................................................13 8.2 Exercícios:..................................................................................................................15 9 Representação gráfica de uma distribuição .......................................................................17 9.1 Exercícios...................................................................................................................17 10 Medidas de posição .......................................................................................................18 10.1 Medidas de tendência central ....................................................................................18 10.1.1 Média Aritmética (x) .............................................................................................18 10.1.2 Moda (Mo) ...........................................................................................................19 10.1.3 Mediana (Md).......................................................................................................19 10.2 Exercícios...................................................................................................................20 10.3 Medidas Separatrizes .................................................................................................21 10.3.1 Quartis.................................................................................................................21 10.3.2 Percentis..............................................................................................................21 11 Medidas de Dispersão....................................................................................................23 11.1 Amplitude Total...........................................................................................................23 11.2 Variância.....................................................................................................................23 3 11.3 Desvio Padrão ............................................................................................................24 11.3.1 Propriedades: ......................................................................................................24 11.3.2 Exemplo resolvido:...............................................................................................25 11.4 Coeficiente de variação (CV) ......................................................................................25 11.5 Exercícios...................................................................................................................26 12 Noções de assimetria.....................................................................................................27 13 A distribuição Normal .....................................................................................................28 13.1 Propriedades: .............................................................................................................28 13.2 Exemplo Resolvido: ....................................................................................................28 14 Noções de Probabilidade ...............................................................................................30 14.1 Exemplos resolvidos:..................................................................................................31 14.2 Eventos complementares............................................................................................31 14.3 Eventos independentes...............................................................................................31 14.4 Eventos mutuamente exclusivos.................................................................................32 14.5 Exercícios Resolvidos:................................................................................................32 14.6 Exercícios:..................................................................................................................33 15 Correlação e Regressão.................................................................................................34 15.1 Correlação..................................................................................................................34 15.1.1 Características de r..............................................................................................36 15.1.2 Exemplo resolvido:...............................................................................................36 15.2 Regressão ..................................................................................................................37 15.2.1 Exemplo resolvido:...............................................................................................37 15.3 Exercícios...................................................................................................................38 16 Númerosíndices............................................................................................................40 16.1 Exemplo:.....................................................................................................................40 16.2 Exercício resolvido:.....................................................................................................41 16.3 Índice Agregativo........................................................................................................41 16.4 Exercícios:..................................................................................................................42 17 Introdução aos testes de hipóteses e significância .........................................................43 17.1 Erros do Tipo I e II ......................................................................................................43 17.2 Nível de significância ..................................................................................................43 17.3 Tipos de testes ...........................................................................................................43 18 Literatura recomendada / Referências bibliográficas......................................................44 4 1 Apresentação Olá! Esta apostila é uma introdução a um dos mais importantes e vastos campos da matemática aplicada: a Estatística. O conteúdo está organizado sempre com introduções teóricas, alguns exemplos resolvidos e exercícios para treinamento. Alguns tópicos básicos de matemática como funções, logaritmos e probabilidade são essenciais para a compreensão da estatística. Sempre que achar necessário, feche esta apostila e procure aprofundar a teoria em matemática! Esse é um esforço que compensa, pois capacidade analítica é sem dúvida um dos diferenciais que as empresas procuram neste início de século XXI. Sempre que possível busque também na internet referências atualizadas sobre os assuntos aqui tratados. Bom estudo, e boa sorte! Marco Fisbhen 5 2 A Estatística Antes de começarmos a estudar Estatística, é importante que saibamos o que estamos estudando. A estatística, antes de mais nada, é um ramo da matemática aplicada. Seu objetivo é fornecer métodos para coleta, organização, resumo, apresentação e análise dos dados, visando obtenção de conclusões válidas e, finalmente, tomada de decisões. Assim, a estatística serve de instrumento de apoio a vários outros campos do conhecimento; na verdade, a todos os ramos do conhecimento em que dados experimentais são manipulados. Podemos, apenas para citar alguns, falar da importância da estatística na Física, Química, Medicina, Engenharia, Ciências Socias, e, é claro, na Administração de Empresas. 3 População e Amostra Ao coletarmos dados sobre um grupo de objetos ou indivíduos, como por exemplo a cor dos olhos ou o peso de estudantes de ensino médio ou até o número de peças defeituosas produzidas em um dia, nem sempre poderemos observar todo o grupo, principalmente nos casos em que tal grupo for muito grande ou até mesmo inacessível. Desse modo, em vez de examinarmos todo o grupo ou conjunto, chamado de população, levantaremos os dados apenas de uma parte desta população, chamada amostra. De maneira mais formal, população (ou universo) é um conjunto de elementos com pelo menos uma característica comum. Os estudantes universitários, por exemplo, constituem uma população, pois no mínimo apresentam uma característia em comum: são aqueles que estudam em universidades. Essa característica em comum delimita de maneira inequívoca os elementos que pertencem à população, e os que não pertencem. No entanto, como já citei, muitas vezes não é conveniente, e muitas vezes é impossível levantar os dados referentes a todos os elementos da população. Devemos portanto limitar nossas observações à uma amostra. Formalizando a idéia, amostra é um subconjunto finito de uma população. É importante mencionar neste ponto que embora a amostra seja finita, a população pode ser também finita ou infinita. Para relembrar: conjunto finito é aquele que contêm um número limitado de elementos e conjunto infinito é aquele que contêm um número ilimitado de elementos. 6 4 Estatística Descritiva e Indutiva Os métodos da estatística que buscam somente descrever e analisar certo grupo de dados, independentemente de serem dados extraídos de uma amostra ou de toda a população, são chamados de métodos de estatística descritiva. Por outro lado, se uma amostra é representativa de uma população, e tiramos conclusões a respeito desta população com os dados extraídos da amostra, temos uma aplicação da estatística indutiva. Raciocínio indutivo é aquele que parte do conhecimento de uma parte para tirar conclusões sobre a realidade do todo. Assim, estatística indutiva é a parte da estatística que tira conclusões sobre a população partindo do conhecimento da amostra. É claro que o processo de indução não é exato, e a estatística indutiva está sujeita a erros. No entando, os métodos de indução (ou inferência) estatística são capazes de definir até que ponto, e com que probabilidade, estamos errando. 5 Tipos de Variáveis Dentro de um estudo estatístico, precisamos definir quais características dos elementos (população ou amostra) nos interessa estudar. Essa característica pode ser, por exemplo, o peso ou a cor dos olhos de um certo número de pessoas. Assim, “peso” e “cor dos olhos” são denominados variáveis, cujos resultados dependerão dos elementos considerados. E fácil perceber que se tivermos n elementos (no caso, n pessoas) em nosso estudo, teremos n valores para a variável peso. Por convenção, definimos variável como o conjunto de resultados possíveis para um fenômeno. Dependendo do objetivo de nosso estudo, a característica (variável) em foco poderá ser: a. Qualitativa – quando for expressa por tipos ou atributos: sexo (masculino ou feminino), cor dos olhos (azuis, castanhos, etc.), qualidade de uma peça produzida (perfeita ou defeituosa). b. Quantitativa – quando for expressa em números. É importante notar que as variáveis quantitativas podem ser subdivididas em discretas e contínuas. Variável contínua é aquela que pode assumir qualquer valor entre dois limites. Por outro lado, uma variável discreta só pode asumir valores pertencentes a um conjunto enumerável. Preste atenção nos exemplos: b.1 Variáveis quantitativas discretas: número de alunos em uma turma, pontos obtidos em uma jogada de dados, número de peças produzidas em um dia de trabalho; b.2 Variáveis quantitativas contínuas: peso dos alunos em uma turma, diâmetros de peças produzidas em um dia. Ao observarmos os exemplos, podemos perceber que, de maneira geral, os valores das variáveis discretas são obtidos por contagens, enquanto que os valores das variáveis contínuas são obtidos por medições. 7 Por último, as variáveis são designadas por letras latinas. Em geral: x, y ou z. 5.1 Exercícios: 1) Estabeleça quais dos dados seguintes são discretos e quais são contínuos: a) Número de ações vendidas na bolsa de valores b) Temperaturas registradas a cada meia hora em um posto de meteorologia c) Meiavida média das amostras de medicamentos d) Diâmetros de 1000 parafusos produzidos por uma fábrica e) Quantidade de pessoas no carnaval de olinda Respostas: Discretos, Contínuos, Contínuos, Contínuos, Discretos. 2) Classifique as variáveis em qualitativas ou quantitativas (contínuas ou discretas): a) Cor dos cabelos b) Número de filhos c) Comprimento de peças produzidas por certa máquina Respostas: Qualitativa, Quantitativa discreta, Quantitativa contínua. 6 Amostragem Você neste ponto já sabe que a estatística indutiva busca tirar conclusões sobre a população baseado em resultados retirados das amostras. Porém o processo não é tão simples, porque precisamos garantir que a amostras sejam representativas da população, ou seja, a amostra deve ter as mesmas características básicas da população em relação à variável em estudo. Existem basicamente dois tipos de amostragem, a probabilística e a nãoprobabilística. A amostragem probabilística é aquela em que todos os elementos da amostra tem probabilidade conhecida, e diferente de zero, de pertencer à amostra. Caso contrário, a amostragem será nãoprobabilística. Exemplificando, a amostragem probabilística mais simples é justamente denominada amostragem casual simples, e é equivalente a um sorteio lotérico, em que todos os elementos têm igual probabilidade de pertencer à amostra. Numeramos a população de 1 a n e sorteamos por meio de qualquer dispositivo k números desta sequência. Podemos numerar alunos de 1 a 40 e colocar os números dentro de uma caixa e retirar um a um, 10 números. A amostra aleatória simples terá, neste caso, 25% da população. Se o número de elementos da mostra for muito grande, o sorteio pode ser inviável. Neste caso podemos utilizar uma tabela de números aleatórios para realizar a amostragem. Procure na internet uma tabela de números aleatórios. Se você tiver acesso à planilhas Excel, descubra como gerar nelas as tabelas de números aleatórios. Um outro tipo de amostragem probabilística é a amostragem sistemática, em que os elementos da população já se acham ordenados e a retirada de elementos para composição da 8 amostra é feita periodicamente. Em uma linha de produção, se retirarmos um item a cada 10 produzidos para controle de qualidade, estaremos utilizando a abordagem sistemática. Poderíamos utilizar o mesmo método para retirar uma amostra de uma população de determinada rua. Se a rua contêm 500 prédios, e queremos que a amostra contenha 10% da população (50 prédios), podemos escolher aleatoriamente o 1º prédio e ir “pulando” de 10 em 10 prédios até chegar ao 50º elemento. Se por acaso nossa população contiver subpopulações ou estratos, é importante utilizar uma amostragem estratificada, em que os elementos da amostra são proporcionais aos elementos dos estratos da população. Um bom exemplo é uma turma com 60 alunos, contendo 40 meninos e 20 meninas. Temos uma proporção 2:1. É importante que a amostra contenha esta mesma proporção. Assim, se tivermos uma amostra com 15 elementos, 10 deverão ser meninos e 5 meninas. Mantendo a proporção 2:1. Amostras nãoprobabilísticas são também empregadas em trabalhos de estatística por simplicidade ou inviabilidade de fazermos amostras probabilísticas. Os casos mais importantes são: a) A inacessibilidade de toda a população (e neste caso seremos forçados a colher a amostra somente na parte da população que está acessível); b) Amostragem a esmo, em que o selecionador procura ser aleatório na amostragem, mas não utiliza nenhum método confiável de sorteio; c) Amostragens intencionais, em que o amostrador delibaradamente escolhe alguns elementos para pertencer à amostra, julgandoos representativos; d) Amostragens por voluntários, no caso de por exemplo aplicações experimentais de novos medicamentos. 6.1 Exercícios: 1) Pesquise o peso dos seus colegas de classe (incluindo você), com uma amostra que corresponda a 30% da população utilizando amostragem casual (ou aleatória) simples. Não deixe de procurar na internet uma tabela de números aleatórios! 2) O diretor de uma escola, na qual estão matriculados 320 meninas e 280 meninos deseja passar um questionário socioeconômico para uma amostra correspondente a 10% da clientela. Qual é o número de elementos componentes da amostra? Resposta: 64 meninas e 56 meninos. 3) Uma população encontrase dividida em 3 estratos, com tamanhos 40, 100 e 60. Sabendose que 9 elementos foram retirados do 3º estrato em uma amostragem estratificada, determine o número total de elementos da amostra. Resposta: 30 elementos 9 7 Técnicas de descrição gráfica Lembrando que um dos objetivos das estatística é a apresentação dos dados, é importante que saibamos trabalhar com tabelas e gráficos. 7.1 Tabelas Muitas vezes, para organizarmos melhor os dados, fazemos o uso de tabelas. De maneira simplificada, uma tabela é um quadro resumindo o nosso conjunto de observações. Toda tabela deve conter, resumidamente, como no exemplo a seguir: Título, Cabeçalho, Células e Fonte Altura média dos estudantes do Ensino Médio de Japaraíbe Escola Altura (m) A 1.65 B 1.71 C 1.63 D 1.67 E 1.7 F 1.69 Média Geral 1.675 Fonte: Censo Escolar do Município de Japaraíbe, 2006 Obs: Se a tabela apresenta distribuição dos dados em função da época, do local ou de alguma espécie (ou categoria), nós a denominamos Série Estatística, podendo ser classificada em Série Histórica, Série Geográfica ou Série Específica. 7.2 Gráficos A vantagem da apresentação gráfica é produzir uma rápida impressão visual. Para sermos realmente úteis, nossas representações gráficas devem ser simples, claras e devem expressar a verdade sobre o fenômeno estudado. Os principais tipos de gráficos são os diagramas, os cartogramas e os pictogramas. 7.2.1 Diagramas Diagramas são gráficos construídos, em geral, no plano cartesiano (x,y). O principal diagrama é o gráfico em linha ou em curva, que você com certeza já estudou em suas aulas de matemática. Título Cabeçalho Células Fonte 10 Exemplo: Utilizando nossa tabela de alturas média em função das escolas, temos: Outro tipo importante de representação é o gráfico em colunas ou barras, em que utilizamos retângulos verticais (colunas) ou horizontais (barras) para visualizar as séries. Exemplos: Finalmente, devemos conhecer o gráfico circular ou em setores, em que um círculo é dividido com áreas proporcionais aos dados da série. 11 Cada setor é obtido por meio de regra de três simples, com o total da série valendo 360º Exemplo: 7.2.2 Cartogramas São empregados sobre uma carta geográfica, com os dados diretamente relacionados ao recortes geográficos ou políticos. Podemos representar dados em pontos (em número ou tamanho proporcional aos valores) ou cores. Exemplo: 12 7.2.3 Pictogramas São, de maneira resumida, uma representação gráfica baseada em figuras. Exemplo: 7.3 Exercícios 1) Procure exemplos de séries estatísticas em jornais e revistas e copieos, classificando as séries. 2) Procure em jornais e revistas especializados dois exemplos de cada um dos gráficos estudados. 3) Usando o gráfico em barras, represente a tabela: Prod. de Veículos de Autopropulsão 1993 Tipo Quantidade Automóveis 1.100.278 Comerciais Leves 224.387 Comerciais Pesados 66.771 Fonte: Anfavea 13 8 Distribuição de frequência Para descrevermos gráficamente os dados coletados, nosso primeiro passo é a determinação das frequências dos valores existentes da variável. Definimos frequência simples (ou absoluta) como o número de vezes que um valor foi observado, e podemos obter, a partir de dados brutos, uma tabela de distribuição de frequências. 8.1 Exemplo Resolvido: Imagine que tenhamos feito uma coleta de dados relativos à quantidade de irmãos de 10 alunos, compondo uma amostra de uma turma da escola A, e ordenamos os dados de modo crescente (a tabela de dados ordenados chamase rol). Em nosso exemplo, a frequência será o número de alunos relacionados a um determinado valor da variável, ou seja, um determinado número de irmãos. Tabela Número de irmãos de alunos do curso de Estatística Número de irmãos Frequência 0 1 1 4 2 6 3 3 5 1 Total 15 Fonte: Autor Temos acima a construção de uma tabela de distribuição de freqüência pontual, equivalente à construção de uma tabela simples, em que listamos os diferentes valores observados da variável, com suas freqüências absolutas, denotadas por fi, onde o índice i corresponde ao número de linhas da tabela. Olhando para a tabela, vemos que esta variável foi resumida em 5 linhas. Assim, i = 1,...,5, e temos 5 valores para as freqüências absolutas. A freqüência absoluta da segunda linha, f2 = 4, por exemplo, indica que quatro alunos têm um irmão, enquanto apenas um afirmou ter cinco irmãos, ou seja, f5=1. A soma de todas as freqüências absolutas deve ser igual ao número total de observações da variável, neste caso, 15. Temos, portanto, que: Frequências relativas (fri) são o resultado da razão entre as frequências simples e a frequência total: 14 fri = = Logo, a frequência relativa da quarta linha em nosso exemplo é: A frequência relativa da quinta linha é: , e assim por diante. Evidentemente temos que: Frequência acumulada (Fi) é o total das frequências de todos os valores inferiores ao limite superior de uma dada classe: Fk = f1 + f2 + f3 + ... fk Temos portanto: F1 = f1, F2 = f1 + f2, F3 = f1 + f2 + f3 E assim por diante. Podemos desenhar uma nova tabela, mais completa, com as frequências relativas e acumuladas: Tabela Número de irmãos de alunos do curso de Estatística Número de irmãos Frequência Frequência Relativa Frequência Acumulada 0 1 0.067 1 1 4 0.267 5 2 6 0.400 11 3 3 0.200 14 4 1 0.067 15 Total 15 1 15 Fonte: Autor Você deve ter percebido que mencionei duas idéias ainda não definidas: classe e limite de classe. Se estivermos lidando com variáveis discretas e amostras com poucos elementos (como no exemplo anterior), temos uma distribuição sem intervalos de classe. Porém, se trabalhamos com variáveis contínuas, ou até mesmo com variáveis discretas, mas com muitos elementos, trabalharemos com classes de frequência, que são simplesmente intervalos de variação. As classes serão representadas por i = 1, 2, 3, ..., k, onde k é o número total de classes. 15 Agora, precisamos de algumas outras definições: Os limites de classe são os extremos de cada classe, e teremos um limite inferior (li) e um limite superior (Li). Além disso também definimos a amplitude (hi), obtida pela simples subtração dos limites superior e inferior da classe: hi = Li li Amplitude total da distribuição (AT) é a diferença entre o Limite superior máximo e o limite inferior mínimo: AT = Lmax lmin Por último, ponto médio de uma classe é a média aritmética entre os limites superior e inferior da classe: Xi = Obs: Na prática, para a determinação do número de classes de uma distribuição, usamos a seguinte equação (regra de Sturges): i ≈ 1 + 3,3 . log n Essa regra nos dá a seguinte tabela: N I 3 – 5 3 6 – 11 4 12 – 22 5 23 – 46 6 47 – 90 7 91 – 181 8 182 – 362 9 … … Definido o número de classes, precisamos determinar a amplitude do inervalo de classe: 8.2 Exercícios: 1) Complete a distribuição abaixo, determinando as frequências simples: I xi fi Fi 1 2 … 2 2 3 … 9 3 4 … 21 4 5 … 29 5 6 … 34 16 ∑ = 34 2) Os resultados do lançamento de um dado 20 vezes foram: 6 5 6 3 4 3 5 2 4 1 4 5 6 1 3 1 2 4 1 5 Forme uma distribuição de frequência sem intervalos de classe. 3) Observe a distribuição de frequência Xi 3 4 5 6 7 8 Fi 2 5 12 10 8 3 Determine: a) As frequências relativas b) As frequências acumuladas c) As frequências relativas acumuladas 4) Complete os dados que faltam: i xi fi fri Fi 1 0 1 0,05 … 2 1 … 0,15 4 3 2 4 … … 4 3 … 0,25 13 5 4 3 0,15 … 6 5 2 … 18 7 6 … … 19 8 7 … … … ∑ = 20 ∑ = 100 17 9 Representação gráfica de uma distribuição Uma distribuição pode ser representada de diversas maneiras. As principais são o histograma e o polígono de frequência. O Histograma é traçado em um plano cartesiano (x,y), formado basicamente por uma série de retângulos justapostos, em que os pontos médios das bases dos retângulos são na verdade os pontos médios dos intervalos de classe e as larguras dos retângulos são as larguras dos intervalos de classe Polígono de frequência é um gráfico em linha, com as frequências das classes marcadas no eixo y do plano cartesiano. 9.1 Exercícios 1) Construa o histograma relativo ao exercício 4 do item anterior 18 2) 10 Medidas de posição Estudando as distribuições de frequência, percebemos que existem alguns elementos típicos que precisam ser ressaltados. O primeiro destes elementos é a posição de concentração dos valores. Imagine a seguinte pergunta: Os dados estão mais concentrados no início, no meio ou no final da distribuição? Para que possamos respondêla, precisamos conhecer as mais importantes medidas de posição, que são as medidas de tendência central: a média, a mediana e a moda. 10.1 Medidas de tendência central As medidas de tendência central são assim chamadas por indicarem um ponto em torno do qual se concentram os dados. Este ponto tende a ser o centro da distribuição dos dados, ou o “centro de gravidade” dos dados. 10.1.1 Média Aritmética (x) Antes de mais nada, é importante que você saibda que ao lidarmos com um conjunto de dados, podemos calcular diversos tipo de médias. Em nosso estudo focaremos a média mais importante, a média aritmética, mas não deixe de estudar posteriormente a média geométrica, a média harmônica e a média ponderada. A média aritmética (x) é a soma de todos os valores observados da variável dividida pelo número total de observações. A média aritmética é a medida de tendência central mais utilizada para representar a massa de dados. Propriedades e observações sobre a média: 1. Depende de todos os dados coletados, sendo portanto afetada por valores extremos; 2. É única em um conjunto de dados e nem sempre tem existência real, ou seja, nem sempre é igual a um determinado valor observado. É muito importante perceber que a média não necessariamente é um dado da série de valores observados. 3. Por depender de todos os valores observados, qualquer modificação nos dados fará com que a média fique alterada. Isto quer dizer que somandose, subtraindose, multiplicandose ou dividindose uma constante a cada valor observado, a média ficará acrescida, diminuída, multiplicada ou dividida deste mesmo valor. Exemplificando: se somarmos o número 2 a todos os valores observados, a média será acrescida do valor 2. Se multiplicarmos todos os dados por 3, a média será automaticamente 3 vezes maior. 19 4. A soma dos desvios em relação à média é zero. Σ (xi − x) = 0 A propriedade 4 é de extrema importância para a definição de variância, uma medida de dispersão a ser definida posteriormente. Desvio em relação à média é a diferença entre cada elemento de um conjunto de dados e a média aritmética. di = xi – x Obs: se precisarmos calcular a média de um conjunto de dados divididos em classes, convencionamos que todos os valores incluídos no intervalo coincidem com o ponto médio deste intervalo, e utilizamos a seguinte equaçao: 10.1.2 Moda (Mo) Moda é simplesmente o valor que mais se repete em uma sequência de dados. Considere a seguinte série: 1, 3, 4, 4, 4, 6, 8, 32 Como o valor que aparece com maior frequência é o “4”, ele é o valor modal, ou simplesmente a moda. O uso da moda é mais indicado quando se deseja obter, rapidamente, uma medida de tendência central. Um outro aspecto que favorece a utilização da moda é que seu valor não é afetado pelos valores extremos do conjunto de dados analisado. Uma série numérica pode ser: Amodal: quando nenhum valor se repete; Modal: quando um valor se repete; Bimodal: quando dois valores se repetem; Trimodal: quando três valores se repetem; Polimodal: quando mais do que três valores se repetem. 10.1.3 Mediana (Md) A mediana é o valor que ocupa a posição central da série de observações de uma variável, dividindo o conjunto em duas partes iguais. Assim, 50% dos valores são maiores ou iguais ao valor da mediana e 50% dos valores são menores ou iguais ao valor da mediana. Formalizando, a mediana é o valor tal que separa o conjunto de dados em dois subconjuntos de mesmo número de elementos. 20 Se a quantidade de dados for ímpar, a mediana é simplesmente o valor central, e se a quantidade de dados for par a mediana será a média aritmética dos dois valores centrais. Sendo n o número de elementos da série, o valor mediano será: O termo , se n for ímpar; A média aritmética dos termos e + 1, se n for par. Vamos começar com uma série de 7 dados observados: 1, 5, 8, 9, 12, 17, 20 Como temos um número ímpar de dados, a mediana é o valor central, ou seja, o valor 9. E se tivéssemos 8 valores observados? 1, 5, 8, 9, 12, 17, 20, 22 Nesse caso a mediana seria a média aritmética dos dois dados centrais. Como os dados centrais são o 9 e o 12, a mediana seria . Obs: Empregamos a mediana sempre que há valores extremos que afetam muito a média. Veja a série de dados sobre o valor dos salários dos colaboradores em um escritório: R$1.000,00, R$1.000,00, R$1.500,00, R$2.000,00, R$3.000,00 A mediana dos dados é R$1.500,00 (valor central) e a média é R$1.700,00 Imagine agora que um novo colaborador é contratado, com salário de R$10.000 Repare que a nova série é: R$1.000,00, R$1.000,00, R$1.500,00, R$2.000,00, R$3.000,00, R$10.000,00 e o novo valor da mediana é R$1.750,00 e da média R$3.083,33 Reparou com um valor extremo altera muito a média, mas sem alterar muito a mediana? Nesses casos a mediana é uma medida de tendência central mais “estável”. 10.2 Exercícios 1) Uma escola deseja verificar o aproveitamento de 6 de seus alunos da 5ª série. Calcule a média, a mediana e a moda, e classifique a série conforme a moda. Notas: 7,0 3,5 2,5 6,5 9,0 3,5 Respostas: Média = 5,3, Mediana = 5,0, Moda = 3,5. Série Modal. 2) Classifique as série de acordo com a característica modal, indicando os valores. 2.1) 12, 13, 13, 14, 15, 17, 17, 19 2.2) 56, 58, 60, 60, 60, 62, 65 21 2.3) 47, 45, 90, 90, 47, 90, 47, 45, 41, 45 10.3 Medidas Separatrizes Existem outras medidas de posição (além das medidas de tendência central), e aqui estudaremos mais duas delas: os quartis e os percentis. 10.3.1 Quartis Já aprendemos que a mediana divide os dados coletados em dois grupos com o mesmo número de elementos. Os quartis dividem o conjunto de valores em, como o nome já diz, quatro subconjuntos de mesmo número de elementos Assim, temos três quartis: a. O primeiro quartil (Q1) é o valor situado de modo tal que um quarto (25%) dos dados são menores que ele, e o restante (75%) é maior que ele. b. O segundo quartil (Q2) é evidentemente igual a mediana. Q2 = Md. c. O terceiro quartil (Q3) é o valor situado de modo tal que três quartos (75%) dos dados são menores que ele, e o restante (25%) é maior que ele. Resumo: Estatística Notação Interpretação Posição 1o Quartil Q1 25% dos dados são menores ou iguais ao do 1o Quartil p = 0,25 (n + 1) 2o Quartil Q2 = Md 50% dos dados são menores ou iguais ao do 2o Quartil p = 0,50 (n + 1) 3o Quartil Q3 75% dos dados são menores ou iguais ao do 3o Quartil p = 0,75 (n + 1) 10.3.2 Percentis Percentis são os noventa e nove valores que dividem uma série de dados em 100 partes (ou subconjuntos) com o mesmo número de elementos. Indicamos o 1º percentil como P1, o 2º como P2 e assim por diante. É importante notar que P25 = Q1, P50 = Md e P75 = Q3 Resumo: Estatística Notação Interpretação Posição 5o Percentil P5 5% dos dados são menores ou iguais ao do 5o Percentil p = 0,05 (n + 1) 50o Percentil P50 = Q2 = Md 50% dos dados são menores ou iguais ao do 50o Percentil p = 0,50 (n + 1) 22 95o Percentil P95 95% dos dados são menores ou iguais ao do 95o Percentil p = 0,95 (n + 1) 23 11 Medidas de Dispersão As medidas de dispersão auxiliam as medidas de tendência central a descrever nosso conjunto de dados observados adequadamente. Indicam se os dados estão, ou não, próximos uns dos outros. Observe os três conjuntos de dados: X: 10, 10, 10 Y: 5, 10, 15 Z: 0, 10, 20 É fácil perceber que se calcularmos a média dos três conjuntos, encontraremos o mesmo valor: 10. Porém, é igualmente fácil perceber que o conjunto X é mais homogêneo, enquanto o conjunto Z é o que tem maior diversificação. Chamamos de dispersão ou variabilidade a maior ou menor diversificação de valores em torno de um valor de tendência central. É necessário, portanto, ao menos uma medida de tendência central e uma medida de dispersão para descrever um conjunto de dados. De todas as medidas de dispersão, estudaremos a amplitude total, a variância, o desvio padrão e o coeficiente de variação 11.1 Amplitude Total A amplitude total é simplesmente a diferença entre o maior e o menor valor coletado. A amplitude total é uma medida de dispersão que não leva em consideração os valores intermediários, não dando nenhuma informação de como os dados estão distribuídos (ou concentrados). AT = xmáx − xmín A amplitude total tem um claríssimo problema: só leva em consideração os valores extremos de nosso conjunto de dados, sem contabilizar os valores intermediários. É válido utilizarmos a amplitude total para comparamos temperaturas ao longo de um dia (ou ano) ou como controle rápido de qualidade em uma linha de produção. 11.2 Variância A variância é uma medida baseada nos desvios em torno da média aritmética. Formalizando a idéia, na verdade a variância é a média aritmética dos quadrados dos desvios (ou a média aritmética dos desvios ao quadrado). Representamos a variância por s 2 , e temos: ou 24 Obs: Se nosso interesse for a inferência estatística (tirar conclusões sobre a população partindo de uma amostra) e não simplesmente a descrição dos dados, convém utilizarmos n1 no lugar de n (no denominador). Podemos portanto dizer que quanto maior a variância, mais heterogêneos são os dados, ou seja, maior será a variação entre os valores. Por outro lado, quanto menor a variância, mais homogêneos são os dados, ou seja, menor será a variação entre os valores. 11.3 Desvio Padrão Uma vez que a variância é obtida por meio dos quadrados dos desvios, a sua unidade de medida é o quadrado da unidade de medida dos dados. Assim, por motivos práticos, utilizamos o desvio padrão, que é simplesmente a raiz quadrada da variância. Observações: 1. Tanto o desvio padrão quanto a variância são medidas de dispersão, o uso de uma ou outra medida dependerá da finalidade do estudo 2. A utilização da média aritmética torna o cálculo da variância (e do desvio padrão) pouco práticos, pois com frequência a média é um número fracinário. É mais frequente utilizarmos uma simplificação da fórmula: 3. No caso de dados agrupados, teremos que levar em consideração as frequências. Assim, a equação será: 4. No caso de dados agrupados com intervalos de classe, os valores de xi serão os valores médios (média aritmética entre os limites inferior e superior) das classes. 11.3.1 Propriedades: 1) Se somarmos ou subtrairmos uma constante de todos os valores da série, o desvio padrão não se altera. 2) Se multiplicarmos ou dividirmos uma constante por todos os valores da série, o desvio padrão será multiplicado ou divido por esta mesma constante. 25 11.3.2 Exemplo resolvido: Observe como montar a tabela para uma determinada distribuição de frequências e a utilização da equação para dados agrupados i Estaturas (cm) fi xi fixi fixi 2 1 150 154 4 152 608 92416 2 154 158 9 156 1404 219024 3 158 162 11 160 1760 281600 4 162 166 8 164 1312 215168 5 166 170 5 168 840 141120 6 170 174 3 172 516 88752 ∑ = 40 ∑ = 6.440 ∑ = 1.038.080 s = 5,567 11.4 Coeficiente de variação (CV) O coeficiente de variação resolve dois problemas do desvio padrão: 1) O desvio padrão tem a mesma unidade dos dados coletados. Assim, se quisermos comparar dados com unidades diferentes, o desvio padrão não é uma boa medida 2) O desvio padrão, como valor absoluto, não nos diz muita coisa, pois um desvio de 5 com média 500 é um desvio pequeno, mas um desvio de 5 com média 10 é um desvio grande. Ou seja, o valor absoluto do desvio padrão, no caso, 5, não nos diz nada. O coeficiente de variação é calculado pela seguinte equação: Sendo portanto uma grandeza admensional (sem unidades) e ponderada pelo seu valor médio. 26 11.5 Exercícios 1) Complete o esquema abaixo e calcule o desvio padrão para a seguinte sequência de valores: 8 10 11 15 16 18 I xi xi 2 1 8 64 2 10 … … … … … … … … … … … … … n = … ∑ = … ∑ = … Resp: s = 3,559 2) Comprove as propriedades do desvio padrão somando 3 a cada número da série e depois multiplicando cada número por 2. 3) Calcule a amplitude total e o desvio padrão da seguinte distribuição: xi 2 3 4 5 6 7 8 fi 1 3 5 8 5 4 2 4) Para os dados de peso de 2 grupos de alunos, calcule a média e o desvio padrão 65 57 89 65 50 72 81 Resp: Média =68,428kg, Desvio = 13,464kg 80 78 67 56 90 101 66 Resp: Média = 76,857kg, Desvio = 15,366kg 27 12 Noções de assimetria A natureza básica da assimetria é simples. Se em uma distribuição em forma de sino (distribuição normal) temos x = Md = Mo, a curva é considerada simétrica Se Mo < Md < x, a curva é assimétrica positiva. Se x < Md < Mo, a curva é assimétrica negativa. Assim, calculando o valor da diferença (x – Mo), para valores nulos teremos uma curva simétrica, para valores negativos teremos uma assimetria negativa (ou à esquerda) e para valores positivos teremos uma assimetria positiva (ou à direita). Podemos também fazer uso do coeficiente de assimetria de Pearson, que tem a vantagem de ser admensional: Se 0,15 < |As| < 1, a assimetria é considerada moderada. Se |As| > 1 a assimetria é considerada forte. 28 13 A distribuição Normal De todas as distribuições teóricas de variável aleatória contínua, uma das mais importantes é a distribuição normal. 13.1 Propriedades: 1) A variável X pode assumir qualquer valor real 2) Graficamente, a distribuição tem a forma de um sino, simétrico em torno da média. A curva recebe o nome de Curva de Gauss o Curva Normal 3) A área total sob a curva tem valor 1 e é a probabilidade da variável X assumir qualquer valor real. Dada a simetria da vurva, a probabilidade vale 0,5 para cada lado da média O cálculo da área (probabilidade) para cada ponto da curva exige matemática avançada, portanto usaremos um conceito simples para contornar esta restrição, o conceito de distribuição normal reduzida A distribuição normal reduzida é uma distribuição normal com média 0 e desvio padrão 1. As probabilidades associadas (ou áreas sob a curva) são encontradas em uma tabela, de modo que não precisamos calculálas. A fórmula que usaremos é: 13.2 Exemplo Resolvido: Imagine um grupo de trabalhadores com média salarial R$400,00 e desvio padrão R$50,00. Qual a probabilidade de encontrarmos um trabalhador que tenha salário entre R$390,00 e R$450,00? Passoapasso: 1) A distribuição original (X) tem média R$400,00 e desvio R$50,00 2) Podemos então encontrar os valores de Z correspondentes a X = R$390,00 e X = R$450,00 Z1 = (390 – 400)/50 = 0,2 Z2 = (450 – 400)/50 = 1,0 Assim, podemos dizer que a probabilidade do salário (X) ficar entre R$390,00 e R$450,00 é a mesma de termos Z entre 0,2 e +1,0. Observando a tabela de distribuição normal de Z (peça ajuda de seu profesor para ler a tabela! Tabelas de probabilidade para Z (0,1) podem ser facilmente encontradas na internet), temos 29 0,0793 para ±0,2 (não há diferença entre 0,2 e +0,2, uma vez que a curva é simétrica) e 0,3413 para 1,0. Como a distribuição Z tem média 0, temos 0 0,2 à esquerda do zero e o +1,0 à direita do zero. P (390 < X < 450) = P (0,2 < Z < 0) + P (0 < Z < 1,0) = 0,0793 + 0,3413 = 0,4206. Ou seja, temos que em média 42% dos trabalhadores ganham entre R$390,00 e R$450,00. Obs: Para ler a tabela de distribuição normal Z, procure os dois primeiros algarismos na primeira coluna e depois o último algarismo na primeira linha. Para achar o 1,00 é fácil. Basta acharmos o 1,0 na primeira coluna e depois o 0,00 na primeira linha. Ficamos com 0,3413. Se quisermos achar Z = 1,55, temos que achar o 1,5 na primeira coluna e depois o 0,05 na primeira linha. Ficamos com 0,4395. Por último, se quisermos achar Z = 3,38, procuraremos o 3,3 na primeira coluna e o 0,08 na primeira linha. Acharemos o valor 0,4996. 30 14 Noções de Probabilidade Você já deve ter percebido que para compreendermos bem a estatística precisamos de uma boa noção de probabilidade, certo? Vamos agora fazer uma curta revisão dos principais conceitos desta importante parte da matemática. O primeiro conceito é o de experimento aleatório, que é aquele que, mesmo repetido sob as mesmas condições, apresenta resultado imprevisível. Por exemplo, se jogarmos uma moeda não viciada para cima sempre sob as mesmas condições, não temos como prever se encontraremos como resposta “cara” ou “coroa”. O mesmo podemos dizer sobre um dado não viciado. Nunca saberemos se encontraremos como resposta “1”, “2”, “3”, “4”, “5” ou “6”. Com esses dois exemplos, você já tem automaticamente condições de entender o que o espaço amostral de um experimento. É simplesmente o conjunto de resultados possíveis, representado por S. Para os nossos exemplos, teremos: Lançamento da moeda: S = {Cara, Coroa} Lançamento do dado: S = {1, 2, 3, 4, 5, 6} Antes de começarmos a calcular probabilidades, temos mais um conceito, o evento, que é qualquer subconjunto do espaço amostral S, e é sempre definido por uma sentença. Vamos a alguns exemplos de eventos para o experimento de lançar um dado: “Obter um número par na face superior” “Obter um número maior que 3 na face superior” “Obter o número 4 na face superior” Agora, com estes conceitos revisados, podemos começar a calcular probabilidades. De maneira simplificada, a probabilidade é calculada pela quantidade de casos favoráveis dividido pelo número total de casos, ou pelo número total de possibilidades. De maneira mais formal, chamamos de probabilidade de um evento A o número real P(A), de modo que: 31 Onde n (A) é o número de elementoa de A (o evento) e n (S) é o número de elementos de S (o espaço amostral). 14.1 Exemplos resolvidos: 1) Em um lançamento de uma moeda, qual a probabilidade de obter “cara”? A = {Cara} , n (A) = 1 S = {Cara, Coroa}, n (S) = 2 P(A) = 1 / 2 = 0,5 O resultado nos mostra que em uma moeda não viciada, a probabilidade de obtermos “cara” é 0,5 ou 50%. 2) Em um lançamento de um dado, qual a probabilidade de obter um número par? A = {2,4,6} , n (A) = 3 S = {1,2,3,4,5,6}, n (S) = 6 P(A) = 3 / 6 = 0,5 Temos então 50% de chance de obtermos um número par. Pelo que vimos até agora, podemos afirmar que: a. A probabilidade de um evento certo é igual a 1 b. A probabilidade de um evento impossível é igual a 0 c. A probabilidade de um evento A qualquer é um número real P(A) tal que 0 ≤ P(A) ≤ 1 Para finalizarmos nossa curta revisão de probabilidade, é importante que você lembre de mais três conceitos: eventos complementares, eventos independentes e eventos mutuamente exclusivos. 14.2 Eventos complementares Eventos complementares são aqueles cujas probabilidades somam 1. Sendo p a probabilidade de um evento e q a probabilidade de outro evento, eles são complementares se p + q = 1. Logo p = 1 q Qual a utilidade deste conceito? Simples. Se a probabilidade de obter 2 no lançamento de um dado é 1/6, a probabilidade de não tirar 2 ( ou seja, tirar qualquer outro número ) é: 1 – 1/6 = 5/6 14.3 Eventos independentes Dois eventos são independentes se a realização (ou nãorealização) de um dos eventos não afeta a probabilidade de realização do outro. 32 Se lançarmos por exemplo dois dados, o valor que obtivermos no 1º não afeta em nada o valor que obteremos no 2º, de modo que a probabilidade de que eles se realizem simultâneamente é o produto das probabilidades individuais. p = p1 . p2 14.4 Eventos mutuamente exclusivos Como o nome já implica, eventos mutuamente exclusivos são aqueles em que a realização do primeiro exclui a realização do segundo. Voltando ao caso clássico do lançamento de uma moeda, o evento “cara” automaticamente exclui o evento “coroa”, uma vez que tiramos cara ou coroa. As duas faces não podem ser obtidas no mesmo lançamento. Assim, a probabilidade de que um OU outro evento se realize é a soma das probabilidades. p = p1 + p2 A probabilidade de tirarmos cara OU coroa é 0,5 + 0,5 = 1 A probabilidade de tirarmos 2 OU 4 no lançamento de um dado é 1/6 + 1/6 = 2/6 = 1/3. 14.5 Exercícios Resolvidos: 1) Qual a probabilidade de obtermos um rei de espadas ao retirarmos uma carta de um baralho de 52 cartas? Resposta: p = 1/52 2) Qual a probabilidade de obtermos um rei de qualquer naipe ao retirarmos uma carta de um baralho de 52 cartas? Resposta: p = 4/52 = 1/13 3) De dois baralhos de 52 cartas, qual a probabilidade de retirarmos um rei de cada baralho? Resposta: como os dois eventos são independentes, temos p = p1 . p2 4) De um baralho de 52 cartas retiramse duas cartas sem reposição. Qual a probabilidade da primeira ser o rei de espadas e a segunda o rei de paus? Resposta: mais uma vez como os eventos são independentes, temos p = p1 . p2. É importante notar que como no ato de retirada da segunda carta, restam somente 51 cartas no baralho. 5) Dois dados são lançados conjuntamente. Determine a probabilidade da soma ser 11 ou maior. Resposta: A soma deverá ser 11 ou 12. Para a soma 11 temos as possibilidades (5,6) ou (6,5), de modo que a probabilidade é 2/36. Para a soma 12 só temos a possibilidade (6,6), de modo que a probabilidade é 1/36 Como queremos que a soma seja 11 ou 12 e os eventos são mutuamente exclusivos, temos 33 14.6 Exercícios: 1) Um número inteiro entre 3 e 11 será escolhido ao acaso. a. Qual a probabilidade de que este número seja ímpar? b. Qual a probabilidade de que este número seja par? c. Qual a probabilidade de que este número seja par e divisível por 4? 2) Dois dados são lançados simultâneamente. Determine a probabilidade de: a. A soma ser 10; b. A soma ser maior que 10; c. O primeiro resultado ser maior que o segundo. 3) Uma moeda é lançada 3 vezes. Calcule a probabilidade de: a. Obtermos 3 coroas; b. Obtermos 2 coroas e 1 cara; c. Obtermos pelo menos 1 cara; d. Obtermos no máximo 1 cara. 34 15 Correlação e Regressão A correlação e a regressão são técnicas bem relacionadas envolvendo estimação de parâmetros. Até agora, analisamos e descrevemos a distribuição de valores de uma variável de cada vez. Agora, ao analisarmos as observações de duas ou mais variáveis conjuntamente, temos um novo problema: as relações que podem existir entre as variáveis estudadas. Assim, analisaremos dados amostrais para saber como duas ou mais variáveis estão relacionadas entre si. Quando consideramos variáveis como peso e altura, é fácil notar que há um relacionamento entre as grandezas. Intuitivamente percebemos que, na média, quando maior a altura, maior o peso. A correlação mede a força, ou grau de relacionamento entre duas variáveis. Quanto maior a correlação, maior a intensidade de relacionamento. Uma vez caracterizada a correlação, a regressão é o instrumento que dá uma equação que descreve o relacionamento em termos matemáticos. 15.1 Correlação Considere uma amostra aleatória de 10 dos 45 alunos de uma turma de e suas notas em matemática e estatística: Aluno Nota em Matemática Nota em Estatística 1 5 6 4 7.5 8 7 6.5 6 13 8 9 15 9.5 10 22 3 4 26 5.5 5 31 9 10 33 7 7.5 40 2 2.5 Repare como existe um forte relacionamento entre as notas. Existe uma tendência forte no sentido de que quanto maior a nota em matemática, maior também a nota em estatística. Colocando em um gráfico em que o eixo x é o aluno e o eixo y é a nota, fica fácil perceber esse relacionamento: 35 Um outro instrumento bem importante é o diagrama de dispersão, em que o eixo x e o eixo y são representados pelas notas em matemática e estatística, respectivamente: Os pontos obtidos claramente tem uma correlação linear, ou seja, tem como “imagem” uma reta. Como temos neste caso uma reta ascendente, a correlação é chamada correlação linear positiva. Se os pontos tivessem como “imagem” uma reta descendente, teríamos uma 36 correlação linear negativa. Se os pontos tivessem como “imagem” uma curva (e não uma reta) teríamos uma correlação não linear. O grau de intensidade da correlação é medido pelo coeficiente de correlação. O coeficiente de correlação de Pearson é dado por: , onde n é o número de observações Lembre que existem vários tipos de correlação: Pearson; Spearman; parcial; múltipla, etc. Estudaremos somente a primeira. 15.1.1 Características de r 1) O valor de r varia de –1,00 a +1,00; 2) Um relacionamento positivo (r é +) indica uma correlação positiva entre duas variáveis. Os valores altos (baixos) de uma das variáveis, correspondem valores altos (baixos) da outra; 3) Um relacionamento negativo (r é ) indica uma correlação negativa entre duas variáveis. Os valores altos (baixos) de uma das variáveis, correspondem valores baixos (altos) da outra; Logicamente se r = +1 temos uma correlação perfeita e positiva, se r = 1 temos uma correlação perfeita e negativa e se r = 0 não temos correlação ou a relação é não linear. Obs: se 0,3 ≤ |r| ≤ 0,6 temos uma correlação fraca, e se 0 ≤|r| ≤ 0,3 a correlação é muito fraca e na prática não podemos afirmar nada sobre a relação entre as variáveis. 15.1.2 Exemplo resolvido: Vamos calcular o coeficiente de correlação relativo à tabela de notas de matemática e estatística. A melhor maneira é associar à tabela os valores de xy, x 2 e y 2 . Aluno Nota em Matemática (x) Nota em Estatística (y) xy x 2 y 2 1 5 6 30 25 36 4 7.5 8 60 56.25 64 7 6.5 6 39 42.25 36 13 8 9 72 64 81 15 9.5 10 95 90.25 100 22 3 4 12 9 16 26 5.5 5 27.5 30.25 25 31 9 10 90 81 100 33 7 7.5 52.5 49 56.25 40 2 2.5 5 4 6.25 ∑ 63 68 483 451 520.5 37 Lembrando que n = 10 temos: O que indica uma correlação linear positiva forte entre as variáveis, ou seja, quem estuda mais matemática, sabe mais estatística. Lembrese disso! 15.2 Regressão Após a análise de correlação, temos indicação de forte relacionamento entre duas variáveis. Agora o problema é determinar uma função matemática que exprima este relacionamento. Esse é o problema da regressão, ou seja, descrever a relação entre duas variáveis de acordo com um modelo matemático. Assim, se uma variável explica o comportamento da outra, temos uma variável dependente e outra independente. Admitindo que a forma da linha de regressão seja uma reta, temos X como variável independente, Y como variável dependente (aquela sobre a qual queremos fazer uma estimativa) e queremos obter uma função definida por: Y = aX + b (função de 1º grau, que você com certeza já estudou em matemática) Para calcular os parâmetros a e b, usaremos as seguintes equações: b = y – ax onde n é o número de observações, x é a média dos valores xi e y é a média do valores yi . Uma observação importante: como estamos utilizando uma amostra para obtermos os valores dos parâmetros, a equação que encontraremos é uma estimativa da “verdadeira” função que relaciona nossas variáveis. 15.2.1 Exemplo resolvido: Vamos mais uma vez utilizar as notas de matemática e estatística e completar a tabela. Aluno Nota em Matemática (x) Nota em Estatística (y) xy x 2 1 5 6 30 25 4 7.5 8 60 56.25 7 6.5 6 39 42.25 13 8 9 72 64 15 9.5 10 95 90.25 22 3 4 12 9 38 26 5.5 5 27.5 30.25 31 9 10 90 81 33 7 7.5 52.5 49 40 2 2.5 5 4 ∑ 63 68 483 451 Sabendo que n = 10, temos: Nossa equação final portanto é: Yestimado = 1,009242 X + 0,44177 Podemos finalmente fazer uma interpolação, ou seja, estimar valores de Y de acordo com um dado X. A nota de estatística correspondente a 4,0 em matemática (X) é: Yestimado = 1,009242 . 4 + 0,44177 = 4,478 15.3 Exercícios 1) Complete a tabela de cálculo e encontre o coeficiente de correlação linear para as seguintes variáveis: xi 4 6 8 10 12 yi 12 10 8 12 14 xi yi xiyi xi 2 yi 2 4 12 48 16 144 … … … … … … … … … … … … … … … 12 14 168 144 196 ∑ = … ∑ = … ∑ = … ∑ = … ∑ = … Resposta: r = 0,42 39 2) Complete a tabela de cálculo e defina a reta de ajustamento aos dados: xi 2 4 6 8 10 12 14 yi 30 25 22 18 15 11 10 xi yi xiyi xi 2 2 30 60 4 … … … … … … … … … … … … … … … … … … … … 14 10 140 196 ∑ = … ∑ = … ∑ = … ∑ = … Resposta: Yestimado = 1,69X + 32,28 3) A partir da tabela abaixo: xi 1 2 3 4 5 6 yi 70 50 40 30 20 10 a. Calcule o coeficiente de correlação b. Determine os parâmetros para ajuste da reta c. Estime Y para X = 0 d. Estime Y para X = 5,5 40 16 Númerosíndices Númerosíndices são usados para indicar variações relativas em quantidades, preços, ou valores de um artigo, durante um período de tempo ou em diferentes espaços. Como exemplo de utilização, temos a medição de perda do poder aquisitivo da população ao longo de um ano, ou o acompanhamento da inflação. O mais importante aqui é perceber que em muitas situações empregaremos números relativos, em vez de números absolutos, para facilitar comparações. 16.1 Exemplo: Temos a seguir uma tabela com quantiades e preços para um determinado item de acordo com os meses do ano. Meses Quantidade (Kg) Preço (R$/Kg) Valor total Jan 2 6 12 Fev 2.5 7.2 18 Mar 3 7.8 23.4 Abr 2.6 9 23.4 Agora, podemos calcular como evoluiram a quantidade comprada, o preço por Kg e o valor total pago tendo como base o mês de janeiro. A idéia é simplesmente chamarmos nossa base de 1 e calcularmos a razão entre os valores das variáveis no mês x e os valores das variáveis no mês base. Meses Quantidade (Kg) Preço (R$/Kg) Valor total Jan 1 1 1 Fev 1.25 1.2 1.5 Mar 1.5 1.3 1.95 Abr 1.3 1.5 1.95 Desse modo, podemos perceber que a quantidade comprada em abril é 30% maior que a quantidade comprada em janeiro, e o preço em fevereiro foi 20% maior que o preço de janeiro. Repare que todos os valores são relativos ao valores base de janeiro, ou seja, dividimos a quantidade, preço e valor total de cada mês pelas quantidades, preços e valores totais de janeiro. Formalizando um pouco mais, representaremos por 0 a época base, e por t a época atual, de modo que teremos: P0 – preço na época base Pt – preço na época atual 41 Q0 – quantidade na época base Qt – quantidade na época atual V0 – valor na época base Vt – valor na época atual Atribuindo o valor 100 à época base, teremos as seguintes equações (baseadas em regra de três simples) para calcularmos os relativos: (relativo de preço) (relativo de quantidade) (relativo de valor) 16.2 Exercício resolvido: Sabendo que o preço de determinado produto era R$50 em 2004 e R$60 em 2005, calcule o relativo de preço em 2005, tomando como base o ano de 2004. Notação: P2004 = R$50 e P2005 = R$60 P2004,2005 = (60 / 50) . 100 = 120, temos então P2004,2005 = 120% O aumento de preço foi de 120 – 100 = 20% 16.3 Índice Agregativo O que estudamos até agora é a caracterização da evolução de preço, quantidade ou valor total pago para apenas um produto. Porém, para estudar variações de preços no mercado, precisamos de um índice que caracterize a variação de preços de um conjunto de bens (agregado). Assim, precisamos de um índice agregativo. Existem algumas possibilidades de cálculo de índices agregativos. Aqui veremos apenas o índice de Laspeyres. Lembrando que 0 é a época base e t a época atual, temos: Obs: Muitos índices são utilizados em nossa vida cotidiana. Pesquise na internet alguns dos mais importantes como o Índice de custo de vida, o Índice de Preços ao Consumidor (IPC) e o Índice Geral de Preços (IGP). 42 16.4 Exercícios: 1) Dada a tabela abaixo, calcule os índices, tomando 1991 como ano base: Anos 1989 1990 1991 1992 1993 1994 Índices (1989 = 100) 100 152 203 321 415 580 2) Observando a tabela abaixo, calcule o índice ponderado de preços de acordo com a fórmula de Laspeyres. 1993 1994 BENS p q p q A 20 4 28 3 B 40 3 56 3 C 15 8 30 12 43 17 Introdução aos testes de hipóteses e significância Em situações cotidianas, precisamos com alguma frequência tomar decisões sobre populações com base apenas em amostras. Assim, é conveniente a determinação de hipóteses ou suposições, que podem ou não ser verdadeiras. Na prática, formulamos uma hipótese com o propósito de validação ou rejeição. Tal hipótese criada é chamada de hipótese nula e representada por H0. Qualquer outra hipótese é chamada de hipótese alternativa e denominada H1. Imagine que queremos descobrir se uma moeda é viciada. Temos por hipótese que ela não o é. Assim formulamos p = 0,5, em que p é a probabilidade de obtermos “cara” em um lançamento. Essa é nossa hipótese H0 (moeda não viciada) e p ≠ 0,5 é nosso H1 (moeda viciada). Os processos que nos levam a definir se as hipóteses são ou não são válidas, ou seja, se os resultados das amostras diferem de modo significativo ou não dos resultados esperados, são chamados testes de hipóteses. É importante lembrar que em um teste de hipótese nosso foco é aceitar ou rejeitar nossa hipótese nula, ou seja, aceitar ou rejeitar H0 17.1 Erros do Tipo I e II Se uma hipótese é rejeitada quando deveria ter sido aceita, temos um erro do tipo I. Se uma hipótese é aceita quando deveria ter sido rejeitada, temos um erro do tipo II. É claro que deveremos sempre atuar no sentido de diminuir ambos, mas na prática a tentativa de diminuir um tipo de erro leva ao aumento na chance de erro do outro tipo. O caminho para redução dos dois tipo de erro é o aumento do tamanho da amostra, o que nem sempre é possível. 17.2 Nível de significância Ao realizarmos os testes de hipóteses, chamamos de nível de significância (α) a probabilidade máxima que estamos sujeitos a correr para o erro do tipo I. Os níveis tradicionais são 0,01 (1%) ou 0,05 (5%). 17.3 Tipos de testes Os principais tipo de testes são os que envolvem a distribuição normal e são testes de médias e proporções de populações com base em amostras. Podemos testar se as médias (ou proporções) de determinada população estão de acordo com nossas hipóteses. Um exemplo seria testar se a média de notas de uma turma de 100 alunos de estatística está dentro de uma meta estipulada. O teste seria feito com uma amostra de, por exemplo, 10% dos alunos. Também são comuns testes de diferenças nas médias e nas proporções, para comparações de duas populações diferentes. Podemos, utilizando estes métodos, saber, com um nivel de 44 significância determinado, se duas turmas tem mesmo rendimento (mesma média), com base em amostras. Não deixe de procurar na internet e na literatura recomendada mais referências aos testes de hipóteses. Eles são de grande importância para uma compreensão mais aprofundada da estatística. 18 Literatura recomendada / Referências bibliográficas Nível Básico: Crespo, Antonio Arnot. Estatística Fácil. 17ª Edição. Saraiva, 2002. Pereira, Paulo Henrique. Noções de Estatística. Papirus, 2004. Nível aprofundado: Costa Neto, Pedro Luiz de Oliveira. Estatística. 2ª Edição. Blucher, 2002.