Esta é uma pré-visualização de arquivo. Entre para ver o arquivo original
UNIVERSIDADE FEDERAL DA INTEGRAÇÃO LATINO�AMERICANA ESTATÍSTICA Disciplina de Estatística Foz do Iguaçu�PR Brasil Julho�2013 Sumário 1 Noções Introdutórias sobre Estatística 1 1.1 Conceitos Básicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 2 Organização dos Dados 6 2.1 Distribuição de frequências . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 2.1.1 Gráfico de distribuições de frequências em Classes . . . . . . . . . . . . 10 3 Medidas Resumo 12 3.1 Medidas de Posição . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 3.1.1 Média Aritmética . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 3.1.2 Média Aritmética Ponderada . . . . . . . . . . . . . . . . . . . . . . . . . 13 3.1.3 Moda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 3.1.4 Mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 3.1.5 Quartis, Decis e Percentis . . . . . . . . . . . . . . . . . . . . . . . . . . 17 3.2 Boxplot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 3.3 Medidas de Dispersão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 3.3.1 Amplitude Total (AT) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 3.3.2 Variância e Desvio Padrão . . . . . . . . . . . . . . . . . . . . . . . . . . 19 3.3.3 Coeficiente de Variação . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 4 Apresentação dos Dados 24 4.1 Tabela . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 4.1.1 Tabela Simples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 4.1.2 Tabela de dupla entrada ou de contigência . . . . . . . . . . . . . . . . . 25 4.2 Gráficos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 4.2.1 Elementos e Normas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 Estatística - Prof a . Alessandra Cristiane Sibim SUMÁRIO 3 4.2.2 Principais tipos de Gráficos . . . . . . . . . . . . . . . . . . . . . . . . . 27 4.2.3 Gráficos em Colunas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 4.2.4 Gráfico em Barras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 4.2.5 Gráficos em Linhas ou Lineares . . . . . . . . . . . . . . . . . . . . . . . 29 4.2.6 Gráficos em Setores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 4.2.7 Gráfico Comparativo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 4.2.8 Cartograma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 5 Probabilidade 32 5.1 Teoria de Conjuntos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 5.1.1 Operações com Eventos . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 5.2 Definição clássica de probabilidade . . . . . . . . . . . . . . . . . . . . . . . . . 34 5.3 Probabilidade Condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 5.4 Eventos Independentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 5.5 Eventos mutuamente exclusivos . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 5.5.1 Partição do espaço amostral . . . . . . . . . . . . . . . . . . . . . . . . . 38 5.5.2 Probabilidade Total . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 6 Variável Aleatória 39 6.1 Variáveis Aleatórias Discretas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 6.1.1 Função Discreta de Probabilidade . . . . . . . . . . . . . . . . . . . . . . 40 6.2 Esperança de uma v.a. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 6.2.1 Propriedades da Esperança . . . . . . . . . . . . . . . . . . . . . . . . . . 41 6.3 Variância . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 6.3.1 Propriedades da Variância . . . . . . . . . . . . . . . . . . . . . . . . . . 41 6.4 Principais distribuições discretas de probabilidade . . . . . . . . . . . . . . . . . 43 6.4.1 Distribuição de Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . . 43 6.4.2 Distribuição Binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 6.5 Distribuição Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 6.5.1 Normal Padrão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 Estatística - Prof a . Alessandra Cristiane Sibim Capítulo 1 Noções Introdutórias sobre Estatística Introdução Apesar do termo �estatística� ser relativamente novo, a sua origem é muito antiga. Tem-se como evidência que suas primeiras técnicas surgiram Antes de Cristo, o que pode ser observado em alguns versículos da Bíblia. O recenseamento é uma técnica de contagem, esta por sua vez, é uma técnica muito utilizada estatisticamente até os dias atuais, pode-se exemplificar como uso dessa técnica o censo populacional realizado pelo IBGE (Instituto Brasileiro de Geografia e Estatística). O termo Estatística, deriva do termo �Estadística� que vem das �coisas do estado�. Atualmente o termo se desvinculou do temo Estado e adquiriu vida própria. Estatística constitui atualmente o �status� de ciência com aplicabilidade em praticamente todas as áreas do saber. O que faz a Ciência Estatística? • Coleta; • Organiza; • Representa; • Análise e interpretação de dados. Com o objetivo de extrair informações sobre uma população. A grosso modo pode-se dividir a Estatística em três áreas: • Estatística Descritiva • Probabilidade • Inferência Estatística ESTATÍSTICA DESCRITIVA: Estatística Descritiva é em geral utilizada na etapa inicial da análise quando tomamos contato com os dados pela primeira vez, com o objetivo de Estatística - Prof a . Alessandra Cristiane Sibim 1. NOÇÕES INTRODUTÓRIAS SOBRE ESTATÍSTICA 2 tirar conclusões de modo informal e direto. Ou seja, pode ser definida como um conjunto de técnicas destinadas a descrever e resumir os dados a fim de que possamos tirar conclusões a respeito das características de interesse, ou ainda, ela organiza e representa os dados. Ao se deparar com os dados que se pretende analisar, observamos algumas características sobre essas medidas: quais são os tipos de variáveis estamos tratando e quais as técnicas de descrição gráfica e tabular que se deve utilizar. Variáveis: medidas obtidas da amostra. Por exemplo, desejamos registrar a idade das pessoas ao morrer, a estatura ou peso dos indivíduos, o rendimento das famílias em uma grande cidade, o número de empregados dispensados, por mês, em uma grande empresa, a distribuição dos alunos por sexo, etc. Uma variável pode ser: Qualitativa: Quando seus valores forem expressos por atributos (não numéricas). Dividem-se em: • Nominal ( sexo, estado civil, etc. ) • Ordinal (estágios: primeiro, segundo, terceiro, etc.) Quantitativas: Os valores da variável são numéricos. Divindo-se em: • Contínuas: Quando podem assumir valores num intervalo. (peso, altura, etc. ) • Discretas: Quando assumem valores pontuais, geralmente de números inteiros. (número de filhos de um casal, etc. ) Obs.: Em geral, as medições dão origem às variáveis contínuas e as contagens ou enumerações às variáveis discretas. Estatística - Prof a . Alessandra Cristiane Sibim 1. NOÇÕES INTRODUTÓRIAS SOBRE ESTATÍSTICA 3 Resumo das Variáveis: Nominal Qualitativa 66 (( Ordinal Variável ## ;; Discreta Quantitativa 66 (( Contínua TÉCNICAS DE DESCRIÇÃO GRÁFICA E TABULAR • Tabular: Os dados são organizados em linhas e colunas, com respectivas frequências, de acordo com o tipo de fenômeno em estudo. As normas para construção são elaboradas pelo Conselho Nacional de Estatística e divulgadas pelo IBGE. • Gráfica: Permite visualização imediata dos resultados. Os tipos de gráficos dependem do fenômeno em estudo. Ex: barras, em setores, de linhas, etc. CARACTERÍSTICAS NUMÉRICAS PARA UM CONJUNTO DE DADOS: • Medidas de Posição: são medidas centrais, que representam o centro da distribuição podem-se considerar exemplos dessas medidas a média, a moda, a mediana e os quartis. • Medidas de Dispersão: são medidas de dispersão em relação à média: a amplitude, desvio padrão e a variância. PROBABILIDADE:Pode ser pensada como a teoria matemática utilizada para se estudar a incerteza oriunda de fenômenos de caráter aleatório. INFERÊNCIA ESTATÍSTICA:É o estudo de técnicas que possibilitam a extrapo- lação, a um grande conjunto de dados, das informações e conclusões obtidas a partir de um subconjunto de valores. (afirmações sobre o todo com base na amostra). Estatística - Prof a . Alessandra Cristiane Sibim 1. NOÇÕES INTRODUTÓRIAS SOBRE ESTATÍSTICA 4 1.1 Conceitos Básicos População: É o conjunto de todos os elementos sobre as quais há o interesse de investigar uma ou mais característica. A população pode ser formada por pessoas, domicílios, peças de produção, cobaias, ou qualquer outro elemento a ser investigado. Representaremos por "N"o número de elementos de uma população finita. Amostra: É um subconjunto dos elementos que constituem a população, obtido atra- vés de técnicas de amostragem a qual estudaremos mais adiante. Representamos por "n"o número de elementos da amostra. Censo: É o processo utilizado para levantar as características observáveis, abordando todos os elementos de uma população. Exemplos: • Tirar conclusões sobre a altura, peso, idade de 50 estudantes de Desenvolvimento Rural da UNILA, observando apenas 12 estudantes. População = 50 Amostra = 12. • Investigar a porcentagem de lajotas defeituosas fabricadas em uma indústria, durante 6 dias, examinando 20 peças por dia. População = todos as lajotas fabricadas durante 6 dias Amostra = o subconjunto de 6x20=120 peças, selecionadas para estudo Obs: I) Amostragem é mais vantajosa: - População infinita - Tempo limitado - Teste destrutivo - Custo muito alto Obs: II) Censo é mais vanta- joso: - População pequena - Tamanho da amostra grande em relação a população - Exigência de precisão completa Estatística - Prof a . Alessandra Cristiane Sibim 1. NOÇÕES INTRODUTÓRIAS SOBRE ESTATÍSTICA 5 Parâmetros: é a medida numérica (média, variância, proporção, etc) que descreve uma característica de interesse da população, geralmente os parâmetros populacionais são des- conhecidos pois na maioria das vezes não obtemos todos os dados da população. Estatística: alguma medida descritiva das variáveisX1, X2, . . . , Xn associadas à amos- tra. População Amostra Parâmetros Estatísticas Média µ = ∑ xi N x¯ = ∑ Xi n Variância σ2 = ∑ (xi−µ)2 N S2 = ∑ (Xi−x¯)2 n−1 Proporção p = n o elementos com atributo N pˆ = n o elementos com atributo n Exercício: Classifique as seguintes variáveis em qualitativas (nominal/ordinal) ou quantitativa (discreta/contínua). a) Classe social b) Número de clientes c) Salário d) Cidade e) Departamento que trabalha f) Número de filho g) Diâmetro de uma peça h)Nível de escolaridade i) Número de processos analisados j) Opinião sobre a reforma agrária k) Peso de um produto (kg) l) Qualidade do atendimento de um estabelecimento m) Número de telefonemas n) Estado Civil o) Idade (anos) p) Distância de sua casa na faculdade q) Número de idas ao cinema por semana Estatística - Prof a . Alessandra Cristiane Sibim Capítulo 2 Organização dos Dados A questão inicial é: dado um conjunto de dados, como �tratar� os valores, numéricos ou não, a fim de se extrair informações a respeito de uma ou mais características de interesse? Basicamente, faremos uso de tabelas de frequências e gráficos, notando que tais procedimentos devem levar em conta a natureza dos dados. Suponha, por exemplo, que um questionário foi aplicado aos alunos do curso de desenvolvimento rural da UNILA, fornecendo as seguintes informações: Idade: Idade em anos; Altura: Altura em metros; Peso: Peso em quilogramas; Estado Civil: Solteiro, casado, divorciado e viúvo. Estado civil Idade Peso Altura Estado civil Idade Peso Altura solteiro 20 74 1,68 casado 46 70 1,70 solteiro 18 46 1,60 solteiro 19 70 1,78 solteiro 19 62 1,60 solteiro 28 58 1,65 solteiro 19 64 1,70 solteiro 21 68 1,60 solteiro 25 98 1,90 solteiro 23 62 1,70 solteiro 24 68 1,72 solteiro 19 66 1,74 solteiro 20 60 1,70 solteiro 20 74 1,80 solteiro 35 71 1,68 solteiro 22 90 1,86 solteiro 19 67 1,62 casado 58 98 1,80 solteiro 20 79 1,87 solteiro 24 74 1,73 solteiro 19 80 1,75 solteiro 20 70 1,70 solteiro 20 65 1,74 casado 26 95 1,60 solteiro 20 74 1,60 solteiro 20 46 1,54 solteiro 20 65 1,70 solteiro 21 69 1,57 solteiro 19 53 1,63 solteiro 19 57 1,57 solteiro 19 60 1,67 solteiro 19 59 1,61 solteiro 23 45 1,60 solteiro 17 58 1,49 divorciado 26 70 1,70 solteiro 20 62 1,70 solteiro 20 75 1,70 solteiro 20 60 1,65 solteiro 21 75 1,70 solteiro 22 49 1,60 solteiro 19 73 1,76 Estatística - Prof a . Alessandra Cristiane Sibim 2. ORGANIZAÇÃO DOS DADOS 7 O conjunto de informações disponíveis, após a tabulação do questionário ou pesquisa de campo, é denominado tabela de dados brutos e contém os dados da maneira que foram coletados inicialmente. Em nosso caso temos quatro variáveis envolvidas sendo uma qualitativa (estado civil) e as restantes quantitativas (idade, peso, altura). 2.1 Distribuição de frequências As tabelas de dados brutos apesar de conter muita informação pode não ser prática para respondermos às questões de interesse. Para a análise ficar mais prática vamos construir uma nova tabela com as informações resumidas, para algumas das variáveis. Esta tabela será denominada de tabela de frequência e, como o nome indica conterá os valores da variável e suas respectivas contagens, as quais são denominadas frequências absolutas ou simplesmente frequência (Fi). Exemplo: Verificando os dados sobre a variável Estado Civil da tabela de dados brutos temos Estado Civil Fi Solteiro 37 Casado 3 Divorciado 1 Viúvo 0 Para efeito de comparação com outros grupos de conjunto de dados, será conveniente acrescentarmos uma coluna na tabela de frequências contendo o cálculo da frequência relativa, definida por fi = Fi/n. Estado Civil Fi fi Solteiro 37 0,90 Casado 03 0,07 Divorciado 01 0,02 Viúvo 00 0,00 Ainda a respeito das distribuições de frequências, vamos considerar agora a variável estatura. Partindo desses dados é difícil averiguar em torno de que valor tendem a se concen- trar as estaturas, qual a menor ou qual a maior estatura, ou ainda, quantos alunos se acham abaixo ou acima de uma dada estatura. Assim, conhecidos os valores de uma variável é difícil formarmos uma ideia exata do comportamento do grupo como um todo, a partir dos dados de- sordenados. A maneira mais simples de organizar os dados é através de um parâmetro crescente ou decrescente. Podemos dispor esses dados através de uma tabela de frequências. Estatística - Prof a . Alessandra Cristiane Sibim 2. ORGANIZAÇÃO DOS DADOS 8 Alturas Frequência Alturas Frequência 1,49 1 1,72 1 1,54 1 1,73 1 1,57 2 1,74 2 1,60 7 1,75 1 1,61 1 1,76 1 1,62 1 1,78 1 1,63 1 1,80 2 1,65 2 1,86 1 1,67 1 1,87 1 1,68 2 1,90 1 1,70 10 Mas, o processo dado acima ainda é inconveniente, já que exige muito espaço, mesmo quando o número de valores da variável n é de tamanho razoável, e não nos esclarece muita coisa. Desta forma, o melhor seria formar agrupamentos. Assim, se um dos intervalos for, por exemplo, 1,61 ` 1,67, em vez de dizermos que a estatura de 1 aluno é 1,61 m, de 1 aluno é 1,62 m, de 1 aluno 1,63 m e de 2 alunos 1,65 m, diremos que 05 alunos têm estatura entre 1,57 m e 1,67. Deste modo, estaremos agrupando os valores da variável em intervalos, sendo que em estatística, preferimos chamá-los de intervalos de classes. Tabela 2.1: Estatura dos alunos do curso de D.R.S.A.�UNILA, Foz do Iguaçu, 2013. Altura em m (Fi) Fac fi xi ` ` 1,61 ` 1,67 05 16 0,12 1,64 ` ` ` ` TOTAL 41 � � Fonte: alunos DRSA O que se pretende com a construção desta tabela é realçar o que há de essencial nos dados e, também, tornar o uso de técnicas analíticas para a sua total descrição, até porque a Estatística tem por finalidade específica analisar o conjunto de valores, desinteressando-se por casos isolados. As distribuições de frequências são séries onde todos os elementos, época, local e es- pécie, são fixos e os dados referentes ao fenômeno que se está representando são reunidos de acordo com sua magnitude, ou seja, são agrupados de acordo com a intensidade ou variação quantitativa do fenômeno. Consiste na organização dos dados de acordo com as ocorrências dos diferentes resultados observados. Estatística - Prof a . Alessandra Cristiane Sibim 2. ORGANIZAÇÃO DOS DADOS 9 Elementos de uma Distribuição de Frequências • Amplitude Total (AT): É a diferença entre o maior e o menor valor dos dados obser- vados. AT = Vmax − Vmin. • Classes (k): A sintetização dos dados em tabelas nos leva a separá-los em subconjuntos segundo k classes de valores. Existem diversas maneiras para se encontrar o número de classes (k), uma delas é a raiz quadrada do número de elementos (k = √ n ou k = √ N), quando n ou N < 30, caso contrário utilizaremos a fórmula de Sturges: k = 1 + 3, 22 · log(n) (n ou N ≥ 30). Na realidade, a prática do pesquisador é que vai determinar se o número de classes é razoável (5 ≤ k ≤ 12), levando em conta a amplitude total (AT) e o número de elementos (n ou N). Também é conveniente fazer algumas observações após sua construção. Evitar em uma distribuição de frequências: � Classes com frequência absoluta zero; � Muitas classes com um número concentrado e semelhante de elementos. • Amplitude das Classes (h): É o intervalo de valores estabelecido para cada classe. h = AT k Obs: { h tem que ter o mesmo número de casas decimais que os escores. h deve ser arredondado somente para um valor maior. • Limites de Classes (li ou Ls): São os valores extremos de cada intervalo de classe representados por: li = limite inferior e Ls = limite superior. • Frequências Absolutas de Classes (Fi): É o número de dados cujos valores pertencem a cada classe. • Ponto Médio das Classes (xi): É o valor que representa os elementos de uma classe. xi = li+Ls 2 Obs: No caso de variáveis discretas cujo os dados não estejam reunidos em classes, xi representa cada valor discreto que a variável assume, sem necessidade de valor para representa-lo. • Frequências Absolutas Acumuladas (Fac): Consiste em acumular o número de dados de uma dada classe acrescido de todos os dados das classes anteriores. • Frequências Relativas (fiou fi%): É a proporção de dados em cada classe, dada pela expressão: fi = Fi n ou fi% = Fi n .100 • Frequências Absolutas Acumuladas Percentuais (Fac%): Traduzem a percentagem de dados acumulados até a classe i. Estatística - Prof a . Alessandra Cristiane Sibim 2. ORGANIZAÇÃO DOS DADOS 10 Exercício: Os dados a seguir representam 20 observações relativas ao índice pluvio- métrico em determinados municípios de um Estado. Mílimetro de Chuva. 144 152 159 160 160 151 157 146 154 145 141 150 142 146 142 141 141 150 143 158 Construa a tabela de distribuição de frequência para este caso. 2.1.1 Gráfico de distribuições de frequências em Classes Os principais gráficos para representação de distribuição de frequências são: 1. Histograma. 2. Polígono de frequências absolutas. Histograma O histograma é um gráfico de barras contíguas, com as bases proporcionais aos interva- los das classes e a área de cada retângulo proporcional á respectiva frequência, seja a absoluta ou a relativa. Quanto mais dados tiver na classe mais alto será o retângulo. A área total do histograma será igual a 1. Considere os seguintes dados fictícios, referentes aos hectáres produtivos no município de Água Escura no ano 2000. Tabela 2.2: Hectáres produtivos no município de Água Escura, 2000. Hectáres Fi 05 ` 09 4 09 ` 13 6 13 ` 17 7 17 ` 21 5 21 ` 25 10 25 ` 29 8 29 ` 33 10 TOTAL 50 Fonte: dados fictícios O gráfico para essa tabela de frequência é dado na Figura 2.1. Estatística - Prof a . Alessandra Cristiane Sibim 2. ORGANIZAÇÃO DOS DADOS 11 Figura 2.1: Polígono de frequência para os hectáres produtivos no município de Água Escura, 2000. Polígono de Frequência O polígono de frequência é contruído unindo-se os pontos médios dos retângulos obtidos no histograma. O que podemos observar na figura abaixo. Figura 2.2: Polígono de frequência para os hectares produtivos. Exercício 1: Construa o histograma e o polígono de frequência para a variável esta- tura. Exercício 2: Construa a tabela, o histograma e o polígono de frequência para a variáveis idade e peso. Estatística - Prof a . Alessandra Cristiane Sibim Capítulo 3 Medidas Resumo São medidas que buscam sumarizar as informações disponíveis sobre o comportamento de uma variável. Nosso interesse é caracterizar o conjunto de dados por meio de medidas que resumam a informação, por exemplo, representando a tendência central dos dados ou a maneira pela qual estes dados estão dispersos. 3.1 Medidas de Posição As medidas de posição podem se apresentar de várias formas, dependendo do que se pretende conhecer a respeito dos dados. Dentre elas as mais importantes são as medidas de tendência central, que são assim denominadas devido a tendência dos dados observados se agruparem em torno de valores centrais. As medidas de tendência central mais utilizadas são: a média aritmética, a moda e a mediana. 3.1.1 Média Aritmética Média é o quociente da divisão da soma dos valores da variável pela quantidade deles; Seja (x1, . . . , xn) um conjunto de dados, a média desse conjunto é dada por: x = n∑ i=1 xi n sendo, x: a média, xi : os valores da variável e n: quantidade de valores. Estatística - Prof a . Alessandra Cristiane Sibim 3. MEDIDAS RESUMO 13 3.1.2 Média Aritmética Ponderada Dados agrupados sem intervalos de classe Exemplo: Consideremos a distribuição relativa a 34 famílias de quatro filhos tomando para a variável o número de filhos do sexo masculino: Número de meninos Fi 0 2 1 6 2 10 3 12 4 4 Σ= 34 Qual o número médio de meninos por família? x = n∑ i=1 xiFi n = (0×2)+(1×6)+(2×10)+(3×12)+(4×4) 34 = 78 34 ∼= 2, 3 Assim a média é de 2,3 meninos por família. Dados agrupados com intervalos de classe Convencionamos que todos os valores incluídos em um determinado intervalo da classe coincidem com seu ponto médio, assim determinamos a média aritmética ponderada por x = n∑ i=1 xiFi n sendo xi o ponto médio da classe. Exemplo: A tabela a seguir representa a idade dos alunos do curso de medicina veterinária da UFBA, ano/1993. Calcule a idade média desses alunos. Classe de Idade Fi xi xi.Fi 21 ` 24 7 22,5 157,5 24 ` 27 8 25,5 204 27 ` 30 1 28,5 28,5 30 ` 33 5 31,5 157,5 33 ` 36 7 34,5 241,5 Σ 28 142,5 789 x = n∑ i=1 xi.Fi n = 789 28 ∼= 28, 18 Logo a idade média dos alunos é de aproximadamente 28,2 anos. Estatística - Prof a . Alessandra Cristiane Sibim 3. MEDIDAS RESUMO 14 3.1.3 Moda Moda é o valor que ocorre com maior frequência em uma série de valores. Exemplos: • {7 , 8 , 9 , 10 , 10 , 10 , 11 , 12 } a moda é igual a 10; • { 3 , 5 , 8 , 10 , 12 } (amodal); • { 2 , 3 , 4 , 4 , 4 , 5 , 6 , 7 , 7 , 7 , 8 , 9 } apresenta duas modas: 4 e 7. A série é bimodal. Dados agrupados sem intervalos de classe Uma vez agrupados os dados, é possível obter imediatamente a moda: basta fixar o valor da variável de maior frequência. Exemplo: Consideremos a distribuição relativa a 34 famílias de quatro filhos tomando para a variável o número de filhos do sexo masculino: Número de meninos Fi 0 2 1 6 2 10 3 12 4 4 Σ= 34 Qual a moda da variável número de meninos? Mo = 3 Dados agrupados com intervalos de classe A classe que apresenta maior frequência é denominada classe modal. Existem alguns métodos para calcular a moda: O método mais simples para o cálculo da moda consiste em tomar o ponto médio da classe modal. Exemplo:A tabela a seguir representa a idade dos alunos do curso de medicina vete- rinária da UFBA, ano/1993. Classe de Idade Fi xi 21 ` 24 7 � 24 ` 27 8 25,5 27 ` 30 1 � 30 ` 33 5 � 33 ` 36 7 � Assim a moda é 25, 5, ou seja, há uma maior quantidade de alunos com idade de 25,5 anos. Estatística - Prof a . Alessandra Cristiane Sibim 3. MEDIDAS RESUMO 15 3.1.4 Mediana A mediana de um conjunto de valores ordenados(crescente ou decrescente), é o valor situado de tal forma no conjunto que o separa em dois subconjuntos, de mesmo número de elementos. A mediana é considerada uma separatriz, por dividir a distribuição ou o conjunto de dados em duas partes iguais. Para o cálculo da mediana devemos considerar Med(X) = { x(n+1 2 ), se n ímpar; x(n2 ) +x(n2 +1) 2 , se n par. Exemplos: • X = {5, 2, 6, 13, 9, 15, 10} ordenando temos: X = { 2, 5, 6,︸ ︷︷ ︸ =3elementos 9, 10, 13, 15︸ ︷︷ ︸ =3elementos } assim Med(X) = 9 • Y = {1, 3, 0, 0, 2, 4, 1, 3, 5, 6} ordenando temos: Y = {0, 0, 1, 1, 2, 3, 3, 4, 5, 6} Med(X) = 2 + 3 2 = 2, 5 Dados agrupados sem intervalos de classe Exemplo: Consideremos a distribuição relativa a 34 famílias de quatro filhos tomando para a variável o número de filhos do sexo masculino: Número de meninos Fi Fac 0 2 2 1 6 8 2 10 18 3 12 30 4 4 34 Σ= 34 Estatística - Prof a . Alessandra Cristiane Sibim 3. MEDIDAS RESUMO 16 p = n∑ i=1 Fi 2 p = 34 2 = 17 a menor frequência que supera esse valor é o 18 que corresponde ao valor 2 da variável sendo este o valor mediano, assim Med= 2 meninos. Agora se tivermos, xi Fi Fac 12 1 1 14 2 3 15 1 4 16 2 6 17 1 7 20 1 8 Σ= 8 Temos p = 8 2 = 4 = Fac3 Logo ⇒Med = 15 + 16 2 = 15, 5 Dados agrupados com intervalos de classe Exemplo:A tabela a seguir representa a idade dos alunos do curso de medicina vete- rinária da UFBA, ano/1993. Classe de Idade Fi Fac 21 ` 24 7 7 24 ` 27 8 15 27 ` 30 1 16 30 ` 33 5 21 33 ` 36 7 28 Σ= 28 p = 28 2 = 14; define a classe mediana, localizar p na frequência acumulada (Fac). Estatística - Prof a . Alessandra Cristiane Sibim 3. MEDIDAS RESUMO 17 Md = li + [ p2 − Fac(ant) Fi ] × h = 24 + (14− 7) 8 × 3 = 24 + 21 8 = 26, 63 em que, li é o limite inferior da classe mediana; Fac(ant) é a frequência acumulada da classe anterior; h é a amplitude da classe e Fi é a frequência da classe mediana. 3.1.5 Quartis, Decis e Percentis A mediana seja de uma população ou de uma amostra divide o conjunto de dados em duas partes iguais. Também é possível dividi-lo em mais de 2 partes. Quando se divide um conjunto ordenado de dados em quatro partes iguais, os pontos da divisão são conhecidos como quartil; o primeiro quartil, Q1; é o valor que divide aproxima- damente, a quarta parte (25%) das observações abaixo dele, e os 75% restantes, acima dele. O segundo quartil é exatamente a mediana (Med). O terceiro quartil, Q3, tem aproximadamente os três quartos (75%) das observações abaixo dele. Para calcularmos os quartis primeiramente temos que encontrar a posição dos mesmos. O que pode ser feito pelas seguintes expressões pj = (n · j)/4, com j = 1,2 ou 3 e Qj = li + [ pj − Fac(ant) Fi ] × h (3.1) com, li é o limite inferior da classe definida por pj; Fac(ant) é a frequência acumulada da classe anterior; h é a amplitude da classe e Fi é a frequência da classe definida por pj. Quando dividimos o conjunto de dados em dez partes iguais temos os decis e quando o dividimos em cem partes temos os percentis, a fórmula para o cálculo dos decis(Dj) e percentis (Pj) é a mesma que dos quartis (Eq. 3.1), bastando mudar o valor de p, no caso dos decis temos pj = (n · j)/10, com j = 1, 2, . . . , 9 e para os percentis pj = (n · j)/100, com j = 1, 2, . . . , 99. Observe que existem relações entre quartis, decis e percentis. Q1 = P25, Q2 = D5 = P50, Q3 = P75, por exemplo. 3.2 Boxplot O boxplot é um gráfico que fornece uma visualização da distribuição dos dados, além de permitir detectar rapidamente uma possível assimetria dessa distribuição. Sua construção é baseada nas seguintes medidas: na mediana, no primeiro e terceiro quartil e nos valores extremos. A forma desse gráfico tem as seguintes características (veja a figura 3.1): • A caixa (�box") é delimitada pelo primeiro (Q1) e terceiro (Q3) quartil. A linha interior da caixa corresponde a mediana (Med = Q2). Estatística - Prof a . Alessandra Cristiane Sibim 3. MEDIDAS RESUMO 18 • A partir dos limites da caixa, considera-se duas linhas auxiliares que distam 1,5 o intervalo interquartil d = Q3 −Q1. Essas linhas não aparecerão no gráfico final. Elas servem para caracterizar os valores discrepantes que são os valores menores que L.I. = Q1− 1, 5 · d ou valores maiores que L.S. = Q3 + 1, 5 · d. Os valores discrepantes serão representados no gráfico com asteriscos (*). • Os limites do gráfico, representados por uma linha à direita e à esquerda ("bigodes") da caixa, correspondem ao maior e ao menor valores não discrepantes do conjunto de dados. Figura 3.1: Boxplot. 3.3 Medidas de Dispersão O resumo de um conjunto de dados por uma única medida de tendência central esconde toda a informação sobre a variabilidade do conjunto de observações. Por exemplo, suponhamos que se deseja comparar a performance de dois empregados, com base na seguinte produção diária de determinada peça: Empregado Variáveis Σ A 70; 71; 69; 70; 70 350 B 60; 80; 70; 59; 81 350 Temos que x¯A = 70 e x¯B = 70, de acordo com as médias diríamos que a performance de B é igual a de A, no entanto se observarmos a variabilidade, observamos que a performance de A é bem mais uniforme. Por esse motivo a dispersão dos dados em torno de sua média deve ser levada em consideração. As principais medidas de dispersão são: variância, desvio-padrão, amplitude total, e coeficiente de variação. Estatística - Prof a . Alessandra Cristiane Sibim 3. MEDIDAS RESUMO 19 3.3.1 Amplitude Total (AT) Amplitude Total ( AT ) é a diferença entre o maior e o menor valor observado. AT = x (máx) − x ( mín) Dados agrupados em classes: Neste caso a AT é dada pela diferença entre o limite superior da última classe e o limite inferior da primeira classe. AT = Ls − li A amplitude total não é muito utilizada como medida de dispersão, dado que ela contém relativamente pouca informação quanto a dispersão, pois seu cálculo depende de apenas dois valores do conjunto de dados. Aplicações da amplitude total como medida de dispersão podem ser encontradas em controle de qualidade. 3.3.2 Variância e Desvio Padrão A variância é a medida que fornece o grau de dispersão, ou variabilidade dos valores do conjunto de observações em torno da média. Ela é calculada tomando-se a média dos quadrados dos desvios em relação à média. Dados não agrupados. σ2x = n∑ i=1 (xi − µ)2 N → dados populacionais, nesse caso representaremos variância por σ2. S2 = n∑ i=1 (xi − X¯)2 n−1 → dados amostrais, nesse caso representaremos a variância por S2. Dados agrupados em tabelas de frequência σ2x = n∑ i=1 (xi − µ)2.Fi N → dados populacionais, nesse caso representaremos variância por σ2. S2 = n∑ i=1 (xi − X¯)2.Fi n−1 → dados amostrais, nesse caso representaremos a variância por S2. Desvio Padrão Como a variância é uma medida de dimensão igual ao quadrado da dimensão dos dados, pode-se causar problemas de interpretação. Então costuma-se usar o desvio padrão, que é definido como a raiz quadrada da variância Estatística - Prof a . Alessandra Cristiane Sibim 3. MEDIDAS RESUMO 20 S = √ S2 ou σ = √ σ2 Propriedades do desvio padrão e da variância 1. Somando (ou subtraindo) um valor constante e arbitrário, k a cada elemento de um conjunto de números, o desvio padrão desse conjunto não se altera, essa propriedade também vale para variância. 2. Multiplicando (ou dividindo) por um valor constante c, cada elemento de um conjunto de números, o desvio padrão fica multiplicado (ou dividido) pela constante c, no caso da variância ela fica multiplicada pela constante elevado ao quadrado. 3.3.3 Coeficiente de Variação O Coeficiente de variação é uma medida relativa da dispersão ou variabilidade dos dados em termos relativos ao seu valor médio: CV% = σ µ .100 ou CV% = S X¯ .100 Critérios para interpretação. Quanto menor for o coeficiente de variação, mais representativa dos dados será a média. Coeficiente de variação acima de 50%, a média não é representativa. • Se 0% ≤ CV% < 30%, conclui-se pela baixa variabilidade dos dados e a média é uma ótima medida para representar os dados; • Se 30% ≤ CV% < 50% , conclui-se pela média variabilidade dos dados e a média é uma boa medida para representar os dados; • Se CV% ≥ 50% , conclui-se pela alta variabilidade dos dados e a média não é uma medida apropriada para representar os dados. Neste caso, deve-se pensar na mediana ou moda. Exemplo: Voltando ao exemplo da performance dos dois empregados, vamos calcular a variância, o desvio padrão e o coeficiente de variação dos dois conjuntos de valores de produção diaria dos empregados A e B. Empregado Variáveis Σ A 70; 71; 69; 70; 70 350 B 60; 80; 70; 59; 81 350 Já vimos que: X¯A = 70 e X¯B = 70 Estatística - Prof a . Alessandra Cristiane Sibim 3. MEDIDAS RESUMO 21 Variância de A. S2A = n∑ i=1 (xi − X¯)2 n−1 = (70−70)2+(70−71)2+(70−69)2+(70−70)2+(70−70)2 5−1 = 1+1 4 = 2 4 = 0, 5 Desvio padrão e coeficiente de variação de A. SA = √ 0, 5 = 0, 7 e CV A% = 0,7 70 .100 = 1 Variância de B. S2B = n∑ i=1 (xi − X¯)2 n− 1 = (70− 60)2 + (70− 80)2 + (70− 70)2 + (70− 59)2 + (70− 81)2 5− 1 = 100 + 100 + 121 + 121 4 = 442 4 = 110, 5 Desvio padrão e coeficiente de variação de B. SB = √ 110, 5 = 10, 51 e CV B% = 10,51 70 .100 = 15, 01 Conclusão: as duas médias representam muito bem os dados, no entanto é fácil veri- ficar que a dispersão dos valores de B é muito maior que a de A. Exemplo: Considere a seguinte distribuição de frequências correspondente aos dife- rentes preços de um determinado produto em vinte lojas pesquisadas. Preços (R$) N o de lojas 50 2 51 5 52 6 53 6 54 1 Soma 20 Determinar a média, a variância, o desvio padrão e o coeficiente de variação dos preços. Adicionando as colunas complementares, a tabela completa fica: Estatística - Prof a . Alessandra Cristiane Sibim 3. MEDIDAS RESUMO 22 Preços (R$) N o de lojas xi.Fi (xi −X) (xi −X)2 (xi −X)2.Fi 50 2 100 -1,95 3,8025 7,605 51 5 255 -0,95 0,9025 4,5125 52 6 312 0,05 0,0025 0,015 53 6 318 1,05 1,1025 6,615 54 1 54 2,05 4,2025 4,2025 Σ 20 1039 22,95 A partir da última tabela, obtemos os valores desejados como segue: x¯ = n∑ i=1 xi.Fi n = 1039 20 = 51, 95(R$) S2 = n∑ i=1 (xi − X¯)2.Fi n−1 = 22,95 19 = 1, 21(R$)2 S = √ 1, 21 = 1, 1(R$) e CV% = 1,1 51,95 .100 = 2, 12 A média, nesse caso, é uma ótima medida para representar os dados, pois existe uma baixa variabilidade em torno desse valor. Exemplo: Um comerciante atacadista vende determinado produto em sacas que de- veriam conter 16,50 kg. A pesagem de 40 sacas revelou os resultados representado na tabela: Classes de peso Fi 14,55 ` 15,05 1 15,05 ` 15,55 3 15,55 ` 16,05 8 16,05 ` 16,55 9 16,55 ` 17,05 10 17,05 ` 17,55 6 17,55 ` 18,05 3 Soma 40 Determinar a média, a variância, o desvio padrão e o coeficiente de variação dos pesos. Segue a tabela com as colunas complementares: Estatística - Prof a . Alessandra Cristiane Sibim 3. MEDIDAS RESUMO 23 Classe de peso Fi xi xiFi (xi −X) (xi −X)2 (xi −X)2.Fi 14,55 ` 15,05 1 14,8 14,8 -1,68 2,8224 2,8224 15,05 ` 15,55 3 15,3 45,9 -1,18 1,3924 4,1772 15,55 ` 16,05 8 15,8 126,4 -0,68 0,4624 3,6992 16,05 ` 16,55 9 16,3 146,7 -0,18 0,0324 0,2916 16,55 ` 17,05 10 16,8 168 0,32 0,1024 1,024 17,05 ` 17,55 6 17,3 103,8 0,82 0,6724 4,0344 17,55 ` 18,05 3 17,8 53,4 1,32 1,7424 5,2272 Total 40 659 21,276 A partir da última tabela, obtemos os valores desejados como segue: x¯ = n∑ i=1 xi.Fi n = 659 40 = 16, 475Kg S2 = n∑ i=1 (xi − x¯)2.Fi n−1 = 21,276 39 = 0, 55Kg2 S = √ 0, 55 = 0, 74Kg e CV% = 0,74 16,475 .100 = 4, 48 O coeficiente de variação mostra a baixa variabilidade dos dados em torno da média, o que faz com que essa medida seja uma ótima medida para representar os dados. Estatística - Prof a . Alessandra Cristiane Sibim Capítulo 4 Apresentação dos Dados Após obtidos, os dados devem ser organizados em tabelas e/ou gráficos para que possam ser interpretados. 4.1 Tabela Tabela é um quadro que resume um conjunto de observações de uma população ou amostra. Um dos objetivos da Estatística é sintetizar os valores que uma ou mais variáveis podem assumir, para que se tenha uma visão global das alterações dessa(s) variável (is). Para isso utiliza-se de tabelas ou de gráficos. Uma tabela compõem-se de • Corpo: conjunto de linhas e colunas que contêm informações sobre a variável em estudo; • Cabeçalho: parte superior da tabela que especifica o conteúdo das colunas; • Coluna Indicadora: parte da tabela que especifica o conteúdo das linhas; • Linhas: retas horizontais imaginárias que facilitam a leitura dos dados que se inscrevem nos seus cruzamentos com as colunas; • Casa ou Célula: espaço destinado a um só número; • Título: conjunto de informações, as mais completas possíveis, respondendo as perguntas: O quê? Quando? Onde? Localizado no topo da tabela. Considera-se como elementos complementares da tabela a Fonte, as Notas, e as Chamadas, colocadas, de preferência no seu rodapé. Estatística - Prof a . Alessandra Cristiane Sibim 4. APRESENTAÇÃO DOS DADOS 25 De acordo com a Resolução 886 do IBGE, nas casas ou células da tabela devemos colocar : • um traço horizontal ( - ) quando o valor é zero; • três pontos ( ... ) quando não temos os dados; • zero ( 0 ) quando o valor é muito pequeno para ser expresso pela unidade utilizada; • um ponto de interrogação ( ? ) quando temos dúvida quanto à exatidão de determinado valor. Obs: O lado direito e esquerdo de uma tabela oficial deve ser aberto. . 4.1.1 Tabela Simples Tabela simples representa os valores de uma única variável. Tabela 4.1: Crescimento do Brasil em 2006 Área Porcentagem Transgênicos 22 Habitação 95 iPhone 50 SOMA 167 Fonte: Veja - janeiro 2007 4.1.2 Tabela de dupla entrada ou de contigência Tabela de Contingência é a representação, em uma única tabela, de valores de mais de uma variável, isto é, a conjugação de duas tabelas. Estatística - Prof a . Alessandra Cristiane Sibim 4. APRESENTAÇÃO DOS DADOS 26 Tabela 4.2: Sites de Segurança Contra as Ameaças Digitais FABRICANTE McAfee NORTON. AVG DETECÇÃO Prevenção 9 6,3 9 Firewall 8 7 8 Consumo de Memória 6,3 7 8 SOMA 23,3 20,3 25 Fonte: Veja - janeiro 2007 4.2 Gráficos O gráfico estatístico nada mais é que outra forma de apresentação dos dados estatísticos, com maior clareza que a tabela, muito embora as comparações numéricas proporcionadas pelas tabelas sejam mais exatas. O objetivo do gráfico é o de produzir, no investigador ou no público em geral, uma impressão rápida e viva do fenômeno em estudo, já que os gráficos tem um efeito visual mais rápido à compreensão que as tabelas. Meios de comunicação apresentam, diariamente, gráficos das mais variadas formas para auxiliar na apresentação das informações. Graças à proliferação de recursos gráficos, cuja construção tem sido cada vez mais simplificada em programas computacionais, existe hoje uma infinidade de tipos de gráficos que podem ser utilizados. Deve ser notado, entretanto, que a utilização de recursos visuais na criação de grá- ficos deve ser feita cuidadosamente; um gráfico desproporcional em suas medidas pode dar falsa impressão de desempenho e conduzir a conclusões equivocadas. Obviamente, questões de manipulação incorreta da informação podem ocorrer em qualquer área e não cabe culpar a Esta- tística. O uso e a divulgação ética e criteriosa de dados devem ser pré-requisitos indispensáveis e inegociáveis. Características • Simplicidade • Clareza • Veracidade 4.2.1 Elementos e Normas • Título: acima do gráfico, completo, claro e conciso; • Fonte: abaixo do gráfico; • Moldura: para dar efeito estético ao gráfico; • Legenda: não deve prejudicar a leitura do gráfico. • Desenho: no desenho incluem-se apenas as coordenadas necessárias para guiar a leitura do gráfico; Estatística - Prof a . Alessandra Cristiane Sibim 4. APRESENTAÇÃO DOS DADOS 27 • Escala: a escala horizontal deve ser lida da esquerda para a direita e a vertical de baixo para cima; • Cor: o colorido não deve causar ilusões de ótica; • Forma: a altura do gráfico deve ter, aproximadamente, 75% da largura, de modo que, incluindo o título, legenda e o rodapé, a moldura do gráfico assuma mais ou menos, a forma quadrada. 4.2.2 Principais tipos de Gráficos Muitas vezes o uso indevido dos gráficos pode trazer um idéia falsa a respeito dos dados que estão sendo analisados. Por isso é importante analisar qual o melhor tipo de gráfico a ser empregado em cada estudo. 4.2.3 Gráficos em Colunas Os gráficos em colunas tem por finalidade comparar grandezas, por meio de retângulos de igual largura e alturas proporcionais às respectivas grandezas. Esse gráfico é preferível ao gráfico em barras, que veremos mais a frente, se as legendas a se inscreverem sob os retângulos forem breves. Exemplo:Ascensão do cibercrime no Brasil ano 2006. Tabela 4.3: Ascensão do Cibercrime Brasil - 2006 ANO TOTAL 2001 8821 2002 11136 2003 20731 2004 31726 2005 53950 Fonte: IBGE. Estatística - Prof a . Alessandra Cristiane Sibim 4. APRESENTAÇÃO DOS DADOS 28 4.2.4 Gráfico em Barras Tem a mesma finalidade do gráfico em colunas e é preferivel a esse, quando as legendas a se inscreverem ao lado dos retângulos forem longas. Exemplo: Repasse de Royalties per capta a alguns Municípios Paranaenses em 2000. Tabela 4.4: Repasse de Royalties per Capta a Municípios do Paraná - 2000 MUNICÍPIO ROYALTIES PER CAPTA(US$ 1,00) Foz do Iguaçú 55,94 Guairá 127,44 Terra Roxa 6,94 Medianeira 2,2 Fonte:Revista Paranaense de Desenvolvimento, 2003. Estatística - Prof a . Alessandra Cristiane Sibim 4. APRESENTAÇÃO DOS DADOS 29 4.2.5 Gráficos em Linhas ou Lineares Esse tipo de gráfico é mais utilizado para representar grandezas, quando um dos fatores for o tempo, quando analisamos uma variável ao longo do tempo. Exemplo: Faturamento do Comércio Eletronico no Brasil nos Anos de 2002 até 2006. Tabela 4.5: Faturamento do Comércio Eletrônico (em Bilhões de Reais)- Brasil 2002-2006) ANO FATURAMENTO(bilhões R$) 2002 0,9 2003 1,2 2004 1,8 2005 2,5 2006 4,3 Fonte: Info ex(fev 2007). Estatística - Prof a . Alessandra Cristiane Sibim 4. APRESENTAÇÃO DOS DADOS 30 4.2.6 Gráficos em Setores Os gráficos em setores são usados para representar porcentagens. Exemplo: Enquete on-line sobre o que o brasileiro não consegue ficar sem no seu dia a dia. Tabela 4.6: Enquetes On Line - O Que O Brasileiro Não Fica Sem - 2006. Regiões Porcentagem Banda Larga 51,25 Celular 9,46 Carro 23,39 TV 15,9 Fonte: infoexame (2007). 4.2.7 Gráfico Comparativo Exemplo: Mudanças que ocorreram no Soft. EXCEL nos anos de 2006 e 2007. Tabela 4.7: Mudanças-Excel- 2006/2007 (em reais) PRODUTO PREÇO 2006 2007 Placa-mãeAX7N 410 320 Placa de vídeoR9870 345 360 HD 120GB7200RPM 290 245 HD 80GB7200RPM 210 213 HD 200GB7200RPM 350 370 Fonte: Info Ex9fev, (2007). Estatística - Prof a . Alessandra Cristiane Sibim 4. APRESENTAÇÃO DOS DADOS 31 4.2.8 Cartograma O cartograma é a representação sobre uma carta geográfica. Este gráfico é empregado quando o objetivo é o de figurar os dados estatísticos diretamente relacionados com áreas geográficas ou políticas. Estatística - Prof a . Alessandra Cristiane Sibim Capítulo 5 Probabilidade Os profissionais que trabalham com ciências aplicadas estão, em geral, envolvidos tanto com a análise quanto com o planejamento de sistemas, nos quais as características dos compo- nentes do sistema são não determinísticas. Assim, a compreensão e a utilização da probabilidade é essencial para a descrição, o planejamento e a análise de tais sistemas. O estudo formal da teoria de probabilidade aparentemente se originou nos séculos XVII e XVIII, na França, e foi motivado pelo estudo dos tradicionais jogos de azar. A verdadeira teoria surgiu das correspondências entre Pascal e Fermat. Laplace comentou as teorias de Pascal do seguinte modo: � A teoria das probabilidades no fundo não é mais do que o bom senso traduzido em cálculo, permite calcular com exatidão aquilo que as pessoas sentem por uma espécie de instinto. É notável que tal ciência, que começou nos estudos sobre jogos de azar, tenha alcançado os mais altos níveis do conhecimento humano�. A teoria de probabilidade evolui de tal forma que no século XX possui uma axiomática dentro da teoria matemática. Tal efeito deve-se sobretudo a Kolmogorov. O cálculo das probabilidades está associado aos experimentos, os quais podem ser classificados em dois tipos: • Experimento determinístico: é aquele que repetido sob condições quase idênticas condu- zem a um mesmo resultado. • Experimento aleatório: é aquele que repetido sob condições quase idênticas produzem resultados diferentes em geral. Estatística - Prof a . Alessandra Cristiane Sibim 5. PROBABILIDADE 33 5.1 Teoria de Conjuntos Um conjunto que contém todos os resultados possíveis para um dado experimento é chamado espaço amostral, geralmente representado por Ω. Por exemplo, conta-se o número de veículos que passam por um posto de pedágio das 24 as 8 horas, assim Ω = N. Se Ω for finito ou infinito enumerável então se diz espaço amostral discreto. Os sub- conjuntos associados ao espaço amostral são denominados eventos, ou seja, A ⊂ Ω. A é um evento, temos ainda que Ω é o evento certo e ∅ o evento impossível. 5.1.1 Operações com Eventos Seja Ω um espaço amostral associado a um experimento. Sejam A e B dois eventos, tais que A ∈ P(Ω) e B ∈ P(Ω), isto é, A ⊂ Ω e B ⊂ Ω. Definimos: i) Ac: é o evento que ocorre se A não ocorre. ii) A ∪B: é o evento que ocorre se A ou B ocorre ou ambos ocorrem. iii) A ∩B = é o evento que ocorre se A e B ocorre. iv) (A ∪B)c = Ac ∩Bc e (A ∩B)c = Ac ∪Bc (Leis de De Morgan) Exemplos: 1. Seja o experimento E : jogar duas moedas e observar os resultados. Ω= Seja A o evento: ocorrer pelo menos 2 caras. A= 2. Seja o experimento U : lançar um dado e observar o número de cima. Ω= Seja B o evento : ocorrer múltiplo de 2. B= 3. Seja o experimento W : lançar um dado e observar o resultado. Seja A: ocorrer número par e B: ocorrer número ímpar. A= B= A ∩B= A ∪B= Ac= Estatística - Prof a . Alessandra Cristiane Sibim 5. PROBABILIDADE 34 Bc= 5.2 Definição clássica de probabilidade A probabilidade de um evento é calculada como a razão existente entre o número de eventos favoráveis a este particular evento e o número de eventos equiprováveis. P (A) = n o casos favoráveis a A n o eventos possíveis = ]A ]Ω Exemplo: Lança-se um dado honesto, qual a probabilidade de ocorrer a face 3? Exemplo: Lança-se uma moeda, qual a probabilidade de ocorrer a face �cara�? Axiomas: Seja E um experimento e Ω o espaço amostral associado ao mesmo. A cada evento A desse espaço amostral associamos uma medida P (A), denominada probabilidade de A, que satisfaça: i) 0 ≤ P (A) ≤ 1; ii) P (Ω) = 1; iii) P ( n⋃ i=1 Ai) = n∑ i=1 P (Ai) se forem disjuntos 2 a 2, ou seja (Ai ∩ Aj) = 0, para todo i 6= j. Algumas propriedades 1) Se ∅ é o evento impossível, então P (∅) = 0; 2) Se A e B são dois eventos quaisquer então: P (A ∪B) = P (A) + P (B)− P (A ∩B); 3) Se A ⊂ B, então P (A) ≤ P (B); Estatística - Prof a . Alessandra Cristiane Sibim 5. PROBABILIDADE 35 4) P (Ac) = 1− P (A). Exemplo: Considere um experimento e os eventos A e B associados, tais que P (A) = 1 2 , P (B) = 1 3 e P (A ∩B) = 1 4 . Encontre: a) P (Ac) e P (Bc); b) P (A ∪B); c) P (Ac ∩Bc); d) P (Ac ∪Bc); 5.3 Probabilidade Condicional Consideremos 250 alunos que cursam o primeiro período de uma faculdade. Destes alunos 100 são homens (H) e 150 são mulheres (M), 110 cursam física (F) e 140 cursam química (Q). A distribuição dos alunos é a seguinte: Sexo Disciplina Total F Q H 40 60 100 M 70 80 150 Total 110 140 250 Um aluno é sorteado ao acaso. Qual a probabilidade de que esteja cursando química? Agora, qual a probabilidade de que esteja cursando química, dado que é mulher? Se A e B são eventos de um espaço amostral Ω, então a probabilidade condicional do evento A dado que ocorreu o evento B, é dado por P (A|B) = P (A ∩B) P (B) , com P (B) > 0; Também, P (B|A) = P (A ∩B) P (A) , com P (A) > 0; Então: P (A ∩B) = P (A|B) · P (B) ou P (A ∩B) = P (B|A) · P (A). (Teorema do produto) Exemplo: Sendo P (A) = 1 3 ; P (B) = 3 4 e P (A ∪B) = 11 12 calcular: i) P(A|B); Estatística - Prof a . Alessandra Cristiane Sibim 5. PROBABILIDADE 36 ii) P(B|A). Resolução: Exemplo: Duas bolas são retiradas de uma urna (sem reposição) que contém 2 bolas brancas, 3 pretas e 4 verdes. Qual a probabilidade de que ambas: a) sejam verdes; b) sejam da mesma cor. Resolução: Generalização do teorema do produto: P ( n⋂ i=1 Ai) = P (A1)P (A2|A1)P (A3|A2 ∩ A1) . . . P (An|A1 ∩ . . . ∩ An−1). Exemplo: Uma urna contém 7 bolas brancas e 5 pretas. Retiramos três bolas da urna sem reposição. Assumindo que cada bola da urna é igualmente provável de ser retirada, qual a probabilidade de todas serem brancas? Resolução: 5.4 Eventos Independentes Dois eventos são independentes quando a realização de um dos eventos não afeta a probabilidade de realização do outro e vice versa. Definição: A e B são eventos independentes se P (A ∩B) = P (A) · P (B). Exemplo: Lançam-se três moedas. Verificar se são independentes os eventos: A: saída de cara na primeira moeda. Estatística - Prof a . Alessandra Cristiane Sibim 5. PROBABILIDADE 37 B: Saída de coroa na segunda e cara na terceira moeda. Resolução: Exemplo: Em uma caixa temos 10 peças das quais 4 são defeituosas. São retiradas duas peças, uma após a outra com reposição. Calcular a probabilidade de ambas serem boas. Resolução: 5.5 Eventos mutuamente exclusivos Dois ou mais eventos são mutuamente exclusivos quando a realização de um exclui a realização do outro(s). Assim no lançamento de uma moeda, o evento �tirar cara� e o evento �tirar coroa� são mutuamente exclusivos, já que ao se realizar um deles, o outro não se realiza. Se dois eventos são mutuamente exclusivos, a probabilidade de que um ou outro se realize é igual à soma das probabilidades de que cada um deles se realize: P (A ∪B) = P (A) + P (B). OBS: Se A e B são mutuamente exclusivos, então A e B são dependentes, pois se A ocorre B não ocorre. 1) A probabilidade de que um homem esteja vivo daqui a 30 anos é 2 5 ; a de sua mulher é de 2 3 . Determinar a probabilidade de que daqui 30 anos: a) ambos estejam vivos; R:4/15 b) somente o homem esteja vivo; R:2/15 c) somente a mulher esteja viva; R:2/5 d) pelo menos um esteja vivo. R:4/5 2) Sejam A e B dois eventos em um espaço amostral, tais que P (A) = p , P (B) = 0, 2 e P (A ∪B) = 0, 5 e P (A ∩B) = 0, 1. Determine o valor de p. R= 0,4 Estatística - Prof a . Alessandra Cristiane Sibim 5. PROBABILIDADE 38 5.5.1 Partição do espaço amostral Seja Ω o espaço amostral de um experimento qualquer, considere que A1, A2, . . . , An são eventos disjuntos em Ω em que n⋃ i=1 Ai = Ω, logo podemos dizer que esses eventos formam uma partição do espaço amostral Ω. Figura 5.1: Partição do espaço amostral (K=6). 5.5.2 Probabilidade Total Se C1, C2, . . . Ck representam uma partição de Ω e se A é um evento arbitrário em Ω, então a probabilidade total de A é dada por P (A) = P (C1)P (A|C1) + P (C2)P (A|C2) + . . . P (Ck)P (A|Ck) = k∑ i=1 P (Ci)P (A|Ci). Exemplo: Suponha que um fabricante de sorvetes recebe 20% de todo o leite que utiliza da uma fazenda F1, 30% de outra fazenda F2 e 50% de F3. Um órgão fiscalizador inspecionou as fazendas e descobriu que 20% do leite produzido por F1 era adulterado por adição de água, enquanto F2 e F3, essa proporção era de 5% e 2%, respectivamente. Na indústria de sorvetes os galões de leite são armazenados em um refrigerador sem identificação das fazendas. Para um galão escolhido ao acaso, vamos analisar o leite para decidir sobre sua adulteração ou não. Se denotarmos A o evento �adulteração de leite�, temos que P (A|F1) = 0, 2; P (A|F2) = 0, 05; P (A|F3) = 0, 02. Além disso, F1, F2 e F3 formam uma partição do espaço amostral pois uma dada amostra de leite vem, necessariamente, de uma e apenas uma das três fazendas. Desta forma, o evento A pode ser escrito em termos de interseções de A com os eventos F1, F2 e F3, então: A = (A ∩ F1) ∪ (A ∩ F2) ∪ (A ∩ F3) . Exemplo: Uma companhia que produz rádio tem três linhas de montagem produzindo 15%, 35% e 50% respectivamente, de sua produção. Suponha que a probabilidade de um rádio sair defeituoso por uma dessas linhas de montagem sejam 0,01; 0,05; e 0,02. Se um rádio é escolhido aleatoriamente da produção da companhia, qual é a probabilidade que ele seja defeituoso? Estatística - Prof a . Alessandra Cristiane Sibim Capítulo 6 Variável Aleatória Variável aleatória (v.a.) é a função que associa a todo evento pertencente a uma partição do espaço amostral um único número real. É classificada como discreta ou contínua. A variável aleatória é discreta se assume valores num conjunto enumerável com certa proba- bilidade, por exemplo número de filhos em uma família. Por outro lado será contínua se seu conjunto de valores é qualquer intervalo dos números reais, o que seria um conjunto não enumerável, por exemplo tempo de reação a certo medicamento. 6.1 Variáveis Aleatórias Discretas Exemplo: Lançam-se três moedas. Seja X: número de ocorrências da face cara. De- terminar a distribuição de probabilidade de X. O espaço amostral do experimento é: Ω = {(c, c, c), (c, c, k), (c, k, c), (k, c, c), (c, k, k), (k, c, k), (k, k, c), (k, k, k)}. Se X é o número de caras, X assume os valores 0, 1, 2 e 3. Podemos associar a es- ses números eventos que correspondam à ocorrência de nenhuma, uma, duas ou três caras respectivamentes. Podemos também associar às probabilidades de X assumir um dos valores, as proba- bilidades dos eventos correspondentes: P (X = 0) = 1 8 P (X = 1) = 3 8 P (X = 2) = 3 8 P (X = 3) = 1 8 Estatística - Prof a . Alessandra Cristiane Sibim 6. VARIÁVEL ALEATÓRIA 40 6.1.1 Função Discreta de Probabilidade É a função que associa a cada valor assumido pela variável aleatória a probabilidade do evento correspondente, isto é P (X = xi) = P (xi) = Pi, i = 1, 2, . . . (6.1) ou ainda, X x1 x2 x3 . . . Pi p1 p2 p3 . . . Uma função de probabilidade satisfaz: 0 ≤ pi ≤ 1 e ∑ i pi = 1. No exemplo anterior temos que X 0 1 2 3 P (X = xi) 1/8 3/8 3/8 1/8 Exemplo: Considere o lançamento de dois dados. Seja X a v.a. faces de um dado, Y a v.a. soma das faces de dois dados. (Y = X+X) e Z a v.a. máximo das faces dos dois dados. Vamos obter a distribuição de probabilidades de X, Y e Z. Resolução: 6.2 Esperança de uma v.a. Esperança, valor médio ou simplesmente média de uma v.a. Definição: A esperança de uma v.a. discreta X é a soma de todos os produtos possíveis da v.a. pela respectiva probabilidade. E(X) = µ = n∑ i=1 xi · P (xi) (6.2) Estatística - Prof a . Alessandra Cristiane Sibim 6. VARIÁVEL ALEATÓRIA 41 Exemplo: Num jogo de dados, Ana paga R$ 20,00 a José e lança 3 dados. Se sair face 1 com um dos dados apenas, Ana ganha R$ 20,00. Se sair face 1 em dois dados apenas, Ana ganha R$ 50,00 e se sair 1 nos três dados, Ana ganha R$ 80,00. Calcular o lucro líquido médio de Ana em uma jogada. Resolução: 6.2.1 Propriedades da Esperança Seja X e Y variáveis aleatórias e c uma constante: 1. E(c) = c; 2. E(c.X) = cE(X) 3. E(X ± Y ) = E(X)± E(Y ) 4. E(aX ± b) = aE(X)± b 6.3 Variância O fato de conhecermos a média de uma distribuição de probabilidade já nos ajuda bastante, porém não temos uma medida que nos dê o grau de dispersão de probabilidade em torno dessa média. A medida que dá o grau de dispersão de probabilidade em torno da média é a variância. V ar(X) = σ2 = E(X2)− (E(X))2 (6.3) em que, E(X2) = n∑ i=1 x2iP (xi) 6.3.1 Propriedades da Variância 1. V ar(c) = 0; 2. V ar(c · x) = c2V ar(X); 3. V ar(aX ± b) = a2V ar(X); a,b constantes; Estatística - Prof a . Alessandra Cristiane Sibim 6. VARIÁVEL ALEATÓRIA 42 Exemplo: Um jogador lança um dado. Se aparecerem os números 1, 2 ou 3, recebe R$10,00. Se, no entanto, aparecer 4 ou 5, recebe R$ 5,00. Se aparecer 6, ganha R$ 20,00. Qual o ganho médio do jogador? R:R$10,00. Resolução: Exemplo: Uma moeda é viciada de modo que a probabilidade de sair cara é 4 vezes maior a de sair coroa. Para quatro lançamentos independentes dessa moeda, seja X o número de caras que aparece, determine: a) E(X) e a Var(X) Resolução: Exemplo: Um caça níquel tem dois discos que funcionam independentemente um do outro. Cada disco tem 10 figuras: 4 maçãs, 3 bananas, 2 peras e 1 laranja. Uma pessoa paga R$ 80,00 e aciona a máquina. Se aparecerem 2 maçãs, ganha R$ 40,00. Se aparecerem 2 bananas, ganha R$80,00; R$ 140,00 se aparecerem 2 peras e ganha R$ 180,00 se aparecerem 2 laranjas. Qual a esperança de ganho numa única jogada? R: -R$59,00 Resolução: Estatística - Prof a . Alessandra Cristiane Sibim 6. VARIÁVEL ALEATÓRIA 43 Exemplos: Sejam X e Y v.a. Expresse: • E(3); • E(45); • E(4500); • E(2X); • E(12Y) • E(2X+ 5); • E(5X + 3Y + 1); • E(X+ 5); • E(10Y + 2); • Var(23); • Var(2X); • Var(3X +1); 6.4 Principais distribuições discretas de probabilidade Nesta seção estudaremos alguns modelos probabilísticos padrões que podem ser usados em diversas situações práticas. O problema passa a ser, então, determinar qual modelo é o mais apropriado para a situação em estudo e como aplicá-lo adequadamente. Lembrando que para identificarmos uma v.a. discreta, temos que conhecer quais re- sultados podem ocorrer e quais são as probabilidades associadas aos resultados. A seguir, são apresentadas as principais distribuições de probabilidade ou modelos de probabilidade. 6.4.1 Distribuição de Bernoulli Provavelmente os experimentos mais simples são aqueles em que observamos a pre- sença ou não de alguma característica, que são conhecidos como ensaios de Bernoulli. Alguns exemplos: a) lançar uma moeda e observar se ocorre cara ou não; b) numa linha de produção, observar se um item, tomado ao acaso, é ou não defeituoso; c) verificar se um servidor de uma intranet está ou não ativo. Denominamos sucesso e fracasso os dois eventos possíveis em cada caso. O ensaio de Bernoulli é caracterizado por uma variável aleatória X, definida por X = 1, se sucesso; X = 0, se fracasso. A função de probabilidade de X é dada por x P (x) 0 q 1 p Total 1 em que, p = P (sucesso) e q = 1−p. A distribuição fica completamente especificada ao atribuir- mos um valor para p. No exemplo (a), se o lançamento for imparcial e a moeda perfeitamente equilibrada, p = 1/2. Estatística - Prof a . Alessandra Cristiane Sibim 6. VARIÁVEL ALEATÓRIA 44 De maneira geral, P (X = x) = px(1− p)1−x (6.4) com X = 0, 1. Outras características da distribuição de Bernoulli: E(X) = p (6.5) V ar(X) = p · (1− p) (6.6) Notação: X ∼ B(p). 6.4.2 Distribuição Binomial Considere a repetição de n ensaios de Bernoulli independentes e todos com a mesma probabilidade de sucesso p. A variável aleatória X que conta o número total de sucessos é denominada Binomial com parâmetros n e p e sua função de probabilidade é dada por P (X = k) = ( n k ) · pk · qn−k (6.7) E(X) = n · p (6.8) V ar(X) = n · p · q (6.9) Notação: X ∼ Bin(n, p) Exemplo: Dados históricos mostram que 30% dos carregamentos de determinado produto são classificados na classe A. Entre os quatro próximos carregamentos, calcule a pro- babilidade de exatamente dois serem classificados na classe A. Resolução: Exemplo: Encontre a média e a variância da variável aleatória Y = 3X + 2, sendo que X ∼ Bin(20, 0, 3). Resolução: Estatística - Prof a . Alessandra Cristiane Sibim 6. VARIÁVEL ALEATÓRIA 45 6.5 Distribuição Normal A normal é considerada a distribuição de probabilidades mais importante, pois permite modelar uma infinidade de fenômenos naturais e, além disso, possibilita realizar aproximações para calcular probabilidades de muitas variáveis aleatórias que têm outras distribuições. É muito importante também na inferência estatística. Uma v.a. contínuaX tem distribuição normal com parâmetros µ e σ2, (−∞ < µ < +∞) e σ > 0, se a sua função de probabilidade é dada por: f(x) = 1√ 2piσ2 exp { −(x− µ) 2 2σ2 } . com (−∞ < x < +∞) Notação: X ∼ N(µ, σ2), em que µ representa a média e σ2 a variância de X. σ = √σ2 é o desvio padrão. A função de distribuição da normal não tem forma fechada e, de fato, o cálculo de probabilidades com essa densidade não podem ser feitos por integração, pois esta não possui primitiva. Assim, valores de probabilidades acumuladas são obtidos por integração numérica e apresentadas em tabelas. Não é necessário fazer uma tabela para cada par de valores dos parâmetros que se tem interesse. 6.5.1 Normal Padrão A distribuição normal possui uma importante propriedade que permite que qualquer variável aleatória com esta distribuição possa ser transformada em outra variável com distri- buição normal com parâmetros µ = 0 e σ2 = 1. Teorema: Se X ∼ N(µ, σ2), então a variável Z é da forma: Z = X − µ σ téra distribuição N(0, 1) O gráfico da densidade Normal Padrão é apresentado na Figura 6.1. Estatística - Prof a . Alessandra Cristiane Sibim 6. VARIÁVEL ALEATÓRIA 46 −4 −2 0 2 4 0. 0 0. 1 0. 2 0. 3 0. 4 x f(x ) Figura 6.1: Densidade da Normal Padrão. Verificaremos agora a correspondência entre X e Z, por meio do exemplo: Seja X ∼ N(20; 4). Encontrar os valores reduzidos correspondentes a: i) X= 16 ii) X= 18 iii) X= 20 iv) X= 22 v) X=24 Exemplo: Seja X ∼ N(100; 25). Calcular: a)P (100 ≤ X ≤ 106) b) P (89 ≤ X ≤ 107) c) P (112 ≤ X ≤ 116) d) P (X ≤ 108) Estatística - Prof a . Alessandra Cristiane Sibim 6. VARIÁVEL ALEATÓRIA 47 Resolução: Exemplo: A distribuição de altura de 500 estudantes do sexo masculino de uma universidade é aproximadamente normal, com média 1,70 m e desvio padrão de 2,5 cm. a) Quantos tem altura inferior a 1,75 m? b) Quantos tem altura entre 1,72 e 1,80 m? Resolução: Exercício 1: A distribuição da altura de plantas de Amaranthus hybridus, X, pode ser aproximada por uma distribuição normal de média 29,7 cm e desvio padrão de 2,7 cm. Calcule a probabilidade de uma planta apresentar altura: a) Entre 29,7 e 32 cm. b) Acima de 32 cm. c) Entre 27 e 32 cm. d) Entre 25 e 27 cm. Exercício 2: Suponha que as medidas da corrente em um pedaço de fio sigam a dis- tribuição normal, com uma média de 10 miliampéres e uma variância de 4 (miliampéres)2. a)Qual é a probabilidade da medida exceder 13 miliampéres? b)Qual é a probabilidade da medida estar entre 9 e 11 miliampéres? Estatística - Prof a . Alessandra Cristiane Sibim Referências [1] Andrade, F. D. & Ogliari, P. (2007). Estatística para as ciências agrárias e biológicas: com noções de experimentação. 3. ed. Editora da UFSC. [2] Fonseca, J.S. & Martins G. A. Curso de Estatística. 3. ed. Editora Atlas. [3] Magalhães, M. N. & Lima, A. C. P. (2005). Noções de Probabilidade e Estatística. 6 ed. São Paulo: Editora da Universidade de São Paulo. [4] Morettin, P. A. & Bussab, W.O. (2012) Estatística Básica. 7. ed. Editora Saraiva. [5] Oliveira, P .L. & Neto C. (2002). Estatística. 3. ed. Editora Edgard Blücher Ltda. Estatística - Prof a . Alessandra Cristiane Sibim