Esta é uma pré-visualização de arquivo. Entre para ver o arquivo original
Profª Gisele Lamas Estatística Página 1 1. Estatística 1.1. Definição de Estatística È um conjunto de métodos que permite o estudo de determinados fenômenos (coletivos e de multidão) através da observação, coleta de informação e obtenção das conclusões. A maior aplicação da estatística ocorre nos fenômenos influenciados por um grande nº de causas ou fatores, principalmente os fenômenos sociais políticos, econômicos, etc. Com a finalidade didática a estatística se divide em 2 partes: a) Estatística Descritiva: é a parte da estatística que tem por objetivo a observação dos fenômenos de mesma natureza, a coleta de informações numéricas referentes a estes fenômenos, a organização e a classificação dessas informações, a apresentação através de tabelas e gráficos, além do cálculo de índices ( estatísticas ou medidas estatísticas) que permitem descrever as ocorrências dos fenômenos. b) Estatística Indutiva ou Inferência Estatística: está parte se preocupa com o processo de generalizar conclusões a partir de resultados particulares. Tem como objetivo obter e generalizar resultados de um conjunto de informações associados a um fenômeno com base numa parte (subconjunto) de informações convenientemente selecionada, que é chamada de amostra. 1.2. População e amostra População: é um conjunto constituído por todos os elementos que apresentem pelo menos uma característica comum, cujo comportamento seja de interesse. Amostra: é a parcela da população selecionada segundo normas e métodos estatísticos, com a finalidade de obter informações e resultados para a população. Exemplo1.2: um hospital deseja conhecer a distribuição do tipo sang6uíneo dos seus 200 pacientes. Para tanto, a direção resolveu coletar sangue de 80 pacientes. População: Amostra: 1.3. Fases do método estatístico 1. Planejamento: é a etapa que consiste na identificação do objetivo, escolha da metodologia, estimação do custo, obtenção do material e pessoal necessário, elaboração do instrumento de coleta (questionário ou folha de coleta), etc. 2. Coleta das informações: é a atividade que compreende o levantamento (obtenção) das informações necessárias. Profª Gisele Lamas Estatística Página 2 3. Crítica: compreende as atividades de verificação das omissões (falta de resposta) e correções das informações. 4. Apuração: é a etapa referente ao processamento das informações manualmente ou através de máquinas eletromecânicas (calculadora) ou através de equipamentos eletrônicos (computador). Nesta etapa podem ser calculados determinados índices e elaborados gráficos e tabelas. 5. Interpretação das informações: consiste na obtenção das conclusões, ou seja, na análise dos resultados. Através de métodos estatísticos podemos verificar o comportamento do fenômeno de interesse, estabelecendo as causas de sua ocorrência. 6. Divulgação dos resultados: consiste na publicação dos resultados e análises através de revistas, livros, etc. A divulgação através de relatórios compreende também a apresentação dos dados com base em tabelas e gráficos. 1.4.Tipos de variáveis Qualitativas: expressam uma qualidade ou atributo. Quando estes atributos possuem uma ordenação natural, a variável é classificada como qualitativa ordinal; caso contrário, qualitativa nominal. Exemplo 1.4.1: Patente do servidor militar ( ); cor dos olhos ( ); sexo ( ) Quantitativas: expressam uma contagem ou mensuração. Quando a variável expressa contagem, é classificada de quantitativa discreta; quando expressa uma mensuração, quantitativa continua. Exemplo 1.4.2: idade ( ); comprimento de um certo material ( ); nº de televisões na residência ( ) ordinal qualitativas nominal variáveis quantitativas discreta contínua Profª Gisele Lamas Estatística Página 3 2. Séries estatísticas e apresentação de dados. Retomando o exemplo do hospital, suponha que a amostra dos 80 pacientes forneceu: O B A O AB AB O A B B ... B O Como há muitas observações, sentimos a necessidade de organizar os dados para melhor compreender o comportamento dos mesmos. 2.1. Gráficos e distribuições de freqüências para variáveis 2.1.1. Qualitativas nominais Tomando como base o exemplo do hospital e os dados listados anteriormente, podemos obter uma tabela onde a 1ª coluna contém os tipos sanguíneos observados na amostra e a 2ª coluna o total de observações de cada categoria. Note que, como o objetivo é generalizar os resultados para a população, é mais significativo expressá-los em termos de freqüências relativas. Tipo sanguíneo i f i fr % i F i Fr O 36 A 33 B 8 AB 3 total 80 - - Observação: 1) i f freqüência absoluta simples Soma-se as freqüências dos valores que contém cada classe. A soma das freqüências é dita tamanho da população ou amostra. 2) i fr freqüência relativa i i i f f fr nf i , onde n é o tamanho da população ou amostra 3) % freqüência relativa percentual Profª Gisele Lamas Estatística Página 4 100*% ifr 4) i F freqüência absoluta acumulada crescente kk fffF ... 21 Ou ),...,2,1( 1 kifF k i ik 5) i Fr freqüência relativa acumulada crescente ki frfrfrFr ... 21 Ou ),...,2,1( 1 kifrFr k i ii Os gráficos que podem ser utilizados na representação deste tipo de variável são o de barras, o de colunas e o de setores. . 0,45 0,41 0,10 0,04 0 0,05 0,1 0,15 0,2 0,25 0,3 0,35 0,4 0,45 0,5 O A B AB fr Tipo sanguíneo colunas Profª Gisele Lamas Estatística Página 5 2.1.2. Qualitativas ordinais Suponha que em uma fábrica realizou-se uma pesquisa para saber o grau de instrução dos 500 empregados, e para este fim, tomou-se uma amostra de 15 empregados. Uma possível amostra seria: Ensino médio Ensino médio Ensino superior Ensino superior Ensino médio Ensino fundamental Ensino médio Ensino médio Ensino fundamental Ensino fundamental Ensino médio Ensino fundamental Ensino fundamental Ensino médio Ensino fundamental Que resultaria na seguinte distribuição de freqüências: Grau de instrução i f i fr % i F i Fr Ensino fundamental Ensino médio Ensino superior total Os gráficos que podem ser utilizados para representar este tipo de variável são os mesmos do caso anterior. Convém ressaltar que agora as categorias devem ser apresentadas em ordem crescente. Barras Grau de instrução fr Profª Gisele Lamas Estatística Página 6 2.1.4. Variável quantitativa discreta Um grupo de médicos deseja saber se é necessário ministrar cursos de métodos contraceptivos em certa região e resolveu estudar então o nº de filhos por mulher nesta região: População: Amostra: Foram observadas 50 mulheres, cujos números de filhos foram: 2 5 4 6 1 5 11 4 4 7 2 4 5 10 6 6 5 7 2 6 3 4 1 4 5 4 9 7 2 4 2 4 3 6 6 3 2 5 5 3 2 4 4 4 6 6 5 5 4 2 Gerando a seguinte distribuição de freqüências: Nº de filhos f fr fr(%) F Fr 1 2 3 4 5 6 7 8 9 Profª Gisele Lamas Estatística Página 7 10 11 total O gráfico mais indicado para representar uma variável quantitativa discreta é o gráfico de linha. Não se deve utilizar o gráfico em colunas porque agora no eixo horizontal estamos representando uma quantidade numérica. 2.1.4. Variável quantitativa contínua Suponha que você seja responsável pelo controle da qualidade de uma indústria e que seu objetivo é saber se os comprimidos estão sendo fabricados com o diâmetro desejado. População: Amostra: f Nº de filhos Profª Gisele Lamas Estatística Página 8 Suponha que a amostra selecionada tenha fornecido: 0,921 0,934 0,935 0,941 0,955 0,960 0,967 0,973 0,975 0,978 0,985 0,985 0,989 0,990 0,990 0,990 0,995 0,995 1,009 1,010 1,020 1,022 1,033 1,037 1,053 1,057 1,073 1,079 1,104 1,105 Como não se tem muitos valores coincidentes usa-se esta tabela: diâmetro f fr % F Fr 0,92├ 0,96 0,96├ 1,00 1,00 ├ 1,04 1,04 ├ 1,08 1,08 ├ 1,12 total Regras básicas: Nº de classes (k): não se utiliza menos de 5 classes, para não resumir demais os dados. Se n>25, então nk . No exemplo, n = 30 k . Amplitude das classes (h): para calculá-la, devemos conhecer primeiramente a amplitude total dos dados r, dado pela diferença entre o maior e o menor valor observado. No exemplo, r = Como todas as classes devem ter o mesmo tamanho então k r h . No exemplo, h Os gráficos mais utilizados para variável quantitativa contínua são o histograma e o polígono de freqüência. Profª Gisele Lamas Estatística Página 9 3. Medidas de tendência central Vimos que o resumo de dados por meio de distribuição de freqüências fornece muito mais informações sobre o comportamento de uma variável do que a própria tabela original de dados. Muitas vezes, queremos resumir ainda mais estes dados, apresentando um ou alguns valores que sejam representativos da série toda. Quando usamos um só valor, obtemos uma redução drástica dos dados. Usualmente, emprega-se uma das seguintes medidas: moda, mediana ou média. 3.1. Moda (mo) Moda é o valor da variável que apresenta maior fr. No caso de variáveis contínuas agrupadas em classes, é o valor médio da classes com maior fr. Nos exemplos citados, a moda é o sangue do tipo ----------, ensino -------------------, -------- filhos, ------------cm, respectivamente. 3.2. Mediana (me) Mediana é o valor central de um conjunto de dados ordenados. Não pode ser obtida para variável qualitativa nominal, pois esta não possui sequer ordenação, e mesmo para variável qualitativa ordinal, esta medida é de pouco interesse. 1. Cálculo da mediana na amostra Considere os seguintes conjuntos de valores: A: -5; 7,2; -4,4; 17; 8,0; 15,9; 2,1 B: 11; 4; 3; 9; 10; 0; 4,8; 8 Ordenado histograma Polígono de freqüência Profª Gisele Lamas Estatística Página 10 A: -5; -4,4; 2,1; 7,2; 8,0; 15,9; 17 B: 0; 3; 4; 4,6; 8; 9; 10; 11 O conjunto A tem 7 elementos, portanto o elemento central é aquele que ocupa a 4ª posição, ou seja, me = . O conjunto B não existe um único elemento central, mas sim dois: aqueles que ocupam a 4ª e a 5ª posição. Então, a mediana será a média dos termos centrais, ou seja, me = . Regra geral para uma amostra de tamanho n: Se n é ímpar Me = elemento que ocupa a 2 1n ésima posição; Se n é par Me = média entre os elementos que ocupam a ésima 2 2n e ésima 2 n posição. Exemplo: No exemplo das mães, n = 50, portanto a mediana será a média dos elementos correspondentes a 25ª e 26ª posição. Assim, me = . 2. Cálculo da mediana para dados tabelados Se os dados forem discretos, dada a distribuição de freqüências, é possível reconstruir a amostra. Dessa forma, a mediana será obtida pela regra anterior. Vejamos novamente o exemplo dos comprimidos (caso contínuo). diâmetro f fr % F Fr 0,92├ 0,96 5 0,17 17 5 0,17 0,96├ 1,00 13 0,43 43 18 0,60 1,00 ├ 1,04 6 0,20 20 24 0,80 1,04 ├ 1,08 4 0,13 13 28 0,93 1,08 ├ 1,12 2 0,07 7 30 1,00 total 30 1,00 100 - - Como estamos interessados na mediana, procuramos o valor que tem frequência relativa acumulada, Fr = --------%. Observando o gráfico do histograma vemos que não é difícil calcular a mediana. Profª Gisele Lamas Estatística Página 11 0,04 0,43 d ( 0,50 – 0,17) Regra geral para o cálculo da mediana Me = fr hFr l *)50,0( * inf , onde inf l : limite inferior da classe que contém a mediana; * Fr : freqüência relativa acumulada da classe anterior a que contém a mediana; fr: freqüência relativa da classe que contém a mediana. Utilizando a fórmula acima, a mediana para o diâmetro dos comprimidos será me = 3.3. Média aritmética (X ) 1. Cálculo na amostra: dado um conjunto de dados, a média aritmética é dada pela soma dos elementos, dividida pelo total de elementos. Denotando os elementos da amostra por x1,x2,...,xn temos que n x n xxx n i i n 121 ... X 0,17 0,43 0,20 0,13 0,07 0 0,05 0,1 0,15 0,2 0,25 0,3 0,35 0,4 0,45 0,5 fr diâmetro 0,92 a menos de 0,96 0,96 a menos de 1,00 1,00 a menos de 1,04 1,04 a menos de 1,08 1,08 a menos de 1,12 1 unid. 0,33 Profª Gisele Lamas Estatística Página 12 2. Cálculo para dados agrupados a) Dados discretos: já vimos que não há perda de informação ao organizar dados discretos em tabelas. Assim, o cálculo da média poderia ser feito como no caso anterior. Voltando ao exemplo do número de filhos, temos que: X Vemos então que a média também pode ser calculada somando-se o produto de cada valor observado pela respectiva freqüência e depois dividindo tudo por n, ou seja, i k i i k i ii frx n fx * * X 1 1 Note que i agora representa cada uma das classes e não mais cada um dos elementos da amostra. b) Dados contínuos: retornando ao exemplo dos comprimidos, temos: diâmetro f fr x 0,92├ 0,96 5 0,17 0,96├ 1,00 13 0,43 1,00 ├ 1,04 6 0,20 1,04 ├ 1,08 4 0,13 1,08 ├ 1,12 2 0,07 total 30 1,00 - Obs.: ix : ponto médio da classe, onde Fórmula geral: classe; dainferior limite:infl classe. dasuperior limite:supl 2 supinf ll xi Profª Gisele Lamas Estatística Página 13 i k i i k i ii frx n fx * * X 1 1 No exemplo, temos então X 3.4. Características mais importantes Moda É em geral menos utilizada que a média e a mediana; A moda as vezes pode não existir e em outras ocasiões pode haver mais de uma moda; O valor da moda não sofre influências de valores extremos Mediana Tem fácil interpretação e cálculo; É determinada pelo nº de observações e não pelo seu valor. Desse modo os valores extremos não afetam o valor da mediana; É uma media muito utilizada para dados assimétricos. Média Tem fácil interpretação e cálculo; Utiliza todos os valores disponíveis; É influenciada por valores extremos. Assim, deixará de ser representativa para distribuições assimétricas. 4. Medidas de posição As medidas de posição mais utilizadas são os quartis. Quartis são valores que divide4m a amostra em 4 partes iguais. Sejam Q1,Q2 e Q3. Temos então que Fr(Q1) = 25%, Fr(Q2) = 50% e Fr(Q3) = 75%. Recordando o exemplo dos conjuntos de dados A e B: A: -5; -4,4; 2,1; 7,2; 8,0; 15,9 ; 17 Q1 Q1 Q2 Q1 Q3 Q1 Profª Gisele Lamas Estatística Página 14 B: 0; 3; 4; 4,6; 8; 9; 10; 11 Com os dados ordenados crescentemente, temos: Posição Q1: 4 1n Posição Q2: 2 1n Posição Q3: 4 )1(3 n Para se obter os quartis em dados contínuos tabelados, basta seguir o mesmo raciocínio desenvolvido no cálculo da mediana: Fórmula geral: Qi = fr hFr i l *) 4 ( * inf , onde i = 1, 2 e 3 inf l : limite inferior da classe que contém o quartil; * Fr : freqüência relativa acumulada da classe anterior a que contém o quartil; fr: freqüência relativa da classe que contém o quartil 5. Medidas de dispersão. As medidas de dispersão são medidas que têm como objetivo quantificar a dispersão dos dados. Para exemplificar, suponha que um professor tenha aplicado quatro provas a cada um de três alunos, e os resultados foram os seguintes: Aluno P1 P2 P3 P4 A 0 10 10 0 B 5 5 5 5 C 0 6 4 10 Q1 Q2 Q1 Q3 Q1 3,5 6,4 9,5 Profª Gisele Lamas Estatística Página 15 Embora todos tenham a mesma média, o aluno B apresentou maior regularidade nas notas seguido do aluno C, e o mais irregular foi o aluno A. pelo bom senso, qualquer medida de dispersão que venhamos a calcular, deverá chegar às mesmas conclusões. 5.1. Amplitude amostral – A É a diferença entre o maior e o menor valor observado. A = xmáx-xmín No exemplo, AA= ----------, AB = ---------- e AC= ----------- 5.2. Intervalo interquartílico – I È dado pela diferença entre o terceiro e o primeiro quartil. I = Q3 – Q1 No exemplo, IA = ------------, IB = ----------- e IC = ------------ Como podemos ver as duas medidas citadas possuem o “defeito” de não utilizar todos os dados, levando algumas vezes a resultados incoerentes. 5.3. Variância a) Seja a variável X = x1, x2,..., xN uma população. Define-se a variância ² da variável X da população contendo N dados: N )x( N ))x(...)x()x(( N 1i 2 i2 N 2 2 2 12 No exemplo, 2 A 2 B 2 C b) Seja a variável X = x1, x2,..., xn uma amostra. Define-se a variância S² da variável X da amostra contendo n dados: 1 )( 1 ))(...)()(( 1 2 22 2 2 12 n Xx n XxXxXx S n i i N 5.3.1. Variância para dados agrupados Profª Gisele Lamas Estatística Página 16 a) Seja a variável X = x1, x2,..., xK uma população. Define-se a variância ² da variável X da população contendo N dados: K 1i i 2 i K 1i i 2 i 2 fr*)x( N f*)x( , caso discreto K 1i i 2 i K 1i i 2 i 2 fr*)x( N f*)x( , caso contínuo a) Seja a variável X = x1, x2,..., xk uma amostra. Define-se a variância S² da variável X da amostra contendo n dados: 1n f*)Xx( S k 1i i 2 i 2 , caso discreto 1n f*)Xx( S k 1i i 2 i 2 , caso contínuo 5.4. Desvio padrão É definido como a raiz quadrada da variância. Dessa maneira: O desvio padrão utilizando dados de uma população é: 2 . O desvio padrão utilizando dados de uma amostra é: 2 SS . Esse cálculo é realizado para que o valor da medida de dispersão fique na mesma escala que a dos originais. No exemplo, A B C 5.5. Coeficiente de variação – CV É dado pelo quociente entre o desvio padrão e a média. CV = , considerando dados de uma população Profª Gisele Lamas Estatística Página 17 CV = X S , considerando dados de uma amostra Para entender melhor a utilidade desta medida, suponha que duas empresas A e B tenham as seguintes características: Empresa X S CV A 100,00 10,00 B 100.000,00 15,00 Qual das duas empresas possui menor dispersão de salários em torno da média? Com este exemplo, notamos que o desvio padrão não é a medida adequada para comparar dispersão entre conjuntos de dados com médias diferentes. Nesta situação deve-se usar o coeficiente de variação. 6. Medidas de Assimetria 6.1. Medidas de Assimetria Assimetria é a característica de gráficos ou de curvas em que a média não coincide com a moda, ou seja, a maioria dos valores da variável se concentra em uma das extremidades. Curva Assimétrica Negativa Curva Assimétrica Positiva Profª Gisele Lamas Estatística Página 18 Curva Simétrica Para determinar o grau de assimetria, utilizaremos o coeficiente de assimetria de Pearson, dado por: Desse modo, pode-se concluir que: Se > 0, a distribuição é assimétrica positiva; Se = 0, a distribuição é simétrica; Se > 0, a distribuição é assimétrica negativa; Exemplo: Distribuição A Pesos (kg) 2 ├ 6 6 6 ├ 10 12 10 ├ 14 24 14 ├ 18 12 18 ├ 22 6 Total 60 Distribuição B Pesos (kg) 2 ├ 6 6 6 ├ 10 12 10 ├ 14 24 14 ├ 18 30 18 ├ 22 6 Total 78 Distribuição C Pesos (kg) 2 ├ 6 6 6 ├ 10 30 10 ├ 14 24 14 ├ 18 12 18 ├ 22 6 Total 78 Profª Gisele Lamas Estatística Página 19 Temos: me = 12 kg mo = 12 kg s = 4,42 kg me = 13,5 kg mo = 16 kg s = 4,20 kg me = 10,5 mo = 8 kg s = 4,20 kg Logo, • Bibliografia BARBETTA, Pedro Alberto; REIS, Marcelo M.; BORNIA, Antônio Cezar. Estatística: para cursos de engenharia e informática. São Paulo: Atlas, 2004. BUSSAB, Wilton de O.; MORETTIN, Pedro A. Estatística básica. 5ª ed. São Paulo: Saraiva, 2002. CRESPO, Antônio Arnot. Estatística Fácil. 17ª ed. São Paulo:Saraiva,2002. OLIVEIRA, Francisco Estevam Martins de. Estatística e probabilidade: Exercícios resolvidos e propostos. 2ª ed. São Paulo: Atlas, 1999. SMAILES, Joanne; McGRANE, Angela. Estatística Aplicada à Administração com Excel. São Paulo: Atlas, 2002.