Esta é uma pré-visualização de arquivo. Entre para ver o arquivo original
1
Curso:
Disciplina: Estatística Aplicada
Professor (a): Mariana Damasceno
Aluno (a):___________________________________________________
1 REVISÃO DE TÓPICOS DA MATEMÁTICA
1.1 Regras de Cálculo Somatório:
Usa-se a letra maiúscula grega Σ (Sigma) para denotar uma soma.
Ex1: Despesas (X) na semana com salários de três funcionários $400,00; $410,00; $440,00:
3
a) ΣXi = X1 + X2 + X3 = 400,00 + 410,00 + 440,00
i=1
3
ΣXi = $1.250,00
i=1
3
b)ΣXi2 = X12 + X2 2 + X3 2 = (400,00)2 + (410,00)2 + (440,00)2 = 160.000 + 168.100 + 193.600
i=1
3
ΣXi2 = 521.600,00
i=1
3
c)(ΣXi)2 = (1.250,00)2 = 1.562.500,00
i=1
EX2: Produção de Computadores no período de 1 a 11 de Janeiro de 2013 da Fábrica “P&W”:
I Xi
1 8
2 2
3 3
4 6
5 7
6 8
7 9
8 4
9 5
10 4
11 1
Total 57
2
2
a) ΣXi = X1 + X2 = 8 + 2 = 10
i=1
4
b) ΣXi = X2 + X3 + X4 = 2+ 3 + 6 = 11
i=2
11
c) ΣXi = X7 + X8 + X9 + X10 + X11 = 9 + 4 + 5 + 4 + 1 = 23
i=7
d) ΣXi = X1 + X2 + X3 + X4 + X5 + X6 + X7 + X8 + X9 + X10 + X11 = 8 + 2 + 3 + ........+ 1 = 57
EX3: Relação Horas Trabalhadas com Salário de cada Funcionário da Empresa “Power”:
Funcionário
(i)
Horas Trabalhadas
(fi)
Salário Horário
(Xi)
1 1 $2
2 5 $3
3 7 $2
4 3 $4
5 3 $3
I fi Xi Xi2 fiXi fiXi2
1 1 2 4 2 4
2 5 3 9 15 45
3 7 2 4 14 28
4 3 4 16 12 48
5 3 3 9 9 27
Σfi = 19 ΣXi = 14 ΣXi2 = 42 ΣfiXi = 52 ΣfiXi2 = 152
(ΣfiXi)2 = (52)2 = 2704
1.2 Relação do Cálculo Somatório com Constante:
a) ΣCX = CΣX
Ex: Σ2X = 2ΣX
= 2(57) = 114
ou = 2(8) + 2(2) + 2(3) + ......+ 2(1) = 2(8 + 2 + 3 + .....+1) = 2(57) = 114
n
b) ΣCi = n . C
i=1
6
Ex: Σ 5i = 6(5) ou 5 + 5 + 5 + 5 + 5 + 5 = 30
i=1
1.3 Relação do Cálculo Somatório com Variáveis:
A soma de uma soma (ou diferença) de duas variáveis é igual à soma (ou diferença) das
somações individuais das duas variáveis.
3
n n n
a)Σ (Xi2 + Yi) = Σ (Xi2) + Σ Yi
i=1 i=1 i=1
n n n
b)Σ (Xi - Yi) = Σ Xi - Σ Yi
i=1 i=1 i=1
Ex:
I X Y (X - Y)
1 8 5 3 Σ (X – Y) = 9
2 3 2 1
3 4 0 4 ΣX - ΣY = 20 – 11 = 9
4 5 4 1
20 11 9
1.4 Arredondamento de Números/Dados:
a) Números com terminação acima de cinco ⇒ Arredonda-se para o número imediatamente
superior.
Ex: 72,8 ⇒ 73
b) Números com terminação abaixo de cinco ⇒ Arredonda-se para o número imediatamente
inferior.
Ex: 72,814 ⇒ 72,81
c) Números com terminação em cinco ⇒ Usa-se, na prática, aproximar para o número par que
precede o “5”.
72,76 72,465 72,47
= =
= 72,46
183,57 183,575 183,58
= =
= 183,58
O arredondamento de números reduz o mínimo de erros acumulados
III) Notação Científica:
Ex1: 101 = 10; 102 = 10x10 = 100; 105 = 10x10x10x10x10 = 100.000
Ex2: 100 = 1; 10-1 = 0,1; 10-2 = 0,01; 10-5 = 0,00001
Ex3: 864.000.000 = 8,64 x 108; 0,00003416 = 3,416 x 10-5
4
No Cálculo:
a) (10p).(10q) = 10p+q
b) 10p = 10p-q
10q
Ex1: (103).(102) = 1.000 x 100 = 100.000 = 105
Ex2: 106 = 1.000.000 = 100 = 102
104 10.000
Ex3: (4.000.000).(0,0000000002) = (4 x 106).(2 x 10-10)
= (4).(2) x (106).(10-10) = 8 x 106-10 = 8 x 10-4 = 0,0008
5
2 CONCEITOS TEÓRICOS DA ESTATÍSTICA
2.1 Objetivos da Estatística
Observamos a atuação da Estatística diariamente em nossas vidas, como: o resultado
metereológico do tempo; quanto tempo leva-se da casa ao trabalho; o resultado provável das
eleições; a média final da turma; um fabricante (de lâmpadas) quer testar quantas funcionarão;....
A Estatística está interessada nos métodos científicos para coleta, organização, resumo,
apresentação e análise de dados, bem como na obtenção de conclusões válidas e na tomada de
decisões razoáveis baseadas em tais análises.
2.2 Áreas da Estatística
2.2.1 Estatística Descritiva: Utiliza números para descrever fatos. Exs: O Índice ou média
industrial DOW-JONES, a Taxa de desemprego, o Custo de vida, o Índice pluviométrico,
a Quilometragem média por litro de combustível, as Médias dos Estudantes,.....
2.2.2 Estatística Probabilística: Analisa situações que envolvem o acaso. Exs: Jogo de cartas
e de dados, Jogos Esportivos, a Decisão de um fabricante de brinquedos para empreender
uma grande campanha de propaganda visando a aumentar sua participação no mercado, a
Decisão de parar de imunizar pessoas com menos de vinte anos contra determinada
doença, a Decisão de se arriscar a atravessar uma rua no meio do quarteirão. Todas
utilizam a probabilidade consistente ou inconsistente.
2.2.3 Estatística da Inferência: Diz respeito à análise e interpretação de dados amostrais.
“Não é preciso comer o bolo todo para saber se ele está bom”.
“Colocar a ponta do dedo na água para saber se ela está quente”.
“Provar uma roupa nova na loja”.
“Assistir um programa de TV, por alguns minutos”.
“Folear um novo livro”.
“Uma Fábrica frequentemente produz um pequeno número de peças (lote piloto) antes de se
lançar à fabricação em grande escala”.
“Muitas firmas mantêm milhares de itens em estoque. Utilizando técnicas de amostragem, pode-
se estimar o valor do inventário, sem proceder a contagem dos itens um a um”.
“Produtos novos são testados nos mercados de cidades-chaves para aquilatar sua aceitação em
geral”.
“Testar a qualidade do produto (Ex: Cintos de segurança)”.
Consequência: A Amostragem reduz o custo da Pesquisa.
“A”→ Pode ser finito (EX: População constituída pelo nº de parafusos produzidos por uma
fábrica em um dia). Ou pode ser infinito [Ex: Todos os resultados possíveis (Cara ou Coroa) em
sucessivos lances de uma moeda].
“B” → Parte representativa da população. Conclusões importantes podem ser inferidas de sua
análise. Chamando-se estatística indutiva ou inferência estatística.
A
B
A → População ou Universo
B → Amostra
B ⊂⊂⊂⊂ A
6
Os três ramos da Estatística utilizam o método científico, que consiste de cinco etapas
básicas:
1. Definir cuidadosamente o problema;
2. Formular um plano para coleta de dados adequados;
3. Reunir os dados;
4. Analisar e interpretar os dados;
5. Relatar as conclusões de maneira que sejam facilmente entendidas por quem as for usar na
tomada de decisões.
2.3 O Uso de Modelos em Estatística
Um modelo é uma versão simplificada de algum problema ou situação da vida real
destinado a ilustrar certos aspectos do problema sem levar em conta todos os detalhes.
Exs: * Um globo para representar a terra
* Folhetos/Propagandas são usados para vender produtos
* Recibo de uma Caixa registradora
* Mostruários
* R$ 17,50
* Régua de Cálculo
* Y = 3X
* Gráficos e Mapas (criar imagem mental)
* Tabelas e Equações (auxílio na resolução do problema)
2.4 Variáveis: Simbologia (X, Y, H, x, b)
Dados Estatísticos que se obtêm mediante um processo que envolve a observação ou
outra mensuração de itens:
• Renda Anual de uma família
• Escores de testes
• Quantidade de insumo para produzir uma unidade do bem “X”
• Resistência à ruptura de fibras de náilon
• Porcentagem de álcool na gasolina
2.4.1 Tipos de Variáveis
2.4.1.1 Variáveis Quantitativas: Tanto os dados discretos como os contínuos se dizem
quantitativos, porque são inerentemente numéricos.
a) Variáveis Contínuas: Podem assumir qualquer valor num intervalo contínuo ou pode assumir
teoricamente qualquer valor entre dois dados.
Ex. A altura H de um indivíduo que pode ser 1,65 metros; 1,662 metros ou 1,6722 metros
conforme a precisão da medida.
b) Variáveis Discretas: Assume valores inteiros. Os dados discretos são o resultado da
contagem do número de itens.
Ex. O número de crianças, em uma família, que pode assumir qualquer um dos valores 0, 1, 2,
3,.... Mas não pose ser 2,5 ou 3,842.
Em geral, as medições dão origem a dados contínuos, enquanto as enumerações ou
contagens resultam em dados discretos.
7
2.4.1.2 Variáveis Qualitativas: Envolvem variáveis que não são numéricas, mas que devem ser
convertidas a valores numéricos antes de serem processadas estatisticamente.
Ex. A cor C de um arco-íris é uma variável, que pode ser vermelho, azul, anil,..., é possível
substituir essas variáveis por quantidades numéricas. Por exemplo, 1 ao vermelho, 2 ao laranja,
etc.
a) Os dados nominais: Surgem quando se definem categorias e se conta o número de
observações pertencentes a cada categoria. Ex: Categorias como sexo (masculino ou
feminino); cor dos olhos (azuis, castanhos, verdes, pretos); campo de estudo (medicina,
direito, administração); desempenho (excelente, bom, mau).
b) Os dados por posto: Consistem de valores relativos atribuídos para denotar ordem: primeiro,
segundo, terceiro,...
TIPOS DE DADOS
Populações Contínuo Discreto Nominal Por Posto
Alunos do 2º
Grau
Idades, Pesos Nº na Classe Menino/Menina 2º Grau
Automóveis Km/h Nº de defeitos
por Carro
Cores Mais Barato
Vendas de
Imóveis
Valor $ Nº de Ofertas Acima do Preço Muito
Dispendioso
8
3 SÉRIES ESTATÍSTICAS E SUA REPRESENTAÇÃO TABULAR E GRÁFICA
3.1 Série Estatística
É um conjunto de dados consecutivos, descritos segundo diversas modalidades.
Ex1. Consumo de leite do tipo KWM, no período janeiro a maio de 2013, na cidade de Fortaleza.
Variável: Consumo de leite
Dados: O Consumo (em litros) em cada mês do período.
Ex2. Vendas de carro dos modelos Gol e Golf, nas cidades de Fortaleza e Natal, no mês de julho
de 2013.
Variável: Vendas de carro
Dados: Número de Gol’s e o número de Golf’s vendidos na cidade de Fortaleza e Natal
Ex3. Total de pessoas aprovadas no vestibular da Faculdade CDL, no mês de janeiro de 2013, na
cidade de Fortaleza.
Variável: Número de pessoas aprovadas no vestibular.
Dados: É apenas um dado, conseqüentemente é uma informação e não uma série estatística.
3.2 Tipos de Séries Estatísticas
� Temporal ou Cronológica ou Histórica ou Evolutiva
Nesta série, os dados variam apenas em função do tempo.
Ex. Alunos inscritos para o concurso da Receita Federal, na cidade de Fortaleza, no período de
janeiro a julho de 2013.
� Específica ou Categórica
Nesta série, os dados correspondem às especificações da variável.
Ex. Alunos inscritos no concurso da Receita Federal, segundo o sexo, na cidade de Fortaleza, no
mês de julho de 2012.
� Geográfica
Nesta série, os dados variam somente em função da localidade.
Ex. Alunos inscritos para o concurso da Receita Federal, nas cidades de Fortaleza e Natal, no
mês de julho de 2013.
� Distribuição de Freqüência (principal série estatística)
Nesta série, os dados de uma determinada variável devem ser dispostos em intervalos de
classe. Pois é por intermédio de uma distribuição de freqüência, que se conhece a proximidade
da distribuição de uma variável com a “Normal”. Possibilitando, com isso, conhecer o grau de
representatividade das medidas de tendência central, que são os indicadores (informações), que
representam um conjunto de dados.
9
Ex. Alunos inscritos para o concurso da Receita Federal, na cidade de Fortaleza, no mês de junho
de 2013, segundo a faixa etária.
� Mista
Nesta série, os dados podem variar em mais de uma classificação já apresentada
anteriormente (Temporal/Específica/Geográfica/Distribuição de Freqüência).
Ex. Alunos inscritos para o concurso da Receita Federal, na cidade de Fortaleza e Natal, no
período de janeiro a julho de 2013.
3.3 Representação Tabular
É um arranjo sistemático de dados, dispostos em colunas e linhas para fins
comparativos.
Ex. Os dados abaixo são referentes ao consumo de leite, por litro, dos tipos A e B, na cidade de
Fortaleza, no período de janeiro a abril de 2013, segundo um levantamento direto realizado pela
Fábrica de Leite KWM.
Título, Cabeçalho e Corpo (Elementos de Uma Tabela):
TABELA 1: Consumo de Leite (em litros), Segundo os Tipos(1) A e B, Fortaleza, janeiro-
abril/13
Meses Leite Tipo A Leite Tipo B
Janeiro 2.000 5.000
Fevereiro 1.000 6.000
Março 1.500 5.000
Abril 1.800 4.500
Total 6.300 20.500
Fonte: Pesquisa Direta – Fábrica KWM.
Nota (1): O leite do tipo A é puro, enquanto que o do tipo B apresenta uma mistura de 30% com água.
Título: É a indicação que precede a Tabela e que contém a definição do seu conteúdo, da
abrangência geográfica e temporal dos dados numéricos.
Obs: Os meses podem ser abreviados da seguinte forma: Jan, Fev, Mar, Abr, Maio, Jun, Jul,
Ago, Set, Out, Nov e Dez.
Alguns Casos para apresentação do período de uma Série Temporal:
2011-2013. Apresenta dados numéricos para os anos de 2011, 2012 e 2013
outubro/09-março/10. Apresenta dados numéricos para os meses de outubro, novembro e
dezembro de 2009 e janeiro, fevereiro e março de 2010.
2007/20010. Dados numéricos para os anos de 2007 e 2010, não sendo apresentados dados os
anos intermediários.
2008,2009,2010. Dados numéricos para séries temporais não consecutivas que contenham um
número reduzido de pontos.
10
Cabeçalho: É a parte superior da Tabela que especifica o conteúdo das colunas. Acrescente-se
ainda que a indicação da expressão quantitativa ou metereológica dos dados numéricos deve ser
feita com símbolos ou palavras, entre parênteses, no cabeçalho.
Ex. m ou (metro); t ou (tonelada); R$ ou (Real)
Corpo: É o espaço reservado para a apresentação dos dados ou das informações, situando-se
sempre abaixo do cabeçalho.
Fonte: É a indicação da entidade responsável pelo fornecimento dos dados. Recomenda-se
escrever neste item da Tabela a forma de coleta dos dados, ou seja, se pesquisa direta ou indireta.
Nota: São informações esclarecedoras colocadas no rodapé da Tabela, em geral abaixo da fonte.
As notas devem ser numeradas de acordo com as chamadas que forem necessárias, podendo esta
numeração ser colocada no título, no cabeçalho ou mesmo na nota respectiva.
3.4 Organização de Dados:
Os dados podem ser assinalados segundo a ordem alfabética, cronológica, geográfica ou
de acordo com a magnitude. Sendo que nenhum espaço pode ser
deixado em branco, devendo
sempre existir um número ou sinal. Para tanto, veja alguns símbolos utilizados.
3.4.1 Símbolos de uma Tabela
Dado numérico igual a zero: -
Não se aplicam dados numéricos: - -
O dado existe, no entanto, não está disponível: - - -
Dado numérico omitido para evitar individualização: X
Dado numérico positivo igual a zero resultante de arredondamento: 0.0: 0.00: 0.000
Dado numérico negativo igual a zero resultante de arredondamento: -0.0: -0.00: -0.000
Especificamente no que se refere à forma apropriada de arredondar dados, por questões
de precisão é recomendável utilizar duas casas decimais.
3.5 Representação Gráfica
É uma representação visual de uma série estatística, que tem como objetivo central
ilustrar a sua tendência.
Série Temporal: Utilizar gráfico de linha.
Série Específica: Utilizar gráfico de barra ou coluna.
Série Geográfica: Utilizar gráfico de setor.
Série Distribuição de Freqüência: Neste caso, existem três gráficos, que podem ser adotados, que
não simplesmente identificam o tipo de tendência e sim, também, o grau de aproximação da
distribuição em questão com a distribuição normal. Esses gráficos são: Histograma: Polígono de
Freqüência e a Curva de Freqüência.
11
GRÀFICO 1: Consumo de Leite (em litros), Segundo os Tipos A e B, Fortaleza, janeiro-abril/13
0
1.000
2.000
3.000
4.000
5.000
6.000
7.000
Janeiro Fevereiro Março Abril
Meses
Li
tr
o
s Leite Tipo A
Leite Tipo B
Fonte: Pesquisa Direta – Fábrica KWM, 2013.
Escala: 1cm : 650 litros
3.5.1 Elementos que compõem um gráfico
Título: Sobre este elemento, o leitor poderá observar as mesmas orientações dadas, no tocante à
elaboração de tabelas.
Legenda: A legenda é um elemento de um gráfico utilizado para identificar as variáveis
apresentadas. A sua aplicação faz-se necessária quando se trabalha com especificações de uma
variável. Por exemplo: Supondo-se que o exercício em questão tratasse do número de litros de
leite A e B. Neste caso, em um gráfico de linha, seria necessário apresentar duas linhas, ou seja,
uma cheia e uma pontilhada que irão identificar, respectivamente, cada tipo de leite.
Corpo: Sobre este elemento, o leitor poderá observar as mesmas orientações dadas, no tocante à
elaboração de tabelas.
Fonte: Sobre este elemento, o leitor poderá observar as mesmas orientações dadas, no tocante à
elaboração de tabelas.
Escala: A escala em um gráfico demonstra a dimensão adotada para a organização dos pontos e a
sua posição em geral situa-se abaixo da fonte.
Adota-se a seguinte correspondência, por exemplo:
10 cm vai equivaler a 6.500 litros.
Partindo-se desta referência, para cada mês será determinado um tamanho em “Y”
equivalente ao respectivo número de litros de leite. Para tanto, deve-se aplicar uma regra de três,
da seguinte forma:
12
10 cm 6.500 litros
X 2.000 litros
X= 3,08 cm
Este processo deverá ser repetido para cada mês, resultando assim nos seguintes
valores:
Tipo A e Tipo B
Janeiro 3,08 7,69
Fevereiro 1,54 9,23
Março 2,61 7,69
Abril 2,77 6,92
A partir desses valores, para cada mês descrito no eixo “X”, plotam-se os pontos no
eixo cartesiano, em seguida, com a ligação desses pontos, tem-se a curva representativa desta
série estatística.
Ainda sobre a escala, adotando-se a referência inicial de 10 cm para 6.500 litros e
partindo-se para uma identificação mais específica do número de litros de leite correspondente a
cada cm, deve-se proceder o seguinte cálculo:
10 cm 6.500 litros
1 cm X
X= 650
Com este valor tem-se a seguinte escala:
1 cm : 650 litros
13
4 DISTRIBUIÇÃO DE FREQUÊNCIA
Quando se resumem grandes massas de dados brutos, costuma-se freqüentemente
distribuí-los em classes ou categorias e determinar o número de indivíduos pertencentes a cada
uma das classes, denominado frequência da classe. Um arranjo tabular dos dados por classe,
juntamente com as freqüências correspondentes, é denominado distribuição de freqüência ou
tabela de freqüência.
* Dados Brutos ⇒ São aqueles que ainda não foram numericamente organizados. Um exemplo é
o conjunto das idades de 34 estudantes, coletado de forma direta e aleatória, da disciplina de
Estatística da Faculdade CDL, no período 2012.1.
Ex: 24, 22, 21, 19, 34, 22, 25, 18, ........
* Rol ⇒ É um arranjo de dados numéricos brutos em ordem crescente ou decrescente de
grandeza.
Construção do Rol:
18 19 19 19 20 21 21 21 21 21 22 22
22 22 22 22 22 23 23 23 23 24 24 24
25 25 25 26 26 27 27 34 34 39
Distribuição de Freqüência das Idades
Classes fi
18,00 22,20 17
22,21 26,41 12
26,42 30,62 02
30,63 34,83 02
34,84 39,04 01
Total 34
* Intervalos e Limites de Classe ⇒ Um símbolo que define uma classe, como 18,0 22,2 da
Tabela, chama-se intervalo de classe. Os números extremos: 18,0 e 22,2 são denominados limites
de classe; o número menor, 18,00 é o limite inferior da classe e o maior, 22,2 é o limite superior
da classe.
Um intervalo de classe que, ao menos teoricamente, não tem limite superior ou inferior
indicado, é denominado intervalo de classe aberto. Por exemplo, ao referir-se a grupos de idade
de indivíduos, o intervalo de classe “65 anos ou mais” é um intervalo de classe aberto.
Simbologia:
2 4: o dois participa do intervalo, o quatro não.
2 4: o dois não participa do intervalo, o quatro sim.
24: o dois e o quatro participam do intervalo.
2 4: o dois e o quatro não participam do intervalo.
* Limites Reais de Classe ⇒ Se um exemplo com dados coletados das idades dos estudantes, e
estas são arredondadas no intervalo de classe 22,21 26,41 inclui, teoricamente, todas as
medidas compreendidas entre 22,205 ...... até 26,414. Esses números, indicados abreviadamente
pelos números 22,205 e 26,414 são denominados os limites reais ou os verdadeiros da classe; o
menor, 22,205 é o limite inferior real e o maior, 26,414, é o limite superior real da classe.
14
* Amplitude Total ⇒ É uma medida absoluta de variabilidade. No caso específico da
distribuição de freqüência das idades, o seu valor será:
Atotal = Valormáximo – Valormínimo = 39 –18 = 21
* Número de Classes ⇒ Teoricamente, recomenda-se que seja adotado um número mínimo de
cinco classes e um máximo de vinte. Para estabelecer este número, em função do total de
observações, existem dois processos distintos, quais sejam:
1) N ou N ½; onde N é o número de observações:
= 34 = 5.8310
2) 1 + 3,3.LogN, onde N é o número de observações:
= 1 + 3,3Log34 = 1 + 3,3.(1,5315) = 6,0539
Log 34 = Ln 34 = 3,5264 = 1,5315
Ln 10 2,3026
Considerando-se o primeiro processo, estima-se
para o exemplo em questão, um total de,
aproximadamente, seis classes.
* Amplitude do intervalo de classe ⇒ É a diferença entre os limites superior e inferior dessa
classe, e é também referida como a amplitude, o tamanho ou comprimento da classe.
Amplitude de Classe = Amplitude Total
Número de classes
= 39 – 18 = 3,50
6
Não necessariamente uma distribuição de freqüência precisa apresentar uma única
amplitude de classe, às vezes, quando não é possível organizar um conjunto de dados em um
número de 5 a 20 classes, o analista poderá estabelecer classes de amplitudes diferentes,
preocupando-se, no entanto, em manter a composição estrutural da distribuição.
Após a definição da amplitude de classe, parte-se para a construção da distribuição de
freqüência absoluta igual a zero.
Distribuição de Freqüência das Idades
Classes fi
18,00 21,50 10
21,51 25,01 17
25,02 28,52 04
28,53 32,03 - -
32,04 35,54 02
35,55 39,05 01
Total 34
15
Observe que o quarto intervalo de classe não apresenta uma freqüência diferente de zero,
conseqüentemente, repete-se o processo diminuindo para 5 classes e recalculando a amplitude de
classe, que passa a assumir um valor igual a 4,2. E a distribuição de freqüência configura-se da
forma apresentada no início deste texto.
Distribuição de Freqüência das Idades
Classes fi fi,A fi,R fi,R,A
18,0022,20 17 17 50,01 50,01
22,2126,41 12 29 35,29 85,30
26,4230,62 02 31 5,88 91,18
30,6334,83 02 33 5,88 97,06
34,84 39,04 01 34 2,94 100,00
Total 34 -- 100,00 --
* Freqüência Absoluta Simples (fi) ⇒ Indica o número de casos existentes em um intervalo
específico. Tomando-se como referência o exemplo, na segunda classe existem 12 alunos, com
idade entre 22,21 e 26,41.
* Freqüência Absoluta Simples Acumulada (fi,A) ⇒ Indica o número de casos acumulados até o
limite superior de um intervalo de classe. No segundo intervalo, o número 29 informa a
quantidade de alunos, com idade entre 18 e 26,41 anos.
* Freqüência Relativa Simples (fi,R) ⇒ Indica o valor relativo da participação do número de
casos em um intervalo específico. Para a distribuição das idades, verifica-se na segunda faixa
que 35,29% dos alunos têm idade entre 22,21 e 26,41 anos.
* Freqüência Relativa Acumulada (fi,R,A) ⇒ Mostra a participação do número de casos
registrados até o limite superior de um intervalo específico. Para a segunda classe, confirma-se,
no exemplo, que 85,30% dos alunos têm idade entre 18 e 26,41 anos.
* Histograma: Polígonos de Freqüência e Curva de Freqüência ⇒ São duas representações
Gráficas de Distribuição de Freqüência.
(1) Um Polígono de freqüência consiste em um conjunto de retângulos que tem:
(a) As bases sobre um eixo horizontal (eixo do X) com centro no ponto médio e as larguras
iguais às amplitudes dos intervalos das classes.
(b) As áreas proporcionais às freqüências das classes.
Se todos os intervalos tiverem a mesma amplitude, as alturas dos retângulos serão
proporcionais às freqüências das classes, então, costuma-se tomar as alturas numericamente
iguais a essas freqüências. Se os intervalos de classe não tiverem a mesma amplitude, essas
alturas deverão ser ajustadas.
Espaço para desenhar os gráficos
16
(2) Uma Curva de freqüência é um gráfico de linha em que as frequências são locadas sobre
perpendiculares levantadas nos pontos médios.
Costuma-se acrescentar segmentos PQ e RS, que vão ter pontos médios imediatamente
inferior e superior às primeira e última classes da distribuição, respectivamente, cujas
freqüências são nulas. Nesse caso, a soma das áreas dos retângulos do histograma é igual a área
total limitada pelo polígono de freqüência e o eixo do X.
Tipos de Curvas de Freqüência:
Espaço para desenhar os gráficos
(a) Simétrica ou em forma de sino ⇒ Caracteriza-se pelo fato de as observações eqüidistantes do
ponto central máximo terem a mesma freqüência. Ex: Curva Normal.
(b) Assimétrica Positiva (desviada para a direita) ⇒ A cauda da curva do lado da ordenada
máxima (direito) é mais longa que a esquerda.
(c) Assimétrica Negativa (desviada para a esquerda) ⇒ A cauda da curva do lado da ordenada
máxima (esquerda) é mais longa que a direita.
(d) e (e) ⇒ Na curva em foram de j, ou j invertido, o ponto de ordenada máxima ocorre em uma
das extremidades.
(f) Uma curva em forma de U tem ordenadas máximas em ambas as extremidades.
(g) Uma curva de freqüência bimodal tem dois máximos.
(h) Uma curva de freqüência multimodal tem mais de dois máximos.
* Distribuição de Freqüência Acumulada – Ogivas ⇒ Um gráfico que apresente a freqüência
acumulada abaixo de qualquer limite superior de classe, locada em relação a esse limite, é
denominado polígono de freqüência acumulada ou ogiva.
Distribuição de Freqüência Acumulada das Idades
Idade (anos) Número de Estudantes
Abaixo de 18,00 0
Abaixo de 22,20 17
Abaixo de 26,41 29
Abaixo de 30,62 31
Abaixo de 34,83 33
Abaixo de 39,04 34
Espaço para desenhar o Gráfico
17
5 MEDIDAS DE TENDÊNCIA CENTRAL
Simples
Aritmética Ponderada
A) Médias P/ Dados Agrupados
Geométrica
B) Mediana
C) Moda
5.1 Média Aritmética Simples:
É um valor obtido através do quociente entre a soma dos valores em um conjunto de dados
e o número total de valores.
Simbologia:
µ – Valor médio de uma população, denominado de parâmetro.
_
X – Valor médio de uma amostra, denominado de estimativa.
Expressão da média aritmética simples:
População Amostra
_
µ = Σ Xi x = Σ xi
N n
Onde Xi = cada observação; N e n = total de observações
Ex: Salários dos funcionários da Empresa HYZ.
622,00 622,00 660,00 680,00 690,00 700,00 762,00 781,00 834,00 870,00 888,00
929,00 973,00 1.050,00 1.155,00 1.155,00 1.229,00 1.498,00 1.525,00 1.635,00
1.843,00 2.020,00 2.204,00 2.467,00 2.943,00 3.320,00 3.548,00 3.617,00 3.763,00
3.964,00 4.020,00 4.968,00 5.170,00 5.405,00 5.622,00 6.783,00 6.820,00
37
População: µ = Σ Xi / N = X1 + X2 + ......... + X37 = 87.735,00 = 2.371,22
i=1 37 37
_ 15
Amostra: x = Σ xi/n = x5 + x6 + ....... + x15 = 9.632,00 = 875,64
i=5 11 11
18
5.2 Média Aritmética Ponderada
A média aritmética ponderada é uma estatística que deve ser adotada, quando se pretende
extrair um número representativo de um conjunto de dados, onde os mesmos têm pesos
diferentes.
A expressão analítica desta estatística é definida por:
µp = Σ wi Xi
Σ wi
Onde: wi = peso de cada observação
Xi = valor de cada observação
Ex: Um professor informa à classe que haverá dois exames de uma hora, valendo cada um 30%
do total de pontos do curso, e um exame final valendo 40%. Assim, um estudante que obtém 8,0
no primeiro exame, 9,0 no segundo, e 9,6 no exame final, terá uma média final de 8,94:
Exame Nota Peso
Nº 1 8,0 0,30
Nº 2 9,0 0,30
Final 9,6 0,40
Total = 1,00
µp = 0,30.(8,0) + 0,30.(9,0) + 0,40.(9,6) ⇒ µp = 8,94
0,30 + 0,30 + 0,40
(Simples): µ = Σ Xi = 8,0 + 9,0 + 9,6 = 266 = 8,87
N 3 3
5.3 Média Aritmética para Dados Agrupados
Quando os dados são apresentados em uma distribuição de freqüência, todos os valores
incluídos num certo intervalo de classe são considerados coincidentes com o ponto médio do
intervalo.
_
X = A + (Σ f u).C
N
Onde:
A = Qualquer ponto médio admitido ou arbitrado.
fj = Freqüência de classe correspondente.
uj = Pode ser números inteiros positivos ou negativos, ou zero, isto é, 0, ±1, ±2, ±3, ......
uj = dj = Xj – A
C C
19
Xj = Ponto médio da classe “j”.
dj = Desvio de Xj com relação a A
C = Amplitude de classe.
N = Número de observações.
Ex: Média Aritmética para Dados Agrupados dos Salários dos Funcionários da Empresa HYZ.
Classes Fi
622,00 1.655,00 20
1.655,00 2.688,00 04
2.688,00 3.721,00 04
3.721,00 4.754,00 03
4.754,00 5.787,00 04
5.787,00 6.820,00 02
Total : 37
u1= d1 = X1 – A = 1.138,50 – 1.138,50 = 0 = 0
C C 1.033,00 1.033,00
u2= d2 = X2– A = 2.171,50 – 1.138,50 = 1.033,00 = 1
C C 1.033,00 1.033,00
u3= d3 = X3 – A = 3.204,50– 1.138,50 = 2.066,00 = 2
C C 1.033,00 1.033,00
u4= d4 = X4 – A = 4.237,50 – 1.138,50 = 3.099,00 = 3
C C 1.033,00 1.033,00
u5= d5 = X5 – A = 5.270,50 – 1.138,50 = 4.132,00 = 4
C C 1.033,00 1.033,00
u6= d6 = X6 – A = 6.303,50 – 1.138,50 = 5.165,00 = 5
C C 1.033,00 1.033,00
__
X = 1.138,50 + (f1.u1 + f2.u2 + f3.u3 + f4.u4 + f5.u5 + f6.u6). 1.033,00
37
__
X = 1.138,50+ [20.(0) + 4.(1) + 4.(2) + 3.(3) + 4.(4) + 2.(5) ]. 1.033,00
37
20
__
X = 1.138,50 + (0 + 4 + 8 + 9 + 16 + 10). 1.033,00
37
__
X = 1.138,50 + (47). 1.033,00
37
__
X = 1.138,50 + (48.551,00)
37
__ __
X = 1.138,50 + 1.312,19 ⇒ X = 2.450,69
5.4 Média Geométrica
A média geométrica G de um conjunto de N números X1, X2, X3, ...., Xn é a raiz de ordem
N do produto desses números, devendo ser utilizada quando se dispõem de dados que
apresentam um crescimento geométrico.
N
G =
Ex1: A média geométrica dos números 2, 4 e 8:
3
G =
3
G =
G = 4
Ex2: Determinar: (a) a média geométrica; (b) a média aritmética simples dos números 3, 5, 6, 6,
7, 10, 12. Admita que os números sejam exatos.
(a) Média Geométrica
7
G =
7
G =
G = 6,43
Ou Log G = (1/7).Log 453.600 = (1/7) (5,6567) = 0,8081
G = 6,43
Todo número positivo pode ser expresso por N = 10 p: p é o logaritmo de N
Então: Log G = 0,8081
X1 . X2 . X3 ....Xn
2 . 4 . 8
64
3x5x6x6x7x10x12
453.600
21
G = 10 0,8081 ⇒ G = 6,43
(b) Média Aritmética Simples: µ = 3 + 5 + 6 + 6 + 7 + 10 + 12 = 7
7
Isso mostra que a média geométrica de um conjunto de números positivos desiguais é
menor do que a média aritmética simples.
5.5 Mediana
I) Para um Conjunto Simples:
A mediana de um conjunto de números, ordenados em ordem de grandeza (isto é, em um
Rol), é o valor médio ou a média aritmética dos valores centrais.
Ex1: O conjunto de números 3, 4, 4, 5, 6, 8, 8, 8, 10 tem como mediana “6”. Ou seja, 50% dos
números desse conjunto tem valor máximo igual a 6.
Outro método:
Posição da Mediana = n/2 + 0,5 = 9/2 + 0,5 = 4,5 + 0,5 = 5 (5ª posição)
Valor da Mediana = “6”
Ex2: O conjunto de números 5, 5, 7, 9, 11, 12, 15, 18 tem como mediana ½(9 + 11) = “10”. Ou
seja, 50% dos números desse conjunto tem valor máximo igual a 10.
Outro método:
Posição da Mediana = n/2 + 0,5 = 8/2 + 0,5 = 4 + 0,5 = 4,5 (4,5ª posição)
Valor da Mediana = ½(9 + 11) = “10”
II) Para Dados Agrupados:
Mediana = L1 + [ N/2 – (∑f)1].C
fmediana
Onde:
L1 = limite inferior da classe mediana
N = número de observações total
(∑f)1 = soma de todas as classes abaixo da classe mediana
fmediana = freqüência da classe mediana
C = amplitude do intervalo da classe mediana
Ex: Mediana da Distribuição de Freqüência dos Salários dos Funcionários da Empresa HYZ.
Admite-se que os pesos, na distribuição de freqüência, se distribuem continuamente. Nesse
caso, a mediana é o peso para qual a metade da freqüência total (37/2 = 18,5) fica situada abaixo
e a outra acima dele. Assim, a mediana situa-se na 1ª classe que é, portanto, a classe mediana.
Então:
22
L1 = 622,00
N = 37
(∑f)1 = 0
fmediana = 20
C = 1.033,00
Mediana = L1 + [ N/2 – (∑f)1].C
fmediana
Mediana = 622,00 + [37/2 – 0]x 1.033,00
20
Mediana = 622,00 + [18,5]x 1.033,00
20
Mediana = 622,00 + 19.110,50 = 622,00 + 955,52 = 1.577,52
20
5.6 Moda
I) Para um Conjunto Simples:
A moda de um conjunto de números é o valor que ocorre com a maior freqüência, isto é, é
o valor mais comum. A moda pode não existir e, mesmo que exista, pode não ser única.
Ex1: O conjunto de números 2, 2, 5, 7, 9, 9, 9, 10, 10, 11, 12, 18 tem moda 9. (Conjunto
Unimodal);
Ex2: O conjunto de números 3, 5, 8, 10, 12, 15, 16 não tem moda. (Conjunto Amodal);
Ex3: O conjunto de números 2, 3, 4, 4, 4, 5, 5, 7, 7, 7, 9 tem duas modas, 4 e 7. (Conjunto Bimodal);
Ex4: O conjunto de números 2, 3, 3, 4, 5, 5, 7, 8, 8, 9, tem três modas, 3, 5 e 8. (Conjunto
Plurimodal).
OBS: Não implica dizer que o valor mais freqüente do conjunto ou a moda deste represente a
verdadeira situação do evento.
Ex: Notas dos alunos em uma prova
N = {1,00; 1,10; 1,50; 2,00; 2,50; 2,60; 2,70; 2,80; 10,00; 10,00}
Moda de N = 10 ⇒ Não traduz com clareza o verdadeiro desempenho da turma.
Solução: Usar uma medida de participação, como a mediana, o quartil, o decil ou o percentil.
a) Posição da Mediana = n/2 + 0,5 = 10/2 + 0,5 = 5,5
Valor da Mediana = 2,50 + 2,60 = 2,55: 50% dos alunos não obtiveram nota superior a 2,55
2
b) Quartil:
Posição do Quartil = n/4 + 0,5 = 10/4 + 0,5 = 3
Valor do Quartil = “1,50”: 25% dos alunos não obtiveram nota superior a 1,50
23
c) Decil:
Posição do Decil = n/10 + 0,5 = 10/10 + 0,5 = 1,5
Valor
do Decil = (1,00 + 1,10)/2 = 1,05: 10% dos alunos não obtiveram nota superior a 1,05
d) Percentil:
Posição do Percentil = n/100 + 0,5 = 10/100 + 0,5 = 0.6
Valor do Percentil = Não Existe
II) Para Dados Agrupados:
A moda será o valor (ou valores) de X correspondente ao ponto de ordenada máxima
(ou pontos) da curva de freqüência.
Moda = L1 + ( ∆1 ) . C
∆1 + ∆2
Onde:
L1 = limite inferior da classe modal (isto é, a que contém a moda);
∆1 = excesso da freqüência modal sobre a da classe imediatamente inferior;
∆2 = excesso da freqüência modal sobre a da classe imediatamente superior;
C = amplitude do intervalo da classe modal.
Ex: Moda da Distribuição de Freqüência dos Salários dos Funcionários da Empresa HYZ.
L1 = 622,00
∆1 = 20 – 0 = 20
∆2 = 20 – 4 = 16
C = 1.033,00
Moda = 622,00 + ( 20 ) x 1.033,00
20 + 16
Moda = 622,00 + 20 x 1.033,00
36
Moda = 622,00 + 573,89 = 1.195,89
24
6 MEDIDAS DE DISPERSÃO OU VARIAÇÃO
Representa o grau aos quais os dados numéricos tendem a dispersar-se em torno de um
valor médio. Ou seja, as medidas de dispersão indicam se os valores estão relativamente
próximos uns dos outros, ou separados. São elas:
6.1 Amplitude Total ou Intervalo
6.2 Desvio Médio
6.3 Desvio Padrão
6.4 Variância
6.5 Coeficiente de Variação
Ex: (a) _._._......._____________________________
Pouca Dispersão
(b) ___.______._______.________._______._______
Grande Dispersão
6.1 Amplitude Total ou Intervalo:
Pode ser expresso de duas maneiras:
a) A diferença entre o maior e o menor valor
b) Do maior ao menor valor do grupo
Tabela 1
Intervalo
Números Diferença Do Menor ao Maior
1, 5, 7, 13 13 – 1= 12 De 1 a 13
14, 3 17, 4, 8, 73, 36, 48 73 – 3 = 70 De 3 a 73
3,2; 4,7; 5,6; 2,1; 1,9; 10,3 10,3 – 1,9 = 8,4 De 1,9 a 10,3
6.2 Desvio Médio Absoluto:
O Desvio Médio de um conjunto de N números X1, X2, ....., Xn é definido por:
n
∑ Xj – X
j=1
DM = _________________
N
25
Onde: X = Média Aritmética Simples
Xj = Cada número do conjunto
Xj – X = Valor Absoluto do desvio de Xj em relação a X
Obs: O valor absoluto de número é ele próprio, sem o sinal que lhe é associado, e é indicado por
meio de duas linhas verticais que o enquadram ou módulo. Assim, -4 = 4; -3 = 3; -0,84
= 0,84.
Portanto, o Desvio Médio Absoluto de um conjunto de números é a média dos desvios
dos valores a contar da média, ignorando-se o sinal de diferença.
Ex: Determine o Desvio Médio para o conjunto de valores:
A={ 1, 2, 3, 4, 5}
Média Aritmética :
µ = Σ Xi = 1 + 2 + 3 + 4 + 5 = 15 = 3
N 5 5
_ _
Xi X Xi – X Xi - X
1 3 -2 2
2 3 -1 1
3 3 0 0
4 3 1 1
5 3 2 2
0 6
Desvio Médio = ∑Xj – X = 6 = 1,2
N
Se x1, x2, ....., xn ocorrem com as freqüências f1, f2, ......, fn, respectivamente, o desvio
médio poderá ser indicado da seguinte forma:
n
∑ fjXj – X
j=1
DM = _________________
N
Onde: Xj = Ponto Médio de cada classe
X = Média Aritmética p/ Dados Agrupados
fj = Freqüência de cada classe
26
Ex: Desvio Médio dos Salários dos funcionários da Empresa “HYZ”.
Classes Fi
622,00 1.655,00 20
1.655,00 2.688,00 04
2.688,00 3.721,00 04
3.721,00 4.754,00 03
4.754,00 5.787,00 04
5.787,00 6.820,00 02
Total : 37
DM = f1X1 - X + f2X2 - X + f3X3 - X + f4X4 - X + f5X5 - X+ f6X6 - X
N
DM = [201.138,50 – 2.450,69 + 42.171,50 – 2.450,69 + 43.204,50 – 2.450,69 +
34.237,50 – 2.450,69 + 45.270,50 – 2.450,69+ 26.303,50 – 2.450,69] / 37
DM = [20-1.312,19 + 4-279,19 + 4753,81 + 31.786,81 + 42.819,81+
23.852,81] / 37
DM = 26.243,80 + 1.116,76 + 3.015,24 + 5.360,43 + 11.279,24 + 7.705,62
37
DM = 54.721,09 = 1.478,95
37
6.3 Desvio Padrão
O Desvio Padrão de um conjunto de N números X1, X2, ....., Xn é a raiz média
quadrática dos desvios, em relação à média ou, como é muitas vezes denominada, o desvio da
raiz média quadrática.
Para População:
n
∑ (Xj – X )2
j=1
σ = _________________
N
Para Amostra:
n
∑ (Xj – X )2
j=1
S = _________________
n - 1
27
Ex: Calcule o Desvio Padrão do Conjunto: 20, 5, 10, 15, 25.
Média Aritmética: µ = 20 + 5 + 10 + 15 + 25 = 75 = 15
5 5
σ = [(20 – 15)2 + (5 – 15)2 + (10 – 15)2 + (15 – 15)2 + (25 – 15)2 /5]1/2
σ = [(5)2 + (-10)2 + (-5)2 + (0)2 + (10)2 /5]1/2
σ = [25 + 100 + 25 + 0 + 100 /5]1/2
σ = [250/5]1/2
σ = [50]1/2
σ = 7,1
Se X1, X2, ....., Xn ocorrerem com as freqüências f1, f2, ......, fn, respectivamente,
o
desvio padrão pode ser definido por:
n
∑ fj (Xj – X )2
j=1
σ = _________________
N
Onde: Xj = Ponto Médio de cada classe
X = Média Aritmética p/ Dados Agrupados
fj = Freqüência de cada classe
Ex: Desvio Padrão dos Salários dos funcionários da Empresa “HYZ”.
σ={[f1(X1 – X)2 +f2(X2 – X)2 + f3(X3 – X)2 + f4(X4 – X)2 + f5(X5 – X)2 + f6(X6 – X)2]/N }1/2
σ = {[20(1.138,50 – 2.450,49)2 + 4(2.171,50 – 2.450,69)2 + 4(3.204,50 – 2.450,69)2 +
3(4.237,50 – 2.450,69)2 + 4(5.270,50 – 2.450,69)2 + 2(6.303,50 – 2.450,69)2] / 37}1/2
σ = {[20(-1.312,19)2 + 4(-279,19)2 + 4(753,81)2 + 3(1.786,81)2 + 4(2.819,81)2 + 2(3.852,81)2] /
37}1/2
σ = {34.436.851,92+311.788,22+2.272.918,06+9.578.069,93+31.805.313,75+29.688.289,79 }1/2
37
σ = {108.093.231,7 }1/2= 1.709,22
37
28
6.4 Variância
A Variância de um conjunto de dados é definida como o quadrado do desvio padrão.
Para População:
n
∑ (Xj – X )2
j=1
σ2 = _________________
N
Para Amostra:
n
∑ (Xj – X )2
j=1
S2 = _________________
n - 1
Ex: Calcule a Variância do conjunto: 2, 4, 6, 8, 10
Média Aritmética:
µ = Σ Xi = 2 + 4 + 6 + 8 + 10 = 30 = 6
N 5 5
Xi X Xi – X Xi - X
2 6 -4 16
4 6 -2 4
6 6 0 0
8 6 2 4
10 6 4 16
0 40
σ2 = Σ (Xi – X)2 = 40 = 8
N 5
Se X1, X2, ....., Xn ocorrerem com as freqüências f1, f2, ......, fn, respectivamente, o
desvio padrão pode ser definido por:
n
∑ fj (Xj – X )2
j=1
σ2 = _________________
N
Onde: Xj = Ponto Médio de cada classe
X = Média Aritmética p/ Dados Agrupados
fj = Freqüência de cada classe
29
Ex: Variância dos Salários dos funcionários da Empresa “HYZ”.
σ2 = (1.709,22)2
σ2 = 2.921.438,69
6.5 Dispersão Absoluta e Relativa
A variação ou dispersão real, determinada a partir do desvio padrão, da variância, ou
qualquer outra medida de dispersão, é denominada dispersão absoluta. Entretanto, uma variação
ou dispersão de 10 cm, na medida de uma distância de 1.000 m, é inteiramente diferente, quanto
ao efeito, da mesma variação de 10 cm em uma distância de 20 m. A medida desse efeito é
proporcionada pela dispersão relativa, definida por:
• Dispersão Relativa = Dispersão Absoluta
Média
• Variância Relativa = Variância Absoluta
Média
• Desvio Padrão Relativo = Desvio Padrão Absoluto ou Coeficiente de Variação
Média
Assim, o Coeficiente de Variação é um indicador utilizado para medir o grau de
representatividade da média de uma distribuição. E isto é possível, na medida em que essa
estatística possibilita identificar quanto por cento do valor da média é dispersão.
Ex: Uma indústria de dispositivos eletrônicos tem dois tipos de produtos, A e B. Os produtos têm
as durações médias de XA = 1.495 hs e XB = 1.875 hs, respectivamente, e os desvios padrões de
SA = 280 hs e SB = 310 hs. Qual produto que tem maior: (a) dispersão absoluta; (b) dispersão
relativa?
(a) O dispositivo B tem maior dispersão absoluta.
(b) Coeficiente de Variação de A = SA = 280 = 18,7%
XA 1495
Coeficiente de Variação de B = SB= 310 = 16,5%
XB 1875
Então, o produto A tem maior dispersão ou variação relativa.
30
7 MEDIDAS DE ASSIMETRIA
Assimetria é o grau de desvio, ou afastamento da simetria, de uma distribuição. Se a curva
de freqüência de uma distribuição tem uma "cauda" mais longa à direita da ordenada máxima
que à esquerda, diz-se que é uma distribuição desviada para a direita, ou que possui assimetria
positiva. Se é o inverso que ocorre, diz-se que ela é desviada para a esquerda, ou de assimetria
negativa.
Para distribuições assimétricas, a média tende a situar-se do mesmo lado da moda (cauda
mais longa). Por isso, uma medida de assimetria é proporcionada pela diferença entre a média e
a moda. Ela pode ser tomada sem dimensão, mediante sua divisão pelo desvio padrão, o que
resulta na definição:
onde é a moda e é a mediana.
Evidentemente qualquer distribuição simétrica tem assimetria nula. Exemplo: distribuição
normal, conforme curva B da figura acima .
Assimetria negativa significa valores concentrados à esquerda (curva A). Em geral, a
média é menor que a mediana.
Assimetria positiva significa valores concentrados à direita (curva C). Em geral, a média é
maior que a mediana.
x - = 0 ⇒ assimetria nula ou distribuição simétrica
x - < 0 ⇒ assimetria negativa ou à esquerda
x - > 0 ⇒ assimetria positiva ou à direita
31
8 TÉCNICAS DE PREVISÃO DE DEMANDA
8.1 Fundamentos
Ao elaborar o plano de vendas para um determinado período nos defrontamos com uma dúvida
recorrente.
Qual será a demanda futura dos bens e serviços fornecidos pela empresa?
A resposta está contida no resultado da análise criteriosa das variáveis que impactam sobre o
mercado, o movimento dos concorrentes e os nossos próprios movimentos.
Existem três grupos de fatores que irão determinar o comportamento de compra futuro e o acerto
das previsões de demanda.
O PRIMEIRO grupo de fatores compõe o que genericamente chamamos de mercado de consumo
que tem sua trajetória determinada por nível de renda, nível geral dos preços e principalmente “a
decisão de onde gastar dinheiro” (Padrão de Consumo). Frente as inúmeras ofertas de bens e
serviços o consumidor separa suas despesas em dois grande grupos. Num dos grupos estão os
gastos “obrigatórios” referentes a alimentação, energia elétrica,
telefonia, transporte, escola, etc.
(Nota-se que mesmo entre estes gastos é possível uma escolha, quer na marca adquirida, quer na
quantidade consumida). Noutro grupo estão as despesas feitas por livre escolha do consumidor
tais como roupas, calçadas, itens de lazer e diversão. E ainda temos os itens que instigam o
consumo tais como as novidades eletrônicas e outras.
O SEGUNDO grupo de fatores está ligado a disponibilidade de crédito e o custo deste crédito e
em que medida o poder de compra do consumidor estará comprometido. A taxa Selic pouco tem
a ver com este item, pois o que importa é “a que preço o dinheiro estará ao alcance dos
consumidores e das empresas” para a aquisição de bens e serviços”.
O TERCEIRO grupo de fatores está relacionado ao comportamento de compra específico dos
segmentos em que a empresa atua e a tendência do comportamento da concorrência. Alguns
segmentos são mais sensíveis a preço, outros a qualidade dos produtos e serviços e outros ainda
ao grau de inovação dos produtos. Cada segmento de mercado tem sua própria lógica de
funcionamento e o impacto da mesma variável pode ser bastante diferente sobre o nível de
consumo deste segmento.
Neste aspecto é importante conhecer o ciclo de vida dos produtos ofertados a cada segmento para
avaliar o papel da inovação, por exemplo, no comportamento de compra. Em artigos
relacionados a moda, calçados e confecções, o ciclo de vida dos produtos é de alguns meses;
Para bens de capital pode ser de vários anos.
De todos os fatores citados o mais importante é o CONHECIMENTO que a empresa tem do
comportamento do seu mercado. Análise elaboradas, extrapolações numéricas e todo o conjunto
de técnicas de previsão de demanda são inúteis se a empresa não souber traduzir estas
informações e sinais que o mercado transmite em produtos e serviços adequados, a preços
viáveis e entregues no local certo para os segmentos em que atua.
Para que o PLANO DE VENDAS seja confiável e factível, precisamos prever a demanda futura
para cada segmento em que atuamos e por conseqüência quais os PRODUTOS necessários para
atender esta demanda.
32
8.2 Previsão de Demanda com Base na História.
Existem dois caminhos para se chegar a demanda de um determinado segmento. O primeiro é a
projeção da tendência com base no histórico de comportamento das variáveis e no
comportamento de compra daquele segmento.
Por exemplo, se o produto XYZ tem uma taxa de crescimento de 5% ao ano, nos últimos 5 anos,
provavelmente continuará a ter o mesmo comportamento: Se o dólar médio acompanha a
inflação + a taxa de juro, então no próximo ano deverá crescer na mesma proporção.
Fazer projeções de demanda desta maneira “é dirigir olhando pelo retrovisor”, com todos os
riscos que isso implica.
Os dados históricos servem genericamente para nos mostrar o resultado, acertos e erros, que
comentemos, mas dificilmente representará o comportamento de compra futuro do segmento.
Não será porque o porto comprou 50 guindastes no último ano que comprará mais 50 no
próximo. As informações sobre o potencial de compra daquele porto estão em outro lugar e não
na história.
Alguns bens e serviços sequer têm história para contar, exigindo das empresas que os fornecem a
construção de indicadores que possam informar com maior acuracidade as prováveis tendências
de demanda. Por exemplo: Calçados, confecções e outros itens ligados a moda têm muito pouca
história para contar ou por serem efêmeros ou representarem desejos daquele momento em que
estão sendo comercializados. Por isso a venda histórica destes produtos não fornece informações
confiáveis sobre a provável venda futura. Mas se analisarmos a venda efetuada por FAIXA DE
PREÇO, teremos um indicativo consistente sobre que preços, historicamente, tem maior
probabilidade de sucesso. Se analisarmos a venda dos produtos por CANAL também poderemos
inferir para que canais precisamos criar produtos.
Considero que os dados históricos contribuem muito pouco para a previsão da demanda e por
conseqüência para a elaboração de um bom plano de vendas.
Os principais modelos de tratamento estatístico para dados históricos são:
8.2.1 Média Móvel: As vendas dos períodos indicados são somadas e depois divididas pelo
número de períodos para se encontrar a média. Quando é feita uma previsão para o período
seguinte, as vendas do período mais antigo são retiradas do cálculo da média, sendo substituídas
pelas vendas do período mais recente. O encarregado da previsão determina quantos períodos
serão incluídos no cálculo da média.
Média aritmética simples de todas as vendas passadas:
Previsão para o próximo período:
Valor real observado no período t:
n
R
P
n
t
t
t
∑
=
+ =
1
1
1+tP
tR
33
Número de períodos no histórico de vendas passadas:
A média móvel usa dados de um número já determinado de períodos, normalmente os mais
recentes, para gerar sua previsão. A cada novo período de previsão se substitui o dado mais
antigo pelo mais recente.
Previsão para o próximo período:
Média móvel no período t:
Valor real observado no período t:
Número de períodos considerados na média móvel:
Ex: Período Janeiro Fevereiro Março Abril Maio Junho Julho
Demanda 60 50 45 50 45 70 60
Previsões para Julho
Previsão para Agosto
Alternativa: ponderar os períodos com pesos maiores para os mais recentes (50%, 30%, 20%:
Julho = 58,50)
OBS: A Média Móvel Simples não é indicada quando há Tendência ou Sazonalidade
00,55
3
704550
3 =
++
=Mm 33,58
3
607045
3 =
++
=Mm
n
n
RRRRMP ntttttt
)...( 121
1
+−−−
+
++++
==
1+tP
tM
tR
n
00,52
5
7045504550
5 =
++++
=Mm
34
8.2.2 Ajustamento Exponencial: O responsável pela previsão pode permitir que as vendas de um
certo período influenciem mais a previsão que as vendas de outros períodos.
É estreitamente relacionado à abordagem da média móvel. Nos modelos da média móvel, as
vendas em cada um dos períodos anteriores têm o mesmo impacto na previsão de vendas. Nos
modelos de ajustamento exponencial, o responsável pela previsão pode permitir que as vendas de
um certo período influenciem mais a previsão que as vendas de outros períodos. Utiliza uma
constante de ajustamento para determinado períodos. Constante de ajustamento próximo a 0,8 no
último período permite que períodos mais recentes influenciem mais a previsão de vendas do que
as vendas dos períodos anteriores.
8.2.3 Regressão Linear: As vendas passadas são plotadas para cada período de tempo passado.
Em seguida, uma reta de tendência pode ser ajustada entre os pontos, minimizando as distâncias
de todos os pontos à reta. Essa reta de tendência pode então ser estendida para projetar as vendas
nos períodos futuros.
As previsões baseadas em Regressão buscam prever a demanda de determinado produto a partir
da previsão de outra variável (interna ou externa à empresa) que esteja relacionada com o
produto.
Exemplo: Pneus e Carros, Vidros planos e Construção Civil
O objetivo da regressão linear simples consiste em encontrar uma equação linear de previsão, do
tipo Y = a + bX (onde Y é a variável dependente a ser prevista e X a variável independente da
previsão), de forma que a soma dos quadrados dos erros de previsão (b) seja a mínima possível.
Este método também é conhecido como “regressão dos mínimos quadrados”.
49
Previsões Baseadas em Regressões
( ) ( )( )
( ) ( )b
n XY X Y
n X X
=
−
−
∑ ∑ ∑
∑ ∑2
2
β 2 0∑ ⇒
β
Y = a + bXY
X
( )
a
Y b
X
n
=
− ∑∑
Uma equação linear possui o seguinte formato:
35
Y = a + b X
Y = Variável Dependente;
a = Intercepto no eixo dos Y;
b = Coeficiente angular;
X = variável Independente;
n = número de períodos observados.
Exemplo: Uma cadeia de fastfood verificou que as vendas mensais de refeições em suas casas
estão relacionadas ao número de alunos matriculados em escolas situadas num raio de 2
quilômetros em torno da casa. A empresa pretende instalar uma nova casa numa região onde o
número de alunos é de 13750. Qual a previsão da demanda para esta nova casa?
( ) ( )( )
( ) ( )b
n XY X Y
n X X
=
−
−
∑ ∑ ∑
∑ ∑2
2 = ( )
13 5224 86 143 10 450
13 1663 143 10 2
⋅ − ⋅
⋅ −
=
, , ,71
,37 ,
2,99
( )
a
Y b X
n
=
− ∑∑
=
450 2 143 10
13
,71 ,99 ,− ⋅
= 1,757
Y = + ⋅ =1 757 2 99 13 75 42 869, , , , ou seja 42869 refeições
36
* Medida da Correlação entre duas Variáveis:
Com a definição da técnica de previsão e a aplicação dos dados passados para obtenção dos
parâmetros necessários, podemos obter as projeções futuras da demanda. Quanto maior for o
horizonte pretendido, menor a confiabilidade na demanda prevista.
A medida em que as previsões forem sendo alcançadas pela demanda real, deve-se monitorar a
extensão do erro entre a demanda real e a prevista, para verificar se a técnica e os parâmetros
empregados ainda são válidos. Em situações normais, um ajuste nos parâmetros do modelo, para
que reflita as tendências mais recentes, é suficiente.
8.3 Previsão da Demanda Através do Conhecimento do Mercado.
O primeiro passo para se prever a demanda é criar um entendimento do ESTADO DE
CONSUMO em que se encontrará o segmento no período para o qual queremos elaborar o
planejamento. Este estado de consumo deve ser traduzido em quantidades de produtos e serviços,
preços e locais em que se dará este consumo. Sem estas informações teremos um agrupamento
de informações sem relevância ou significado.
Com já foi dito é fundamental que a empresa conheça o seu negócio, os segmentos em que atua e
principalmente os fatores que impactam no seu negócio e nos segmentos.
Listamos a seguir os principais métodos de previsão da demanda feita a partir de um melhor
conhecimento do mercado.
Opinião dos executivos. Tem-se que o grupo de executivos da empresa, pela sua experiência,
qualificação e relacionamento pode fornecer uma visão sobre o “estado de consumo” dos
segmentos que interessam à empresa. Na maioria das vezes este conhecimento é intuitivo, sem
comprovação científica, mas de suma importância. As previsões podem estar contaminadas por
desejos e interesses pessoais ou por conflitos com outras áreas.
Painel de Especialistas. A empresa convida diversos especialistas sobre os segmentos do seu
interesse para desenhar um provável cenário. As informações obtidas por este método são
indicativas e servem como apoio apara analisar o funcionamento atual em confronto com novos
paradigmas.
Opinião da Força de Vendas. A empresa solicita formalmente à sua força de vendas projeções
localizadas sobre provável “estado de consumo” futuro dos seus clientes. Estas informações
( ) ( )( )
( ) ( ) ( ) ( ) 9,071,45082,416.16.13.10,14337,663.1.13
71,450.10,14386,224.5.13
.
..
22
2
1
2
2
11
2
111
=
−−
−
=
−
−
−
=
∑∑∑∑
∑∑∑
===
===
r
YYnXXn
YXYXn
r
n
i
n
i
n
i
n
i
n
i
n
i
ii
37
poderão estar condicionadas aos interesses pessoais dos vendedores e a visão de curto prazo
sempre presente na atividade da venda. Esta técnica tem maior utilidade nos casos em que a
venda é seqüencial ou repetida para os mesmos clientes.
Monitorar a Concorrência. Coletar dados sobre o funcionamento, planos de investimento e
lançamento de novos produtos e serviços dos concorrentes traz valiosas informações sobre o que
os mesmos estão projetando para os mesmos segmentos em que sua empresa atua.
Prever a demanda o mais próximo possível da realidade é uma das tarefas mais importantes para
a elaboração do plano de vendas e do sucesso da empresa.
9 AMOSTRAGEM
Quando se deseja colher informações sobre um ou mais aspectos de um grupo grande
e numeroso, verifica-se muitas vezes ser praticamente impossível fazer um levantamento do
todo. Daí a necessidade de investigar apenas uma parte dessa população ou universo. O
problema da amostragem é, portanto, escolher uma parte, ou amostra, de tal forma que ela seja a
mais representativa possível do todo e a partir dos resultados obtidos, relativos a esta parte, poder
inferir, o mais legitimamente possível os resultados da população total, se essa fosse verificada
em uma pesquisa censitária.
Desta forma, a finalidade da amostragem é permitir fazer inferências sobre uma
população após inspeção de apenas parte dela. Fatores como custo, tempo, ensaios destrutivos
(Ex. lâmpadas, munição e dispositivo de segurança) e populações infinitas tornam a amostragem
preferível a um estudo completo (censo) da população.
Exemplo1: Muitas firmas mantêm milhares de itens em estoque. Utilizando técnicas de
amostragem, pode-se estimar o valor do inventário, sem proceder à contagem dos
itens um a um;
Exemplo2: Uma fábrica freqüentemente produz um pequeno número de peças (lote piloto) antes
de se lançar à fabricação em grande escala;
Exemplo3: Produtos novos são testados nos mercados de cidades-chaves para aquilatar sua
aceitação em geral;
Exemplo4: Testar a qualidade do produto, por exemplo, cintos de segurança.
Para avançar no estudo de amostragem faz-se necessário apresentar alguns conceitos:
a) População: é o conjunto de elementos que apresentam pelo menos uma característica em
comum. Sendo N o número total de elementos da população, temos:
XN = X1; X2; ...; XN.
b) Amostra: é uma porção ou parcela selecionada da população, é um subconjunto do
universo. Sendo n o número total de elementos da amostra, temos:
xn = x1; x2; ...; xn.
c) Amostras Não-casuais: O pesquisador simplesmente inclui os elementos convenientes na
amostra, dela excluindo os inconvenientes, ou seja, não se considera o fator do “acaso”. Por
exemplo: Impõe-se quotas para determinar a amostra. Tem-se uma população de alunos de
uma dada universidade, onde 42% fossem mulheres e 58%, de homens. Usando este
método, os entrevistadores recebem a incumbência de localizar uma quota de estudantes de
tal forma que somente 42% da amostra consista de mulheres e 58%, de homens. As
mesmas porcentagens que configuram na população são reproduzidas na amostra. Se o
tamanho global da amostra fosse 200, então 84 moças e 116 rapazes deveriam ser
selecionados.
d) Amostras Casuais ou Aleatórias: Proporciona a cada membro da população igual
oportunidade de fazer parte da amostra. Essa característica da amostragem casual implica
38
que todos os sujeitos da população devem ser identificados antes da extração da amostra,
exigência geralmente preenchida mediante a obtenção (elaboração) de uma lista que
contenha todos os sujeitos da população. As amostras aleatórias podem ser obtidas através:
(i) Um processo de mistura, como o embaralhamento de cartas;
(ii) Pela utilização de um processo mecânico (computadores ou dispositivos
eletrônicos);
(iii) Utilizando-se uma tabela de números aleatórios para proceder à seleção de
uma lista.
A população de uma pesquisa depende do assunto a ser investigado e a amostra, que
realmente será submetida à verificação,
é obtida por uma técnica específica de amostragem.
Naturalmente, espera-se que a amostra represente a população de que foi extraída.
Potencialmente, este objetivo é atingido quando a amostragem é aleatória. Para populações
discretas, o termo “aleatório” significa que cada item da população tem a mesma chance de ser
incluído na amostra; no caso de populações contínuas, significa que a probabilidade de incluir
qualquer valor de um dado intervalo de valores é igual à proporção da população com valores
naquele intervalo. As amostras aleatórias podem ser obtidas (a) através de um processo de
mistura, como o embaralhamento de cartas, (b) pela utilização de um processo mecânico
(computadores ou dispositivos eletrônicos), (c) utilizando-se uma tabela de números aleatórios
para proceder à seleção de uma lista.
Em certas condições, podem ser mais eficientes variantes da amostragem aleatória
simples, tais como amostragem (d) sistemática (periódica), (e) estratificada (subgrupos
homogêneos), (f) amostragem por conglomerados.
(d) Escolhe-se o k-ésimo item da lista (onde k é igual tamanho da população pelo tamanho da
amostra).
Ex: Se N = 200 e n = 10, K= 200 = 20
10
Significa isto que será escolhido um item em cada seqüência de 20.
(e) A amostragem estratificada pressupõe a divisão da população em subgrupos (estratos) de
itens similares, procedendo-se então à amostragem em cada subgrupos. A lógica do processo é
que, dispondo os itens da população em subgrupos homogêneos, a variabilidade é menor que a
da população global, o que leva à necessidade de um menor tamanho da amostra.
(f) A amostragem por conglomerado pressupõe a disposição dos itens de uma população em
subgrupos heterogêneos representativos da população global. Idealmente, cada conglomerado
pode ser encarado como uma minipopulação. Na verdade, se a formação dos conglomerados foi
perfeita, cada conglomerado sendo exatamente semelhante a outro (e, assim, semelhante à
população básica) bastaria examinar apenas um conglomerado para fazer inferências sobre a
população.
A principal vantagem da amostragem aleatória é que se pode determinar o grau de
variabilidade amostral, o que é essencial na inferência estatística. A amostragem não-
probabilística falta esta característica, muito embora possa ser utilizada por outras razões.
39
TIPO DESCRIÇÃO VANTAGENS DESVANTAGENS
a) Aleatória
Simples
Atribuir a cada elemento
da população um
número único:
selecionar a amostra
aleatoriamente.
1.Requer um conhecimento
mínimo e antecipado da
população; 2. Livra de
possíveis erros de
classificação; 3. Facilita a
análise dos dados e o cálculo
dos erros.
1. O conhecimento da população
que o pesquisador possa ter é
desprezado; 2. Para a mesma
extensão da amostra, os erros são
mais amplos que na amostragem
estratificada.
b) Sistemática Escolhe-se o k-ésimo
item da lista (onde k é
igual tamanho da
população pelo tamanho
da amostra. Se N= 200 e
n=10, k=200/10=20),
significa isto que será
escolhido um item em
cada seqüência de 20.
1. Dá como efeito a
estratificação e, portanto
reduz a variabilidade, em
comparação com A, se a
população é ordenada com
respeito a propriedade
relevante; 2. Simplifica a
colheita de amostra; permite
verificação fácil.
1. Se o intervalo de amostragem
se relaciona a uma ordenação
periódica da população, pode ser
introduzida variabilidade
crescente; 2. Se há efeito de
estratificação, as estimativas de
erro tendem a ser altas.
c) Conglomerado Pressupõe a disposição
dos itens de uma
população em sub-
grupos heterogêneos
representativos da
população global.
1. Oferece listas de
amostragem, identificação e
numeração necessárias apenas
para elementos das unidades
de amostragem selecionadas;
2. Diminuem os custos de
viagem se as unidades de
amostragem são definidas
geograficamente, pois os itens
estão fisicamente próximos
uns dos outros
1. Os erros tendem a ser maiores
do que em A ou B, para a mesma
extensão da amostra; 2. Os erros
crescem com o decréscimo do
número de unidades de
amostragem escolhidas.
d) Estratificada
Proporcional
Escolher de cada
unidade de amostragem,
amostra aleatória
proporcional à extensão
da unidade de
amostragem.
1. Assegura
representatividade com
respeito à propriedade que dá
a base para classificar as
unidades; garante, pois,
menor variabilidade A ou B;
2. Decresce a possibilidade de
deixar incluir elementos da
população por causa do
processo classificatório; 3.
Podem ser avaliadas as
características de cada estrato
e, pois feitas comparações.
1. Sob pena de aumentar o erro,
requer informação apurada acerca
da proporção de população em
cada estrato; 2. Se há listas
estratificadas disponíveis,
prepará-las pode ser dispendioso;
possibilidade de classificação
errônea e, pois de aumento da
variabilidade.
10 PROBABILIDADE
Essa técnica estatística, independente de qual seja a sua aplicação, possibilita não
afirmar o que vai acontecer e, sim, o que pode ocorrer.
A probabilidade é utilizada para exprimir a chance de ocorrência de determinado
evento, levando-se em consideração o acaso.
Exemplo1: Ao lançar um dado não se pode afirmar que vai ocorrer a face 3, no entanto, é
possível precisar as possibilidades de ocorrer a referida face.
Exemplo2: A previsão da procura de um novo produto.
Exemplo3: O cálculo dos custos de produção.
Exemplo4: A compra de apólices de seguros.
40
Exemplo5: A previsão da safra de soja.
Exemplo6: A contratação de um novo empregado.
Exemplo7: O preparo de um orçamento.
Exemplo8: A avaliação do impacto de uma redução de impostos sobre a inflação.
8.1 Abordagem Matemática
Teoria dos Conjuntos:
Um conjunto é uma coleção de objetos ou itens que possuem característica (s) comum
(ns).
Exemplo1: Os habitantes do bairro Benfica
Exemplo2: Os rios da Amazônia
Exemplo3: As farmácias de Fortaleza.
Exemplo4: Uma remessa de computadores.
Exemplo5: Uma classe de estudantes.
Exemplo6: Conjunto de números pares (2, 4, 6, 8, .....)
Exemplo7: Conjunto dos números naturais (0, 1, 2, 3, ....)
10.1.1 Conjuntos Disjuntos
São dois ou mais conjuntos que não apresentam elementos comuns.
Ex: A={1, 2, 3} e B={4, 6}
Diagrama de Venn:
Nº de Elementos da União desses Conjs.= n (A U B) = n (A) + n (B)
n (A U B) = 3 + 2 = 5
10.1.2 Conjuntos Não-Disjuntos
São conjuntos que apresentam elementos comuns.
Ex: A={1, 3, 6, 8} e B={6, 8, 10, 12}
Diagrama de Venn:
41
Nº de Elementos da União desses Conj.= n (A U B) = n (A) + n (B) – n (A ∩ B)
N (A U B) = 4 + 4 – 2 = 6
c) Conjuntos Disjuntos (p/ 3 Conjuntos)
Ex: A = {1, 2, 3}; B = {4, 5, 6}; C = {8, 9, 10}
Nº de Elementos da União desses Conjs.= n (A U B U C) = n (A) + n (B) + n (C)
n (A U B U C) = 3 + 3 + 3 = 9
d) Conjuntos Não-Disjuntos (p/ 3 Conjuntos)
Ex: Ex: A = {1, 2, 3}; B = {3, 4, 5}; C = {3, 6, 7}
Nº de Elementos da União desses Conjs.= n (A U B U C) = n (A) + n (B) + n (C) –
n (A ∩ B) – n (A ∩ C) – n (B ∩ C) + n (A ∩ B ∩ C)
n (A U B U C) = 3 + 3 + 3 – 1 – 1 – 1 + 1 = 7
10.2 Conceitos Fundamentais Utilizados no Estudo das Probabilidades:
10.2.1 A Probabilidade de um Evento:
O “Evento” pode ser chuva, lucro, cara, rendimento de pelo menos 6%, terminar o
curso, notas, etc.
A probabilidade de um Evento A, denota P(A), é um número de 0 a 1 que indica a
chance de ocorrência do Evento A.
10.2.2 Experimento:
Em probabilidade existe o que se chama de experimento, o que na verdade se constitui
em uma experiência qualquer: por exemplo, lançar um dado.
Todos os resultados de um experimento denominam-se na teoria das probabilidades de
“Espaço Amostral”, que corresponde a um determinado conjunto.
As possíveis combinações de resultados de um conjunto qualquer, que é conhecido
como subconjunto em probabilidade, denominam-se de “Evento”.
10.2.3 Complemento de um Evento:
Todos os outros resultados no Espaço Amostral que não estejam definidos no Evento.
10.2.4 Eventos Mutuamente Excludentes:
Não têm elementos em comum, ou não se podem ocorrer simultaneamente.
Ex: Obter a nota 9 em matemática e obter a nota 10 em matemática
10.2.5 Eventos Coletivamente Exaustivos: Nenhum outro resultado é possível para o
experimento em causa.
Ex1: As faces de um dado
42
Exemplo: Lança-se um dado.
Experimento: Lançar um dado
Espaço Amostral: Ω = {1, 2, 3, 4, 5, 6}
Evento: Ocorrer a face 3
Complemento de um evento: C = {1, 2, 4, 5, 6}
Diagrama de Venn:
*Espaço Amostral
*Os eventos A e A’ são complementares
*Os eventos A e B são mutuamente excludentes
*Os eventos A e B são coletivamente Exaustivos
10.3 Expressão da Probabilidade
O cálculo de uma probabilidade se dá por intermédio do quociente entre o número de
casos favoráveis e o número de casos possíveis; onde os casos favoráveis são referentes ao que
se deseja que aconteça e, os possíveis, todos os elementos do espaço amostral.
Probabilidade do Evento A = P (A) = Casos Favoráveis
Casos Possíveis
Ex: Lançar um dado e ocorrer uma face par.
P (A) = 3/6 = ½ = 50%
10.4 Propriedades da Probabilidade
• 0 ≤ P(A) ≤ 1, para todo evento A.
43
• P(S) = 1
• P(φ) = 0
• P(AC) = 1 – P(A)
• Se A1, A2, … , AK são eventos mutuamente exclusivos, então:
P(A1 ∪ A2 ∪ ... ∪ AK) = P(A1) + P(A2) + ... + P(AK)
10.5 Teorema da Soma
Se A e B são dois eventos quaisquer, onde A ∩ B ≠ φ, então:
P(A ∪ B) = P(A) + P(B) - P(A ∩ B)
Mas, se os eventos A e B forem mutuamente excludentes, onde A ∩ B = φ, então:
P(A ∪ B) = P(A) + P(B)
10.6 Probabilidade Condicional
O estabelecimento de uma probabilidade está, em geral, diretamente relacionado com
o estado da informação disponível. É muito freqüente o caso em que o estado da informação é
modificado pela ocorrência de algum outro evento relacionado com o experimento em questão.
Suponha que se deseja a probabilidade de um evento A, sendo P(A) a probabilidade desse evento
atribuída apenas com o conhecimento da mecânica do experimento correspondente. Se,
entretanto, recebermos a informação de que um outro evento B ocorreu, essa modificação do
estado de informação poderá levar-nos a reavaliar a probabilidade do evento A por um novo
valor que denotaremos por P(A/B), probabilidade de A condicionada à ocorrência do evento B.
Dados dois eventos A e B, a probabilidade condicionada do evento A quando B tiver
ocorrido, será:
P(A/B) = P(A ∩ B); com P(B) ≠ 0
P(B)
EXERCÍCIO:
Dois dados são lançados, consideremos os eventos:
a) A= (X1,X2) / X1+X2=10 B= (X1,X2) / X1 > X2
Calcule: P(A), P(B), P(A/B), P(B/A)
b) C= (X1,X2) / X1+X2=9 D= (X1,X2) / X1=1
Calcule: P(C), P(D), P(C/D), P(D/C)
10.7 Teorema do Produto
A partir da definição de probabilidade condicional, podemos enunciar o teorema do
produto:
44
P(A/B) = P(A ∩ B) P(B/A) = P(B ∩ A);
P(B) P(A)
Como: P(A ∩ B) = P(B).P(A/B)
P(B ∩ A) = P(A).P(B/A)
e P(A ∩ B) = P(B ∩ A); então:
P(B).P(A/B) = P(A).P(B/A) = P(A ∩ B)
OBS1: Para três eventos, temos:
P(A ∩ B ∩ C) = P(A).P(B/A).P(C/A ∩ B)
EXERCÍCIO:
Em um lote de 12 peças, 04 são defeituosas. Duas peças são retiradas ao acaso uma após outra
sem reposição. Qual a probabilidade de ambas serem boas?
10.8 Independência Estatística
Um evento A é considerado independente de outro evento B, Se:
P(A) = P(A/B)
Considerando o teorema do produto, se A e B são independentes:
P(A ∩ B) = P(A). P(B),
Generalizando, temos:
P(A1 ∩ A2 ∩ ... ∩ An) = P(A1).P(A2) ... P(An)
DEMONSTRAÇÃO:
P(B/A) = P(A ∩ B) = P(B).P(A/B) = P(B).P(A) = P(B)
P(A) P(A) P(A)
OBS1: Do mesmo modo, P(B/Ac) = P(B)
OBS2: Seríamos tentados a dizer que A e B são independentes se P(A) = P(A/B) e P(B) =
P(B/A), isso é apropriado, mas para a igualdade fazer sentido P(A) ≠ 0 e P(B) ≠ 0. Desde
que isso ocorra, verificamos que as probabilidades absolutas serão iguais às
probabilidades condicionadas.
EXERCÍCIO:
Usando o espaço amostral do lançamento de dois dados, podemos exemplificar a afirmação de
que a independência estatística está relacionada com o estado de informação de que se dispõe.
Sejam os eventos:
A = dar o mesmo ponto nos dois dados;
B = dar ponto 1 no primeiro dado;
C = soma dos dois pontos inferior a 6.
45
Calcule: P(A); P(B); P(A/B); P(B/A); P(A/C); P(B/C)
Responda:
a) A e B são independentes?
b) A e C são independentes?
c) B e C são independentes?
8.9 Regras de Probabilidade (Resumo)
Muitas aplicações da estatística exigem a determinação da probabilidade de
combinações de eventos. Há duas categorias de combinações.
Tem-se dois Eventos A e B:
10.9.1 Determinar a ocorrência dos dois eventos ao mesmo tempo – “ambos”.
a) Sendo esses eventos Independentes.
P (A e B) = P(A) x P(B)
Ex1: Lançar dois dados, o resultado do primeiro independe do resultado do segundo.
Ex2: Relação entre o sexo masculino e feminino com o grau do Q.I.
Ex3: Lançar duas moedas não-viciadas. Qual a probabilidade de ambas darem caras?
P (Cara) = ½
P (Cara e Cara) = ½ x ½ = ¼ = 0,25= 25%
Ex4: Um terço dos eleitores de certa comunidade é constituído de mulheres, e 40% dos eleitores
votaram na última eleição presidencial. Supondo que esses dois eventos sejam independentes,
determine a probabilidade de escolher aleatoriamente um eleitor da lista geral, que seja mulher e
tenha votado na última eleição presidencial.
P(mulher que votou na última eleição) = 1/3 x (0,40) = 0,1333 = 13,33%
Obs: Nos eventos independentes: P(A/B) = P(A) e P(B/A) = P(B)
b) Sendo esses eventos Dependentes.
P (A e B) = P(A) x P(B/A)
Ou
P (A e B) = P(B) x P(A/B)
Ex: Suponhamos duas urnas com fichas. A primeira contém 8 vermelhas e 2 brancas. A segunda
contém 5 vermelhas e 5 brancas. Isto é:
Urna/Cor Vermelho Branco Total
Y 8 2 10
Z 5 5 10
46
Qual a probabilidade de extrair uma ficha vermelha da urna z?
P (Urna Z) = ½ P(Vermelha/Urna Z) = 5/10
P (Urna Z e Ficha Vermelha) = P (Urna Z) x P (Vermelha/Urna Z)
= ½ x 5/10 = 5/20 = ¼ = 0,25 = 25%
10.9.2 Probabilidade de ocorrência de ao Menos um dos dois Eventos – “Um ou Outro”.
a) Sendo esses eventos Mutuamente Excludentes.
P (A ou B) = P(A) + P(B)
Ex1: Se retiro a ficha vermelha automaticamente exclui a ficha branca. Suas probabilidades
condicionais são zero.
P (vermelha/branca) = 0
P (branca/vermelha) = 0
Ex2: Probabilidade de aparecer cinco ou seis numa jogada de um dado equilibrado.
P (Cinco ou Seis) = P(Cinco) + P(Seis) = 1/6 + 1/6 = 2/6 = 1/3 = 0,3333 = 33,33%
Ex3: Probabilidade de extração de uma carta de copas ou uma carta de paus de um baralho de 52
cartas.
P (Copas os Paus) = P (Copas) + P (Paus) = 13/52 + 13/52 = 26/52 = ½ = 0,50 = 50%
b) Sendo esses eventos Não-Mutuamente Excludentes.
P (A ou B) = P(A) + P(B) – P (A ∩ B)
Ex: Suponhamos a probabilidade de extração de uma carta de copas ou um dez de um baralho
de 52 cartas.
P (Copas) = 13/52; P(Dez) = 4/52; P(Dez de
Copas) = 1/52
P (Copas ou Dez) = 13/52 + 4/52 – 1/52 = 16/52 = 0,3077 = 30,77%
8.10 Lei da Probabilidade Total
Sejam A1, A2, ..., An eventos mutuamente exclusivos e exaustivos e B um evento
qualquer em S. Esses eventos podem ser representados num diagrama de Venn, em que supomos
que a área correspondente a cada evento é numericamente igual à sua probabilidade.
47
Figura 2.1 – Diagrama de Venn
A coleção de eventos A1, A2, ..., An define uma distribuição de probabilidade,
significando que um e somente um desses eventos irá ocorrer com probabilidades P(A1), P(A2),
..., P(An ), cuja soma é unitária.
Vemos que:
U
n
i
i BAB
1
)(
=
∩=
Sendo as intersecções mutuamente exclusivas e sabendo que:
P(A1 ∪ A2 ∪ ... ∪ An) = P(A1) + P(A2) + ... + P(An)
Temos que:
∑
=
∩=
n
i
i BAPBP
1
)()(
(1)
Aplicando o Teorema do Produto, escreve-se:
∑
=
=
n
i
ii ABPAPBP
1
)/().()(
(2)
Fazendo n=2, podemos considerar A1= A e A2= Ac
P(B) = P(A). P(B/A) + P(Ac). P(B/Ac) (3)
OBS1: (1), (2) ou (3) exprimem a chamada Lei da Probabilidade Total.
OBS2: Vemos em (2) que a Lei da Probabilidade Total podemos obter P(B) conhecidas todas
P(B/Ai) e todas P(Ai).
Deve-se notar que o diagrama de Venn apresentado acima está dividido em 2n partes.
Sua representação tabular seria:
Tabela de Distribuição Bidimensional
B BC Total
48
A1 P(A1 ∩ B) P(A1 ∩ Bc) P(A1)
A2 P(A2 ∩ B) P(A2 ∩ Bc) P(A2)
… … … …
An P(An ∩ B) P(An ∩ Bc) P(An)
Total P(B) P(Bc) 1,0
Generalização: O experimento conduz a diversos resultados B1, B2, ..., Bm, logo, a probabilidade
do corpo da tabela seria: P(Ai ∩ Bj).
8.11 Teorema de Bayes
Observando o problema anterior por outro ângulo: se P(A1), P(A2), ... , P(An)
constituem uma distribuição de probabilidade, elas também constituirão uma distribuição de
probabilidade sob outro estado de informação. Assim, se soubermos que o evento B ocorreu,
P(A1/B), P(A2/B), ... + P(An/B) constituirão a distribuição de probabilidade dos Ai’s
condicionados a ocorrência do evento B.
Na tomada de decisão chama-se:
P(Ai): probabilidade a priori (prévias);
P(Ai/B): probabilidade a posteriori (posteriores)
Para obter P(Ak/B), tem-se:
∑
=
∩
∩
=
∩
=
n
i
i
kk
k
BAP
BAP
BP
BAP
BAP
1
)(
)(
)(
)()/(
ou ainda:
)/(.)(
)/(.)()/(
1
i
n
i
i
kk
k
ABPAP
ABPAP
BAP
∑
=
=
A equação acima é chamada teorema de Bayes, pois este permite calcular o resultado de
um primeiro estágio dado o segundo estágio. A importância do teorema de Bayes se revela
quando consideramos as probabilidades P(Ai)’s como sendo representativas de certo grau inicial
de informação que se modifica tão logo chegue ao conhecimento do decisor a ocorrência do
evento B. Esta informação alterará P(Ak) resultando em P(Ak/B).
Generalizando o teorema de Bayes, tem-se:
)/(.)(
)/(.)()/(
1
ij
n
i
i
iji
ji
ABPAP
ABPAP
BAP
∑
=
=
Exercício: Sejam quatro urnas com bolas coloridas, contendo 10 bolas cada uma. A tabela abaixo
discrimina a composição das urnas.
49
Cor da Bola
Vermelha Branca Azul Totais
A 1 6 3 10
B 6 2 2 10
C 8 1 1 10
D 0 6 4 10
Escolheu-se arbitrariamente uma das urnas e extraiu-se uma bola. Se a bola é vermelha, qual é a
probabilidade de ter sido extraída da urna B?
A generalização leva-nos a concluir que a inferência estatística pode assumir
características dinâmicas, renovando-se continuamente. No próximo capítulo será abordado
outro instrumental, mais completo e moderno, para a tomada de decisão, a programação linear.
11 DISTRIBUIÇÕES DE PROBABILIDADE
Testa-se o experimento por muitas vezes para analisar o comportamento de seus
eventos, onde a mesma chance de aparecer como resultado é inerente a todos.
Se admitirmos que os mesmos fatores (força que é jogada, corrente de ar, ângulo que
atinge a mesa, nº de jogadas) atuam da mesma maneira, ou de maneira análoga, em observações
repetidas grande números de vezes, constatamos que existe uma possibilidade de predição “a
longo prazo”. Em outras palavras, certos resultados podem ser mais prováveis que outros, e isso
se tornaria visível num grande nº de observações.
Assim, uma Distribuição de Probabilidade é uma distribuição de freqüência para os
resultados de um espaço amostral, isto é, para os resultados de uma variável aleatória. As
freqüências são relativas, ou probabilidades. Desta forma, as probabilidades indicam a
percentagem de vezes que, em grande número de observações, podemos esperar a ocorrência dos
vários resultados de uma variável aleatória.
Variável Aleatória:
É uma função com valores numéricos, cujo valor é determinado por fatores de chance.
Podem ser Discretas ou Contínuas.
Ex1: Nº de Coroas numa jogada
Ex2: Nº de clientes que entram numa grande loja no espaço de 20 minutos: 0, 1, 2, 3, ....
Ex3: Altura dos estudantes numa sala de aula de uma Universidade: 1,53 m, ....., 2,10 m
Obs: Ex1 e Ex2 são variáveis aleatórias discretas, e o Ex3 é variável aleatória contínua.
• Variável Aleatória Discreta ⇒ Possui valores que possam ser contados. Números
inteiros.
• Variável Aleatória Contínua ⇒ Quando pode tomar qualquer valor de determinado
intervalo. Números fracionados.
50
11.1 Distribuições de Probabilidades Descontínuas
As distribuições descontínuas de probabilidades envolvem variáveis aleatórias relativas
a dados que podem ser contados, como o número de ocorrência por amostra, ou o número de
ocorrências por unidade num intervalo de tempo, de área, ou de distância.
11.1.1 Distribuição Binomial:
Usa-se o termo “binomial” para designar situações em que os resultados de uma
variável aleatória podem ser grupados em duas classes ou categorias. Os dados são, pois,
nominais. As categorias devem ser mutuamente excludentes, de modo a deixar perfeitamente
claro a qual categoria pertence determinada observação; e as classes devem ser coletivamente
exaustivas, de forma que nenhum outro resultado fora delas é possível.
Ex1: Respostas a um teste do tipo V ou F.
Ex2: Produtos manufaturados classificados como perfeitos ou defeituosos.
Ex3: Alunos de uma escola vacinados ou não vacinados.
( )[ ] ( )[ ] xnx falhaPsucessoP
x
n
P(x) −⋅
=
( ) ( )[ ] ( )[ ] xnfalhaPsucessoP
x)!(nx!
n!
xP x
−
⋅⋅
−
=
Onde:
x
n
É o número de maneiras de obter x sucesso e
n – x falhas em n provas.
Ex1:
N X p ( ) xnx p1p
x
n
−
−
5 3 0,30 ( )23 70,030,0
3
5
8 6 0,11 ( )26 89,011,0
6
8
Ex2: A probabilidade de obter exatamente 2 caras em 6 lances de uma moeda não-viciada?
51
11.1.2 Distribuição de Poisson:
A distribuição de Poisson é útil para descrever as probabilidades do número de
ocorrência num campo ou intervalo contínuo (em geral tempo ou espaço). Eis alguns exemplos
de variáveis que podem ter como modelo a distribuição de Poisson: defeitos por cm2, acidentes
por dia, clientes por hora, chamadas telefônicas por minuto, vacas por acre, etc. Note-se que a
unidade de medida (tempo, área) é contínua, mas a variável aleatória é discreta (número de
ocorrências). Além disso, as falhas não são contáveis. Não é possível contar os acidentes que não
ocorreram, nem tampouco o número de chamadas que não foram feitas, nem o número de
defeitos por centímetro quadrado que não ocorreram.
( ) ( )
x!
t
xP
xt λλ ⋅
=
−e
Onde: x é o nº de ocorrências; e é a base dos logaritmos naturais (a Tabela F contém alguns
valores de e-µ; λ é a taxa média por unidade; e t é o nº de unidades.
A quantidade λt
representa o número médio de ocorrências no intervalo t. Assim, µ=λt. A fórmula pode ser
escrita de forma mais simples substituindo λt por µ:
( ) ( )
x!
xP
xµµ ⋅
=
−e
Ex: Um processo mecânico produz tecido para tapetes com uma média de dois defeitos por jarda.
Determine a probabilidade de uma jarda quadrada ter exatamente um defeito, admitindo que o
processo possa ser bem aproximado por uma distribuição de Poisson.
11.2 Distribuições de Probabilidade Contínuas:
Quando uma variável aleatória discreta apresenta um grande número de resultados
possíveis, ou quando a variável aleatória em questão é contínua, não se podem usar distribuições
discretas como a de Poisson ou a binomial para obter probabilidades. Uma variável discreta com
muitos resultados possíveis exigiria uma tabela por demais extensa ou um esforço monumental
na utilização de uma fórmula para obtenção de probabilidades. Como uma variável contínua
inclui, em seus resultados, valores tanto inteiros como não-inteiros, não pode ser adequadamente
descrita por uma distribuição discreta.
52
Características:
1. A curva Normal tem forma de sino.
2. É simétrica em relação a média.
3. Prolonga-se de - ∞ a + ∞.
4. Cada distribuição normal fica completamente especificada por sua média e seu desvio
padrão; há uma distribuição normal distinta para cada combinação da média e desvio
padrão.
5. A área total sob a curva norma é considerada como 100%.
6. A área sob a curva entre dois pontos é a probabilidade de uma variável normalmente
distribuída tomar um valor entre esses pontos.
7. Como há um número ilimitado de valores no intervalo - ∞ a + ∞, a probabilidade de uma
variável aleatória distribuída normalmente tomar exatamente determinado valor é
aproximadamente zero. Assim, as probabilidades se referem sempre a intervalos de
valores.
8. A área sob a curva entre a média e um ponto arbitrário é função do número de desvios
padrões entre a média e aquele ponto.
( )
−
−⋅=⋅=
−
−
2x
2
1
x
2
1
exp
2
1
2
1
xf
2
σ
µ
piσpiσ
σ
µ
e
11.2.1 A Distribuição Normal Padronizada:
A distribuição normal constitui, na realidade, uma “família” infinitamente grande de
distribuições, uma para cada combinação possível da média e desvio padrão. Conseqüentemente,
seria inútil procurar elaborar tabelas que atendessem a todas as necessidades. Além disso, a
expressão da distribuição normal não é conveniente para tal objetivo, em vista de sua
complexidade.
A implicação é que o problema de lidar com uma família infinita de distribuições
normais pode ser completamente evitado desde que queiramos trabalhar com valores relativos,
ao invés de com valores reais. Isto equivale a tomar a média como ponto de referência (origem) e
o desvio padrão como medida de afastamento a contar daquele ponto (unidade de medida). Esta
nova escala é comumente conhecida como escala Z.
Ex:
Onde:
53
Z = nº de desvios padrões a contar da média
X = valor arbitrário
µ = a média da distribuição normal
σ = o desvio padrão