Esta é uma pré-visualização de arquivo. Entre para ver o arquivo original
Estatística II
Prof. Laura Maria Saporski Cachuba
2
I – ESTATÍSTICA DESCRITIVA
Introdução
Podemos dizer que toda a ciência que manipula dados experimentais necessita da Estatística
como A estatística pode ser considerada como um método quantitativo que se preocupa em
planejar, coletar, organizar, analisar e interpretar um conjunto de observações, visando a tomada de
decisões.
Podemos dizer que toda a ciência que manipula dados experimentais necessita da Estatística
como método de análise dessas informações, para que o pesquisador possa tirar conclusões que
tenham validade científica.
Numa análise estatística de uma amostra de dados podemos distinguir duas etapas: a
descrição dos dados amostrais – a estatística descritiva; e a extrapolação destes resultados para a
população – estatística inferencial.
Esquematicamente temos:
Após a definição do problema a ser estudado, o passo seguinte é a coleta de dados do
fenômeno de interesse. Mas, depois de coletados, o que fazer para que os mesmos signifiquem algo,
ou seja, como transformá-los de meros “dados” em “informação”? Na grande maioria das vezes se
trata de uma massa de dados incompreensível, sem uma aparente estrutura, e precisam ser
urgentemente “entendidos”.
Para que os mesmos sejam organizados, descritos formalmente de modo que se possa
explorá-los procurando indícios de padrões ou características interessantes que possam indicar
possíveis tendências, e mesmo relatar ou expor características dos mesmos a outras pessoas, utiliza-
se das técnicas chamadas descritivas ou exploratórias. Tais técnicas consistem da leitura e
resumo dos dados utilizando tabelas, gráficos, estatísticas e esquemas.
As técnicas descritivas devem fornecer resultados simples, atrair a atenção, ser auto-
explicativos, de fácil compreensão e confiáveis.
O maior interesse, depois de obtidos os dados, é saber como os dados estão se comportando.
Uma descrição dos mesmos com tais propriedades deve dar uma idéia global, sobre o conjunto de
dados, como os valores das variáveis observadas estão se distribuindo entre os indivíduos, e se
houver, indicar tendências.
Esse é o papel da Estatística Descritiva: descrever e sintetizar os dados coletados. Com os
recursos da Estatística Descritiva, pode-se compreender melhor um conjunto de dados através de
suas características.
Iniciaremos estudando as técnicas de sumariar e apresentar dados quer através de medidas
apropriadas (medidas de sumário), quer através de tabelas e gráficos.
Para o cálculo das medidas, teremos duas maneiras básicas de organizar os nossos dados: de
forma desagrupada (Rol), ou seja, analisar os dados da forma como se apresentam em nosso banco
de dados; ou de forma agrupada (Tabela ou Distribuição de Frequência), analisando-os em tabelas
divididas em níveis (ou classes) da variável em questão.
Estatística II
Prof. Laura Maria Saporski Cachuba
3
As duas formas de organização dos dados lhes fornecem as informações necessárias para a
análise descritiva, mas cada uma delas tem características específicas. Se o nosso objetivo for tirar
informações de um modo geral a respeito do conjunto de dados, qualquer uma das formas é
indicada; no entanto, a maioria dos softwares só realiza cálculos das medidas para dados
desagrupados. É preciso tomar cuidado para não utilizar uma forma para o agrupamento e outra
para os cálculos! Esta é, portanto, a forma mais simples.
Se, por outro lado, nosso objetivo for o de encontrar níveis para a nossa variável em questão,
então o agrupamento é o mais indicado.
Importante: Não leve em conta alguns autores que determinam que trabalhar com dados
desagrupados ou agrupados tem relação direta com o tamanho da amostra. Estamos na era do
computador! Esta indicação era para antigamente, quando até as calculadoras deixavam muito a
desejar! Nos dias de hoje, seu trabalho para usar um ou outro método é exatamente o mesmo, ou
seja, digitar seus dados em uma planilha!
1. Estatística Descritiva
Estatística Descritiva é o nome dado à reunião de técnicas analíticas utilizadas para resumir
o conjunto de todos os dados coletados numa dada investigação a relativamente poucos números e
gráficos. Ela envolve basicamente:
Distribuição de Frequência: É o conjunto das frequências relativas observadas para um dado
fenômeno estudado, sendo a sua representação gráfica o Histograma (Diagrama onde o eixo
horizontal representa faixas de valores da variável aleatória e o eixo vertical representa a frequência
relativa). Por uma consequência da Lei dos Grandes Números, quanto maior o tamanho da amostra,
mais a distribuição de frequência tende para a distribuição de probabilidade.
Testes de Aderência: São procedimentos para a identificação de uma distribuição de probabilidade a
partir de um conjunto de frequências usando a Lei dos Grandes Números. Essencialmente, calcula-
se a chance da diferença entre uma distribuição de frequência observada e aquela que seria de se
esperar a partir de uma determinada distribuição de probabilidade (geralmente a Curva Normal).
Uma distribuição de frequência pode ser tida como pertencente a um dado tipo de distribuição se o
teste de aderência mostrar uma probabilidade de mais de 5% da diferença entre duas ser devida ao
acaso.
Medidas da Tendência Central: São indicadores que permitem que se tenha uma primeira idéia, um
resumo, de como se distribuem os dados de um experimento, informando o valor (ou faixa de
valores) da variável aleatória que ocorre mais tipicamente. As mais usadas e conhecidas são:
Média Aritmética: É a soma de todos os resultados dividida pelo número total de casos, podendo ser
considerada como um resumo da distribuição como um todo.
Moda: É o evento ou categoria de eventos que ocorreu com maior frequência indicando o valor ou
categoria mais provável.
Mediana: É o valor da variável aleatória a partir do qual a metade dos casos se encontra acima dele
e metade se encontra abaixo.
Medidas de Dispersão: São medidas da variação de um conjunto de dados em torno da média (ou de
outra estatística), ou seja, da maior ou menor variabilidade dos resultados obtidos. Elas permitem se
identificar até que ponto os resultados se concentram ou não ao redor da tendência central de um
conjunto de observações. Incluem a amplitude, o desvio médio, a variância, o desvio padrão, o erro
padrão, o coeficiente de variação, o intervalo interquartil, entre outros, cada um expressando
diferentes formas de se quantificar a tendência que os resultados de um experimento aleatório tem
de se concentrarem ou não em determinados valores (quanto maior a dispersão, menor a
concentração e vice-versa).
Estatística II
Prof. Laura Maria Saporski Cachuba
4
A idéia básica é a de se estabelecer uma descrição de dados relativos a cada uma das
variáveis, dados esses levantados através, geralmente, de uma amostra.
- Classificação de Variáveis
Há várias formas de classificar variáveis e que condicionam a análise estatística;
apresentaremos a forma mais usual.
As variáveis qualitativas estão associadas a uma característica e apresentam como possíveis
resultados uma qualidade (ou atributo) do indivíduo (ou item) pesquisado. Podem ser ordinais –
que são as categorias da variável que têm uma ordem, isto é, podemos dizer que uma categoria está
antes da outra, ou que é maior ou melhor que outra. Exemplo: Escolaridade: ensino fundamental;
ensino médio; ensino superior; pós-graduação. Ou a variável poderá ser qualitativa nominal se as
categorias não têm ordem determinada ou única. Exemplo: Sexo (feminino – masculino); grupo
sanguíneo,...
As variáveis quantitativas estão associadas
aos valores numéricos, podendo ser contínuas –
que são variáveis que podem assumir qualquer valor num intervalo, ou discretas – quando o
número de valores possíveis for finito ou infinito enumerável (valores inteiros). Por exemplo, o
peso é uma variável contínua, pois pode assumir qualquer valor (78,453437... kg). Exemplos:
Tensão arterial, idade, altura... As variáveis quantitativas discretas só podem assumir valores
inteiros. Exemplo: Número de filhos (0, 1, 2, 3,...).
Ordinais -
Nominais-
asQualitativ-
Contínuas -
Discretas -
vasQuantitati-
Variáveis
Exercício 1: Classifique as seguintes variáveis:
a) Idade
b) Classe socioeconômica
c) Diagnóstico de um doente
d) Grupo sanguíneo
e) Índice de Massa Corporal
f) Grau de concordância (concorda totalmente; concorda parcialmente; discorda parcialmente;
discorda totalmente).
Exercício 2: Suponha que você está realizando um trabalho para uma empresa de telefonia e as
variáveis abaixo fazem parte de sua análise. Classifique cada uma das variáveis.
a) Número de telefones por domicílio;
b) Tipo de telefone principalmente utilizado (residencial ou comercial);
c) Número de chamadas de longa distância realizadas por mês;
d) Duração (em minutos) da chamada mais longa por mês;
e) Cor do aparelho telefônico mais utilizado;
f) Tarifa mensal para as chamadas de longa distância realizadas;
g) Propriedade do telefone celular;
h) Operadora do telefone celular mais utilizado;
i) Se existe uma linha de fax no domicílio;
j) Se existe uma linha telefônica conectada a um modem de computador no domicílio.
Exercício 3: Como você classificaria a variável data de nascimento? Por quê?
Estatística II
Prof. Laura Maria Saporski Cachuba
5
Exercício 4. Suponha que, para uma pesquisa, as seguintes informações são obtidas de estudantes
saindo da livraria do campus da universidade durante a primeira semana de aulas. Classifique cada
um das variáveis adequadamente.
a) Quantia gasta com livros;
b) Número de livros comprados;
c) Quantidade de tempo gasto comprando na livraria;
d) Principal matéria acadêmica do período;
e) Matéria acadêmica preferida;
f) Gênero de leitura preferida;
g) Propriedade de um computador pessoal;
h) Número de disciplinas matriculadas para o semestre corrente;
i) Se algum item de informática foi atualmente comprado na livraria ou não;
j) Forma de pagamento;
k) Classe socioeconômica.
Estatística II
Prof. Laura Maria Saporski Cachuba
6
Interpretação das Estatísticas
As medidas de tendência central procuram descrever, através de uma estatística (estimativa
pontual) um valor médio (ou “típico” ou “padrão”).
Moda: valor que ocorre com maior frequência (ou de frequência mais alta);
Mediana: ponto central da distribuição o qual divide o conjunto de dados em duas partes iguais.
Média Aritmética: é o “centro de gravidade” da distribuição. Ou seja, mesmo não sendo o valor de
maior frequência ou o ponto central da distribuição ela é a estatística que equilibra as discrepâncias
positivas ou negativas. Ou seja, depois de obtida a média, se subtrairmos esta estimativa de cada
valor, teremos que o somatório destas diferenças será zero ou muito próximo de zero. Ex. Seja o
conjunto: {9; 8; 6; 4; 3}: média = 6; mediana = 6.
Qual delas eu uso? A escolha da melhor medida é determinada pelo objetivo da análise e
pelo tipo de variável que estamos utilizando.
Moda
Nível e mensuração: nominal, ordinal ou intervalar (quantitativa).
Forma de distribuição: mais apropriada para distribuições multimodais, desde que analisado o
objetivo da pesquisa.
Objetivo: permite obter uma medida de tendência central rápida, simples, embora grosseira.
Mediana
Nível e mensuração: ordinal ou intervalar (quantitativa).
Forma de distribuição: mais adequada para distribuições muito assimétricas (a mediana sempre
caíra entra a média e a moda).
Objetivo: é uma medida de tendência central “confiável”, pode às vezes ser usada em operações
estatísticas mais avançadas ou para “quebrar” uma distribuição em duas categorias distintas. Ex.
alto versus baixo.
Média
Nível e mensuração: intervalar (quantitativa), no mínimo.
Forma de distribuição: mais apropriada para distribuições unimodais e simétricas.
Objetivo: medida de tendência central exata; pode frequentemente ser usada em operações mais
avançadas, tais como testes para tomada de decisões.
As medidas de tendência central isoladas podem fornecer uma visão distorcida da realidade.
Ex. Temperatura média em duas cidades: Honolulu (Havaí) -
FX º75 - Temperatura mínima e
máxima: 70ºF e 80°F; Houston (Texas) -
FX º75 - Temperatura mínima e máxima: 40ºF e
100ºF.
Portanto, precisamos de um índice que indique o grau de dispersão em torno da média
(estimador mais utilizado). Vamos analisar os mais comuns:
AT = amplitude total – medida grosseira, uma vez que só considera dois valores. É um índice
preliminar.
Desvio Médio:
n
i
xx
1
1
- fornecerá valores iguais ou muito próximos à zero.
Desvio-padrão: variabilidade média de uma distribuição em relação à média. De modo geral, o
desvio-padrão é cerca de 1/6 da AT (quando a distribuição tiver um número relativamente grande
de observações); caso contrário, serão necessários “menos” desvios para cobrir a amplitude da
distribuição. No entanto, o desvio-padrão será sempre menor que a AT. É uma medida confiável, de
nível intervalar que pode ser utilizada em estatísticas avançadas, descritivas ou inferenciais.
Estatística II
Prof. Laura Maria Saporski Cachuba
7
Exercício 5. Foram coletados 7 valores de salário dos trabalhadores da construção civil: 300,00 –
460,00 – 200,00 – 510,00 – 250,00 – 450,00 – 250,00; Calcule a média, moda e mediana; Calcule
medidas de dispersão para cada medida de tendência central. O que você pode informar a respeito
dos valores? Se tivéssemos incluído nesta análise o salário do engenheiro – 2.300,00 - quais seriam
os resultados e as informações que você tiraria a respeito?
420.2
7
1
i
ix
;
43,571.92
7
1
2
i
i Xx
; média: 345,71; mediana: 300; Moda: 250; variância:
15.428,57143; desvio-padrão: 124,2118
Com o salário do engenheiro: média: 601,43; mediana: 375; moda: 250; variância: 490.628,6
desvio-padrão: 700,4488
Exercício 6. Consideremos agora uma amostra de dados bancários. Os valores relacionados são
tempos médios de espera (em minutos) de clientes, medidos no período de um dia.
Banco Jefferson Valley 6,5 6,6 6,7 6,8 7,1 7,3 7,4 7,7 7,7 7,7 (Fila única)
Banco da Providência 4,2 5,4 5,8 6,2 6,7 7,7 7,7 8,5 9,3 10,0 (Fila múltipla)
Calcule medidas de dispersão para cada medida de tendência central. O que você pode informar a
respeito dos valores? Que informações você tiraria a respeito? Com estas informações, você optaria
por fila única ou múltipla? Por quê?
JV – média: 7,15; Mediana: 7,2. Moda: 7,7; variância: 0,227222; desvio-padrão: 0,476678; quartil
1: 6,725; quartil 3: 7,625 ; CV:6,67% ; DJ: 0,9 min
BP - média: 7,15; Mediana: 7,2. Moda: 7,7; variância: 3,318333; desvio-padrão: 1,821629, quartil
1: 5,9; quartil 3: 8,3 ; CV:25,45%; DJ: 2,5 min
Resolução:
Para o banco Jefferson Valley que utiliza fila única as medidas de tendência central são:
min2,7
2
3,71,7
min7,7
min15,7
10
7,77,77,74,73,71,78,67,66,65,61
Md
Mo
n
x
X
n
i
i
Para a média, as medidas de dispersão que podem ser usadas são:
%67,6100
15,7
477,0
100
min477,0227,0
min227,0
110
15,77,715,77,715,76,615,75,6
1
2
22222
1
2
2
X
S
CV
SS
n
Xx
S
n
i
i
A moda não possui uma medida de dispersão indicada, pois é considerada como uma informação
muito fraca (pouco robusta); mas pode-se utilizar a amplitude total, sem perder de vista que esta
medida também é considerada fraca como informação.
AT= valor máximo da amostra – valo mínimo da amostra = 7,7 – 6,5 = 1,2 min.
Estatística II
Prof. Laura Maria Saporski Cachuba
8
Para a mediana, a medida de dispersão adequada é o desvio interquartílico:
min9,065,655,7
min65,6
2
7,66,6
5,2
4
10
.1.
min55,7
2
7,74,7
5,7
4
10
.3.
4
..
11
33
13
dj
QQPos
QQPos
n
KQPos
QQdj
K
1 ordem de quartil do posição
3 ordem de quartil do posição
Para o banco da Providência que utiliza fila múltipla medidas de tendência central são:
min2,7
2
7,77,6
min7,7
min15,7
10
0,103,95,87,77,77,62,68,54,52,41
Md
Mo
n
x
X
n
i
i
Para a média, as medidas de dispersão que podem ser usadas são:
%45,25100
15,7
82,1
100
min82,1318,3
min318,3
110
15,70,1015,73,915,74,515,72,4
1
2
22222
1
2
2
X
S
CV
SS
n
Xx
S
n
i
i
A moda não possui uma medida de dispersão indicada, pois é considerada uma informação muito
fraca (pouco robusta); mas pode-se utilizar a amplitude total, sem perder de vista que esta medida
também é considerada fraca como informação.
AT= valor máximo da amostra – valo mínimo da amostra = 10,0 – 4,2 = 5,8 min.
Para a mediana, a medida de dispersão adequada é o desvio interquartílico:
min5,26,51,8
min6,5
2
8,54,5
5,2
4
10
.1.
min1,8
2
5,87,7
5,7
4
10
.3.
4
..
11
33
13
dj
QQPos
QQPos
n
KQPos
QQdj
K
1 ordem de quartil do posição
3 ordem de quartil do posição
- As três medidas de tendência central para ambos os bancos foram exatamente as mesmas, e podem
ser consideradas bastante próximas. Esta informação é importante em estatística, pois indica que os
dados seguem uma distribuição normal, ou seja, seguem um padrão, que permitem uma avaliação
melhor.
Estatística II
Prof. Laura Maria Saporski Cachuba
9
- Contudo, não podemos analisar as medidas de tendência central isoladamente; então, avaliando
em conjunto com as medidas de dispersão adequadas para cada medida de tendência central,
encontramos:
- Através das estatísticas calculadas, podemos verificar que a variação no tempo de espera na fila é
menor no banco com fila única; tanto o desvio-padrão como o dj (intervalo interquartílico) foram
bem menores para o banco com fila única; ainda: o coeficiente de variação é bem menor na fila
única (6,67%) do que na fila múltipla (25,45%) mostrando que quando se adota fila múltipla há
indicações de que o tempo de espera do cliente seja maior.
(Lembre-se: dizemos que há indicações porque a estatística descritiva não é conclusiva, apenas
informativa).
- Ou seja, se fosse possível elaborar um gráfico, caso tivéssemos mais valores na amostra,
encontraríamos possivelmente uma curva normal para os dois bancos, mas a curva do banco com
fila única seria leptocúrtica e a do banco com fila múltipla, platicúrtica.
- Por qual tipo de fila você optaria no “seu” banco? Como o que queremos é que o cliente seja bem
atendido, e bom atendimento significa não ficar perdendo tempo em uma fila, parece que a fila
única tem melhor resultado que a fila múltipla. Para concluirmos, teríamos que fazer uma análise
estatística mais avançada. Mas esta é a indicação que encontramos.
OBS: Note que a variável do problema foi número médio de atendimentos por dia! Ou seja, é
possível trabalharmos com a média das médias, e calcular posteriores estatísticas normalmente.
Exercício 7. Assinale como verdadeiro ou falso:
a) [ ] O coeficiente de variação é uma medida que expressa a razão entre o desvio padrão e a
média.
b) [ ] Num conjunto de valores, todos iguais, o desvio-padrão é também igual a constante.
c) [ ] A média de uma série de valores iguais a uma constante é igual a unidade.
d) [ ] Na série 60, 50, 90, 70, 80 o valor 70 será a média e a mediana.
e) [ ] A média aritmética é a razão entre o somatório dos valores e o número deles;
f) [ ] A medida que tem o mesmo número de valores abaixo e acima dela é a mediana
Exercício 8. De acordo com o IBGE (1988), a distribuição dos suicídios ocorridos no Brasil em
1986, segundo a causa atribuída, foi a seguinte: 263 por alcoolismo, 198 por dificuldade financeira,
700 por doença mental, 189 por outro tipo de doença, 416 por desilusão amorosa e 217 por outras
causas.
a) Apresente esta distribuição em uma tabela;
b) Indique a média, a mediana e a moda. Qual delas você utilizaria para apresentar os resultados de
um trabalho? Por quê?
c) Quem é a variável aleatória trabalhada? Identifique e classifique.
a)
Tab. I – Causas de suicídio ocorridos no Brasil no ano de 1986.
CAUSAS OCORRÊNCIAS
ALCOOLISMO 263
DIFICULDADE FINANCEIRA 198
DOENÇA MENTAL 700
OUTRO TIPO DE DOENÇA 189
DESILUSÃO AMOROSA 416
OUTRAS CAUSAS 217
∑ 1983
Fonte: IBGE (1988)
Estatística II
Prof. Laura Maria Saporski Cachuba
10
Exercício 9. Na companhia A, a média dos salários é de 10.000 u.m. (unidades monetárias) e o 3
quartil é 5.000 u.m.:
a) Se você se apresentasse como candidato a essa firma e se o seu salário fosse escolhido ao acaso
dentre todos os possíveis salários, o que seria mais provável: ganhar mais ou menos que 5.000
u.m.? Justifique.
b) Suponha que na companhia B a média de salários é 7.000 u.m. e a variância é praticamente
zero, e lá o seu salário também seria escolhido ao acaso. Em qual companhia você se
apresentaria para procurar emprego? Justifique.
Estatística II
Prof. Laura Maria Saporski Cachuba
11
Outras Estratégias de Análise:
A média aritmética e o desvio-padrão, mesmo sendo as melhores medidas para serem
utilizadas, também apresentam alguns problemas na sua utilização:
a) São afetados, de forma exagerada por valores extremos;
b) Apenas com estes dois valores, não temos idéia da assimetria da distribuição dos valores.
Tukey sugere 5 medidas (Esquema de 5 números):
i) mediana;
ii) extremos – maior e menor valor;
iii) os quartis.
Estas 5 medidas são chamadas estatísticas de ordem (mas não são as únicas) e são medidas
resistentes de posição de uma distribuição (são pouco afetadas por mudanças nos dados).
Ex. Seja o conjunto: 5 7 8 10 12 15
- a média aritmética é 9,5; a mediana é 9,0; o desvio-padrão é 3,62.
- trocando o valor 15 por 150, a média aritmética passa a ser 32; desvio-padrão passa a ser 57,86, no
entanto a mediana não se altera.
Exemplo de esquema de 5 números para Rol (exemplo usado em sala de aula, apresentado
na sequência):
n = 50
Mediana 66
Quartis 58,5 72,5
Extremos 48 90
Outra medida de dispersão alternativa é o intervalo interquartil (dj), que é a diferença entre o
quartil de ordem 3 e o quartil de ordem 1. Com ele podemos calcular o intervalo interquartílico
dado por:
djQ .
2
3
1
e
djQ .
2
3
3
Estatística II
Prof. Laura Maria Saporski Cachuba
12
Graficamente, temos o desenho esquemático chamado Box-Plot: Max = 90,00000
Min = 48,00000
75% = 73,00000
25% = 59,00000
Median v alue:
Med = 66,00000
Box & Whisker Plot
45
55
65
75
85
95
PRECO
±1.00*Std. Dev .
Std. Dev . = 10,09184
±1.00*Std. Err.
Std. Err. = 1,427200
Mean = 66,46000
Box & Whisker Plot
54
58
62
66
70
74
78
PRECO
Estatística II
Prof. Laura Maria Saporski Cachuba
13
MEDIDAS DE ASSIMETRIA
Assimetria é o grau de deformação de um polígono de frequência. Uma distribuição é
simétrica quando: Média = Mediana = Moda.
Uma distribuição é:
- Assimétrica à esquerda ou negativa quando: Média < Mediana < Moda.
- Assimétrica à direita ou positiva quando: Média > Mediana > Moda
Coeficiente de Assimetria
- 1º Coeficiente de Assimetria (Pearson):
s
MoX
AS
onde:
-
X
= É a média aritmética;
- Mo = Moda;
- s = é o desvio-padrão.
Estatística II
Prof. Laura Maria Saporski Cachuba
14
Análise do resultado de AS:
forte assimetria 1,00
moderada assimetria 1,000,15
fraca assimetria 0,15
AS
AS
AS
Podemos também usar outro coeficiente de assimetria de Pearson, dado por:
PadrãoDesvio
Mediana - Média3
AS
MEDIDAS DE CURTOSE
Denominamos curtose o grau de achatamento de uma distribuição em relação a uma
distribuição padrão, denominada curava normal (curva correspondente a uma distribuição teórica de
probabilidade).
Quando a distribuição apresenta uma curva de frequência mais fechada que a normal (ou
mais aguda ou afilada em sua parte superior), ela recebe o nome de leptocúrtica.
Quando a distribuição apresenta uma curva de frequência mais aberta que a normal (ou mais
achatada em sua parte superior), ela recebe o nome da platicúrtica.
A curva normal, que é a nossa base referencial, recebe o nome de mesocúrtica.
Formas de Analisar os Dados:
Para analisar um conjunto de dados, precisamos definir se o trabalho será realizado com os
dados da maneira como foram coletados, ou seja, em Rol, o qual denominamos de Dados
Desagrupados; ou se este trabalho será feito organizando os dados em níveis, os quais chamaremos
de classes e a tabela correspondente de Tabela de Frequências (ou de Distribuição de Frequências).
O tipo da variável trabalhada (se quantitativa ou qualitativa) pode ajudar na decisão. De
modo geral, os dados sempre podem ser trabalhados como Rol. A decisão pelas Tabelas de
Frequência pode ser devido a quantidade muito elevada de dados coletados (amostra), o que pode
dificultar a visualização dos dados; ou ainda pelo objetivo proposto, por exemplo, definir níveis
(classes) para a variável em estudo.
Devemos lembrar sempre que o volume muito grande de dados, por si só, não leva a
trabalhar automaticamente com Tabelas de Frequência, uma vez que, com a utilização de
computadores, tanto em planilhas como em softwares estatísticos, o tempo para realização da
análise é o mesmo. Outros fatores poderão nos levar a decidir qual a melhor forma de trabalhar –
com dados agrupados ou desagrupados.
Vamos analisar na sequência as duas formas de realizar uma análise para um mesmo
conjunto de dados. Para isso, utilize o Formulário I já fornecido.
Estatística II
Prof. Laura Maria Saporski Cachuba
15
Exercício 10. Para estimar a quantidade de água que seria necessária para abastecer a comunidade
da cidade de Aguaceiro na próxima década, o conselho da cidade pediu ao prefeito que descobrisse
a quantidade de água que uma amostra de famílias utiliza atualmente. A amostra de 15 famílias
utilizou o seguinte número de galões (em milhares) no ano passado.
11,2 13,1 14,0 14,6 15,5 16,4 16,9 18,2
18,3 18,8 19,7 21,5 22,7 23,8 32,2
a) Qual a quantidade média de água utilizada por família? E a mediana? Qual delas você
utilizaria para o objetivo deste estudo e por quê?
b) Suponha que o conselho da cidade espere que daqui a 10 anos existam 45.000 famílias
vivendo em Aguaceiro. Quantos galões de água serão necessários anualmente, se a taxa de
consumo por família se mantiver a mesma?
c) De que maneiras a informação fornecida em (a) e (b) seria útil para o conselho da cidade?
Explique.
d) Por que você acha que o conselho usou dados de uma pesquisa ao invés de medir o consumo
total da cidade? Você concorda com o critério deles? Por quê?
Média: 18,46 Mediana: 18,2 Moda: -- Variância: 26,9954 Desvio-padrão: 5,1957 CV: 28,15%
Estatística II
Prof. Laura Maria Saporski Cachuba
16
Analisando um Exemplo
Exemplo: Em um estudo sobre o tempo que os funcionários de uma empresa demoram a carregar
um caminhão com mercadorias (em min) foram coletados 50 tempos referentes a 50 funcionários
distintos, conforme quadro abaixo. Para simplificar, vamos considerar que os produtos carregados
em todos os caminhões são os mesmos (mesmo peso, marca, quantidade, etc.):
a) Em ordem de coleta:
52 78 63 58 64 73 57 76 67 77
60 64 54 64 49 67 62 53 70 86
61 48 74 69 80 71 56 71 72 66
59 62 64 52 65 82 68 67 90 81
78 58 55 69 83 65 50 70 77 66
b) Em ordem crescente:
48 53 58 62 64 66 69 71 77 81
49 54 58 62 64 67 69 72 77 82
50 55 59 63 65 67 70 73 78 83
52 56 60 64 65 67 70 74 78 86
52 57 61 64 66 68 71 76 80 90
Variável coletada: tempo para carregar com mercadorias um caminhão (em min) – variável
quantitativa contínua.
Interpretando os resultados:
Definido o conjunto de dados (observações) com o qual se pretende trabalhar, precisamos
decidir se o trabalho será organizado em uma tabela de frequências ou em forma de rol. O tipo da
variável trabalhada (se quantitativa ou qualitativa) pode ajudar na decisão. De modo geral, os dados
sempre podem ser trabalhados como rol. A decisão pelas tabelas de frequências pode ser devido a
quantidade muito grande de dados coletados (amostra), o que pode dificultar a visualização dos
dados; ou ainda, pelo objetivo proposto. Por exemplo, definir classes (níveis) para a variável em
estudo. Devemos lembrar sempre que o volume muito grande de dados, por si só, não leva a
trabalhar em distribuição de frequências, uma vez que com a utilização de computadores o trabalho
realizado é praticamente o mesmo.
Determinada a forma como se pretende analisar os dados, verificamos a apresentação gráfica
dos mesmos. Para o rol, a forma gráfica mais adequada é o Ramo-e-Folhas e para a distribuição de
frequências são o Histograma e/ou a Ogiva (ou Polígono) de Frequências. O formato da distribuição
é de suma importância, uma vez que, assumido um formato gaussiano (curva da distribuição
normal) para a distribuição dos dados, poderemos passar a trabalhar com técnicas estatísticas mais
avançadas que nos permitem tirar conclusões e auxiliar na tomada de decisões. Esta definição
(normalidade) nos ajudará a fazer inferências e retirar conclusões a respeito dos dados, conclusões
que a estatística descritiva não permite por ser somente informativa.
Estatística II
Prof. Laura Maria Saporski Cachuba
17
Analisando com os Dados Desagrupados (Rol)
No nosso exemplo sobre tempo para carregar mercadorias em um caminhão (em min) no
período considerado, quando analisamos os dados através de rol, obtemos os valores abaixo para as
estatísticas:
Cálculos para Dados Desagrupados:
50
904948
n
X
X
n
1i
i
Moda: valor que ocorre com maior frequência Mo = 64
Mediana: é o valor central dos dados ordenados Md = 66
AT = 90
– 48 = 42
8453,101
150
46,669046,6648
1n
Xx
S
22
n
1i
2
i
2
09184,108453,101SS 2
%18,15100
46,66
09,10
100
X
S
CV
145,585,72QQd 13j
2437,0
09,10
6446,66
S
MoX
AS
25,0
52802
5,585,72
PP2
QQ
C
1090
13
5,37
4
50
3Pos5,12
4
50
1Pos
4
n
KPos 3Q1QQK
45
100
50
90Pos5
100
50
10Pos
100
n
KPos 90P10PPK
Resumo das Estatísticas Para Rol (Dados Desagrupados):
min 93,5 :superior intervalomin 37,5 :inferior intervalomin14dj
15,18%CVmin10,09184smin 101,8453s
dispersão) (pqna caleptocúrti curva 0,25C moderada assimetria 0,2437AS
min 80Pmin52Pmin72,5Qmin58,5Q
min 64Momin 66Mdmin 66,46X
7minAT da 1/6min42AT50n
22
901031
Ramo e Folhas:
CAULE FOLHA
Escores = 50
2 4 8 9
11 5 0 2 2 3 4 5 6 7 8 8 9
19 6 0 1 2 2 3 4 4 4 4 5 5 6 6 7 7 7 8 9 9
12 7 0 0 1 1 2 3 4 6 7 7 8 8
5 8 0 1 2 3 6
1 9 0
Estatística II
Prof. Laura Maria Saporski Cachuba
18
Analisando graficamente através do Ramo-e-Folhas, observamos uma tendência á
normalização da curva; para termos certeza maior à respeito do formato gaussiano dos dados,
vamos analisar os índices junto com o gráfico.
O coeficiente de assimetria que nos dá o formato da distribuição |0,2437|, indica uma
assimetria moderada; o coeficiente de curtose, que nos dá o grau de achatamento da distribuição
normal (0,25), indica uma curva leptocúrtica, que significa uma pequena dispersão dos dados; o
coeficiente de variação, que fornece a dispersão dos dados em torno da média aritmética indica uma
pequena dispersão (15,18%), condizente com a informação fornecida pelo coeficiente de curtose.
Analisando as medidas de tendência central, temos:
- Podemos calcular as três medidas (média, moda e mediana) porque a variável em estudo (tempo
em min para carregar um caminhão no período considerado) assim permite;
Se pretendermos trabalhar com estatística indutiva, a melhor escolha será a média (66,46 min); no
entanto, não podemos esquecer que a média é uma medida sensível a valores extremos; se a
distribuição puder ser considerada normal, esta é a melhor medida de localização do centro. Outro
motivo para esta escolha é se pretendermos representar a quantidade total expressa pelos dados;
neste caso, se multiplicarmos a média pelo total de elementos, obteremos a quantidade pretendida.
- Se a distribuição for multimodal, a medida de tendência central adequada é a moda, pois qualquer
outra medida de localização do centro da distribuição pode apresentar dados inflacionados. No
exemplo, temos somente uma moda (64 min).
- A mediana (66 min) não é tão sensível quanto a média aritmética à distribuição de modo geral;
como em uma distribuição simétrica média, moda e mediana coincidem, e no exemplo elas estão
bastante próximas, a utilização da mediana dependerá do objetivo proposto (por exemplo, “quebrar”
o conjunto de dados em duas partes iguais levaria a utilização da mediana; se quiséssemos separar
em grupos de pessoas que precisaram de mais minutos por período e pessoas que precisaram de
menos minutos para carregar o caminhão).
Analisando as medidas de dispersão temos: a amplitude total (diferença entre o maior e o
menor valor observado – 42 min) é uma medida grosseira, porém rápida de se ter uma idéia da
dispersão. A utilização de 1/6 deste valor (7 min) como medida de dispersão quando não podemos
trabalhar com a média pode, às vezes, ser de grande utilidade. No entanto, é uma medida muito
sensível á existência na amostra de uma observação muito grande ou muito pequena. Assim, define-
se outra medida, o intervalo interquartil, que é, de certa forma, uma solução, pois não é afetado, de
modo geral, pela existência de números muito altos ou muito baixos, uma vez que utiliza os 50%
dos valores centrais ordenados. Esta medida é definida como a diferença entre o terceiro e o
primeiro quartil (dj=14 min).
Do modo como definimos a amplitude interquartil, esperamos que 50% dos elementos do
centro da amostra estejam contidos num intervalo com aquela amplitude. No exemplo, entre 72,5 e
58,5. Esta medida, assim como o desvio-padrão, é não negativa e será tanto maior quanto maior for
a variabilidade nos dados. Mas ao contrário do que acontece com o desvio-padrão, uma amplitude
interquartil nula não significa necessariamente que os dados não apresentem variabilidade.
Se optarmos por trabalhar com a média aritmética, o desvio-padrão será a escolha mais
correta e indicada para medir a variabilidade dos dados.
Há ainda o intervalo criado por Tukey, que nos dá o intervalo que contém aproximadamente
95% dos dados (37,5; 93,5). Não significa que há 95% de probabilidade de que este intervalo seja
válido, porém pode-se tentar estimar sem falar em probabilidade por enquanto!!
Vamos analisar o mesmo conjunto de dados, agora agrupados em uma tabela de frequência.
Estatística II
Prof. Laura Maria Saporski Cachuba
19
Analisando com os Dados Agrupados (Tabela de Frequência)
O processo de construção de uma tabela de frequência envolve os seguintes passos:
Passo 1: Decidir o número de classes de sua tabela de frequência. A título de orientação, o
número de classes deve ficar entre 5 e 20. O número efetivo de classes pode depender da
conveniência de utilizar números arredondados ou de outros fatores subjetivos. Com notas
de testes, por exemplo, pode ser conveniente utilizar 10 classes: 50-54, 55-59, 60-64, ...,
95-99.
Passo 2: Determinar o intervalo de classe (c), dividindo a amplitude total pelo número de
classes. (A amplitude é a diferença entre o maior e o menor valor.) Arredonde o resultado
para mais, até um número conveniente. Esse arredondamento para mais não somente é
conveniente como também garante que todos os valores sejam incluídos na tabela de
frequências. (Se o número de classes divide exatamente a amplitude, é preciso acrescentar
mais uma classe para que todos os dados sejam incluídos.)
Passo 3: Escolher como limite inferior da primeira classe o menor valor observado ou um
valor ligeiramente inferior a ele. Esse valor serve como ponto de partida.
Passo 4: Some o intervalo de classe ao ponto de partida, obtendo o segundo limite inferior
de classe. Adicione o intervalo de classe ao segundo limite inferior para obter o terceiro; e
assim por diante.
Passo 5: Relacione os limites inferiores de classe em uma coluna e introduza os limites
superiores, que podem ser facilmente determinados a esta altura. Estes limites são
definidos pelas regras de matemática de intervalo aberto à esquerda ou à direita.
Passo 6: Represente cada observação por um pequeno traço na classe apropriada e, com
auxilio dessa contagem, determine a frequência total de cada classe.
Como a determinação do número de classes ainda não é uma imposição legal, podemos
tomar um número diferente de classes que resulte em uma tabela de frequências diferente e
igualmente correta. Novamente frisamos que a prioridade deve ser a obtenção de uma tabela com
valores convenientes e compreensíveis.
A tabela de distribuição de frequências nos dá informações úteis tornando um conjunto de
dados mais inteligível, mas perdemos a precisão dos dados originais. Não podemos reconstruir os
valores iniciais dos dados originais com base na tabela de frequências; sacrificamos a exatidão dos
dados originais
para termos dados mais compreensíveis.
Na construção de tabelas de frequência, devemos observar as seguintes diretrizes:
1. As classes devem ser mutuamente excludentes. Ou seja, cada valor original deve pertencer
exatamente a uma, e somente uma classe. Para isso, procure utilizar somente intervalos fechados
(ou abertos) à esquerda ou à direita. Evite intervalos fecahdos em ambos os lados ou abertos em
ambos os lados, pois isto tende a distorcer os dados da tabela.
2. Todos os valores coletados devem ser incluídos, mesmo os de valor igual a zero, em uma e
somente uma classe.
3. Procurar utilizar o mesmo intervalo de classe para todos os níveis, mas é possível utilizar
diferentes intervalos de classe, se for necessário para uma melhoria na análise. Embora
eventualmente seja difícil evitar intervalos com extremidade aberta, como “65 anos ou mais” esta
prática deve ser evitada.
4. Escolher números convenientes para limites de classe. Arredondar para cima a fim de ter menos
casas decimais, ou utilizar números adequados à situação.
5. Utilizar entre 5 e 20 classes.
6. A soma das frequências das diversas classes deve ser igual ao número de observações originais.
7. As frequências definidas para cada classe não podem nunca ser iguais a zero, pois este resultado
também distorce as estatísticas.
Estatística II
Prof. Laura Maria Saporski Cachuba
20
Uma maneira prática de montar tabelas de frequência é utilizando softares estatísticos. Mas
lembre-se: o software montará a tabela, mas não realizará os cálculos das estatísticas. Como é
possível determinar inúmeras tabelas diferentes com o mesmo conjunto de dados, este cálculo é
feito à parte, depois da tabela montada.
Tanto o excel quanto os softwares estatísticos só realizam cálculos para dados
desagrupados (rol)!! Não esqueça deste importante detalhe!!
O software indicado para esta disciplina é de domínio público e pode ser baixado direto da
internet, para posterior instalação em seu computador. O software cham-se Bioestat e foi criado
para área de meio ambiente e sáude. Mas pode ser perfeitamente utilziado por várias outras áreas,
pois a análise estatítstica é bastante democrática! Entre no site: www.mamiraua.org.br e procure no
menu a opção downloads; a versão atual é a 5.3; o software é simples, em português e de fácil
instalação.
No nosso exemplo sobre o tempo que os funcionários de uma empresa demoram a carregar
um caminhão com mercadorias (em min) em uma amostra de 50 funcionários, quando analisamos
os dados através de uma Tabela de Frequência, obtemos os valores abaixo para as estatísticas:
Cálculos para dados Agrupados:
76576,650log33,31nlog33,31K
5,63086,6
6576,6
42
K
AT
c
06,66
50
225,87325,48
1
n
fx
X
K
i
ii
6,665,6
6141014
1014
5,64c
dd
d
liMo
21
1
89,655,6
14
2225
5,64c
fmed
med.ant.Facmed.Pos
liMd
48,19006,66
150
225,87325,48
X
1n
fx
S
2
22
2
K
1i
i
2
i
2
80,1348,190ss 2
%9,20100
06,66
80,13
100
X
s
CV
039,0
80,13
6,6606,66
S
MoX
AS
257,0
94,5275,802
325,58625,72
PP2
QQ
C
1090
13
5,37
4
50
3Pos5,12
4
50
1Pos
4
n
KPos 3Q1QQK
45
100
50
90Pos5
100
50
10Pos
100
n
KPos 90P10PPK
Estatística II
Prof. Laura Maria Saporski Cachuba
21
625,725,6
6
365,37
71Q
325,585,6
10
125,12
58Q
c
f
antQ.FacQ.Pos
liQ
3
1
QK
KK
K
75,805,6
6
4245
5,77P
94,525,6
9
35
5,51P
c
f
P.ant.FacP.Pos
liP
90
10
PK
KK
K
Resumo das Estatísticas para distribuição de Frequência (Dados Agrupados):
min 94,075 :superior intervalomin 36,875 :inferior intervalomin 3,14dj
%9,20CV min80,31s min 48,190s
caleptocúrti curva (curtose) 257,0C fraca assimetria 039,0
min75,80P min94,52P min625,72Q min325,58Q
min6,66Momin 89,65Md min06,66
5,630,6
658,6
42
7658,6
7minAT da 1/6min 42 50
22
901031
AS
X
cclassesK
ATn
Classes fi xi xi.fi xi
2 xi
2.fi Fac Fr
45 51,5 3 48,25 144,75 2.328,06 6.984,19 3 6%
51,5 58 9 54,75 492,75 2.997,56 26.978,06 12 18%
58 64,5 10 61,25 612,5 3.751,56 37.515,63 22 20%
64,5 71 14 67,75 948,5 4.590,06 64.260,88 36 28%
71 77,5 6 74,25 445,5 5.513,06 33.078,38 42 12%
77,5 84 6 80,75 484,5 6.520,56 39.123,38 48 12%
84 90,5 2 87,25 174,5 7.612,56 15.225,13 50 4%
50 3303,0 223.165,63 100%
No exemplo, quando analisamos através de tabela de frequências, os gráficos indicados são
agora o Histograma e/ou o Polígono (ou Ogiva) de Frequência, apresentadas nas figuras abaixo.
Estatística II
Prof. Laura Maria Saporski Cachuba
22
Histograma
0
2
4
6
8
10
12
14
16
45 a 51,5 51,5 a 58 58 a 64,5 64,5 a 71 71 a 77,5 77,5 a 84 84 a 90,5
Classes
Fr
eqü
ênc
ias
Ogiva (ou Polígono) de Freqüencias
0
2
4
6
8
10
12
14
16
48,25 54,75 61,25 67,75 74,25 80,75 87,25
ponto médio
Fr
eq
üê
nc
ias
Estatística II
Prof. Laura Maria Saporski Cachuba
23
O formato apresentado, assim como ocorreu com o Ramo-e-Folhas na análise por rol,
mostra uma tendência a aceitarmos a distribuição normal como adequada. O coeficiente de
assimetria encontrado 0,039, mostra uma assimetria fraca tendendo a esquerda (sinal negativo); no
entanto, a queda abrupta após o limite 71, prejudica um pouco a avaliação e o resultado. Desta
forma, se não pudermos aceitar a definição de normalidade, o coeficiente de curtose fica sem
função, ou seja, não é muito confiável. Na distribuição de frequências, acabamos aumentando a
variabilidade. E, por conseguinte, prejudicando a forma da distribuição. O valor do desvio-padrão
(13,8) e por consequência o coeficiente de variação (20,9%) são maiores do que para rol. A escolha
do número de classes e do intervalo estipulado afeta a distribuição; poderíamos ter outro resultado,
organizando os dados de outra maneira.
Quando agrupamos os valores, interferimos nos dados e perdemos um pouco em precisão. O
coeficiente de variação indica uma dispersão moderada.
Para trabalharmos com distribuição de frequências, caso outro arranjo não fosse indicado,
poderíamos necessitar de uma amostra maior, ou inclusão de outras variáveis que afetem a resposta
esperada, ou ainda uma definição diferente na forma de coleta (tipo de amostragem adotado).
A pouca diferença entre valores de média, moda e mediana nos permite trabalhar com
qualquer uma delas.
As observações feitas para rol são válidas neste caso também.
As estatísticas criadas por Tukey (esquema de 5 números, intervalo interquartil ou Box-Plot)
são também válidas para distribuição de frequências.
Estatística II
Prof. Laura Maria Saporski Cachuba
24
Exercício 11. Foi coletada uma amostra da altura de 22 alunos do sexo masculino, obtendo-se os
seguintes resultados:
Altura fi Fac xi xifi xi
2fi fr
170 2 172
6
7 19
Complete a tabela e responda:
a) Qual é a média e a variância dos dados?
76,30;91,580.1;91,180 2 ssX
b) Acima de qual altura se encontram os 11 alunos mais altos?
c) Calcule a mediana e a moda.
80,182;33,181 MoMd
d) Que medida de tendência central você escolheria para representar os dados? Justifique sua
resposta.
e) Em outra amostra coletada, observou-se a altura das alunas obtendo-se altura média de 165,02
cm e desvio-padrão de 4,05 cm. Que grupo é mais homogêneo? Que critérios você utilizou para
responder a questão?
%45,2%;98,21 MH CVCV
f) Que gráfico você utilizaria para analisar os dados desta tabela? Por que e com qual finalidade?
Estatística II
Prof. Laura Maria Saporski Cachuba
25
II. Representação Tabular e Gráfica
2.1 TABELAS
Tabela é a forma não discursiva de apresentação de informações que tem por finalidade a
descrição e/ou cruzamento de dados numéricos, codificações, especificações técnicas e símbolos.
Dessa forma, a apresentação tabular deve sintetizar os dados nas tabelas de modo a facilitar a leitura
e propiciar maior rapidez na interpretação das informações.
Dependendo de seu conteúdo, as tabelas podem ser classificadas em: tabelas estatísticas,
tabelas técnicas, tabelas de rotinas ou controle, tabelas de codificação, tabelas de coleta e tabelas
especiais.
Os trabalhos técnico-científicos utilizam-se, em geral, de tabelas estatísticas para apresentar
dados. Estas podem ser definidas como conjuntos de dados estatísticos, associados a um fenômeno,
dispostos numa determinada ordem de classificação. Elas expressam, pois, as variações qualitativas
e quantitativas de um fenômeno.
A tabela estatística apresenta um conjunto de dados numéricos que expressam as variações
quantitativas e/ou qualitativas associadas a um determinado fenômeno.
Quanto aos critérios gerais para a apresentação, as tabelas estatísticas:
- Devem ser dotadas de todas as informações necessárias a uma completa compreensão do
conteúdo, dispensando consultas ao texto, e apresentadas da maneira mais simples e objetiva
possível, preferencialmente em uma única página;
- Podem ser apresentadas intercaladas no texto, ou em anexo, devendo ser utilizado este último
procedimento quando o volume de tabelas for grande, o que dificultaria a leitura continuada do
texto;
- Quando intercaladas em um texto, devem estar próximas do trecho em que são citadas pela
primeira vez, separadas da linha de texto precedente por uma linha em branco;
- Devem ser alinhadas preferencialmente às margens laterais do texto e, quando pequenas, devem
ser centralizadas;
- Não devem apresentar o texto em formato maior que o adotado para o documento; em alguns
casos pode ser feita a redução gráfica até um limite que não prejudique a legibilidade do material
reduzido;
- Não devem apresentar a maior parte das casas vazias, indicando a inexistência do fenômeno do
qual tratam.
Uma tabela é constituída de:
Título: conjunto de informações, as mais completas possíveis, localizado no topo da tabela.
Coluna Indicadora: parte da tabela que especifica o conteúdo das linhas. Esta coluna deve
estar posicionada logo à esquerda.
Cabeçalho: parte superior da tabela que especifica o conteúdo da colunas.
Corpo: conjunto de linhas e colunas que contém informações sobre a variável em estudo. É
o espaço compreendido entre o cabeçalho e a coluna indicadora.
Linhas: retas imaginárias que facilitam a leitura, no sentido horizontal, de dados que
inscrevem nos seus cruzamento com as colunas.
Casas ou Células: espaço destinado a um só número.
Existem ainda, elementos complementares que são: a fonte, as notas e as chamadas, os quais
devem ser colocados no rodapé da tabela.
As notas devem esclarecer aspectos relevantes do levantamento dos dados ou da apuração.
As chamadas são esclarecimentos sobre os dados. Devem ser feitas através de algarismos
arábicos escritos entre parênteses, e colocados à direita da coluna.
Exemplo:
Estatística II
Prof. Laura Maria Saporski Cachuba
26
Coluna Indicadora Cabeçalho
C
Casa ou Célula O
L LINHA
U
N
A
Rodapé
De acordo com a resolução 886 de 1966 do Conselho Nacional de Estatística, nas casas ou
células da tabela devemos colocar:
- Um traço horizontal - hífen ( - ) quando o valor é zero, não só quanto à natureza das coisas, como
quanto ao resultado do inquérito;
- Três pontos ( ... ) quando não temos os dados;
- Zero ( 0 ) quando o valor é muito pequeno para ser expresso pela unidade utilizada Se os valores
são expressos em numerais decimais, precisamos acrescentar à parte decimal um número
correspondente de zeros (0,0; 0,00; 0,000);
- Xis ( X ) para dado omitido para evitar individualização;
- Um ponto de interrogação ( ? ) quando temos dúvida quanto à exatidão de determinado valor.
Obs: O lado direito e esquerdo de uma tabela oficial deve ser aberto.
3. Séries Estatísticas
É qualquer tabela que apresenta a distribuição de um conjunto de dados estatísticos em
função da época, do local ou da espécie.
SÉRIES HOMÓGRADAS: são aquelas em que a variável descrita apresenta variação discreta ou
descontínua. Podem ser do tipo temporal, geográfica ou específica.
a) Série Temporal: identifica-se pelo caráter variável do fator cronológico. O local e a espécie
(fenômeno) são elementos fixos. Esta série também é chamada de histórica ou evolutiva.
Tabela I – ABC Veículos LTDA. Vendas no 1º bimestre de 1996
Período Unidades Vendidas*
Janeiro de 1996 20
Janeiro de 1996 10
Total 30
*Em mil Unidades
b) Série Geográfica: Apresenta como elemento variável o fator geográfico. A época e o fato
(espécie) são elementos fixos. Também é chamada de espacial, territorial ou de localização.
Tabela II – ABC veículos LTDA. Vendas no 1º bimestre de 1996
Período Unidades Vendidas*
São Paulo 13
Rio de Janeiro 17
Total 30
*Em mil unidades
c) Série Específica: O caráter variável é apenas o fato ou espécie. Também é chamada de séria
categórica.
Estatística II
Prof. Laura Maria Saporski Cachuba
27
Tabela III – ABC Veículos LTDA. Vendas no 1º bimestre de 1996
Marca Unidades Vendidas*
FIAT 18
GM 12
Total 30
*Em mil unidades
SÉRIES CONJUGADAS: Também chamadas de tabelas de dupla entrada. São apropriadas à
apresentação de duas ou mais séries de maneira conjugada, havendo duas ordens de classificação:
uma horizontal e outra vertical. O exemplo abaixo é de uma série geográfico-temporal.
Tabela IV – ABC Veículos LTDA. Vendas no 1º bimestre de 1996
Filiais Janeiro de 1996 Fevereiro de 1996
São Paulo 10 3
Rio de Janeiro 12 5
Total 22 8
*Em mil unidades
3.1 Descrição Tabular
As técnicas usadas na descrição de um único atributo qualitativo são extremamente simples,
chegando mesmo a ser intuitivas. Aliás, a simplificação é um dos objetivos da estatística descritiva.
Ex.
Tabela VII – Distribuição de Frequências da variável reação ao teste sorológico realizado no sangue
de 50 indivíduos.
Reação Número de Indivíduos
+ (Positiva) 29
- (Negativa) 21
Total 50
A descrição dos dados referentes a variáveis qualitativas é feita, em geral, através de tabelas
de frequências, também conhecidas como tabelas de mono-entrada e como distribuições de
frequência dos valores assumidos por alguma variável.
Elas são constituídas de duas colunas: uma contendo valores que a variável assume e outra
contendo os números de vezes (frequências) com as quais esses valores
ocorrem.
2.2 FIGURAS
As figuras são construções visuais que ilustram ou exemplificam aspectos tratados no texto.
Os tipos mais comuns são mapas, plantas, gráficos de organização (fluxograma e organograma).
Os gráficos são construções visuais que, através da manipulação de dados, geram novas
informações e as tornam mais legíveis. Eles podem ser classificados de acordo com o modelo
empregado. Ao se construir um gráfico, deve-se indicar a menor quantidade de variáveis. Isto
porque à medida que se agregam mais variáveis, a leitura pode ficar prejudicada, podendo,
inclusive, destruir a informação.
Os tipos mais eficientes de gráficos são os lineares e os de barra. É importante salientar que
o gráfico de setores (pizza) deve ser utilizado quando se deseja confrontar as partes integrantes de
Estatística II
Prof. Laura Maria Saporski Cachuba
28
um total, não sendo aconselhável representar um número maior de seis fatias para não prejudicar
sua leitura.
Gráfico é toda representação de dados e informações por meio de diagramas, desenhos,
figuras ou imagens, de modo a possibilitar a interpretação da informação, de forma rápida e
objetiva. A preocupação com a exatidão na sua representação deve ser constante, pois a informação
transmitida não pode ser distorcida. São representações visuais dos dados estatísticos que devem
corresponder, mas nunca substituir as tabelas estatísticas.
Características: Uso de escalas, sistema de coordenadas, simplicidade, clareza e veracidade.
A escolha do método a empregar quando se deseja representar graficamente alguma
informação está diretamente associada ao tipo de dado e ao objetivo a que se propõe: apresentação
técnico-científica, publicitária e outras.
Gráficos de informação: São gráficos destinados principalmente ao público em geral, objetivando
proporcionar uma visualização rápida e clara. São gráficos tipicamente expositivos, dispensando
comentários explicativos adicionais. As legendas podem ser omitidas, desde que as informações
desejadas estejam presentes.
Gráficos de análise: São gráficos que se prestam melhor ao trabalho estatístico, fornecendo
elementos úteis à fase de análise dos dados, sem deixar de ser também informativos. Os gráficos de
análise frequentemente vêm acompanhados de uma tabela estatística. Inclui-se, muitas vezes um
texto explicativo, chamando a atenção do leitor para os pontos principais revelados pelo gráfico.
Uso indevido de gráficos: Podem trazer uma idéia falsa dos dados que estão sendo analisados,
chegando mesmo a confundir o leitor. Trata-se, na realidade, de um problema de construção de
escalas.
Um gráfico, se bem construído, consegue transmitir uma idéia com muita rapidez e de forma
simples e atraente, levando o leitor a poupar tempo e despender menor esforço na compreensão de
uma série de dados, os quais são muitas vezes de difícil percepção na forma tabular. No entanto, se
a relação entre os dados apresentados no gráfico não está clara, este deve ser descartado, pois não
contribuirá para a análise. Nesse caso, a apresentação em tabelas torna-se mais conveniente. Logo, é
condição necessária considerar as características dos dados a fim de escolher corretamente o
modelo de gráfico a ser usado.
Resumidamente:
- Para apresentar dados em uma linha de tempo o gráfico mais indicado é o de linhas.
- O gráfico de setores (ou pizza) é usado quando se representa 100% do total da amostra utilizada.
Preferencialmente deverá ter no máximo 6 “fatias” para evitar poluição visual e impedir uma boa
análise.
- Se existir a necessidade de apresentar um número maior de categorias e/ou não se representar o
total da amostra, os gráficos de barras serão mais indicados.
Para se obter uma visualização correta das informações a serem apresentadas no gráfico, é
necessário observar os parâmetros descritos a seguir:
Proporções
De importância fundamental, o uso de proporções corretas na elaboração do gráfico está
diretamente associado á exatidão da informação nele contida. De acordo com as proporções
adotadas nas escalas vertical e horizontal, obtém-se um gráfico “mais alto” ou “mais largo”, o que,
conforme o caso, pode distorcer o resultado.
Estatística II
Prof. Laura Maria Saporski Cachuba
29
Um diagrama de linhas, por exemplo, se for mais largo do que alto poderá esticar a curva,
dando a impressão de mudanças lentas, enquanto um gráfico muito alto em relação a largura
comprime a curva, dando a impressão de alterações bruscas dentro de certo período.
Composição
É o conjunto formado pelo tamanho, forma e arranjo dos elementos dentro do gráfico.
Considere-se que em trabalhos técnico-científicos, a finalidade principal dos gráficos não é a de
representar uma composição artística e sim evidenciar informações. Assim, recomenda-se cuidados
quanto aos aspectos destacados no gráfico, pois a tentativa de dar ênfase a tudo pode resultar na
inexistência de destaques e/ou na falta de clareza.
Simplicidade
Um gráfico deve ser apresentado de forma simples a fim de propiciar ao observador uma
percepção rápida do fenômeno. Mesmo contando com os recursos de informática disponíveis, o
gráfico deve conter apenas o essencial para a sua construção. Deve-se evitar a representação de
muitos aspectos em um único gráfico, bem como a utilização de traços inúteis que podem dar um
tom artístico ao gráfico, mas dificultam a visualização do fenômeno apresentado.
Clareza
A apresentação do gráfico deve ser clara, de modo a proporcionar a interpretação correta dos
valores representados. Os dados numéricos, suas unidades e as linhas que representam os valores
devem ser colocados de modo a impossibilitar o aparecimento de dúvidas capazes de acarretar erros
e levar a conclusões falsas sobre o fenômeno. O gráfico deve permitir uma única interpretação.
Veracidade
Um gráfico deve expressar a verdade sobre o fenômeno analisado. Para tanto, é importante
que o gráfico seja construído com o máximo cuidado, quer quanto ao traçado, quer quanto á escala
utilizada.
A confecção de gráficos estatísticos requer, além da precisão no desenho, a escolha do
modelo mais adequado, possibilitando que os dados sejam apresentados com exatidão. Necessita
também que sejam apresentados com exatidão e que sejam observado alguns critérios gerais na sua
apresentação.
Em sua maioria, esses gráficos utilizam-se do sistema cartesiano, formado pelo cruzamento
do eixo das abscissas (linha horizontal) com o eixo das ordenadas (linha vertical). O ponto de
intersecção corresponde ao ponto (0,0), conhecido como origem, de onde se constrói uma escala em
duas direções (positiva e negativa).
Na escala horizontal (abscissas) representa-se principalmente a variação do fenômeno
geográfico, cronológico ou específico (categorias, setores e outros), como, por exemplo, anos meses
(cronológico), regiões, municípios (geográfico), setores da economia, classes de renda (específico).
Na escala vertical (ordenada) normalmente representam-se os valores relativos ao fenômeno.
Na confecção do gráfico deve-se utilizar as duas escalas com exatidão e a divisão destas é
determinada pela amplitude dos dados e das categorias a representar.
Valores negativos são representados normalmente dentro do sistema cartesiano, devendo-se
observar cuidadosamente a forma de apresentá-los. Embora o usual seja a colocação dos valores no
eixo das ordenadas, muitas vezes, quando existem dados negativos, é comum apresentá-los no eixo
das abscissas, o que resulta em um gráfico confuso. Esse fato ocorre normalmente em trabalhos
com fins publicitários.
Estatística
II
Prof. Laura Maria Saporski Cachuba
30
3,2 Classificação dos Gráficos: Diagramas, Estereogramas, Pictogramas e Cartogramas.
1 – Diagramas:
Tanto os diagramas quanto os gráficos são representações ilustradas de informações. Ambos
são usados para a comunicação visual e seu objetivo é simplificar as informações que transmitem.
Mas existem algumas diferenças.
Um diagrama destina-se a:
- Demonstrar ou explicar o funcionamento de algo.
- Esclarecer o relacionamento entre as partes de um todo.
O uso de diagramas é uma excelente forma de ilustrar um material conceitual e avivar
documentos. Você pode, por exemplo, ilustrar como os personagens de um romance estão
relacionados uns aos outros.
Um gráfico destina-se a:
- Apresentar informações oriundas de uma tabela.
- Representar informações específicas graficamente.
O uso de gráficos é uma excelente forma de facilitar a exibição e o entendimento de
materiais complexos — como comparações, padrões e tendências de dados.
Gráficos de Barra ou Coluna são representados em duas dimensões, podendo mostrar mais
de uma variável. Não é aconselhável a apresentação de muitas variáveis, pois a interpretação pode
ser confusa.
São os mais usados na representação de séries estatísticas. Eles podem ser:
1.1 – Gráficos em barras horizontais.
1.2 – Gráficos em barras verticais (colunas).
Quando as legendas não são breves usa-se de preferência os gráficos em barras horizontais.
Nesses gráficos os retângulos têm a mesma base e as alturas são proporcionais aos respectivos
dados. A ordem a ser observada é a cronológica, se a série for histórica, e a decrescente, se for
geográfica ou categórica (gráfico de Pareto).
1.3 – Gráficos em barras compostas.
1.4 – Gráficos em colunas superpostas.
Estatística II
Prof. Laura Maria Saporski Cachuba
31
Gráfico XX: Gráfico de barras para comparação da distribuição de frequências de uma variável
(raça) em vários grupos (indigentes, pobres e população total).
Eles diferem dos gráficos em barras ou colunas convencionais apenas pelo fato de apresentar
cada barra ou coluna segmentada em partes componentes.
Servem para representar comparativamente dois ou mais atributos.
1.5 – Gráficos em linhas ou lineares.
São frequentemente usados para representação de séries cronológicas com um grande
número de períodos de tempo. As linhas são mais eficientes do que as colunas, quando existem
intensas flutuações nas séries ou quando há necessidade de se representarem várias séries em um
mesmo gráfico.
Quando representamos, em um mesmo sistema de coordenada, a variação de dois
fenômenos, a parte interna da figura formada pelos gráficos desses fenômenos é denominada de
área de excesso.
1.6 – Gráficos em setores.
Este gráfico é construído com base em um círculo, e é empregado sempre que desejamos
ressaltar a participação do dado no total. O total é representado pelo círculo, que fica dividido em
tantos setores quantas são as partes. Os setores são tais que suas áreas são respectivamente
proporcionais aos dados da série. O gráfico em setores só deve ser empregado quando há, no
máximo, sete dados.
Obs: As séries temporais geralmente não são representadas por esse tipo de gráfico.
Estatística II
Prof. Laura Maria Saporski Cachuba
32
2 – Estereogramas:
São gráficos geométricos dispostos em três dimensões, pois representam volume. São
usados nas representações gráficas das tabelas de dupla entrada. Em alguns casos este tipo de
gráfico fica difícil de ser interpretado dada a pequena precisão que oferecem.
3 – Pictogramas:
São construídos a partir de figuras representativas da intensidade do fenômeno. Este tipo de
gráfico tem a vantagem de despertar a atenção do público leigo, pois sua forma é atraente e
sugestiva. Os símbolos devem ser autoexplicativos. A desvantagem dos pictogramas é que apenas
mostram uma visão geral do fenômeno, e não de detalhes minuciosos. Veja o exemplo abaixo:
4 – Cartogramas:
São ilustrações relativas a cartas geográficas (mapas). Este gráfico é empregado quando o objetivo é
o de figurar os dados estatísticos diretamente relacionados com áreas geográficas ou políticas.
Distinguimos duas aplicações:
a. Representar dados absolutos (população) – neste caso, lançamos mão, em geral, dos pontos,
em número proporcional aos dados.
b. Representar dados relativos (densidade) – neste caso, lançamos mão, em geral, de hachuras
ou cores.
Estatística II
Prof. Laura Maria Saporski Cachuba
33
Fonte: IBGE, Amostra do Censo 2000.
3.3. Descrição Gráfica
Os gráficos utilizados na descrição gráfica das variáveis qualitativas unidimensionais são:
- Gráfico de Barras;
- Gráfico de Colunas;
- Gráficos de Pareto
- Gráfico de Setores Circulares.
Estatística II
Prof. Laura Maria Saporski Cachuba
34
a) Gráfico de Barras
Os gráficos de barras têm por finalidade comparar grandezas, por meio de retângulos de
igual largura e alturas proporcionais às respectivas grandezas. Cada barra representa a intensidade
de uma modalidade do atributo. As magnitudes das barras são representadas pelos respectivos
comprimentos e seu traçado é feito tendo-se como referencia uma escala horizontal. Em geral, as
divisões da escala se prolongam em traços verticais por todo o gráfico, facilitando assim a leitura do
comprimento de cada barra. A identificação da barra é inscrita á esquerda do gráfico.
Há quatro orientações gerais a serem observadas na construção de um gráfico de barras:
a) As barras só diferem em comprimento, e não em largura, a qual é arbitrária.
b) As barras só devem vir separadas umas das outras pelo mesmo espaço, o qual é deve ser
suficiente para que as inscrições que identificam as diferentes barras não tragam confusão ao
leitor. Como regra prática pode-se tomar o espaço entre as barras como aproximadamente a
metade ou dois terços de suas larguras. A junção das barras (excluindo-se o espaço) é
utilizada quando o que se representa no gráfico possui uma continuidade e são ordinais
(exemplo: classe socioeconômica)
c) As barras devem ser desenhadas observando sua ordem de grandeza, para facilitar a leitura e
análise comparativa dos valores.
d) Um gráfico, construído para mostrar grandezas absolutas, deverá ter uma linha zero
claramente definida e uma escala de quantidades ininterrupta, caso contrário, a leitura e a
interpretação do gráfico poderão ficar distorcidas.
Fonte: Secretaria de Saúde do Estado do Paraná.
b) Gráfico de Colunas
Os gráficos de colunas prestam-se à mesma finalidade que os gráficos de barras, sendo,
entretanto, preferíveis a esses últimos quando as legendas a se inscreverem sob os retângulos forem
breves. Caso contrário, o emprego do gráfico de barras é mais adequado. Então, a única diferença
51,2
20,1
7,3
4,2
4,2
3
3
1,8
1,8
1,2
0,6
0,6
0,6
0 10 20 30 40 50 60
Supermercado
Posto de Saúde
Hotel
Cto. Coml.
Clube Social
Lanchonete
Hospital
Refeitório Indl.
Creche
Escola
Festa Comum.
Refeitório Com.
Domicílio
Figura 1. Percentuais de Local de Ocorrência de Surtos
de Doenças Transmitidas por Alimentos - Paraná - 1997
Estatística II
Prof. Laura Maria Saporski Cachuba
35
entre os dois gráficos reside na direção dos retângulos. Todas as demais observações apresentadas
anteriormente são extensíveis a esse último caso.
Observe as duas figuras a seguir. Note que a simples alteração na escala modifica a primeira
impressão que se tem ao observar
o gráfico. Na figura 2, um observador mais desatento pode achar
que o resultado foi desfavorável à cantina, devido ao tamanho das barras, indicando o resultado
“Péssimo”. No entanto, quando colocamos a escala de 0 a 100, a diferença não chega a ser tão
chamativa, e a tendência é que se observem os valores apresentados. Neste caso, notamos que a
soma de “Ótima” e “Boa” excede o percentual de “Péssimo”.
c) Diagramas de Pareto
Uma forma mais conveniente de indicar relações entre dados qualitativos é a construção de
um diagrama de Pareto. Recorde que os dados qualitativos representam uma característica não-
numérica, como os tipos de morte acidental, exemplos já relacionados aqui. Um diagrama de Pareto
é um gráfico em barras para dados qualitativos, com as barras ordenadas de acordo com a
frequência. Tal como no caso dos histogramas, as escalas verticais em um diagrama de Pareto
16,13
25,81
2,15
8,60
34,41
12,90
0,00
5,00
10,00
15,00
20,00
25,00
30,00
35,00
Ótima Boa Aceitável Ruim Péssima Não como
na cantina
Figura 2. Qual a sua opinião sobre a comida servida na
Cantina?
16,13
25,81
2,15
8,60
34,41
12,90
0,00
10,00
20,00
30,00
40,00
50,00
60,00
70,00
80,00
90,00
100,00
Ótima Boa Aceitável Ruim Péssima Não como
na cantina
Figura 3. Qual a sua opinião sobre a comida servida na
Cantina?
Estatística II
Prof. Laura Maria Saporski Cachuba
36
podem representar frequências absolutas ou frequências relativas. A barra mais alta fica à esquerda.
e as barras menores na extrema direita. Dispondo as barras por ordem de frequência, o diagrama de
Pareto focaliza a atenção sobre as categorias mais importantes.
O Princípio de Pareto determina que podemos solucionar 80% dos meus problemas
mexendo em somente 20% das causas (ou regra 80/20). Ele foi sugerido por Joseph M. Juran, o
mestre da qualidade, que deu o nome em homenagem a Vilfredo Pareto. Pareto era um economista
italiano sociopolítico que, no fim do século XIX percebeu que 80% da riqueza italiana ia para 20%
da população.
A principal característica do princípio é definir visivelmente a relação ação/benefício. Dessa
forma, pode-se focar nas ações que nos darão os melhores resultados.
Qual a finalidade deste princípio? Este princípio é importante para aqueles que querem
entender a mecânica por trás das causas e soluções dos problemas em seus projetos.
Por exemplo, se conseguimos identificar os 20% das funções mais utilizadas em nossa área,
podemos trabalhar duro para melhorar o todo. Se você entendeu bem o conceito, já descobriu que
melhorar esses 20% de código soluciona 80% dos seus problemas.
Adicionar a Análise de Pareto à sua análise gerencial é muito interessante, principalmente
quando você consegue expandir o conceito da regra para aplicá-la à sua realidade.
Isto significa que devo esquecer os tais 20%? Claro que não! Esquecer-se dos 20% poderia
significar perder 20% dos teus clientes, o que é um absurdo! Essa análise é voltada para resultados
com o menor esforço (quando os prazos estão apertados e a resposta precisa ser rápida), mas temos
sempre que trabalhar em todas as causas para que não hajam brechas para a concorrência.
Pra finalizar, vale dizer que nem sempre as quantidades vão ser exatamente essas (nem que
elas necessariamente somem 100%), mas a idéia principal é que um pequeno número de causas é
responsável por um grande número de efeitos.
Para construir o diagrama de Pareto:
1- Defina o objetivo da análise (por exemplo: índice de rejeições).
2- Estratifique o objeto a analisar (índice de rejeições: por turno; por tipo de defeito; por máquina;
por operador; por custo).
3- Colete os dados, utilizando uma folha de verificação.
4- Classifique cada item.
5- Reorganize os dados em ordem decrescente.
6- Calcule a porcentagem acumulada.
7- Construa o gráfico, após determinar as escalas do eixo horizontal e vertical.
8- Construa a curva da porcentagem acumulada. Ela oferece uma visão mais clara da relação entre
as contribuições individuais de cada um dos fatores.
Estatística II
Prof. Laura Maria Saporski Cachuba
37
Modelo de Lista de verificação: Componente: Conjunto ABC Seção: Linha de montagem
Processo de trabalho: montagem Data da produção: 30/03/05
Quantidade produzida: 1.000 peças Inspetor:
Tipo de defeito Tabulação Frequência
do item
Classificação
%
individual
Alinhamento ///// ///// // 12 6º 06%
Solda ///// ///// ///// ///// / 21 4º 10%
Parafuso solto ///// ///// /////.../////
///
68 1º 34%
Junção ///// ///// ///// 15 5º 07%
Sujeira ///// ///// /////.../////
/
41 2º 20%
Riscos ///// ///// /////.../////
////
29 3º 14%
Trinca ///// ///// 10 7º 05%
Rebarba ///// / 06 8º 03%
Bolha / 01 9º 01%
Totais 202 - 100%
Modelo de Lista de verificação: Componente: Conjunto ABC Seção: Linha de montagem
Processo de trabalho: montagem Data da produção: 30/03/09
Quantidade produzida: 1.000 peças Inspetor:
Tipo de
defeito
Tabulação Frequência
do item
Classificação
%
Individual
%
acumulada
Parafuso solto
///// /////
/////...///// ///
68 1º 34% 34%
Sujeira
///// /////
/////...///// /
41 2º 20% 54%
Riscos
///// /////
/////...///// ////
29 3º 14% 68%
Solda
///// ///// /////
///// /
21 4º 10% 78%
Junção ///// ///// ///// 15 5º 07% 85%
Alinhamento ///// ///// // 12 6º 06% 91%
Trinca ///// ///// 10 7º 05% 96%
Rebarba ///// / 06 8º 03% 99%
Bolha / 01 9º 01% 100%
Totais 202 - 100% -
Estatística II
Prof. Laura Maria Saporski Cachuba
38
Estatística II
Prof. Laura Maria Saporski Cachuba
39
d) Gráfico de Setores Circulares
Gráficos de setores em círculos são aqueles em que a área do círculo (que equivale a 360º) é
proporcional ao total da série estatística a ser representada, enquanto as áreas dos setores são
proporcionais às parcelas que constituem a série. Logo, esse tipo de gráfico é adequado quando se
deseja apresentar partes de um total, ou seja, quando o objetivo é comparar uma determinada
parcela em relação ao total. Preferencialmente deve-se apresentar os valores em percentuais.
É muito importante observar a quantidade de categorias a serem consideradas. Embora
alguns softwares possibilitem a divisão em um número maior de fatias, não é aconselhável utilizar
mais que oito categorias e, mesmo nesse caso, deve-se considerar os valores, pois a comparação
entre categorias pode ficar prejudicada e o gráfico poluído, o que dificulta a visualização.
Figura 4. Você tem acesso à Internet?
17%
22%
39%
10%
12%
Sim, em casa Sim, em casa e na escola
Sim, na escola Sim, outros lugares
Não
Estatística II
Prof. Laura Maria Saporski Cachuba
40
Critérios Gerais para Apresentação de Tabelas, Gráficos e Figuras
As tabelas, os gráficos e as figuras são apresentados conforme os seguintes critérios:
1. devem ser dotados de todas as informações necessárias a uma completa compreensão do
conteúdo, e apresentados da maneira mais simples e objetiva possível;
2. podem ser intercalados no texto ou colocados em anexo. As figuras em anexo devem ser
utilizadas quando o volume desses elementos for grande, o que dificultaria a leitura contínua
do texto;
3. quando inseridos em um texto, devem estar localizados próximos ao trecho em que são
citados pela primeira vez, separados da linha de texto precedente por uma linha em branco;
4. devem ser alinhados preferencialmente
nas margens laterais do texto e, quando pequenos,
devem ser centralizados;
5. devem ser compostos de maneira a evitar que sua colocação tenha sentido de leitura
diferente da normal. Quando isto não for possível, nem mesmo por redução, deverão ser
colocados de tal forma que sua leitura seja feita no sentido horário;
6. deve-se evitar o formato maior do que aquele adotado para o texto (formato A4); em alguns
casos, pode ser feita redução gráfica, desde que não prejudique a legibilidade do material
reduzido;
7. quando for indispensável utilizar abreviaturas que não sejam de uso corrente, deve-se
indicar seu significado utilizando uma nota específica;
8. os títulos são listados pela sua natureza (tabela, gráfico e figura), sendo a lista colocada no
início do trabalho, após o sumário. A ordem recomendada é a seguinte: figuras, tabelas e
gráficos.
Partes componentes de Figuras, Tabelas e Gráficos
As partes componentes de figuras, tabelas e gráficos são: título; corpo; referência, fonte
e/ou autoria; nota(s) ou observações gerais; nota(s) específica(s); e legenda.
Título
O título compõe-se da referência (tipo de elemento e número), da descrição do conteúdo e da
data de referência, apresentado conforme os seguintes critérios:
1. o corpo de tabelas, gráficos e figuras deve ser inserido antes dos títulos dos mesmos;
2. deve ser autoexplicativo, ou seja, apresentar o conteúdo deles de maneira completa;
3. deve ser centralizado em relação aos limites da tabela, gráfico e figura;
Referência, fonte e/ou autoria
A referência é o componente que identifica uma tabela, gráfico ou figura no texto ou em
anexos. Sua presença no título é obrigatória.
Exemplos:
Tabela 5. Consumo de energia elétrica no Paraná, janeiro de 1995.
Gráfico 5. Área, produção e rendimento médio do café, no Brasil e no Paraná.
Estatística II
Prof. Laura Maria Saporski Cachuba
41
Os seguintes procedimentos devem ser adotados em uma referenciação:
a) deve ser escrita com a primeira letra maiúscula e separada da primeira linha da descrição do
conteúdo por um ponto;
b) as referências devem ser numerados de 1 a n, seguindo uma sequência para cada capítulo;
c) na numeração por capítulo, o número de ordem deve ser precedido do número do capítulo,
separado deste por um ponto;
Exemplos:
Tabelas do Capítulo 1
Tabela 1.1.
Tabela 1.2.
Tabelas do Capítulo 2
Tabela 2.1.
Tabela 2.2.
d) este mesmo procedimento deve ser feito para tabelas em Anexo, sendo o número de ordem
precedido pela letra A (de anexo).
Exemplos:
Tabelas do Anexo 1
Tabela A.1
Descrição do conteúdo
Deve conter a designação do fato observado e o local de ocorrência. A descrição do
conteúdo é feita segundo os critérios a seguir:
a) deve ser escrita com a primeira letra maiúscula, após a referência e separada desta por um ponto
e um espaço.
Exemplo:
Tabela 5. Rendimento médio da produção de algodão herbáceo no Brasil, 1992.
b) deve informar todo o conteúdo do corpo do elemento (tabela, gráfico ou figura);
c) quando se tratar de tabela estatística deve ser feita preferencialmente nesta ordem: descrição do
cabeçalho, descrição da coluna indicadora e local a que se refere o conteúdo da tabela.
Data de referência
Este componente identifica o período referente aos dados e/ ou informações registrados. Os
critérios a seguir devem ser observados na indicação da data de referência dos dados:
a) deve ser obrigatoriamente indicada, exceto quando a natureza dos dados não o permitir, como é o
caso de dados físico-territoriais;
Exemplo:
Tabela 5. Coordenadas geográficas do Paraná, segundo os pontos extremos.
b) deve ser colocada após a descrição do conteúdo, na mesma linha, podendo ser integrada à parte
descritiva nos casos em que possibilite uma melhor compreensão do conteúdo;
Exemplos:
Tabela 5. População estimada para o ano 2000 segundo o sexo – Paraná.
Corpo
É a parte da tabela, gráfico ou figura que contém os dados e informações. Corpo de tabelas
estatísticas
Em uma tabela estatística o corpo é estruturado com cabeçalho e coluna indicadora, podendo
ainda existir uma coluna complementar. Identificam-se, ainda, traços, linhas, colunas e casas.
Estatística II
Prof. Laura Maria Saporski Cachuba
42
Cabeçalho
É a parte superior da tabela que especifica o conteúdo das colunas. Pode ser constituído de um
ou vários níveis. Os seguintes procedimentos devem ser adotados na apresentação do cabeçalho de
uma tabela:
1. as especificações de primeiro nível devem, preferencialmente, conter as denominações
apresentadas no título;
2. na indicação de totais (geral ou parcial) considerar a ordem de apresentação e classificação;
3. as unidades de medida dos dados devem ser indicadas no cabeçalho e/ou na coluna
indicadora no mesmo nível da especificação a que se referem, entre parênteses,
preferencialmente abaixo da especificação;
4. quando forem utilizadas siglas e abreviaturas que não sejam de uso corrente, deve-se indicar
o seu significado utilizando uma nota específica;
Coluna indicadora
É a parte da tabela que especifica o conteúdo das linhas. Na sua apresentação, devem ser
observados os seguintes aspectos:
1. o cabeçalho dessa coluna deve apresentar a denominação constante no título, evitando-se,
tanto quanto possível, o uso de palavras de sentido general como Especificação ou
Descrição. O termo utilizado no cabeçalho pode ser escrito no singular ou no plural;
entretanto, adotada uma forma, esta deve ser mantida em todo o trabalho;
2. a coluna indicadora pode apresentar especificações, que como o cabeçalho, estejam
subdivididas em níveis diversos. Nestes casos, as indicações dos níveis subseqüentes são
transcritas com um afastamento de dois espaços em relação ao nível anterior;
3. sempre que possível, deve-se evitar o uso de siglas e abreviaturas nas colunas.
Totalizações
Quanto às totalizações, deve-se observar o seguinte:
1. a soma dos dados numéricos contidos em uma linha ou coluna deve ser indicada pela
palavra total, exceto quando a soma se referir a uma área geográfica ou a uma categoria,
casos em que deve ser indicada pela designação destas;
2. o total pode preceder ou suceder as parcelas, mas em qualquer dos casos o modo de
apresentação deve ser uniforme em todo trabalho. É preferível dar sucessão às parcelas,
visando facilitar, quando necessário, à conferência dos dados;
3. os totais parciais devem ser indicados com a palavra Total, escrita apenas com a letra inicial
maiúscula. Deve-se evitar o uso do termo subtotal para esta finalidade;
4. a soma dos totais parciais deve ser indicada pela expressão Total geral;
5. os dados das linhas e/ou colunas referentes às totalizações não sofrerão, via de regra,
tratamento especial. Havendo necessidade de destacar os dados, deve-se usar um
espaçamento maior entre as outras linhas e a linha de totalização, para ressaltá-la, ou então
colocar em negrito o termo que indica totalização. Não deverão ser usados traços sob os
números para esta finalidade.
Linha
Corresponde ao conjunto de elementos dispostos horizontalmente no corpo da tabela.
Coluna
Corresponde ao conjunto de elementos dispostos verticalmente no corpo da tabela. Os dados
deverão, preferencialmente, obedecer à seguinte disposição nas colunas: alinhados no canto direito,
Estatística II
Prof. Laura Maria Saporski Cachuba
43
deixando o espaço correspondente a uma letra da linha imaginária; a última coluna deve estar
alinhada no limite direito da tabela, sem espaço.
Casa
É o elemento do corpo de uma tabela, identificado pelo cruzamento de uma linha com
uma
coluna. As casas não devem ficar em branco. Caso não se disponha de dados para o seu
preenchimento, devem ser utilizados os sinais convencionais adequados. Estes devem
obrigatoriamente ser escritos nas publicações antecedendo as tabelas, ou, em se tratando de um
número reduzido de tabelas, ser escrito no rodapé da tabela em forma de NOTA.
Nos casos em que se dispõe do dado observado, mas é necessário prestar algum
esclarecimento adicional (dado preliminar, estimado, retificado), este deve ser feito utilizando-se
uma NOTA.
Quando o dado apresentado tem valor negativo, o fato deve ser indicado através do sinal
negativo.
Exemplos:
- 327 ou - 32,20
Traço
O traço é o elemento utilizado para delimitar o cabeçalho e a finalização da tabela. Os seguintes
procedimentos devem ser adotados quanto à utilização de traços em uma tabela:
1. para delimitação das linhas e colunas não deverão ser utilizados traços;
2. obrigatoriamente devem ser traçados o cabeçalho e o limite inferior da tabela;
3. quando uma tabela, por sua excessiva altura, tiver de ocupar mais de uma página, não deve
ser delimitada (traçada) na parte inferior, mas apenas na última página. Neste caso, deve-se
indicar no rodapé e ao lado direito, a palavra continua escrita em letras minúsculas, alinhada
com a tabela; o título e o cabeçalho devem ser repetidos em todas as páginas que forem
ocupadas pela tabela. Com exceção da primeira página da tabela (que conterá apenas a
palavra continua) e da última página (que conterá apenas a palavra conclusão), todas as
outras terão a palavra continuação, localizada acima do cabeçalho, alinhada externamente no
limite direito deste, escrita com letras minúsculas. O termo conclusão constará somente da
última página da tabela, na mesma posição que o termo continuação, escrito também em
letras minúsculas. O Word e o Excel possuem a função “repetir linha de cabeçalho” e
“repetir coluna” para tabelas que precisem ser “quebradas” em mais de uma página.
4. as tabelas estatísticas não devem ser delimitadas por traços verticais em suas laterais, o
que é permitido para tabelas não estatísticas.
Fonte
Consiste na indicação da entidade (ou entidades) responsável pelo fornecimento ou
elaboração dos dados e/ou informações constantes de tabelas, gráficos e figuras.
Exemplos:
FONTE: IBGE
FONTES: SERPRO, DATAMEC
Na indicação da fonte devem ser observados os seguintes critérios:
a) quando os dados tiverem sido trabalhados ou elaborados (p. ex.: cálculos de taxas, variações,
percentuais, índices, deflação, entre outros), utilizar a expressão FONTE DOS DADOS BRUTOS
para indicar o órgão responsável pelo fornecimento dos dados brutos, apresentando numa nota o
responsável pelo dado trabalho.
Exemplos:
FONTE DOS DADOS BRUTOS: Censo Agropecuário - IBGE NOTA: Dados elaborados pelo
IPARDES
Estatística II
Prof. Laura Maria Saporski Cachuba
44
b) as expressões FONTE, FONTES ou FONTE DOS DADOS BRUTOS devem ser escritas em
letras maiúsculas e separadas do nome do órgão fornecedor dos dados por meio de dois pontos e um
espaço. Após o nome do órgão não há ponto final;
Exemplos:
FONTE: IPARDES
c) o órgão responsável pelo fornecimento dos dados deve ser escrito em letras maiúsculas, quando
for utilizada a sua sigla, ou apenas com as iniciais maiúsculas, quando for utilizado o seu nome por
extenso. Adotado um dos procedimentos, este deve ser mantido sempre que for possível;
d) no caso em que os dados da tabela forem fornecidos por diversas fontes, os nomes ou siglas
referentes a estas devem ser separados por vírgulas.
Exemplo:
FONTES: IBGE, IPARDES, SESA
e) quando os dados forem obtidos de publicações periódicas, é conveniente indicar o nome da
publicação seguida do órgão editor, separados por hífen e escritos apenas com as iniciais
maiúsculas, à exceção das siglas;
Exemplo:
FONTE: Censo Demográfico - IBGE
f) para dados extraídos de publicações monográficas (livros, teses, relatórios de pesquisa entre
outros), convém indicar a fonte conforme as normas de referências bibliográficas.
g) quando os dados são extraídos de uma publicação, mas a fonte original é outra, é conveniente
indicar como fonte o órgão de origem dos dados, informando em uma NOTA de onde foram
retirados os dados;
Exemplos:
FONTE: BACEN
NOTA: Extraído da Base Pública do Estado do Paraná (BPUB).
Nota
Utiliza-se o termo NOTA para apresentar as informações destinadas a conceituar ou
esclarecer o conteúdo ou indicar a metodologia utilizada na coleta ou na elaboração dos dados.
As notas são apresentadas conforme os seguintes critérios:
a) a palavra NOTA deve ser escrita com letras maiúsculas, seguidas de dois pontos, e a descrição ou
esclarecimentos, com letras maiúsculas e minúsculas, conforme uso normal, seguido de ponto final;
Exemplo:
NOTA: Os dados foram extraídos do Censo Demográfico de 1980.
b) deve ser apresentada logo a seguir da FONTE;
c) quando o esclarecimento ocupar mais de uma linha, o texto da segunda e demais linhas deverá ter
início abaixo da primeira letra do esclarecimento;
d) quando houver mais de um esclarecimento (mais de uma informação de natureza geral), deve ser
usada a palavra NOTAS escrita em letras maiúsculas;
Exemplo:
NOTAS:
1 Os dados foram extraídos do Censo Demográfico de 1980.
2 A fonte deixou de realizar o levantamento de cana para forragem.
e) os esclarecimentos constantes nas NOTAS podem ou não ser numerados. Porém, iniciam-se
sempre em nova linha;
f) as notas de tabelas estatísticas que ocuparem mais de uma página devem figurar apenas na última
página, ao final da tabela.
Estatística II
Prof. Laura Maria Saporski Cachuba
45
Nota Específica
Utiliza-se a nota específica para apresentar informações sobre uma parte ou item específicos de
uma tabela, gráfico ou figura, destinados a descrever conceitos ou a esclarecer dados. Os
procedimentos a seguir devem ser adotados sempre que se fizer uso de uma nota específica:
1. deve ser chamada, no corpo e no rodapé, por algarismos arábicos, colocados entre
parênteses;
2. quanto à disposição no corpo de uma tabela estatística:
1. a numeração das chamadas para as notas específicas deve ser sucessiva, de cima para
baixo e da esquerda para a direita;
2. no cabeçalho e na coluna indicadora de tabelas estatísticas deve ser colocada à
direita das especificações, preferencialmente com número sobrescrito;
3. quanto à disposição no rodapé:
1. deve ser colocada logo após a nota (ou logo após a FONTE quando não existir
NOTA), de acordo com sua sequência, iniciando-se para cada chamada uma nova
linha;
2. a indicação de chamada deve ser separada do texto referente à nota específica por
meio de um espaço em branco;
3. o texto referente à nota específica deve ser escrito em letras maiúsculas, conforme
uso normal, seguido de ponto final;
4. quando o esclarecimento ocupar mais de uma linha, o texto da segunda e das demais
linhas deverão acompanhar o alinhamento da primeira linha;
5. as notas específicas de uma tabela estatística que ocupar em mais de uma página
devem figurar no rodapé desta, na última página.
Legenda
É a descrição das convenções utilizadas na elaboração de gráficos, figuras e mapas. É obrigatório o
seu uso sempre que for representada mais de uma variável.
Estatística II
Prof. Laura Maria Saporski Cachuba
46
Elaborando um questionário
- QUESTIONÁRIOS
Segundo Parasuraman (1991), um questionário é tão somente um conjunto de questões, feito
para gerar os dados necessários para se atingir os objetivos do projeto. Embora o mesmo autor
afirme que nem
todos os projetos de pesquisa utilizam essa forma de instrumento de coleta de
dados, o questionário é muito importante na pesquisa científica, especialmente nas ciências sociais.
Parasuraman afirma também que construir questionários não é uma tarefa fácil e que aplicar tempo
e esforço adequados para a construção do questionário é uma necessidade, um fator de
diferenciação favorável. Não existe uma metodologia padrão para o projeto de questionários, porém
existem recomendações de diversos autores com relação a essa importante tarefa no processo de
pesquisa científica.
Também chamados de survey (pesquisa ampla), o questionário é um dos procedimentos
mais utilizados para obter informações. É uma técnica de custo razoável, apresenta as mesmas
questões para todas as pessoas, garante o anonimato e pode conter questões para atender a
finalidades específicas de uma pesquisa. Aplicada criteriosamente, esta técnica apresenta elevada
confiabilidade. Podem ser desenvolvidos para medir atitudes, opiniões, comportamento,
circunstâncias da vida do cidadão, e outras questões. Quanto à aplicação, os questionários fazem
uso de materiais simples como lápis, papel, formulários, etc. Podem ser aplicados individualmente
ou em grupos, por telefone, Internet, ou mesmo pelo correio. Pode incluir questões abertas,
fechadas, de múltipla escolha, de resposta numérica, ou do tipo sim ou não.
Construir um bom questionário depende não só do conhecimento de técnicas mas
principalmente da experiência do pesquisador. Contudo, seguir um método de elaboração sem
dúvida é essencial, pois identifica as etapas básicas envolvidas na construção de um instrumento
eficaz.
As etapas necessárias para o desenvolvimento de um questionário são:
(i) Justificativa;
(ii) Definição dos objetivos;
(iii) Redação das questões e afirmações;
(iv) Revisão;
(v) Definição do formato;
(vi) Pré-teste e
(vii) Revisão final.
A elaboração de um questionário é a atividade que exige maior atenção em todo o processo,
pois será ele que trará as informações essenciais para o sucesso da pesquisa.
Para se elaborar um questionário não devemos esquecer-nos de estabelecer uma ligação com
o problema e os objetivos da pesquisa, as hipóteses da pesquisa, a população a ser pesquisada, os
métodos de análise de dados escolhidos e/ou disponíveis.
A determinação das informações a serem buscadas deve fluir naturalmente neste momento
do processo, desde que as etapas precedentes da pesquisa tenham sido meticulosamente elaboradas.
O desenvolvimento do questionário está ligado à formulação exata do problema a ser pesquisado e
ao objetivo da pesquisa
Ao elaborar o questionário observe as seguintes recomendações básicas:
- Listar todos os pontos a pesquisar, evitando a repetição ou a ausência de alguma questão
importante.
- Elaborar perguntas de fácil entendimento.
- Usar linguagem coloquial: clara, simples e objetiva.
- Evitar termos técnicos e palavras em outro idioma.
- Observar a sequência lógica das questões, facilitando a reposta do entrevistado.
Estatística II
Prof. Laura Maria Saporski Cachuba
47
- Cuidar do visual (layout) do questionário, tornando mais agradável a sua utilização.
- Limitar perguntas a um passado próximo.
- Não obrigar o entrevistado a fazer cálculos.
- Ter cuidado com perguntas embaraçosas.
- Não utilizar, em hipótese alguma, pergunta que induza à resposta.
- Fornecer instruções para os entrevistadores.
- Preparar, treinar e supervisionar o entrevistador.
- Testar o questionário (pré-teste) numa pequena amostra e fazer os ajustes antes de aplicá-lo num
grande número de pessoas.
- Componentes do questionário
Um questionário para ser eficaz deve conter os seguintes tipos de informação:
a) Numeração;
b) Identificação do respondente. Neste ponto colhe-se apenas o nome do respondente, deixando-se
seus dados gerais para o final, do questionário, com vistas a se evitarem vieses.
c) Solicitação de cooperação. É importante motivar o respondente através de uma prévia exposição
sobre a entidade que está promovendo a pesquisa e sobre as vantagens que essa pesquisa poderá
trazer para a sociedade e em particular para o respondente, se for o caso, não se esquecendo do
tempo que a pessoa precisará para respondê-lo.
d) Instruções. As instruções deverão ser claras e objetivas ao nível de entendimento do respondente
e não somente ao nível de entendimento do pesquisador.
e) Informações solicitadas. É efetivamente o que se pretende pesquisar.
f) Informações de classificação do respondente. Os dados de classificação do respondente
normalmente deverão estar no final do questionário. Pode ocorrer distorção se estiverem no início
porque o entrevistado poderá distorcer as respostas, caso seus dados pessoais já estejam revelados
no inicio da pesquisa.
g) Filtro no início do questionário, se houver.
- ERROS EM UM PROCESSO DE PESQUISA
Em um processo de pesquisa podem ocorrer dois tipos de erros. São eles os erros amostrais e
os erros não amostrais. O primeiro está ligado a falhas nos processos de escolha da amostra e da
determinação do seu tamanho. Quanto aos erros não amostrais, inúmeras são as fontes de sua
ocorrência; entre elas, questionários de dados mal elaborados, com questões tendenciosas ou dúbias
e a escolha e/ou o uso incorreto de escalas de medição. A mensuração sempre ocorre em situações
complexas, onde diversos fatores influenciam as características medidas e o processo de
mensuração, podendo gerar erros não amostrais.
Percebe-se, portanto, a importância de um questionário bem construído e bem aplicado,
garantindo significativa redução no nível do erro não amostral!
DECISÕES PARA A ELABORAÇÃO DO QUESTIONÁRIO
a) Decisões sobre o conteúdo das perguntas
Com relação ao conteúdo das perguntas, pode-se tentar verificar fatos, crenças quanto a
fatos, crenças quanto a sentimentos, descoberta de padrões de ação e de comportamento presente ou
passado.
Destes itens, os mais difíceis de serem medidos são sentimentos e crenças quanto a fatos, já
que são muito íntimos às pessoas, que nem sempre estão dispostas a externá-los.
É necessário também que o pesquisador faça algumas reflexões, do tipo: a pergunta é
realmente necessária? qual a sua utilidade?
Estas perguntas desdobram-se nas seguintes questões:
Estatística II
Prof. Laura Maria Saporski Cachuba
48
. O assunto exige uma pergunta separada, ou pode ser incluído em outras perguntas?
. Existem outras perguntas que já incluem adequadamente este ponto?
. A pergunta é desnecessariamente minuciosa e específica?
. Várias perguntas são necessárias sobre o assunto desta pergunta ou uma é o suficiente?
. Deve-se evitar o uso de abreviação. Não se deve tratar dois assuntos complexos em uma mesma
pergunta.
. Todos os aspectos importantes sobre este tópico serão obtidos da forma como foi elaborada a
pergunta? Em perguntas de opinião, interessa saber os graus de favorabilidade/desfavorabilidade,
ou basta saber se é a favor ou contra?
. As pessoas têm a informação necessária para responder a pergunta? O pesquisador deve examinar
cada assunto, a fim de se certificar se é esperado do respondente que ele seja capaz de fornecer a
informação desejada, ou seja, se ele é o portador da informação e se é capaz de lembrar-se dela.
Costuma-se usar alguns "filtros", para detectar se o indivíduo tem ou não a informação desejada.
Não basta porém que se esteja abordando a pessoa certa, é preciso saber se ela é capaz de se lembrar
da informação. Nossa habilidade para nos lembrarmos dos eventos é influenciada pela importância
do próprio evento para cada um, do tempo passado desde que ele ocorreu e da presença
de
estímulos que nos ajudem a recordar.
. Os respondentes estarão dispostos a dar a informação? Não basta que o respondente tenha a
informação. Ele precisa estar disposto a fornecê-la. Sua predisposição em responder parece ser
função do tempo e trabalho envolvidos na elaboração da resposta, de sua habilidade em articular a
resposta, e da sensibilidade do assunto tratado.
. Que objeções alguém poderia ter para responder esta pergunta?
. O tema abordado é muito íntimo, perturbador ou expõe socialmente as pessoas, de forma a causar
resistências e respostas falsas?
. O tema é embaraçoso para o respondente por colocar em perigo seu prestígio caso seja contrário a
idéias socialmente aceitas? Para tentar diminuir esses problemas deve-se inicialmente fazer
perguntas que sugiram comportamento comum para depois ir se aprofundando no assunto e assim
mesmo procurando se referir a outras pessoas ou utilizar cartões com letras e números para
minimizar o impacto sobre o respondente.
. Deve a pergunta ser mais concreta, específica e mais diretamente ligada à experiência pessoal de
quem responde?
· O conteúdo da pergunta é suficientemente geral? Está livre de concreticidade ou especificidade
desnecessárias?
. O assunto é de tal ordem que uma pergunta específica possa trazer respostas inexatas ou
enganadoras? Deve-se tomar o cuidado de não se usar perguntas muito específicas, quando, na
verdade, a pesquisa for de caráter geral. Por exemplo, perguntar quantas vezes uma pessoa foi ao
supermercado em determinado mês, pode resultar em uma resposta menos precisa do que se fosse
perguntado a respeito do seu comportamento usual ou médio durante os meses anteriores.
. O conteúdo da pergunta não estará enviesado ou carregado em determinada direção? Esta pergunta
desdobra-se nas seguintes questões:
- A pergunta é, devidamente, neutra, a fim de não influenciar nas respostas?
- Pessoas com opiniões contrárias sobre o assunto não a considerarão tendenciosa?
- A pergunta contém opiniões ou julgamentos relacionados ao assunto?
- DECISÕES SOBRE O FORMATO DAS RESPOSTAS
A escolha do formato das respostas mais adequado deve levar em conta as vantagens e
desvantagens de cada tipo para o objetivo da pesquisa.
As questões podem ser:
a) abertas
b) de múltipla escolha
Estatística II
Prof. Laura Maria Saporski Cachuba
49
c) dicotômicas
a) Questões Abertas
Nas questões abertas, os respondentes ficam livres para responderem com suas próprias
palavras, sem se limitarem a escolha entre um rol de alternativas. Existe concordância em que se
deve partir de questões gerais para específicas. Uma pergunta aberta geral, do tipo "Quando se fala
em política, o que vem à sua cabeça?", proporciona um "insight" na estrutura de referência do
respondente e pode ser muito útil na interpretação de respostas a perguntas posteriores. Outro
importante uso é na obtenção de informações adicionais e esclarecimentos, com indagações como:
"Por quê?", "Por favor, explique.", "Por que pensa dessa forma?".
Segundo Mattar (1994), as principais vantagens e desvantagens das perguntas abertas são:
Vantagens
- Estimulam a cooperação;
- Permitem avaliar melhor as atitudes para análise das questões estruturadas;
- São muito úteis como primeira questão de um determinado tema porque deixam o respondente
mais à vontade para a entrevista a ser feita;
- Cobrem pontos além das questões fechadas;
- Têm menor poder de influência nos respondentes do que as perguntas com alternativas
previamente estabelecidas:
- Exigem menor tempo de elaboração;
- Proporcionam comentários, explicações e esclarecimentos significativos para se interpretar e
analisar as perguntas com respostas fechadas;
- Evita-se o perigo existente no caso das questões fechadas, do pesquisador deixar de relacionar
alguma alternativa significativa no rol de opções.
Desvantagens
- Dão margem à parcialidade do entrevistador na compilação das respostas, já que não há um
padrão claro de respostas possíveis. Assim, é difícil a codificação das respostas e sua conseqüente
compilação;
- Há grande dificuldade para codificarão e possibilidade de interpretação subjetiva de cada
decodificador;
- Quando aplicadas em forma de entrevistas, podem levar potencialmente a grandes vieses dos
entrevistadores;
- Quando feitas através de questionários auto-preenchidos, esbarram com as dificuldades de redação
da maioria das pessoas, e mesmo com a "preguiça" de escrever.
- São menos objetivas, já que o respondente pode divagar e até mesmo fugir do assunto;
- São mais onerosas e mais demoradas para serem analisadas que os outros tipos de questões.
b) Questões de Múltipla Escolha
Nos casos de múltipla escolha, os respondentes optarão por uma das alternativas, ou por
determinado número permitido de opções. Ao elaborar perguntas de respostas múltiplas, o
pesquisador se depara com dois aspectos essenciais: o número de alternativas oferecidas e os vieses
de posição.
Pode-se apontar algumas considerações importantes relacionadas às questões de múltipla
escolha. As alternativas devem ser coletivamente exaustivas e mutuamente exclusivas, ou seja,
devem cobrir todas as respostas possíveis e uma alternativa deve ser totalmente incompatível com
todas as demais. A alternativa "Outros. Quais? ______" é de grande ajuda para garantir a
exclusão. Para que sejam mutuamente exclusivas, cada respondente deverá identificar apenas uma
opção que represente corretamente sua resposta, ou seja, a escolha de uma alternativa deve excluir
todas as demais.
Estatística II
Prof. Laura Maria Saporski Cachuba
50
Quanto aos vieses de posição, estes ocorrem em função da tendência de se escolher, no caso
de palavras, as que aparecem como primeiras opções de resposta e, quando se tratar de números, a
escolha daquele que ocupa a posição central.
No intuito de contornar esses vieses, pode-se alternar a sequência de apresentação das
opções de resposta, durante a coleta de dados, através de diversas formas para o questionário, ou
para os cartões (caso sejam usados para listar alternativas). Apesar de dificultar o processo, esse
procedimento é essencial para controlar esse viés.
Segundo Mattar (1994), são as seguintes as principais vantagens e desvantagens das
questões de múltipla escolha:
Vantagens
- Facilidade de aplicação, processo e análise;
- Facilidade e rapidez no ato de responder;
- Apresentam pouca possibilidade de erros;
- Diferentemente das dicotômicas, trabalham com diversas alternativas.
Desvantagens
- Exigem muito cuidado e tempo de preparação para garantir que todas as opções de respostas sejam
oferecidas;
- Se alguma alternativa importante não foi previamente incluída, fortes vieses podem ocorrer,
mesmo quando esteja sendo oferecida a alternativa "Outros. Quais?";
- O respondente pode ser influenciado pelas alternativas apresentadas.
c) Questões Dicotômicas
São as que apresentam apenas duas opções de respostas, de caráter bipolar, do tipo: sim/não;
concordo/não concordo; gosto/não gosto. Por vezes, uma terceira alternativa é oferecida, indicando
desconhecimento ou falta de opinião sobre o assunto. Normalmente, é assim expressa: ( ) não sei ou
( ) não tenho opinião formada. A inclusão desse tipo de resposta, é, por um lado, desaconselhável,
pois pode servir de fuga para aquelas pessoas que não desejam tomar uma posição. Por outro lado, a
falta dessa opção pode provocar dificuldades para muitas pessoas, que vendo-se forçadas a escolher
entre uma das alternativas bipolares, acabam dando respostas enganadoras.
A resposta dicotômica é adequada para muitas perguntas que se referem
a questões de fato,
bem como a problemas claros e a respeito dos quais existem opiniões bem cristalizadas.
Segundo Mattar (1994), são as seguintes as principais vantagens e desvantagens das
questões dicotômicas:
Vantagens
- Rapidez e facilidade de aplicação, processo e análise;
- Facilidade e rapidez no ato de responder;
- Menor risco de parcialidade do entrevistador;
- Apresentam pouca possibilidade de erros;
- São altamente objetivas.
Desvantagens
- Polarização de respostas e/ou possibilidade de forçar respostas em relação a um leque de opiniões;
- Podem levar a erros de medição, se o tema foi tratado de forma dicotômica, quando na verdade
apresenta várias alternativas, por exemplo, entre a concordância total e discordância total;
- Dependendo de como a pergunta é feita, questões com respostas dicotômicas são fortemente
passíveis de erros sistemáticos.
Estatística II
Prof. Laura Maria Saporski Cachuba
51
- DECISÕES SOBRE A FORMULAÇÃO DAS PERGUNTAS
Na formulação das perguntas deve-se cuidar para que as mesmas tenham o mesmo
significado para o pesquisador e para o respondente, evitando-se assim um erro de medição. Sabe-se
que a formulação tem efeito sobre as respostas.
É conveniente fazer as seguintes recomendações sobre a formulação das perguntas:
- Usar comunicação simples e palavras conhecidas;
- Não utilizar palavras ambíguas.
- Evitar: perguntas que sugiram a resposta; perguntas com conteúdo emocional e/ou sentimento de
aprovação ou reprovação; referências a nomes que impliquem em aceitação ou rejeição ou tenham
componente afetivo; necessidade do respondente fazer cálculos para responder; perguntas de dupla
resposta; alternativas longas;
- Evitar mudanças bruscas de temas, (fazer uma ligação entre os temas);
- Vieses involuntários, motivados por reação visando prestígio por parte do respondente,
retraimento defensivo diante de perguntas personalizadas e a atração exercida pela resposta
positiva.
São condicionantes das respostas:
- Busca de conformidade ao grupo;
- Tendência de imitação social;
- Medo do julgamento do outro;
- Busca de prestígio social;
- Participação nas emoções coletivas;
- Submissão aos estereótipos culturais;
- Medo de mudanças.
Outros aspectos/questões referentes à redação das perguntas:
- A pergunta pode ser mal compreendida? Contém frases ou termos difíceis e/ou obscuros?
- Os termos utilizados serão bem compreendidos pelo público da pesquisa? Termos especializados
são usados apenas quando realmente necessários, devendo-se assegurar que seu sentido torne-se
claro através de figuras ou de outros meios.
- A sentença é curta e simples? Sentenças longas e difíceis tendem as ser mal compreendidas.
- Existe indefinição ou ambigüidade? Qual o outro sentido que a pergunta poderá ter para quem
responde?
- Enfatizar não intencionalmente uma palavra ou frase poderia mudar o sentido da pergunta?
Segundo Selltiz et al (1974) se, mesmo depois de certificado que as perguntas estão
apresentadas da maneira mais clara possível, ainda houver dúvidas quanto à compreensão, costuma-
se incluir perguntas de acompanhamento, do tipo: " O que você quer dizer com isso?". ’Você
poderia exemplificar?" Dessa maneira, torna-se possível verificar como a pessoa entendeu a questão
e o que pretendeu dizer.
- A pergunta exprime adequadamente todas as alternativas, ou mostra apenas um dos lados do
tópico em questão? Ambos devem ser citados.
- O quadro de referência é claro e uniforme para todas as pessoas que respondem?
- A pergunta deixa claro que a pessoa deve respondê-la baseada naquilo que pensa ser a verdade e
não naquilo que desejaria que fosse a verdade?
- A frase é enviesada, ou seja, está emocionalmente carregada ou deformada para determinado tipo
de resposta?
- O que traria melhores resultados? Uma redação mais pessoal ou mais impessoal da pergunta?
- O que seria melhor? Apresentar a pergunta de maneira direta ou indireta? Não há recomendações
concretas quanto ao emprego de perguntas indiretas. Suas possibilidades e limitações devem ser
examinadas caso a caso, de acordo com o objetivo da pesquisa. Entram em questão problemas
Estatística II
Prof. Laura Maria Saporski Cachuba
52
morais e técnicos: saber se a inferências pretendidas podem ser retiradas, sem prejuízo, das provas
indiretas; se tal pergunta indireta irá enviesar a resposta; se as perguntas são altamente invasivas da
intimidade etc. (Selltiz et al, 1974).
- DECISÕES SOBRE A SEQUÊNCIA DAS PERGUNTAS
A ordem na qual as perguntas são apresentadas pode ser crucial para o sucesso da pesquisa.
Não há regras estabelecidas, mas alguns cuidados devem ser tomados. Mattar (1994) sugere:
- Iniciar o questionário com uma pergunta aberta e interessante (para deixar o respondente mais à
vontade e assim ser mais espontâneo e sincero ao responder as perguntas restantes). Iniciar com
perguntas sobre a opinião do respondente pode fazer com que se sinta prestigiado e se torne
disposto a colaborar.
O primeiro contato do respondente com o questionário define sua vontade de respondê-lo ou
até mesmo a decisão de não respondê-lo;
- Usar temas e perguntas gerais no inicio do questionário, deixando as perguntas específicas para
depois (vai se fechando o foco gradualmente);
- As perguntas mais pessoais, sensíveis ou embaraçosas devem ser feitas somente no final do
questionário e convém que sejam alternadas com questões simples;
- Deve-se adotar uma ordem lógica de perguntas utilizando um fluxograma ou árvore de decisão
para posicionar as perguntas;
- Dar uma sequência lógica ao questionário. Mudanças de tópicos repentinas e "ir e voltar" ao
assunto devem ser evitados;
- Informações que classificam social, econômica ou demograficamente o respondente são pedidas
no final, a não ser que alguma delas sirva como "filtro";
- Perguntas de caráter mais invasivo, ou que tratem temas delicados, não devem ser colocados no
início do questionário e convém que sejam alternadas com questões simples;
Outra preocupação com o questionário é a de explicar as condições adequadas para o seu
uso e aplicação, tanto no caso de formulários auto-preenchidos quanto nos que utilizam
entrevistadores. Devem ser fornecidas aos entrevistadores instruções claras de como proceder no
campo, como abordar os respondentes, como preencher os instrumentos, etc. A seguir, são
apresentados alguns pontos sobre os quais os entrevistadores devem ser orientados.
- Proporcionar ao respondente uma situação de liberdade, em que a pessoa seja estimulada a
apresentar francamente suas opiniões;
- Garantir, se for o caso, o anonimato do respondente;
- O entrevistador deve ser educado, amistoso e imparcial;
- Nunca deverá mostrar surpresa ou desaprovação diante das opiniões de quem responde;
- As perguntas precisam ser apresentadas da maneira exata, com as mesmas palavras que foram
propostas;
- Qualquer explicação improvisada da pergunta é proibida. Em casos em que se imagine, de
antemão, que surgirão dúvidas, esclarecimentos devem ser previamente elaborados;
- As perguntas devem seguir a ordem exata em que aparecem no questionário;
- O entrevistador deve apresentar todas as perguntas, e jamais responder alguma por dedução
própria;
- Espera-se que o entrevistador registre fiel e integralmente a resposta;
- É necessário que os entrevistadores sejam orientados em relação ao processo de amostragem. Por
exemplo, como proceder em casos de recusas ou ausências.
Estatística II
Prof. Laura Maria Saporski Cachuba
53
- DECISÕES SOBRE A APRESENTAÇÃO E O VISUAL (LAYOUT) DO QUESTIONÁRIO
(CARACTERÍSTICAS FÍSICAS)
São pontos
a serem definidos nesta fase: número de páginas; qualidade do papel e da
impressão; tipos e tamanho de letras; posicionamento e tamanho dos espaços entre questões; cores
da tinta e do papel para as respostas; espaço para resposta de cada questão; separação de campos
para facilidade de digitação (praticamente obrigatória para se compilar as respostas e processá-las
em tempo reduzido); impressão em frente e verso ou só na frente.
Tais itens são relevantes para se ganhar a colaboração dos respondentes. Quanto melhor e mais
adequada for a apresentação, maior a probabilidade de se elevar o índice de respostas.
- DECISÕES QUANTO AO PRÉ-TESTE
É importante a realização de um pré-teste porque é provável que não se consiga prever todos
os problemas e/ou dúvidas que podem surgir durante a aplicação do questionário. Sem o pré-teste,
pode haver grande perda de tempo, dinheiro e credibilidade caso se constate algum problema grave
com o questionário já na fase de aplicação. Nesse caso o questionário terá que ser refeito e estarão
perdidas todas as informações já colhidas.
Segundo Mattar (1994), os pré-testes podem ser realizados inclusive nos primeiros estágios,
quando o instrumento ainda está em desenvolvimento, quando o próprio pesquisador pode realizá-
lo, através de entrevista pessoal. As instruções para a entrevista devem estar na formulação final, e
serem obedecidas rigorosamente, para se ver se são ou não adequadas. Os resultados do pré-teste
são então tabulados para que se conheçam as limitações do instrumento.
Goode e Hatt (1972) destacam alguns sinais que indicam algo errado com o instrumento de
coleta de dados e que deverão ser objeto de alterações por parte do pesquisador após o pré-teste:
a) Ausência de ordem nas respostas. Frequentemente, a causa é uma questão (ou questões) que não
se refere à mesma experiência em cada respondente. Isto pode ser provocado pelo uso de palavras
difíceis, ou por questões que buscam obter muitos dados de uma só vez, etc. Respostas totalmente
desordenadas são um sinal de alerta;
b) Respostas "tudo-nada". Questões a que todos respondem da mesma maneira, podem revelar uma
resposta estereotipada ou clichê;
c) Grande proporção de respostas do tipo "não sei" ou "não compreendo". Estes casos indicam
questões formuladas inadequadamente, ou um mau plano de amostragem.
d) Grande número de qualificações ou comentários adicionais. É o que ocorre quando o teste piloto
relaciona uma série de comentários ou fontes adicionais às alternativas de resposta oferecidas.
e) Variação substancial de respostas quando se muda a ordem das questões
f) Alta proporção de respostas recusadas. Aconselha-se rever com cuidado cada questão cujas
recusas ultrapassem 5% (cinco por cento).
Com relação ao pré-teste, recomenda-se:
- Seus respondentes devem pertencer à população alvo da pesquisa e ter tempo suficiente para
responder todas as questões;
- Os entrevistadores devem ser experientes;
Com relação aos elementos funcionais do questionário, deve-se verificar no pré-teste:
- A clareza e a precisão dos termos utilizados
- A necessidade eventual de desmembramento das questões
- A forma das perguntas
- A ordem das perguntas
- A introdução
- É importante também se fazer uma reflexão sobre o valor de cada pergunta.
Caso o pré-teste revele necessidade de muitas alterações, o questionário revisado deverá ser
então novamente testado. O processo será repetido tantas vezes quantas forem necessárias, até que o
instrumento se encontre maduro, pronto para ser aplicado.
Estatística II
Prof. Laura Maria Saporski Cachuba
54
- MEIOS DE APLICAÇÃO DE UM QUESTIONÁRIO
Os principais meios para aplicação dos questionários são: correspondência, telefone, e-mail
(Internet), entrevista pessoal e auto-aplicável.
Correspondência
Vantagens:
- Ampla cobertura geográfica e de perfil de público-alvo;
- Permite maior número de questões;
- Baixo custo por questionário.
Desvantagens:
- Retorno muito baixo, geralmente entre 1% e 2% e não passando de 10%;
- Lentidão para retornar.
Telefone
Vantagens:
- Rapidez na obtenção de informações;
- Flexibilidade por parte do entrevistador;
- Custos baixos quando aplicado numa região restrita.
Desvantagens:
- Questionários devem ser sucintos;
- Restrito a pessoas que possuam telefone;
- Horários dos telefonemas.
E-mail
Vantagens:
- Cobertura mundial;
- Permite maior número de questões;
- Baixo custo por questionário;
- Oferece tempo para o entrevistado.
Desvantagem:
- Retorno baixo;
- Pode ser interpretado como e-mail indesejado (spam);
- Restrito a pessoas que possuam acesso à Internet;
- Não há garantia sobre o perfil do respondente.
Entrevistas pessoais
Vantagens:
- Versatilidade;
- Registro de observações;
- Interatividade.
Desvantagens:
- Custo elevado;
- O processo pode demorar.
Auto-aplicáveis
Vantagens:
- Fácil operacionalização;
- Baixo custo.
Desvantagens:
- Retorno relativamente baixo;
Estatística II
Prof. Laura Maria Saporski Cachuba
55
- Respostas nem sempre representativas;
- Conta com boa vontade do entrevistado ou estímulos (sorteios, brindes, etc.).
Estatística II
Prof. Laura Maria Saporski Cachuba
56
Anexo I.
Quadro Comparativo entre Técnicas de Coleta de Dados
Técnica de
Coleta
Pontos Fortes Pontos Fracos
Questionário - Garante o anonimato
- Questões objetivas de fácil pontuação
- Questões padronizadas garantem uniformidade
- Deixa em aberto o tempo para as pessoas pensarem sobre as
respostas
- Facilidade de conversão dos dados para arquivos de
computador
- Custo razoável
- Baixa taxa de respostas para questionários enviados pelo
correio
- Inviabilidade de comprovar respostas ou esclarecê-las
- Difícil pontuar questões abertas
- Dá margem a respostas influenciadas pelo “desejo de
nivelamento social”(*)
- Restrito a pessoas aptas à leitura
- Pode ter itens polarizados/ambíguos
Entrevista - Flexibilidade na aplicação
- Facilidade de adaptação de protocolo
- Viabiliza a comprovação e esclareci mento de respostas
- Taxa de resposta elevada
- Pode ser aplicada a pessoas não aptas à leitura
- Custo elevado
- Consome tempo na aplicação
- Sujeita à polarização do entrevistador
- Não garante o anonimato
- Sensível aos efeitos no entrevistado
- Características do entrevistador e do entrevistado
- Requer treinamento especializado
- Questões que direcionam a resposta
Observação
Direta
- Capaz de captar o comportamento natural das pessoas
- Minimiza influência do “desejo de nivelamento social”
- Nível de intromissão relativamente baixo
- Confiável para observações com baixo nível de inferência
- Polarizada pelo observador
- Requer treinamento especializado
- Efeitos do observador nas pessoas
- Pouco confiável para observações com inferências complexas
- Não garante anonimato
- Observações de interpretação difícil
- Não comprova/esclarece o observado
- Número restrito de variáveis
Registros
Institucionais
(Análise
Documental)
- Baixo custo
- Tempo de obtenção é reduzido
- Informação é estável
- Dados incompletos ou desatualizados
- Excessivamente agregados
- Mudanças de padrões no tempo
- Uso restrito (confidencialidade)
Estatística II
Prof. Laura Maria Saporski Cachuba
57
Técnica de
Coleta
Pontos Fortes Pontos Fracos
- Dados difíceis de recuperar
Grupo Focal - Baixo custo e resposta rápida
- Flexibilidade na aplicação
- Eficientes para obter
informações qualitativas em curto prazo
- Eficiente para esclarecer questões complexas no
desenvolvimento de projetos
- Adequado para medir o grau de satisfação das pessoas
envolvidas
- Exige facilitador/moderador com experiência para conduzir o
grupo
- Não garante total anonimato
- Depende da seleção criteriosa dos participantes
- Informações obtidas não podem ser generalizadas
(*) “desejo de nivelamento social” refere-se à tendência de alguém responder a um questionário não exatamente da forma em que a realidade se
apresenta para ele, mas influenciado por um desejo de se apresentar externamente com outro nível social, mais alto (ou mais baixo), conforme as
conveniências de sua imagem perante a sociedade. Por exemplo, em um questionário de uma administradora de cartões de crédito, a pessoa pode
se ver impulsionada a declarar uma renda pessoal acima daquela que realmente possui.
Fonte: McMillan, J. H. and Schumacher, S. Research in Education. Addison Wesley Educational Publishers Inc., New York, 1997, pp. 274-275.
Estatística II
Prof. Laura Maria Saporski Cachuba
58
Como Fazer Uma Tabulação e Análise de Dados de Uma Pesquisa
A tabulação dos dados é um dos itens que compõem a execução de uma pesquisa. Deve ser
entendido como o processo de apuração e de apresentação dos dados. A apresentação é realizada de
duas formas: a) apresentação tabular; b) apresentação gráfica. O uso de planilhas eletrônicas (como
o Excel, por exemplo) na falta de um software estatístico, ajuda bastante a realização do trabalho,
principalmente se os dados já estiverem armazenados neste formato.
A análise dos dados é o cálculo de medidas de posição (tendência central, quartis, percentis,
etc...), de dispersão, de simetria e de curtose, para a apresentação dos dados e aplicação de testes
estatísticos planejados.
A interpretação dos dados é um item bastante complexo, pois requer do pesquisador uma
postura crítica de como foi conduzida sua pesquisa (falhas e limitações) para que não superestime
os resultados e o domínio do tema no qual foi realizada a pesquisa para saber os pontos fracos e
fortes dos seus resultados. Tudo isso, aliado ao resultado da análise estatística das variáveis é que
vai determinar a interpretação (conclusão) dos resultados.
O relatório final (relatório de pesquisa) é um documento que apresenta a idéia central
(pergunta de pesquisa e hipótese), a situação atual do conhecimento no assunto, e o método de
como chegar à resposta da pergunta inicial, os resultados, a discussão (interpretação dos resultados)
e a conclusão (resposta à pergunta de pesquisa).
São três as razões para elaborar o relatório final: a primeira, de documentar a pesquisa
realizada; a segunda, permitir que outro pesquisador possa avaliar a qualidade da pesquisa
(validade, importância e aplicabilidade); a terceira, encaminhar o relatório de pesquisa para
comunicar o andamento da mesma.
O relatório final deve ser claro, preciso e objetivo na forma de redação.
Vamos assumir um modelo simples de pesquisa, a partir de um questionário para entender
melhor como funciona uma tabulação.
Imaginem o questionário apresentado a seguir aplicado a um grupo de pessoas que
freqüentavam uma feira de livros: (sem nos preocuparmos muito com a finalidade da pesquisa,
somente para entender a tabulação com finalidade puramente didática).
Para facilitar, vamos considerar que a pesquisa foi realizada com 30 pessoas.
Estatística II
Prof. Laura Maria Saporski Cachuba
59
Pesquisa “Feira do Livro 2008”
Aplicador: ______________________________________________ data: ___/___/___
Nº do questionário: _______
1. Qual a sua idade?
a) ( ) abaixo de 25 anos
b) ( ) de 25 a 35 anos
c) ( ) de 36 a 45 anos
d) ( ) de 46 a 55 anos
e) ( ) acima de 56 anos
2. Você exerce trabalho remunerado?
a) ( ) Sim
b) ( ) Não
3. Qual a sua renda familiar mensal?
a) ( ) abaixo de R$ 480,00
b) ( ) de R$ 480,00 até R$ 1.200,00
c) ( ) acima de R$ 1.200,00 e até R$
2.000,00
d) ( ) acima de R$ 2.000,00 e até R$
2.500,00
e) ( ) acima de R$ 2.500,00 e até R$
3.500,00
f) ( ) acima de R$ 3.500,00
4. Qual o seu grau de escolaridade?
a) ( ) ensino fundamental incompleto
b) ( ) ensino fundamental completo
c) ( ) ensino médio incompleto
d) ( ) ensino médio completo
e) ( ) ensino superior incompleto
f) ( ) ensino superior completo
g) ( ) especialização/mestrado/doutorado
5. Você está estudando atualmente?
a) ( ) Sim
b) ( ) Não
6. Você tem fluência em alguma língua?
a) ( ) Sim. Qual?___________________
b) ( ) Não
7. Como tomou conhecimento da feira?
a) ( ) Recomendado por um amigo
b) ( ) Mala direta/Carta recebida
c) ( ) Folder distribuído na rua
d) ( ) Folder distribuído em escolas
e) ( ) Televisão
f) ( ) Jornal
g) ( ) Cartaz /outdoor
h) ( ) Rádio
i) ( ) Internet
j) ( ) Outros. Qual?________________
8. Você pratica alguma atividade
esportiva?
a) ( ) Sim. Qual?___________________
b) ( ) Não
9. Responda sobre a seguinte afirmação:
As feiras de livros são importantes
para ajudar a fortalecer o hábito da
leitura.
a) ( ) concordo totalmente
b) ( ) concordo parcialmente
c) ( ) nem concordo nem discordo
d) ( ) discordo parcialmente
e) ( ) discordo totalmente
Estatística II
Prof. Laura Maria Saporski Cachuba
60
Notem que a apresentação visual de um questionário também é importante, mesmo que ele
não seja entregue ao respondente. A cópia do questionário faz parte do relatório de apresentação da
pesquisa como anexo e deve ser “agradável” aos olhos e de preferência concentrado, se possível,
em uma página. Observação importante: o questionário exemplo apresenta vários “problemas”; o
exercício em aula será analisar os dados da pesquisa fictícia e verificar os possíveis erros
encontrados, decorrentes da “pesquisa mal elaborada”.
Vamos imaginar possíveis respostas para esta pesquisa, conforme planilha em anexo no
final. É possível usar palavras chaves para determinar as perguntas para facilitar. A inserção de
marcadores como a, b, c, ..., ajudam na hora de digitar se estivermos usando softwares apropriados,
ou não quisermos escrever as palavras por extenso.
Por exemplo: em escolaridade, ao invés de escrevermos “superior incompleto” para a
resposta, podemos marcar na planilha como e ; procedendo a contagem de “as” , “b´s”, “c´s”, e
assim por diante, teremos a resposta de quantas respostas deste tipo tivemos na pesquisa. A
digitação fica mais rápida, eficiente e podemos gastar mais tempo com a análise, que é o que
realmente importa.
Então, fazendo a tabulação com base nos dados apresentados no Anexo I:
- A tabulação precisa ser feita pra cada pergunta (que para nós, em estatística, se “transforma” em
uma variável, com respostas possíveis de serem determinadas, na maioria dos casos.
- Deverá ser feita uma tabela e um gráfico para cada pergunta formulada no questionário. Lembre-
se: tabelas e gráficos não tem valor se não forem pelo menos comentados. Analise se o resultado
surpreendeu, apresentando resultado diverso do esperado, ou, ao contrário, ocorreu exatamente
como vocês achavam que ocorreria. Comente mesmo assim! É importante que quem avalie sua
pesquisa saiba o que o levou a pensar desta ou daquela maneira!
- Após este trabalho, avalie os objetivos propostos no seu trabalho e veja se eles se verificaram e
foram bem respondidos com a sua pesquisa.
- Elabore uma conclusão geral, explanando sobre o resultado encontrado
na pesquisa, positivo ou
não.
- “Tabular” nada mais é do que contar as respostas apresentadas em cada questão. Começando com
a pergunta 1 (qual a sua idade?), note que para facilitar a análise o questionário “fechou” as idades
em categorias. Isto evita o trabalho de coletar e depois montar a tabela de frequência; por outro
lado, não permite reversão em outras categorias. Portanto, para usar desta forma é preciso ter
certeza de que as categorias estão adequadas ao objetivo da pesquisa.
- Na “digitação” optamos por digitar a letra da opção escolhida, logo temos na contagem:
- Usando a opção de Tabela Dinâmica do Excel proceda da forma a seguir:
Estatística II
Prof. Laura Maria Saporski Cachuba
61
- Com a planilha já digitada no Excel, siga os passos abaixo.
Estatística II
Prof. Laura Maria Saporski Cachuba
62
- entre na Opção Dados – Relatório de tabela e gráfico dinâmicos.
Estatística II
Prof. Laura Maria Saporski Cachuba
63
- no quadro a seguir deixe marcada a opção “onde estão os dados que você deseja analisar?” –
Banco de dados ou lista do Microsoft Excel. E na opção “Que tipo de relatório você deseja criar?”
selecione “Tabela Dinâmica” e dê avançar.
Estatística II
Prof. Laura Maria Saporski Cachuba
64
- na Opção “Onde estão os dado que você deseja usar?” selecione a planilha toda clicando no botão
ao lado do intervalo ou digite o intervalo da planilha.
Estatística II
Prof. Laura Maria Saporski Cachuba
65
- Dê avançar e escolha nova planilha para não poluir e dê concluir.
- Vai surgir a seguinte planilha:
Estatística II
Prof. Laura Maria Saporski Cachuba
66
- Arraste o primeiro item (idade) para a primeira coluna; vai surgir um total de 30; em seguida
arraste idade novamente para cima da palavra total e verifique a contagem feita.
Estatística II
Prof. Laura Maria Saporski Cachuba
67
- Temos então:
17 respostas “a” – ou seja, 17 pessoas com idade abaixo de 25 anos;
7 respostas “b” – ou seja, 7 pessoas com idade 25 a 35 anos;
3 respostas “c” – ou seja, 3 pessoas com idade 36 a 45 anos;
2 respostas “d” – ou seja, 2 pessoas com idade 46 a 55 anos;
1 resposta “e” – ou seja, 1 pessoa com idade acima de 56 anos;
Para que a tabela fique mais “bonitinha” ou apresentável, substitua os ‘a´s” e “b`s” pelas respostas
apresentadas no questionário. Não esqueçam: tabelas estatísticas são abertas em ambos os lados.
Vocês podem usar outro tipo de formatação, mas não podem esquecer isto! Ou seja:
Idade Frequência Percentual
abaixo de 25 anos 17 57%
de 25 a 35 anos 7 23%
de 36 a 45 anos 3 10%
de 46 a 55 anos 2 7%
acima de 56 anos 1 3%
Total 30 100%
Estatística II
Prof. Laura Maria Saporski Cachuba
68
17
7
3
2
1
0
2
4
6
8
10
12
14
16
18
abaixo de 25
anos
de 25 a 35
anos
de 36 a 45
anos
de 46 a 55
anos
acima de 56
anos
Idade dos Frequentadores da Feira
Os visitantes da feira eram, na sua maioria (57%) jovens com idade abaixo de 25 anos. Podemos
dizer que o público da feira era basicamente pessoas com idade até 35 anos (80%). (olha a nossa
frequência acumulada funcionando como aliada!)
- Para trabalhar com as outras variáveis, o procedimento é o mesmo. Nas perguntas abertas a análise
será feita manualmente, contanto o nº. de respostas iguais, ou relacionando todas as respostas
fornecidas e apresentando, se possível em tabela. Se as respostas forem muito diferentes,
relacionamos as respostas e comentamos de modo geral o que obtivemos.
- Experimentem copiar a planilha e repetir a análise, ou realizar as outras. Na dúvida sobre a
utilização do Excel, caso o nº. de entrevistas tenha sido pequeno, a tabulação pode ser feita
manualmente. A idéia é a mesma.
E não esqueçam: os comentários sobre cada gráfico e/ou tabela devem dizer mais do que o
óbvio! A frase em itálico sobre o gráfico apresentado, seria totalmente inútil se os valores, ao invés
de serem valores absolutos, estivessem representados em percentual (o que de modo geral é sempre
preferível!). O ideal seria tentar especular o porquê do grande comparecimento de jovens abaixo
dos 35 anos e tão poucos acima desta idade. Os mais “velhos” não lêem? Não tem interesse em
freqüentar este tipo de feira? Por quê? O ambiente não é agradável e atrativo para todas as idades? E
assim por diante...
Estatística II
Prof. Laura Maria Saporski Cachuba
69
Anexo I. Planilha de Dados.
Quest Idade Trab.
Remunerado
Renda Escolaridade Estudando Fluência Qual língua? Soube/feira Outra Ativ.
Esportiva
Qual
esporte?
Hábito
1 a b a c a b a a canoagem a
2 c a b d a b i b b
3 b a b e b a Espanhol e b d
4 d b a c a b d b b
5 b a a e a b d b a
6 a a d a a b c b a
7 a a a e b b c b a
8 a a b c a b c a judô d
9 a b c d a b b b b
10 a b b b a b i b a
11 b a b e a a Inglês e Espanhol d b d
12 b a a d a b c b c
13 c a b c a b e b a
14 a a b d a b f b b
15 a a b b a b g a ciclismo d
16 a b b b a b g b b
17 e b c d a b e b c
18 b a a f a b i b a
19 d a a g b b h a natação a
20 a a d c a b a b c
21 a a b b a b c a natação b
22 b a b f b a Inglês e francês c b b
23 a a a b a b d b b
24 c a b g a b e b d
25 b a c b a b f b a
26 a b a c a a Alemão a a natação d
27 a a b d a b c b c
28 a a b c a b i b b
29 a a f b a b a a natação a
30 a a a d a a Francês c b a
Estatística II
Prof. Laura Maria Saporski Cachuba
70
II – NOÇÕES DE PROBABILIDADE – CONCEITOS BÁSICOS
Todas as vezes que estudamos fenômenos de observação, é preciso distinguir o próprio
fenômeno e o modelo matemático que melhor o explique (determinístico ou probabilístico).
Os fenômenos estudados pela Estatística são fenômenos cujo resultado, mesmo em
condições normais de experimentação, variam de uma observação para outra dificultando dessa
maneira a precisão de um resultado futuro.
O conhecimento dos aspectos fundamentais do cálculo da probabilidade é uma necessidade
essencial para o estudo da Estatística Indutiva ou Inferencial.
Para a explicação desses fenômenos – fenômenos aleatórios – adotamos um modelo
matemático probabilístico, através do cálculo de probabilidade.
1. Experimento Aleatório: um experimento é dito aleatório quando satisfaz as seguintes
condições:
a) Pode ser repetido indefinidamente;
b) Somos capazes de descrever todos os possíveis resultados de um experimento, embora não
sejamos capazes de predizer, com certeza, qual ocorrerá;
c) Obedece à regularidade estatística, ou seja, quando o experimento for repetido um grande
número de vezes, surgirá uma configuração definida. Ex: lançar um dado e observar a face
de cima; temperatura máxima da cidade de Curitiba no mês de março; vazão mínima de um
rio, em determinada seção, durante o mês de janeiro.
2. Espaço Amostral: é o conjunto Ω (ômega) de todos os resultados possíveis de um
experimento aleatório. Cada resultado do experimento aleatório é denominado ponto
amostral. Ω pode ser finito ou infinito. EX: lançamento de um dado: Ω= {1, 2, 3, 4, 5, 6) –
conjunto finito; número de automóveis que cruzam uma rodovia no mês de julho: Ω = {1, 2,
3, ..., } – conjunto infinito.
3. Evento: é qualquer subconjunto do espaço amostral Ω. Deve-se considerar como eventos de
qualquer espaço amostral o evento impossível. Ø (conjunto vazio) e o evento certo (o
próprio espaço amostral Ω). Os eventos podem ser simples – quando possuem um único
ponto
amostral, ou compostos – quando possuem mais de um ponto amostral.
3.1 Eventos mutuamente exclusivos: dois eventos A e B são denominados mutuamente
exclusivos se eles não puderem ocorrer simultaneamente, isto é,
BA se
.
4. Definição Axiomática de Probabilidade (Kolmogorov): seja o espaço amostral Ω
associado a um dado experimento aleatório ε. A cada evento
A
associamos um número
real representado por P(A), denominado de probabilidade de A, satisfazendo as seguintes
propriedades:
1ª -
1P(A)0
2ª - P(Ω) = 1, ou seja, a probabilidade do evento certo é igual a 1;
3ª - Se A e B forem eventos mutuamente exclusivos, a probabilidade de ocorrência de um deles é
igual à soma das probabilidades de cada um, ou seja
P(B)P(A)B)P(A
. A 3ª propriedade
pode ser generalizada para um sequência finita ou infinita de eventos mutuamente exclusivo,
pertencentes a Ω, ou seja
1i
ii EPE
1i
P
.
Estatística II
Prof. Laura Maria Saporski Cachuba
71
Definição Clássica de Probabilidade: Uma regra prática para a atribuição numérica de
probabilidade ao evento E, é dada pelo quociente entre o número de resultados de Ω favoráveis ao
evento E, e o número de resultados possíveis de Ω, desde que todos sejam equiprováveis. Portanto,
a definição clássica de probabilidade é dada por:
E. Evento do ocorrência de adeprobabilid a é EP onde
possíveis resultados
favoráveis resultados
EP
5. Propriedades de Probabilidade:
5.1 Se A é um evento aleatório, então a probabilidade de A não ocorrer é dada por:
P(A)-1)AP(1)AP(P(A)
:Então 1, )P( 2, axioma Pelo
)P(APA
vazioconjunto A
P(A) -1 )AP(
AA
A
5.2 Se A e B não são eventos mutuamente exclusivos, então:
B)P(A-P(B)P(A) B)P(A
A
Ω
Estatística II
Prof. Laura Maria Saporski Cachuba
72
5.3 Probabilidade Condicional e Independência de Eventos: probabilidade de ocorrência
simultânea.
P(B)
B)P(A
P(A/B)
lê-se probabilidade de A dado B, ou seja a probabilidade da ocorrência do
evento A sabendo que o evento B já ocorreu. Se A e B são independentes, então
P(B) P(B/A) e P(A)P(A/B)
- independência estatística.
5.4 Teorema da Soma ou das Probabilidades Totais: A probabilidade de ocorre pelo menos
um entre dois eventos E1 e E2 ocorrerem simultaneamente, ou seja,
)EP(E-)P(E)P(E)EP(E 212121
No caso de 3 eventos: E1, E2 e E3, tem-se que:
)EEP(E)EP(E-)EP(E-)EP(E-)P(E)P(E)P(E)EEP(E 321323121321321
5.5 Teorema de Bayes: Se E1, E2, ..., En são n eventos dois a dois mutuamente exclusivos e
exaurem o conjunto Ω dos eventos elementares, então se
n)1,2,...,(i)P(E1
, tem-se:
))P(B/EP(E))P(B/EP(E))P(B/EP(E
))P(B/EP(E
/B)P(E
nn2211
ii
...1
onde B é um evento que só
pode ocorrer como efeito de uma das causas mutuamente exclusivas Ei. O teorema de Bayes
fornece a probabilidade de que o evento Ei (evento específico ou evento de interesse) tenha
ocorrido na hipótese de que o evento (ou causa) B tenha sido observado.
A
B
Ω
Estatística II
Prof. Laura Maria Saporski Cachuba
73
Exercício 1. Calcule qual é a sua chance de ganhar na mega-sena com um único cartão em jogo
simples (6 dezenas).
860.063.50
720
200.979.045.36
!54!6
!54.55.56.57.58.59.60
!660!6
!60
C
!xn!x
!n
C 606
n
x
70000000199,0
860.063.50
1
P megasenana ganhar
Exercício 2. Um lote é formado por 10 artigos perfeitos, 4 com pequenos defeitos e 2 com defeitos
graves. Calcule a probabilidade de que:
a) Selecionando dois artigos, ambos sejam perfeitos;
b) Selecionando dois artigos, pelo menos um seja perfeito;
c) Selecionando dois artigos, nenhum deles seja perfeito;
d) Selecionando dois artigos, ambos tenham defeitos graves;
e) Selecionando um artigo, ele não tenha defeito;
f) Selecionando um artigo, ele seja perfeito ou tenha defeitos graves.
16
2
DefGP
16
4
PDefP
16
10
PerfP
375,0
240
90
15
9
16
10
Perf/PerfP/PerfPPerfPerfP)a 12121
875,0125,01
240
30
1
15
5
.
16
6
1NPerfNPerfP1
ou
875,0
240
210
240
60
240
60
240
90
15
10
16
6
15
6
16
10
15
9
16
10
PerfNPerfPNPerfPerfPPerfPerfP)b
21
212121
125,0
240
30
15
5
.
16
6
NPerfNPerfP)c 21
0083,0
240
2
15
1
16
2
DefG/DefGP/DefGPDefGDefGP)d 12121
625,0
16
10
PerfP)e
75,0
16
12
0
16
2
16
10
DefGPerfPDefGPPerfPDefGPerfP)f
Exercício 3. Um certo tipo de motor elétrico falha somente quando ocorre uma das seguintes
situações: A = emperramento dos mancais; B = queima dos enrolamentos; C = desgaste das
escovas. Suponha que o emperramento seja 2 vezes mais provável de acontecer do que a queima,
esta, por sua vez, sendo 4 vezes mais provável do que o desgaste. Se ocorre uma falha, qual será a
probabilidade de que seja devido a cada uma destas circunstâncias?
CPescovas das Desgaste
BPosenrolament deQueima
mancais de toEmperramen
CP2
CP8CP4.2BP2AP
CBAPCBPCAPBAPCPBPAPCBAP
CBAPCBPCAPBAPCPBPAPCBAP
Estatística II
Prof. Laura Maria Saporski Cachuba
74
Exercício 4. O seguinte grupo está numa sala: 5 homens com mais de 21 anos, 4 homens com
menos de 21 anos, 6 mulheres com mais de 21 anos, 3 mulheres com menos de 21 anos. Uma
pessoa é escolhida ao acaso. Calcule:
a) A probabilidade de ser pessoa com menos de 21 anos ou mulher;
b) A probabilidade de ser pessoa com mais de 21 anos e homem;
c) A probabilidade de ser mulher.
Exercício 5. A probabilidade de que um homem esteja vivo daqui a 30 anos é de 2/5; a de sua
mulher é de 2/3. Determinar a probabilidade de que daqui a 30 anos:
a) Ambos estejam vivos;
b) Nenhum esteja vivo;
c) Pelo menos um esteja vivo
d) Somente o homem esteja vivo;
e) A mulher esteja morta;
Exercício 6. A probabilidade do sujeito A acertar uma lata a determinada distância é ¼ e a do
sujeito B acertar da mesma forma é 2/5. Se ambos atiram simultaneamente, qual a probabilidade da
lata ser atingida?
Exercício 7. Um empresa possui em sua linha de produção 3 máquinas – A, B e C – que produzem,
respectivamente, 25%, 35% e 40% do total fabricado. Durante a produção dos artigos, cada
máquina produz, respectivamente, 5%, 4% e 2% de artigos defeituosos. Escolhe-se um produto ao
acaso e verifica-se que o mesmo é defeituoso. Qual a probabilidade de que tenha sido produzido
pela máquina A? E pela B? E pela C?
Exercício 8. Um pesquisador estudou o comportamento de consumo de bebidas lácteas no Brasil.
Analisou a classe econômica do consumidor e o principal aspecto determinante da escolha da
marca. Os dados obtidos estão tabulados na tabela abaixo:
Classe \ Aspecto Preço Qualidade Soma
Alta 42 56 98
Média 37 21 58
Baixa 13 97 110
Total 92 174 266
Qual a probabilidade de um consumidor escolhido ao caso:
a) Priorizar preço, dado que é de classe alta;
b) Priorizar qualidade, dado que é de classe média;
c) Ser de classe baixa, dado que atribui maior importância ao fator qualidade.
d) Quantas pessoas foram entrevistadas?
Exercício 9. Um casal decide ter 4 filhos e é informado que existe uma chance de 25% de ter um
filho com a “síndrome X”. Esta doença possui a mesma chance de ocorrência, independente de
qualquer fator (idade dos pais, fatores genéticos, tipo de gestação, etc.). Qual a probabilidade de que
o casal em questão:
a) Tenha um filho com a “síndrome X”?
b) Tenha até 2 filhos com a “síndrome X”?
Estatística II
Prof. Laura Maria Saporski Cachuba
75
Distribuições de Probabilidade
Um modelo probabilístico para um v.a X é uma forma específica de distribuição de
probabilidade que reflita o comportamento de X. As propriedades de um modelo probabilístico
devem ser:
Adequação: o modelo deve refletir adequadamente o mecanismo aleatório que ocasiona
variação nas observações;
Simplicidade: utilização, sempre que possível, de hipóteses simplificadoras, de modo
que o modelo se preste à análise estatística, sem sacrifício da adequação;
Parcimônia de parâmetros: um número excessivo de parâmetros prejudicaria a análise
estatística. Entre dois modelos que constituam aproximação adequada de um fenômeno,
devemos preferir aquele que apresente o menos número de parâmetros.
Para isso, dispomos dos modelos clássicos, discretos ou contínuos.
Distribuições Discretas de Probabilidade
1. Distribuição Binomial: uma distribuição binomial satisfaz as seguintes condições:
a) As diversas provas se realizam sob condições idênticas. Ex: as peças de uma
produção são analisadas sob as mesmas condições;
b) Cada prova comporta apenas dois resultados possíveis, mutuamente exclusivos,
designados por sucesso e falha;
c) A probabilidade de sucesso, p, é a mesma em cada prova e permanece constante
durante todo o experimento: por consequência, a probabilidade de falha, q, também é
constante: q=1-p;
d) As provas são independentes umas das outras; o conhecimento do sucesso (ou falha)
de uma delas não modifica a probabilidade de sucesso (ou falha) nas provas
subseqüentes.
Obs: Provas repetidas nas condições (a) e (d) chamam-se provas de Bernoulli.
Seja um experimento que consiste em um número fixo, n, de provas de Bernoulli (provas
que só comportam duas respostas mutuamente exclusivas) e probabilidade de sucesso, p, constante
em cada prova. Então X será v.a. que dá o número x de sucessos em n provas.
xnxx qp
x
n
fppnbinX
;
onde n e p são parâmetros da distribuição e os valores
possíveis de X são inteiros x= 0, 1, 2, ...,n.
qpnpnx
2
Em lugar de expressarmos um v.a. binomial como o número X de sucessos, podemos
expressá-la em termos de proporção de sucessos,
p
, que é a razão do número de sucessos para o
número de tentativas:
n
x
p
, indicada para amostras com reposição.
Estatística II
Prof. Laura Maria Saporski Cachuba
76
Exercício 10. Refaça o exercício 9.
25,0;4binX
421875,0
3
75,025,0
)!14(!1
!4
)1X(P
14
75.0
1
25,0
1
4
)1X(P)a
39492,021094,042188,031641,0)2x1x0x(P)2X(P)b
2. Distribuição de Poisson: distribuição discreta que dá a frequência de ocorrência de certos
tipos de eventos aleatórios, que ocorrem em intervalos de tempo (ou superfície, ou volume,
etc.); pode ser usada como aproximação da distribuição binomial.
Seja X o número de eventos recebidos durante um período qualquer estipulado; então X te função
de probabilidade dada por:
2210 xxxx x
x
e
fPX ,...,,!
Exercício 11. Um aparelho de celular costuma receber 4 ligações a cada hora. Qual a probabilidade
de receber:
a) 3 ligações em 1 hora?
b) Exatamente 4 ligações em 1 hora?
c) Nenhuma ligação em 1 hora?
d) 5 ligações em 15 minutos?
e) 8 ligações em 45 minutos?
f) Em média, quantas ligações receberá por hora? Com que desvio-padrão?
hora/ligações4PX
0,19537
6
6401832,0
!3
3
4
4
e
)3X(P)a
0,1954 )4X(P)b
0,01832)0() XPc
min15/ligação1
60
154
mim15?
min60
)5X(P)d
ligações 4
:parâmetro o Acertando
)5X(P
=0,0031
e)
)8X(P
=0,0081
f)
ligações24ligações4
Estatística II
Prof. Laura Maria Saporski Cachuba
77
3. Distribuição Hipergeométrica: seja X o número de sucessos, N o número total de itens na
população, K o número total de sucessos, n o número de itens na amostra, a fórmula para
determinar as probabilidades hipergeométricas é dada por:
p1q
N
K
pqpn
1N
nN
N
Kn
n
N
xn
KN
x
K
fpx
2
xx
x
e :onde
étrica Hipergeom
A distribuição hipergeométrica é indicada para amostragem sem reposição, ou seja, a
probabilidade de sucesso altera-se à medida que selecionamos novo elemento. Quando a
população for grande e a amostra relativamente pequena, o fato de amostragem ser feita sem
reposição tem pequena influência na probabilidade se sucesso de cada tentativa. Uma “regra”
conveniente para usar a binomial como aproximação da hipergeométrica é
Nn 050,
(quando n for menos de 5% da população).
Exercício 12. Suponha que a cada 200 anotações feitas em 20 fichas cadastrais, você constate 1
erros. Solicitando 3 fichas ao caso, qual a probabilidade de que uma delas contenha erro de
anotação?
K= total de itens de interesse; N = total de itens; n = amostra de itens; x = quantidade de itens
de interesse
2453,0
400.313.1
200.322
1XP
400.313.1
110.1620
!197!3
!197198199200
!178!2
!178179180
!19!1
!1920
!197!3
!200
!178!2
!180
!19!1
!20
3
200
13
20200
1
20
1XP
n
N
xn
KN
x
K
xXP
Distribuições Contínuas de Probabilidade
1. Distribuição Normal: é a mais importante das distribuições contínuas de probabilidade,
sendo aplicada em inúmeros fenômenos e utilizada para o desenvolvimento teórico da
estatística e nos processos de inferência. É também conhecida como distribuição de
probabilidade dos erros de observação, denominando-a “lei normal dos erros”, distribuição
de Gauss, Laplace ou Laplace-Gauss.
Gauss estabeleceu sua equação como distribuição de probabilidade dos erros de observação,
denominando-a “lei normal dos erros”. A distribuição normal tem sua função densidade de
probabilidade dada por:
Estatística II
Prof. Laura Maria Saporski Cachuba
78
2
2
1
2
1
;
x
x efNX
, onde μ e σ são parâmetros da
distribuição (média e desvio-padrão, respectivamente).
20x
As principais características da distribuição normal são:
1) A média da distribuição é μ;
2) O desvio-padrão é σ;
3) A moda ocorre em
x
(ponto de máximo de f(x) e o valor máximo é dado por
2
1
;
4) A curva é simétrica em relação a um eixo vertical passando por
x
, isto é,
xff xx
;
5) A curva tem inflexões nos pontos
x
;
6) A curva normal é assintótica ao eixo horizontal em ambas as direções (quando
0 xfx ,
);
7) A área total sob a curva normal e acima do eixo horizontal é igual a 1 (o eixo
horizontal
é o eixo dos valores da v.a. X normal).
A probabilidade da v.a. X estar entre dois valores a e b é igual à área sob a curva e acima do
segmento horizontal [a,b].
Então, dxe
a
b
bxaP
x
2
2
1
2
1
. Esta integral não pode ser calculada
exatamente, e a probabilidade indicada só pode ser obtida aproximadamente por métodos
numéricos.
Estatística II
Prof. Laura Maria Saporski Cachuba
79
Para que o uso de uma tabela possa ser feito, precisaríamos de tabelas de dupla entrada, já que a
f.d.p. depende de dois parâmetros. Por esse motivo, utilizamos em recurso de transformações de
variável.
Então, quando
10 2 e
, temos uma normal padrão ou reduzida, definida por:
X
z
,
que terá
10;NZ
.
Através desta padronização, utilizaremos uma única tabela com probabilidades associadas
para quaisquer valores dos parâmetros.
Nota-se que:
a) A nova origem é 0;
b) O desvio padrão é a unidade de medida.
A tabela da distribuição normal fornece a distribuição acumulada que indica a probabilidade z
de ser inferior a um determinado valor z. Geralmente usa-se a letra grega Φ (fi) para representar a
função:
zZPZ
.
Estatística II
Prof. Laura Maria Saporski Cachuba
80
Exercício 13. Suponha uma turma de estatística, cuja nota média final da turma foi 7,3 com um
desvio-padrão de 1,7. Calcule a probabilidade de que um aluno desta turma:
a) Tenha tirado nota acima de 8,3;
b) Tenha tirado nota abaixo de 3,0;
c) Tenha tirado nota entre 4,0 e 6,9; isto representa quantos alunos se a turma é composta de 60
estudantes?
d) Tenha tirado nota entre 7,0 e 8,5;
e) Tenha tirado nota entre 8,0 e 9,0.
7,1;3,7NX
a)
27759,059,0ZP
7,1
3,73,8X
P)3,8X(P
b)
00570,053,2ZP
7,1
3,70,3X
P)0,3X(P
alunos 2374,226037898,037898,002618,040516,0
02618,094,1Z
40516,024,0Z
37898,024,0Z94,1P
7,1
3,79,6X
7,1
3,70,4
P)9,6X0,4(P)c
33257,042857,076114,0
76114,071,0Z
42857,018,0Z
33257,071,0Z18,0P
7,1
3,75,8X
7,1
3,70,7
P)5,8X0,7(P)d
18225,065909,084134,0
84134,00,1Z
65909,041,0Z
18225,00,1Z41,0P
7,1
3,70,9X
7,1
3,70,8
P)0,9X0,8(P)e
Teorema Central do Limite
1) Quando a população é normal,
;NX
, a média amostral
X
de amostras de
tamanho n tem distribuição também normal com a média
e desvio padrão
n
.
2) Para uma população não amostral com média
e desvio-padrão
, a distribuição da
média amostral
X
para amostras de tamanho n suficientemente grande é aproximadamente
normal com média
e desvio-padrão
n
, isto é
10;N
n
x
.
Este segundo resultado constitui o Teorema Central do Limite, e se aplica a qualquer v.a., com
qualquer distribuição de probabilidade. Este resultado é muito útil em estimação intervalar.
Estatística II
Prof. Laura Maria Saporski Cachuba
81
A Função Distribuição Acumulada
A função distribuição acumulada é definida por:
xXPF x
, onde X é a v.a. em
estudo.
Uma função distribuição acumulada contínua ou discreta satisfaz os seguintes requisitos:
1) F(x) está sempre entre 0 e 1;
2) Quando c se torna muito grande, F(x) tende para 1;
3) Quando x se torna muito pequeno, (tendendo para
), F(x) tende para 0;
4) F(x) nunca é decrescente.
Se queremos determinar a probabilidade de X ser maior do que determinado valor x, então:
xFxXPxXP 11
.
Se queremos a probabilidade de X estar entre dois valores dados, então:
1221 xx FFxXxP
.
Obs. Não utilize estas práticas para v.a’s discretas. Elas só são válidas para v.a’s contínuas.
Estatística II
Prof. Laura Maria Saporski Cachuba
82
Exercício 14. As vendas de uma lanchonete seguem aproximadamente uma Distribuição Normal,
com média R$ 400,00 e desvio-padrão igual a R$ 100,00. Qual a probabilidade de que em um
determinado dia a lanchonete fature:
a) Entre R$ 450,00 e R$ 650,00;
b) Entre R$ 350,00 e R$ 500,00;
c) Menos de R$ 400,00;
d) Mais de R$ 250,00;
e) Mais de R$ 600,00;
Exercício 15. A validade de um remédio para cefaléia tem em média 750 dias e desvio-padrão de
40 dias. Calcular a probabilidade do princípio ativo deste remédio durar:
a) Entre 600 e 900 dias;
b) Mais que 700 dias;
c) Menos que 650 dias.
Exercício 16. O tempo necessário em uma oficina para o conserto da transmissão de um tipo de
automóvel é feito em média em 50 min, com desvio-padrão de 15 min. Um mecânico planeja
começar o conserto do carro de um cliente 10 min após o carro ter sido deixado na oficina,
comunicando ao cliente que o carro estará pronto num tempo total de uma hora. Qual a
probabilidade de que o mecânico esteja enganado?
Exercício 17. Uma certa impressora possui uma capacidade em imprimir uma quantidade de letras
com média de 1.100 letras por min com desvio-padrão de 75 letras por min. Qual a probabilidade da
impressora conseguir imprimir entre 917 e 1.150 letras por min com o tempo de uso?
Exercício 18. Um teste de aptidão feito por pilotos de aeronaves em treinamento requer que uma
série de operações seja realizada em uma rápida sucessão. Suponha que o tempo necessário para
completar o teste seja feito com uma média de 80 min com desvio-padrão de 15 min. Para passar no
teste, o candidato deve completá-lo com menos de 60 min.
a) Qual a probabilidade de ser aprovado neste teste? Se 65 candidatos fazem o teste, quantos se
espera que passem?
b) Se os 5% melhores candidatos serão alocados para aeronaves maiores, quão rápido deve ser
o candidato para que obtenha esta posição?
c) Os 10% piores candidatos deverão refazer o treinamento antes de tornar a fazer o teste. Qual
o tempo que levaram para realizar o teste estes candidatos que terão que refazer o
treinamento? Se 65 realizaram o teste, quantos terão que retornar ao treinamento?
Exercício 19. A distribuição dos pesos de coelhos criados numa granja pode muito bem ser
representada por uma distribuição normal com média de 5 Kg e desvio-padrão de 0,8 Kg. Um
abatedouro comprará 5.000 coelhos e pretende classificá-los de acordo com o peso do seguinte
modo: 20% dos leves como pequenos; os 55% seguintes como médios; os 15% seguintes como
grandes e os 10% mais pesados como extras. Quais os limites de peso para cada classificação?
Estatística II
Prof. Laura Maria Saporski Cachuba
83
Aproximações das Distribuições
1. A distribuição de Poisson como aproximação da distribuição Binomial.
A distribuição de Poisson tem grande número de aplicações porque pode ser vista como uma
aproximação da distribuição binomial com parâmetros
pn e
, quando
n
é grande e
p
é pequeno,
de modo que
np
seja de tamanho moderado.
Ex. Considere um experimento binomial com
200n
,
020,p
, em que se pede a probabilidade
de, no máximo, cinco sucessos.
Pela solução, usando a binomial, teremos o seguinte cálculo:
xx
x x
xp
5
5
0
980020
200
5 ,,
, para x = 0,1,2,3,4,e 5.
Tal probabilidade ultrapassa muito o âmbito das tábuas binomiais usuais, em
vista do valor elevado
de
200n
. Apelando para a distribuição de Poisson:
785205
4020200
,
,
Xp
nppn
2. A distribuição Normal como aproximação da distribuição Binomial.
Quando n é grande e p não está muito próximo nem de 0, a distribuição normal constitui uma boa
aproximação da binomial, o que permite tratar uma v.a. normal. E, como na binomial, a média é np
e o desvio-padrão é
qpn
, n sendo o número de provas, p a probabilidade de sucesso e
pq 1
, padronizamos X da seguinte maneira:
npq
npb
Z
npq
npa
PbXaP
npq
npX
Z
Ex. Considere v.a. X com n = 15 e p = 0,4 e calculemos
107 Xp
. Pelo cálculo da binomial
esta probabilidade dá 0,38084. A aproximação normal dá resultado bastante diferente do resultado
exato (0,28), não só porque n é pequeno, mas, principalmente, porque é necessário introduzir uma
correção quando se pretende aproximar uma discreta por uma distribuição contínua. Tal correção é
chamada correção de continuidade, que consiste em subtrair 0,5 do valor inferior e somar 0,5 ao
valor superior. Então:
3906026099110107372260
91
6510
91
656
107 ,,,,,,,,, XPZPZPXP
O que representa uma excelente aproximação do valor exato.
Estatística II
Prof. Laura Maria Saporski Cachuba
84
III - AMOSTRAGEM
Os processos de amostragem seriam inúteis se todas as populações estudadas fossem
perfeitamente homogêneas. Os diagnósticos de laboratório sobre nosso estado de saúde são feitos
com apenas algumas gotas de sangue; este processo fundamenta-se na presunção de que o sangue
em circulação está sempre bem misturado e que uma gota conta a mesma história que qualquer
outra.
Entretanto, quando o material está longe de ser homogêneo, como acontece frequentemente,
o processo pelo qual se obtém a amostra se torna crítico, e o estudo das técnicas que assegurem
amostras dignas de confiança é importante.
- Vantagens do Processo de Amostragem:
1) Custo Reduzido: como os dados são obtidos de apenas uma pequena fração da população, as
despesas são menores do que se for empreendido um censo integral. Quando as populações são
grandes, podemos obter resultados suficientemente precisos de amostras que representem apenas
uma pequena fração da população.
2) Maior Rapidez: os dados podem ser reunidos e sintetizados mais rapidamente com uma
amostragem, que com uma contagem completa; este fator é primordial quando se necessita com
urgência das informações.
3) Maior Amplitude: os levantamentos que se fundam na amostragem tem maior amplitude e
flexibilidade, relativamente às espécies de informações que podem ser obtidas, quando se desejam
informações precisas sobre muitas subdivisões da população; o volume da amostragem necessário à
realização da tarefa é, por vezes, tão grande que a contagem completa se torna a melhor solução.
4) Maior Exatidão: em virtude de se poder empregar pessoal de melhor qualidade e intensivamente
treinado, e por se tornar exeqüível a supervisão mais cuidadosa do campo de trabalho e do
processamento dos dados, devido a redução do volume de trabalho, uma amostragem pode, na
realidade, proporcionar resultados mais exatos que a espécie de contagem integral.
Os Levantamentos por Amostragem podem ser classificados, de um modo geral, em dois
tipos:
1) Levantamentos Descritivos: em um levantamento descritivo, o objetivo é, unicamente, a
obtenção de uma determinada informação sobre um grande grupo de indivíduos: por exemplo, o
número de homens, mulheres e crianças que assistem a um certo programa de televisão; a
utilização de determinado tipo de ração em animais em fase de engorda, etc.
2) Levantamentos Analíticos: nos levantamentos analíticos, fazem-se comparações entre diferentes
subgrupos da população, a fim de descobrir se entre eles existem diferenças que nos habilitem a
formular ou verificar hipóteses sobre as forças que atuam sobre a população. Um levantamento
feito em Indianápolis (1953) foi uma tentativa para determinar até que ponto os casais planejam
o número e o espaço de intervalo entre os filhos, a atitude dos maridos e esposas em relação a
este planejamento, as razões dessas atitudes e o grau de sucesso obtido.
A distinção entre os levantamentos descritivos e analíticos não é nítida. Muitos
levantamentos fornecem dados que servem a ambos os objetivos. Por exemplo, o comprimento das
baganas de cigarro para analisar a relação fumo X câncer pulmonar; o número de moscas de uma
cidade para analisar a eficiência das vaporizações contra moscas; o número de assinaturas de um
Estatística II
Prof. Laura Maria Saporski Cachuba
85
requerimento que não tinham sido escritas, efetivamente, pelas pessoas cujos nomes representavam
para verificar a legalidade do documento.
O PAPEL DA TEORIA DA AMOSTRAGEM
A amostragem é um problema prático que exige muitas espécies diferentes de habilitações.
A amostragem exige atenção para todas as fases da atividade: o trabalho deficiente em uma das
fases pode arruinar um levantamento em que tudo o mais tenha sido bem feito.
O objetivo da teoria da amostragem é tornar esta mais eficiente. O princípio de precisão
específica ao menor preço reaparece, repetidamente, na apresentação da teoria. A precisão de um
processo de amostragem é julgada pelo exame da distribuição de frequências gerada pela
estimativa, quando o processo é aplicado repetidamente, à mesma população. Esta é a técnica
padrão, pela qual se julga a precisão em teoria estatística.
Uma simplificação maior pode ser introduzida. Com amostras dos tamanhos que são comuns
na prática, há, frequentemente, boas razões para se admitir que as estimativas provenientes das
amostras distribuem-se mais ou menos normalmente. Dada uma estimativa normalmente
distribuída, a forma total da distribuição de frequências é conhecida, desde que conheçamos o valor
médio e o desvio-padrão (ou a variância). Uma parte considerável da teoria dos levantamentos por
amostragem diz respeito à procura de fórmulas para a determinação desses valores médios e
variâncias.
Uma diferença entre a teoria do levantamento por amostragem e a teoria clássica da
amostragem é que as populações, nos trabalhos de levantamento, contém um número finito de
unidades. Os métodos usados na demonstração dos teoremas são diferentes e os resultados são
ligeiramente mais complicados, quando a amostragem provém de uma população finita em vez de
infinita. Para os efeitos práticos, as diferenças de resultados, para populações finitas ou infinitas,
raramente são importantes. Sempre que a amostragem é pequena (em termos do número de
unidades de amostragem primárias) em relação ao volume da população, os resultados produzidos
pelas populações infinitas são inteiramente adequados.
AMOSTRAGEM PELAS PROBABILIDADES
Todos os processo de amostragem, para os quais se haja desenvolvido uma teoria, tem as
seguintes propriedades matemáticas em comum:
1. Pode-se definir um conjunto de amostras independentes, S1, S2, ... , Sn, que o processo permite
selecionar, quando aplicado a uma determinada população. Isso significa que podemos dizer,
exatamente, a que unidades de amostragem pertencem S1, S2 , e assim por diante.
2. A cada amostra possível, S1, é atribuído um grau conhecido de probabilidade de seleção i.
3. A escolha de uma das amostras S1 é feita por meio de um processo, no qual todas as amostras
possíveis, Si, recebem uma adequada probabilidade de serem escolhidas, i.
4. O método para o cálculo da estimativa decorrente da amostragem
deve ser conhecido, devendo
fornecer uma estimativa única para qualquer amostragem específica. Podemos admitir, por
exemplo, que o valor da estimativa seja a média das medidas individuais das unidades da
amostra.
Estatística II
Prof. Laura Maria Saporski Cachuba
86
Em qualquer processo de amostragem que satisfaça a essas propriedades, estamos em
condições de calcular a distribuição de frequência das estimativas que ele produz, quando
repetidamente aplicado à mesma população, já que sabemos quão frequentemente uma determinada
amostra, Si, será selecionada e podemos calcular a estimativa decorrente dos dados contidos em Si.
É evidente, portanto, que se pode estabelecer uma teoria de amostragem para qualquer processo
desse tipo, embora os pormenores do estabelecimento possam ser complexos.
A expressão “amostragem pelas probabilidades” se refere a um processo desse tipo. Essa
não é a única maneira pela qual se pode selecionar uma amostra. Independentemente das
probabilidades, são comuns os seguintes tipos de amostragem:
1. A amostragem é restrita a uma parte da população que esteja imediatamente disponível. Ex.:
uma amostra de carvão de um vagão aberto pode ser retirada entre as 6 e 9 polegadas superiores
do carregamento.
2. A amostra é escolhida ao acaso. Ex.: ao apanhar dez coelhos de uma grande gaiola, em um
laboratório, o investigador apanhará, possivelmente, aqueles sobre os quais sua mão cair, sem
um planejamento consciente.
3. No caso de uma população pequena, mas heterogênea, o operador inspeciona o conjunto da
população e escolhe uma pequena amostragem de unidades “típicas”, isto é, unidades que se
aproximam da impressão que ele tem da média da população. Esse processo é, às vezes,
denominado de “julgamento” ou “seleção intencional”.
4. As amostras são constituídas, essencialmente, de voluntários, nos estudos em que o processo de
medida é desagradável ou penoso para a pessoa que está sendo medida.
Sob condições convenientes, quaisquer desses processos podem fornecer resultados úteis. Não
são, entretanto, conducentes ao estabelecimento de uma teoria de amostragem, pois não contem
nenhum elemento de seleção aleatória. Mesmo quando um processo parece dar certo em uma
dessas comparações, isso não garante que o mesmo aconteça em circunstâncias diferentes.
Uso da Distribuição Normal – Problemas da Inferência Estatística
A amostragens, nos levantamentos, frequentemente são bastante grandes para que as
estimativas baseadas nelas sejam mais ou menos normalmente distribuídas. Além disso, com a
amostragem pelas probabilidades, temos fórmulas que nos dão o valor médio e a variância da
estimativa.
Raramente se consegue obter a distribuição exata de alguma variável, ou porque isto é muito
dispendioso, ou muito demorado ou às vezes porque consiste num processo destrutivo. Assim, a
solução é selecionar parte dos elementos (amostra), analisá-la e inferir propriedades para o todo
(população). Este é o objetivo da Inferência Estatística: é o processo pelo qual tomamos decisões
válidas para a população, partindo de amostras. Logo, a amostragem consiste no estudo das relações
existentes entre as populações e as amostras provenientes das mesmas.
Na obtenção das amostras, devemos usar técnicas adequadas para que as mesmas sejam
representativas das populações, ou seja, devem possuir as características básicas das populações.
Evidentemente, devido à aleatoriedade, sempre existirão certas discrepâncias no processo de
amostragem.
Assim, temos alguns conceitos básicos necessários para o desenvolvimento da Inferência
Estatística.
Definição: População é o conjunto de indivíduos (ou objetos), tendo pelo menos uma variável
comum observável.
Definição: Amostra é qualquer subconjunto da população.
Estatística II
Prof. Laura Maria Saporski Cachuba
87
Definição: População-alvo é a população sobre a qual vamos fazer inferências baseadas na
amostra. Esta especificação pode parecer trivial, mas a verdade é que, em todos os levantamentos,
aparecem casos dúbios que merecem maior atenção na composição da amostra. Uma causa
frequente de levantamentos ruins é a falta de cuidado com que a população-alvo é definida. Por ex.:
Qual a idade média da frota de ônibus de Curitiba? Se só estamos interessadas na região de
Curitiba, devemos excluir os ônibus da frota metropolitana, e os escolares da Prefeitura.
Definição: Variáveis são características que iremos medir. Aqui o erro mais frequente é querer
incluir muitas características. A qualidade da mensuração cai com o aumento do número de
perguntas. Devemos, portanto nos fixar apenas em características que contribuam para a
quantificação adequada da característica populacional de real interesse para o estudo.
Definição: parâmetros são funções de valores populacionais.
Definição: estatísticas são funções de valores amostrais.
Repetir um experimento muitas vezes, sob as mesmas condições, nem sempre é possível;
mas, em determinadas condições, é possível determinar teoricamente o comportamento de algumas
medidas feitas na amostra, por exemplo, a média. Mas isso depende, em grande parte do plano
adotado para selecionar a amostra. Assim, em problemas envolvendo amostras, antes de tomarmos
uma decisão, teríamos que responder a três perguntas:
1. Como escolher a amostra?
2. Que informação pertinente (estatística) será retirada da amostra?
3. Como se comporta a estatística quando o mesmo procedimento de escolher a amostra é usado
numa população conhecida?
Como selecionar uma amostra?
As observações colhidas numa amostra são tanto mais informativas sobre a população,
quanto mais conhecemos esta mesma população (como, por ex. no caso do sangue).
A maneira de se obter uma amostra é tão importante, e existem tantos modos de fazê-lo, que
estes procedimentos constituem uma especialidade dentro da Estatística, conhecida como
Amostragem. Mas esses vários procedimentos podem ser agrupados em dois grandes grupos: os
chamados planos probabilísticos e não-probabilísticos. O primeiro grupo reúne todas aquelas
técnicas que usam mecanismos aleatórios de seleção dos elementos da amostra, atribuindo a cada
um deles uma probabilidade, conhecida a priori, de pertencer à amostra. No segundo grupo estão os
demais procedimentos, tais como: amostras intencionais, onde os elementos são selecionados com
auxílio de especialistas, e amostras de voluntários, como ocorre em alguns testes sobre novos
remédios.
Ambos os procedimentos tem suas vantagens e desvantagens. A grande vantagem das
amostras probabilísticas é medir a precisão da amostra obtida, baseando-se no resultado contido na
própria amostra. Tais medidas já são bem mais difíceis para os procedimentos do segundo grupo.
Métodos probabilísticos
O método de amostragem probabilística exige que cada elemento da população possua
determinada probabilidade conhecida e diferente de zero de ser selecionado. Normalmente possuem
a mesma probabilidade. Assim, se N for o tamanho da população, a probabilidade de cada elemento
será 1/N. Trata-se do método que garante cientificamente a aplicação de técnicas estatísticas de
inferências. Somente com base em amostragens probabilísticas é que se podem realizar inferências
e deduções sobre a população a partir do conhecimento da amostra.
Métodos não-probabilísticos
Quando nem todos os elementos da população têm probabilidade conhecida de pertencer à
amostra. A característica principal das técnicas de amostragem não-probabilista é a de que, não
Estatística II
Prof. Laura Maria Saporski Cachuba
88
fazendo uso de formas aleatórias de seleção, torna-se impossível à aplicação de fórmulas estatísticas
para o cálculo, por exemplo, entre outros, de erros de amostra. Dito de outro modo, não podem ser
objeto de certos tipos de tratamento estatístico.
A vantagem do uso da amostragem probabilística é que a mesma permite o cálculo do erro
amostral, o que não acontece com a amostragem não probabilística.
TÉCNICAS DE AMOSTRAGEM PROBABILÍSTICA
1. Amostragem casual simples (ao acaso, aleatória, elementar): é aquela onde todos os
elementos da população tem igual probabilidade de pertencer à amostra. Essa técnica é equivalente
a um sorteio lotérico.
A probabilidade que cada elemento tem de pertencer à amostra é dada pelo quociente n/N
(chamado fração amostral), sendo n o tamanho da amostra e N o tamanho da população.
Quando a amostragem for feita com reposição, o número de amostras possíveis é dado por
Nn, enquanto que, para a amostragem sem reposição esse número é dado por combinação de N/n.
Uma maneira utilizada para fazer o sorteio dos elementos que comporão a amostra é o uso
de uma tabela de números aleatórios ou a sua geração através de programas computacionais. Esta
tabela (ou relação) consiste de inúmeros dígitos, obtidos por um processo equivalente a um sorteio
equiprovável.
A forma de utilização da tabela ou relação deverá ser a mesma durante todo o processo de obtenção
dos números da amostra.
O processo de amostragem aleatória simples pode, por exemplo, lançar mão de uma Tabela
de Números Aleatórios (também denominada Tábua de Números Equiprováveis). Essas tabelas
foram obtidas através de computadores, com complexa programação, baseada em cálculos
estatísticos, e fornecem uma amostra inteiramente ao acaso de números dispostos em colunas e
linhas, por várias páginas. A maioria dos softwares também realiza a aleatorização de números sem
necessidade de uma tabela.
O exemplo a seguir foi retirado da obra de Kendall e Smith, Tables of random sampling
numbers (In: Boyd e Westfall, 1978:338) e reproduzido parcialmente.
Estatística II
Prof. Laura Maria Saporski Cachuba
89
3125 8144 5454 6703 2444 1518 3387 8772 6538 7532
1496 9980 1454 3074 3889 9230 2398 1598 3947 6917
4905 4956 3551 6836 6512 8312 9238 6663 8606 9580
9967 5765 1446 9288 0555 2591 8307 5280 5948 7869
5414 9534 9318 7827 5558 8651 7679 9983 5528 8922
5750 3489 9914 5737 6677 8288 7957 0899 1918 7684
9867 7825 0690 3990 2075 5402 8168 1601 0830 7544
4099 0087 9042 8818 0716 0373 6561 0855 3654 5997
O procedimento é o seguinte; numeram-se todos os componentes da população, dando a
cada um deles apenas um número. A seguir, determina-se o total de componentes da amostra e,
utilizando a tabela de números aleatórios, selecionam-se os elementos a serem pesquisados.
Exemplo: há 980 alunos em uma Faculdade. Deseja-se entrevistar 450. Depois de numerados todos
os alunos, de 1 a 980, escolhe-se uma página da tabela, iniciando em qualquer ponto e indo para
qualquer direção. A seleção deve ser de grupos de três algarismos, em virtude de o total ser 980. No
caso, iniciar-se-ia na 2 coluna de 4 algarismos, desprezando-se o último e indo de cima para baixo.
Sem levar em consideração os números superiores a 980, encontrar-se-ia, para os primeiros 15
sorteados, a seguinte sequência: 814, 495, 576, 348, 782, 008, 545, 145, 355, 144, 069, 670, 307,
683 e 782. E assim por diante, até completar o tamanho desejado.
A amostra aleatória simples pode apresentar dois tipos:
a) sem reposição, o mais utilizado, em que cada elemento só pode entrar uma vez para a amostra;
b) com reposição, quando os elementos da população podem entrar mais de uma vez para a
amostra.
2. Amostragem Sistemática: É uma forma simplificada da amostragem casual simples, podendo
ser utilizada quando os elementos da população se apresentam ordenados e a retirada dos elementos
para compor a amostra é feita periodicamente. Por exemplo, em um processo de produção, onde se
deseja executar o controle de qualidade, podemos tomar uma peça para compor a amostra, em cada
x peças produzidas; ou fichas em um fichário; listas telefônicas, lista de membros de uma
associação, guia das ruas de uma cidade, indexação (por ordem alfabética) através de cartões, uma
fila de pessoas, prédios de uma rua, etc.
A amostragem sistemática é eficiente à medida que a "listagem", a fila, a disposição dos
prédios etc., esteja "misturada" no que se refere à característica em estudo. Por exemplo, deseja-se
estudar a renda. Uma listagem por ordem alfabética, dos componentes de uma empresa, estará
inteiramente misturada em relação a esta característica, o mesmo não ocorrendo se for por ordem,
crescente ou decrescente, de salários ou funções executadas.
O cuidado a ser tomado nesse processo é quanto à possibilidade da variável de interesse
sofrer variações cíclicas, aonde os períodos desse ciclo venham a coincidir com os de retiradas dos
elementos.
3. Amostragem por meio de conglomerados: é o processo pelo qual a população se apresenta
subdividida em grupos menores, sendo esses grupos menores denominados conglomerados, e
sorteamos um número suficiente desses conglomerados. Esse processo é utilizado mais por questões
de ordem prática e econômica. O nome conglomerados ou grupos deriva do fato de os
conglomerados serem considerados grupos formados e/ou cadastrados da população. Exemplos:
escolas, empresas, igrejas, clubes, favelas, etc. A exigência básica é que o indivíduo, objeto da
Estatística II
Prof. Laura Maria Saporski Cachuba
90
pesquisa, pertença a um e apenas um conglomerado; por exemplo, um estudante não pode estar
cadastrado (matriculado) em duas escolas ao mesmo tempo.
A amostragem por conglomerados ou grupos é rápida, barata e eficiente, sendo que a
unidade de amostragem não é mais o indivíduo, mas um conjunto, facilmente encontrado e
identificado, cujos elementos já estão ou podem rapidamente ser cadastrados. O único problema é
que os conglomerados raramente são do mesmo tamanho, o que torna difícil ou até mesmo não
permite controlar a amplitude da amostra. Recorre-se geralmente a técnicas estatísticas para
contornar tal dificuldade.
As necessidades específicas da pesquisa determinam, também no caso da amostragem por
conglomerados, os procedimentos a seguir:
a) os conglomerados são sorteados de forma aleatória e todos os componentes dos conjuntos
escolhidos são pesquisados;
b) os conglomerados são subdivididos em outros conjuntos e o sorteio aleatório se faz entre os
subgrupos, sendo pesquisados todos os seus elementos.
c) alguns conglomerados são escolhidos aleatoriamente e, em cada um, os indivíduos a serem
pesquisados são sorteados de forma aleatória simples - amostragem em dois estágios, combinando o
de conglomerados com o aleatório simples;
d) os conglomerados são subdivididos em subgrupos e a seleção se faz em três estágios: alguns são
sorteados aleatoriamente e, em cada aglomerado escolhido, são sorteados, também de forma
aleatória as pessoas a serem pesquisadas. Esta forma de amostragem também combina as técnicas
de conglomerados com a do aleatório simples.
As duas últimas formas de amostragem apresentadas denominam-se também em vários
degraus.
Assim, por exemplo, num levantamento da população de uma cidade, podemos dispor de um
mapa indicando cada quarteirão e não dispor de uma relação atualizada dos seus moradores. Pode-
se, então, colher uma amostra dos quarteirões e fazer a contagem completa de todos os que residem
naqueles quarteirões sorteados.
4. Amostragem Estratificada: é utilizada quando a população pode ser dividida em sub-
populações ou estratos, devendo a variável
de interesse ser mais ou mesmo homogênea dentro de
cada estrato. Na composição da amostra, deverão ser sorteados elementos de todos os estratos, para
que todos sejam representados na amostra. Ao contrário dos conglomerados, grupos já existentes na
população e frequentemente já "cadastrados" como tal, os estratos são formados pelo pesquisador,
segundo as necessidades de seu estudo. Ao formar os estratos, deve-se atentar para que todos os
elementos da população estejam enquadrados nos mesmos e que nenhum indivíduo possa ser
colocado em dois estratos diferentes, relativos ao mesmo atributo. Outra preocupação do
pesquisador deve ser a de tornar os estratos o mais homogêneos possível, sendo, ao mesmo tempo,
os diversos estratos heterogêneos uns em relação aos outros. A estratificação deve ser adaptada a
cada pesquisa que se deseja realizar. Um conjunto de estratos, adequados para uma pesquisa de
opinião pública, pouco interesse terá para uma investigação sobre o peso e a estatura dos estudantes
ou a análise da população economicamente ativa. O ideal é que, ao planejar um estudo, o
pesquisador faça um exame cuidadoso sobre os estratos a serem utilizados, com vista à sua eficácia
para a pesquisa em pauta. Convém também não esquecer que o número de estratos a serem
utilizados em cada estudo depende, até certo ponto, da amostra total: uma amostra relativamente
pequena, se subdividida por vários estratos, redunda num número, que pode deixar de ser
significativo, de elementos em cada estrato (inclusive torna-se extremamente difícil o tratamento
estatístico de quantidades reduzidas de elementos por estrato); por outro lado, a extração de um
número suficiente de unidades de cada estrato, para que a amostra (estratificada) seja representativa,
acabará por aumentar em demasia o tamanho total da amostra, o que aumenta a duração e o custo da
pesquisa. A amostra estratificada mais simples é a que contém dois estratos; por exemplo, sexo
Estatística II
Prof. Laura Maria Saporski Cachuba
91
masculino e feminino. À medida que outras variáveis são acrescidas para a formação dos estratos, o
número destes cresce de forma geométrica. Se acrescentarmos ao sexo a procedência (brasileiro ou
estrangeiro), ter-se-iam quatro estratos; se fossem incluídos "acima dos trinta anos" e "trinta anos ou
menos", ficar-se-ia com 8 estratos, mas se a variável "faixa etária" tiver 5 valores (até 15 anos
incompletos; de 15 a 30 anos incompletos; de 30 a 45 anos incompletos; de 45 a 60 anos
incompletos; 60 anos e mais), obter-se-ia um total de 20 estratos. Dessa forma, quando se trabalha
com mais de dois estratos, é necessário a matriz de classificação, que indicará, entre outras, a
incidência percentual de cada estrato na população.Na amostragem estratificada, também de acordo
com os objetivos da pesquisa, pode-se proceder de diferentes formas: a) Retirar, de cada estrato, de
forma aleatória, amostras rigorosamente iguais. Tal procedimento serve para evitar distorções por
parte de atributos que apresentem uma incidência maior na população. Quando as amostras,
retiradas dos estratos são iguais, o processo denomina-se amostragem estratificada não
proporcional. b) De cada extrato, por meio de técnicas aleatórias, retirar amostras proporcionais à
população total contida em cada um. Esta técnica recebe o nome de amostragem estratificada
proporcional. Para que se possa colher, em cada estrato, uma amostra proporcional à sua extensão, é
necessário conhecer de antemão, a proporção de população pertencente a cada um. Dependendo do
estudo, lança-se mão de várias fontes de informação: dados censitários nacionais, estaduais,
regionais, etc., listas dos componentes de empresas, sindicatos, faculdades e similares. É
importante, para a técnica da amostragem estratificada proporcional, que as informações sobre as
proporções da população por estratos não estejam desatualizadas, pois, se assim for, perde-se a
vantagem oferecida por ela. A estratificação proporcional protege a representatividade da amostra,
ao assegurar que os grupos conhecidos da população sejam representados com justiça na amostra.
Finalizando, é importante acentuar que a amostragem estratificada não significa um abandono de
processos aleatórios, pois os mesmos são utilizados em todas as etapas, inclusive na seleção dos
elementos dentro das camadas (estratos). Para se especificar quantos elementos de cada estrato
deverão fazer parte da amostra, existem três maneiras:
1) Uniforme: quando sorteamos mesmo número de elementos de cada estrato. Evidentemente,
esse processo dever ser utilizado se os estratos das populações forem pelo menos
aproximadamente do mesmo tamanho.
2) Proporcional: quando sorteamos um número de elementos proporcional ao tamanho de cada
estrato. Sua utilização é mais geral que a uniforme, pois depende do tamanho de cada estrato.
3) Ótima: quando levamos em consideração o tamanho de cada estrato e também a variação da
variável de interesse dentro de cada estrato. Essa variação é expressa em termos do desvio-
padrão de cada estrato. Dessa maneira, o estrato que tiver uma variação menor contribuirá com
uma quantidade menor de elementos.
As variáveis de estratificação mais comuns são: classe social, idade, sexo, profissão ... ou
qualquer outro atributo que revele os estratos dentro da população.
TÉCNICAS DE AMOSTRAGEM NÃO-PROBABILÍSTICA
A característica principal das técnicas de amostragem não-probabilista é a de que, não
fazendo uso de formas aleatórias de seleção, torna-se impossível à aplicação de fórmulas estatísticas
para o cálculo, por exemplo, entre outros, de erros de amostra. Dito de outro modo, não podem ser
objeto de certos tipos de tratamento estatístico.
1. Amostragem Acidental: trata-se de uma amostra formada por aqueles elementos que vão
aparecendo, que são possíveis de se obter até completar o número de elementos da amostra.
Geralmente utilizada em pesquisas de opinião, em que os entrevistados são acidentalmente
escolhidos.
Estatística II
Prof. Laura Maria Saporski Cachuba
92
2. Amostragem Intencional: de acordo com determinado critério, é escolhido intencionalmente
um grupo de elementos que irão compor a amostra. O investigador se dirige intencionalmente a
grupos de elementos dos quais se deseja saber a opinião. Por exemplo, numa pesquisa sobre
preferência por determinado cosmético, o pesquisador se dirige a um grande salão de beleza e
entrevista as pessoas que ali se encontram.
3. Amostragem por Quotas: um dos métodos de amostragem mais comumente usados em
levantamentos de mercado e em prévias eleitorais é o método de amostragem por quotas. Ele
abrange três fases:
a) Classificação da população em termos de propriedades que se sabe, ou presume, serem
relevantes para a característica a ser estudada;
b) Determinação da proporção da população para cada característica, com base na constituição
conhecida, presumida ou estimada, da população; e
c) Fixação de quotas para cada observador ou entrevistador a quem tocará a responsabilidade
de selecionar interlocutores ou entrevistados, de modo que a amostra total observada ou
entrevistada contenha a proporção de cada classe tal como determinada em b.
Por exemplo: admite-se que se deseja pesquisar o “trabalho das mulheres”. Provavelmente
se terá interesse em considerar: a divisão cidade/campo, a habitação, o número de filhos, a
idade dos filhos, a renda média, as faixas etárias...
A primeira tarefa é descobrir as proporções (porcentagens) dessas características na
população. Imagine-se que haja 47% de homens e 53% de mulheres na população. Logo
uma amostra de 50 pessoas deverá Ter 23 homens e 27 mulheres. Então o pesquisador
receberá uma “quota” para
entrevistar 27 mulheres. A consideração de várias categorias
exigirá uma composição amostral que atenda ao n determinado e às proporções
populacionais estipuladas.
O item dois é inerente ao interesse do pesquisador e o item três será analisado através de
intervalos de confiança e testes de hipóteses, assuntos a serem abordados na sequência.
Exercício 1. Pretende-se obter uma amostra dos alunos de uma universidade para estimar a
proporção que tem trabalho remunerado. Qual é a população em estudo? Qual é o parâmetro que se
quer estimar? Você acha que se obteria uma boa amostra dos alunos no restaurante universitário?
No ponto de ônibus mais próximo? Nas portas das salas de aula? Ou você tem alternativa melhor?
Exercício 2. Para estimar o número médio de pessoas em um domicilio, um pesquisador obteve
uma amostra sistemática de 1000 domicílios. No entanto, mesmo fazendo varias visitas, o
entrevistador não encontrou pessoas em 147 deles. O pesquisador obteve então uma segunda
amostra e quando o entrevistador completou a visita aos 147 domicílios que compunham a amostra
de 1000, analisou os dados. Haviam sido contadas 3087 pessoas. O pesquisador considerou então
que o numero médio de pessoas em domicilio é 3,1. O que você acha?
Estatística II
Prof. Laura Maria Saporski Cachuba
93
CÁLCULO DO TAMANHO DA AMOSTRA
Na teoria da Amostragem, são consideradas duas dimensões:
a) Dimensionamento da amostra;
b) Composição da amostra.
A composição da amostra diz respeito ao método de amostragem utilizado (probabilístico ou
não probabilístico). Para o dimensionamento da amostra, temos as fórmulas básicas a seguir,
segundo alguns critérios.
Procedimento:
a) Analise o questionário ou roteiro da entrevista e escolha uma variável que julgue mais importante
para o estudo. Se possível, escolha mais de uma.
b) Verifique o nível de mensuração da variável: se nominal, ordinal ou intervalar (discretas ou
contínuas).
c) Considere o tamanho da população: finita ou infinita.
d) Escolha a fórmula adequada para calcular o tamanho de amostra necessário, de acordo com os
critérios abaixo:
1) Se a variável escolhida for intervalar (quantitativa) e a população considerada infinita, você
poderá determinar o tamanho da amostra pela fórmula:
amostra. da
partir a calculadaser a amostral média a será X e conhece, não ele que al,populacion média
a verdadeira é onde ,X- é, isto ,X e entresuportar admiteor investigad o que
diferença máxima a é estimativa de erro O variável.da unidade na expresso ,estimativa de erro d
valores.possíveis sobre conjeturasFazer -
s;semelhante estudos de valor oResgatar -
técnicas;çõesEspecifica -
:maneiras trêsmenos pelo de padrão)-desvio (o lo-determiná poderá Você
variável.da unidade na expresso população, da padrão-desvio
confiança; de nível um fixado padrão, normal curva da abcissaZ
:onde
2
d
d
Z
n
2) Se a variável escolhida for intervalar (quantitativa) e a população finita, tem-se:
.estimativa de errod
população; da tamanhoN
população; da padrão-desvio
padrão; normal da abscissaZ
1 222
22
ZNd
NZ
n
Estatística II
Prof. Laura Maria Saporski Cachuba
94
3) Se a variável escolhida for nominal ou ordinal (qualitativa), e a população considerada
infinita, você poderá determinar o tamanho da amostra pela fórmula:
amostra. dapartir a calculadoser a evento do realtiva) a(frequênci proporção verdadeira
a é p que em ,pˆ-p :é isto ,pˆ e p entresuportar admiteor investigad o que diferença
máxima a será caso neste ,estimativa de erro O decimais. em expresso ,estimativa de errod
;pˆ-1qˆ
0,30;pˆ teremos30%,pˆ se Assim, decimais.
em expresso Será estudado. sendo está quesetor do empresas grandes de proporção
a verdadeirda estimativa aser poderá pˆ empresa, da portefor escolhida variávela se
exemplo,Por escolhida. variávelda níveis dos um de proporção a verdadeirda estimativapˆ
padrão; normal da abscissaZ
:onde
ˆˆ
2
2
d
d
qpZ
n
4) Se a variável escolhida for nominal ou ordinal (qualitativa) e a população finita, tem-se:
amostral. errod
;pˆ-1qˆ
proporção; da estimativapˆ
padrão; normal da abscissa Z
população; da tamanhoN
:onde
ˆˆ1
ˆˆ
22
2
qpZNd
NqpZ
n
Estas fórmulas são básicas para qualquer tipo de composição da amostra. No entanto,
existem fórmulas específicas segundo o critério de composição da amostra.
Se o investigador escolhe mais de uma variável, deve optar pelo maior “n” obtido.
Estatística II
Prof. Laura Maria Saporski Cachuba
95
Exercício 3. Um fiscal da Vigilância Sanitária precisa verificar se as farmácias da cidade estão
cumprindo um novo regulamento. A cidade tem 33 farmácias, mas como a fiscalização demanda
muito tempo, o fiscal resolveu optar por uma amostragem. Para escolher a amostra, o fiscal
estratificou a população de farmácias de acordo com o volume de vendas. Existem 3 farmácias de
uma grande cadeia, 10 de cadeias menores e 20 farmácias pequenas, de proprietários locais. O fiscal
decide visitar as três farmácias da grande cadeia, quatro das cadeias menores e três farmácias
pequenas. O cumprimento do regulamento, evidentemente desconhecido do fiscal, esta apresentado
na tabela a seguir. Com base nessa tabela,
a) Sorteie uma amostra estratificada para o local, de acordo com o que ele planejou;
b) Estime, com base na amostra, a proporção de farmácias que estão cumprindo o regulamento;
c) Com base nos dados da população, estime o parâmetro;
d) Você obteve uma boa estimativa?
Estrato A (Cadeia Grande) Estrato B (Cadeias Menores) Estrato C (Cadeias Pequenas)
1. Sim 4. Não 14. Sim 24. Sim
2. Sim 5. Sim 15. Não 25. Sim
3. Não 6. Não 16. Não 26. Não
7. Sim 17. Sim 27. Não
8. Não 18. Não 28. Não
9. Não 19. Não 29. Sim
10.Sim 20. Não 30. Sim
11. Não 21. Sim 31. Sim
12. Sim 22. Não 32. Sim
13. Não 23. Não 33. Não
Exercício 4. Uma indústria de aparelhos de precisão adquire peças de certa procedência e especifica
que a proporção de defeituosos não deve ser superior a 0,1%. A inspeção dos lotes recebidos é feita
por amostragem, com base em uma amostra de 100 peças para cada lote, sendo exigido que todas as
peças da amostra sejam perfeitas para que o lote seja aceito. Desejando-se ter, no máximo, 10% de
probabilidade de se aceitarem os lotes com mais de 1% de defeituosos, qual o tamanho da amostra
necessária?
Exercício 5. Uma pesquisa indica que “os paranaenses, de forma esmagadora, preferiram um Ford a
um Toyota, após fazerem o teste de direção em ambos”. Considerando que você trabalha para a
Toyota, que informações você gostaria de obter antes de aceitar os resultados desta pesquisa? Que
tipo de amostragem seria preferível nesta situação e por quê?
Exercício 6. Um grupo de consumidores gostaria de calcular a quantia média, relativa a contas de
energia elétrica, para o mês de julho, para domicílios unifamiliares em uma grande cidade. Com
base em estudos conduzidos em outras cidades, supõe-se que o desvio-padrão seja igual a
R$145,00. O grupo gostaria de calcular a conta média para o mês de julho, numa margem de
R$58,00 da média verdadeira, com 99% de confiança.
a) Que tamanho de amostra é necessário sem informarmos o tamanho da população?
b) Qual seria o tamanho da amostra se o número de unidades unifamiliares fosse de 301.165 para a
cidade em questão?
c) Considerando o
número de unidades da questão (b), se a confiança for de 94,5% e a margem de
R$12,00, qual será o tamanho de amostra adequado?
Estatística II
Prof. Laura Maria Saporski Cachuba
96
Exercício 7. Uma empresa de televisão a cabo gostaria de calcular a proporção de clientes que
comprariam um guia de programação de TV a cabo. A empresa gostaria de ter 94% de confiança de
que sua estimativa esteja correta, em uma margem de 5% da população real. Experiências do
passado, em outras áreas, indicam que 30% dos clientes comprariam o guia de programação.
Supondo que a empresa tem 2.600 clientes:
a) Qual o tamanho de amostra necessário para a realização da análise?
b) E se a empresa não tivesse a informação de outras áreas a respeito da proporção de clientes que
comprariam o guia, como ficaria o tamanho da amostra? Por quê?
Posteriormente, para o cálculo do tamanho de amostras, utilizaremos uma planilha feita pelo
professor Álvaro Frota, baseada em Cochran (fórmulas anteriormente demonstradas) e elaborada no
Excel. O importante é saber interpretar as variáveis do problema em questão; o cálculo em si é
secundário.
Consulte a planilha fornecida!
Estatística II
Prof. Laura Maria Saporski Cachuba
97
IV. INFERÊNCIA ESTATÍSTICA
4.1 Introdução
Até agora preparamos o caminho para poder entrar nos problemas da inferência estatística.
Vimos as diversas técnicas da análise exploratória de dados, as técnicas de amostragem e a teoria de
probabilidades, cada uma dessas áreas constitui o tripé da inferência estatística.
Figura 4.1. Esquema geral de um curso de estatística.
Agora, estamos prontos para entrar na parte fundamental da estatística, que é a tomada de
decisões em condições de incerteza.
A inferência estatística se divide em duas grandes áreas:
Pontual
Estimação
Inferência Por intervalo
Estatística
Teste de Hipóteses
Estatística
Descritiva
Amostra-
gem
Probabili-
dade
Inferência
Estatística
Estatística II
Prof. Laura Maria Saporski Cachuba
98
4.2 Estimador e Estimativa
Estimador t de um parâmetro é a variável aleatória, função dos elementos da amostra que será
utilizada na estimação.
O valor numérico obtido para o estimador considerado, numa certa amostra, é denominado de
estimativa.
Por exemplo, ao estimarmos a média da altura de uma população utilizamos como estimador a
média aritmética amostral, obtendo como estimativa o valor 173,5 cm. Assim, o estimador é a
média aritmética e a estimativa é
cmX 5,173
.
4.3 Estimação pontual
Quando utilizamos um único dado da amostra para estimar um parâmetro populacional se diz que a
estimação é por ponto ou pontual. As estatísticas utilizadas para estimar os parâmetros
populacionais são chamados de estimadores:
Estatística Parâmetro populacional Estimador
Média Média populacional: Média amostral: X
Proporção Proporção populacional: Proporção amostral:
pˆ
Variância Variância populacional: 2 Variância amostral: s2
Desvio padrão Desvio padrão populacional: Desvio padrão amostral: s
Coeficiente de correlação Coef. correlação populacional: Coef. correlação amostral: r
E, os valores que os estimadores tomam em uma amostra determinada são chamados de
estimativas.
Propriedades dos estimadores: Seja T um estimador de um parâmetro populacional :
Propriedade 1: Justeza ou não-tendenciosidade
Um estimador T é dito não viciado ou não-viesado de se :
E(T)=
Em resumo: é o estimador que mais se aproxima do valor real do verdadeiro parâmetro.
Propriedade 2: Eficiência (ou de variância mínima)
Dois estimadores não viciados T e T´ de um mesmo parâmetro , e V(T) < V(T´)
Então, T é dito ser mais eficiente que T´
Em resumo: O estimador que gerar a menor variância da amostra considerada será o mais eficiente.
Propriedade 3: Consistência
Um estimador T é consistente se:
0TPLim
n
, para todo > 0
Isto significa que com amostras suficientemente grandes pode-se tornar o erro de
estimação tão pequeno quanto se queira. Por outro lado, se o estimador for justo, a condição de
consistência equivale a dizer que sua variância tende a zero, quando n tende a infinito:
Estatística II
Prof. Laura Maria Saporski Cachuba
99
0TLim 2
n
Em resumo: se o estimador é consistente, à medida que aumentamos o tamanho da amostra
analisada, a diferença entre a estimativa gerada pelo estimador amostral e o verdadeiro parâmetro
diminui, chegando à coincidência quando n = N.
Propriedade 4: Suficiência
Um estimador é chamado de suficiente se contêm o máximo possível de informação com
referência ao parâmetro por ele estimado.
Para estimar a média populacional (ou uma medida de tendência central para a população),
temos vários estimadores. Comparemos apenas dois, a média amostral e a mediana (supondo o
número de dados ímpar, não muda se o número de dados for par):
Em resumo: um estimador suficiente é aquele que tem capacidade de retirar da amostra toda a
informação que ela pode fornecer.
Parâmetro a ser estimado: Média populacional:
Propriedades Média amostral: X Mediana(*)
Justeza E(X) = Sim E(Mediana) = Sim
Eficiência V(X) = 2/n Sim V(Mediana) = 2 Não
Consistência Sim Não
Suficiência Sim Não
(*) para n ímpar
A maioria dos estimadores clássicos possuem estas propriedades.
4.4 Estimação por intervalo ou intervalar
O problema da estimação pontual, ou por ponto, é que este procedimento não permite julgar
qual a possível magnitude do erro que estamos cometendo. Daí surge a idéia de construir intervalos
de confiança que estão baseados na distribuição amostral do estimador pontual.
Seja o parâmetro , tal que
1
21
ttp
onde:
- o intervalo t1 t2 é denominado de intervalo de confiança (I.C.);
- os extremos deste intervalo (t1 e t2) são denominados limites de confiança;
- a probabilidade conhecida 1 - é denominada de nível de confiança.
A escolha do nível de confiança (1 - ) depende da precisão com que se deseja estimar o
parâmetro. É muito comum a utilização dos níveis 95% e 99%. Evidentemente, o aumento da
confiança no intervalo implica no aumento de sua amplitude.
4.4.1 Intervalo de confiança para a média populacional
Pelo Teorema Central do Limite sabemos que :
n
X
Z
Estatística II
Prof. Laura Maria Saporski Cachuba
100
Ou seja, dado podemos encontrar valores Z/2 tal que a:
P( - Z/2 < Z < + Z/2) = 1 -
Figura 3.2 Distribuição normal padronizada.
Suponhamos que = 5%; 1 - = 95%; isso significa que se construíssemos 100
intervalos de confiança, esperaríamos que 95 deles contenham o verdadeiro valor da média, ou seja,
haveria uma margem de erro de 5%, o que significaria que devemos esperar que 5 dos 100
intervalos não contenham o verdadeiro valor.
Acontece que você pega apenas uma única amostra! Alguém poderia perguntar como é
possível estimar a média populacional supondo a variância populacional conhecida? Em alguns
casos é possível fazer esta suposição, principalmente, em casos onde se conhece a distribuição da
variável em condições ambientais. Por exemplo, a distribuição da pressão sanguínea de pessoas
normais (não doentes) é conhecida, porém você deseja conhecer o efeito
de um medicamento sobre
ela. Você pode partir do pressuposto de que a única mudança que este medicamento vai trazer é o
deslocamento da média, mas que o a ingestão do medicamento não vai alterar substancialmente a
estrutura de variabilidade9. Neste caso, você pode assumir que a variância da pressão depois de
tomar o medicamento é igual a variância antes de tomar o medicamento. Esta suposição pode ser
falsa, por essa razão quando testamos hipóteses sobre igualdades de média, a primeira pergunta que
devemos responder é se a suposição de igualdade de variâncias se sustenta.
Vamos ver as fórmulas utilizadas para cada parâmetro de interesse:
1. Intervalo de Confiança para a média populacional :
1.1. Intervalo de confiança para média populacional quando o desvio-padrão populacional
for conhecido:
1
22 n
zX
n
zXP
Exercício 1. Um pesquisador está estudando a resistência de um determinado material sob
determinadas condições. Ele sabe que esta variável (qual?) tem um desvio-padrão de 2,7. De uma
amostra de 17 unidades, obteve uma média de 8,25. Construa um I.C. de 95% de confiança para a
resistência média do material.
9 O pressuposto da homocedasticidade da variância na comparação de médias é apresentado mais
detalhadamente no tópico de regressão.
- 0
Z
Estatística II
Prof. Laura Maria Saporski Cachuba
101
1.2. Intervalo de confiança para média populacional quando o desvio-padrão populacional
for desconhecido e n < 30:
Exercício 2. Ao planejar uma represa, o governo deseja estimar o benefício médio anual de
irrigação por acre. Para tanto, toma uma a.a.1 de 25 lotes de um acre, obtendo um benefício médio
de $8,10, com desvio-padrão de $2,40. O governo deseja saber, com 99% de confiança, quão
grande é o benefício médio. Construa um I.C. apropriado e tire conclusões. Se a represa só for
construída caso o benefício seja de no mínimo $10,00 você indicaria a construção? Por quê?
1.3. Intervalo de confiança para média populacional quando o desvio-padrão populacional
for desconhecido e n 30:
1
22 n
s
zX
n
s
zXP
Exercício 3. Uma amostra de 80 motoristas de determinado estado indica que um automóvel roda,
em média, 22.000 Km por ano, com desvio-padrão de 3.800 Km. Construa um I.C. de 98% de
confiança para a rodagem anual média dos carros.
2. Intervalo de confiança para a diferença das médias populacionais 1 e 2
2.1. Intervalo de confiança para a diferença das médias populacionais 1 e 2 quando os desvios-
padrão populacionais 1 e 2 forem conhecidos:
1
2
2
2
1
2
1
2
2121
2
2
2
1
2
1
2
21
nn
zXX
nn
zXXP
Exercício 4. Estão sendo estudados dois processos para conservar vacinas, cuja principal variável
de interesse é o tempo de duração das mesmas. No processo A, o tempo X de duração tem uma
distribuição normal com média desconhecida e desvio-padrão igual a 5, e no processo B o tempo Y
segue também uma distribuição normal com média desconhecida e desvio-padrão igual a 5.
Sorteiam-se duas amostras independentes: a de A com 16 vacinas, apresentou um tempo médio de
duração igual a 50, e a de B, com 25 vacinas, duração média igual a 60.
a) Construa um intervalo para verificar se os dois processos podem ter o mesmo desempenho, com
95% de confiança. Qual a sua conclusão?
11 O significado de “a.a.” é amostra aleatória.
taestatístic da liberdade de graus de nº denominado é ; 1-nν
Student; de t aestatístic a é t :onde
1
;
2
;
2
n
s
tX
n
s
tXP
Estatística II
Prof. Laura Maria Saporski Cachuba
102
2.2. Intervalo de confiança para a diferença das médias populacionais 1 e 2 quando os
desvios-padrão populacionais 1 e 2 forem desconhecidos e supostamente iguais:
1
1111
21
2
;
2
2121
21
2
;
2
21
nn
stXX
nn
stXXP pp
.populações duas
as para ponderada comum variânciada estimativa a é
2
21
2
2
1
2
2
1
1
12
ps
2
21
n :por dado t aestatístic da liberdade de graus de nº o é
Student; de t aestatístic a é t :Onde
nn
snsn
n
Obs: É preciso proceder à um teste de hipótese para verificar se as variâncias podem ser
consideradas iguais ou diferentes.
Exercício 5. Para um particular produto, a média de vendas por estabelecimento no último ano, em
uma amostra de n1=10 estabelecimentos, foi de $3.425 de média e desvio-padrão de $200. Para um
segundo produto, a média de vendas por estabelecimento, em uma amostra de n2=12
estabelecimentos, foi de $3.250 de média, com desvio-padrão de $175. Suponha que você pode
considerar os desvios-padrão como aproximadamente iguais. Estimar a diferença entre o nível
médio de vendas por estabelecimento no último ano, utilizando um intervalo de confiança de 99%.
2.3. Intervalo de confiança para a diferença das médias populacionais 1 e 2 quando os
desvios-padrão populacionais 1 e 2 forem desconhecidos e supostamente diferentes:
1
2
2
2
1
2
1
;
2
2121
2
2
2
1
2
1
;
2
21
n
s
n
s
tXX
n
s
n
s
tXXP
2
2
2
2
e
1
2
1
1
:Onde
1
2
2
2
1
1
2
1
2
21
:Welch-Aspin de correção pela dado t aestatístic da liberdade de graus de nº o é
Student; de t aestatístic a é t :Onde
n
s
w
n
s
w
n
w
n
w
ww
Obs: É preciso proceder à um teste de hipótese para verificar se as variâncias podem ser
consideradas iguais ou diferentes.
Estatística II
Prof. Laura Maria Saporski Cachuba
103
Exercício 6. Numa indústria deseja-se testar se a produtividade média do período diurno é superior
a produtividade média dos operários do período noturno. Para isso colheram-se duas amostras, uma
para cada período, observando-se a produção de cada operário. Os resultados foram os seguintes:
n Média Desvio-padrão
Diurno 27 12 6,78
Noturno 15 10 10,62
De acordo com estes resultados, quais seriam suas conclusões? Use 1 - = 98%.
3. Intervalo de confiança para a variância populacional 2 :
quadrado-qui dea estatísticda liberdade de graus de nº denominado é; 1-n
quadrado;-qui dea estatística é 2 :Onde
1
s1ns1n
P
2
2
2
2
2
2
1
2
Obs: para calcularmos o Intervalo de Confiança para o desvio-padrão, consideramos a raiz quadrada
positiva do I.C. obtido para a variância.
Exercício 7. Para uma a.a. de 12 latas de ervilha, tomadas as unidades em 200 g, o desvio-padrão
encontrado foi de 1,497. Usando uma confiança de 90%, calcule o intervalo adequado para verificar
a variabilidade dos pesos. Qual a sua conclusão à respeito? Considere que o Ipem determina que a
variabilidade máxima para este tipo de produto seja de 2 g.
4. Intervalo de confiança para a proporção populacional P:
amostrana estimada sucesso de
proporçãop :Onde
ˆ
1
n
pˆ1pˆ
zpˆP
n
pˆ1pˆ
zpˆP
22
Exercício 8. Uma concessionária de automóveis gostaria de calcular a proporção de consumidores
que ainda possuem o carro que compraram 5 anos atrás. Uma amostra aleatória de 200
consumidores, selecionados a partir dos registros da concessionária de automóveis, indica que 82
consumidores ainda possuem os carros que compraram a 5 anos. Apresente uma estimativa com
94,3% de confiança para a proporção de consumidores que ainda possuem o carro que adquiriram 5
anos atrás.
Estatística II
Prof. Laura Maria Saporski Cachuba
104
V. TESTE DE HIPÓTESES
DEFINIÇÕES:
a) Hipóteses estatísticas: são suposições que se faz acerca dos parâmetros de uma população,
ao tentar a tomada de decisões. Estas suposições podem ser verdadeiras ou não.
b) Hipótese nula e alternativa:
- Hipótese nula (H0): é qualquer hipótese que será testada. (Vamos entender como a hipótese de
“nulidade”, ou seja, a situação onde “nada muda”);
- Hipótese alternativa (H1): é qualquer hipótese diferente da hipótese nula. (Vamos entender como
“aquilo que queremos efetivamente testar”).
O teste de hipótese coloca a hipótese nula H0 em contraposição à alternativa H1. Ainda: H0 é
o que testamos, H1 dará a direção do teste. A “direção do teste” será dada da seguinte forma:
(1)
esquerda à unilateral Teste
01
00
:
:
H
H
(2)
direita à unilateral Teste
01
00
:
:
H
H
(3)
bilateral Teste
01
00
:
:
H
H
c) Regiões de aceitação e rejeição:
- Região de aceitação (R.A.) é a região em que se aceita a hipótese nula H0.
- Região de rejeição (R.R.) ou região crítica: é a região em que se rejeita a hipótese nula H0, sendo
complementar à região de aceitação.
d) Erros dos tipos I e II: na aplicação de um teste, pode-se cometer dois tipos de erros – erros
tipo I (ou tipo ): é o erro cometido ao rejeitarmos a hipótese nula, sendo ela verdadeira;
erro tipo II (ou tipo ): é o erro cometido ao aceitarmos a hipótese nula, sendo ela falsa.
e) Nível de significância: é a probabilidade máxima com a qual se sujeitaria a correr o risco de
um erro tipo I. Essa probabilidade pode ser representada da seguinte maneira:
verdadeira rejeitar 00 / HHP . Consequentemente, a probabilidade de cometermos
o erro tipo II é dada por:
falsa aceitar 00 / HHP
.
f) Teste unilateral e bilateral: - teste unilateral: quando a R.R. estiver em um dos extremos do
eixo da variável de interesse; - teste bilateral: quando a R.R. estiver nos dois extremos do
eixo da variável de interesse.
g) Curva característica de operação (C.C.O.): é a representação gráfica de . Ela é construída
marcando-se no eixo das abscissas os valores testados do parâmetro , ou e uma variável a
ele associada, e no eixo das ordenadas a probabilidade de aceitar H0 quando ela for falsa.
Uma C.C.O. está associada a cada teste de hipótese e resume as condições fundamentais de
funcionamento ou operação do teste. Embora em muitos casos comuns não seja
indispensável construir a C.C.O. ela é sempre útil para a compreensão do teste.
Estatística II
Prof. Laura Maria Saporski Cachuba
105
Resumindo: Passos para construção de um teste de hipótese:
Passo No 1: Formular as hipóteses nula e alternativa
Passo No 2: Usando a teoria estatística e as informações disponíveis decida qual estatística
(estimador) será usada para julgar a hipótese Ho. Não esqueça dos pressupostos implícitos na
construção desta estatística
Passo No 3: Fixar o nível de significância e construir a Região Crítica
Passo Nº 4: Calcular a estatística da amostra
Passo No 5: Tomar a decisão (conclusão).
A maioria das situações de tomada de decisões ocorrem em situação de incerteza, porque é
baseada nos dados de uma amostra proveniente de uma população. Nesses casos, a estatística
fornece um poderoso instrumento para a tomada de decisões. Tentaremos, através de um exemplo,
explorar a lógica desse tipo de tomada de decisão estatística.
Suponha que você tem R$20.000,00 (vinte mil reais) na poupança e está pensando investir
esse capital na construção e funcionamento de um posto de gasolina, em um ponto movimentado de
Curitiba. Suponha, também, que para o posto ser rentável (pagar o investimento inicial e dar um
lucro maior do que a poupança), o número médio () de veículos que passam por aquele ponto por
dia (parâmetro) deve ser maior que 2000 (hipótese estatística, chamada de hipótese nula Ho).
Este é um problema clássico de teste de hipóteses, pois você decidirá aceitar ou rejeitar a
hipótese nula, em função dos resultados de uma amostra. Isto porque seria impossível examinar o
número de veículos que passam todos os dias por aquele ponto (população), além da
disponibilidade de recursos financeiros, entre outros. Ao pegarmos uma amostra de uma população
estamos lidando com leis de probabilidades, logo você não tem condição de saber se sua hipótese
nula é verdadeira ou falsa, você apenas pode medir as probabilidades envolvidas na sua tomada de
decisão.
No nosso exemplo, aceitar a hipótese nula, de que o número de veículos que passam pelo
ponto é maior de 2000, implicará em você tirar o dinheiro da poupança e investir no posto de
gasolina; mas, a hipótese nula pode ser falsa, e aí, todo o empreendimento estará fadado ao fracasso,
você perderá seu capital. O custo de uma decisão errada pode ser muito grande, em termos
financeiros, de vidas humanas, etc. Vejamos como é o quadro decisório:
Aceitar a hipótese nula (Ho) quando ela é verdadeira é uma decisão correta. No nosso
exemplo significa construir o posto e realmente passam 2000 ou mais veículos por dia, logo o
investimento será rentável, você recuperará seu capital e terá um retorno financeiro acima do
rendimento da caderneta de poupança. Rejeitar uma hipótese falsa, também, é uma decisão correta,
no caso, significa não construir o posto, deixar o dinheiro na poupança, uma vez que o posto não
tinha chances de ser rentável.
Entretanto, existem dois tipos de erro ao tomarmos esse tipo de decisão. O primeiro erro é
rejeitar a hipótese nula (Ho) quando ela é verdadeira, chamado de erro de tipo I; no nosso
exemplo, significa deixar de construir o posto quando ele seria rentável, neste caso, a perda não
inclui valores físicos financeiros, apenas o valor fictício que se deixou de ganhar. O segundo erro é
aceitar a hipótese nula (Ho) quando ela é falsa, chamado de erro de tipo II, no exemplo significa
construir o posto, quando por aquele ponto passam menos do que 2000 veículos, o que implicaria a
perda do capital.
EXEMPLO INICIAL: Vamos aceitar, para exemplificar que foi realizada uma amostra com 30
observações, encontrando-se uma média de 2.050 veículos/dia com desvio-padrão de 200
veículos/dia. Vamos realizar o teste e verificar qual a conclusão.
Estatística II
Prof. Laura Maria Saporski Cachuba
106
Tabela 5.1. Quadro de decisão em condição de incerteza
(Postura inovadora)
Hipótese nula Ho
passam mais de 2000 veículos por dia: Ho: > 2000
Decisão Hipótese (Ho) ser verdadeira:
Ho: > 2000
(o posto será rentável)
Hipótese (Ho) ser falsa
Ho: < 2000
(o posto está fadado ao fracasso)
Aceitar a hipótese
(construir o posto)
Constrói o posto e é rentável
Decisão correta
(1-)
Constrói o posto e ele não é
rentável. Perde o capital
Erro de tipo II
Beta ()
Rejeitar a hipótese
(deixar o dinheiro
na poupança)
Não constrói o posto, porém seria
rentável
(deixa de lucrar)
Erro de tipo I
Alfa ()
Não constrói o posto e não era
rentável
Decisão correta
(1-)
A teoria estatística nos possibilita medir todas as probabilidades envolvidas na questão, logo
podemos nos prevenir, controlando a probabilidade de cometer o erro mais grave. A probabilidade
de cometer o erro de tipo I (rejeitar a hipótese nula Ho quando ela é verdadeira) é simbolizada por
alfa (), também, conhecida como nível de significância.
= nível de significância erro de tipo I
= P (Rejeitar Ho / Ho é verdadeira)
Já a probabilidade de cometer o erro de tipo II (aceitar a hipótese nula Ho quando ela é
falsa) é simbolizada por beta (), que está relacionado com o poder do teste.
= P (Aceitar Ho / Ho é falsa) erro de tipo II
Essas probabilidades, alfa e beta, se relacionam inversamente, quando diminuímos alfa, beta
cresce e vice-versa, e não dá para controlar as duas simultaneamente, a menos que se aumente o
tamanho da amostra, o que implica no aumento de custos operacionais e de tempo, o que pode
inviabilizar a pesquisa.
Todos os testes estatísticos foram delineados para controlar alfa () o nível de
significância, sendo que beta () é deixado livre. Por essa razão, a formulação da hipótese nula
deve ser feita de tal forma que o erro mais grave recaia em alfa. No nosso exemplo analisando os
dois tipos de erros, verificamos que o erro mais grave recai em beta. A pergunta é: como devemos
formular a hipótese nula Ho, de tal forma que o pior erro caia em alfa? Neste caso, é só trocar a
hipótese, negando a afirmação inicial. Vejamos o que acontece no quadro decisório:
Estatística II
Prof. Laura Maria Saporski Cachuba
107
Tabela 5.2. Mudança no quadro decisório ao mudar a hipótese
(Postura conservadora)
Hipótese nula Ho
passam 2000 ou menos veículos por dia: Ho: < 2000
Decisão Hipótese (Ho) ser verdadeira:
Ho: < 2000
(o posto está fadado ao fracasso)
Hipótese (Ho) ser falsa
Ho: > 2000
(o posto será rentável)
Aceitar a hipótese
(deixar o dinheiro na
poupança)
Não constrói o posto e não era
rentável
Decisão correta
(1-)
Deixa de construir o posto quando
seria rentável (deixa de lucrar)
Erro de tipo II
Beta ()
Rejeitar a hipótese
(construir o posto)
Constrói o posto e ele não é
rentável (perde o capital)
Erro de tipo I
Alfa ()
Constrói o posto e é rentável
Decisão correta
( 1- )
Verificamos que ao negarmos a hipótese que desejamos testar asseguramos que o pior erro
recaia em alfa, que é controlado pelo pesquisador. Este tipo de formulação é conhecida como
postura conservadora. Ou seja, estamos mais propensos a deixar o dinheiro na poupança (ou deixar
do jeito que está) do que investir no risco (mudar para o novo) e, arriscaremos, somente, quando
houver evidências da amostra muito fortes a favor do novo.
Portanto, devemos ser cuidadosos na formulação de hipóteses para saber qual é o tipo de
erro que estamos controlando. O nível de significância é fixado pelo pesquisador. É convencional
trabalhar com alfa igual a 1%, 5% ou 10%, sendo que em alguns casos podemos usar níveis
maiores. A escolha do nível de significância () estará de acordo com a margem de segurança e da
gravidade das consequências de vir a ocorrer o erro de tipo I.
Resumindo, teremos:
H0 verdadeira H0 falsa
Rejeita H0 Erro Tipo I ( ) Correto
Aceita H0 Correto Erro Tipo II ( )
Lembre-se: O teste é sempre feito sobre a hipótese nula, mas quem dará a direção do teste será a
hipótese alternativa.
A formulação de hipóteses:
Em todo processo de decisão estatística, além da hipótese nula Ho existe a hipótese
alternativa H1. Todo o processo decisório será feito em função de Ho, ou seja, aceitar ou rejeitar Ho.
Logo, aceitaremos H1 só se a hipótese nula for rejeitada. É convenção se colocar na Hipótese nula
Ho o sinal de igualdade, embora, via de regra, é a negação da hipótese alternativa. Observamos que
a maioria dos testes já tem as hipóteses formuladas.
A hipótese nula Ho coloca-se com o expresso propósito de ser rejeitada, se for rejeitada,
pode-se aceitar a hipótese alternativa (na postura conservadora é a negação do que se quer provar).
A hipótese alternativa H1 é a definição operacional da hipótese de pesquisa, que é a predição
Estatística II
Prof. Laura Maria Saporski Cachuba
108
deduzida da teoria que está sendo testada (na postura conservadora é a afirmação do novo, do que se
quer mostrar).
Tabela 5.3. Os erros em função da formulação das hipóteses
Postura conservadora Postura inovadora
Hipótese nula
Hipótese alternativa
Ho: = 2000
H1: > 2000
Ho: = 2000
H1: < 2000
Erro de tipo I
Alfa ()
Construir o posto e o número
médio é inferior a 2000, logo
perderemos o capital
Não construir o posto e o número
médio é maior do que 2000,
deixamos de lucrar
Erro de tipo II
Beta ()
Não construir o posto e o número
médio é maior do que 2000,
deixamos de lucrar
Construir o posto é o número
médio é inferior a 2000, logo
perderemos o capital
A construção da região crítica ou de rejeição:
Uma vez decididas as hipóteses nula e alternativa e o nível de significância, decide-se a
estatística a ser utilizada para operacionalizar a hipótese. Essa estatística depende do parâmetro que
está sendo testado. No caso da média populacional a estatística será a média amostral, que segue
uma distribuição normal, pelo Teorema Central do Limite. Com essas informações se constrói a
região crítica.
A região crítica ou de rejeição depende da hipótese alternativa e seu tamanho é o mesmo do
nível de significância, o complemento é chamado de região de aceitação. A localização da região
crítica depende da hipótese alternativa.
O processo decisório
A decisão de rejeitar ou aceitar a hipótese nula depende dos resultados da amostra.
Calculada a estatística apropriada é só verificar em qual das duas regiões ela cai. Se cair na região
de aceitação, aceitaremos a hipótese nula, caso contrário, a rejeitaremos. Se a hipótese nula for
rejeitada então aceitaremos a hipótese alternativa. Observamos que todo processo decisório é feito
com a hipótese nula, a decisão em relação à hipótese alternativa é mera consequência:
p-valor > Aceita (ou não rejeita) H0;
p-valor < Rejeita H0 Aceita H1;
Unilateral Bilateral Unilateral
Cauda inferior Bicaudal Cauda superior
H1: < 2000 H1: 2000 H1: > 2000
Figura 5.1. Região de rejeição e de aceitação da hipótese nula
Operacionalizando a tomada de decisão
A R
A
RA
RR
RR
/2 RR
RR
/2
Estatística II
Prof. Laura Maria Saporski Cachuba
109
A construção da estatística da amostra depende do parâmetro que está sendo testado, se for a
média populacional, a estatística estará baseada na distribuição da média amostral, se for a
proporção populacional, a estatística usará a proporção amostral e assim por diante.
5.1 Teste de hipótese para a média populacional
Suponhamos que você selecionou uma amostra de 35 dias, em meses diferentes (tendo
cuidado de representar os dias da semana, bem como os finais de semana) e, que a média amostral
seja 2.100 veículos, com um desvio padrão de 200.
Como n=35 podemos utilizar a fórmula 1.3 para, estimando o desvio padrão populacional
com o desvio padrão da amostra,
sob a hipótese nula:
Como Zcalculado (2,958) é maior que Ztabelado, (a 5% = 1,65) então rejeita-se Ho, ou seja, é
viável construir o posto de gasolina.
Este procedimento é trabalhoso, pois você tem que ter a tabela da distribuição da estatística
(normal, t-student, etc.), o que só se justifica se você não tiver a mão um pacote estatístico.
Para evitar o fato de ter que procurar os valores em tabelas, a maioria dos pacotes
estatísticos fornece, além do valor da estatística da amostra, o p-valor (p-value ou significance),
conhecido, também, como nível de significância observado ou da amostra. Este valor deve ser
comparado com o nível de significância () escolhido pelo pesquisador, neste caso é só comparar
os dois valores. Se o p-valor for menor que alfa, rejeita-se a hipótese nula; caso contrário, aceita-se.
Como calcular o p-valor:
O p-valor é a probabilidade que a estatística supere o valor observado na amostra, maior se
for da cauda superior, menor se for da cauda inferior, ou a probabilidade de rejeitar a hipótese nula
quando ela é verdadeira, com os valores daquela amostra.
Se for cauda superior
Ho: = 2000
H1: > 2000
p-valor = P( Z > Zamostra)
Se for cauda inferior
Ho: = 2000
H1: < 2000
p-valor = P( Z < Zamostra)
Se for bicaudal
Ho: = 2000
H1: 2000
p-valor = P( Z > Zamostra) se Zamostra for +
ou
p-valor = P( Z < Zamostra) se Zamostra for –
Este valor deve ser multiplicado por 2
No nosso exemplo:
p-valor = P ( Z Zamostra)
p-valor = P ( Z 2,96) = 0,00153 ou 0,015%
Como essa probabilidade é menor que = 0,05 cai na região de rejeição. Logo rejeita-se Ho.
As fórmulas utilizadas em teste de hipóteses seguem os mesmos critérios de Intervalo de
Confiança. Para teste, acrescentaremos uma fórmula a mais – o teste para dados pareados (ou
emparelhados).
Estatística II
Prof. Laura Maria Saporski Cachuba
110
Os testes para diferença de médias permitem que você compare diferenças entre duas
populações independentes, com base em amostras que contenham dados numéricos. O teste a seguir
analisa a diferença entre médias a partir de populações relacionadas – ou seja, quando os resultados
do primeiro grupo não são independentes dos resultados do segundo grupo. Esta característica de
dependência pode ocorrer devido ao fato dos itens ou indivíduos serem alocados em pares, ou
combinados de acordo com alguma característica, ou em decorrência de as medições repetidas
serem obtidas a partir de uma mesmo conjunto de itens ou indivíduos. Em qualquer um destes
casos, a variável de interesse representa a diferença entre os valores das observações, e não os
valores das próprias observações.
Uma das abordagens do teste é a combinação ou a colocação em pares de itens ou indivíduos
de acordo com alguma característica de interesse. Por exemplo, ao testar um produto sob duas
estratégias diferentes de propaganda e promoções, uma amostra pode ser coletada com base no
tamanho da população e/ou outras variáveis socioeconômicas e demográficas, que, controladas,
podem medir os efeitos de duas diferentes campanhas.
Outra abordagem envolve a coleta de medições repetidas dos mesmos itens ou indivíduos.
Baseando-se no fato de que os mesmos itens ou indivíduos irão se comportar da mesma maneira,
caso sejam tratados da mesma forma, o objetivo da análise é demonstrar que quaisquer diferenças
entre duas medidas dos mesmos itens ou indivíduos resultam de diferentes condições de tratamento.
Por exemplo, num teste de degustação, cada sujeito na amostra pode ser seu próprio controle, de
modo que sejam obtidas repetidas medições em relação ao mesmo indivíduo.
Independentemente de serem utilizadas amostras combinadas (em pares) ou medições
repetidas, o objetivo é estudar as diferenças entre duas medições, reduzindo o efeito da
variabilidade decorrente dos próprios itens ou indivíduos. Como de modo geral as amostras tem
tamanho reduzido neste tipo de análise, o Teorema do Limite Central nos diz que a estatística t pode
ser usado sem perda de precisão, com n-1 graus de liberdade. Assim teremos:
:Onde
:
:
01
00
ddH
ddH
1.-npor dado é t aestatístic da liberdade degrau O
nula. hipótese na testadamédias de diferença a éd
diferenças das padrão desvio o é ;
1
d
s
:e as;emparelhad sobservaçõe duas
as entre diferença ésima-i a representa d que sendo d e
n
d
d
:de através obtida média diferença a é d onde
0
n
1i
2
i
d
i21i
n
1i
i
0
n
d
xx
n
s
dd
t
ii
d
calc
Exemplo: uma empresa de aplicações em software está desenvolvendo um novo pacote de
aplicações financeiras. Como o tempo de processamento do computador representa um critério de
decisão importante, o analista deseja que o novo pacote, apesar de manter as mesmas características
Estatística II
Prof. Laura Maria Saporski Cachuba
111
e capacidades do atual líder de mercado, forneça resultados ainda mais rápidos. Se bem sucedido, o
novo pacote produzirá os mesmos resultados do atual líder de mercado num tempo menor de
processamento. Para avaliar, foi projetado um experimento onde determinados projetos de
aplicações financeiras serão utilizados tanto pelo novo pacote de software como pelo pacote líder de
mercado, permitindo a avaliação dos dois tempos de processamento. Os resultados encontram-se
abaixo:
USUÁRIO LIDER NOVO PACOTE DIFERENÇA (di)
A
9,98 9,88 0,1
B
9,88 9,86 0,02
C
9,84 9,75 0,09
D
9,99 9,8 0,19
E
9,94 9,87 0,07
F
9,84 9,84 0
G
9,86 9,87 -0,01
Média (
d
) 0,084
Desvio-padrão (
ds
) 0,084354
Elaborando o teste: como não existe uma diferença específica, basta que se comprove que o tempo
do líder é estatisticamente maior que o novo pacote (hipótese do pesquisador), então temos:
líder pacote nomaior é ntoprocessame de tempodo média a -0:
líder pacote do a igualou inferior é ntoprocessame de tempodo média a - 0:
1
0
DH
DH
Assumindo um nível α=5%, encontraremos na tabela o valor 1,833 (positivo, pois o teste é
unilateral a direita).
91-10por dado é t aestatístic da liberdade degrau O
3,15
10
084354,0
0084,0
calct
Assim, rejeitamos Ho (Ho é falsa), pois o valor t calculado está na área de rejeição. Portanto,
considerando uma amostra de 10 observações, uma confiança de 95%, podemos afirmar que a
média do tempo de processamento do Lider de mercado é maior do que o novo pacote. Logo, com
o tempo de processamento menor o pacote novo é mais eficiente que o líder de mercado.
Estatística II
Prof. Laura Maria Saporski Cachuba
112
Exercício 1. Para investigar se as crianças negras de uma geração passada apresentaram
conscientização racial e preconceito anti-negro, Clark e Clark (1958) estudaram um grupo de 252
crianças negras. A cada uma pediu-se que escolhesse uma boneca de um grupo de quatro – duas
brancas e duas não-brancas. 169 dentre as 252 crianças escolheram boneca branca. Verifique a
hipótese, ao nível de 1,5 %, de que as crianças tem preconceito contra os negros (ou seja, são a
favor dos brancos). Sugestão: pense em qual seria a hipótese de igualdade!
Exercício 2. Um processo de fabricação produziu milhões de chips de TV com vida média de 1.200
h e desvio-padrão de 300 h. Testa-se um novo processo com uma amostra de 100 chips obtendo-se
vida média de 1.265 h. Admitindo que o desvio-padrão do processo anterior possa ser utilizado com
validade, você diria que este
novo processo proporciona uma vida média melhor que a do processo
anterior ao nível de 1% e 5%?
Exercício 3. O representante de um grupo comunitário informa que está interessado em estabelecer
um centro comercial se a renda média familiar na área for no mínimo de $15.000,00. Suponha que,
para o tipo de zona em questão, é possível supor que a renda média pode assumir um desvio-padrão
de $2.000,00 (baseado em um estudo anterior). Para uma amostra aleatória de n = 15 famílias, a
renda familiar obteve uma média de $ 14.000,00. Teste a hipótese adequada, ao nível de
significância de 5%, para verificar se é ou não viável a construção do centro comercial nesta
localidade.
Exercício 4. Uma pesquisa mercadológica sobre fidedignidade a um produto foi realizada em dois
anos consecutivos. No primeiro ano em que foi realizada, a preferência pela marca foi de 29%. No
segundo ano em que se realizou, de uma amostra de 400 pessoas, 33% delas indicaram preferência
pela marca. Existe evidência de que este resultado apresente uma mudança positiva na preferência,
considerando um nível de significância de 2%? Se esta significância fosse de 10%, a sua conclusão
mudaria? Por quê?
Estatística II
Prof. Laura Maria Saporski Cachuba
113
VI. AJUSTAMENTO/REGRESSÃO/CORRELAÇÃO
Muitas vezes estudamos certos fenômenos que envolvem duas ou mais variáveis, e
frequentemente estamos interessados em estabelecer uma relação funcional entre as mesmas. O
problema da regressão consiste em determinar a função que exprime essa relação.
Com muita frequência, na prática, verifica-se intuitivamente que existe uma relação entre
duas (ou mais) variáveis. Por exemplo, verifica-se que a porcentagem de peças defeituosas
fabricadas por uma máquina depende da velocidade imprimida a esta; o preço do quilo de batatas
influi de algum modo na quantidade total adquirida na última semana do mês em um supermercado.
Quando o problema envolve apenas duas variáveis ele é conhecido por regressão simples, e
no caso de duas ou mais variáveis por regressão múltipla.
Basicamente, um problema de regressão envolve variáveis que podem ser controladas
(podem ser relacionadas matematicamente) e variáveis que não podem ser controladas (variação
aleatória).
Seja Y uma variável aleatória que é influenciada pelas variáveis X1, X2, ... , Xn, então,
Y = f(X) + ,
onde :
X é a variável independente (variável explicativa);
Y é a variável dependente (variável resposta);
é a componente aleatória da variação de Y;
f é a função de regressão.
Obs.: A escolha da variável explanatória nem sempre é tão óbvia. Por exemplo, quando os valores
de X são fixados a priori, ajusta-se a regressão de Y contra X (Y=f(X)). Mas nem sempre os valores
de X são fixados a priori. Então, tanto pode-se ajustar a regressão de X contra Y, como Y contra X.
Para escolher entre as duas, é preciso identificar a variável que deve ser prevista, conhecido o valor
da outra variável; X geralmente é uma variável que pode ser controlada pelo pesquisador.
As observações dos fenômenos nos fornecem pares de valores (X;Y) que, locados em um
par de eixos cartesianos, configura o que chamamos de gráfico ou diagrama de dispersão.
O conjunto de pontos (xi;yi) poderia indicar a existência de uma relação funcional entre as
duas variáveis, ficando por conta da variação aleatória as discrepâncias que alguns desses pontos
tivessem em relação a equação matemática , que pode ser uma relação linear se os pontos tendem a
se agrupar em torno de uma linha reta, ou se os pontos tendem a se agrupar em torno de uma curva
exponencial, a relação adequada talvez seja a função exponencial. Enfim, o aspecto pode sugerir
uma relação funcional adequada ao problema de regressão.
O problema será então encontrar a curva (ou reta) que melhor se ajuste ao conjunto de
pontos do diagrama de dispersão. Isto é, trata-se de desenhar a sentimento ou determinar a equação
matemática da curva que melhor se acomode ao conjunto de pontos disponíveis. A este problema
denominamos AJUSTAMENTO.
Abaixo vemos a relação de vários tipos de curva de ajustamento e suas equações:
a) Reta (regressão linear): Y = a + bX;
b) Polinômios do n-ésimo grau (regressão polinomial): Y = a + bX + cX² + ... + nXk (forma geral);
c) Polinômio do 2° grau (parábola quadrática): Y = a + bX + cX² ;
d) Polinômio do 3° grau (parábola cúbica): Y = a + bX + cX² + dX³ ;
e) Hiperbóle: Y = 1 / a + bX ;
f) Curva exponencial: Y = abX ;
g) Curva logística: Y = 1 / abX + g;
h) Curva geométrica: Y = aXb .
Estatística II
Prof. Laura Maria Saporski Cachuba
114
O problema de como selecionar, entre todos os diferentes tipos possíveis de curvas, a que
melhor e adapta à evolução dos dados não pode ser resolvido pela análise matemática formal.
De todas as curvas que se ajustam a um conjunto de pontos, a que tem propriedade de
apresentar o mínimo valor para a soma dos quadrados dos desvios entre os valores observados e os
calculados é denominada a melhor curva de ajustamento. É a curva de mínimos quadrados.
Se a variável X corresponder ao tempo, os dados representarão os valores de Y em diversos
momentos. Os dados ordenados em relação ao tempo são denominados séries temporais (históricas
ou cronológicas). A curva ajustante, neste caso, é denominada de TENDÊNCIA e é,
frequentemente, empregada com o objetivo de fazer previsões (por extrapolações) ou avaliações
(por interpolação).
6.1 REGRESSÃO LINEAR SIMPLES
O Modelo Estatístico de uma regressão linear simples é do tipo
Y = + X +
Onde e são parâmetros da regressão, sendo denominado de coeficiente de regressão linear. O
significado do coeficiente de regressão linear (coeficiente angular) é a variação da altura Y quando
caminhamos uma unidade para a direita na direção de X, isto é,
o coeficiente angular b = variação de Y correspondente a uma variação unitária de X.
As hipóteses gerais subjacentes ao modelo de regressão linear são que: 1) a variável
dependente é uma variável aleatória, ou seja, se o primeiro valor de Y é grande, não há razão para
esperar que o segundo Y também o seja (ou seja, pequeno); isto é, não há relacionamento entre os
Y´s coletados; 2) as variáveis independente e dependente estão associadas linearmente; 3) as
variâncias das distribuições condicionais da variável dependente, dados diferentes valores da
variável independente, são todas iguais (homocedasticidade). A homocedasticidade é um termo que
designa que a variância dos erros é constante para diferentes valores da variável coletada. Caso a
suposição não possa ser considerada válida, teremos como efeito que os estimadores obtidos através
do Método de Mínimos Quadrados estarão incorretos, e, portanto, a inferência não será válida. Os
estimadores de MQ não são os de mínima variância, porém são os menos viesados. A hipótese (1)
indica que, muito embora os valores da variável independente possam ser fixados, os valores da
variável dependente devem ser obtidos através de um processo de amostragem.
Ao estabelecermos o modelo de regressão linear simples, devemos, portanto, pressupor que:
1) A relação entre X e Y é linear;
2) A variável X não é aleatória, ou seja, os valores de X são fixos;
3) E( ) = 0, ou seja, a média do erro (variável aleatória) é nula;
4) A variância de é sempre ², ou seja, V () = ²;
5) Os erros são independentes;
6) Os erros tem distribuição normal. A medida que a forma se afasta da normal, podem ser
preferíveis outras técnicas.
Se, em conjunto com a análise de regressão, utiliza-se a estimação por intervalo, é necessária
a hipótese adicional de que as distribuições condicionais da variável dependente,
dados diferentes
valores da variável independente, são todas distribuições normais para os valores da população.
Em uma análise de regressão linear, devemos inicialmente estimar os parâmetros e ,
cujas estimativas chamaremos de a e b, respectivamente.
O método utilizado para determinar as estimativas é conhecido como Método dos Mínimos
Quadrados (MMQ) que consiste em estimar os valores que minimizam a soma dos quadrados dos
desvios.
Y=na + b.X
X.Y = aX + b.X²
Estatística II
Prof. Laura Maria Saporski Cachuba
115
Utilizando as variáveis centradas:
Xb.-Ya e
..
e X onde
1
2
1
1
2
1
11
n
i
n
i
ii
n
i
n
i
ii
n
i
i
n
i
i
x
yx
x
Yx
b
n
Y
Y
n
X
YYyeXXx
O DIAGRAMA DE DISPERSÃO
Um diagrama de dispersão é um gráfico no qual cada ponto plotado representa um par
observado de valores para as variáveis dependente e independente. O valor da variável
independente X é plotado no eixo horizontal, e o valor da variável dependente Y é plotado no eixo
vertical.
Uma abordagem frequente para relações que não são lineares é determinar um método de
transformar os valores de tal forma que a relação dos valores transformados seja linear. A análise de
regressão linear pode, então, ser aplicada aos valores transformados, e os valores estimados da
variável dependente podem ser transformados de volta à escala original de medida. Um exemplo de
uma relação curvilínea seria a relação entre o nível de vendas e os anos desde a incorporação de
uma companhia, dado que o nível de fendas a cada ano cresça pela mesma percentagem em relação
ao ano anterior. A curva resultante, com uma inclinação crescente, indicaria a assim chamada
relação exponencial.
ANÁLISE DA VARIÂNCIA APLICADA À REGRESSÃO LINEAR SIMPLES
A ANOVA aplicada à Regressão Linear Simples possibilita testar a regressão linear
significativa o que é equivalente a mostrar que o coeficiente de regressão 0.
Fonte de
Variação
Graus de
Liberdade
Soma dos
Quadrados
Quadrado Médio Estatística F
Devido à
Regressão
K – 1
xySb.
1
.
K
Sb xy
síduodoMédioQaudrado
gressãodaMédioQuadrado
Re
Re
Residual n – K
xyyy SbS .
Kn
SbS
S
xyyy
R
.
2
Total n -1
yyS
n
i
n
i
i
n
i
i
ii
n
i
iixy
n
YX
YXYYXXS
1
11
1
Estatística II
Prof. Laura Maria Saporski Cachuba
116
n
i
n
i
n
i
i
iiyy
n
Y
YYYS
1 1
2
122
Teste de Hipótese para a ANOVA:
H0: = 0 – a regressão linear de Y sobre X não é significativa;
H1: 0 - a regressão linear de Y sobre X é significativa;
Se Fcalc > F, com 1,2. rejeita-se a hipótese nula.
Se o modelo proposto é correto, QMRes estima 2. Por isso é muitas vezes representado por
s2. Se o modelo é inadequado, s2 superestima 2; medirá não só a variável aleatória de Y (ou ) em
torno de sua média, mas também o mau ajustamento dos dados ao modelo escolhido – falta de
ajuste (aderência).
O coeficiente de Determinação: se SQRes = 0, todos os pontos estão sobre a reta estimada.
Desejamos, portanto, que este valor seja o menor possível, ou seja, que SQReg esteja muito
próxima de SQTotal. Desta forma, a medida de precisão do modelo é dada por:
SQTotal
gSQ
R
Re2
, que
mede a proporção da variável Y que é explicada pela reta de regressão. Para fazer previsões, é
preciso que este valor esteja o mais próximo possível de 1.
Exemplo I: Os dados a seguir mostram que o valor investido em propaganda em determinada
empresa e o retorno da empresa, ou seja, o valor em u.m. empregado na propaganda (x) determina o
retorno da empresa em lucro dado por u.m. (Y) ( Y=f(x) );
Tabela I: Quantidade de u.m. recebida como lucro em função da quantidade de u.m. investida em
propaganda.
X Y x y x.y x2 y2 X.Y Y2 X2 x.Y
2 3,5 -6,625 -14,15 93,74375 43,890625 200,2225 7,0 12,25 4 -23,1875
3 5,7 -5,625 -11,95 67,21875 31,640625 142,8025 17,1 32,49 9 -32,0625
5 9,9 -3,625 -7,75 28,09375 13,140625 60,0625 49,5 98,01 25 -35,8875
8 16,3 -0,625 -1,35 0,84375 0,390625 1,8225 130,4 265,69 64 -10,1875
10 19,3 1,375 1,65 2,26875 1,890625 2,7225 193,0 372,49 100 26,5375
12 25,7 3,375 8,05 27,16875 11,390625 64,8025 308,4 660,49 144 86,7375
14 28,2 5,375 10,55 56,70625 28,890625 111,3025 394,8 795,24 196 151,575
15 32,6 6,375 14,95 95,30625 40,640625 223,5025 489,0 1062,76 225 207,825
69 141,2 371,35 171,875 807,2425 1589,2 3299,42 767 371,35
média de X = 8,625 média de Y = 17,65
Estatística II
Prof. Laura Maria Saporski Cachuba
117
Exemplo II. Em um estudo sobre como a safra de trigo depende do fertilizante, suponhamos que
dispomos de fundos para 10 observações experimentais, obtendo os dados abaixo:
Xi = quantidade de fertilizante
Yi = produção de trigo
Y X x y x.y x2 y2 X.Y Y2 X2 x.Y
40 6 -12 -17 204 144 289 240 1600 36 -480
44 10 -8 -13 104 64 169 440 1936 100 -352
46 12 -6 -11 66 36 121 552 2116 144 -276
48 14 -4 -9 36 16 81 672 2304 196 -192
52 16 -2 -5 10 4 25 832 2704 256 -104
58 18 0 1 0 0 1 1044 3364 324 0
60 22 4 3 12 16 9 1320 3600 484 240
68 24 6 11 66 36 121 1632 4624 576 408
74 26 8 17 136 64 289 1924 5476 676 592
80 32 14 23 322 196 529 2560 6400 1024 1120
570 180 956 576 1.634 11.216 34.124 3.816 956
média de Y = 57 média de X = 18
Estatística II
Prof. Laura Maria Saporski Cachuba
118
Resolução do Exemplo I:
RESUMO RESULTADOS
Estatística de regressão
R múltiplo 0,996955413
R-Quadrado 0,993920096
R-quadrado ajustado 0,992906779
Erro padrão 0,904428164
Observações 8
ANOVA
gl SQ MQ F F de significação
Regressão 1 802,3320582 802,3321 980,8576645 7,03936E-08
Resíduo 6 4,907941818 0,81799
Total 7 807,24
Coeficientes Erro padrão Stat t valor-P 95% inferiores 95% superiores
Interseção -0,985018182 0,675492312 -1,458223 0,195054171 -2,637889534 0,667853171
LUCRO 2,160581818 0,068987073 31,31865 7,03936E-08 1,991776407 2,329387229
Estatística II
Prof. Laura Maria Saporski Cachuba
119
Fig. 6.1
Fig. 6.2
Estatística II
Prof. Laura Maria Saporski Cachuba
120
Fig. 6.3
Estatística II
Prof. Laura Maria Saporski Cachuba
121
Resolução do Exemplo II :
RESUMO DOS RESULTADOS
Estatística de regressão
R múltiplo 0,985418303
R-Quadrado 0,971049232
R-quadrado ajustado 0,967430386
Erro padrão 2,431706077
Observações 10
ANOVA
gl SQ MQ F F de significação
Regressão 1 1586,694444 1586,694 268,3311803 1,94353E-07
Resíduo 8 47,30555556 5,913194
Total 9 1634
Coeficientes Erro padrão Stat t valor-P 95% inferiores 95% superiores
Interseção 27,125 1,979265348 13,70458 7,74557E-07 22,56080297 31,6892
PRODUÇÃO DE
TRIGO 1,659722222 0,101321087 16,38082 1,94353E-07 1,426075227 1,893369
Estatística II
Prof. Laura Maria Saporski Cachuba
122
Fig. 6.4
Fig. 6.5
Estatística II
Prof. Laura Maria Saporski Cachuba
123
Fig. 6.6
Estatística II
Prof. Laura Maria Saporski Cachuba
124
6.2 CORRELAÇÃO E CAUSALIDADE
A observação de que duas grandezas tendem simultaneamente a variar no mesmo sentido
não implica a presença de um relacionamento causal entre elas. Pode ser a flutuação de uma terceira
variável que faz com que X e Y variem no mesmo sentido, embora X e Y sejam não
correlacionadas. Esta terceira variável (que causa a correlação observada) é chamada de variável
intercorrente (não conhecida), e a falsa correlação é chamada de correlação espúria.
Quais os significados de r =1 ; r =-1 ; r = 0 entre duas variáveis X e Y ?
Quando estudamos o grau de inter-relacionamento entre duas variáveis, a investigação
usualmente começa com uma tentativa de descobrir a forma aproximada da relação. Isto é feito
lançando-se as variáveis, aos pares, num gráfico cartesiano formando o que chamamos de diagrama
de dispersão. Ainda que nos pareça que o conjunto de pontos (xi;yi) tenda a estar alinhado (segundo
uma linha reta) também poderíamos supor que uma curva levemente ondulada serviria.
Poderíamos, então, medir, através do coeficiente de correlação linear r, o grau em que as
variáveis estão linearmente relacionadas. Tal coeficiente é dado pela expressão:
2
11
2
2
11
2
111
n
i
i
n
i
i
n
i
i
n
i
i
n
i
i
n
i
i
n
i
ii
YYnXXn
YXYXn
r
O valor do coeficiente de correlação linear r oscila no intervalo,
–1 r +1
Se as duas variáveis forem perfeitamente correlacionadas positivamente (ascendente) o valor
de r será +1.
Se a correlação for inversa e perfeita r será –1. Em qualquer destes dois casos, haverá uma
relação funcional entre as duas variáveis. Se as duas variáveis forem estatisticamente independentes
não haverá associação alguma entre elas e o coeficiente de correlação será zero ou muito próximo
deste valor. Os valores intermediários entre 0 e 1 mostram relação estatística entre as variáveis.
Estatística II
Prof. Laura Maria Saporski Cachuba
125
Observe os exemplos abaixo; estes conjuntos de dados foram preparados pelo estatístico F.
J. Ascombe e mostram os perigos de se analisar somente o coeficiente de correlação.
Conjunto 1 Conjunto 2 Conjunto 3 Conjunto 4
X Y X Y X Y X Y
10,0 8,04 10,0 9,14 10,0 7,46 8,0 6,58
8,0 6,95 8,0 8,14 8,0 12,74 8,0 5,76
13,0 7,58 13,0 8,74 13,0 12,74 8,0 7,71
9,0 8,81 9,0 8,77 9,0 7,11 8,0 8,84
11,0 8,33 11,0 9,26 11,0 7,81 8,0 8,47
14,0 9,96 14,0 8,10 14,0 8,84 8,0 7,04
6,0 7,24 6,0 6,13 6,0 6,08 8,0 5,25
4,0 4,26 4,0 3,10 4,0 5,39 19,0 12,50
12,0 10,84 12,0 9,13 12,0 8,15 8,0 5,56
7,0 4,82 7,26 7,26 7,0 6,42 8,0 7,91
5,0 5,68 4,74 4,74 5,0 5,73 8,0 6,89
Coef Corr. 0,8164 0,8162 0,8163 0,8165
Médias 9,00 7,50 9,00 7,50 9,00 7,50 9,00 7,50
Desvio 3,317 2,032 3,317 2,032 3,317 2,030 3,317 2,031
Note que as médias e os desvios-padrão dos dados nos quatro conjuntos são exatamente os
mesmos valores, bem como o coeficiente de correlação. No entanto, a simples análise gráfica dos
Diagrama de Dispersão mostra que os conjuntos estão longe de serem considerados iguais. Se
calcularmos as retas de regressão para estes conjuntos encontraremos a mesma reta de regressão: Y
= 3,00 + 0,5Xi . No entanto, uma análise mais detalhada do modelo mostrará que nem todas as retas
estão bem estimadas.
Conjunto 1
0
2
4
6
8
10
12
0 2 4 6 8 10 12 14 16
Fig. 6.7
Estatística II
Prof. Laura Maria Saporski Cachuba
126
Conjunto 2
0
1
2
3
4
5
6
7
8
9
10
0 2 4 6 8 10 12 14 16
Fig. 6.8
Conjunto 3
0
2
4
6
8
10
12
14
0 2 4 6 8 10 12 14 16
Fig. 6.9
Estatística II
Prof. Laura Maria Saporski Cachuba
127
Conjunto 4
0
2
4
6
8
10
12
14
0 2 4 6 8 10 12 14 16 18 20
Fig. 6.10
“A interpretação do coeficiente de correlação como medida da intensidade de relação linear entre duas
variáveis é uma interpretação puramente matemática e é completamente isenta de qualquer implicação de
causa e efeito. O fato de que duas variáveis tendam a aumentar ou diminuir juntas não implica que uma
delas tenha algum efeito direto ou indireto sobre a outra. Ambas podem ser influenciadas por outras
variáveis de maneira a dar origem a forte relação matemática. Por exemplo, durante uma série de anos
verificou-se ser de 0,98 o coeficiente de correlação entre o salário de professores e o consumo de bebidas.
Durante este período de tempo houve uma forte alta nos ordenados e salários de todos os tipos e uma
tendência geral ascendente de bons tempos. Sob tais condições, os salários dos professores também
aumentaram. Além disso, a tendência geral ascendente nos ordenados e o poder aquisitivo, junto com o
aumento da população, iria refletir num aumento da compra total de bebida. Assim, a alta correlação
simplesmente reflete o efeito comum da tendência ascendente sobre duas variáveis. Os coeficientes de
correlação devem ser empregados com cuidado se forem dar informações sensíveis concernentes à relação
entre pares de variáveis. O sucesso com eles (os coeficientes) requer familiaridade com o campo de
aplicação bem como com suas propriedades matemáticas.” (Hoel, p. 169).
A interpretação dos valores numéricos obtidos para o coeficiente de correlação, na prática, é
uma questão subjetiva e depende basicamente do pesquisador e das variáveis.
Podemos, por exemplo, adotar a relação abaixo:
r Correlação
0 Nula
0 0,3 Fraca
0,3 0,6 Média
0,6 0,9 Forte
0,9 0,99 Fortíssima
1 Perfeita
Estatística II
Prof. Laura Maria Saporski Cachuba
128
Exercício. Existe relação entre o volume de uma carga e o tempo gasto para acondicioná-la? Para
investigar este fato, sortearam-se 9 pedidos de mercadorias, medindo-se as duas variáveis de
interesse. Com os dados obtidos abaixo, quais seriam suas conclusões?
TEMPO 84 108 110 133 144 152 180 196 231
VOLUME 48 72 63 82 88 109 112 123 140
6.3 Análise da Variância
A Análise da Variância (ANOVA) consiste em uma generalização do teste para a igualdade
de duas médias populacionais. No teste para igualdade de duas médias usamos as estatísticas z ou t,
conforme os critérios de desvio-padrão; na ANOVA testamos k (k≥2) médias populacionais com
base na estatística F.
Esta técnica é usada se desejamos testar as hipótese para k (k≥2):
k
k
H
H
211
210
:
:
Para isto, supomos as populações normalmente distribuídas e as variâncias populacionais
iguais (homocedasticidade). Considerando as k amostras extraidas das populações cujas médias
serão testadas, podemos estimar a variãncia de três maneiras:
1. Variância Total: estimar a variância considerando todas as amostras reunidas em uma única
amostra, supondo a hipótese inicial de que as variâncias são todas iguais.
1
1 1
2
2
N
Xx
s
k
j
n
i
ij
t
Onde, o numerador é denominado de Soma Total dos Quadrados e representado por SQT. Esta
estimativa terá sentido se a hipótese H0 proposta for verdadeira, o que implica que todas as
populações tem, estatisticamente, a mesma média e variância.
2. Variância entre Amostras: sendo verdadeira a hipótese H0, poderermos estimar a variância 2
através das médias das k amostras, ou seja, como se fosse uma amostra de k valores. Como
nX
2
2
, e chamando
2
X
s
a estimativa de
2
X
, então a estimativa de
22 de es
será:
1
1 1
2
22
k
Xx
sns
k
j
n
i
j
Xe
Onde o numerador é denominado de Soma de Quadrados entre Amostras, representado por SQE.
3. Variância Residual (ouvariância dentro): consiste em estimar a variância dentro de cada amostra
e em seguida estimarmos um único valor de
2
, através da combinação dessas k variâncias. Para
uma amostra qualquer, a estimativa individual será dada por:
Estatística II
Prof. Laura Maria Saporski Cachuba
129
1
1
2
2
n
xx
s
n
i
jij
j
Combinando as k variâncias, obtemos a estimativa de
2
:
kN
xx
k
s
s
k
j
n
i
jij
k
j
j
r
1 1
2
1
2
2
Onde o numerador é denominado de Soma dos Quadrados Residuais, representado por
SQR. Caso a hipótese H0 seja verdadeira, demonstra-se que as estimativas de
2es
e
2ts
são
independentes. Assim, podemos comparar essas variâncias pela estatística:
2
2
r
e
calc
s
s
F
. O teste
será sempre do tipo unilateral, pois sendo H0 falsa, F tenderá sempre a crescer. O valor crítico de F
será, para um nível de siginificância α, dado por Fα, com ν1=k-1 e ν2=N-k. Logo, H0 será rejeitada
para
kNkcalc fF ;1
.
6.4.1 Análise da Variância a um Critério de Classificação
Existe apenas uma característica, ou seja, os diferentes valores obtidos na amostra são
devidos a apenas um critério de interesse a ser testado. Para k amostras a serem testadas, teremos:
amostra ésima-j da tamanhoo é
amostrask das sobservaçõe de totalnúmero o é
amostrask das conjunto do geral média a é
amostra ésima-j da média a é
amostra ésima-j da elemento ésimo-i o é
j
j
ij
n
N
X
x
x
Teremos então a sequência de análise:
1) Determinar as hipóteses:
k
k
H
H
211
210
:
: , onde em H1 pelo menos uma das médias é
diferente.
2) Fixar o nível de significância α.
RAH0
1-α
RRH0
1-α
Fα
Estatística II
Prof. Laura Maria Saporski Cachuba
130
3) Determinar as Regiões de Aceitação e Rejeição.
4) Cálculo da estatística de teste.
5) Conclusão: se
kNkcalc fF ;1
, rejeita-se H0, caso contrário, aceita-se H0.
SQT=SQE+SQR
QUADRO DA ANOVA
Fonte de
variação
Soma de
Quadrados
Gl Quadrado Médio (s2) Estatística F
Entre
Amostras
SQE k-1
1
2
k
SQE
QMEse
QMR
QME
s
s
F
r
e
calc 2
2
Residual SQR N-k
kN
SQR
QMRsr
2
Total SQT N-1
Exemplo: Em uma indústria, quatro operários executam a mesma operação. Com o objetivo de
identificar se existe diferença significativa entre os tempos gastos para executar a oepração
mencionada, foram realizadas as seguintes observações destes tempos (em segundos):
Operário 1 8,1 8,3 8,0 8,1 8,5
Operário 2 8,4 8,4 8,5 8,3
Operário 3 8,8 8,7 8,9
Operário 4 8,3 8,4 8,2 8,2 8,3 8,4
- Verificar ao nível de 5% se a diferença é significativa.
43211
43210
:
:
H
H
F tabelado: k-1=4-1=3 ; n-k=18-4=14
34,305,014,3 f
Operário 1 Operário 2 Operário 3 Operário 4 Total
8,1 8,4 8,8 8,3
8,3 8,4 8,7 8,4
8,0 8,5 8,9 8,2
8,1 8,3 8,2
8,5 8,3
8,4
41,0 33,6 26,4 49,8 150,8
37,263.1
18
8,150
22
N
xij
34,264.14,83,81,8
2222 ijx
Estatística II
Prof. Laura Maria Saporski Cachuba
131
10,264.1
6
8,49
3
4,26
4
6,33
5
0,41
22222
j
ij
n
x
SQE=1.264,10 - 1.263,37=0,73
SQR=1.264,34 - 1.264,10=0,24
SQT=1.264,34 + 1.263,37=0,97
QUADRO DA ANOVA
Fonte de variação Soma de
Quadrados
Gl Quadrado Médio
(s2)
Estatística F
Entre Amostras 0,73 4-1=3 0,243
29,14
017,0
243,0
Residual 0,24 18-4=14 0,017
Total 0,97 18-1=17
Conclusão: Como Fcalc >
34,305,014,3 F
, rejeita-se H0, ou seja, existe pelo menos um
operário cujos tempos diferem significativamente dos demais.
6.3.2 Método de Scheffé
Havendo diferença entre as médias, precisamos verificar qual delas diferem das demais. O
quadro da ANOVA apenas aponta a existência de pelo menos uma diferença, mas precisamo saber
qual ou quais itens diferem. Existem diversos métodos: método de Tukey, método de Scheffé,
método de Duncan e método dos contrastes ortogonais. O método de Scheffé é mais geral e
completo, mesmo perdendo um pouco em precisão para os demais.
Para o modelo de classificação única, se duas médias diferem significativamente Scheffé
demonstrou que
jij xx
onde:
kNk
ji
Fk
nn
QMR
;11
11
Para o exemplo em questão:
3,8;8,8;4,8;2,8
017,0
6;3;4;5
4321
4321
xxxx
QMR
nnnn
34,3;14
11
017,0
ji nn
Operários
ji xx
Conclusão
1 e 2 0,28 0,2 Não diferem
1 e 3 0,30 0,6 diferem
1 e 4 0,25 0,1 Não diferem
2 e 3 0,32 0,4 diferem
2 e 4 0,27 0,1 Não diferem
3 e 4 0,29 0,5 diferem
Estatística II
Prof. Laura Maria Saporski Cachuba
132
Logo, podemos concluir que o operário 3 difere siginificativamente dos demais em relação ao
tempo gasto para executar a operação.
Estatística II
Prof. Laura Maria Saporski Cachuba
133
REFERÊNCIAS BIBLIOGRÁFICAS
1. MONTGOMERY, Douglas C. Design and Analysis of Experiments –– Third Edition – John
Wiiley & Sons, Arizona, USA – 1991.
2. CHISNALL, P. M. Pesquisa mercadológica.. Saraiva, 1980, Rio de Janeiro.
3. BOYD JR., H. W., WESTFALL, R. Pesquisa mercadológica: texto e casos. Fundação
Getúlio Vargas, 1979, São Paulo.
4. CASTRO, Cláudio de Moura. A Prática da Pesquisa. McGraw-Hill, 1978. São Paulo.
5. FERRARI, Alfonso Trujillo. Metodologia da Pesquisa Científica. Mcgraw-Hill, 1982. São
Paulo.
6. MADOW, William G. Teoria dos Levantamentos por Amostragem. IBGE, 1981. Rio de
Janeiro.
7. CHARNETT, Reinaldo e outros. Análise de Modelos de Regressão Linear. 1999, Ed.
Unicamp, São Paulo.
8. LEVINE, David M. Estatística: teoria e aplicações. 5ª Ed. Rio de Janeiro: LTC , 2008.
9. SPIEGEL, Murray R. Estatística. 3 ed. São Paulo : McGraw-Hill , c1993.
10. CAMPOS, V.F. Gerência da qualidade total: uma estratégia para aumentar a
competitividade da empresa brasileira. Belo Horizonte: Fundação Christiano Ottoni, Escola
de Engenharia da UFMG, 1990. 187p.
11. CROSBY, P. A gestão pela qualidade. Banas Qualidade, v.8, n. 70, p. 98.
12. SPIEGEL, Murray R. Estadística. 3 ed. São Paulo : McGraw-Hill , c1993.
13. FONSECA, Jairo Simon da; MARTINS, Gilberto de Andrade. Estatística aplicada. 2ed. São
Paulo: Atlas, 1995.
14. PEREIRA, Wilson. Estatística: conceito básico. 2ª Ed. 1990.
15. MARTINS, Gilberto de A. Estatística Geral e Aplicada. 3ª Ed. 2005.
16. CALDEIRA, A. M. S. Estatística. Rio de Janeiro: Conquista, 1990.
17. KARMEL, PH. & POLASEK, M. Estatística geral e aplicada para economistas. São Paulo,
Atlas.
Prof. Laura Maria Saporski Cachuba
134
ANEXO I: TABELAS ESTATÍSTICAS PARA PROBABILIDADE E INFERÊNCIA.
As tabelas a seguir estão liberadas para consulta durante a prova.
Para fazer uso do
material, uma cópia destes arquivos deverá estar impressa à parte e sem anotações adicionais.
Prof. Laura Maria Saporski Cachuba
135
Prof. Laura Maria Saporski Cachuba
136
Prof. Laura Maria Saporski Cachuba
137
Prof. Laura Maria Saporski Cachuba
138
Prof. Laura Maria Saporski Cachuba
139
Prof. Laura Maria Saporski Cachuba
140
Prof. Laura Maria Saporski Cachuba
141
Prof. Laura Maria Saporski Cachuba
142
Prof. Laura Maria Saporski Cachuba
143
Prof. Laura Maria Saporski Cachuba
144
Prof. Laura Maria Saporski Cachuba
145
Prof. Laura Maria Saporski Cachuba
146
Prof. Laura Maria Saporski Cachuba
147
ANEXO II: Instrumental Matemático
Arredondamento de dados
Muitas vezes, é necessário ou conveniente suprimir unidades inferiores às de determinada ordem.
Esta técnica é denominada arredondamento é feito da seguinte maneira:
1 – Quando o primeiro algarismo a ser abandonado é 0,1,2,3 ou 4, fica inalterado o último
algarismo a permanecer.
EX: 53,24 passa a 53,2; 44,03 passa a 44,0.
2 – Quando o primeiro algarismo a ser abandonado é 6,7,8 ou 9, aumenta-se de uma unidade o
algarismo a permanecer.
EX: 53,87 passa a 53,9; 44,08 passa a 44,1; 44,99 passa a 45,0.
3 – Quando o primeiro algarismo a ser abandonado é 5, há duas soluções:
a) Se ao 5 seguir em qualquer casa um algarismo diferente de zero, aumenta-se uma unidade ao
algarismo a permanecer.
EX: 2,352 passa a 2,4; 25,6501 passa a 25,7; 76,250002 passa a 76,3.
a) Se o 5 for o último algarismo ou se ao 5 só se seguirem zeros, o último algarismo a ser
conservado só será aumentado de uma unidade se for ímpar.
Exemplos:
24,75 passa a 24,8
24,65 passa a 24,6
24,75000 passa a 24,8
24,6400 passa a 24,6
Obs: Não devemos nunca fazer arredondamentos sucessivos. Exemplo: 17,3452 passa a 17,3 e não
para 17,35 e depois para 17,4.
Compensação
Suponhamos os dados abaixo, aos quais aplicamos as regras do arredondamento:
25,32 + 17,85 + 10,44 + 31,17 = 84,78
25,3 + 17,8 + 10,4 + 31,2 = 84,7
Verificamos que houve uma pequena discordância: a soma é exatamente 84,7 quando, pelo
arredondamento, deveria ser 84,8. Entretanto, para a apresentação dos resultados, é necessário que
desapareça tal diferença, o que é possível pela prática do que denominamos compensação,
conservando o mesmo número de casas decimais.
Usamos “descarregar” a diferença na(s) maior(es) parcela(s). Veja:
25,3 + 17,8 + 10,4 + 31,3 = 84,8
Obs: Se a maior parcela é igual ou maior que o dobro de qualquer outra parcela, “descarregamos” a
diferença apenas na maior parcela.
Prof. Laura Maria Saporski Cachuba
148
Álgebra do Somatório
n
i
n
n
xxxx
xxx
1
211
21
...
,...,, :por expressa ser pode soma sua X, de valores São Se
Regras Básicas para uma variável
1. Se a é uma constante:
n
i
n
i
ii
n
i
nni
n
i
i
n
i
i
xaax
xxxaaxaxaxax
xaax
1 1
1
2121
11
......
2. Se X e Y são duas variáveis, então:
n
i
n
i
ii
n
i
ii
nnnn
n
i
ii
n
i
n
i
ii
n
i
ii
yxyx
yyyxxxyxyxyxyx
yxyx
1 11
21212211
1
1 11
.........
3. Se X e Y são duas variáveis e a e b são constantes, então:
n
i
i
n
i
i
n
i
ybxabyax
111
11
4. Se
x
é a média aritmética de x, então:
n
i
nn
n
i
n
i
i
xnxxxxxxxxxxxxxxx
xx
1
12121
1
1
1
0
.........
Como 0
1
1
1
1
11
1
1
n
i
n
i
n
i
i
n
i
n
i
i
xxxxxxn
n
x
x
Prof. Laura Maria Saporski Cachuba
149
5.
2
2
1
1
1
2
1
2
2
2
1
1
1
2
1
22
2
1
1
22
1
22
1
2
1 1 1 1
2
1
1
22
1
22
22
22
n
x
xxx
n
x
nxxnxxx
xnxnxxnxnxx
xxxxxxxxxx
n
i
n
i
i
n
i
i
n
i
n
i
i
n
i
i
n
i
n
i
i
n
i
i
n
i
n
i
n
i
n
i
n
i
iii
.
Regras Para Duas Variáveis
Dados:
n
n
xxX
yyY
...
,...
1
1
Seja a função
yxyxf ,
, o somatório duplo dessa função pode ser expresso como:
nmmm
nn
m
i
n
j
ji
m
i
n
j
m
i
n
j
jiji
yxyxyx
yxyxyxyxyxyxyx
yxmyxf
...
.........
,
21
222121
1
21
1
11
1 1 1 1
Observações:
1. a ordem da soma múltipla não importa:
m
i
n
j
n
j
m
i
jiji yxfyxf
1 1 1 1
,,
2. a notação pode ser simplificada para:
i j
ji yxf ,
Prof. Laura Maria Saporski Cachuba
150
ANEXO III: Alfabeto Grego
Maiúsculo Minúsculo Nome
alfa
beta
gama
delta
épsilon
dzeta
eta
teta
iota
kapa
lâmbda
mü(mi)
nü (ni)
Ksi
ônicron
pi
rô
sigma
tau
úpsilom (ipsilon)
fi
chi (qui)
psi
ômega
Prof. Laura Maria Saporski Cachuba
151
ANEXO IV: Lista para Estatística Descritiva.
1. Contou-se o número de erros de impressão da primeira página de um jornal durante 50 dias,
obtendo-se os resultados abaixo:
8 11 8 12 14 13 11 14 14 5
6 10 14 19 6 12 7 5 8 8
10 16 10 12 12 8 11 6 7 12
7 10 14 5 12 7 9 12 11 9
14 8 14 8 12 10 12 22 7 15
a) Elabore uma tabela de frequências.
b) Quem é a variável de estudo? Classifique-a.
c) Apresente média, moda e mediana.
d) Escolha uma das medidas de tendência central e apresente a medida de dispersão adequada
para ela. O que você pode concluir?
e) O que você pode informar a cerca da assimetria do conjunto de dados?
f) Você diria que o número de erros encontrados nos 50 dias de pesquisa pode ser considerado
homogêneo? Por quê?
g) Qual sua sugestão pessoal (como administrador) sobre a análise que você acaba de fazer?
h) Elabore um gráfico adequado e comente o que você observa com ele.
2. A mediana da série { 1, 3, 8, 15, 10, 12, 7 } é :
a) igual a 15
b) igual a 10
c) igual a 7
d) igual a 3,5
e) não há mediana, pois não existe repetição de valores.
3. Numa pesquisa de opinião, 80 pessoas são favoráveis ao divórcio, 50 são desfavoráveis, 30
são indiferentes e 20 ainda não têm opinião formada a respeito do assunto. Então a média
aritmética será:
a) igual a 180, porque todos opinaram somente uma vez.
b) igual a 40, porque é a média entre os valores 50 e 30.
c) igual a 45.
d) igual a 1, porque todos opinaram somente uma vez.
e) não há média aritmética.
4. Na série estatística formada
por { 3 , 1 , 2 , 3 , 6 }:
a) mediana > moda > média.
b) moda < média < mediana.
c) moda = mediana = média.
d) mediana = média e não há moda.
e) média > mediana e não há moda.
Prof. Laura Maria Saporski Cachuba
152
5. Considere uma série estatística com 2351 elementos. A posição da mediana é representada
pelo:
a) 1175º elemento.
b) 1176º elemento.
c) ponto médio entre o 1175º e o 1176º elemento.
d) 1175,5º elemento.
e) Impossível resolução, pois não há identificação dos elementos
6. Uma pesquisa teve como objeto o transporte coletivo urbano de certa cidade. Seus objetivos
foram quantificar a lotação dos ônibus no horário de pico e estabelecer a situação dos
usuários desse horário em termos da qualidade do serviço. Utilizou-se a seguinte variável
aleatória: X = Número de Passageiros Dentro de um Ônibus em Certo Horário. Analise a
tabela abaixo e responda:
CLASSE fi xi. xi.fi FAC xi2.fi
50 | 54 4 52
54 | 58 9 56
58 | 62 11 60
62 | 66 8 64
66 | 70 5 68
70 | 74 3 72
Total 40 2.440,00 150.080,00
a) Calcule a medida de tendência central que, na sua opinião, melhor traduz o objetivo proposto.
b) Calcule a medida de dispersão que, na sua opinião, melhor traduz o objetivo proposto.
c) O que você conclui a respeito dos dados, sabendo que a distribuição apresentou um formato
gaussiano aceitável, quando analisado o gráfico adequado? Qual foi a forma (ou formas) gráfica
adequada para avaliar os dados?
d) Você diria que a forma como os dados foram apresentados responde adequadamente o objetivo
proposto? Justifique.
Prof. Laura Maria Saporski Cachuba
153
ANEXO V. Lista Treino de Exercícios para Distribuição de Probabilidade.
1. A probabilidade de que um presumível cliente aleatoriamente escolhido faça uma compra é
de 0,20. Se um vendedor visita 8 presumíveis clientes, qual a probabilidade de que:
a) O vendedor faça exatamente 4 vendas;
b) O vendedor faça um número de vendas inferior ou igual a 2;
c) O vendedor faça entre 3 (inclusive) e 7 (exclusive) vendas.
2. A probabilidade de que um empregado aleatoriamente escolhido participe de um programa
de investimentos em ações patrocinado pela empresa é de 0,40. Se 16 empregados são
escolhidos aleatoriamente, qual a probabilidade de que:
a) Exatamente 75% deles participe do programa em questão;
b) Menos de 5 (exclusive) participem do programa;
c) O valor médio e o desvio-padrão dos empregados participantes.
3. Um departamento de conserto de máquinas recebe em média 5 chamadas por hora. Qual a
probabilidade de que o departamento receba:
a) Mais de 3 (inclusive) chamadas por hora;
b) 5 chamadas em meia hora;
c) Entre 8 (exclusive) e 12 (inclusive) chamadas de 15 minutos;
d) Menos de 2 chamadas (inclusive) em 5 minutos.
e) Qual é a média e o desvio-padrão das chamadas por hora?
4. A vida útil de uma certa marca de pneus radiais tem uma distribuição normal com média de
38.000 km e desvio-padrão de 3.000 km. Qual a probabilidade de que o pneu escolhido
aleatoriamente tenha vida útil:
a) Entre 22.000 e 34.000 km?
b) Dure mais do que 40.000 km?
c) Se um comerciante encomenda 500 pneus desta marca, qual a quantidade
aproximada que terá vida útil superior a 40.000 km? E entre 30.000 e 40.000 km?
5. O tempo necessário para o atendimento de uma pessoa em um guichê de um banco tem
média de 130 segundos e desvio padrão de 45 segundos. Qual a probabilidade de você:
a) Leve menos de 100 segundos para terminar suas transações?
b) Gaste de 2 a 3 minutos no guichê?
c) Dentro de que período de tempo os 20% de pessoas que realizam as transações mais
rápidas terminam suas transações no guichê?
d) Qual o tempo mínimo necessário para os 5% de indivíduos com as transações mais
complicadas?
6. Suponha que haja em média 2 suicídios por ano numa população de 50.000 habitantes. Se a
população sobe para 100.000 habitantes, encontre a probabilidade de que em um certo ano
tenha havido:
a) Nenhum suicídio;
b) Somente 1 suicídio;
c) Exatamente 2 suicídios;
d) Menos de 5 (inclusive) suicídios.
Prof. Laura Maria Saporski Cachuba
154
7. Suponha que a variável aleatória Q.I. tenha uma distribuição normal com média 100 e
desvio-padrão 15. Qual a proporção da população que terá:
a) Q.I. menor que 93?
b) Q.I. maior que 145?
c) Q.I. entre 100 e 140?
8. Em um grupo de 1.500 mulheres entrevistadas, 600 delas foram favoráveis à inserção de um
item de segurança específico em um novo automóvel. Em uma amostra de 12 mulheres, qual
a probabilidade de que:
a) Exatamente 6 mulheres sejam favoráveis à inserção deste item de segurança;
b) Mais de 4 (inclusive) mulheres sejam favoráveis à inserção deste item de segurança;
c) Pelo menos 8 mulheres sejam favoráveis à inserção deste item de segurança;
d) Menos de 3 (inclusive) mulheres sejam favoráveis à inserção deste item de
segurança.
Respostas:
1. a) 0,04588 b) 0,79691 c) 0,20301;
2. a) 0,00396 b) 0,16657 c) média: 6,4 d.p.: 1,9595;
3. a) 0,8754 b) 0,0668 c)
0 d) 0,991 e) média: 5; d.p.: 2,236;
4. a) 0,09175 b) 0,25142 c) 0,25142 x 500
126 d) 0,74478 x 500
373;
5. a) 0,25142 b) 0,45357 c)
93 segundos d)
204 segundos;
6. a) 0,0183 b) 0,0733 c) 0,1465 d) 0,7852;
7. a) 0,31017 b) 0,00135 c) 0,4962;
8. a) 0,17658 b) 0,77467 c) 0,05731 d) 0,22533.
Prof. Laura Maria Saporski Cachuba
155
ANEXO VI: Lista Treino para Inferência Estatística
1. Uma máquina automática de refrigerantes é regulada de modo que a quantidade suprida de cada
vez tenha um desvio-padrão de 1,3 dl. Determinar uma estimativa média de 96%, sabendo que uma
amostra de 30 copos de refresco acusou conteúdo médio de 21,0 dl.
2. Uma pesquisa mercadológica sobre fidedignidade a um produto foi realizada em dois anos
consecutivos. No primeiro ano em que foi realizada, a preferência pela marca foi de 29%. No
segundo ano em que se realizou, de uma amostra de 400 pessoas, 33% delas indicaram preferência
pela marca. Existe evidência de que este resultado apresente uma mudança positiva na preferência,
considerando um nível de significância de 2%? Se esta significância fosse de 10%, a sua conclusão
mudaria? Por quê?
3. O diretor de compras de uma fábrica de peças industriais está examinando a possibilidade de
comprar um novo tipo de máquina de moer. Ele decidiu que a nova máquina será comprada se
houver evidências de que a variabilidade da resistência a ruptura das peças produzidas pelo novo
tipo de máquina de moer for menor do que a variabilidade da máquina antiga. A máquina antiga
mostra uma média de 65 Kg com desvio-padrão do processo de resistência à ruptura de 10 Kg. Uma
amostra de 10 peças retiradas para a máquina nova, mostra uma média de 72 Kg do processo de
resistência à ruptura com desvio-padrão de 9 Kg para a nova máquina. Utilizando =1%, há
evidências de que a variabilidade da máquina nova é realmente menor que a variabilidade da
máquina antiga? Por quê?
4. Dentre 100 peixes capturados num certo lago, 18 não estavam apropriados para consumo devido
aos níveis de poluição do ambiente. Construa um intervalo de confiança de 99% para a
correspondente verdadeira proporção.
5. Um departamento de manutenção recebe diariamente um carregamento de máquinas defeituosas.
Para uma amostra de 10 máquinas, o tempo médio necessário para o conserto foi de 85 min com um
desvio-padrão de 15 min. Estimar o tempo médio necessário para consertar as máquinas com 90%
de confiança. Estime o tempo total necessário para consertar todas as máquinas, considerando que
serão consertadas uma
por vez.
6. Um produtor deseja obter peso específico médio 0,8 Kg/dm3 para certo material necessário á sua
linha de produção. Admitindo o produtor a possibilidade de uma partida estar acima da
especificação, quer saber se poderá, ao nível de 5% de significância, devolver a partida ao
fornecedor. Para tanto, colheu uma amostra de 12 porções do material, a qual forneceu média de
0,81 Kg/dm3 e desvio-padrão de 0,02 Kg/dm3 . O fornecedor indica como sendo de 0,01 Kg/dm3 o
desvio-padrão do peso específico do produto.
Prof. Laura Maria Saporski Cachuba
156
7. O índice médio da receita municipal dos 400 municípios de um estado tem sido de 7 pontos. O
governo pretende melhorar este índice e para isso esta melhorando alguns incentivos. Para verificar
os efeitos desta nova proposta, sorteou 10 cidades e anotou os índices investidos nas cidades
encontrando uma média de 10,56 com desvio-padrão de 2,55. Admitindo uma confiança de 99%, é
possível admitir que a receita municipal evidenciou melhorias com esta nova proposta?
8. Sabe-se que o consumo mensal per capita de um determinado produto tem distribuição normal
com desvio-padrão de 2 Kg. A diretoria da firma que fabrica o produto resolveu que retiraria o
produto da linha de produção se a média de consumo per capita for menor que 8 Kg. Caso contrário,
continuaria a fabricá-lo. Em uma amostra com 25 indivíduos encontrou-se uma média de 7,2 Kg.
a) Verifique, com 5% de significância, qual deve ser a decisão da diretoria;
b) Se a diretoria tivesse fixado uma significância de 1%, sua resposta em a seria a mesma?
Justifique.
c) Se o desvio-padrão da população fosse de 4 Kg, qual seria a decisão em a e b?
Prof. Laura Maria Saporski Cachuba
157
ANEXO VII. RESPOSTAS DAS QUESTÕES PROPOSTAS
Capítulo 1
Ex. 1
a) quantitativa contínua
b) qualitativa ordinal
c) qualitativa nominal
d) qualitativa nominal
e) quantitativa contínua
f) qualitativa nominal
Ex. 2
a) quantitativa discreta
b) qualitativa nominal
c) quantitativa discreta
d) quantitativa contínua
e) qualitativa nominal
f) quantitativa contínua
g) qualitativa nominal
h) qualitativa nominal
i) qualitativa nominal
j) qualitativa nominal
Ex. 3 - qualitativa nominal
Ex. 4
a) quantitativa contínua
b) quantitativa discreta
c) quantitativa contínua
d) qualitativa nominal
e) qualitativa nominal
f) qualitativa nominal
g) qualitativa nominal
h) quantitativa discreta
i) qualitativa nominal
j) qualitativa nominal
k) qualitativa ordinal
Ex. 7
a) V
b) F
c) F
d) V
e) V
f) V
Prof. Laura Maria Saporski Cachuba
158
Ex. 8
a)
TAB. I - Causas de suicídio ocorridos no Brasil no ano de 1986.
Fonte: IBGE, 1988.
b) Moda: Doença Mental - só é possível calcular a moda, pois a variável é qualitativa nominal.
c) variável: causa de suicídio - qualitativa nominal
Ex. 9
a) Menos do que 5.000, pois o quartil 3 indica que 75% ganham no máximo até este valor;
b) Na Cia. B pois com a variabilidade muito baixa é praticamente certo o salário de 7.000
Ex. 11
a) Média: 180,91 cm Variância: 1.580,91 cm2
b) Acima de 181,33 cm (mediana)
c) Mediana: 181,33 cm Moda: 182,80 cm
d) -X-
e) O das mulheres por apresentar resultado mais homogêneo, de acordo com o coeficiente de
variação (CVM: 2,45% CVH: 21,98%)
f) Histograma e/ou Ogiva (ou Polígono) de Frequência, pois os dados são agrupados;
Capitulo 2
Ex. 4
a) 0,7222
b) 0,2778
c) 0,50
Ex. 5
a) 0,2667
b) 0,20
c) 0,80
d) 0,2667
e) 0,3333 (na situação do casal)
Ex. 6 - 0,55
Ex. 7
Máq. A - 0,3623
Máq. B - 0,4058
Máq. C - 0,2319
CAUSA Nº DE OCORRÊNCIAS
ALCOOLISMO 263
DIFICULDADE FINANCEIRA 198
DOENÇA MENTAL 700
OUTRO TIPO DE DOENÇA 189
DESILUSÃO AMOROSA 416
OUTRAS CAUSAS 217
∑ 1.983
Prof. Laura Maria Saporski Cachuba
159
Ex. 14
a) 0,30233
b) 0,53853
c) 0,50
d) 0,93319
e) 0,02275
Ex. 15
a) 0,99983
b) 0,89435
c) 0,00620
Ex. 16 - 0,25142
Ex. 17 - 0,74123
Ex. 18
a) 0,09175 - aproximadamente 6 candidatos
b) Devem concluir em até 55,4 min
c) Acima de 99,2 min - aproximadamente 7 devem retornar ao treinamento
Ex. 19
Pequenos até 4,328 kg
Médios de 4,328 kg até 5,536 kg
Grandes de 5,536 kg até 6,024 kg
Extra acima de 6,024 kg