Logo Passei Direto
Buscar

Apostila de Estatística II (Prof Laura Cachuba)

User badge image

Enviado por Dario Kosugi em

Esta é uma pré-visualização de arquivo. Entre para ver o arquivo original

Estatística II 
Prof. Laura Maria Saporski Cachuba 
2 
I – ESTATÍSTICA DESCRITIVA 
 
Introdução 
Podemos dizer que toda a ciência que manipula dados experimentais necessita da Estatística 
como A estatística pode ser considerada como um método quantitativo que se preocupa em 
planejar, coletar, organizar, analisar e interpretar um conjunto de observações, visando a tomada de 
decisões. 
Podemos dizer que toda a ciência que manipula dados experimentais necessita da Estatística 
como método de análise dessas informações, para que o pesquisador possa tirar conclusões que 
tenham validade científica. 
Numa análise estatística de uma amostra de dados podemos distinguir duas etapas: a 
descrição dos dados amostrais – a estatística descritiva; e a extrapolação destes resultados para a 
população – estatística inferencial. 
Esquematicamente temos: 
 
 
 
Após a definição do problema a ser estudado, o passo seguinte é a coleta de dados do 
fenômeno de interesse. Mas, depois de coletados, o que fazer para que os mesmos signifiquem algo, 
ou seja, como transformá-los de meros “dados” em “informação”? Na grande maioria das vezes se 
trata de uma massa de dados incompreensível, sem uma aparente estrutura, e precisam ser 
urgentemente “entendidos”. 
Para que os mesmos sejam organizados, descritos formalmente de modo que se possa 
explorá-los procurando indícios de padrões ou características interessantes que possam indicar 
possíveis tendências, e mesmo relatar ou expor características dos mesmos a outras pessoas, utiliza-
se das técnicas chamadas descritivas ou exploratórias. Tais técnicas consistem da leitura e 
resumo dos dados utilizando tabelas, gráficos, estatísticas e esquemas. 
As técnicas descritivas devem fornecer resultados simples, atrair a atenção, ser auto-
explicativos, de fácil compreensão e confiáveis. 
O maior interesse, depois de obtidos os dados, é saber como os dados estão se comportando. 
Uma descrição dos mesmos com tais propriedades deve dar uma idéia global, sobre o conjunto de 
dados, como os valores das variáveis observadas estão se distribuindo entre os indivíduos, e se 
houver, indicar tendências. 
Esse é o papel da Estatística Descritiva: descrever e sintetizar os dados coletados. Com os 
recursos da Estatística Descritiva, pode-se compreender melhor um conjunto de dados através de 
suas características. 
Iniciaremos estudando as técnicas de sumariar e apresentar dados quer através de medidas 
apropriadas (medidas de sumário), quer através de tabelas e gráficos. 
Para o cálculo das medidas, teremos duas maneiras básicas de organizar os nossos dados: de 
forma desagrupada (Rol), ou seja, analisar os dados da forma como se apresentam em nosso banco 
de dados; ou de forma agrupada (Tabela ou Distribuição de Frequência), analisando-os em tabelas 
divididas em níveis (ou classes) da variável em questão. 
Estatística II 
Prof. Laura Maria Saporski Cachuba 
3 
As duas formas de organização dos dados lhes fornecem as informações necessárias para a 
análise descritiva, mas cada uma delas tem características específicas. Se o nosso objetivo for tirar 
informações de um modo geral a respeito do conjunto de dados, qualquer uma das formas é 
indicada; no entanto, a maioria dos softwares só realiza cálculos das medidas para dados 
desagrupados. É preciso tomar cuidado para não utilizar uma forma para o agrupamento e outra 
para os cálculos! Esta é, portanto, a forma mais simples. 
Se, por outro lado, nosso objetivo for o de encontrar níveis para a nossa variável em questão, 
então o agrupamento é o mais indicado. 
Importante: Não leve em conta alguns autores que determinam que trabalhar com dados 
desagrupados ou agrupados tem relação direta com o tamanho da amostra. Estamos na era do 
computador! Esta indicação era para antigamente, quando até as calculadoras deixavam muito a 
desejar! Nos dias de hoje, seu trabalho para usar um ou outro método é exatamente o mesmo, ou 
seja, digitar seus dados em uma planilha! 
 
1. Estatística Descritiva 
Estatística Descritiva é o nome dado à reunião de técnicas analíticas utilizadas para resumir 
o conjunto de todos os dados coletados numa dada investigação a relativamente poucos números e 
gráficos. Ela envolve basicamente: 
 
Distribuição de Frequência: É o conjunto das frequências relativas observadas para um dado 
fenômeno estudado, sendo a sua representação gráfica o Histograma (Diagrama onde o eixo 
horizontal representa faixas de valores da variável aleatória e o eixo vertical representa a frequência 
relativa). Por uma consequência da Lei dos Grandes Números, quanto maior o tamanho da amostra, 
mais a distribuição de frequência tende para a distribuição de probabilidade. 
 
Testes de Aderência: São procedimentos para a identificação de uma distribuição de probabilidade a 
partir de um conjunto de frequências usando a Lei dos Grandes Números. Essencialmente, calcula-
se a chance da diferença entre uma distribuição de frequência observada e aquela que seria de se 
esperar a partir de uma determinada distribuição de probabilidade (geralmente a Curva Normal). 
Uma distribuição de frequência pode ser tida como pertencente a um dado tipo de distribuição se o 
teste de aderência mostrar uma probabilidade de mais de 5% da diferença entre duas ser devida ao 
acaso. 
 
Medidas da Tendência Central: São indicadores que permitem que se tenha uma primeira idéia, um 
resumo, de como se distribuem os dados de um experimento, informando o valor (ou faixa de 
valores) da variável aleatória que ocorre mais tipicamente. As mais usadas e conhecidas são: 
Média Aritmética: É a soma de todos os resultados dividida pelo número total de casos, podendo ser 
considerada como um resumo da distribuição como um todo. 
Moda: É o evento ou categoria de eventos que ocorreu com maior frequência indicando o valor ou 
categoria mais provável. 
Mediana: É o valor da variável aleatória a partir do qual a metade dos casos se encontra acima dele 
e metade se encontra abaixo. 
 
Medidas de Dispersão: São medidas da variação de um conjunto de dados em torno da média (ou de 
outra estatística), ou seja, da maior ou menor variabilidade dos resultados obtidos. Elas permitem se 
identificar até que ponto os resultados se concentram ou não ao redor da tendência central de um 
conjunto de observações. Incluem a amplitude, o desvio médio, a variância, o desvio padrão, o erro 
padrão, o coeficiente de variação, o intervalo interquartil, entre outros, cada um expressando 
diferentes formas de se quantificar a tendência que os resultados de um experimento aleatório tem 
de se concentrarem ou não em determinados valores (quanto maior a dispersão, menor a 
concentração e vice-versa). 
 
Estatística II 
Prof. Laura Maria Saporski Cachuba 
4 
A idéia básica é a de se estabelecer uma descrição de dados relativos a cada uma das 
variáveis, dados esses levantados através, geralmente, de uma amostra. 
 
- Classificação de Variáveis 
Há várias formas de classificar variáveis e que condicionam a análise estatística; 
apresentaremos a forma mais usual. 
As variáveis qualitativas estão associadas a uma característica e apresentam como possíveis 
resultados uma qualidade (ou atributo) do indivíduo (ou item) pesquisado. Podem ser ordinais – 
que são as categorias da variável que têm uma ordem, isto é, podemos dizer que uma categoria está 
antes da outra, ou que é maior ou melhor que outra. Exemplo: Escolaridade: ensino fundamental; 
ensino médio; ensino superior; pós-graduação. Ou a variável poderá ser qualitativa nominal se as 
categorias não têm ordem determinada ou única. Exemplo: Sexo (feminino – masculino); grupo 
sanguíneo,... 
As variáveis quantitativas estão associadas
aos valores numéricos, podendo ser contínuas – 
que são variáveis que podem assumir qualquer valor num intervalo, ou discretas – quando o 
número de valores possíveis for finito ou infinito enumerável (valores inteiros). Por exemplo, o 
peso é uma variável contínua, pois pode assumir qualquer valor (78,453437... kg). Exemplos: 
Tensão arterial, idade, altura... As variáveis quantitativas discretas só podem assumir valores 
inteiros. Exemplo: Número de filhos (0, 1, 2, 3,...). 
 
 













Ordinais - 
Nominais- 
 asQualitativ- 
Contínuas - 
Discretas - 
 vasQuantitati-
Variáveis 
 
Exercício 1: Classifique as seguintes variáveis: 
a) Idade 
b) Classe socioeconômica 
c) Diagnóstico de um doente 
d) Grupo sanguíneo 
e) Índice de Massa Corporal 
f) Grau de concordância (concorda totalmente; concorda parcialmente; discorda parcialmente; 
discorda totalmente). 
 
Exercício 2: Suponha que você está realizando um trabalho para uma empresa de telefonia e as 
variáveis abaixo fazem parte de sua análise. Classifique cada uma das variáveis. 
a) Número de telefones por domicílio; 
b) Tipo de telefone principalmente utilizado (residencial ou comercial); 
c) Número de chamadas de longa distância realizadas por mês; 
d) Duração (em minutos) da chamada mais longa por mês; 
e) Cor do aparelho telefônico mais utilizado; 
f) Tarifa mensal para as chamadas de longa distância realizadas; 
g) Propriedade do telefone celular; 
h) Operadora do telefone celular mais utilizado; 
i) Se existe uma linha de fax no domicílio; 
j) Se existe uma linha telefônica conectada a um modem de computador no domicílio. 
 
Exercício 3: Como você classificaria a variável data de nascimento? Por quê? 
 
Estatística II 
Prof. Laura Maria Saporski Cachuba 
5 
Exercício 4. Suponha que, para uma pesquisa, as seguintes informações são obtidas de estudantes 
saindo da livraria do campus da universidade durante a primeira semana de aulas. Classifique cada 
um das variáveis adequadamente. 
a) Quantia gasta com livros; 
b) Número de livros comprados; 
c) Quantidade de tempo gasto comprando na livraria; 
d) Principal matéria acadêmica do período; 
e) Matéria acadêmica preferida; 
f) Gênero de leitura preferida; 
g) Propriedade de um computador pessoal; 
h) Número de disciplinas matriculadas para o semestre corrente; 
i) Se algum item de informática foi atualmente comprado na livraria ou não; 
j) Forma de pagamento; 
k) Classe socioeconômica. 
 
Estatística II 
Prof. Laura Maria Saporski Cachuba 
6 
Interpretação das Estatísticas 
 
As medidas de tendência central procuram descrever, através de uma estatística (estimativa 
pontual) um valor médio (ou “típico” ou “padrão”). 
Moda: valor que ocorre com maior frequência (ou de frequência mais alta); 
Mediana: ponto central da distribuição o qual divide o conjunto de dados em duas partes iguais. 
Média Aritmética: é o “centro de gravidade” da distribuição. Ou seja, mesmo não sendo o valor de 
maior frequência ou o ponto central da distribuição ela é a estatística que equilibra as discrepâncias 
positivas ou negativas. Ou seja, depois de obtida a média, se subtrairmos esta estimativa de cada 
valor, teremos que o somatório destas diferenças será zero ou muito próximo de zero. Ex. Seja o 
conjunto: {9; 8; 6; 4; 3}: média = 6; mediana = 6. 
Qual delas eu uso? A escolha da melhor medida é determinada pelo objetivo da análise e 
pelo tipo de variável que estamos utilizando. 
 
Moda 
Nível e mensuração: nominal, ordinal ou intervalar (quantitativa). 
Forma de distribuição: mais apropriada para distribuições multimodais, desde que analisado o 
objetivo da pesquisa. 
Objetivo: permite obter uma medida de tendência central rápida, simples, embora grosseira. 
 
Mediana 
Nível e mensuração: ordinal ou intervalar (quantitativa). 
Forma de distribuição: mais adequada para distribuições muito assimétricas (a mediana sempre 
caíra entra a média e a moda). 
Objetivo: é uma medida de tendência central “confiável”, pode às vezes ser usada em operações 
estatísticas mais avançadas ou para “quebrar” uma distribuição em duas categorias distintas. Ex. 
alto versus baixo. 
 
Média 
Nível e mensuração: intervalar (quantitativa), no mínimo. 
Forma de distribuição: mais apropriada para distribuições unimodais e simétricas. 
Objetivo: medida de tendência central exata; pode frequentemente ser usada em operações mais 
avançadas, tais como testes para tomada de decisões. 
 
As medidas de tendência central isoladas podem fornecer uma visão distorcida da realidade. 
Ex. Temperatura média em duas cidades: Honolulu (Havaí) - 
FX º75 - Temperatura mínima e 
máxima: 70ºF e 80°F; Houston (Texas) - 
FX º75 - Temperatura mínima e máxima: 40ºF e 
100ºF. 
Portanto, precisamos de um índice que indique o grau de dispersão em torno da média 
(estimador mais utilizado). Vamos analisar os mais comuns: 
 
AT = amplitude total – medida grosseira, uma vez que só considera dois valores. É um índice 
preliminar. 
Desvio Médio: 
 


n
i
xx
1
1
 - fornecerá valores iguais ou muito próximos à zero. 
Desvio-padrão: variabilidade média de uma distribuição em relação à média. De modo geral, o 
desvio-padrão é cerca de 1/6 da AT (quando a distribuição tiver um número relativamente grande 
de observações); caso contrário, serão necessários “menos” desvios para cobrir a amplitude da 
distribuição. No entanto, o desvio-padrão será sempre menor que a AT. É uma medida confiável, de 
nível intervalar que pode ser utilizada em estatísticas avançadas, descritivas ou inferenciais. 
Estatística II 
Prof. Laura Maria Saporski Cachuba 
7 
Exercício 5. Foram coletados 7 valores de salário dos trabalhadores da construção civil: 300,00 – 
460,00 – 200,00 – 510,00 – 250,00 – 450,00 – 250,00; Calcule a média, moda e mediana; Calcule 
medidas de dispersão para cada medida de tendência central. O que você pode informar a respeito 
dos valores? Se tivéssemos incluído nesta análise o salário do engenheiro – 2.300,00 - quais seriam 
os resultados e as informações que você tiraria a respeito? 
420.2
7
1

i
ix
; 
  43,571.92
7
1
2

i
i Xx
; média: 345,71; mediana: 300; Moda: 250; variância: 
15.428,57143; desvio-padrão: 124,2118 
Com o salário do engenheiro: média: 601,43; mediana: 375; moda: 250; variância: 490.628,6 
desvio-padrão: 700,4488 
 
Exercício 6. Consideremos agora uma amostra de dados bancários. Os valores relacionados são 
tempos médios de espera (em minutos) de clientes, medidos no período de um dia. 
Banco Jefferson Valley 6,5 6,6 6,7 6,8 7,1 7,3 7,4 7,7 7,7 7,7 (Fila única) 
Banco da Providência 4,2 5,4 5,8 6,2 6,7 7,7 7,7 8,5 9,3 10,0 (Fila múltipla) 
Calcule medidas de dispersão para cada medida de tendência central. O que você pode informar a 
respeito dos valores? Que informações você tiraria a respeito? Com estas informações, você optaria 
por fila única ou múltipla? Por quê? 
JV – média: 7,15; Mediana: 7,2. Moda: 7,7; variância: 0,227222; desvio-padrão: 0,476678; quartil 
1: 6,725; quartil 3: 7,625 ; CV:6,67% ; DJ: 0,9 min 
BP - média: 7,15; Mediana: 7,2. Moda: 7,7; variância: 3,318333; desvio-padrão: 1,821629, quartil 
1: 5,9; quartil 3: 8,3 ; CV:25,45%; DJ: 2,5 min 
 
Resolução: 
Para o banco Jefferson Valley que utiliza fila única as medidas de tendência central são: 
min2,7
2
3,71,7
min7,7
min15,7
10
7,77,77,74,73,71,78,67,66,65,61









Md
Mo
n
x
X
n
i
i
 
 
Para a média, as medidas de dispersão que podem ser usadas são: 
 
       
%67,6100
15,7
477,0
100
min477,0227,0
min227,0
110
15,77,715,77,715,76,615,75,6
1
2
22222
1
2
2











X
S
CV
SS
n
Xx
S
n
i
i

 
 
A moda não possui uma medida de dispersão indicada, pois é considerada como uma informação 
muito fraca (pouco robusta); mas pode-se utilizar a amplitude total, sem perder de vista que esta 
medida também é considerada fraca como informação. 
AT= valor máximo da amostra – valo mínimo da amostra = 7,7 – 6,5 = 1,2 min. 
 
 
 
 
Estatística II 
Prof. Laura Maria Saporski Cachuba 
8 
Para a mediana, a medida de dispersão adequada é o desvio interquartílico: 
min9,065,655,7
min65,6
2
7,66,6
5,2
4
10
.1.
min55,7
2
7,74,7
5,7
4
10
.3.
4
..
11
33
13









dj
QQPos
QQPos
n
KQPos
QQdj
K
1 ordem de quartil do posição
3 ordem de quartil do posição
 
 
Para o banco da Providência que utiliza fila múltipla medidas de tendência central são: 
min2,7
2
7,77,6
min7,7
min15,7
10
0,103,95,87,77,77,62,68,54,52,41









Md
Mo
n
x
X
n
i
i
 
 
Para a média, as medidas de dispersão que podem ser usadas são: 
 
       
%45,25100
15,7
82,1
100
min82,1318,3
min318,3
110
15,70,1015,73,915,74,515,72,4
1
2
22222
1
2
2











X
S
CV
SS
n
Xx
S
n
i
i

 
 
A moda não possui uma medida de dispersão indicada, pois é considerada uma informação muito 
fraca (pouco robusta); mas pode-se utilizar a amplitude total, sem perder de vista que esta medida 
também é considerada fraca como informação. 
AT= valor máximo da amostra – valo mínimo da amostra = 10,0 – 4,2 = 5,8 min. 
 
Para a mediana, a medida de dispersão adequada é o desvio interquartílico: 
min5,26,51,8
min6,5
2
8,54,5
5,2
4
10
.1.
min1,8
2
5,87,7
5,7
4
10
.3.
4
..
11
33
13









dj
QQPos
QQPos
n
KQPos
QQdj
K
1 ordem de quartil do posição
3 ordem de quartil do posição
 
 
- As três medidas de tendência central para ambos os bancos foram exatamente as mesmas, e podem 
ser consideradas bastante próximas. Esta informação é importante em estatística, pois indica que os 
dados seguem uma distribuição normal, ou seja, seguem um padrão, que permitem uma avaliação 
melhor. 
Estatística II 
Prof. Laura Maria Saporski Cachuba 
9 
- Contudo, não podemos analisar as medidas de tendência central isoladamente; então, avaliando 
em conjunto com as medidas de dispersão adequadas para cada medida de tendência central, 
encontramos: 
- Através das estatísticas calculadas, podemos verificar que a variação no tempo de espera na fila é 
menor no banco com fila única; tanto o desvio-padrão como o dj (intervalo interquartílico) foram 
bem menores para o banco com fila única; ainda: o coeficiente de variação é bem menor na fila 
única (6,67%) do que na fila múltipla (25,45%) mostrando que quando se adota fila múltipla há 
indicações de que o tempo de espera do cliente seja maior. 
(Lembre-se: dizemos que há indicações porque a estatística descritiva não é conclusiva, apenas 
informativa). 
- Ou seja, se fosse possível elaborar um gráfico, caso tivéssemos mais valores na amostra, 
encontraríamos possivelmente uma curva normal para os dois bancos, mas a curva do banco com 
fila única seria leptocúrtica e a do banco com fila múltipla, platicúrtica. 
- Por qual tipo de fila você optaria no “seu” banco? Como o que queremos é que o cliente seja bem 
atendido, e bom atendimento significa não ficar perdendo tempo em uma fila, parece que a fila 
única tem melhor resultado que a fila múltipla. Para concluirmos, teríamos que fazer uma análise 
estatística mais avançada. Mas esta é a indicação que encontramos. 
 
OBS: Note que a variável do problema foi número médio de atendimentos por dia! Ou seja, é 
possível trabalharmos com a média das médias, e calcular posteriores estatísticas normalmente. 
 
Exercício 7. Assinale como verdadeiro ou falso: 
a) [ ] O coeficiente de variação é uma medida que expressa a razão entre o desvio padrão e a 
média. 
b) [ ] Num conjunto de valores, todos iguais, o desvio-padrão é também igual a constante. 
c) [ ] A média de uma série de valores iguais a uma constante é igual a unidade. 
d) [ ] Na série 60, 50, 90, 70, 80 o valor 70 será a média e a mediana. 
e) [ ] A média aritmética é a razão entre o somatório dos valores e o número deles; 
f) [ ] A medida que tem o mesmo número de valores abaixo e acima dela é a mediana 
 
Exercício 8. De acordo com o IBGE (1988), a distribuição dos suicídios ocorridos no Brasil em 
1986, segundo a causa atribuída, foi a seguinte: 263 por alcoolismo, 198 por dificuldade financeira, 
700 por doença mental, 189 por outro tipo de doença, 416 por desilusão amorosa e 217 por outras 
causas. 
a) Apresente esta distribuição em uma tabela; 
b) Indique a média, a mediana e a moda. Qual delas você utilizaria para apresentar os resultados de 
um trabalho? Por quê? 
c) Quem é a variável aleatória trabalhada? Identifique e classifique. 
 
a) 
Tab. I – Causas de suicídio ocorridos no Brasil no ano de 1986. 
 
CAUSAS OCORRÊNCIAS 
ALCOOLISMO 263 
DIFICULDADE FINANCEIRA 198 
DOENÇA MENTAL 700 
OUTRO TIPO DE DOENÇA 189 
DESILUSÃO AMOROSA 416 
OUTRAS CAUSAS 217 
∑ 1983 
Fonte: IBGE (1988) 
 
Estatística II 
Prof. Laura Maria Saporski Cachuba 
10 
Exercício 9. Na companhia A, a média dos salários é de 10.000 u.m. (unidades monetárias) e o 3 
quartil é 5.000 u.m.: 
a) Se você se apresentasse como candidato a essa firma e se o seu salário fosse escolhido ao acaso 
dentre todos os possíveis salários, o que seria mais provável: ganhar mais ou menos que 5.000 
u.m.? Justifique. 
b) Suponha que na companhia B a média de salários é 7.000 u.m. e a variância é praticamente 
zero, e lá o seu salário também seria escolhido ao acaso. Em qual companhia você se 
apresentaria para procurar emprego? Justifique. 
 
Estatística II 
Prof. Laura Maria Saporski Cachuba 
11 
Outras Estratégias de Análise: 
 
A média aritmética e o desvio-padrão, mesmo sendo as melhores medidas para serem 
utilizadas, também apresentam alguns problemas na sua utilização: 
a) São afetados, de forma exagerada por valores extremos; 
b) Apenas com estes dois valores, não temos idéia da assimetria da distribuição dos valores. 
Tukey sugere 5 medidas (Esquema de 5 números): 
i) mediana; 
ii) extremos – maior e menor valor; 
iii) os quartis. 
 
Estas 5 medidas são chamadas estatísticas de ordem (mas não são as únicas) e são medidas 
resistentes de posição de uma distribuição (são pouco afetadas por mudanças nos dados). 
Ex. Seja o conjunto: 5 7 8 10 12 15 
- a média aritmética é 9,5; a mediana é 9,0; o desvio-padrão é 3,62. 
- trocando o valor 15 por 150, a média aritmética passa a ser 32; desvio-padrão passa a ser 57,86, no 
entanto a mediana não se altera. 
Exemplo de esquema de 5 números para Rol (exemplo usado em sala de aula, apresentado 
na sequência): 
 
 n = 50 
Mediana 66 
Quartis 58,5 72,5 
Extremos 48 90 
 
Outra medida de dispersão alternativa é o intervalo interquartil (dj), que é a diferença entre o 
quartil de ordem 3 e o quartil de ordem 1. Com ele podemos calcular o intervalo interquartílico 
dado por: 
djQ .
2
3
1 
 e 
djQ .
2
3
3 
 
 
 
 
 
 
 
 
 
 
Estatística II
Prof. Laura Maria Saporski Cachuba 
12 
Graficamente, temos o desenho esquemático chamado Box-Plot: Max = 90,00000
Min = 48,00000
75% = 73,00000
25% = 59,00000
Median v alue:
Med = 66,00000
Box & Whisker Plot
45
55
65
75
85
95
PRECO
 
 
 ±1.00*Std. Dev .
Std. Dev . = 10,09184
 ±1.00*Std. Err.
Std. Err. = 1,427200
Mean = 66,46000
Box & Whisker Plot
54
58
62
66
70
74
78
PRECO
 
 
 
Estatística II 
Prof. Laura Maria Saporski Cachuba 
13 
MEDIDAS DE ASSIMETRIA 
 
Assimetria é o grau de deformação de um polígono de frequência. Uma distribuição é 
simétrica quando: Média = Mediana = Moda. 
 
 
 
Uma distribuição é: 
- Assimétrica à esquerda ou negativa quando: Média < Mediana < Moda. 
- Assimétrica à direita ou positiva quando: Média > Mediana > Moda 
 
Coeficiente de Assimetria 
- 1º Coeficiente de Assimetria (Pearson): 
s
MoX
AS


onde: 
- 
X
 = É a média aritmética; 
- Mo = Moda; 
- s = é o desvio-padrão. 
 
Estatística II 
Prof. Laura Maria Saporski Cachuba 
14 
Análise do resultado de AS: 
forte assimetria 1,00
moderada assimetria 1,000,15
fraca assimetria 0,15



AS
AS
AS
 
 
Podemos também usar outro coeficiente de assimetria de Pearson, dado por: 
 
PadrãoDesvio
Mediana - Média3
AS


 
 
 
MEDIDAS DE CURTOSE 
 
Denominamos curtose o grau de achatamento de uma distribuição em relação a uma 
distribuição padrão, denominada curava normal (curva correspondente a uma distribuição teórica de 
probabilidade). 
 Quando a distribuição apresenta uma curva de frequência mais fechada que a normal (ou 
mais aguda ou afilada em sua parte superior), ela recebe o nome de leptocúrtica. 
 Quando a distribuição apresenta uma curva de frequência mais aberta que a normal (ou mais 
achatada em sua parte superior), ela recebe o nome da platicúrtica. 
 A curva normal, que é a nossa base referencial, recebe o nome de mesocúrtica. 
 
 
 
Formas de Analisar os Dados: 
 
 Para analisar um conjunto de dados, precisamos definir se o trabalho será realizado com os 
dados da maneira como foram coletados, ou seja, em Rol, o qual denominamos de Dados 
Desagrupados; ou se este trabalho será feito organizando os dados em níveis, os quais chamaremos 
de classes e a tabela correspondente de Tabela de Frequências (ou de Distribuição de Frequências). 
 O tipo da variável trabalhada (se quantitativa ou qualitativa) pode ajudar na decisão. De 
modo geral, os dados sempre podem ser trabalhados como Rol. A decisão pelas Tabelas de 
Frequência pode ser devido a quantidade muito elevada de dados coletados (amostra), o que pode 
dificultar a visualização dos dados; ou ainda pelo objetivo proposto, por exemplo, definir níveis 
(classes) para a variável em estudo. 
 Devemos lembrar sempre que o volume muito grande de dados, por si só, não leva a 
trabalhar automaticamente com Tabelas de Frequência, uma vez que, com a utilização de 
computadores, tanto em planilhas como em softwares estatísticos, o tempo para realização da 
análise é o mesmo. Outros fatores poderão nos levar a decidir qual a melhor forma de trabalhar – 
com dados agrupados ou desagrupados. 
 Vamos analisar na sequência as duas formas de realizar uma análise para um mesmo 
conjunto de dados. Para isso, utilize o Formulário I já fornecido. 
 
Estatística II 
Prof. Laura Maria Saporski Cachuba 
15 
Exercício 10. Para estimar a quantidade de água que seria necessária para abastecer a comunidade 
da cidade de Aguaceiro na próxima década, o conselho da cidade pediu ao prefeito que descobrisse 
a quantidade de água que uma amostra de famílias utiliza atualmente. A amostra de 15 famílias 
utilizou o seguinte número de galões (em milhares) no ano passado. 
 
11,2 13,1 14,0 14,6 15,5 16,4 16,9 18,2 
18,3 18,8 19,7 21,5 22,7 23,8 32,2 
 
a) Qual a quantidade média de água utilizada por família? E a mediana? Qual delas você 
utilizaria para o objetivo deste estudo e por quê? 
b) Suponha que o conselho da cidade espere que daqui a 10 anos existam 45.000 famílias 
vivendo em Aguaceiro. Quantos galões de água serão necessários anualmente, se a taxa de 
consumo por família se mantiver a mesma? 
c) De que maneiras a informação fornecida em (a) e (b) seria útil para o conselho da cidade? 
Explique. 
d) Por que você acha que o conselho usou dados de uma pesquisa ao invés de medir o consumo 
total da cidade? Você concorda com o critério deles? Por quê? 
Média: 18,46 Mediana: 18,2 Moda: -- Variância: 26,9954 Desvio-padrão: 5,1957 CV: 28,15% 
 
Estatística II 
Prof. Laura Maria Saporski Cachuba 
16 
Analisando um Exemplo 
 
Exemplo: Em um estudo sobre o tempo que os funcionários de uma empresa demoram a carregar 
um caminhão com mercadorias (em min) foram coletados 50 tempos referentes a 50 funcionários 
distintos, conforme quadro abaixo. Para simplificar, vamos considerar que os produtos carregados 
em todos os caminhões são os mesmos (mesmo peso, marca, quantidade, etc.): 
 
a) Em ordem de coleta: 
 
52 78 63 58 64 73 57 76 67 77 
60 64 54 64 49 67 62 53 70 86 
61 48 74 69 80 71 56 71 72 66 
59 62 64 52 65 82 68 67 90 81 
78 58 55 69 83 65 50 70 77 66 
 
b) Em ordem crescente: 
 
48 53 58 62 64 66 69 71 77 81 
49 54 58 62 64 67 69 72 77 82 
50 55 59 63 65 67 70 73 78 83 
52 56 60 64 65 67 70 74 78 86 
52 57 61 64 66 68 71 76 80 90 
 
Variável coletada: tempo para carregar com mercadorias um caminhão (em min) – variável 
quantitativa contínua. 
 
Interpretando os resultados: 
 
 Definido o conjunto de dados (observações) com o qual se pretende trabalhar, precisamos 
decidir se o trabalho será organizado em uma tabela de frequências ou em forma de rol. O tipo da 
variável trabalhada (se quantitativa ou qualitativa) pode ajudar na decisão. De modo geral, os dados 
sempre podem ser trabalhados como rol. A decisão pelas tabelas de frequências pode ser devido a 
quantidade muito grande de dados coletados (amostra), o que pode dificultar a visualização dos 
dados; ou ainda, pelo objetivo proposto. Por exemplo, definir classes (níveis) para a variável em 
estudo. Devemos lembrar sempre que o volume muito grande de dados, por si só, não leva a 
trabalhar em distribuição de frequências, uma vez que com a utilização de computadores o trabalho 
realizado é praticamente o mesmo. 
 Determinada a forma como se pretende analisar os dados, verificamos a apresentação gráfica 
dos mesmos. Para o rol, a forma gráfica mais adequada é o Ramo-e-Folhas e para a distribuição de 
frequências são o Histograma e/ou a Ogiva (ou Polígono) de Frequências. O formato da distribuição 
é de suma importância, uma vez que, assumido um formato gaussiano (curva da distribuição 
normal) para a distribuição dos dados, poderemos passar a trabalhar com técnicas estatísticas mais 
avançadas que nos permitem tirar conclusões e auxiliar na tomada de decisões. Esta definição 
(normalidade) nos ajudará a fazer inferências e retirar conclusões a respeito dos dados, conclusões 
que a estatística descritiva não permite por ser somente informativa. 
Estatística II 
Prof. Laura Maria Saporski Cachuba 
17 
Analisando com os Dados Desagrupados (Rol) 
 
 No nosso exemplo sobre tempo para carregar mercadorias em um caminhão (em min) no 
período considerado, quando analisamos os dados através de rol, obtemos os valores abaixo para as 
estatísticas: 
Cálculos para Dados Desagrupados: 
50
904948
n
X
X
n
1i
i 


  
Moda: valor que ocorre com maior frequência Mo = 64 
Mediana: é o valor central dos dados ordenados Md = 66 
AT = 90
– 48 = 42 
 
   
8453,101
150
46,669046,6648
1n
Xx
S
22
n
1i
2
i
2 







  
09184,108453,101SS 2 
 
%18,15100
46,66
09,10
100
X
S
CV 
 
145,585,72QQd 13j 
 
 
2437,0
09,10
6446,66
S
MoX
AS 




 
   
25,0
52802
5,585,72
PP2
QQ
C
1090
13 






 
5,37
4
50
3Pos5,12
4
50
1Pos
4
n
KPos 3Q1QQK 
 
45
100
50
90Pos5
100
50
10Pos
100
n
KPos 90P10PPK 
 
 
Resumo das Estatísticas Para Rol (Dados Desagrupados): 
 
min 93,5 :superior intervalomin 37,5 :inferior intervalomin14dj
15,18%CVmin10,09184smin 101,8453s
dispersão) (pqna caleptocúrti curva 0,25C moderada assimetria 0,2437AS
min 80Pmin52Pmin72,5Qmin58,5Q
min 64Momin 66Mdmin 66,46X
7minAT da 1/6min42AT50n
22
901031






 
 
Ramo e Folhas: 
 
CAULE FOLHA 
Escores = 50 
2 4 8 9 
11 5 0 2 2 3 4 5 6 7 8 8 9 
19 6 0 1 2 2 3 4 4 4 4 5 5 6 6 7 7 7 8 9 9 
12 7 0 0 1 1 2 3 4 6 7 7 8 8 
5 8 0 1 2 3 6 
1 9 0 
 
Estatística II 
Prof. Laura Maria Saporski Cachuba 
18 
 Analisando graficamente através do Ramo-e-Folhas, observamos uma tendência á 
normalização da curva; para termos certeza maior à respeito do formato gaussiano dos dados, 
vamos analisar os índices junto com o gráfico. 
 O coeficiente de assimetria que nos dá o formato da distribuição |0,2437|, indica uma 
assimetria moderada; o coeficiente de curtose, que nos dá o grau de achatamento da distribuição 
normal (0,25), indica uma curva leptocúrtica, que significa uma pequena dispersão dos dados; o 
coeficiente de variação, que fornece a dispersão dos dados em torno da média aritmética indica uma 
pequena dispersão (15,18%), condizente com a informação fornecida pelo coeficiente de curtose. 
 Analisando as medidas de tendência central, temos: 
- Podemos calcular as três medidas (média, moda e mediana) porque a variável em estudo (tempo 
em min para carregar um caminhão no período considerado) assim permite; 
Se pretendermos trabalhar com estatística indutiva, a melhor escolha será a média (66,46 min); no 
entanto, não podemos esquecer que a média é uma medida sensível a valores extremos; se a 
distribuição puder ser considerada normal, esta é a melhor medida de localização do centro. Outro 
motivo para esta escolha é se pretendermos representar a quantidade total expressa pelos dados; 
neste caso, se multiplicarmos a média pelo total de elementos, obteremos a quantidade pretendida. 
- Se a distribuição for multimodal, a medida de tendência central adequada é a moda, pois qualquer 
outra medida de localização do centro da distribuição pode apresentar dados inflacionados. No 
exemplo, temos somente uma moda (64 min). 
- A mediana (66 min) não é tão sensível quanto a média aritmética à distribuição de modo geral; 
como em uma distribuição simétrica média, moda e mediana coincidem, e no exemplo elas estão 
bastante próximas, a utilização da mediana dependerá do objetivo proposto (por exemplo, “quebrar” 
o conjunto de dados em duas partes iguais levaria a utilização da mediana; se quiséssemos separar 
em grupos de pessoas que precisaram de mais minutos por período e pessoas que precisaram de 
menos minutos para carregar o caminhão). 
 
Analisando as medidas de dispersão temos: a amplitude total (diferença entre o maior e o 
menor valor observado – 42 min) é uma medida grosseira, porém rápida de se ter uma idéia da 
dispersão. A utilização de 1/6 deste valor (7 min) como medida de dispersão quando não podemos 
trabalhar com a média pode, às vezes, ser de grande utilidade. No entanto, é uma medida muito 
sensível á existência na amostra de uma observação muito grande ou muito pequena. Assim, define-
se outra medida, o intervalo interquartil, que é, de certa forma, uma solução, pois não é afetado, de 
modo geral, pela existência de números muito altos ou muito baixos, uma vez que utiliza os 50% 
dos valores centrais ordenados. Esta medida é definida como a diferença entre o terceiro e o 
primeiro quartil (dj=14 min). 
 Do modo como definimos a amplitude interquartil, esperamos que 50% dos elementos do 
centro da amostra estejam contidos num intervalo com aquela amplitude. No exemplo, entre 72,5 e 
58,5. Esta medida, assim como o desvio-padrão, é não negativa e será tanto maior quanto maior for 
a variabilidade nos dados. Mas ao contrário do que acontece com o desvio-padrão, uma amplitude 
interquartil nula não significa necessariamente que os dados não apresentem variabilidade. 
 Se optarmos por trabalhar com a média aritmética, o desvio-padrão será a escolha mais 
correta e indicada para medir a variabilidade dos dados. 
 Há ainda o intervalo criado por Tukey, que nos dá o intervalo que contém aproximadamente 
95% dos dados (37,5; 93,5). Não significa que há 95% de probabilidade de que este intervalo seja 
válido, porém pode-se tentar estimar sem falar em probabilidade por enquanto!! 
 Vamos analisar o mesmo conjunto de dados, agora agrupados em uma tabela de frequência. 
 
 
 
 
Estatística II 
Prof. Laura Maria Saporski Cachuba 
19 
Analisando com os Dados Agrupados (Tabela de Frequência) 
 
 O processo de construção de uma tabela de frequência envolve os seguintes passos: 
Passo 1: Decidir o número de classes de sua tabela de frequência. A título de orientação, o 
número de classes deve ficar entre 5 e 20. O número efetivo de classes pode depender da 
conveniência de utilizar números arredondados ou de outros fatores subjetivos. Com notas 
de testes, por exemplo, pode ser conveniente utilizar 10 classes: 50-54, 55-59, 60-64, ..., 
95-99. 
Passo 2: Determinar o intervalo de classe (c), dividindo a amplitude total pelo número de 
classes. (A amplitude é a diferença entre o maior e o menor valor.) Arredonde o resultado 
para mais, até um número conveniente. Esse arredondamento para mais não somente é 
conveniente como também garante que todos os valores sejam incluídos na tabela de 
frequências. (Se o número de classes divide exatamente a amplitude, é preciso acrescentar 
mais uma classe para que todos os dados sejam incluídos.) 
Passo 3: Escolher como limite inferior da primeira classe o menor valor observado ou um 
valor ligeiramente inferior a ele. Esse valor serve como ponto de partida. 
Passo 4: Some o intervalo de classe ao ponto de partida, obtendo o segundo limite inferior 
de classe. Adicione o intervalo de classe ao segundo limite inferior para obter o terceiro; e 
assim por diante. 
Passo 5: Relacione os limites inferiores de classe em uma coluna e introduza os limites 
superiores, que podem ser facilmente determinados a esta altura. Estes limites são 
definidos pelas regras de matemática de intervalo aberto à esquerda ou à direita. 
Passo 6: Represente cada observação por um pequeno traço na classe apropriada e, com 
auxilio dessa contagem, determine a frequência total de cada classe. 
 
 Como a determinação do número de classes ainda não é uma imposição legal, podemos 
tomar um número diferente de classes que resulte em uma tabela de frequências diferente e 
igualmente correta. Novamente frisamos que a prioridade deve ser a obtenção de uma tabela com 
valores convenientes e compreensíveis. 
 A tabela de distribuição de frequências nos dá informações úteis tornando um conjunto de 
dados mais inteligível, mas perdemos a precisão dos dados originais. Não podemos reconstruir os 
valores iniciais dos dados originais com base na tabela de frequências; sacrificamos a exatidão dos 
dados originais
para termos dados mais compreensíveis. 
 Na construção de tabelas de frequência, devemos observar as seguintes diretrizes: 
1. As classes devem ser mutuamente excludentes. Ou seja, cada valor original deve pertencer 
exatamente a uma, e somente uma classe. Para isso, procure utilizar somente intervalos fechados 
(ou abertos) à esquerda ou à direita. Evite intervalos fecahdos em ambos os lados ou abertos em 
ambos os lados, pois isto tende a distorcer os dados da tabela. 
2. Todos os valores coletados devem ser incluídos, mesmo os de valor igual a zero, em uma e 
somente uma classe. 
3. Procurar utilizar o mesmo intervalo de classe para todos os níveis, mas é possível utilizar 
diferentes intervalos de classe, se for necessário para uma melhoria na análise. Embora 
eventualmente seja difícil evitar intervalos com extremidade aberta, como “65 anos ou mais” esta 
prática deve ser evitada. 
4. Escolher números convenientes para limites de classe. Arredondar para cima a fim de ter menos 
casas decimais, ou utilizar números adequados à situação. 
5. Utilizar entre 5 e 20 classes. 
6. A soma das frequências das diversas classes deve ser igual ao número de observações originais. 
7. As frequências definidas para cada classe não podem nunca ser iguais a zero, pois este resultado 
também distorce as estatísticas. 
 
 
Estatística II 
Prof. Laura Maria Saporski Cachuba 
20 
 Uma maneira prática de montar tabelas de frequência é utilizando softares estatísticos. Mas 
lembre-se: o software montará a tabela, mas não realizará os cálculos das estatísticas. Como é 
possível determinar inúmeras tabelas diferentes com o mesmo conjunto de dados, este cálculo é 
feito à parte, depois da tabela montada. 
 Tanto o excel quanto os softwares estatísticos só realizam cálculos para dados 
desagrupados (rol)!! Não esqueça deste importante detalhe!! 
 O software indicado para esta disciplina é de domínio público e pode ser baixado direto da 
internet, para posterior instalação em seu computador. O software cham-se Bioestat e foi criado 
para área de meio ambiente e sáude. Mas pode ser perfeitamente utilziado por várias outras áreas, 
pois a análise estatítstica é bastante democrática! Entre no site: www.mamiraua.org.br e procure no 
menu a opção downloads; a versão atual é a 5.3; o software é simples, em português e de fácil 
instalação. 
 
 No nosso exemplo sobre o tempo que os funcionários de uma empresa demoram a carregar 
um caminhão com mercadorias (em min) em uma amostra de 50 funcionários, quando analisamos 
os dados através de uma Tabela de Frequência, obtemos os valores abaixo para as estatísticas: 
 
Cálculos para dados Agrupados: 
 
76576,650log33,31nlog33,31K 
 
5,63086,6
6576,6
42
K
AT
c 
 
   
06,66
50
225,87325,48
 1 





 
n
fx
X
K
i
ii 
 
   
6,665,6
6141014
1014
5,64c
dd
d
liMo
21
1 





 
 
89,655,6
14
2225
5,64c
fmed
med.ant.Facmed.Pos
liMd 




 





 

 
        48,19006,66
150
225,87325,48
X
1n
fx
S
2
22
2
K
1i
i
2
i
2 







  
 
80,1348,190ss 2 
 
%9,20100
06,66
80,13
100
X
s
CV 
 
 
039,0
80,13
6,6606,66
S
MoX
AS 




 
   
257,0
94,5275,802
325,58625,72
PP2
QQ
C
1090
13 






 
5,37
4
50
3Pos5,12
4
50
1Pos
4
n
KPos 3Q1QQK 
 
45
100
50
90Pos5
100
50
10Pos
100
n
KPos 90P10PPK 
 
 
Estatística II 
Prof. Laura Maria Saporski Cachuba 
21 
625,725,6
6
365,37
71Q
325,585,6
10
125,12
58Q
c
f
antQ.FacQ.Pos
liQ
3
1
QK
KK
K





 






 




 
75,805,6
6
4245
5,77P
94,525,6
9
35
5,51P
 c
f
P.ant.FacP.Pos
liP
90
10
PK
KK
K





 






 




 
 
Resumo das Estatísticas para distribuição de Frequência (Dados Agrupados): 
 
min 94,075 :superior intervalomin 36,875 :inferior intervalomin 3,14dj
%9,20CV min80,31s min 48,190s
caleptocúrti curva (curtose) 257,0C fraca assimetria 039,0
min75,80P min94,52P min625,72Q min325,58Q
min6,66Momin 89,65Md min06,66
5,630,6
658,6
42
7658,6
7minAT da 1/6min 42 50
22
901031







AS
X
cclassesK
ATn
 
 
Classes fi xi xi.fi xi
2 xi
2.fi Fac Fr 
45  51,5 3 48,25 144,75 2.328,06 6.984,19 3 6% 
51,5  58 9 54,75 492,75 2.997,56 26.978,06 12 18% 
58  64,5 10 61,25 612,5 3.751,56 37.515,63 22 20% 
64,5  71 14 67,75 948,5 4.590,06 64.260,88 36 28% 
71  77,5 6 74,25 445,5 5.513,06 33.078,38 42 12% 
77,5  84 6 80,75 484,5 6.520,56 39.123,38 48 12% 
84  90,5 2 87,25 174,5 7.612,56 15.225,13 50 4% 
 50 3303,0 223.165,63 100% 
 
No exemplo, quando analisamos através de tabela de frequências, os gráficos indicados são 
agora o Histograma e/ou o Polígono (ou Ogiva) de Frequência, apresentadas nas figuras abaixo. 
 
 
Estatística II 
Prof. Laura Maria Saporski Cachuba 
22 
Histograma
0
2
4
6
8
10
12
14
16
45 a 51,5 51,5 a 58 58 a 64,5 64,5 a 71 71 a 77,5 77,5 a 84 84 a 90,5
Classes
Fr
eqü
ênc
ias
 
 
 
Ogiva (ou Polígono) de Freqüencias
0
2
4
6
8
10
12
14
16
48,25 54,75 61,25 67,75 74,25 80,75 87,25
ponto médio
Fr
eq
üê
nc
ias
 
 
Estatística II 
Prof. Laura Maria Saporski Cachuba 
23 
O formato apresentado, assim como ocorreu com o Ramo-e-Folhas na análise por rol, 
mostra uma tendência a aceitarmos a distribuição normal como adequada. O coeficiente de 
assimetria encontrado 0,039, mostra uma assimetria fraca tendendo a esquerda (sinal negativo); no 
entanto, a queda abrupta após o limite 71, prejudica um pouco a avaliação e o resultado. Desta 
forma, se não pudermos aceitar a definição de normalidade, o coeficiente de curtose fica sem 
função, ou seja, não é muito confiável. Na distribuição de frequências, acabamos aumentando a 
variabilidade. E, por conseguinte, prejudicando a forma da distribuição. O valor do desvio-padrão 
(13,8) e por consequência o coeficiente de variação (20,9%) são maiores do que para rol. A escolha 
do número de classes e do intervalo estipulado afeta a distribuição; poderíamos ter outro resultado, 
organizando os dados de outra maneira. 
 Quando agrupamos os valores, interferimos nos dados e perdemos um pouco em precisão. O 
coeficiente de variação indica uma dispersão moderada. 
Para trabalharmos com distribuição de frequências, caso outro arranjo não fosse indicado, 
poderíamos necessitar de uma amostra maior, ou inclusão de outras variáveis que afetem a resposta 
esperada, ou ainda uma definição diferente na forma de coleta (tipo de amostragem adotado). 
 A pouca diferença entre valores de média, moda e mediana nos permite trabalhar com 
qualquer uma delas. 
 As observações feitas para rol são válidas neste caso também. 
 As estatísticas criadas por Tukey (esquema de 5 números, intervalo interquartil ou Box-Plot) 
são também válidas para distribuição de frequências. 
 
Estatística II 
Prof. Laura Maria Saporski Cachuba 
24 
Exercício 11. Foi coletada uma amostra da altura de 22 alunos do sexo masculino, obtendo-se os 
seguintes resultados: 
 
Altura fi Fac xi xifi xi
2fi fr 
170 2 172 
 6
7 19 
 
 
 
Complete a tabela e responda: 
a) Qual é a média e a variância dos dados? 
76,30;91,580.1;91,180 2  ssX
 
b) Acima de qual altura se encontram os 11 alunos mais altos? 
c) Calcule a mediana e a moda. 
80,182;33,181  MoMd
 
d) Que medida de tendência central você escolheria para representar os dados? Justifique sua 
resposta. 
e) Em outra amostra coletada, observou-se a altura das alunas obtendo-se altura média de 165,02 
cm e desvio-padrão de 4,05 cm. Que grupo é mais homogêneo? Que critérios você utilizou para 
responder a questão?
%45,2%;98,21  MH CVCV
 
f) Que gráfico você utilizaria para analisar os dados desta tabela? Por que e com qual finalidade? 
 
Estatística II 
Prof. Laura Maria Saporski Cachuba 
25 
II. Representação Tabular e Gráfica 
 
2.1 TABELAS 
 Tabela é a forma não discursiva de apresentação de informações que tem por finalidade a 
descrição e/ou cruzamento de dados numéricos, codificações, especificações técnicas e símbolos. 
Dessa forma, a apresentação tabular deve sintetizar os dados nas tabelas de modo a facilitar a leitura 
e propiciar maior rapidez na interpretação das informações. 
Dependendo de seu conteúdo, as tabelas podem ser classificadas em: tabelas estatísticas, 
tabelas técnicas, tabelas de rotinas ou controle, tabelas de codificação, tabelas de coleta e tabelas 
especiais. 
Os trabalhos técnico-científicos utilizam-se, em geral, de tabelas estatísticas para apresentar 
dados. Estas podem ser definidas como conjuntos de dados estatísticos, associados a um fenômeno, 
dispostos numa determinada ordem de classificação. Elas expressam, pois, as variações qualitativas 
e quantitativas de um fenômeno. 
 A tabela estatística apresenta um conjunto de dados numéricos que expressam as variações 
quantitativas e/ou qualitativas associadas a um determinado fenômeno. 
 Quanto aos critérios gerais para a apresentação, as tabelas estatísticas: 
- Devem ser dotadas de todas as informações necessárias a uma completa compreensão do 
conteúdo, dispensando consultas ao texto, e apresentadas da maneira mais simples e objetiva 
possível, preferencialmente em uma única página; 
- Podem ser apresentadas intercaladas no texto, ou em anexo, devendo ser utilizado este último 
procedimento quando o volume de tabelas for grande, o que dificultaria a leitura continuada do 
texto; 
- Quando intercaladas em um texto, devem estar próximas do trecho em que são citadas pela 
primeira vez, separadas da linha de texto precedente por uma linha em branco; 
- Devem ser alinhadas preferencialmente às margens laterais do texto e, quando pequenas, devem 
ser centralizadas; 
- Não devem apresentar o texto em formato maior que o adotado para o documento; em alguns 
casos pode ser feita a redução gráfica até um limite que não prejudique a legibilidade do material 
reduzido; 
- Não devem apresentar a maior parte das casas vazias, indicando a inexistência do fenômeno do 
qual tratam. 
 
Uma tabela é constituída de: 
 Título: conjunto de informações, as mais completas possíveis, localizado no topo da tabela. 
 Coluna Indicadora: parte da tabela que especifica o conteúdo das linhas. Esta coluna deve 
estar posicionada logo à esquerda. 
 Cabeçalho: parte superior da tabela que especifica o conteúdo da colunas. 
 Corpo: conjunto de linhas e colunas que contém informações sobre a variável em estudo. É 
o espaço compreendido entre o cabeçalho e a coluna indicadora. 
 Linhas: retas imaginárias que facilitam a leitura, no sentido horizontal, de dados que 
inscrevem nos seus cruzamento com as colunas. 
 Casas ou Células: espaço destinado a um só número. 
 
 Existem ainda, elementos complementares que são: a fonte, as notas e as chamadas, os quais 
devem ser colocados no rodapé da tabela. 
 As notas devem esclarecer aspectos relevantes do levantamento dos dados ou da apuração. 
 As chamadas são esclarecimentos sobre os dados. Devem ser feitas através de algarismos 
arábicos escritos entre parênteses, e colocados à direita da coluna. 
 
Exemplo: 
 
Estatística II 
Prof. Laura Maria Saporski Cachuba 
26 
Coluna Indicadora Cabeçalho 
 C 
 Casa ou Célula O 
 L LINHA 
 U 
 N 
 A 
Rodapé 
 
 De acordo com a resolução 886 de 1966 do Conselho Nacional de Estatística, nas casas ou 
células da tabela devemos colocar: 
- Um traço horizontal - hífen ( - ) quando o valor é zero, não só quanto à natureza das coisas, como 
quanto ao resultado do inquérito; 
- Três pontos ( ... ) quando não temos os dados; 
- Zero ( 0 ) quando o valor é muito pequeno para ser expresso pela unidade utilizada Se os valores 
são expressos em numerais decimais, precisamos acrescentar à parte decimal um número 
correspondente de zeros (0,0; 0,00; 0,000); 
- Xis ( X ) para dado omitido para evitar individualização; 
- Um ponto de interrogação ( ? ) quando temos dúvida quanto à exatidão de determinado valor. 
Obs: O lado direito e esquerdo de uma tabela oficial deve ser aberto. 
 
3. Séries Estatísticas 
É qualquer tabela que apresenta a distribuição de um conjunto de dados estatísticos em 
função da época, do local ou da espécie. 
SÉRIES HOMÓGRADAS: são aquelas em que a variável descrita apresenta variação discreta ou 
descontínua. Podem ser do tipo temporal, geográfica ou específica. 
a) Série Temporal: identifica-se pelo caráter variável do fator cronológico. O local e a espécie 
(fenômeno) são elementos fixos. Esta série também é chamada de histórica ou evolutiva. 
 
Tabela I – ABC Veículos LTDA. Vendas no 1º bimestre de 1996 
 
Período Unidades Vendidas* 
Janeiro de 1996 20 
Janeiro de 1996 10 
Total 30 
*Em mil Unidades 
 
 
b) Série Geográfica: Apresenta como elemento variável o fator geográfico. A época e o fato 
(espécie) são elementos fixos. Também é chamada de espacial, territorial ou de localização. 
 
Tabela II – ABC veículos LTDA. Vendas no 1º bimestre de 1996 
 
Período Unidades Vendidas* 
São Paulo 13 
Rio de Janeiro 17 
Total 30 
*Em mil unidades 
 
c) Série Específica: O caráter variável é apenas o fato ou espécie. Também é chamada de séria 
categórica. 
 
Estatística II 
Prof. Laura Maria Saporski Cachuba 
27 
Tabela III – ABC Veículos LTDA. Vendas no 1º bimestre de 1996 
 
Marca Unidades Vendidas* 
FIAT 18 
GM 12 
Total 30 
*Em mil unidades 
 
SÉRIES CONJUGADAS: Também chamadas de tabelas de dupla entrada. São apropriadas à 
apresentação de duas ou mais séries de maneira conjugada, havendo duas ordens de classificação: 
uma horizontal e outra vertical. O exemplo abaixo é de uma série geográfico-temporal. 
 
Tabela IV – ABC Veículos LTDA. Vendas no 1º bimestre de 1996 
 
Filiais Janeiro de 1996 Fevereiro de 1996 
São Paulo 10 3 
Rio de Janeiro 12 5 
Total 22 8 
*Em mil unidades 
 
 
3.1 Descrição Tabular 
As técnicas usadas na descrição de um único atributo qualitativo são extremamente simples, 
chegando mesmo a ser intuitivas. Aliás, a simplificação é um dos objetivos da estatística descritiva. 
 
 
Ex. 
Tabela VII – Distribuição de Frequências da variável reação ao teste sorológico realizado no sangue 
de 50 indivíduos. 
Reação Número de Indivíduos 
+ (Positiva) 29 
- (Negativa) 21 
Total 50 
 
A descrição dos dados referentes a variáveis qualitativas é feita, em geral, através de tabelas 
de frequências, também conhecidas como tabelas de mono-entrada e como distribuições de 
frequência dos valores assumidos por alguma variável. 
Elas são constituídas de duas colunas: uma contendo valores que a variável assume e outra 
contendo os números de vezes (frequências) com as quais esses valores
ocorrem. 
 
2.2 FIGURAS 
 
As figuras são construções visuais que ilustram ou exemplificam aspectos tratados no texto. 
Os tipos mais comuns são mapas, plantas, gráficos de organização (fluxograma e organograma). 
 
Os gráficos são construções visuais que, através da manipulação de dados, geram novas 
informações e as tornam mais legíveis. Eles podem ser classificados de acordo com o modelo 
empregado. Ao se construir um gráfico, deve-se indicar a menor quantidade de variáveis. Isto 
porque à medida que se agregam mais variáveis, a leitura pode ficar prejudicada, podendo, 
inclusive, destruir a informação. 
Os tipos mais eficientes de gráficos são os lineares e os de barra. É importante salientar que 
o gráfico de setores (pizza) deve ser utilizado quando se deseja confrontar as partes integrantes de 
Estatística II 
Prof. Laura Maria Saporski Cachuba 
28 
um total, não sendo aconselhável representar um número maior de seis fatias para não prejudicar 
sua leitura. 
 Gráfico é toda representação de dados e informações por meio de diagramas, desenhos, 
figuras ou imagens, de modo a possibilitar a interpretação da informação, de forma rápida e 
objetiva. A preocupação com a exatidão na sua representação deve ser constante, pois a informação 
transmitida não pode ser distorcida. São representações visuais dos dados estatísticos que devem 
corresponder, mas nunca substituir as tabelas estatísticas. 
 
Características: Uso de escalas, sistema de coordenadas, simplicidade, clareza e veracidade. 
 A escolha do método a empregar quando se deseja representar graficamente alguma 
informação está diretamente associada ao tipo de dado e ao objetivo a que se propõe: apresentação 
técnico-científica, publicitária e outras. 
 
Gráficos de informação: São gráficos destinados principalmente ao público em geral, objetivando 
proporcionar uma visualização rápida e clara. São gráficos tipicamente expositivos, dispensando 
comentários explicativos adicionais. As legendas podem ser omitidas, desde que as informações 
desejadas estejam presentes. 
 
Gráficos de análise: São gráficos que se prestam melhor ao trabalho estatístico, fornecendo 
elementos úteis à fase de análise dos dados, sem deixar de ser também informativos. Os gráficos de 
análise frequentemente vêm acompanhados de uma tabela estatística. Inclui-se, muitas vezes um 
texto explicativo, chamando a atenção do leitor para os pontos principais revelados pelo gráfico. 
 
Uso indevido de gráficos: Podem trazer uma idéia falsa dos dados que estão sendo analisados, 
chegando mesmo a confundir o leitor. Trata-se, na realidade, de um problema de construção de 
escalas. 
 
 Um gráfico, se bem construído, consegue transmitir uma idéia com muita rapidez e de forma 
simples e atraente, levando o leitor a poupar tempo e despender menor esforço na compreensão de 
uma série de dados, os quais são muitas vezes de difícil percepção na forma tabular. No entanto, se 
a relação entre os dados apresentados no gráfico não está clara, este deve ser descartado, pois não 
contribuirá para a análise. Nesse caso, a apresentação em tabelas torna-se mais conveniente. Logo, é 
condição necessária considerar as características dos dados a fim de escolher corretamente o 
modelo de gráfico a ser usado. 
 Resumidamente: 
- Para apresentar dados em uma linha de tempo o gráfico mais indicado é o de linhas. 
- O gráfico de setores (ou pizza) é usado quando se representa 100% do total da amostra utilizada. 
Preferencialmente deverá ter no máximo 6 “fatias” para evitar poluição visual e impedir uma boa 
análise. 
- Se existir a necessidade de apresentar um número maior de categorias e/ou não se representar o 
total da amostra, os gráficos de barras serão mais indicados. 
 Para se obter uma visualização correta das informações a serem apresentadas no gráfico, é 
necessário observar os parâmetros descritos a seguir: 
 
Proporções 
 
 De importância fundamental, o uso de proporções corretas na elaboração do gráfico está 
diretamente associado á exatidão da informação nele contida. De acordo com as proporções 
adotadas nas escalas vertical e horizontal, obtém-se um gráfico “mais alto” ou “mais largo”, o que, 
conforme o caso, pode distorcer o resultado. 
Estatística II 
Prof. Laura Maria Saporski Cachuba 
29 
 Um diagrama de linhas, por exemplo, se for mais largo do que alto poderá esticar a curva, 
dando a impressão de mudanças lentas, enquanto um gráfico muito alto em relação a largura 
comprime a curva, dando a impressão de alterações bruscas dentro de certo período. 
 
Composição 
 
 É o conjunto formado pelo tamanho, forma e arranjo dos elementos dentro do gráfico. 
Considere-se que em trabalhos técnico-científicos, a finalidade principal dos gráficos não é a de 
representar uma composição artística e sim evidenciar informações. Assim, recomenda-se cuidados 
quanto aos aspectos destacados no gráfico, pois a tentativa de dar ênfase a tudo pode resultar na 
inexistência de destaques e/ou na falta de clareza. 
 
Simplicidade 
 
 Um gráfico deve ser apresentado de forma simples a fim de propiciar ao observador uma 
percepção rápida do fenômeno. Mesmo contando com os recursos de informática disponíveis, o 
gráfico deve conter apenas o essencial para a sua construção. Deve-se evitar a representação de 
muitos aspectos em um único gráfico, bem como a utilização de traços inúteis que podem dar um 
tom artístico ao gráfico, mas dificultam a visualização do fenômeno apresentado. 
 
Clareza 
 
 A apresentação do gráfico deve ser clara, de modo a proporcionar a interpretação correta dos 
valores representados. Os dados numéricos, suas unidades e as linhas que representam os valores 
devem ser colocados de modo a impossibilitar o aparecimento de dúvidas capazes de acarretar erros 
e levar a conclusões falsas sobre o fenômeno. O gráfico deve permitir uma única interpretação. 
 
Veracidade 
 
 Um gráfico deve expressar a verdade sobre o fenômeno analisado. Para tanto, é importante 
que o gráfico seja construído com o máximo cuidado, quer quanto ao traçado, quer quanto á escala 
utilizada. 
 A confecção de gráficos estatísticos requer, além da precisão no desenho, a escolha do 
modelo mais adequado, possibilitando que os dados sejam apresentados com exatidão. Necessita 
também que sejam apresentados com exatidão e que sejam observado alguns critérios gerais na sua 
apresentação. 
 Em sua maioria, esses gráficos utilizam-se do sistema cartesiano, formado pelo cruzamento 
do eixo das abscissas (linha horizontal) com o eixo das ordenadas (linha vertical). O ponto de 
intersecção corresponde ao ponto (0,0), conhecido como origem, de onde se constrói uma escala em 
duas direções (positiva e negativa). 
 Na escala horizontal (abscissas) representa-se principalmente a variação do fenômeno 
geográfico, cronológico ou específico (categorias, setores e outros), como, por exemplo, anos meses 
(cronológico), regiões, municípios (geográfico), setores da economia, classes de renda (específico). 
Na escala vertical (ordenada) normalmente representam-se os valores relativos ao fenômeno. 
 Na confecção do gráfico deve-se utilizar as duas escalas com exatidão e a divisão destas é 
determinada pela amplitude dos dados e das categorias a representar. 
 Valores negativos são representados normalmente dentro do sistema cartesiano, devendo-se 
observar cuidadosamente a forma de apresentá-los. Embora o usual seja a colocação dos valores no 
eixo das ordenadas, muitas vezes, quando existem dados negativos, é comum apresentá-los no eixo 
das abscissas, o que resulta em um gráfico confuso. Esse fato ocorre normalmente em trabalhos 
com fins publicitários. 
 
Estatística
II 
Prof. Laura Maria Saporski Cachuba 
30 
 
 
3,2 Classificação dos Gráficos: Diagramas, Estereogramas, Pictogramas e Cartogramas. 
 
1 – Diagramas: 
Tanto os diagramas quanto os gráficos são representações ilustradas de informações. Ambos 
são usados para a comunicação visual e seu objetivo é simplificar as informações que transmitem. 
Mas existem algumas diferenças. 
Um diagrama destina-se a: 
- Demonstrar ou explicar o funcionamento de algo. 
- Esclarecer o relacionamento entre as partes de um todo. 
O uso de diagramas é uma excelente forma de ilustrar um material conceitual e avivar 
documentos. Você pode, por exemplo, ilustrar como os personagens de um romance estão 
relacionados uns aos outros. 
 
Um gráfico destina-se a: 
- Apresentar informações oriundas de uma tabela. 
- Representar informações específicas graficamente. 
O uso de gráficos é uma excelente forma de facilitar a exibição e o entendimento de 
materiais complexos — como comparações, padrões e tendências de dados. 
 Gráficos de Barra ou Coluna são representados em duas dimensões, podendo mostrar mais 
de uma variável. Não é aconselhável a apresentação de muitas variáveis, pois a interpretação pode 
ser confusa. 
São os mais usados na representação de séries estatísticas. Eles podem ser: 
1.1 – Gráficos em barras horizontais. 
1.2 – Gráficos em barras verticais (colunas). 
Quando as legendas não são breves usa-se de preferência os gráficos em barras horizontais. 
Nesses gráficos os retângulos têm a mesma base e as alturas são proporcionais aos respectivos 
dados. A ordem a ser observada é a cronológica, se a série for histórica, e a decrescente, se for 
geográfica ou categórica (gráfico de Pareto). 
1.3 – Gráficos em barras compostas. 
1.4 – Gráficos em colunas superpostas. 
 
 
 
 
 
 
 
 
 
 
Estatística II 
Prof. Laura Maria Saporski Cachuba 
31 
Gráfico XX: Gráfico de barras para comparação da distribuição de frequências de uma variável 
(raça) em vários grupos (indigentes, pobres e população total). 
 
 
 
Eles diferem dos gráficos em barras ou colunas convencionais apenas pelo fato de apresentar 
cada barra ou coluna segmentada em partes componentes. 
Servem para representar comparativamente dois ou mais atributos. 
 
1.5 – Gráficos em linhas ou lineares. 
São frequentemente usados para representação de séries cronológicas com um grande 
número de períodos de tempo. As linhas são mais eficientes do que as colunas, quando existem 
intensas flutuações nas séries ou quando há necessidade de se representarem várias séries em um 
mesmo gráfico. 
Quando representamos, em um mesmo sistema de coordenada, a variação de dois 
fenômenos, a parte interna da figura formada pelos gráficos desses fenômenos é denominada de 
área de excesso. 
 
1.6 – Gráficos em setores. 
Este gráfico é construído com base em um círculo, e é empregado sempre que desejamos 
ressaltar a participação do dado no total. O total é representado pelo círculo, que fica dividido em 
tantos setores quantas são as partes. Os setores são tais que suas áreas são respectivamente 
proporcionais aos dados da série. O gráfico em setores só deve ser empregado quando há, no 
máximo, sete dados. 
Obs: As séries temporais geralmente não são representadas por esse tipo de gráfico. 
 
Estatística II 
Prof. Laura Maria Saporski Cachuba 
32 
2 – Estereogramas: 
São gráficos geométricos dispostos em três dimensões, pois representam volume. São 
usados nas representações gráficas das tabelas de dupla entrada. Em alguns casos este tipo de 
gráfico fica difícil de ser interpretado dada a pequena precisão que oferecem. 
 
3 – Pictogramas: 
São construídos a partir de figuras representativas da intensidade do fenômeno. Este tipo de 
gráfico tem a vantagem de despertar a atenção do público leigo, pois sua forma é atraente e 
sugestiva. Os símbolos devem ser autoexplicativos. A desvantagem dos pictogramas é que apenas 
mostram uma visão geral do fenômeno, e não de detalhes minuciosos. Veja o exemplo abaixo: 
 
 
 
 
 
 
 
4 – Cartogramas: 
São ilustrações relativas a cartas geográficas (mapas). Este gráfico é empregado quando o objetivo é 
o de figurar os dados estatísticos diretamente relacionados com áreas geográficas ou políticas. 
Distinguimos duas aplicações: 
a. Representar dados absolutos (população) – neste caso, lançamos mão, em geral, dos pontos, 
em número proporcional aos dados. 
b. Representar dados relativos (densidade) – neste caso, lançamos mão, em geral, de hachuras 
ou cores. 
 
 
Estatística II 
Prof. Laura Maria Saporski Cachuba 
33 
 
Fonte: IBGE, Amostra do Censo 2000. 
 
 
 
 
3.3. Descrição Gráfica 
 Os gráficos utilizados na descrição gráfica das variáveis qualitativas unidimensionais são: 
- Gráfico de Barras; 
- Gráfico de Colunas; 
- Gráficos de Pareto 
- Gráfico de Setores Circulares. 
 
Estatística II 
Prof. Laura Maria Saporski Cachuba 
34 
a) Gráfico de Barras 
 Os gráficos de barras têm por finalidade comparar grandezas, por meio de retângulos de 
igual largura e alturas proporcionais às respectivas grandezas. Cada barra representa a intensidade 
de uma modalidade do atributo. As magnitudes das barras são representadas pelos respectivos 
comprimentos e seu traçado é feito tendo-se como referencia uma escala horizontal. Em geral, as 
divisões da escala se prolongam em traços verticais por todo o gráfico, facilitando assim a leitura do 
comprimento de cada barra. A identificação da barra é inscrita á esquerda do gráfico. 
 
Há quatro orientações gerais a serem observadas na construção de um gráfico de barras: 
a) As barras só diferem em comprimento, e não em largura, a qual é arbitrária. 
b) As barras só devem vir separadas umas das outras pelo mesmo espaço, o qual é deve ser 
suficiente para que as inscrições que identificam as diferentes barras não tragam confusão ao 
leitor. Como regra prática pode-se tomar o espaço entre as barras como aproximadamente a 
metade ou dois terços de suas larguras. A junção das barras (excluindo-se o espaço) é 
utilizada quando o que se representa no gráfico possui uma continuidade e são ordinais 
(exemplo: classe socioeconômica) 
c) As barras devem ser desenhadas observando sua ordem de grandeza, para facilitar a leitura e 
análise comparativa dos valores. 
d) Um gráfico, construído para mostrar grandezas absolutas, deverá ter uma linha zero 
claramente definida e uma escala de quantidades ininterrupta, caso contrário, a leitura e a 
interpretação do gráfico poderão ficar distorcidas. 
 
Fonte: Secretaria de Saúde do Estado do Paraná. 
 
b) Gráfico de Colunas 
 Os gráficos de colunas prestam-se à mesma finalidade que os gráficos de barras, sendo, 
entretanto, preferíveis a esses últimos quando as legendas a se inscreverem sob os retângulos forem 
breves. Caso contrário, o emprego do gráfico de barras é mais adequado. Então, a única diferença 
51,2
20,1
7,3
4,2
4,2
3
3
1,8
1,8
1,2
0,6
0,6
0,6
0 10 20 30 40 50 60
Supermercado
Posto de Saúde
Hotel
Cto. Coml.
Clube Social
Lanchonete
Hospital
Refeitório Indl.
Creche
Escola
Festa Comum.
Refeitório Com.
Domicílio
Figura 1. Percentuais de Local de Ocorrência de Surtos 
de Doenças Transmitidas por Alimentos - Paraná - 1997
Estatística II 
Prof. Laura Maria Saporski Cachuba 
35 
entre os dois gráficos reside na direção dos retângulos. Todas as demais observações apresentadas 
anteriormente são extensíveis a esse último caso. 
 Observe as duas figuras a seguir. Note que a simples alteração na escala modifica a primeira 
impressão que se tem ao observar
o gráfico. Na figura 2, um observador mais desatento pode achar 
que o resultado foi desfavorável à cantina, devido ao tamanho das barras, indicando o resultado 
“Péssimo”. No entanto, quando colocamos a escala de 0 a 100, a diferença não chega a ser tão 
chamativa, e a tendência é que se observem os valores apresentados. Neste caso, notamos que a 
soma de “Ótima” e “Boa” excede o percentual de “Péssimo”. 
 
 
 
c) Diagramas de Pareto 
 Uma forma mais conveniente de indicar relações entre dados qualitativos é a construção de 
um diagrama de Pareto. Recorde que os dados qualitativos representam uma característica não-
numérica, como os tipos de morte acidental, exemplos já relacionados aqui. Um diagrama de Pareto 
é um gráfico em barras para dados qualitativos, com as barras ordenadas de acordo com a 
frequência. Tal como no caso dos histogramas, as escalas verticais em um diagrama de Pareto 
16,13
25,81
2,15
8,60
34,41
12,90
0,00
5,00
10,00
15,00
20,00
25,00
30,00
35,00
Ótima Boa Aceitável Ruim Péssima Não como
na cantina
Figura 2. Qual a sua opinião sobre a comida servida na 
Cantina?
16,13
25,81
2,15
8,60
34,41
12,90
0,00
10,00
20,00
30,00
40,00
50,00
60,00
70,00
80,00
90,00
100,00
Ótima Boa Aceitável Ruim Péssima Não como
na cantina
Figura 3. Qual a sua opinião sobre a comida servida na 
Cantina?
Estatística II 
Prof. Laura Maria Saporski Cachuba 
36 
podem representar frequências absolutas ou frequências relativas. A barra mais alta fica à esquerda. 
e as barras menores na extrema direita. Dispondo as barras por ordem de frequência, o diagrama de 
Pareto focaliza a atenção sobre as categorias mais importantes. 
 
 O Princípio de Pareto determina que podemos solucionar 80% dos meus problemas 
mexendo em somente 20% das causas (ou regra 80/20). Ele foi sugerido por Joseph M. Juran, o 
mestre da qualidade, que deu o nome em homenagem a Vilfredo Pareto. Pareto era um economista 
italiano sociopolítico que, no fim do século XIX percebeu que 80% da riqueza italiana ia para 20% 
da população. 
 A principal característica do princípio é definir visivelmente a relação ação/benefício. Dessa 
forma, pode-se focar nas ações que nos darão os melhores resultados. 
 Qual a finalidade deste princípio? Este princípio é importante para aqueles que querem 
entender a mecânica por trás das causas e soluções dos problemas em seus projetos. 
 Por exemplo, se conseguimos identificar os 20% das funções mais utilizadas em nossa área, 
podemos trabalhar duro para melhorar o todo. Se você entendeu bem o conceito, já descobriu que 
melhorar esses 20% de código soluciona 80% dos seus problemas. 
 Adicionar a Análise de Pareto à sua análise gerencial é muito interessante, principalmente 
quando você consegue expandir o conceito da regra para aplicá-la à sua realidade. 
 Isto significa que devo esquecer os tais 20%? Claro que não! Esquecer-se dos 20% poderia 
significar perder 20% dos teus clientes, o que é um absurdo! Essa análise é voltada para resultados 
com o menor esforço (quando os prazos estão apertados e a resposta precisa ser rápida), mas temos 
sempre que trabalhar em todas as causas para que não hajam brechas para a concorrência. 
 Pra finalizar, vale dizer que nem sempre as quantidades vão ser exatamente essas (nem que 
elas necessariamente somem 100%), mas a idéia principal é que um pequeno número de causas é 
responsável por um grande número de efeitos. 
 Para construir o diagrama de Pareto: 
1- Defina o objetivo da análise (por exemplo: índice de rejeições). 
2- Estratifique o objeto a analisar (índice de rejeições: por turno; por tipo de defeito; por máquina; 
por operador; por custo). 
3- Colete os dados, utilizando uma folha de verificação. 
4- Classifique cada item. 
5- Reorganize os dados em ordem decrescente. 
6- Calcule a porcentagem acumulada. 
7- Construa o gráfico, após determinar as escalas do eixo horizontal e vertical. 
8- Construa a curva da porcentagem acumulada. Ela oferece uma visão mais clara da relação entre 
as contribuições individuais de cada um dos fatores. 
 
Estatística II 
Prof. Laura Maria Saporski Cachuba 
37 
 
Modelo de Lista de verificação: Componente: Conjunto ABC Seção: Linha de montagem 
Processo de trabalho: montagem Data da produção: 30/03/05 
Quantidade produzida: 1.000 peças Inspetor: 
Tipo de defeito Tabulação Frequência 
do item 
Classificação 
 
% 
individual 
Alinhamento ///// ///// // 12 6º 06% 
Solda ///// ///// ///// ///// / 21 4º 10% 
Parafuso solto ///// ///// /////...///// 
/// 
68 1º 34% 
Junção ///// ///// ///// 15 5º 07% 
Sujeira ///// ///// /////...///// 
/ 
41 2º 20% 
Riscos ///// ///// /////...///// 
//// 
29 3º 14% 
Trinca ///// ///// 10 7º 05% 
Rebarba ///// / 06 8º 03% 
Bolha / 01 9º 01% 
Totais 202 - 100% 
 
 
Modelo de Lista de verificação: Componente: Conjunto ABC Seção: Linha de montagem 
Processo de trabalho: montagem Data da produção: 30/03/09 
Quantidade produzida: 1.000 peças Inspetor: 
Tipo de 
defeito 
Tabulação Frequência 
do item 
Classificação 
 
% 
Individual 
% 
acumulada 
Parafuso solto 
///// ///// 
/////...///// /// 
68 1º 34% 34% 
Sujeira 
///// ///// 
/////...///// / 
41 2º 20% 54% 
Riscos 
///// ///// 
/////...///// //// 
29 3º 14% 68% 
Solda 
///// ///// ///// 
///// / 
21 4º 10% 78% 
Junção ///// ///// ///// 15 5º 07% 85% 
Alinhamento ///// ///// // 12 6º 06% 91% 
Trinca ///// ///// 10 7º 05% 96% 
Rebarba ///// / 06 8º 03% 99% 
Bolha / 01 9º 01% 100% 
Totais 202 - 100% - 
 
 
 
Estatística II 
Prof. Laura Maria Saporski Cachuba 
38 
 
Estatística II 
Prof. Laura Maria Saporski Cachuba 
39 
d) Gráfico de Setores Circulares 
 Gráficos de setores em círculos são aqueles em que a área do círculo (que equivale a 360º) é 
proporcional ao total da série estatística a ser representada, enquanto as áreas dos setores são 
proporcionais às parcelas que constituem a série. Logo, esse tipo de gráfico é adequado quando se 
deseja apresentar partes de um total, ou seja, quando o objetivo é comparar uma determinada 
parcela em relação ao total. Preferencialmente deve-se apresentar os valores em percentuais. 
 É muito importante observar a quantidade de categorias a serem consideradas. Embora 
alguns softwares possibilitem a divisão em um número maior de fatias, não é aconselhável utilizar 
mais que oito categorias e, mesmo nesse caso, deve-se considerar os valores, pois a comparação 
entre categorias pode ficar prejudicada e o gráfico poluído, o que dificulta a visualização. 
 
Figura 4. Você tem acesso à Internet?
17%
22%
39%
10%
12%
Sim, em casa Sim, em casa e na escola
Sim, na escola Sim, outros lugares
Não
Estatística II 
Prof. Laura Maria Saporski Cachuba 
40 
Critérios Gerais para Apresentação de Tabelas, Gráficos e Figuras 
As tabelas, os gráficos e as figuras são apresentados conforme os seguintes critérios: 
1. devem ser dotados de todas as informações necessárias a uma completa compreensão do 
conteúdo, e apresentados da maneira mais simples e objetiva possível; 
2. podem ser intercalados no texto ou colocados em anexo. As figuras em anexo devem ser 
utilizadas quando o volume desses elementos for grande, o que dificultaria a leitura contínua 
do texto; 
3. quando inseridos em um texto, devem estar localizados próximos ao trecho em que são 
citados pela primeira vez, separados da linha de texto precedente por uma linha em branco; 
4. devem ser alinhados preferencialmente
nas margens laterais do texto e, quando pequenos, 
devem ser centralizados; 
5. devem ser compostos de maneira a evitar que sua colocação tenha sentido de leitura 
diferente da normal. Quando isto não for possível, nem mesmo por redução, deverão ser 
colocados de tal forma que sua leitura seja feita no sentido horário; 
6. deve-se evitar o formato maior do que aquele adotado para o texto (formato A4); em alguns 
casos, pode ser feita redução gráfica, desde que não prejudique a legibilidade do material 
reduzido; 
7. quando for indispensável utilizar abreviaturas que não sejam de uso corrente, deve-se 
indicar seu significado utilizando uma nota específica; 
8. os títulos são listados pela sua natureza (tabela, gráfico e figura), sendo a lista colocada no 
início do trabalho, após o sumário. A ordem recomendada é a seguinte: figuras, tabelas e 
gráficos. 
Partes componentes de Figuras, Tabelas e Gráficos 
As partes componentes de figuras, tabelas e gráficos são: título; corpo; referência, fonte 
e/ou autoria; nota(s) ou observações gerais; nota(s) específica(s); e legenda. 
Título 
O título compõe-se da referência (tipo de elemento e número), da descrição do conteúdo e da 
data de referência, apresentado conforme os seguintes critérios: 
1. o corpo de tabelas, gráficos e figuras deve ser inserido antes dos títulos dos mesmos; 
2. deve ser autoexplicativo, ou seja, apresentar o conteúdo deles de maneira completa; 
3. deve ser centralizado em relação aos limites da tabela, gráfico e figura; 
Referência, fonte e/ou autoria 
A referência é o componente que identifica uma tabela, gráfico ou figura no texto ou em 
anexos. Sua presença no título é obrigatória. 
Exemplos: 
Tabela 5. Consumo de energia elétrica no Paraná, janeiro de 1995. 
Gráfico 5. Área, produção e rendimento médio do café, no Brasil e no Paraná. 
 
Estatística II 
Prof. Laura Maria Saporski Cachuba 
41 
Os seguintes procedimentos devem ser adotados em uma referenciação: 
a) deve ser escrita com a primeira letra maiúscula e separada da primeira linha da descrição do 
conteúdo por um ponto; 
b) as referências devem ser numerados de 1 a n, seguindo uma sequência para cada capítulo; 
c) na numeração por capítulo, o número de ordem deve ser precedido do número do capítulo, 
separado deste por um ponto; 
Exemplos: 
Tabelas do Capítulo 1 
Tabela 1.1. 
Tabela 1.2. 
Tabelas do Capítulo 2 
Tabela 2.1. 
Tabela 2.2. 
d) este mesmo procedimento deve ser feito para tabelas em Anexo, sendo o número de ordem 
precedido pela letra A (de anexo). 
Exemplos: 
Tabelas do Anexo 1 
Tabela A.1 
 
Descrição do conteúdo 
Deve conter a designação do fato observado e o local de ocorrência. A descrição do 
conteúdo é feita segundo os critérios a seguir: 
a) deve ser escrita com a primeira letra maiúscula, após a referência e separada desta por um ponto 
e um espaço. 
Exemplo: 
Tabela 5. Rendimento médio da produção de algodão herbáceo no Brasil, 1992. 
b) deve informar todo o conteúdo do corpo do elemento (tabela, gráfico ou figura); 
c) quando se tratar de tabela estatística deve ser feita preferencialmente nesta ordem: descrição do 
cabeçalho, descrição da coluna indicadora e local a que se refere o conteúdo da tabela. 
 
Data de referência 
Este componente identifica o período referente aos dados e/ ou informações registrados. Os 
critérios a seguir devem ser observados na indicação da data de referência dos dados: 
a) deve ser obrigatoriamente indicada, exceto quando a natureza dos dados não o permitir, como é o 
caso de dados físico-territoriais; 
Exemplo: 
Tabela 5. Coordenadas geográficas do Paraná, segundo os pontos extremos. 
b) deve ser colocada após a descrição do conteúdo, na mesma linha, podendo ser integrada à parte 
descritiva nos casos em que possibilite uma melhor compreensão do conteúdo; 
Exemplos: 
Tabela 5. População estimada para o ano 2000 segundo o sexo – Paraná. 
 
Corpo 
É a parte da tabela, gráfico ou figura que contém os dados e informações. Corpo de tabelas 
estatísticas 
Em uma tabela estatística o corpo é estruturado com cabeçalho e coluna indicadora, podendo 
ainda existir uma coluna complementar. Identificam-se, ainda, traços, linhas, colunas e casas. 
Estatística II 
Prof. Laura Maria Saporski Cachuba 
42 
 
Cabeçalho 
É a parte superior da tabela que especifica o conteúdo das colunas. Pode ser constituído de um 
ou vários níveis. Os seguintes procedimentos devem ser adotados na apresentação do cabeçalho de 
uma tabela: 
1. as especificações de primeiro nível devem, preferencialmente, conter as denominações 
apresentadas no título; 
2. na indicação de totais (geral ou parcial) considerar a ordem de apresentação e classificação; 
3. as unidades de medida dos dados devem ser indicadas no cabeçalho e/ou na coluna 
indicadora no mesmo nível da especificação a que se referem, entre parênteses, 
preferencialmente abaixo da especificação; 
4. quando forem utilizadas siglas e abreviaturas que não sejam de uso corrente, deve-se indicar 
o seu significado utilizando uma nota específica; 
 
Coluna indicadora 
É a parte da tabela que especifica o conteúdo das linhas. Na sua apresentação, devem ser 
observados os seguintes aspectos: 
1. o cabeçalho dessa coluna deve apresentar a denominação constante no título, evitando-se, 
tanto quanto possível, o uso de palavras de sentido general como Especificação ou 
Descrição. O termo utilizado no cabeçalho pode ser escrito no singular ou no plural; 
entretanto, adotada uma forma, esta deve ser mantida em todo o trabalho; 
2. a coluna indicadora pode apresentar especificações, que como o cabeçalho, estejam 
subdivididas em níveis diversos. Nestes casos, as indicações dos níveis subseqüentes são 
transcritas com um afastamento de dois espaços em relação ao nível anterior; 
3. sempre que possível, deve-se evitar o uso de siglas e abreviaturas nas colunas. 
 
Totalizações 
Quanto às totalizações, deve-se observar o seguinte: 
1. a soma dos dados numéricos contidos em uma linha ou coluna deve ser indicada pela 
palavra total, exceto quando a soma se referir a uma área geográfica ou a uma categoria, 
casos em que deve ser indicada pela designação destas; 
2. o total pode preceder ou suceder as parcelas, mas em qualquer dos casos o modo de 
apresentação deve ser uniforme em todo trabalho. É preferível dar sucessão às parcelas, 
visando facilitar, quando necessário, à conferência dos dados; 
3. os totais parciais devem ser indicados com a palavra Total, escrita apenas com a letra inicial 
maiúscula. Deve-se evitar o uso do termo subtotal para esta finalidade; 
4. a soma dos totais parciais deve ser indicada pela expressão Total geral; 
5. os dados das linhas e/ou colunas referentes às totalizações não sofrerão, via de regra, 
tratamento especial. Havendo necessidade de destacar os dados, deve-se usar um 
espaçamento maior entre as outras linhas e a linha de totalização, para ressaltá-la, ou então 
colocar em negrito o termo que indica totalização. Não deverão ser usados traços sob os 
números para esta finalidade. 
 
Linha 
Corresponde ao conjunto de elementos dispostos horizontalmente no corpo da tabela. 
 
Coluna 
Corresponde ao conjunto de elementos dispostos verticalmente no corpo da tabela. Os dados 
deverão, preferencialmente, obedecer à seguinte disposição nas colunas: alinhados no canto direito, 
Estatística II 
Prof. Laura Maria Saporski Cachuba 
43 
deixando o espaço correspondente a uma letra da linha imaginária; a última coluna deve estar 
alinhada no limite direito da tabela, sem espaço. 
 
Casa 
É o elemento do corpo de uma tabela, identificado pelo cruzamento de uma linha com
uma 
coluna. As casas não devem ficar em branco. Caso não se disponha de dados para o seu 
preenchimento, devem ser utilizados os sinais convencionais adequados. Estes devem 
obrigatoriamente ser escritos nas publicações antecedendo as tabelas, ou, em se tratando de um 
número reduzido de tabelas, ser escrito no rodapé da tabela em forma de NOTA. 
Nos casos em que se dispõe do dado observado, mas é necessário prestar algum 
esclarecimento adicional (dado preliminar, estimado, retificado), este deve ser feito utilizando-se 
uma NOTA. 
Quando o dado apresentado tem valor negativo, o fato deve ser indicado através do sinal 
negativo. 
Exemplos: 
- 327 ou - 32,20 
 
Traço 
O traço é o elemento utilizado para delimitar o cabeçalho e a finalização da tabela. Os seguintes 
procedimentos devem ser adotados quanto à utilização de traços em uma tabela: 
1. para delimitação das linhas e colunas não deverão ser utilizados traços; 
2. obrigatoriamente devem ser traçados o cabeçalho e o limite inferior da tabela; 
3. quando uma tabela, por sua excessiva altura, tiver de ocupar mais de uma página, não deve 
ser delimitada (traçada) na parte inferior, mas apenas na última página. Neste caso, deve-se 
indicar no rodapé e ao lado direito, a palavra continua escrita em letras minúsculas, alinhada 
com a tabela; o título e o cabeçalho devem ser repetidos em todas as páginas que forem 
ocupadas pela tabela. Com exceção da primeira página da tabela (que conterá apenas a 
palavra continua) e da última página (que conterá apenas a palavra conclusão), todas as 
outras terão a palavra continuação, localizada acima do cabeçalho, alinhada externamente no 
limite direito deste, escrita com letras minúsculas. O termo conclusão constará somente da 
última página da tabela, na mesma posição que o termo continuação, escrito também em 
letras minúsculas. O Word e o Excel possuem a função “repetir linha de cabeçalho” e 
“repetir coluna” para tabelas que precisem ser “quebradas” em mais de uma página. 
4. as tabelas estatísticas não devem ser delimitadas por traços verticais em suas laterais, o 
que é permitido para tabelas não estatísticas. 
 
Fonte 
Consiste na indicação da entidade (ou entidades) responsável pelo fornecimento ou 
elaboração dos dados e/ou informações constantes de tabelas, gráficos e figuras. 
Exemplos: 
FONTE: IBGE 
FONTES: SERPRO, DATAMEC 
Na indicação da fonte devem ser observados os seguintes critérios: 
a) quando os dados tiverem sido trabalhados ou elaborados (p. ex.: cálculos de taxas, variações, 
percentuais, índices, deflação, entre outros), utilizar a expressão FONTE DOS DADOS BRUTOS 
para indicar o órgão responsável pelo fornecimento dos dados brutos, apresentando numa nota o 
responsável pelo dado trabalho. 
Exemplos: 
FONTE DOS DADOS BRUTOS: Censo Agropecuário - IBGE NOTA: Dados elaborados pelo 
IPARDES 
Estatística II 
Prof. Laura Maria Saporski Cachuba 
44 
b) as expressões FONTE, FONTES ou FONTE DOS DADOS BRUTOS devem ser escritas em 
letras maiúsculas e separadas do nome do órgão fornecedor dos dados por meio de dois pontos e um 
espaço. Após o nome do órgão não há ponto final; 
Exemplos: 
FONTE: IPARDES 
c) o órgão responsável pelo fornecimento dos dados deve ser escrito em letras maiúsculas, quando 
for utilizada a sua sigla, ou apenas com as iniciais maiúsculas, quando for utilizado o seu nome por 
extenso. Adotado um dos procedimentos, este deve ser mantido sempre que for possível; 
d) no caso em que os dados da tabela forem fornecidos por diversas fontes, os nomes ou siglas 
referentes a estas devem ser separados por vírgulas. 
Exemplo: 
FONTES: IBGE, IPARDES, SESA 
e) quando os dados forem obtidos de publicações periódicas, é conveniente indicar o nome da 
publicação seguida do órgão editor, separados por hífen e escritos apenas com as iniciais 
maiúsculas, à exceção das siglas; 
Exemplo: 
FONTE: Censo Demográfico - IBGE 
f) para dados extraídos de publicações monográficas (livros, teses, relatórios de pesquisa entre 
outros), convém indicar a fonte conforme as normas de referências bibliográficas. 
g) quando os dados são extraídos de uma publicação, mas a fonte original é outra, é conveniente 
indicar como fonte o órgão de origem dos dados, informando em uma NOTA de onde foram 
retirados os dados; 
Exemplos: 
FONTE: BACEN 
NOTA: Extraído da Base Pública do Estado do Paraná (BPUB). 
 
Nota 
Utiliza-se o termo NOTA para apresentar as informações destinadas a conceituar ou 
esclarecer o conteúdo ou indicar a metodologia utilizada na coleta ou na elaboração dos dados. 
As notas são apresentadas conforme os seguintes critérios: 
a) a palavra NOTA deve ser escrita com letras maiúsculas, seguidas de dois pontos, e a descrição ou 
esclarecimentos, com letras maiúsculas e minúsculas, conforme uso normal, seguido de ponto final; 
Exemplo: 
NOTA: Os dados foram extraídos do Censo Demográfico de 1980. 
b) deve ser apresentada logo a seguir da FONTE; 
c) quando o esclarecimento ocupar mais de uma linha, o texto da segunda e demais linhas deverá ter 
início abaixo da primeira letra do esclarecimento; 
d) quando houver mais de um esclarecimento (mais de uma informação de natureza geral), deve ser 
usada a palavra NOTAS escrita em letras maiúsculas; 
Exemplo: 
NOTAS: 
1 Os dados foram extraídos do Censo Demográfico de 1980. 
2 A fonte deixou de realizar o levantamento de cana para forragem. 
e) os esclarecimentos constantes nas NOTAS podem ou não ser numerados. Porém, iniciam-se 
sempre em nova linha; 
f) as notas de tabelas estatísticas que ocuparem mais de uma página devem figurar apenas na última 
página, ao final da tabela. 
Estatística II 
Prof. Laura Maria Saporski Cachuba 
45 
 
Nota Específica 
Utiliza-se a nota específica para apresentar informações sobre uma parte ou item específicos de 
uma tabela, gráfico ou figura, destinados a descrever conceitos ou a esclarecer dados. Os 
procedimentos a seguir devem ser adotados sempre que se fizer uso de uma nota específica: 
1. deve ser chamada, no corpo e no rodapé, por algarismos arábicos, colocados entre 
parênteses; 
2. quanto à disposição no corpo de uma tabela estatística: 
1. a numeração das chamadas para as notas específicas deve ser sucessiva, de cima para 
baixo e da esquerda para a direita; 
2. no cabeçalho e na coluna indicadora de tabelas estatísticas deve ser colocada à 
direita das especificações, preferencialmente com número sobrescrito; 
3. quanto à disposição no rodapé: 
1. deve ser colocada logo após a nota (ou logo após a FONTE quando não existir 
NOTA), de acordo com sua sequência, iniciando-se para cada chamada uma nova 
linha; 
2. a indicação de chamada deve ser separada do texto referente à nota específica por 
meio de um espaço em branco; 
3. o texto referente à nota específica deve ser escrito em letras maiúsculas, conforme 
uso normal, seguido de ponto final; 
4. quando o esclarecimento ocupar mais de uma linha, o texto da segunda e das demais 
linhas deverão acompanhar o alinhamento da primeira linha; 
5. as notas específicas de uma tabela estatística que ocupar em mais de uma página 
devem figurar no rodapé desta, na última página. 
 
Legenda 
É a descrição das convenções utilizadas na elaboração de gráficos, figuras e mapas. É obrigatório o 
seu uso sempre que for representada mais de uma variável. 
 
Estatística II 
Prof. Laura Maria Saporski Cachuba 
46 
Elaborando um questionário 
 
- QUESTIONÁRIOS 
Segundo Parasuraman (1991), um questionário é tão somente um conjunto de questões, feito 
para gerar os dados necessários para se atingir os objetivos do projeto. Embora o mesmo autor 
afirme que nem
todos os projetos de pesquisa utilizam essa forma de instrumento de coleta de 
dados, o questionário é muito importante na pesquisa científica, especialmente nas ciências sociais. 
Parasuraman afirma também que construir questionários não é uma tarefa fácil e que aplicar tempo 
e esforço adequados para a construção do questionário é uma necessidade, um fator de 
diferenciação favorável. Não existe uma metodologia padrão para o projeto de questionários, porém 
existem recomendações de diversos autores com relação a essa importante tarefa no processo de 
pesquisa científica. 
Também chamados de survey (pesquisa ampla), o questionário é um dos procedimentos 
mais utilizados para obter informações. É uma técnica de custo razoável, apresenta as mesmas 
questões para todas as pessoas, garante o anonimato e pode conter questões para atender a 
finalidades específicas de uma pesquisa. Aplicada criteriosamente, esta técnica apresenta elevada 
confiabilidade. Podem ser desenvolvidos para medir atitudes, opiniões, comportamento, 
circunstâncias da vida do cidadão, e outras questões. Quanto à aplicação, os questionários fazem 
uso de materiais simples como lápis, papel, formulários, etc. Podem ser aplicados individualmente 
ou em grupos, por telefone, Internet, ou mesmo pelo correio. Pode incluir questões abertas, 
fechadas, de múltipla escolha, de resposta numérica, ou do tipo sim ou não. 
Construir um bom questionário depende não só do conhecimento de técnicas mas 
principalmente da experiência do pesquisador. Contudo, seguir um método de elaboração sem 
dúvida é essencial, pois identifica as etapas básicas envolvidas na construção de um instrumento 
eficaz. 
As etapas necessárias para o desenvolvimento de um questionário são: 
(i) Justificativa; 
(ii) Definição dos objetivos; 
(iii) Redação das questões e afirmações; 
(iv) Revisão; 
(v) Definição do formato; 
(vi) Pré-teste e 
(vii) Revisão final. 
 
A elaboração de um questionário é a atividade que exige maior atenção em todo o processo, 
pois será ele que trará as informações essenciais para o sucesso da pesquisa. 
Para se elaborar um questionário não devemos esquecer-nos de estabelecer uma ligação com 
o problema e os objetivos da pesquisa, as hipóteses da pesquisa, a população a ser pesquisada, os 
métodos de análise de dados escolhidos e/ou disponíveis. 
A determinação das informações a serem buscadas deve fluir naturalmente neste momento 
do processo, desde que as etapas precedentes da pesquisa tenham sido meticulosamente elaboradas. 
O desenvolvimento do questionário está ligado à formulação exata do problema a ser pesquisado e 
ao objetivo da pesquisa 
Ao elaborar o questionário observe as seguintes recomendações básicas: 
- Listar todos os pontos a pesquisar, evitando a repetição ou a ausência de alguma questão 
importante. 
- Elaborar perguntas de fácil entendimento. 
- Usar linguagem coloquial: clara, simples e objetiva. 
- Evitar termos técnicos e palavras em outro idioma. 
- Observar a sequência lógica das questões, facilitando a reposta do entrevistado. 
Estatística II 
Prof. Laura Maria Saporski Cachuba 
47 
- Cuidar do visual (layout) do questionário, tornando mais agradável a sua utilização. 
- Limitar perguntas a um passado próximo. 
- Não obrigar o entrevistado a fazer cálculos. 
- Ter cuidado com perguntas embaraçosas. 
- Não utilizar, em hipótese alguma, pergunta que induza à resposta. 
- Fornecer instruções para os entrevistadores. 
- Preparar, treinar e supervisionar o entrevistador. 
- Testar o questionário (pré-teste) numa pequena amostra e fazer os ajustes antes de aplicá-lo num 
grande número de pessoas. 
 
- Componentes do questionário 
Um questionário para ser eficaz deve conter os seguintes tipos de informação: 
a) Numeração; 
b) Identificação do respondente. Neste ponto colhe-se apenas o nome do respondente, deixando-se 
seus dados gerais para o final, do questionário, com vistas a se evitarem vieses. 
c) Solicitação de cooperação. É importante motivar o respondente através de uma prévia exposição 
sobre a entidade que está promovendo a pesquisa e sobre as vantagens que essa pesquisa poderá 
trazer para a sociedade e em particular para o respondente, se for o caso, não se esquecendo do 
tempo que a pessoa precisará para respondê-lo. 
d) Instruções. As instruções deverão ser claras e objetivas ao nível de entendimento do respondente 
e não somente ao nível de entendimento do pesquisador. 
e) Informações solicitadas. É efetivamente o que se pretende pesquisar. 
f) Informações de classificação do respondente. Os dados de classificação do respondente 
normalmente deverão estar no final do questionário. Pode ocorrer distorção se estiverem no início 
porque o entrevistado poderá distorcer as respostas, caso seus dados pessoais já estejam revelados 
no inicio da pesquisa. 
g) Filtro no início do questionário, se houver. 
 
 
- ERROS EM UM PROCESSO DE PESQUISA 
 Em um processo de pesquisa podem ocorrer dois tipos de erros. São eles os erros amostrais e 
os erros não amostrais. O primeiro está ligado a falhas nos processos de escolha da amostra e da 
determinação do seu tamanho. Quanto aos erros não amostrais, inúmeras são as fontes de sua 
ocorrência; entre elas, questionários de dados mal elaborados, com questões tendenciosas ou dúbias 
e a escolha e/ou o uso incorreto de escalas de medição. A mensuração sempre ocorre em situações 
complexas, onde diversos fatores influenciam as características medidas e o processo de 
mensuração, podendo gerar erros não amostrais. 
Percebe-se, portanto, a importância de um questionário bem construído e bem aplicado, 
garantindo significativa redução no nível do erro não amostral! 
 
DECISÕES PARA A ELABORAÇÃO DO QUESTIONÁRIO 
a) Decisões sobre o conteúdo das perguntas 
Com relação ao conteúdo das perguntas, pode-se tentar verificar fatos, crenças quanto a 
fatos, crenças quanto a sentimentos, descoberta de padrões de ação e de comportamento presente ou 
passado. 
Destes itens, os mais difíceis de serem medidos são sentimentos e crenças quanto a fatos, já 
que são muito íntimos às pessoas, que nem sempre estão dispostas a externá-los. 
É necessário também que o pesquisador faça algumas reflexões, do tipo: a pergunta é 
realmente necessária? qual a sua utilidade? 
Estas perguntas desdobram-se nas seguintes questões: 
Estatística II 
Prof. Laura Maria Saporski Cachuba 
48 
. O assunto exige uma pergunta separada, ou pode ser incluído em outras perguntas? 
. Existem outras perguntas que já incluem adequadamente este ponto? 
. A pergunta é desnecessariamente minuciosa e específica? 
. Várias perguntas são necessárias sobre o assunto desta pergunta ou uma é o suficiente? 
. Deve-se evitar o uso de abreviação. Não se deve tratar dois assuntos complexos em uma mesma 
pergunta. 
. Todos os aspectos importantes sobre este tópico serão obtidos da forma como foi elaborada a 
pergunta? Em perguntas de opinião, interessa saber os graus de favorabilidade/desfavorabilidade, 
ou basta saber se é a favor ou contra? 
. As pessoas têm a informação necessária para responder a pergunta? O pesquisador deve examinar 
cada assunto, a fim de se certificar se é esperado do respondente que ele seja capaz de fornecer a 
informação desejada, ou seja, se ele é o portador da informação e se é capaz de lembrar-se dela. 
Costuma-se usar alguns "filtros", para detectar se o indivíduo tem ou não a informação desejada. 
Não basta porém que se esteja abordando a pessoa certa, é preciso saber se ela é capaz de se lembrar 
da informação. Nossa habilidade para nos lembrarmos dos eventos é influenciada pela importância 
do próprio evento para cada um, do tempo passado desde que ele ocorreu e da presença
de 
estímulos que nos ajudem a recordar. 
. Os respondentes estarão dispostos a dar a informação? Não basta que o respondente tenha a 
informação. Ele precisa estar disposto a fornecê-la. Sua predisposição em responder parece ser 
função do tempo e trabalho envolvidos na elaboração da resposta, de sua habilidade em articular a 
resposta, e da sensibilidade do assunto tratado. 
. Que objeções alguém poderia ter para responder esta pergunta? 
. O tema abordado é muito íntimo, perturbador ou expõe socialmente as pessoas, de forma a causar 
resistências e respostas falsas? 
. O tema é embaraçoso para o respondente por colocar em perigo seu prestígio caso seja contrário a 
idéias socialmente aceitas? Para tentar diminuir esses problemas deve-se inicialmente fazer 
perguntas que sugiram comportamento comum para depois ir se aprofundando no assunto e assim 
mesmo procurando se referir a outras pessoas ou utilizar cartões com letras e números para 
minimizar o impacto sobre o respondente. 
. Deve a pergunta ser mais concreta, específica e mais diretamente ligada à experiência pessoal de 
quem responde? 
· O conteúdo da pergunta é suficientemente geral? Está livre de concreticidade ou especificidade 
desnecessárias? 
. O assunto é de tal ordem que uma pergunta específica possa trazer respostas inexatas ou 
enganadoras? Deve-se tomar o cuidado de não se usar perguntas muito específicas, quando, na 
verdade, a pesquisa for de caráter geral. Por exemplo, perguntar quantas vezes uma pessoa foi ao 
supermercado em determinado mês, pode resultar em uma resposta menos precisa do que se fosse 
perguntado a respeito do seu comportamento usual ou médio durante os meses anteriores. 
. O conteúdo da pergunta não estará enviesado ou carregado em determinada direção? Esta pergunta 
desdobra-se nas seguintes questões: 
- A pergunta é, devidamente, neutra, a fim de não influenciar nas respostas? 
- Pessoas com opiniões contrárias sobre o assunto não a considerarão tendenciosa? 
- A pergunta contém opiniões ou julgamentos relacionados ao assunto? 
 
- DECISÕES SOBRE O FORMATO DAS RESPOSTAS 
A escolha do formato das respostas mais adequado deve levar em conta as vantagens e 
desvantagens de cada tipo para o objetivo da pesquisa. 
As questões podem ser: 
a) abertas 
b) de múltipla escolha 
Estatística II 
Prof. Laura Maria Saporski Cachuba 
49 
c) dicotômicas 
 
a) Questões Abertas 
Nas questões abertas, os respondentes ficam livres para responderem com suas próprias 
palavras, sem se limitarem a escolha entre um rol de alternativas. Existe concordância em que se 
deve partir de questões gerais para específicas. Uma pergunta aberta geral, do tipo "Quando se fala 
em política, o que vem à sua cabeça?", proporciona um "insight" na estrutura de referência do 
respondente e pode ser muito útil na interpretação de respostas a perguntas posteriores. Outro 
importante uso é na obtenção de informações adicionais e esclarecimentos, com indagações como: 
"Por quê?", "Por favor, explique.", "Por que pensa dessa forma?". 
Segundo Mattar (1994), as principais vantagens e desvantagens das perguntas abertas são: 
Vantagens 
- Estimulam a cooperação; 
- Permitem avaliar melhor as atitudes para análise das questões estruturadas; 
- São muito úteis como primeira questão de um determinado tema porque deixam o respondente 
mais à vontade para a entrevista a ser feita; 
- Cobrem pontos além das questões fechadas; 
- Têm menor poder de influência nos respondentes do que as perguntas com alternativas 
previamente estabelecidas: 
- Exigem menor tempo de elaboração; 
- Proporcionam comentários, explicações e esclarecimentos significativos para se interpretar e 
analisar as perguntas com respostas fechadas; 
- Evita-se o perigo existente no caso das questões fechadas, do pesquisador deixar de relacionar 
alguma alternativa significativa no rol de opções. 
 
Desvantagens 
- Dão margem à parcialidade do entrevistador na compilação das respostas, já que não há um 
padrão claro de respostas possíveis. Assim, é difícil a codificação das respostas e sua conseqüente 
compilação; 
- Há grande dificuldade para codificarão e possibilidade de interpretação subjetiva de cada 
decodificador; 
- Quando aplicadas em forma de entrevistas, podem levar potencialmente a grandes vieses dos 
entrevistadores; 
- Quando feitas através de questionários auto-preenchidos, esbarram com as dificuldades de redação 
da maioria das pessoas, e mesmo com a "preguiça" de escrever. 
- São menos objetivas, já que o respondente pode divagar e até mesmo fugir do assunto; 
- São mais onerosas e mais demoradas para serem analisadas que os outros tipos de questões. 
 
b) Questões de Múltipla Escolha 
Nos casos de múltipla escolha, os respondentes optarão por uma das alternativas, ou por 
determinado número permitido de opções. Ao elaborar perguntas de respostas múltiplas, o 
pesquisador se depara com dois aspectos essenciais: o número de alternativas oferecidas e os vieses 
de posição. 
Pode-se apontar algumas considerações importantes relacionadas às questões de múltipla 
escolha. As alternativas devem ser coletivamente exaustivas e mutuamente exclusivas, ou seja, 
devem cobrir todas as respostas possíveis e uma alternativa deve ser totalmente incompatível com 
todas as demais. A alternativa "Outros. Quais? ______" é de grande ajuda para garantir a 
exclusão. Para que sejam mutuamente exclusivas, cada respondente deverá identificar apenas uma 
opção que represente corretamente sua resposta, ou seja, a escolha de uma alternativa deve excluir 
todas as demais. 
Estatística II 
Prof. Laura Maria Saporski Cachuba 
50 
Quanto aos vieses de posição, estes ocorrem em função da tendência de se escolher, no caso 
de palavras, as que aparecem como primeiras opções de resposta e, quando se tratar de números, a 
escolha daquele que ocupa a posição central. 
No intuito de contornar esses vieses, pode-se alternar a sequência de apresentação das 
opções de resposta, durante a coleta de dados, através de diversas formas para o questionário, ou 
para os cartões (caso sejam usados para listar alternativas). Apesar de dificultar o processo, esse 
procedimento é essencial para controlar esse viés. 
Segundo Mattar (1994), são as seguintes as principais vantagens e desvantagens das 
questões de múltipla escolha: 
 
Vantagens 
- Facilidade de aplicação, processo e análise; 
- Facilidade e rapidez no ato de responder; 
- Apresentam pouca possibilidade de erros; 
- Diferentemente das dicotômicas, trabalham com diversas alternativas. 
 
 
Desvantagens 
- Exigem muito cuidado e tempo de preparação para garantir que todas as opções de respostas sejam 
oferecidas; 
- Se alguma alternativa importante não foi previamente incluída, fortes vieses podem ocorrer, 
mesmo quando esteja sendo oferecida a alternativa "Outros. Quais?"; 
- O respondente pode ser influenciado pelas alternativas apresentadas. 
 
c) Questões Dicotômicas 
São as que apresentam apenas duas opções de respostas, de caráter bipolar, do tipo: sim/não; 
concordo/não concordo; gosto/não gosto. Por vezes, uma terceira alternativa é oferecida, indicando 
desconhecimento ou falta de opinião sobre o assunto. Normalmente, é assim expressa: ( ) não sei ou 
( ) não tenho opinião formada. A inclusão desse tipo de resposta, é, por um lado, desaconselhável, 
pois pode servir de fuga para aquelas pessoas que não desejam tomar uma posição. Por outro lado, a 
falta dessa opção pode provocar dificuldades para muitas pessoas, que vendo-se forçadas a escolher 
entre uma das alternativas bipolares, acabam dando respostas enganadoras. 
A resposta dicotômica é adequada para muitas perguntas que se referem
a questões de fato, 
bem como a problemas claros e a respeito dos quais existem opiniões bem cristalizadas. 
Segundo Mattar (1994), são as seguintes as principais vantagens e desvantagens das 
questões dicotômicas: 
 
Vantagens 
- Rapidez e facilidade de aplicação, processo e análise; 
- Facilidade e rapidez no ato de responder; 
- Menor risco de parcialidade do entrevistador; 
- Apresentam pouca possibilidade de erros; 
- São altamente objetivas. 
 
Desvantagens 
- Polarização de respostas e/ou possibilidade de forçar respostas em relação a um leque de opiniões; 
- Podem levar a erros de medição, se o tema foi tratado de forma dicotômica, quando na verdade 
apresenta várias alternativas, por exemplo, entre a concordância total e discordância total; 
- Dependendo de como a pergunta é feita, questões com respostas dicotômicas são fortemente 
passíveis de erros sistemáticos. 
Estatística II 
Prof. Laura Maria Saporski Cachuba 
51 
 
- DECISÕES SOBRE A FORMULAÇÃO DAS PERGUNTAS 
Na formulação das perguntas deve-se cuidar para que as mesmas tenham o mesmo 
significado para o pesquisador e para o respondente, evitando-se assim um erro de medição. Sabe-se 
que a formulação tem efeito sobre as respostas. 
É conveniente fazer as seguintes recomendações sobre a formulação das perguntas: 
- Usar comunicação simples e palavras conhecidas; 
- Não utilizar palavras ambíguas. 
- Evitar: perguntas que sugiram a resposta; perguntas com conteúdo emocional e/ou sentimento de 
aprovação ou reprovação; referências a nomes que impliquem em aceitação ou rejeição ou tenham 
componente afetivo; necessidade do respondente fazer cálculos para responder; perguntas de dupla 
resposta; alternativas longas; 
- Evitar mudanças bruscas de temas, (fazer uma ligação entre os temas); 
- Vieses involuntários, motivados por reação visando prestígio por parte do respondente, 
retraimento defensivo diante de perguntas personalizadas e a atração exercida pela resposta 
positiva. 
 São condicionantes das respostas: 
- Busca de conformidade ao grupo; 
- Tendência de imitação social; 
- Medo do julgamento do outro; 
- Busca de prestígio social; 
- Participação nas emoções coletivas; 
- Submissão aos estereótipos culturais; 
- Medo de mudanças. 
 
Outros aspectos/questões referentes à redação das perguntas: 
- A pergunta pode ser mal compreendida? Contém frases ou termos difíceis e/ou obscuros? 
- Os termos utilizados serão bem compreendidos pelo público da pesquisa? Termos especializados 
são usados apenas quando realmente necessários, devendo-se assegurar que seu sentido torne-se 
claro através de figuras ou de outros meios. 
- A sentença é curta e simples? Sentenças longas e difíceis tendem as ser mal compreendidas. 
- Existe indefinição ou ambigüidade? Qual o outro sentido que a pergunta poderá ter para quem 
responde? 
- Enfatizar não intencionalmente uma palavra ou frase poderia mudar o sentido da pergunta? 
Segundo Selltiz et al (1974) se, mesmo depois de certificado que as perguntas estão 
apresentadas da maneira mais clara possível, ainda houver dúvidas quanto à compreensão, costuma-
se incluir perguntas de acompanhamento, do tipo: " O que você quer dizer com isso?". ’Você 
poderia exemplificar?" Dessa maneira, torna-se possível verificar como a pessoa entendeu a questão 
e o que pretendeu dizer. 
- A pergunta exprime adequadamente todas as alternativas, ou mostra apenas um dos lados do 
tópico em questão? Ambos devem ser citados. 
- O quadro de referência é claro e uniforme para todas as pessoas que respondem? 
- A pergunta deixa claro que a pessoa deve respondê-la baseada naquilo que pensa ser a verdade e 
não naquilo que desejaria que fosse a verdade? 
- A frase é enviesada, ou seja, está emocionalmente carregada ou deformada para determinado tipo 
de resposta? 
- O que traria melhores resultados? Uma redação mais pessoal ou mais impessoal da pergunta? 
- O que seria melhor? Apresentar a pergunta de maneira direta ou indireta? Não há recomendações 
concretas quanto ao emprego de perguntas indiretas. Suas possibilidades e limitações devem ser 
examinadas caso a caso, de acordo com o objetivo da pesquisa. Entram em questão problemas 
Estatística II 
Prof. Laura Maria Saporski Cachuba 
52 
morais e técnicos: saber se a inferências pretendidas podem ser retiradas, sem prejuízo, das provas 
indiretas; se tal pergunta indireta irá enviesar a resposta; se as perguntas são altamente invasivas da 
intimidade etc. (Selltiz et al, 1974). 
 
- DECISÕES SOBRE A SEQUÊNCIA DAS PERGUNTAS 
A ordem na qual as perguntas são apresentadas pode ser crucial para o sucesso da pesquisa. 
Não há regras estabelecidas, mas alguns cuidados devem ser tomados. Mattar (1994) sugere: 
- Iniciar o questionário com uma pergunta aberta e interessante (para deixar o respondente mais à 
vontade e assim ser mais espontâneo e sincero ao responder as perguntas restantes). Iniciar com 
perguntas sobre a opinião do respondente pode fazer com que se sinta prestigiado e se torne 
disposto a colaborar. 
O primeiro contato do respondente com o questionário define sua vontade de respondê-lo ou 
até mesmo a decisão de não respondê-lo; 
- Usar temas e perguntas gerais no inicio do questionário, deixando as perguntas específicas para 
depois (vai se fechando o foco gradualmente); 
- As perguntas mais pessoais, sensíveis ou embaraçosas devem ser feitas somente no final do 
questionário e convém que sejam alternadas com questões simples; 
- Deve-se adotar uma ordem lógica de perguntas utilizando um fluxograma ou árvore de decisão 
para posicionar as perguntas; 
- Dar uma sequência lógica ao questionário. Mudanças de tópicos repentinas e "ir e voltar" ao 
assunto devem ser evitados; 
- Informações que classificam social, econômica ou demograficamente o respondente são pedidas 
no final, a não ser que alguma delas sirva como "filtro"; 
- Perguntas de caráter mais invasivo, ou que tratem temas delicados, não devem ser colocados no 
início do questionário e convém que sejam alternadas com questões simples; 
Outra preocupação com o questionário é a de explicar as condições adequadas para o seu 
uso e aplicação, tanto no caso de formulários auto-preenchidos quanto nos que utilizam 
entrevistadores. Devem ser fornecidas aos entrevistadores instruções claras de como proceder no 
campo, como abordar os respondentes, como preencher os instrumentos, etc. A seguir, são 
apresentados alguns pontos sobre os quais os entrevistadores devem ser orientados. 
- Proporcionar ao respondente uma situação de liberdade, em que a pessoa seja estimulada a 
apresentar francamente suas opiniões; 
- Garantir, se for o caso, o anonimato do respondente; 
- O entrevistador deve ser educado, amistoso e imparcial; 
- Nunca deverá mostrar surpresa ou desaprovação diante das opiniões de quem responde; 
- As perguntas precisam ser apresentadas da maneira exata, com as mesmas palavras que foram 
propostas; 
- Qualquer explicação improvisada da pergunta é proibida. Em casos em que se imagine, de 
antemão, que surgirão dúvidas, esclarecimentos devem ser previamente elaborados; 
- As perguntas devem seguir a ordem exata em que aparecem no questionário; 
- O entrevistador deve apresentar todas as perguntas, e jamais responder alguma por dedução 
própria; 
- Espera-se que o entrevistador registre fiel e integralmente a resposta; 
- É necessário que os entrevistadores sejam orientados em relação ao processo de amostragem. Por 
exemplo, como proceder em casos de recusas ou ausências. 
 
Estatística II 
Prof. Laura Maria Saporski Cachuba 
53 
- DECISÕES SOBRE A APRESENTAÇÃO E O VISUAL (LAYOUT) DO QUESTIONÁRIO 
(CARACTERÍSTICAS FÍSICAS) 
São pontos
a serem definidos nesta fase: número de páginas; qualidade do papel e da 
impressão; tipos e tamanho de letras; posicionamento e tamanho dos espaços entre questões; cores 
da tinta e do papel para as respostas; espaço para resposta de cada questão; separação de campos 
para facilidade de digitação (praticamente obrigatória para se compilar as respostas e processá-las 
em tempo reduzido); impressão em frente e verso ou só na frente. 
Tais itens são relevantes para se ganhar a colaboração dos respondentes. Quanto melhor e mais 
adequada for a apresentação, maior a probabilidade de se elevar o índice de respostas. 
 
- DECISÕES QUANTO AO PRÉ-TESTE 
É importante a realização de um pré-teste porque é provável que não se consiga prever todos 
os problemas e/ou dúvidas que podem surgir durante a aplicação do questionário. Sem o pré-teste, 
pode haver grande perda de tempo, dinheiro e credibilidade caso se constate algum problema grave 
com o questionário já na fase de aplicação. Nesse caso o questionário terá que ser refeito e estarão 
perdidas todas as informações já colhidas. 
Segundo Mattar (1994), os pré-testes podem ser realizados inclusive nos primeiros estágios, 
quando o instrumento ainda está em desenvolvimento, quando o próprio pesquisador pode realizá-
lo, através de entrevista pessoal. As instruções para a entrevista devem estar na formulação final, e 
serem obedecidas rigorosamente, para se ver se são ou não adequadas. Os resultados do pré-teste 
são então tabulados para que se conheçam as limitações do instrumento. 
Goode e Hatt (1972) destacam alguns sinais que indicam algo errado com o instrumento de 
coleta de dados e que deverão ser objeto de alterações por parte do pesquisador após o pré-teste: 
a) Ausência de ordem nas respostas. Frequentemente, a causa é uma questão (ou questões) que não 
se refere à mesma experiência em cada respondente. Isto pode ser provocado pelo uso de palavras 
difíceis, ou por questões que buscam obter muitos dados de uma só vez, etc. Respostas totalmente 
desordenadas são um sinal de alerta; 
b) Respostas "tudo-nada". Questões a que todos respondem da mesma maneira, podem revelar uma 
resposta estereotipada ou clichê; 
c) Grande proporção de respostas do tipo "não sei" ou "não compreendo". Estes casos indicam 
questões formuladas inadequadamente, ou um mau plano de amostragem. 
d) Grande número de qualificações ou comentários adicionais. É o que ocorre quando o teste piloto 
relaciona uma série de comentários ou fontes adicionais às alternativas de resposta oferecidas. 
e) Variação substancial de respostas quando se muda a ordem das questões 
f) Alta proporção de respostas recusadas. Aconselha-se rever com cuidado cada questão cujas 
recusas ultrapassem 5% (cinco por cento). 
Com relação ao pré-teste, recomenda-se: 
- Seus respondentes devem pertencer à população alvo da pesquisa e ter tempo suficiente para 
responder todas as questões; 
- Os entrevistadores devem ser experientes; 
Com relação aos elementos funcionais do questionário, deve-se verificar no pré-teste: 
- A clareza e a precisão dos termos utilizados 
- A necessidade eventual de desmembramento das questões 
- A forma das perguntas 
- A ordem das perguntas 
- A introdução 
- É importante também se fazer uma reflexão sobre o valor de cada pergunta. 
Caso o pré-teste revele necessidade de muitas alterações, o questionário revisado deverá ser 
então novamente testado. O processo será repetido tantas vezes quantas forem necessárias, até que o 
instrumento se encontre maduro, pronto para ser aplicado. 
Estatística II 
Prof. Laura Maria Saporski Cachuba 
54 
 
- MEIOS DE APLICAÇÃO DE UM QUESTIONÁRIO 
 Os principais meios para aplicação dos questionários são: correspondência, telefone, e-mail 
(Internet), entrevista pessoal e auto-aplicável. 
Correspondência 
Vantagens: 
- Ampla cobertura geográfica e de perfil de público-alvo; 
- Permite maior número de questões; 
- Baixo custo por questionário. 
Desvantagens: 
- Retorno muito baixo, geralmente entre 1% e 2% e não passando de 10%; 
- Lentidão para retornar. 
 
Telefone 
Vantagens: 
- Rapidez na obtenção de informações; 
- Flexibilidade por parte do entrevistador; 
- Custos baixos quando aplicado numa região restrita. 
Desvantagens: 
- Questionários devem ser sucintos; 
- Restrito a pessoas que possuam telefone; 
- Horários dos telefonemas. 
 
E-mail 
Vantagens: 
- Cobertura mundial; 
- Permite maior número de questões; 
- Baixo custo por questionário; 
- Oferece tempo para o entrevistado. 
Desvantagem: 
- Retorno baixo; 
- Pode ser interpretado como e-mail indesejado (spam); 
- Restrito a pessoas que possuam acesso à Internet; 
- Não há garantia sobre o perfil do respondente. 
 
Entrevistas pessoais 
Vantagens: 
- Versatilidade; 
- Registro de observações; 
- Interatividade. 
Desvantagens: 
- Custo elevado; 
- O processo pode demorar. 
 
Auto-aplicáveis 
Vantagens: 
- Fácil operacionalização; 
- Baixo custo. 
Desvantagens: 
- Retorno relativamente baixo; 
Estatística II 
Prof. Laura Maria Saporski Cachuba 
55 
- Respostas nem sempre representativas; 
- Conta com boa vontade do entrevistado ou estímulos (sorteios, brindes, etc.). 
 
 
Estatística II 
Prof. Laura Maria Saporski Cachuba 
56 
Anexo I. 
Quadro Comparativo entre Técnicas de Coleta de Dados 
 
Técnica de 
Coleta 
Pontos Fortes Pontos Fracos 
Questionário - Garante o anonimato 
- Questões objetivas de fácil pontuação 
- Questões padronizadas garantem uniformidade 
- Deixa em aberto o tempo para as pessoas pensarem sobre as 
respostas 
- Facilidade de conversão dos dados para arquivos de 
computador 
- Custo razoável 
- Baixa taxa de respostas para questionários enviados pelo 
correio 
- Inviabilidade de comprovar respostas ou esclarecê-las 
- Difícil pontuar questões abertas 
- Dá margem a respostas influenciadas pelo “desejo de 
nivelamento social”(*) 
- Restrito a pessoas aptas à leitura 
- Pode ter itens polarizados/ambíguos 
Entrevista - Flexibilidade na aplicação 
- Facilidade de adaptação de protocolo 
- Viabiliza a comprovação e esclareci mento de respostas 
- Taxa de resposta elevada 
- Pode ser aplicada a pessoas não aptas à leitura 
- Custo elevado 
- Consome tempo na aplicação 
- Sujeita à polarização do entrevistador 
- Não garante o anonimato 
- Sensível aos efeitos no entrevistado 
- Características do entrevistador e do entrevistado 
- Requer treinamento especializado 
- Questões que direcionam a resposta 
Observação 
Direta 
- Capaz de captar o comportamento natural das pessoas 
- Minimiza influência do “desejo de nivelamento social” 
- Nível de intromissão relativamente baixo 
- Confiável para observações com baixo nível de inferência 
- Polarizada pelo observador 
- Requer treinamento especializado 
- Efeitos do observador nas pessoas 
- Pouco confiável para observações com inferências complexas 
- Não garante anonimato 
- Observações de interpretação difícil 
- Não comprova/esclarece o observado 
- Número restrito de variáveis 
 
Registros 
Institucionais 
(Análise 
Documental) 
- Baixo custo 
- Tempo de obtenção é reduzido 
- Informação é estável 
 
- Dados incompletos ou desatualizados 
- Excessivamente agregados 
- Mudanças de padrões no tempo 
- Uso restrito (confidencialidade) 
Estatística II 
Prof. Laura Maria Saporski Cachuba 
57 
Técnica de 
Coleta 
Pontos Fortes Pontos Fracos 
- Dados difíceis de recuperar 
Grupo Focal - Baixo custo e resposta rápida 
- Flexibilidade na aplicação 
- Eficientes para obter
informações qualitativas em curto prazo 
- Eficiente para esclarecer questões complexas no 
desenvolvimento de projetos 
- Adequado para medir o grau de satisfação das pessoas 
envolvidas 
- Exige facilitador/moderador com experiência para conduzir o 
grupo 
- Não garante total anonimato 
- Depende da seleção criteriosa dos participantes 
- Informações obtidas não podem ser generalizadas 
 
 
(*) “desejo de nivelamento social” refere-se à tendência de alguém responder a um questionário não exatamente da forma em que a realidade se 
apresenta para ele, mas influenciado por um desejo de se apresentar externamente com outro nível social, mais alto (ou mais baixo), conforme as 
conveniências de sua imagem perante a sociedade. Por exemplo, em um questionário de uma administradora de cartões de crédito, a pessoa pode 
se ver impulsionada a declarar uma renda pessoal acima daquela que realmente possui. 
Fonte: McMillan, J. H. and Schumacher, S. Research in Education. Addison Wesley Educational Publishers Inc., New York, 1997, pp. 274-275. 
 
 
Estatística II 
Prof. Laura Maria Saporski Cachuba 
58 
Como Fazer Uma Tabulação e Análise de Dados de Uma Pesquisa 
 
 A tabulação dos dados é um dos itens que compõem a execução de uma pesquisa. Deve ser 
entendido como o processo de apuração e de apresentação dos dados. A apresentação é realizada de 
duas formas: a) apresentação tabular; b) apresentação gráfica. O uso de planilhas eletrônicas (como 
o Excel, por exemplo) na falta de um software estatístico, ajuda bastante a realização do trabalho, 
principalmente se os dados já estiverem armazenados neste formato. 
 A análise dos dados é o cálculo de medidas de posição (tendência central, quartis, percentis, 
etc...), de dispersão, de simetria e de curtose, para a apresentação dos dados e aplicação de testes 
estatísticos planejados. 
 A interpretação dos dados é um item bastante complexo, pois requer do pesquisador uma 
postura crítica de como foi conduzida sua pesquisa (falhas e limitações) para que não superestime 
os resultados e o domínio do tema no qual foi realizada a pesquisa para saber os pontos fracos e 
fortes dos seus resultados. Tudo isso, aliado ao resultado da análise estatística das variáveis é que 
vai determinar a interpretação (conclusão) dos resultados. 
 O relatório final (relatório de pesquisa) é um documento que apresenta a idéia central 
(pergunta de pesquisa e hipótese), a situação atual do conhecimento no assunto, e o método de 
como chegar à resposta da pergunta inicial, os resultados, a discussão (interpretação dos resultados) 
e a conclusão (resposta à pergunta de pesquisa). 
São três as razões para elaborar o relatório final: a primeira, de documentar a pesquisa 
realizada; a segunda, permitir que outro pesquisador possa avaliar a qualidade da pesquisa 
(validade, importância e aplicabilidade); a terceira, encaminhar o relatório de pesquisa para 
comunicar o andamento da mesma. 
 O relatório final deve ser claro, preciso e objetivo na forma de redação. 
 Vamos assumir um modelo simples de pesquisa, a partir de um questionário para entender 
melhor como funciona uma tabulação. 
 
 
Imaginem o questionário apresentado a seguir aplicado a um grupo de pessoas que 
freqüentavam uma feira de livros: (sem nos preocuparmos muito com a finalidade da pesquisa, 
somente para entender a tabulação com finalidade puramente didática). 
Para facilitar, vamos considerar que a pesquisa foi realizada com 30 pessoas. 
 
Estatística II 
Prof. Laura Maria Saporski Cachuba 
59 
Pesquisa “Feira do Livro 2008” 
Aplicador: ______________________________________________ data: ___/___/___ 
Nº do questionário: _______ 
 
1. Qual a sua idade? 
a) ( ) abaixo de 25 anos 
b) ( ) de 25 a 35 anos 
c) ( ) de 36 a 45 anos 
d) ( ) de 46 a 55 anos 
e) ( ) acima de 56 anos 
 
2. Você exerce trabalho remunerado? 
a) ( ) Sim 
b) ( ) Não 
 
3. Qual a sua renda familiar mensal? 
a) ( ) abaixo de R$ 480,00 
b) ( ) de R$ 480,00 até R$ 1.200,00 
c) ( ) acima de R$ 1.200,00 e até R$ 
2.000,00 
d) ( ) acima de R$ 2.000,00 e até R$ 
2.500,00 
e) ( ) acima de R$ 2.500,00 e até R$ 
3.500,00 
f) ( ) acima de R$ 3.500,00 
 
4. Qual o seu grau de escolaridade? 
a) ( ) ensino fundamental incompleto 
b) ( ) ensino fundamental completo 
c) ( ) ensino médio incompleto 
d) ( ) ensino médio completo 
e) ( ) ensino superior incompleto 
f) ( ) ensino superior completo 
g) ( ) especialização/mestrado/doutorado 
 
5. Você está estudando atualmente? 
a) ( ) Sim 
b) ( ) Não 
 
6. Você tem fluência em alguma língua? 
a) ( ) Sim. Qual?___________________ 
b) ( ) Não 
 
7. Como tomou conhecimento da feira? 
a) ( ) Recomendado por um amigo 
b) ( ) Mala direta/Carta recebida 
c) ( ) Folder distribuído na rua 
d) ( ) Folder distribuído em escolas 
e) ( ) Televisão 
f) ( ) Jornal 
g) ( ) Cartaz /outdoor 
h) ( ) Rádio 
i) ( ) Internet 
j) ( ) Outros. Qual?________________ 
 
8. Você pratica alguma atividade 
esportiva? 
a) ( ) Sim. Qual?___________________ 
b) ( ) Não 
 
9. Responda sobre a seguinte afirmação: 
As feiras de livros são importantes 
para ajudar a fortalecer o hábito da 
leitura. 
a) ( ) concordo totalmente 
b) ( ) concordo parcialmente 
c) ( ) nem concordo nem discordo 
d) ( ) discordo parcialmente 
e) ( ) discordo totalmente 
 
 
Estatística II 
Prof. Laura Maria Saporski Cachuba 
60 
 Notem que a apresentação visual de um questionário também é importante, mesmo que ele 
não seja entregue ao respondente. A cópia do questionário faz parte do relatório de apresentação da 
pesquisa como anexo e deve ser “agradável” aos olhos e de preferência concentrado, se possível, 
em uma página. Observação importante: o questionário exemplo apresenta vários “problemas”; o 
exercício em aula será analisar os dados da pesquisa fictícia e verificar os possíveis erros 
encontrados, decorrentes da “pesquisa mal elaborada”. 
 Vamos imaginar possíveis respostas para esta pesquisa, conforme planilha em anexo no 
final. É possível usar palavras chaves para determinar as perguntas para facilitar. A inserção de 
marcadores como a, b, c, ..., ajudam na hora de digitar se estivermos usando softwares apropriados, 
ou não quisermos escrever as palavras por extenso. 
 Por exemplo: em escolaridade, ao invés de escrevermos “superior incompleto” para a 
resposta, podemos marcar na planilha como e ; procedendo a contagem de “as” , “b´s”, “c´s”, e 
assim por diante, teremos a resposta de quantas respostas deste tipo tivemos na pesquisa. A 
digitação fica mais rápida, eficiente e podemos gastar mais tempo com a análise, que é o que 
realmente importa. 
 Então, fazendo a tabulação com base nos dados apresentados no Anexo I: 
- A tabulação precisa ser feita pra cada pergunta (que para nós, em estatística, se “transforma” em 
uma variável, com respostas possíveis de serem determinadas, na maioria dos casos. 
- Deverá ser feita uma tabela e um gráfico para cada pergunta formulada no questionário. Lembre-
se: tabelas e gráficos não tem valor se não forem pelo menos comentados. Analise se o resultado 
surpreendeu, apresentando resultado diverso do esperado, ou, ao contrário, ocorreu exatamente 
como vocês achavam que ocorreria. Comente mesmo assim! É importante que quem avalie sua 
pesquisa saiba o que o levou a pensar desta ou daquela maneira! 
- Após este trabalho, avalie os objetivos propostos no seu trabalho e veja se eles se verificaram e 
foram bem respondidos com a sua pesquisa. 
- Elabore uma conclusão geral, explanando sobre o resultado encontrado
na pesquisa, positivo ou 
não. 
- “Tabular” nada mais é do que contar as respostas apresentadas em cada questão. Começando com 
a pergunta 1 (qual a sua idade?), note que para facilitar a análise o questionário “fechou” as idades 
em categorias. Isto evita o trabalho de coletar e depois montar a tabela de frequência; por outro 
lado, não permite reversão em outras categorias. Portanto, para usar desta forma é preciso ter 
certeza de que as categorias estão adequadas ao objetivo da pesquisa. 
- Na “digitação” optamos por digitar a letra da opção escolhida, logo temos na contagem: 
- Usando a opção de Tabela Dinâmica do Excel proceda da forma a seguir: 
Estatística II 
Prof. Laura Maria Saporski Cachuba 
61 
 
 
- Com a planilha já digitada no Excel, siga os passos abaixo. 
 
Estatística II 
Prof. Laura Maria Saporski Cachuba 
62 
 
- entre na Opção Dados – Relatório de tabela e gráfico dinâmicos. 
 
Estatística II 
Prof. Laura Maria Saporski Cachuba 
63 
 
- no quadro a seguir deixe marcada a opção “onde estão os dados que você deseja analisar?” – 
Banco de dados ou lista do Microsoft Excel. E na opção “Que tipo de relatório você deseja criar?” 
selecione “Tabela Dinâmica” e dê avançar. 
Estatística II 
Prof. Laura Maria Saporski Cachuba 
64 
 
- na Opção “Onde estão os dado que você deseja usar?” selecione a planilha toda clicando no botão 
ao lado do intervalo ou digite o intervalo da planilha. 
Estatística II 
Prof. Laura Maria Saporski Cachuba 
65 
 
- Dê avançar e escolha nova planilha para não poluir e dê concluir. 
- Vai surgir a seguinte planilha: 
 
Estatística II 
Prof. Laura Maria Saporski Cachuba 
66 
 
- Arraste o primeiro item (idade) para a primeira coluna; vai surgir um total de 30; em seguida 
arraste idade novamente para cima da palavra total e verifique a contagem feita. 
 
Estatística II 
Prof. Laura Maria Saporski Cachuba 
67 
 
- Temos então: 
17 respostas “a” – ou seja, 17 pessoas com idade abaixo de 25 anos; 
7 respostas “b” – ou seja, 7 pessoas com idade 25 a 35 anos; 
3 respostas “c” – ou seja, 3 pessoas com idade 36 a 45 anos; 
2 respostas “d” – ou seja, 2 pessoas com idade 46 a 55 anos; 
1 resposta “e” – ou seja, 1 pessoa com idade acima de 56 anos; 
Para que a tabela fique mais “bonitinha” ou apresentável, substitua os ‘a´s” e “b`s” pelas respostas 
apresentadas no questionário. Não esqueçam: tabelas estatísticas são abertas em ambos os lados. 
Vocês podem usar outro tipo de formatação, mas não podem esquecer isto! Ou seja: 
 
Idade Frequência Percentual 
abaixo de 25 anos 17 57% 
de 25 a 35 anos 7 23% 
de 36 a 45 anos 3 10% 
de 46 a 55 anos 2 7% 
acima de 56 anos 1 3% 
Total 30 100% 
 
 
 
 
Estatística II 
Prof. Laura Maria Saporski Cachuba 
68 
17
7
3
2
1
0
2
4
6
8
10
12
14
16
18
abaixo de 25
anos
de 25 a 35
anos
de 36 a 45
anos
de 46 a 55
anos
acima de 56
anos
Idade dos Frequentadores da Feira
 
 
Os visitantes da feira eram, na sua maioria (57%) jovens com idade abaixo de 25 anos. Podemos 
dizer que o público da feira era basicamente pessoas com idade até 35 anos (80%). (olha a nossa 
frequência acumulada funcionando como aliada!) 
- Para trabalhar com as outras variáveis, o procedimento é o mesmo. Nas perguntas abertas a análise 
será feita manualmente, contanto o nº. de respostas iguais, ou relacionando todas as respostas 
fornecidas e apresentando, se possível em tabela. Se as respostas forem muito diferentes, 
relacionamos as respostas e comentamos de modo geral o que obtivemos. 
- Experimentem copiar a planilha e repetir a análise, ou realizar as outras. Na dúvida sobre a 
utilização do Excel, caso o nº. de entrevistas tenha sido pequeno, a tabulação pode ser feita 
manualmente. A idéia é a mesma. 
 E não esqueçam: os comentários sobre cada gráfico e/ou tabela devem dizer mais do que o 
óbvio! A frase em itálico sobre o gráfico apresentado, seria totalmente inútil se os valores, ao invés 
de serem valores absolutos, estivessem representados em percentual (o que de modo geral é sempre 
preferível!). O ideal seria tentar especular o porquê do grande comparecimento de jovens abaixo 
dos 35 anos e tão poucos acima desta idade. Os mais “velhos” não lêem? Não tem interesse em 
freqüentar este tipo de feira? Por quê? O ambiente não é agradável e atrativo para todas as idades? E 
assim por diante... 
 
 
 
 
 
Estatística II 
Prof. Laura Maria Saporski Cachuba 
69 
Anexo I. Planilha de Dados. 
 
Quest Idade Trab. 
Remunerado 
Renda Escolaridade Estudando Fluência Qual língua? Soube/feira Outra Ativ. 
Esportiva 
Qual 
esporte? 
Hábito 
1 a b a c a b a a canoagem a 
2 c a b d a b i b b 
3 b a b e b a Espanhol e b d 
4 d b a c a b d b b 
5 b a a e a b d b a 
6 a a d a a b c b a 
7 a a a e b b c b a 
8 a a b c a b c a judô d 
9 a b c d a b b b b 
10 a b b b a b i b a 
11 b a b e a a Inglês e Espanhol d b d 
12 b a a d a b c b c 
13 c a b c a b e b a 
14 a a b d a b f b b 
15 a a b b a b g a ciclismo d 
16 a b b b a b g b b 
17 e b c d a b e b c 
18 b a a f a b i b a 
19 d a a g b b h a natação a 
20 a a d c a b a b c 
21 a a b b a b c a natação b 
22 b a b f b a Inglês e francês c b b 
23 a a a b a b d b b 
24 c a b g a b e b d 
25 b a c b a b f b a 
26 a b a c a a Alemão a a natação d 
27 a a b d a b c b c 
28 a a b c a b i b b 
29 a a f b a b a a natação a 
30 a a a d a a Francês c b a 
 
Estatística II 
Prof. Laura Maria Saporski Cachuba 
70 
II – NOÇÕES DE PROBABILIDADE – CONCEITOS BÁSICOS 
 
 Todas as vezes que estudamos fenômenos de observação, é preciso distinguir o próprio 
fenômeno e o modelo matemático que melhor o explique (determinístico ou probabilístico). 
 Os fenômenos estudados pela Estatística são fenômenos cujo resultado, mesmo em 
condições normais de experimentação, variam de uma observação para outra dificultando dessa 
maneira a precisão de um resultado futuro. 
 O conhecimento dos aspectos fundamentais do cálculo da probabilidade é uma necessidade 
essencial para o estudo da Estatística Indutiva ou Inferencial. 
 Para a explicação desses fenômenos – fenômenos aleatórios – adotamos um modelo 
matemático probabilístico, através do cálculo de probabilidade. 
 
1. Experimento Aleatório: um experimento é dito aleatório quando satisfaz as seguintes 
condições: 
a) Pode ser repetido indefinidamente; 
b) Somos capazes de descrever todos os possíveis resultados de um experimento, embora não 
sejamos capazes de predizer, com certeza, qual ocorrerá; 
c) Obedece à regularidade estatística, ou seja, quando o experimento for repetido um grande 
número de vezes, surgirá uma configuração definida. Ex: lançar um dado e observar a face 
de cima; temperatura máxima da cidade de Curitiba no mês de março; vazão mínima de um 
rio, em determinada seção, durante o mês de janeiro. 
 
2. Espaço Amostral: é o conjunto Ω (ômega) de todos os resultados possíveis de um 
experimento aleatório. Cada resultado do experimento aleatório é denominado ponto 
amostral. Ω pode ser finito ou infinito. EX: lançamento de um dado: Ω= {1, 2, 3, 4, 5, 6) – 
conjunto finito; número de automóveis que cruzam uma rodovia no mês de julho: Ω = {1, 2, 
3, ..., } – conjunto infinito. 
 
3. Evento: é qualquer subconjunto do espaço amostral Ω. Deve-se considerar como eventos de 
qualquer espaço amostral o evento impossível. Ø (conjunto vazio) e o evento certo (o 
próprio espaço amostral Ω). Os eventos podem ser simples – quando possuem um único 
ponto
amostral, ou compostos – quando possuem mais de um ponto amostral. 
 
3.1 Eventos mutuamente exclusivos: dois eventos A e B são denominados mutuamente 
exclusivos se eles não puderem ocorrer simultaneamente, isto é, 
BA se
. 
 
4. Definição Axiomática de Probabilidade (Kolmogorov): seja o espaço amostral Ω 
associado a um dado experimento aleatório ε. A cada evento 
A
associamos um número 
real representado por P(A), denominado de probabilidade de A, satisfazendo as seguintes 
propriedades: 
1ª - 
1P(A)0 
 
2ª - P(Ω) = 1, ou seja, a probabilidade do evento certo é igual a 1; 
3ª - Se A e B forem eventos mutuamente exclusivos, a probabilidade de ocorrência de um deles é 
igual à soma das probabilidades de cada um, ou seja 
P(B)P(A)B)P(A 
. A 3ª propriedade 
pode ser generalizada para um sequência finita ou infinita de eventos mutuamente exclusivo, 
pertencentes a Ω, ou seja 
 










1i
ii EPE
1i
P
. 
 
Estatística II 
Prof. Laura Maria Saporski Cachuba 
71 
Definição Clássica de Probabilidade: Uma regra prática para a atribuição numérica de 
probabilidade ao evento E, é dada pelo quociente entre o número de resultados de Ω favoráveis ao 
evento E, e o número de resultados possíveis de Ω, desde que todos sejam equiprováveis. Portanto, 
a definição clássica de probabilidade é dada por: 
 
    E. Evento do ocorrência de adeprobabilid a é EP onde 
possíveis resultados
favoráveis resultados
EP 
 
 
5. Propriedades de Probabilidade: 
5.1 Se A é um evento aleatório, então a probabilidade de A não ocorrer é dada por: 
 
P(A)-1)AP(1)AP(P(A)
:Então 1, )P( 2, axioma Pelo
)P(APA 
 vazioconjunto A
P(A) -1 )AP(





AA
A
 
 
 
 
5.2 Se A e B não são eventos mutuamente exclusivos, então: 
B)P(A-P(B)P(A) B)P(A 
 
 
 A 
Ω 
Estatística II 
Prof. Laura Maria Saporski Cachuba 
72 
 
 
5.3 Probabilidade Condicional e Independência de Eventos: probabilidade de ocorrência 
simultânea. 
P(B)
B)P(A
P(A/B)


 lê-se probabilidade de A dado B, ou seja a probabilidade da ocorrência do 
evento A sabendo que o evento B já ocorreu. Se A e B são independentes, então 
P(B) P(B/A) e P(A)P(A/B) 
- independência estatística. 
 
 
5.4 Teorema da Soma ou das Probabilidades Totais: A probabilidade de ocorre pelo menos 
um entre dois eventos E1 e E2 ocorrerem simultaneamente, ou seja, 
)EP(E-)P(E)P(E)EP(E 212121 
 
No caso de 3 eventos: E1, E2 e E3, tem-se que: 
)EEP(E)EP(E-)EP(E-)EP(E-)P(E)P(E)P(E)EEP(E 321323121321321 
 
 
 
5.5 Teorema de Bayes: Se E1, E2, ..., En são n eventos dois a dois mutuamente exclusivos e 
exaurem o conjunto Ω dos eventos elementares, então se 
n)1,2,...,(i)P(E1 
, tem-se: 
))P(B/EP(E))P(B/EP(E))P(B/EP(E
))P(B/EP(E
/B)P(E
nn2211
ii

 ...1
 onde B é um evento que só 
pode ocorrer como efeito de uma das causas mutuamente exclusivas Ei. O teorema de Bayes 
fornece a probabilidade de que o evento Ei (evento específico ou evento de interesse) tenha 
ocorrido na hipótese de que o evento (ou causa) B tenha sido observado. 
 
 
 
 
A 
B 
Ω 
Estatística II 
Prof. Laura Maria Saporski Cachuba 
73 
Exercício 1. Calcule qual é a sua chance de ganhar na mega-sena com um único cartão em jogo 
simples (6 dezenas). 
   
860.063.50
720
200.979.045.36
!54!6
!54.55.56.57.58.59.60
!660!6
!60
C
!xn!x
!n
C 606
n
x 




 
  70000000199,0
860.063.50
1
P megasenana ganhar 
 
 
Exercício 2. Um lote é formado por 10 artigos perfeitos, 4 com pequenos defeitos e 2 com defeitos 
graves. Calcule a probabilidade de que: 
a) Selecionando dois artigos, ambos sejam perfeitos; 
b) Selecionando dois artigos, pelo menos um seja perfeito; 
c) Selecionando dois artigos, nenhum deles seja perfeito; 
d) Selecionando dois artigos, ambos tenham defeitos graves; 
e) Selecionando um artigo, ele não tenha defeito; 
f) Selecionando um artigo, ele seja perfeito ou tenha defeitos graves. 
     
16
2
DefGP
16
4
PDefP
16
10
PerfP 
 
      375,0
240
90
15
9
16
10
Perf/PerfP/PerfPPerfPerfP)a 12121 
 
      
  875,0125,01
240
30
1
15
5
.
16
6
1NPerfNPerfP1
ou
875,0
240
210
240
60
240
60
240
90
15
10
16
6
15
6
16
10
15
9
16
10
PerfNPerfPNPerfPerfPPerfPerfP)b
21
212121







 
  125,0
240
30
15
5
.
16
6
NPerfNPerfP)c 21 




 
      0083,0
240
2
15
1
16
2
DefG/DefGP/DefGPDefGDefGP)d 12121 
 
  625,0
16
10
PerfP)e 
 
        75,0
16
12
0
16
2
16
10
DefGPerfPDefGPPerfPDefGPerfP)f 
 
 
Exercício 3. Um certo tipo de motor elétrico falha somente quando ocorre uma das seguintes 
situações: A = emperramento dos mancais; B = queima dos enrolamentos; C = desgaste das 
escovas. Suponha que o emperramento seja 2 vezes mais provável de acontecer do que a queima, 
esta, por sua vez, sendo 4 vezes mais provável do que o desgaste. Se ocorre uma falha, qual será a 
probabilidade de que seja devido a cada uma destas circunstâncias? 
       
   
 CPescovas das Desgaste
BPosenrolament deQueima 
 mancais de toEmperramen



CP2
CP8CP4.2BP2AP 
               CBAPCBPCAPBAPCPBPAPCBAP 
 
               CBAPCBPCAPBAPCPBPAPCBAP 
 
 
Estatística II 
Prof. Laura Maria Saporski Cachuba 
74 
Exercício 4. O seguinte grupo está numa sala: 5 homens com mais de 21 anos, 4 homens com 
menos de 21 anos, 6 mulheres com mais de 21 anos, 3 mulheres com menos de 21 anos. Uma 
pessoa é escolhida ao acaso. Calcule: 
a) A probabilidade de ser pessoa com menos de 21 anos ou mulher; 
b) A probabilidade de ser pessoa com mais de 21 anos e homem; 
c) A probabilidade de ser mulher. 
 
Exercício 5. A probabilidade de que um homem esteja vivo daqui a 30 anos é de 2/5; a de sua 
mulher é de 2/3. Determinar a probabilidade de que daqui a 30 anos: 
a) Ambos estejam vivos; 
b) Nenhum esteja vivo; 
c) Pelo menos um esteja vivo 
d) Somente o homem esteja vivo; 
e) A mulher esteja morta; 
 
Exercício 6. A probabilidade do sujeito A acertar uma lata a determinada distância é ¼ e a do 
sujeito B acertar da mesma forma é 2/5. Se ambos atiram simultaneamente, qual a probabilidade da 
lata ser atingida? 
 
Exercício 7. Um empresa possui em sua linha de produção 3 máquinas – A, B e C – que produzem, 
respectivamente, 25%, 35% e 40% do total fabricado. Durante a produção dos artigos, cada 
máquina produz, respectivamente, 5%, 4% e 2% de artigos defeituosos. Escolhe-se um produto ao 
acaso e verifica-se que o mesmo é defeituoso. Qual a probabilidade de que tenha sido produzido 
pela máquina A? E pela B? E pela C? 
 
Exercício 8. Um pesquisador estudou o comportamento de consumo de bebidas lácteas no Brasil. 
Analisou a classe econômica do consumidor e o principal aspecto determinante da escolha da 
marca. Os dados obtidos estão tabulados na tabela abaixo: 
 
Classe \ Aspecto Preço Qualidade Soma 
Alta 42 56 98 
Média 37 21 58 
Baixa 13 97 110 
Total 92 174 266 
 
Qual a probabilidade de um consumidor escolhido ao caso: 
a) Priorizar preço, dado que é de classe alta; 
b) Priorizar qualidade, dado que é de classe média; 
c) Ser de classe baixa, dado que atribui maior importância ao fator qualidade.
d) Quantas pessoas foram entrevistadas? 
 
Exercício 9. Um casal decide ter 4 filhos e é informado que existe uma chance de 25% de ter um 
filho com a “síndrome X”. Esta doença possui a mesma chance de ocorrência, independente de 
qualquer fator (idade dos pais, fatores genéticos, tipo de gestação, etc.). Qual a probabilidade de que 
o casal em questão: 
a) Tenha um filho com a “síndrome X”? 
b) Tenha até 2 filhos com a “síndrome X”? 
 
Estatística II 
Prof. Laura Maria Saporski Cachuba 
75 
Distribuições de Probabilidade 
 
Um modelo probabilístico para um v.a X é uma forma específica de distribuição de 
probabilidade que reflita o comportamento de X. As propriedades de um modelo probabilístico 
devem ser: 
 Adequação: o modelo deve refletir adequadamente o mecanismo aleatório que ocasiona 
variação nas observações; 
 Simplicidade: utilização, sempre que possível, de hipóteses simplificadoras, de modo 
que o modelo se preste à análise estatística, sem sacrifício da adequação; 
 Parcimônia de parâmetros: um número excessivo de parâmetros prejudicaria a análise 
estatística. Entre dois modelos que constituam aproximação adequada de um fenômeno, 
devemos preferir aquele que apresente o menos número de parâmetros. 
 
Para isso, dispomos dos modelos clássicos, discretos ou contínuos. 
 
Distribuições Discretas de Probabilidade 
 
1. Distribuição Binomial: uma distribuição binomial satisfaz as seguintes condições: 
a) As diversas provas se realizam sob condições idênticas. Ex: as peças de uma 
produção são analisadas sob as mesmas condições; 
b) Cada prova comporta apenas dois resultados possíveis, mutuamente exclusivos, 
designados por sucesso e falha; 
c) A probabilidade de sucesso, p, é a mesma em cada prova e permanece constante 
durante todo o experimento: por consequência, a probabilidade de falha, q, também é 
constante: q=1-p; 
d) As provas são independentes umas das outras; o conhecimento do sucesso (ou falha) 
de uma delas não modifica a probabilidade de sucesso (ou falha) nas provas 
subseqüentes. 
Obs: Provas repetidas nas condições (a) e (d) chamam-se provas de Bernoulli. 
 
Seja um experimento que consiste em um número fixo, n, de provas de Bernoulli (provas 
que só comportam duas respostas mutuamente exclusivas) e probabilidade de sucesso, p, constante 
em cada prova. Então X será v.a. que dá o número x de sucessos em n provas. 
  xnxx qp
x
n
fppnbinX 





 ;
 onde n e p são parâmetros da distribuição e os valores 
possíveis de X são inteiros x= 0, 1, 2, ...,n. 
qpnpnx 
2 
 Em lugar de expressarmos um v.a. binomial como o número X de sucessos, podemos 
expressá-la em termos de proporção de sucessos, 
p
, que é a razão do número de sucessos para o 
número de tentativas: 
n
x
p 
, indicada para amostras com reposição. 
 
Estatística II 
Prof. Laura Maria Saporski Cachuba 
76 
Exercício 10. Refaça o exercício 9. 
 25,0;4binX 
 
421875,0
3
75,025,0
)!14(!1
!4
)1X(P
14
75.0
1
25,0
1
4
)1X(P)a




 





 
39492,021094,042188,031641,0)2x1x0x(P)2X(P)b 
 
 
2. Distribuição de Poisson: distribuição discreta que dá a frequência de ocorrência de certos 
tipos de eventos aleatórios, que ocorrem em intervalos de tempo (ou superfície, ou volume, 
etc.); pode ser usada como aproximação da distribuição binomial. 
Seja X o número de eventos recebidos durante um período qualquer estipulado; então X te função 
de probabilidade dada por: 
 
      2210 xxxx x
x
e
fPX ,...,,! 
 
Exercício 11. Um aparelho de celular costuma receber 4 ligações a cada hora. Qual a probabilidade 
de receber: 
a) 3 ligações em 1 hora? 
b) Exatamente 4 ligações em 1 hora? 
c) Nenhuma ligação em 1 hora? 
d) 5 ligações em 15 minutos? 
e) 8 ligações em 45 minutos? 
f) Em média, quantas ligações receberá por hora? Com que desvio-padrão? 
 hora/ligações4PX 
 
0,19537 





6
6401832,0
!3
3
4
4
e
)3X(P)a
 
0,1954 )4X(P)b
 
0,01832)0() XPc
 
min15/ligação1
60
154
mim15?
min60
)5X(P)d






 
 ligações 4
 :parâmetro o Acertando
 
)5X(P 
=0,0031 
e) 
)8X(P 
=0,0081 
f) 
ligações24ligações4 
 
 
 
Estatística II 
Prof. Laura Maria Saporski Cachuba 
77 
3. Distribuição Hipergeométrica: seja X o número de sucessos, N o número total de itens na 
população, K o número total de sucessos, n o número de itens na amostra, a fórmula para 
determinar as probabilidades hipergeométricas é dada por: 
p1q
N
K
pqpn
1N
nN
N
Kn
n
N
xn
KN
x
K
fpx
2
xx
x



























 e :onde 
étrica Hipergeom
 
 
 A distribuição hipergeométrica é indicada para amostragem sem reposição, ou seja, a 
probabilidade de sucesso altera-se à medida que selecionamos novo elemento. Quando a 
população for grande e a amostra relativamente pequena, o fato de amostragem ser feita sem 
reposição tem pequena influência na probabilidade se sucesso de cada tentativa. Uma “regra” 
conveniente para usar a binomial como aproximação da hipergeométrica é 
Nn  050,
 
(quando n for menos de 5% da população). 
 
Exercício 12. Suponha que a cada 200 anotações feitas em 20 fichas cadastrais, você constate 1 
erros. Solicitando 3 fichas ao caso, qual a probabilidade de que uma delas contenha erro de 
anotação? 
K= total de itens de interesse; N = total de itens; n = amostra de itens; x = quantidade de itens 
de interesse 
 
 
  2453,0
400.313.1
200.322
1XP
400.313.1
110.1620
!197!3
!197198199200
!178!2
!178179180
!19!1
!1920
!197!3
!200
!178!2
!180
!19!1
!20
3
200
13
20200
1
20
1XP
n
N
xn
KN
x
K
xXP





















































 
 
 
 
Distribuições Contínuas de Probabilidade 
 
1. Distribuição Normal: é a mais importante das distribuições contínuas de probabilidade, 
sendo aplicada em inúmeros fenômenos e utilizada para o desenvolvimento teórico da 
estatística e nos processos de inferência. É também conhecida como distribuição de 
probabilidade dos erros de observação, denominando-a “lei normal dos erros”, distribuição 
de Gauss, Laplace ou Laplace-Gauss. 
Gauss estabeleceu sua equação como distribuição de probabilidade dos erros de observação, 
denominando-a “lei normal dos erros”. A distribuição normal tem sua função densidade de 
probabilidade dada por: 
Estatística II 
Prof. Laura Maria Saporski Cachuba 
78 
 
2
2
1
2
1
;





 

 


x
x efNX
, onde μ e σ são parâmetros da 
distribuição (média e desvio-padrão, respectivamente). 
  20x 
 As principais características da distribuição normal são: 
1) A média da distribuição é μ; 
2) O desvio-padrão é σ; 
3) A moda ocorre em 
x
 (ponto de máximo de f(x) e o valor máximo é dado por 
 2
1
; 
4) A curva é simétrica em relação a um eixo vertical passando por 
x
, isto é, 
      xff xx 
; 
5) A curva tem inflexões nos pontos 
 x
; 
6) A curva normal é assintótica ao eixo horizontal em ambas as direções (quando 
0 xfx ,
); 
7) A área total sob a curva normal e acima do eixo horizontal é igual a 1 (o eixo 
horizontal
é o eixo dos valores da v.a. X normal). 
 
A probabilidade da v.a. X estar entre dois valores a e b é igual à área sob a curva e acima do 
segmento horizontal [a,b]. 
 
 
 
 
Então,   dxe
a
b
bxaP
x






 


2
2
1
2
1 


. Esta integral não pode ser calculada 
exatamente, e a probabilidade indicada só pode ser obtida aproximadamente por métodos 
numéricos. 
Estatística II 
Prof. Laura Maria Saporski Cachuba 
79 
Para que o uso de uma tabela possa ser feito, precisaríamos de tabelas de dupla entrada, já que a 
f.d.p. depende de dois parâmetros. Por esse motivo, utilizamos em recurso de transformações de 
variável. 
Então, quando 
10 2   e
, temos uma normal padrão ou reduzida, definida por: 



X
z
, 
que terá 
 10;NZ 
. 
Através desta padronização, utilizaremos uma única tabela com probabilidades associadas 
para quaisquer valores dos parâmetros. 
Nota-se que: 
a) A nova origem é 0; 
b) O desvio padrão é a unidade de medida. 
 
A tabela da distribuição normal fornece a distribuição acumulada que indica a probabilidade z 
de ser inferior a um determinado valor z. Geralmente usa-se a letra grega Φ (fi) para representar a 
função: 
   zZPZ 
. 
 
Estatística II 
Prof. Laura Maria Saporski Cachuba 
80 
Exercício 13. Suponha uma turma de estatística, cuja nota média final da turma foi 7,3 com um 
desvio-padrão de 1,7. Calcule a probabilidade de que um aluno desta turma: 
a) Tenha tirado nota acima de 8,3; 
b) Tenha tirado nota abaixo de 3,0; 
c) Tenha tirado nota entre 4,0 e 6,9; isto representa quantos alunos se a turma é composta de 60 
estudantes? 
d) Tenha tirado nota entre 7,0 e 8,5; 
e) Tenha tirado nota entre 8,0 e 9,0. 
 
 7,1;3,7NX 
 
a) 
  27759,059,0ZP
7,1
3,73,8X
P)3,8X(P 




 




 
b) 
  00570,053,2ZP
7,1
3,70,3X
P)0,3X(P 




 




 
 
alunos 2374,226037898,037898,002618,040516,0
02618,094,1Z
40516,024,0Z
37898,024,0Z94,1P
7,1
3,79,6X
7,1
3,70,4
P)9,6X0,4(P)c








 






 
 
 
33257,042857,076114,0
76114,071,0Z
42857,018,0Z
33257,071,0Z18,0P
7,1
3,75,8X
7,1
3,70,7
P)5,8X0,7(P)d








 






 
 
18225,065909,084134,0
84134,00,1Z
65909,041,0Z
18225,00,1Z41,0P
7,1
3,70,9X
7,1
3,70,8
P)0,9X0,8(P)e








 






 
 
 
Teorema Central do Limite 
 
1) Quando a população é normal, 
 ;NX 
, a média amostral 
X
 de amostras de 
tamanho n tem distribuição também normal com a média 

 e desvio padrão 
n

. 
2) Para uma população não amostral com média 

 e desvio-padrão 

, a distribuição da 
média amostral 
X
 para amostras de tamanho n suficientemente grande é aproximadamente 
normal com média 

 e desvio-padrão 
n

, isto é 
 10;N
n
x




. 
Este segundo resultado constitui o Teorema Central do Limite, e se aplica a qualquer v.a., com 
qualquer distribuição de probabilidade. Este resultado é muito útil em estimação intervalar. 
 
Estatística II 
Prof. Laura Maria Saporski Cachuba 
81 
A Função Distribuição Acumulada 
A função distribuição acumulada é definida por: 
   xXPF x 
, onde X é a v.a. em 
estudo. 
Uma função distribuição acumulada contínua ou discreta satisfaz os seguintes requisitos: 
1) F(x) está sempre entre 0 e 1; 
2) Quando c se torna muito grande, F(x) tende para 1; 
3) Quando x se torna muito pequeno, (tendendo para 

), F(x) tende para 0; 
4) F(x) nunca é decrescente. 
 
Se queremos determinar a probabilidade de X ser maior do que determinado valor x, então: 
     xFxXPxXP  11
. 
Se queremos a probabilidade de X estar entre dois valores dados, então: 
     1221 xx FFxXxP 
. 
Obs. Não utilize estas práticas para v.a’s discretas. Elas só são válidas para v.a’s contínuas. 
 
Estatística II 
Prof. Laura Maria Saporski Cachuba 
82 
Exercício 14. As vendas de uma lanchonete seguem aproximadamente uma Distribuição Normal, 
com média R$ 400,00 e desvio-padrão igual a R$ 100,00. Qual a probabilidade de que em um 
determinado dia a lanchonete fature: 
a) Entre R$ 450,00 e R$ 650,00; 
b) Entre R$ 350,00 e R$ 500,00; 
c) Menos de R$ 400,00; 
d) Mais de R$ 250,00; 
e) Mais de R$ 600,00; 
 
Exercício 15. A validade de um remédio para cefaléia tem em média 750 dias e desvio-padrão de 
40 dias. Calcular a probabilidade do princípio ativo deste remédio durar: 
a) Entre 600 e 900 dias; 
b) Mais que 700 dias; 
c) Menos que 650 dias. 
 
Exercício 16. O tempo necessário em uma oficina para o conserto da transmissão de um tipo de 
automóvel é feito em média em 50 min, com desvio-padrão de 15 min. Um mecânico planeja 
começar o conserto do carro de um cliente 10 min após o carro ter sido deixado na oficina, 
comunicando ao cliente que o carro estará pronto num tempo total de uma hora. Qual a 
probabilidade de que o mecânico esteja enganado? 
 
Exercício 17. Uma certa impressora possui uma capacidade em imprimir uma quantidade de letras 
com média de 1.100 letras por min com desvio-padrão de 75 letras por min. Qual a probabilidade da 
impressora conseguir imprimir entre 917 e 1.150 letras por min com o tempo de uso? 
 
Exercício 18. Um teste de aptidão feito por pilotos de aeronaves em treinamento requer que uma 
série de operações seja realizada em uma rápida sucessão. Suponha que o tempo necessário para 
completar o teste seja feito com uma média de 80 min com desvio-padrão de 15 min. Para passar no 
teste, o candidato deve completá-lo com menos de 60 min. 
a) Qual a probabilidade de ser aprovado neste teste? Se 65 candidatos fazem o teste, quantos se 
espera que passem? 
b) Se os 5% melhores candidatos serão alocados para aeronaves maiores, quão rápido deve ser 
o candidato para que obtenha esta posição? 
c) Os 10% piores candidatos deverão refazer o treinamento antes de tornar a fazer o teste. Qual 
o tempo que levaram para realizar o teste estes candidatos que terão que refazer o 
treinamento? Se 65 realizaram o teste, quantos terão que retornar ao treinamento? 
 
Exercício 19. A distribuição dos pesos de coelhos criados numa granja pode muito bem ser 
representada por uma distribuição normal com média de 5 Kg e desvio-padrão de 0,8 Kg. Um 
abatedouro comprará 5.000 coelhos e pretende classificá-los de acordo com o peso do seguinte 
modo: 20% dos leves como pequenos; os 55% seguintes como médios; os 15% seguintes como 
grandes e os 10% mais pesados como extras. Quais os limites de peso para cada classificação? 
 
 
Estatística II 
Prof. Laura Maria Saporski Cachuba 
83 
Aproximações das Distribuições 
 
1. A distribuição de Poisson como aproximação da distribuição Binomial. 
 
A distribuição de Poisson tem grande número de aplicações porque pode ser vista como uma 
aproximação da distribuição binomial com parâmetros 
pn e 
, quando 
n
 é grande e 
p
 é pequeno, 
de modo que 
np
 seja de tamanho moderado. 
Ex. Considere um experimento binomial com 
200n
, 
020,p
, em que se pede a probabilidade 
de, no máximo, cinco sucessos. 
Pela solução, usando a binomial, teremos o seguinte cálculo: 
      xx
x x
xp








  5
5
0
980020
200
5 ,,
, para x = 0,1,2,3,4,e 5. 
Tal probabilidade ultrapassa muito o âmbito das tábuas binomiais usuais, em
vista do valor elevado 
de 
 200n
. Apelando para a distribuição de Poisson: 
  785205
4020200
,
,


Xp
nppn  
 
2. A distribuição Normal como aproximação da distribuição Binomial. 
 
Quando n é grande e p não está muito próximo nem de 0, a distribuição normal constitui uma boa 
aproximação da binomial, o que permite tratar uma v.a. normal. E, como na binomial, a média é np 
e o desvio-padrão é 
qpn 
, n sendo o número de provas, p a probabilidade de sucesso e 
pq  1
, padronizamos X da seguinte maneira: 
 







 





npq
npb
Z
npq
npa
PbXaP
npq
npX
Z 
 
 
Ex. Considere v.a. X com n = 15 e p = 0,4 e calculemos 
 107  Xp
. Pelo cálculo da binomial 
esta probabilidade dá 0,38084. A aproximação normal dá resultado bastante diferente do resultado 
exato (0,28), não só porque n é pequeno, mas, principalmente, porque é necessário introduzir uma 
correção quando se pretende aproximar uma discreta por uma distribuição contínua. Tal correção é 
chamada correção de continuidade, que consiste em subtrair 0,5 do valor inferior e somar 0,5 ao 
valor superior. Então: 
      3906026099110107372260
91
6510
91
656
107 ,,,,,,,,,   XPZPZPXP
 O que representa uma excelente aproximação do valor exato. 
Estatística II 
Prof. Laura Maria Saporski Cachuba 
84 
III - AMOSTRAGEM 
 
 Os processos de amostragem seriam inúteis se todas as populações estudadas fossem 
perfeitamente homogêneas. Os diagnósticos de laboratório sobre nosso estado de saúde são feitos 
com apenas algumas gotas de sangue; este processo fundamenta-se na presunção de que o sangue 
em circulação está sempre bem misturado e que uma gota conta a mesma história que qualquer 
outra. 
 Entretanto, quando o material está longe de ser homogêneo, como acontece frequentemente, 
o processo pelo qual se obtém a amostra se torna crítico, e o estudo das técnicas que assegurem 
amostras dignas de confiança é importante. 
 
- Vantagens do Processo de Amostragem: 
 
1) Custo Reduzido: como os dados são obtidos de apenas uma pequena fração da população, as 
despesas são menores do que se for empreendido um censo integral. Quando as populações são 
grandes, podemos obter resultados suficientemente precisos de amostras que representem apenas 
uma pequena fração da população. 
 
2) Maior Rapidez: os dados podem ser reunidos e sintetizados mais rapidamente com uma 
amostragem, que com uma contagem completa; este fator é primordial quando se necessita com 
urgência das informações. 
 
3) Maior Amplitude: os levantamentos que se fundam na amostragem tem maior amplitude e 
flexibilidade, relativamente às espécies de informações que podem ser obtidas, quando se desejam 
informações precisas sobre muitas subdivisões da população; o volume da amostragem necessário à 
realização da tarefa é, por vezes, tão grande que a contagem completa se torna a melhor solução. 
 
4) Maior Exatidão: em virtude de se poder empregar pessoal de melhor qualidade e intensivamente 
treinado, e por se tornar exeqüível a supervisão mais cuidadosa do campo de trabalho e do 
processamento dos dados, devido a redução do volume de trabalho, uma amostragem pode, na 
realidade, proporcionar resultados mais exatos que a espécie de contagem integral. 
 
 Os Levantamentos por Amostragem podem ser classificados, de um modo geral, em dois 
tipos: 
1) Levantamentos Descritivos: em um levantamento descritivo, o objetivo é, unicamente, a 
obtenção de uma determinada informação sobre um grande grupo de indivíduos: por exemplo, o 
número de homens, mulheres e crianças que assistem a um certo programa de televisão; a 
utilização de determinado tipo de ração em animais em fase de engorda, etc. 
2) Levantamentos Analíticos: nos levantamentos analíticos, fazem-se comparações entre diferentes 
subgrupos da população, a fim de descobrir se entre eles existem diferenças que nos habilitem a 
formular ou verificar hipóteses sobre as forças que atuam sobre a população. Um levantamento 
feito em Indianápolis (1953) foi uma tentativa para determinar até que ponto os casais planejam 
o número e o espaço de intervalo entre os filhos, a atitude dos maridos e esposas em relação a 
este planejamento, as razões dessas atitudes e o grau de sucesso obtido. 
 
A distinção entre os levantamentos descritivos e analíticos não é nítida. Muitos 
levantamentos fornecem dados que servem a ambos os objetivos. Por exemplo, o comprimento das 
baganas de cigarro para analisar a relação fumo X câncer pulmonar; o número de moscas de uma 
cidade para analisar a eficiência das vaporizações contra moscas; o número de assinaturas de um 
Estatística II 
Prof. Laura Maria Saporski Cachuba 
85 
requerimento que não tinham sido escritas, efetivamente, pelas pessoas cujos nomes representavam 
para verificar a legalidade do documento. 
 
O PAPEL DA TEORIA DA AMOSTRAGEM 
 
 A amostragem é um problema prático que exige muitas espécies diferentes de habilitações. 
A amostragem exige atenção para todas as fases da atividade: o trabalho deficiente em uma das 
fases pode arruinar um levantamento em que tudo o mais tenha sido bem feito. 
 O objetivo da teoria da amostragem é tornar esta mais eficiente. O princípio de precisão 
específica ao menor preço reaparece, repetidamente, na apresentação da teoria. A precisão de um 
processo de amostragem é julgada pelo exame da distribuição de frequências gerada pela 
estimativa, quando o processo é aplicado repetidamente, à mesma população. Esta é a técnica 
padrão, pela qual se julga a precisão em teoria estatística. 
 Uma simplificação maior pode ser introduzida. Com amostras dos tamanhos que são comuns 
na prática, há, frequentemente, boas razões para se admitir que as estimativas provenientes das 
amostras distribuem-se mais ou menos normalmente. Dada uma estimativa normalmente 
distribuída, a forma total da distribuição de frequências é conhecida, desde que conheçamos o valor 
médio e o desvio-padrão (ou a variância). Uma parte considerável da teoria dos levantamentos por 
amostragem diz respeito à procura de fórmulas para a determinação desses valores médios e 
variâncias. 
 Uma diferença entre a teoria do levantamento por amostragem e a teoria clássica da 
amostragem é que as populações, nos trabalhos de levantamento, contém um número finito de 
unidades. Os métodos usados na demonstração dos teoremas são diferentes e os resultados são 
ligeiramente mais complicados, quando a amostragem provém de uma população finita em vez de 
infinita. Para os efeitos práticos, as diferenças de resultados, para populações finitas ou infinitas, 
raramente são importantes. Sempre que a amostragem é pequena (em termos do número de 
unidades de amostragem primárias) em relação ao volume da população, os resultados produzidos 
pelas populações infinitas são inteiramente adequados. 
 
AMOSTRAGEM PELAS PROBABILIDADES 
Todos os processo de amostragem, para os quais se haja desenvolvido uma teoria, tem as 
seguintes propriedades matemáticas em comum: 
1. Pode-se definir um conjunto de amostras independentes, S1, S2, ... , Sn, que o processo permite 
selecionar, quando aplicado a uma determinada população. Isso significa que podemos dizer, 
exatamente, a que unidades de amostragem pertencem S1, S2 , e assim por diante. 
2. A cada amostra possível, S1, é atribuído um grau conhecido de probabilidade de seleção i. 
3. A escolha de uma das amostras S1 é feita por meio de um processo, no qual todas as amostras 
possíveis, Si, recebem uma adequada probabilidade de serem escolhidas, i. 
4. O método para o cálculo da estimativa decorrente da amostragem
deve ser conhecido, devendo 
fornecer uma estimativa única para qualquer amostragem específica. Podemos admitir, por 
exemplo, que o valor da estimativa seja a média das medidas individuais das unidades da 
amostra. 
Estatística II 
Prof. Laura Maria Saporski Cachuba 
86 
 
Em qualquer processo de amostragem que satisfaça a essas propriedades, estamos em 
condições de calcular a distribuição de frequência das estimativas que ele produz, quando 
repetidamente aplicado à mesma população, já que sabemos quão frequentemente uma determinada 
amostra, Si, será selecionada e podemos calcular a estimativa decorrente dos dados contidos em Si. 
É evidente, portanto, que se pode estabelecer uma teoria de amostragem para qualquer processo 
desse tipo, embora os pormenores do estabelecimento possam ser complexos. 
 A expressão “amostragem pelas probabilidades” se refere a um processo desse tipo. Essa 
não é a única maneira pela qual se pode selecionar uma amostra. Independentemente das 
probabilidades, são comuns os seguintes tipos de amostragem: 
1. A amostragem é restrita a uma parte da população que esteja imediatamente disponível. Ex.: 
uma amostra de carvão de um vagão aberto pode ser retirada entre as 6 e 9 polegadas superiores 
do carregamento. 
2. A amostra é escolhida ao acaso. Ex.: ao apanhar dez coelhos de uma grande gaiola, em um 
laboratório, o investigador apanhará, possivelmente, aqueles sobre os quais sua mão cair, sem 
um planejamento consciente. 
3. No caso de uma população pequena, mas heterogênea, o operador inspeciona o conjunto da 
população e escolhe uma pequena amostragem de unidades “típicas”, isto é, unidades que se 
aproximam da impressão que ele tem da média da população. Esse processo é, às vezes, 
denominado de “julgamento” ou “seleção intencional”. 
4. As amostras são constituídas, essencialmente, de voluntários, nos estudos em que o processo de 
medida é desagradável ou penoso para a pessoa que está sendo medida. 
 
Sob condições convenientes, quaisquer desses processos podem fornecer resultados úteis. Não 
são, entretanto, conducentes ao estabelecimento de uma teoria de amostragem, pois não contem 
nenhum elemento de seleção aleatória. Mesmo quando um processo parece dar certo em uma 
dessas comparações, isso não garante que o mesmo aconteça em circunstâncias diferentes. 
 
Uso da Distribuição Normal – Problemas da Inferência Estatística 
 
A amostragens, nos levantamentos, frequentemente são bastante grandes para que as 
estimativas baseadas nelas sejam mais ou menos normalmente distribuídas. Além disso, com a 
amostragem pelas probabilidades, temos fórmulas que nos dão o valor médio e a variância da 
estimativa. 
 Raramente se consegue obter a distribuição exata de alguma variável, ou porque isto é muito 
dispendioso, ou muito demorado ou às vezes porque consiste num processo destrutivo. Assim, a 
solução é selecionar parte dos elementos (amostra), analisá-la e inferir propriedades para o todo 
(população). Este é o objetivo da Inferência Estatística: é o processo pelo qual tomamos decisões 
válidas para a população, partindo de amostras. Logo, a amostragem consiste no estudo das relações 
existentes entre as populações e as amostras provenientes das mesmas. 
 Na obtenção das amostras, devemos usar técnicas adequadas para que as mesmas sejam 
representativas das populações, ou seja, devem possuir as características básicas das populações. 
Evidentemente, devido à aleatoriedade, sempre existirão certas discrepâncias no processo de 
amostragem. 
 Assim, temos alguns conceitos básicos necessários para o desenvolvimento da Inferência 
Estatística. 
Definição: População é o conjunto de indivíduos (ou objetos), tendo pelo menos uma variável 
comum observável. 
Definição: Amostra é qualquer subconjunto da população. 
Estatística II 
Prof. Laura Maria Saporski Cachuba 
87 
Definição: População-alvo é a população sobre a qual vamos fazer inferências baseadas na 
amostra. Esta especificação pode parecer trivial, mas a verdade é que, em todos os levantamentos, 
aparecem casos dúbios que merecem maior atenção na composição da amostra. Uma causa 
frequente de levantamentos ruins é a falta de cuidado com que a população-alvo é definida. Por ex.: 
Qual a idade média da frota de ônibus de Curitiba? Se só estamos interessadas na região de 
Curitiba, devemos excluir os ônibus da frota metropolitana, e os escolares da Prefeitura. 
Definição: Variáveis são características que iremos medir. Aqui o erro mais frequente é querer 
incluir muitas características. A qualidade da mensuração cai com o aumento do número de 
perguntas. Devemos, portanto nos fixar apenas em características que contribuam para a 
quantificação adequada da característica populacional de real interesse para o estudo. 
Definição: parâmetros são funções de valores populacionais. 
Definição: estatísticas são funções de valores amostrais. 
 
 Repetir um experimento muitas vezes, sob as mesmas condições, nem sempre é possível; 
mas, em determinadas condições, é possível determinar teoricamente o comportamento de algumas 
medidas feitas na amostra, por exemplo, a média. Mas isso depende, em grande parte do plano 
adotado para selecionar a amostra. Assim, em problemas envolvendo amostras, antes de tomarmos 
uma decisão, teríamos que responder a três perguntas: 
1. Como escolher a amostra? 
2. Que informação pertinente (estatística) será retirada da amostra? 
3. Como se comporta a estatística quando o mesmo procedimento de escolher a amostra é usado 
numa população conhecida? 
 
Como selecionar uma amostra? 
As observações colhidas numa amostra são tanto mais informativas sobre a população, 
quanto mais conhecemos esta mesma população (como, por ex. no caso do sangue). 
 A maneira de se obter uma amostra é tão importante, e existem tantos modos de fazê-lo, que 
estes procedimentos constituem uma especialidade dentro da Estatística, conhecida como 
Amostragem. Mas esses vários procedimentos podem ser agrupados em dois grandes grupos: os 
chamados planos probabilísticos e não-probabilísticos. O primeiro grupo reúne todas aquelas 
técnicas que usam mecanismos aleatórios de seleção dos elementos da amostra, atribuindo a cada 
um deles uma probabilidade, conhecida a priori, de pertencer à amostra. No segundo grupo estão os 
demais procedimentos, tais como: amostras intencionais, onde os elementos são selecionados com 
auxílio de especialistas, e amostras de voluntários, como ocorre em alguns testes sobre novos 
remédios. 
 Ambos os procedimentos tem suas vantagens e desvantagens. A grande vantagem das 
amostras probabilísticas é medir a precisão da amostra obtida, baseando-se no resultado contido na 
própria amostra. Tais medidas já são bem mais difíceis para os procedimentos do segundo grupo. 
 
Métodos probabilísticos 
 O método de amostragem probabilística exige que cada elemento da população possua 
determinada probabilidade conhecida e diferente de zero de ser selecionado. Normalmente possuem 
a mesma probabilidade. Assim, se N for o tamanho da população, a probabilidade de cada elemento 
será 1/N. Trata-se do método que garante cientificamente a aplicação de técnicas estatísticas de 
inferências. Somente com base em amostragens probabilísticas é que se podem realizar inferências 
e deduções sobre a população a partir do conhecimento da amostra. 
 
Métodos não-probabilísticos 
 Quando nem todos os elementos da população têm probabilidade conhecida de pertencer à 
amostra. A característica principal das técnicas de amostragem não-probabilista é a de que, não 
Estatística II 
Prof. Laura Maria Saporski Cachuba 
88 
fazendo uso de formas aleatórias de seleção, torna-se impossível à aplicação de fórmulas estatísticas
para o cálculo, por exemplo, entre outros, de erros de amostra. Dito de outro modo, não podem ser 
objeto de certos tipos de tratamento estatístico. 
 
A vantagem do uso da amostragem probabilística é que a mesma permite o cálculo do erro 
amostral, o que não acontece com a amostragem não probabilística. 
 
TÉCNICAS DE AMOSTRAGEM PROBABILÍSTICA 
 
1. Amostragem casual simples (ao acaso, aleatória, elementar): é aquela onde todos os 
elementos da população tem igual probabilidade de pertencer à amostra. Essa técnica é equivalente 
a um sorteio lotérico. 
 A probabilidade que cada elemento tem de pertencer à amostra é dada pelo quociente n/N 
(chamado fração amostral), sendo n o tamanho da amostra e N o tamanho da população. 
 Quando a amostragem for feita com reposição, o número de amostras possíveis é dado por 
Nn, enquanto que, para a amostragem sem reposição esse número é dado por combinação de N/n. 
Uma maneira utilizada para fazer o sorteio dos elementos que comporão a amostra é o uso 
de uma tabela de números aleatórios ou a sua geração através de programas computacionais. Esta 
tabela (ou relação) consiste de inúmeros dígitos, obtidos por um processo equivalente a um sorteio 
equiprovável. 
A forma de utilização da tabela ou relação deverá ser a mesma durante todo o processo de obtenção 
dos números da amostra. 
 O processo de amostragem aleatória simples pode, por exemplo, lançar mão de uma Tabela 
de Números Aleatórios (também denominada Tábua de Números Equiprováveis). Essas tabelas 
foram obtidas através de computadores, com complexa programação, baseada em cálculos 
estatísticos, e fornecem uma amostra inteiramente ao acaso de números dispostos em colunas e 
linhas, por várias páginas. A maioria dos softwares também realiza a aleatorização de números sem 
necessidade de uma tabela. 
 O exemplo a seguir foi retirado da obra de Kendall e Smith, Tables of random sampling 
numbers (In: Boyd e Westfall, 1978:338) e reproduzido parcialmente. 
Estatística II 
Prof. Laura Maria Saporski Cachuba 
89 
 
3125 8144 5454 6703 2444 1518 3387 8772 6538 7532 
1496 9980 1454 3074 3889 9230 2398 1598 3947 6917 
4905 4956 3551 6836 6512 8312 9238 6663 8606 9580 
9967 5765 1446 9288 0555 2591 8307 5280 5948 7869 
 
5414 9534 9318 7827 5558 8651 7679 9983 5528 8922 
5750 3489 9914 5737 6677 8288 7957 0899 1918 7684 
9867 7825 0690 3990 2075 5402 8168 1601 0830 7544 
4099 0087 9042 8818 0716 0373 6561 0855 3654 5997 
 
O procedimento é o seguinte; numeram-se todos os componentes da população, dando a 
cada um deles apenas um número. A seguir, determina-se o total de componentes da amostra e, 
utilizando a tabela de números aleatórios, selecionam-se os elementos a serem pesquisados. 
Exemplo: há 980 alunos em uma Faculdade. Deseja-se entrevistar 450. Depois de numerados todos 
os alunos, de 1 a 980, escolhe-se uma página da tabela, iniciando em qualquer ponto e indo para 
qualquer direção. A seleção deve ser de grupos de três algarismos, em virtude de o total ser 980. No 
caso, iniciar-se-ia na 2 coluna de 4 algarismos, desprezando-se o último e indo de cima para baixo. 
Sem levar em consideração os números superiores a 980, encontrar-se-ia, para os primeiros 15 
sorteados, a seguinte sequência: 814, 495, 576, 348, 782, 008, 545, 145, 355, 144, 069, 670, 307, 
683 e 782. E assim por diante, até completar o tamanho desejado. 
A amostra aleatória simples pode apresentar dois tipos: 
a) sem reposição, o mais utilizado, em que cada elemento só pode entrar uma vez para a amostra; 
b) com reposição, quando os elementos da população podem entrar mais de uma vez para a 
amostra. 
 
2. Amostragem Sistemática: É uma forma simplificada da amostragem casual simples, podendo 
ser utilizada quando os elementos da população se apresentam ordenados e a retirada dos elementos 
para compor a amostra é feita periodicamente. Por exemplo, em um processo de produção, onde se 
deseja executar o controle de qualidade, podemos tomar uma peça para compor a amostra, em cada 
x peças produzidas; ou fichas em um fichário; listas telefônicas, lista de membros de uma 
associação, guia das ruas de uma cidade, indexação (por ordem alfabética) através de cartões, uma 
fila de pessoas, prédios de uma rua, etc. 
A amostragem sistemática é eficiente à medida que a "listagem", a fila, a disposição dos 
prédios etc., esteja "misturada" no que se refere à característica em estudo. Por exemplo, deseja-se 
estudar a renda. Uma listagem por ordem alfabética, dos componentes de uma empresa, estará 
inteiramente misturada em relação a esta característica, o mesmo não ocorrendo se for por ordem, 
crescente ou decrescente, de salários ou funções executadas. 
O cuidado a ser tomado nesse processo é quanto à possibilidade da variável de interesse 
sofrer variações cíclicas, aonde os períodos desse ciclo venham a coincidir com os de retiradas dos 
elementos. 
 
3. Amostragem por meio de conglomerados: é o processo pelo qual a população se apresenta 
subdividida em grupos menores, sendo esses grupos menores denominados conglomerados, e 
sorteamos um número suficiente desses conglomerados. Esse processo é utilizado mais por questões 
de ordem prática e econômica. O nome conglomerados ou grupos deriva do fato de os 
conglomerados serem considerados grupos formados e/ou cadastrados da população. Exemplos: 
escolas, empresas, igrejas, clubes, favelas, etc. A exigência básica é que o indivíduo, objeto da 
Estatística II 
Prof. Laura Maria Saporski Cachuba 
90 
pesquisa, pertença a um e apenas um conglomerado; por exemplo, um estudante não pode estar 
cadastrado (matriculado) em duas escolas ao mesmo tempo. 
A amostragem por conglomerados ou grupos é rápida, barata e eficiente, sendo que a 
unidade de amostragem não é mais o indivíduo, mas um conjunto, facilmente encontrado e 
identificado, cujos elementos já estão ou podem rapidamente ser cadastrados. O único problema é 
que os conglomerados raramente são do mesmo tamanho, o que torna difícil ou até mesmo não 
permite controlar a amplitude da amostra. Recorre-se geralmente a técnicas estatísticas para 
contornar tal dificuldade. 
As necessidades específicas da pesquisa determinam, também no caso da amostragem por 
conglomerados, os procedimentos a seguir: 
a) os conglomerados são sorteados de forma aleatória e todos os componentes dos conjuntos 
escolhidos são pesquisados; 
b) os conglomerados são subdivididos em outros conjuntos e o sorteio aleatório se faz entre os 
subgrupos, sendo pesquisados todos os seus elementos. 
c) alguns conglomerados são escolhidos aleatoriamente e, em cada um, os indivíduos a serem 
pesquisados são sorteados de forma aleatória simples - amostragem em dois estágios, combinando o 
de conglomerados com o aleatório simples; 
d) os conglomerados são subdivididos em subgrupos e a seleção se faz em três estágios: alguns são 
sorteados aleatoriamente e, em cada aglomerado escolhido, são sorteados, também de forma 
aleatória as pessoas a serem pesquisadas. Esta forma de amostragem também combina as técnicas 
de conglomerados com a do aleatório simples. 
As duas últimas formas de amostragem apresentadas denominam-se também em vários 
degraus. 
Assim, por exemplo, num levantamento da população de uma cidade, podemos dispor de um 
mapa indicando cada quarteirão e não dispor de uma relação atualizada dos seus moradores. Pode-
se, então, colher uma amostra dos quarteirões e fazer a contagem completa de todos os que residem 
naqueles quarteirões sorteados. 
 
4. Amostragem Estratificada: é utilizada quando a população pode ser dividida em sub-
populações ou estratos, devendo a variável
de interesse ser mais ou mesmo homogênea dentro de 
cada estrato. Na composição da amostra, deverão ser sorteados elementos de todos os estratos, para 
que todos sejam representados na amostra. Ao contrário dos conglomerados, grupos já existentes na 
população e frequentemente já "cadastrados" como tal, os estratos são formados pelo pesquisador, 
segundo as necessidades de seu estudo. Ao formar os estratos, deve-se atentar para que todos os 
elementos da população estejam enquadrados nos mesmos e que nenhum indivíduo possa ser 
colocado em dois estratos diferentes, relativos ao mesmo atributo. Outra preocupação do 
pesquisador deve ser a de tornar os estratos o mais homogêneos possível, sendo, ao mesmo tempo, 
os diversos estratos heterogêneos uns em relação aos outros. A estratificação deve ser adaptada a 
cada pesquisa que se deseja realizar. Um conjunto de estratos, adequados para uma pesquisa de 
opinião pública, pouco interesse terá para uma investigação sobre o peso e a estatura dos estudantes 
ou a análise da população economicamente ativa. O ideal é que, ao planejar um estudo, o 
pesquisador faça um exame cuidadoso sobre os estratos a serem utilizados, com vista à sua eficácia 
para a pesquisa em pauta. Convém também não esquecer que o número de estratos a serem 
utilizados em cada estudo depende, até certo ponto, da amostra total: uma amostra relativamente 
pequena, se subdividida por vários estratos, redunda num número, que pode deixar de ser 
significativo, de elementos em cada estrato (inclusive torna-se extremamente difícil o tratamento 
estatístico de quantidades reduzidas de elementos por estrato); por outro lado, a extração de um 
número suficiente de unidades de cada estrato, para que a amostra (estratificada) seja representativa, 
acabará por aumentar em demasia o tamanho total da amostra, o que aumenta a duração e o custo da 
pesquisa. A amostra estratificada mais simples é a que contém dois estratos; por exemplo, sexo 
Estatística II 
Prof. Laura Maria Saporski Cachuba 
91 
masculino e feminino. À medida que outras variáveis são acrescidas para a formação dos estratos, o 
número destes cresce de forma geométrica. Se acrescentarmos ao sexo a procedência (brasileiro ou 
estrangeiro), ter-se-iam quatro estratos; se fossem incluídos "acima dos trinta anos" e "trinta anos ou 
menos", ficar-se-ia com 8 estratos, mas se a variável "faixa etária" tiver 5 valores (até 15 anos 
incompletos; de 15 a 30 anos incompletos; de 30 a 45 anos incompletos; de 45 a 60 anos 
incompletos; 60 anos e mais), obter-se-ia um total de 20 estratos. Dessa forma, quando se trabalha 
com mais de dois estratos, é necessário a matriz de classificação, que indicará, entre outras, a 
incidência percentual de cada estrato na população.Na amostragem estratificada, também de acordo 
com os objetivos da pesquisa, pode-se proceder de diferentes formas: a) Retirar, de cada estrato, de 
forma aleatória, amostras rigorosamente iguais. Tal procedimento serve para evitar distorções por 
parte de atributos que apresentem uma incidência maior na população. Quando as amostras, 
retiradas dos estratos são iguais, o processo denomina-se amostragem estratificada não 
proporcional. b) De cada extrato, por meio de técnicas aleatórias, retirar amostras proporcionais à 
população total contida em cada um. Esta técnica recebe o nome de amostragem estratificada 
proporcional. Para que se possa colher, em cada estrato, uma amostra proporcional à sua extensão, é 
necessário conhecer de antemão, a proporção de população pertencente a cada um. Dependendo do 
estudo, lança-se mão de várias fontes de informação: dados censitários nacionais, estaduais, 
regionais, etc., listas dos componentes de empresas, sindicatos, faculdades e similares. É 
importante, para a técnica da amostragem estratificada proporcional, que as informações sobre as 
proporções da população por estratos não estejam desatualizadas, pois, se assim for, perde-se a 
vantagem oferecida por ela. A estratificação proporcional protege a representatividade da amostra, 
ao assegurar que os grupos conhecidos da população sejam representados com justiça na amostra. 
Finalizando, é importante acentuar que a amostragem estratificada não significa um abandono de 
processos aleatórios, pois os mesmos são utilizados em todas as etapas, inclusive na seleção dos 
elementos dentro das camadas (estratos). Para se especificar quantos elementos de cada estrato 
deverão fazer parte da amostra, existem três maneiras: 
1) Uniforme: quando sorteamos mesmo número de elementos de cada estrato. Evidentemente, 
esse processo dever ser utilizado se os estratos das populações forem pelo menos 
aproximadamente do mesmo tamanho. 
2) Proporcional: quando sorteamos um número de elementos proporcional ao tamanho de cada 
estrato. Sua utilização é mais geral que a uniforme, pois depende do tamanho de cada estrato. 
3) Ótima: quando levamos em consideração o tamanho de cada estrato e também a variação da 
variável de interesse dentro de cada estrato. Essa variação é expressa em termos do desvio-
padrão de cada estrato. Dessa maneira, o estrato que tiver uma variação menor contribuirá com 
uma quantidade menor de elementos. 
 
As variáveis de estratificação mais comuns são: classe social, idade, sexo, profissão ... ou 
qualquer outro atributo que revele os estratos dentro da população. 
 
 TÉCNICAS DE AMOSTRAGEM NÃO-PROBABILÍSTICA 
 
A característica principal das técnicas de amostragem não-probabilista é a de que, não 
fazendo uso de formas aleatórias de seleção, torna-se impossível à aplicação de fórmulas estatísticas 
para o cálculo, por exemplo, entre outros, de erros de amostra. Dito de outro modo, não podem ser 
objeto de certos tipos de tratamento estatístico. 
1. Amostragem Acidental: trata-se de uma amostra formada por aqueles elementos que vão 
aparecendo, que são possíveis de se obter até completar o número de elementos da amostra. 
Geralmente utilizada em pesquisas de opinião, em que os entrevistados são acidentalmente 
escolhidos. 
Estatística II 
Prof. Laura Maria Saporski Cachuba 
92 
2. Amostragem Intencional: de acordo com determinado critério, é escolhido intencionalmente 
um grupo de elementos que irão compor a amostra. O investigador se dirige intencionalmente a 
grupos de elementos dos quais se deseja saber a opinião. Por exemplo, numa pesquisa sobre 
preferência por determinado cosmético, o pesquisador se dirige a um grande salão de beleza e 
entrevista as pessoas que ali se encontram. 
3. Amostragem por Quotas: um dos métodos de amostragem mais comumente usados em 
levantamentos de mercado e em prévias eleitorais é o método de amostragem por quotas. Ele 
abrange três fases: 
a) Classificação da população em termos de propriedades que se sabe, ou presume, serem 
relevantes para a característica a ser estudada; 
b) Determinação da proporção da população para cada característica, com base na constituição 
conhecida, presumida ou estimada, da população; e 
c) Fixação de quotas para cada observador ou entrevistador a quem tocará a responsabilidade 
de selecionar interlocutores ou entrevistados, de modo que a amostra total observada ou 
entrevistada contenha a proporção de cada classe tal como determinada em b. 
Por exemplo: admite-se que se deseja pesquisar o “trabalho das mulheres”. Provavelmente 
se terá interesse em considerar: a divisão cidade/campo, a habitação, o número de filhos, a 
idade dos filhos, a renda média, as faixas etárias... 
A primeira tarefa é descobrir as proporções (porcentagens) dessas características na 
população. Imagine-se que haja 47% de homens e 53% de mulheres na população. Logo 
uma amostra de 50 pessoas deverá Ter 23 homens e 27 mulheres. Então o pesquisador 
receberá uma “quota” para
entrevistar 27 mulheres. A consideração de várias categorias 
exigirá uma composição amostral que atenda ao n determinado e às proporções 
populacionais estipuladas. 
 
 O item dois é inerente ao interesse do pesquisador e o item três será analisado através de 
intervalos de confiança e testes de hipóteses, assuntos a serem abordados na sequência. 
 
 
Exercício 1. Pretende-se obter uma amostra dos alunos de uma universidade para estimar a 
proporção que tem trabalho remunerado. Qual é a população em estudo? Qual é o parâmetro que se 
quer estimar? Você acha que se obteria uma boa amostra dos alunos no restaurante universitário? 
No ponto de ônibus mais próximo? Nas portas das salas de aula? Ou você tem alternativa melhor? 
 
Exercício 2. Para estimar o número médio de pessoas em um domicilio, um pesquisador obteve 
uma amostra sistemática de 1000 domicílios. No entanto, mesmo fazendo varias visitas, o 
entrevistador não encontrou pessoas em 147 deles. O pesquisador obteve então uma segunda 
amostra e quando o entrevistador completou a visita aos 147 domicílios que compunham a amostra 
de 1000, analisou os dados. Haviam sido contadas 3087 pessoas. O pesquisador considerou então 
que o numero médio de pessoas em domicilio é 3,1. O que você acha? 
 
 
Estatística II 
Prof. Laura Maria Saporski Cachuba 
93 
CÁLCULO DO TAMANHO DA AMOSTRA 
 
 Na teoria da Amostragem, são consideradas duas dimensões: 
a) Dimensionamento da amostra; 
b) Composição da amostra. 
 
A composição da amostra diz respeito ao método de amostragem utilizado (probabilístico ou 
não probabilístico). Para o dimensionamento da amostra, temos as fórmulas básicas a seguir, 
segundo alguns critérios. 
Procedimento: 
a) Analise o questionário ou roteiro da entrevista e escolha uma variável que julgue mais importante 
para o estudo. Se possível, escolha mais de uma. 
b) Verifique o nível de mensuração da variável: se nominal, ordinal ou intervalar (discretas ou 
contínuas). 
c) Considere o tamanho da população: finita ou infinita. 
d) Escolha a fórmula adequada para calcular o tamanho de amostra necessário, de acordo com os 
critérios abaixo: 
1) Se a variável escolhida for intervalar (quantitativa) e a população considerada infinita, você 
poderá determinar o tamanho da amostra pela fórmula: 
amostra. da
partir a calculadaser a amostral média a será X e conhece, não ele que al,populacion média
a verdadeira é onde ,X- é, isto ,X e entresuportar admiteor investigad o que
diferença máxima a é estimativa de erro O variável.da unidade na expresso ,estimativa de erro d
 valores.possíveis sobre conjeturasFazer -
s;semelhante estudos de valor oResgatar -
 técnicas;çõesEspecifica -
:maneiras trêsmenos pelo de padrão)-desvio (o lo-determiná poderá Você
 variável.da unidade na expresso população, da padrão-desvio
confiança; de nível um fixado padrão, normal curva da abcissaZ
:onde 
2



d
d
Z
n









 

 
2) Se a variável escolhida for intervalar (quantitativa) e a população finita, tem-se:  
.estimativa de errod
população; da tamanhoN
população; da padrão-desvio
padrão; normal da abscissaZ
1 222
22










ZNd
NZ
n
 
 
Estatística II 
Prof. Laura Maria Saporski Cachuba 
94 
 
3) Se a variável escolhida for nominal ou ordinal (qualitativa), e a população considerada 
infinita, você poderá determinar o tamanho da amostra pela fórmula: 
 
amostra. dapartir a calculadoser a evento do realtiva) a(frequênci proporção verdadeira
 a é p que em ,pˆ-p :é isto ,pˆ e p entresuportar admiteor investigad o que diferença
 máxima a será caso neste ,estimativa de erro O decimais. em expresso ,estimativa de errod
;pˆ-1qˆ
0,30;pˆ teremos30%,pˆ se Assim, decimais.
em expresso Será estudado. sendo está quesetor do empresas grandes de proporção
a verdadeirda estimativa aser poderá pˆ empresa, da portefor escolhida variávela se
exemplo,Por escolhida. variávelda níveis dos um de proporção a verdadeirda estimativapˆ
padrão; normal da abscissaZ
:onde 
ˆˆ
2
2
d
d
qpZ
n








 
4) Se a variável escolhida for nominal ou ordinal (qualitativa) e a população finita, tem-se: 
 
amostral. errod
;pˆ-1qˆ
proporção; da estimativapˆ
padrão; normal da abscissa Z
população; da tamanhoN
:onde 
ˆˆ1
ˆˆ
22
2








qpZNd
NqpZ
n
 
 
 Estas fórmulas são básicas para qualquer tipo de composição da amostra. No entanto, 
existem fórmulas específicas segundo o critério de composição da amostra. 
 Se o investigador escolhe mais de uma variável, deve optar pelo maior “n” obtido. 
Estatística II 
Prof. Laura Maria Saporski Cachuba 
95 
Exercício 3. Um fiscal da Vigilância Sanitária precisa verificar se as farmácias da cidade estão 
cumprindo um novo regulamento. A cidade tem 33 farmácias, mas como a fiscalização demanda 
muito tempo, o fiscal resolveu optar por uma amostragem. Para escolher a amostra, o fiscal 
estratificou a população de farmácias de acordo com o volume de vendas. Existem 3 farmácias de 
uma grande cadeia, 10 de cadeias menores e 20 farmácias pequenas, de proprietários locais. O fiscal 
decide visitar as três farmácias da grande cadeia, quatro das cadeias menores e três farmácias 
pequenas. O cumprimento do regulamento, evidentemente desconhecido do fiscal, esta apresentado 
na tabela a seguir. Com base nessa tabela, 
a) Sorteie uma amostra estratificada para o local, de acordo com o que ele planejou; 
b) Estime, com base na amostra, a proporção de farmácias que estão cumprindo o regulamento; 
c) Com base nos dados da população, estime o parâmetro; 
d) Você obteve uma boa estimativa? 
 
Estrato A (Cadeia Grande) Estrato B (Cadeias Menores) Estrato C (Cadeias Pequenas) 
1. Sim 4. Não 14. Sim 24. Sim 
2. Sim 5. Sim 15. Não 25. Sim 
3. Não 6. Não 16. Não 26. Não 
 7. Sim 17. Sim 27. Não 
 8. Não 18. Não 28. Não 
 9. Não 19. Não 29. Sim 
 10.Sim 20. Não 30. Sim 
 11. Não 21. Sim 31. Sim 
 12. Sim 22. Não 32. Sim 
 13. Não 23. Não 33. Não 
 
Exercício 4. Uma indústria de aparelhos de precisão adquire peças de certa procedência e especifica 
que a proporção de defeituosos não deve ser superior a 0,1%. A inspeção dos lotes recebidos é feita 
por amostragem, com base em uma amostra de 100 peças para cada lote, sendo exigido que todas as 
peças da amostra sejam perfeitas para que o lote seja aceito. Desejando-se ter, no máximo, 10% de 
probabilidade de se aceitarem os lotes com mais de 1% de defeituosos, qual o tamanho da amostra 
necessária? 
 
Exercício 5. Uma pesquisa indica que “os paranaenses, de forma esmagadora, preferiram um Ford a 
um Toyota, após fazerem o teste de direção em ambos”. Considerando que você trabalha para a 
Toyota, que informações você gostaria de obter antes de aceitar os resultados desta pesquisa? Que 
tipo de amostragem seria preferível nesta situação e por quê? 
 
Exercício 6. Um grupo de consumidores gostaria de calcular a quantia média, relativa a contas de 
energia elétrica, para o mês de julho, para domicílios unifamiliares em uma grande cidade. Com 
base em estudos conduzidos em outras cidades, supõe-se que o desvio-padrão seja igual a 
R$145,00. O grupo gostaria de calcular a conta média para o mês de julho, numa margem de 
R$58,00 da média verdadeira, com 99% de confiança. 
a) Que tamanho de amostra é necessário sem informarmos o tamanho da população? 
b) Qual seria o tamanho da amostra se o número de unidades unifamiliares fosse de 301.165 para a 
cidade em questão? 
c) Considerando o
número de unidades da questão (b), se a confiança for de 94,5% e a margem de 
R$12,00, qual será o tamanho de amostra adequado? 
 
Estatística II 
Prof. Laura Maria Saporski Cachuba 
96 
Exercício 7. Uma empresa de televisão a cabo gostaria de calcular a proporção de clientes que 
comprariam um guia de programação de TV a cabo. A empresa gostaria de ter 94% de confiança de 
que sua estimativa esteja correta, em uma margem de 5% da população real. Experiências do 
passado, em outras áreas, indicam que 30% dos clientes comprariam o guia de programação. 
Supondo que a empresa tem 2.600 clientes: 
a) Qual o tamanho de amostra necessário para a realização da análise? 
b) E se a empresa não tivesse a informação de outras áreas a respeito da proporção de clientes que 
comprariam o guia, como ficaria o tamanho da amostra? Por quê? 
 
Posteriormente, para o cálculo do tamanho de amostras, utilizaremos uma planilha feita pelo 
professor Álvaro Frota, baseada em Cochran (fórmulas anteriormente demonstradas) e elaborada no 
Excel. O importante é saber interpretar as variáveis do problema em questão; o cálculo em si é 
secundário. 
Consulte a planilha fornecida! 
 
 
 
 
Estatística II 
Prof. Laura Maria Saporski Cachuba 
97 
 IV. INFERÊNCIA ESTATÍSTICA 
 
4.1 Introdução 
 
Até agora preparamos o caminho para poder entrar nos problemas da inferência estatística. 
Vimos as diversas técnicas da análise exploratória de dados, as técnicas de amostragem e a teoria de 
probabilidades, cada uma dessas áreas constitui o tripé da inferência estatística. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Figura 4.1. Esquema geral de um curso de estatística. 
 
Agora, estamos prontos para entrar na parte fundamental da estatística, que é a tomada de 
decisões em condições de incerteza. 
A inferência estatística se divide em duas grandes áreas: 
 
 
 Pontual 
 Estimação 
Inferência Por intervalo 
Estatística 
 Teste de Hipóteses 
 
Estatística 
Descritiva 
 
Amostra-
gem 
 
Probabili-
dade 
Inferência 
Estatística 
Estatística II 
Prof. Laura Maria Saporski Cachuba 
98 
4.2 Estimador e Estimativa 
 
Estimador t de um parâmetro  é a variável aleatória, função dos elementos da amostra que será 
utilizada na estimação. 
O valor numérico obtido para o estimador considerado, numa certa amostra, é denominado de 
estimativa. 
Por exemplo, ao estimarmos a média da altura de uma população utilizamos como estimador a 
média aritmética amostral, obtendo como estimativa o valor 173,5 cm. Assim, o estimador é a 
média aritmética e a estimativa é 
cmX 5,173
. 
 
4.3 Estimação pontual 
 
Quando utilizamos um único dado da amostra para estimar um parâmetro populacional se diz que a 
estimação é por ponto ou pontual. As estatísticas utilizadas para estimar os parâmetros 
populacionais são chamados de estimadores: 
 
Estatística Parâmetro populacional Estimador 
Média Média populacional:  Média amostral: X 
Proporção Proporção populacional:  Proporção amostral: 
pˆ
 
Variância Variância populacional: 2 Variância amostral: s2 
Desvio padrão Desvio padrão populacional:  Desvio padrão amostral: s 
Coeficiente de correlação Coef. correlação populacional:  Coef. correlação amostral: r 
 
E, os valores que os estimadores tomam em uma amostra determinada são chamados de 
estimativas. 
 
Propriedades dos estimadores: Seja T um estimador de um parâmetro populacional  : 
 
Propriedade 1: Justeza ou não-tendenciosidade 
 
 Um estimador T é dito não viciado ou não-viesado de  se : 
E(T)=  
Em resumo: é o estimador que mais se aproxima do valor real do verdadeiro parâmetro. 
 
Propriedade 2: Eficiência (ou de variância mínima) 
Dois estimadores não viciados T e T´ de um mesmo parâmetro , e V(T) < V(T´) 
Então, T é dito ser mais eficiente que T´ 
Em resumo: O estimador que gerar a menor variância da amostra considerada será o mais eficiente. 
 
Propriedade 3: Consistência 
 Um estimador T é consistente se: 
  0TPLim
n


, para todo  > 0 
Isto significa que com amostras suficientemente grandes pode-se tornar o erro de 
estimação tão pequeno quanto se queira. Por outro lado, se o estimador for justo, a condição de 
consistência equivale a dizer que sua variância tende a zero, quando n tende a infinito: 
Estatística II 
Prof. Laura Maria Saporski Cachuba 
99 
  0TLim 2
n


 
Em resumo: se o estimador é consistente, à medida que aumentamos o tamanho da amostra 
analisada, a diferença entre a estimativa gerada pelo estimador amostral e o verdadeiro parâmetro 
diminui, chegando à coincidência quando n = N. 
 
Propriedade 4: Suficiência 
Um estimador é chamado de suficiente se contêm o máximo possível de informação com 
referência ao parâmetro por ele estimado. 
Para estimar a média populacional (ou uma medida de tendência central para a população), 
temos vários estimadores. Comparemos apenas dois, a média amostral e a mediana (supondo o 
número de dados ímpar, não muda se o número de dados for par): 
Em resumo: um estimador suficiente é aquele que tem capacidade de retirar da amostra toda a 
informação que ela pode fornecer. 
 
Parâmetro a ser estimado: Média populacional:  
 
Propriedades Média amostral: X Mediana(*) 
Justeza E(X) =   Sim E(Mediana) =   Sim 
Eficiência V(X) = 2/n  Sim V(Mediana) = 2  Não 
Consistência Sim Não 
Suficiência Sim Não 
 (*) para n ímpar 
 
A maioria dos estimadores clássicos possuem estas propriedades. 
 
4.4 Estimação por intervalo ou intervalar 
 
O problema da estimação pontual, ou por ponto, é que este procedimento não permite julgar 
qual a possível magnitude do erro que estamos cometendo. Daí surge a idéia de construir intervalos 
de confiança que estão baseados na distribuição amostral do estimador pontual. 
Seja o parâmetro , tal que 
    1
21
ttp
 onde: 
- o intervalo t1    t2 é denominado de intervalo de confiança (I.C.); 
- os extremos deste intervalo (t1 e t2) são denominados limites de confiança; 
- a probabilidade conhecida 1 -  é denominada de nível de confiança. 
 
A escolha do nível de confiança (1 - ) depende da precisão com que se deseja estimar o 
parâmetro. É muito comum a utilização dos níveis 95% e 99%. Evidentemente, o aumento da 
confiança no intervalo implica no aumento de sua amplitude. 
 
4.4.1 Intervalo de confiança para a média populacional  
 
Pelo Teorema Central do Limite sabemos que : 
 
n
X
Z



Estatística II 
Prof. Laura Maria Saporski Cachuba 
100 
 Ou seja, dado  podemos encontrar valores Z/2 tal que a: 
 
 P( - Z/2 < Z < + Z/2) = 1 -  
 
 
 
 
 
 
 
 
 
 
Figura 3.2 Distribuição normal padronizada. 
 
Suponhamos que  = 5%;  1 -  = 95%; isso significa que se construíssemos 100 
intervalos de confiança, esperaríamos que 95 deles contenham o verdadeiro valor da média, ou seja, 
haveria uma margem de erro de 5%, o que significaria que devemos esperar que 5 dos 100 
intervalos não contenham o verdadeiro valor. 
Acontece que você pega apenas uma única amostra! Alguém poderia perguntar como é 
possível estimar a média populacional supondo a variância populacional conhecida? Em alguns 
casos é possível fazer esta suposição, principalmente, em casos onde se conhece a distribuição da 
variável em condições ambientais. Por exemplo, a distribuição da pressão sanguínea de pessoas 
normais (não doentes) é conhecida, porém você deseja conhecer o efeito
de um medicamento sobre 
ela. Você pode partir do pressuposto de que a única mudança que este medicamento vai trazer é o 
deslocamento da média, mas que o a ingestão do medicamento não vai alterar substancialmente a 
estrutura de variabilidade9. Neste caso, você pode assumir que a variância da pressão depois de 
tomar o medicamento é igual a variância antes de tomar o medicamento. Esta suposição pode ser 
falsa, por essa razão quando testamos hipóteses sobre igualdades de média, a primeira pergunta que 
devemos responder é se a suposição de igualdade de variâncias se sustenta. 
 Vamos ver as fórmulas utilizadas para cada parâmetro de interesse: 
 
1. Intervalo de Confiança para a média populacional  : 
1.1. Intervalo de confiança para média populacional  quando o desvio-padrão populacional 
 for conhecido: 
 
  





 1
22 n
zX
n
zXP
 
 
Exercício 1. Um pesquisador está estudando a resistência de um determinado material sob 
determinadas condições. Ele sabe que esta variável (qual?) tem um desvio-padrão de 2,7. De uma 
amostra de 17 unidades, obteve uma média de 8,25. Construa um I.C. de 95% de confiança para a 
resistência média do material. 
 
 
 
9 O pressuposto da homocedasticidade da variância na comparação de médias é apresentado mais 
detalhadamente no tópico de regressão. 
  
 
 -  0  
Z 
Estatística II 
Prof. Laura Maria Saporski Cachuba 
101 
1.2. Intervalo de confiança para média populacional  quando o desvio-padrão populacional 
 for desconhecido e n < 30: 
 
 
 
 
 
 
 
Exercício 2. Ao planejar uma represa, o governo deseja estimar o benefício médio anual de 
irrigação por acre. Para tanto, toma uma a.a.1 de 25 lotes de um acre, obtendo um benefício médio 
de $8,10, com desvio-padrão de $2,40. O governo deseja saber, com 99% de confiança, quão 
grande é o benefício médio. Construa um I.C. apropriado e tire conclusões. Se a represa só for 
construída caso o benefício seja de no mínimo $10,00 você indicaria a construção? Por quê? 
 
 
1.3. Intervalo de confiança para média populacional  quando o desvio-padrão populacional 
 for desconhecido e n  30: 
 
  





 1
22 n
s
zX
n
s
zXP
 
 
Exercício 3. Uma amostra de 80 motoristas de determinado estado indica que um automóvel roda, 
em média, 22.000 Km por ano, com desvio-padrão de 3.800 Km. Construa um I.C. de 98% de 
confiança para a rodagem anual média dos carros. 
 
 
2. Intervalo de confiança para a diferença das médias populacionais 1 e 2 
2.1. Intervalo de confiança para a diferença das médias populacionais 1 e 2 quando os desvios-
padrão populacionais 1 e 2 forem conhecidos: 
 
      








 1
2
2
2
1
2
1
2
2121
2
2
2
1
2
1
2
21
nn
zXX
nn
zXXP
 
 
Exercício 4. Estão sendo estudados dois processos para conservar vacinas, cuja principal variável 
de interesse é o tempo de duração das mesmas. No processo A, o tempo X de duração tem uma 
distribuição normal com média desconhecida e desvio-padrão igual a 5, e no processo B o tempo Y 
segue também uma distribuição normal com média desconhecida e desvio-padrão igual a 5. 
Sorteiam-se duas amostras independentes: a de A com 16 vacinas, apresentou um tempo médio de 
duração igual a 50, e a de B, com 25 vacinas, duração média igual a 60. 
a) Construa um intervalo para verificar se os dois processos podem ter o mesmo desempenho, com 
95% de confiança. Qual a sua conclusão? 
 
 
 
 11 O significado de “a.a.” é amostra aleatória. 
 taestatístic da liberdade de graus de nº denominado é ; 1-nν 
Student; de t aestatístic a é t :onde
1
;
2
;
2








  
n
s
tX
n
s
tXP
Estatística II 
Prof. Laura Maria Saporski Cachuba 
102 
2.2. Intervalo de confiança para a diferença das médias populacionais 1 e 2 quando os 
desvios-padrão populacionais 1 e 2 forem desconhecidos e supostamente iguais: 
 
      




















 1
1111
21
2
;
2
2121
21
2
;
2
21
nn
stXX
nn
stXXP pp
   
 .populações duas
as para ponderada comum variânciada estimativa a é
2
21
2
2
1
2
2
1
1
12
ps
2
21
n :por dado t aestatístic da liberdade de graus de nº o é 
Student; de t aestatístic a é t :Onde





nn
snsn
n
 
 Obs: É preciso proceder à um teste de hipótese para verificar se as variâncias podem ser 
consideradas iguais ou diferentes. 
 
Exercício 5. Para um particular produto, a média de vendas por estabelecimento no último ano, em 
uma amostra de n1=10 estabelecimentos, foi de $3.425 de média e desvio-padrão de $200. Para um 
segundo produto, a média de vendas por estabelecimento, em uma amostra de n2=12 
estabelecimentos, foi de $3.250 de média, com desvio-padrão de $175. Suponha que você pode 
considerar os desvios-padrão como aproximadamente iguais. Estimar a diferença entre o nível 
médio de vendas por estabelecimento no último ano, utilizando um intervalo de confiança de 99%. 
 
 
2.3. Intervalo de confiança para a diferença das médias populacionais 1 e 2 quando os 
desvios-padrão populacionais 1 e 2 forem desconhecidos e supostamente diferentes: 
 
      








 1
2
2
2
1
2
1
;
2
2121
2
2
2
1
2
1
;
2
21
n
s
n
s
tXX
n
s
n
s
tXXP
 
 
 
2
2
2
2
 e 
1
2
1
1
 :Onde 
1
2
2
2
1
1
2
1
2
21
:Welch-Aspin de correção pela dado t aestatístic da liberdade de graus de nº o é 
Student; de t aestatístic a é t :Onde
n
s
w
n
s
w
n
w
n
w
ww







 
 
Obs: É preciso proceder à um teste de hipótese para verificar se as variâncias podem ser 
consideradas iguais ou diferentes. 
 
Estatística II 
Prof. Laura Maria Saporski Cachuba 
103 
Exercício 6. Numa indústria deseja-se testar se a produtividade média do período diurno é superior 
a produtividade média dos operários do período noturno. Para isso colheram-se duas amostras, uma 
para cada período, observando-se a produção de cada operário. Os resultados foram os seguintes: 
 n Média Desvio-padrão 
Diurno 27 12 6,78 
Noturno 15 10 10,62 
De acordo com estes resultados, quais seriam suas conclusões? Use 1 -  = 98%. 
 
 
3. Intervalo de confiança para a variância populacional 2 : 
 
   
quadrado-qui dea estatísticda liberdade de graus de nº denominado é; 1-n 
quadrado;-qui dea estatística é 2 :Onde

















1
s1ns1n
P
2
2
2
2
2
2
1
2
 
 
Obs: para calcularmos o Intervalo de Confiança para o desvio-padrão, consideramos a raiz quadrada 
positiva do I.C. obtido para a variância. 
 
Exercício 7. Para uma a.a. de 12 latas de ervilha, tomadas as unidades em 200 g, o desvio-padrão 
encontrado foi de 1,497. Usando uma confiança de 90%, calcule o intervalo adequado para verificar 
a variabilidade dos pesos. Qual a sua conclusão à respeito? Considere que o Ipem determina que a 
variabilidade máxima para este tipo de produto seja de 2 g. 
 
4. Intervalo de confiança para a proporção populacional P: 
 
   
amostrana estimada sucesso de
proporçãop :Onde 







 


 
ˆ
1
n
pˆ1pˆ
zpˆP
n
pˆ1pˆ
zpˆP
22
 
 
Exercício 8. Uma concessionária de automóveis gostaria de calcular a proporção de consumidores 
que ainda possuem o carro que compraram 5 anos atrás. Uma amostra aleatória de 200 
consumidores, selecionados a partir dos registros da concessionária de automóveis, indica que 82 
consumidores ainda possuem os carros que compraram a 5 anos. Apresente uma estimativa com 
94,3% de confiança para a proporção de consumidores que ainda possuem o carro que adquiriram 5 
anos atrás. 
 
 
Estatística II 
Prof. Laura Maria Saporski Cachuba 
104 
V. TESTE DE HIPÓTESES 
 
DEFINIÇÕES: 
a) Hipóteses estatísticas: são suposições que se faz acerca dos parâmetros de uma população, 
ao tentar a tomada de decisões. Estas suposições podem ser verdadeiras ou não. 
b) Hipótese nula e alternativa: 
- Hipótese nula (H0): é qualquer hipótese que será testada. (Vamos entender como a hipótese de 
“nulidade”, ou seja, a situação onde “nada muda”); 
- Hipótese alternativa (H1): é qualquer hipótese diferente da hipótese nula. (Vamos entender como 
“aquilo que queremos efetivamente testar”). 
 O teste de hipótese coloca a hipótese nula H0 em contraposição à alternativa H1. Ainda: H0 é 
o que testamos, H1 dará a direção do teste. A “direção do teste” será dada da seguinte forma: 
(1) 
esquerda à unilateral Teste
01
00
:
:


H
H
 (2) 
direita à unilateral Teste
01
00
:
:


H
H
 (3) 
bilateral Teste
01
00
:
:


H
H
 
 
 
 
c) Regiões de aceitação e rejeição: 
- Região de aceitação (R.A.) é a região em que se aceita a hipótese nula H0. 
- Região de rejeição (R.R.) ou região crítica: é a região em que se rejeita a hipótese nula H0, sendo 
complementar à região de aceitação. 
 
d) Erros dos tipos I e II: na aplicação de um teste, pode-se cometer dois tipos de erros – erros 
tipo I (ou tipo ): é o erro cometido ao rejeitarmos a hipótese nula, sendo ela verdadeira; 
erro tipo II (ou tipo ): é o erro cometido ao aceitarmos a hipótese nula, sendo ela falsa. 
 
e) Nível de significância: é a probabilidade máxima com a qual se sujeitaria a correr o risco de 
um erro tipo I. Essa probabilidade pode ser representada da seguinte maneira: 
 verdadeira rejeitar 00 / HHP . Consequentemente, a probabilidade de cometermos 
o erro tipo II é dada por: 
 falsa aceitar 00 / HHP
. 
 
f) Teste unilateral e bilateral: - teste unilateral: quando a R.R. estiver em um dos extremos do 
eixo da variável de interesse; - teste bilateral: quando a R.R. estiver nos dois extremos do 
eixo da variável de interesse. 
 
g) Curva característica de operação (C.C.O.): é a representação gráfica de . Ela é construída 
marcando-se no eixo das abscissas os valores testados do parâmetro , ou e uma variável a 
ele associada, e no eixo das ordenadas a probabilidade de aceitar H0 quando ela for falsa. 
Uma C.C.O. está associada a cada teste de hipótese e resume as condições fundamentais de 
funcionamento ou operação do teste. Embora em muitos casos comuns não seja 
indispensável construir a C.C.O. ela é sempre útil para a compreensão do teste. 
 
Estatística II 
Prof. Laura Maria Saporski Cachuba 
105 
Resumindo: Passos para construção de um teste de hipótese: 
Passo No 1: Formular as hipóteses nula e alternativa 
Passo No 2: Usando a teoria estatística e as informações disponíveis decida qual estatística 
(estimador) será usada para julgar a hipótese Ho. Não esqueça dos pressupostos implícitos na 
construção desta estatística 
Passo No 3: Fixar o nível de significância e construir a Região Crítica 
Passo Nº 4: Calcular a estatística da amostra 
Passo No 5: Tomar a decisão (conclusão). 
 
A maioria das situações de tomada de decisões ocorrem em situação de incerteza, porque é 
baseada nos dados de uma amostra proveniente de uma população. Nesses casos, a estatística 
fornece um poderoso instrumento para a tomada de decisões. Tentaremos, através de um exemplo, 
explorar a lógica desse tipo de tomada de decisão estatística. 
Suponha que você tem R$20.000,00 (vinte mil reais) na poupança e está pensando investir 
esse capital na construção e funcionamento de um posto de gasolina, em um ponto movimentado de 
Curitiba. Suponha, também, que para o posto ser rentável (pagar o investimento inicial e dar um 
lucro maior do que a poupança), o número médio () de veículos que passam por aquele ponto por 
dia (parâmetro) deve ser maior que 2000 (hipótese estatística, chamada de hipótese nula Ho). 
Este é um problema clássico de teste de hipóteses, pois você decidirá aceitar ou rejeitar a 
hipótese nula, em função dos resultados de uma amostra. Isto porque seria impossível examinar o 
número de veículos que passam todos os dias por aquele ponto (população), além da 
disponibilidade de recursos financeiros, entre outros. Ao pegarmos uma amostra de uma população 
estamos lidando com leis de probabilidades, logo você não tem condição de saber se sua hipótese 
nula é verdadeira ou falsa, você apenas pode medir as probabilidades envolvidas na sua tomada de 
decisão. 
No nosso exemplo, aceitar a hipótese nula, de que o número de veículos que passam pelo 
ponto é maior de 2000, implicará em você tirar o dinheiro da poupança e investir no posto de 
gasolina; mas, a hipótese nula pode ser falsa, e aí, todo o empreendimento estará fadado ao fracasso, 
você perderá seu capital. O custo de uma decisão errada pode ser muito grande, em termos 
financeiros, de vidas humanas, etc. Vejamos como é o quadro decisório: 
Aceitar a hipótese nula (Ho) quando ela é verdadeira é uma decisão correta. No nosso 
exemplo significa construir o posto e realmente passam 2000 ou mais veículos por dia, logo o 
investimento será rentável, você recuperará seu capital e terá um retorno financeiro acima do 
rendimento da caderneta de poupança. Rejeitar uma hipótese falsa, também, é uma decisão correta, 
no caso, significa não construir o posto, deixar o dinheiro na poupança, uma vez que o posto não 
tinha chances de ser rentável. 
Entretanto, existem dois tipos de erro ao tomarmos esse tipo de decisão. O primeiro erro é 
rejeitar a hipótese nula (Ho) quando ela é verdadeira, chamado de erro de tipo I; no nosso 
exemplo, significa deixar de construir o posto quando ele seria rentável, neste caso, a perda não 
inclui valores físicos financeiros, apenas o valor fictício que se deixou de ganhar. O segundo erro é 
aceitar a hipótese nula (Ho) quando ela é falsa, chamado de erro de tipo II, no exemplo significa 
construir o posto, quando por aquele ponto passam menos do que 2000 veículos, o que implicaria a 
perda do capital. 
 
EXEMPLO INICIAL: Vamos aceitar, para exemplificar que foi realizada uma amostra com 30 
observações, encontrando-se uma média de 2.050 veículos/dia com desvio-padrão de 200 
veículos/dia. Vamos realizar o teste e verificar qual a conclusão. 
 
Estatística II 
Prof. Laura Maria Saporski Cachuba 
106 
Tabela 5.1. Quadro de decisão em condição de incerteza 
(Postura inovadora) 
 
Hipótese nula Ho 
passam mais de 2000 veículos por dia: Ho:  > 2000 
Decisão Hipótese (Ho) ser verdadeira: 
Ho:  > 2000 
(o posto será rentável) 
Hipótese (Ho) ser falsa 
Ho:  < 2000 
(o posto está fadado ao fracasso) 
Aceitar a hipótese 
(construir o posto) 
Constrói o posto e é rentável 
 
Decisão correta 
(1-) 
Constrói o posto e ele não é 
rentável. Perde o capital 
Erro de tipo II 
Beta () 
Rejeitar a hipótese 
(deixar o dinheiro 
na poupança) 
Não constrói o posto, porém seria 
rentável
(deixa de lucrar) 
Erro de tipo I 
Alfa () 
Não constrói o posto e não era 
rentável 
Decisão correta 
(1-) 
 
 
 A teoria estatística nos possibilita medir todas as probabilidades envolvidas na questão, logo 
podemos nos prevenir, controlando a probabilidade de cometer o erro mais grave. A probabilidade 
de cometer o erro de tipo I (rejeitar a hipótese nula Ho quando ela é verdadeira) é simbolizada por 
alfa (), também, conhecida como nível de significância. 
 
 = nível de significância  erro de tipo I 
 
 = P (Rejeitar Ho / Ho é verdadeira) 
 
 Já a probabilidade de cometer o erro de tipo II (aceitar a hipótese nula Ho quando ela é 
falsa) é simbolizada por beta (), que está relacionado com o poder do teste. 
 
 = P (Aceitar Ho / Ho é falsa)  erro de tipo II 
 
 Essas probabilidades, alfa e beta, se relacionam inversamente, quando diminuímos alfa, beta 
cresce e vice-versa, e não dá para controlar as duas simultaneamente, a menos que se aumente o 
tamanho da amostra, o que implica no aumento de custos operacionais e de tempo, o que pode 
inviabilizar a pesquisa. 
 
 Todos os testes estatísticos foram delineados para controlar alfa () o nível de 
significância, sendo que beta () é deixado livre. Por essa razão, a formulação da hipótese nula 
deve ser feita de tal forma que o erro mais grave recaia em alfa. No nosso exemplo analisando os 
dois tipos de erros, verificamos que o erro mais grave recai em beta. A pergunta é: como devemos 
formular a hipótese nula Ho, de tal forma que o pior erro caia em alfa? Neste caso, é só trocar a 
hipótese, negando a afirmação inicial. Vejamos o que acontece no quadro decisório: 
 
Estatística II 
Prof. Laura Maria Saporski Cachuba 
107 
Tabela 5.2. Mudança no quadro decisório ao mudar a hipótese 
(Postura conservadora) 
 
Hipótese nula Ho 
passam 2000 ou menos veículos por dia: Ho:  < 2000 
Decisão Hipótese (Ho) ser verdadeira: 
Ho:  < 2000 
(o posto está fadado ao fracasso) 
Hipótese (Ho) ser falsa 
Ho:  > 2000 
(o posto será rentável) 
Aceitar a hipótese 
(deixar o dinheiro na 
poupança) 
 
Não constrói o posto e não era 
rentável 
Decisão correta 
 (1-) 
Deixa de construir o posto quando 
seria rentável (deixa de lucrar) 
Erro de tipo II 
Beta () 
Rejeitar a hipótese 
(construir o posto) 
 
Constrói o posto e ele não é 
rentável (perde o capital) 
Erro de tipo I 
Alfa () 
Constrói o posto e é rentável 
 
Decisão correta 
( 1- ) 
 
Verificamos que ao negarmos a hipótese que desejamos testar asseguramos que o pior erro 
recaia em alfa, que é controlado pelo pesquisador. Este tipo de formulação é conhecida como 
postura conservadora. Ou seja, estamos mais propensos a deixar o dinheiro na poupança (ou deixar 
do jeito que está) do que investir no risco (mudar para o novo) e, arriscaremos, somente, quando 
houver evidências da amostra muito fortes a favor do novo. 
Portanto, devemos ser cuidadosos na formulação de hipóteses para saber qual é o tipo de 
erro que estamos controlando. O nível de significância é fixado pelo pesquisador. É convencional 
trabalhar com alfa igual a 1%, 5% ou 10%, sendo que em alguns casos podemos usar níveis 
maiores. A escolha do nível de significância () estará de acordo com a margem de segurança e da 
gravidade das consequências de vir a ocorrer o erro de tipo I. 
 Resumindo, teremos: 
 
 H0 verdadeira H0 falsa 
Rejeita H0 Erro Tipo I (  ) Correto 
Aceita H0 Correto Erro Tipo II (  ) 
 
Lembre-se: O teste é sempre feito sobre a hipótese nula, mas quem dará a direção do teste será a 
hipótese alternativa. 
 
A formulação de hipóteses: 
 
Em todo processo de decisão estatística, além da hipótese nula Ho existe a hipótese 
alternativa H1. Todo o processo decisório será feito em função de Ho, ou seja, aceitar ou rejeitar Ho. 
Logo, aceitaremos H1 só se a hipótese nula for rejeitada. É convenção se colocar na Hipótese nula 
Ho o sinal de igualdade, embora, via de regra, é a negação da hipótese alternativa. Observamos que 
a maioria dos testes já tem as hipóteses formuladas. 
A hipótese nula Ho coloca-se com o expresso propósito de ser rejeitada, se for rejeitada, 
pode-se aceitar a hipótese alternativa (na postura conservadora é a negação do que se quer provar). 
A hipótese alternativa H1 é a definição operacional da hipótese de pesquisa, que é a predição 
Estatística II 
Prof. Laura Maria Saporski Cachuba 
108 
deduzida da teoria que está sendo testada (na postura conservadora é a afirmação do novo, do que se 
quer mostrar). 
 
Tabela 5.3. Os erros em função da formulação das hipóteses 
 
Postura conservadora Postura inovadora 
Hipótese nula 
Hipótese alternativa 
Ho:  = 2000 
H1:  > 2000 
Ho:  = 2000 
H1:  < 2000 
Erro de tipo I 
Alfa () 
Construir o posto e o número 
médio é inferior a 2000, logo 
perderemos o capital 
Não construir o posto e o número 
médio é maior do que 2000, 
deixamos de lucrar 
Erro de tipo II 
Beta () 
Não construir o posto e o número 
médio é maior do que 2000, 
deixamos de lucrar 
Construir o posto é o número 
médio é inferior a 2000, logo 
perderemos o capital 
 
A construção da região crítica ou de rejeição: 
 
Uma vez decididas as hipóteses nula e alternativa e o nível de significância, decide-se a 
estatística a ser utilizada para operacionalizar a hipótese. Essa estatística depende do parâmetro que 
está sendo testado. No caso da média populacional a estatística será a média amostral, que segue 
uma distribuição normal, pelo Teorema Central do Limite. Com essas informações se constrói a 
região crítica. 
A região crítica ou de rejeição depende da hipótese alternativa e seu tamanho é o mesmo do 
nível de significância, o complemento é chamado de região de aceitação. A localização da região 
crítica depende da hipótese alternativa. 
 
O processo decisório 
 
A decisão de rejeitar ou aceitar a hipótese nula depende dos resultados da amostra. 
Calculada a estatística apropriada é só verificar em qual das duas regiões ela cai. Se cair na região 
de aceitação, aceitaremos a hipótese nula, caso contrário, a rejeitaremos. Se a hipótese nula for 
rejeitada então aceitaremos a hipótese alternativa. Observamos que todo processo decisório é feito 
com a hipótese nula, a decisão em relação à hipótese alternativa é mera consequência: 
p-valor >   Aceita (ou não rejeita) H0; 
p-valor <   Rejeita H0  Aceita H1; 
 
 Unilateral Bilateral Unilateral 
 Cauda inferior Bicaudal Cauda superior 
 H1:  < 2000 H1:   2000 H1:  > 2000 
 
 
Figura 5.1. Região de rejeição e de aceitação da hipótese nula 
Operacionalizando a tomada de decisão 
 
A R
A 

RA
 
RR 

 
RR 
/2 RR 

RR 
/2 
   
Estatística II 
Prof. Laura Maria Saporski Cachuba 
109 
A construção da estatística da amostra depende do parâmetro que está sendo testado, se for a 
média populacional, a estatística estará baseada na distribuição da média amostral, se for a 
proporção populacional, a estatística usará a proporção amostral e assim por diante. 
 
5.1 Teste de hipótese para a média populacional 
Suponhamos que você selecionou uma amostra de 35 dias, em meses diferentes (tendo 
cuidado de representar os dias da semana, bem como os finais de semana) e, que a média amostral 
seja 2.100 veículos, com um desvio padrão de 200. 
Como n=35 podemos utilizar a fórmula 1.3 para, estimando o desvio padrão populacional 
com o desvio padrão da amostra,
sob a hipótese nula: 
 Como Zcalculado (2,958) é maior que Ztabelado, (a 5% = 1,65) então rejeita-se Ho, ou seja, é 
viável construir o posto de gasolina. 
Este procedimento é trabalhoso, pois você tem que ter a tabela da distribuição da estatística 
(normal, t-student, etc.), o que só se justifica se você não tiver a mão um pacote estatístico. 
Para evitar o fato de ter que procurar os valores em tabelas, a maioria dos pacotes 
estatísticos fornece, além do valor da estatística da amostra, o p-valor (p-value ou significance), 
conhecido, também, como nível de significância observado ou da amostra. Este valor deve ser 
comparado com o nível de significância () escolhido pelo pesquisador, neste caso é só comparar 
os dois valores. Se o p-valor for menor que alfa, rejeita-se a hipótese nula; caso contrário, aceita-se. 
 
Como calcular o p-valor: 
O p-valor é a probabilidade que a estatística supere o valor observado na amostra, maior se 
for da cauda superior, menor se for da cauda inferior, ou a probabilidade de rejeitar a hipótese nula 
quando ela é verdadeira, com os valores daquela amostra. 
 
Se for cauda superior 
 Ho:  = 2000 
H1:  > 2000 
 p-valor = P( Z > Zamostra) 
 
Se for cauda inferior 
 Ho:  = 2000 
H1:  < 2000 
 p-valor = P( Z < Zamostra) 
 
Se for bicaudal 
 Ho:  = 2000 
 
H1:   2000 
 p-valor = P( Z > Zamostra) se Zamostra for + 
ou 
p-valor = P( Z < Zamostra) se Zamostra for – 
 
Este valor deve ser multiplicado por 2 
 
 
No nosso exemplo: 
p-valor = P ( Z  Zamostra) 
p-valor = P ( Z  2,96) = 0,00153  ou 0,015% 
 
Como essa probabilidade é menor que  = 0,05 cai na região de rejeição. Logo rejeita-se Ho. 
 
 As fórmulas utilizadas em teste de hipóteses seguem os mesmos critérios de Intervalo de 
Confiança. Para teste, acrescentaremos uma fórmula a mais – o teste para dados pareados (ou 
emparelhados). 
Estatística II 
Prof. Laura Maria Saporski Cachuba 
110 
 
 Os testes para diferença de médias permitem que você compare diferenças entre duas 
populações independentes, com base em amostras que contenham dados numéricos. O teste a seguir 
analisa a diferença entre médias a partir de populações relacionadas – ou seja, quando os resultados 
do primeiro grupo não são independentes dos resultados do segundo grupo. Esta característica de 
dependência pode ocorrer devido ao fato dos itens ou indivíduos serem alocados em pares, ou 
combinados de acordo com alguma característica, ou em decorrência de as medições repetidas 
serem obtidas a partir de uma mesmo conjunto de itens ou indivíduos. Em qualquer um destes 
casos, a variável de interesse representa a diferença entre os valores das observações, e não os 
valores das próprias observações. 
 Uma das abordagens do teste é a combinação ou a colocação em pares de itens ou indivíduos 
de acordo com alguma característica de interesse. Por exemplo, ao testar um produto sob duas 
estratégias diferentes de propaganda e promoções, uma amostra pode ser coletada com base no 
tamanho da população e/ou outras variáveis socioeconômicas e demográficas, que, controladas, 
podem medir os efeitos de duas diferentes campanhas. 
 Outra abordagem envolve a coleta de medições repetidas dos mesmos itens ou indivíduos. 
Baseando-se no fato de que os mesmos itens ou indivíduos irão se comportar da mesma maneira, 
caso sejam tratados da mesma forma, o objetivo da análise é demonstrar que quaisquer diferenças 
entre duas medidas dos mesmos itens ou indivíduos resultam de diferentes condições de tratamento. 
Por exemplo, num teste de degustação, cada sujeito na amostra pode ser seu próprio controle, de 
modo que sejam obtidas repetidas medições em relação ao mesmo indivíduo. 
 Independentemente de serem utilizadas amostras combinadas (em pares) ou medições 
repetidas, o objetivo é estudar as diferenças entre duas medições, reduzindo o efeito da 
variabilidade decorrente dos próprios itens ou indivíduos. Como de modo geral as amostras tem 
tamanho reduzido neste tipo de análise, o Teorema do Limite Central nos diz que a estatística t pode 
ser usado sem perda de precisão, com n-1 graus de liberdade. Assim teremos: 
:Onde
:
:
01
00
ddH
ddH


 
 
 
1.-npor dado é t aestatístic da liberdade degrau O
nula. hipótese na testadamédias de diferença a éd 
diferenças das padrão desvio o é ;
1
d
s
:e as;emparelhad sobservaçõe duas
as entre diferença ésima-i a representa d que sendo d e 
n
d
d
:de através obtida média diferença a é d onde 
 0
n
1i
2
i
d
 i21i
n
1i
i
0












n
d
xx
n
s
dd
t
ii
d
calc
 
 
Exemplo: uma empresa de aplicações em software está desenvolvendo um novo pacote de 
aplicações financeiras. Como o tempo de processamento do computador representa um critério de 
decisão importante, o analista deseja que o novo pacote, apesar de manter as mesmas características 
Estatística II 
Prof. Laura Maria Saporski Cachuba 
111 
e capacidades do atual líder de mercado, forneça resultados ainda mais rápidos. Se bem sucedido, o 
novo pacote produzirá os mesmos resultados do atual líder de mercado num tempo menor de 
processamento. Para avaliar, foi projetado um experimento onde determinados projetos de 
aplicações financeiras serão utilizados tanto pelo novo pacote de software como pelo pacote líder de 
mercado, permitindo a avaliação dos dois tempos de processamento. Os resultados encontram-se 
abaixo: 
USUÁRIO LIDER NOVO PACOTE DIFERENÇA (di) 
A 
9,98 9,88 0,1 
B 
9,88 9,86 0,02 
C 
9,84 9,75 0,09 
D 
9,99 9,8 0,19 
E 
9,94 9,87 0,07 
F 
9,84 9,84 0 
G 
9,86 9,87 -0,01 
Média (
d
) 0,084 
Desvio-padrão (
ds
) 0,084354 
Elaborando o teste: como não existe uma diferença específica, basta que se comprove que o tempo 
do líder é estatisticamente maior que o novo pacote (hipótese do pesquisador), então temos: 
líder pacote nomaior é ntoprocessame de tempodo média a -0:
líder pacote do a igualou inferior é ntoprocessame de tempodo média a - 0:
1
0


DH
DH 
Assumindo um nível α=5%, encontraremos na tabela o valor 1,833 (positivo, pois o teste é 
unilateral a direita). 
91-10por dado é t aestatístic da liberdade degrau O
3,15 
10
084354,0
0084,0





calct
 
Assim, rejeitamos Ho (Ho é falsa), pois o valor t calculado está na área de rejeição. Portanto, 
considerando uma amostra de 10 observações, uma confiança de 95%, podemos afirmar que a 
média do tempo de processamento do Lider de mercado é maior do que o novo pacote. Logo, com 
o tempo de processamento menor o pacote novo é mais eficiente que o líder de mercado. 
 
Estatística II 
Prof. Laura Maria Saporski Cachuba 
112 
Exercício 1. Para investigar se as crianças negras de uma geração passada apresentaram 
conscientização racial e preconceito anti-negro, Clark e Clark (1958) estudaram um grupo de 252 
crianças negras. A cada uma pediu-se que escolhesse uma boneca de um grupo de quatro – duas 
brancas e duas não-brancas. 169 dentre as 252 crianças escolheram boneca branca. Verifique a 
hipótese, ao nível de 1,5 %, de que as crianças tem preconceito contra os negros (ou seja, são a 
favor dos brancos). Sugestão: pense em qual seria a hipótese de igualdade! 
 
Exercício 2. Um processo de fabricação produziu milhões de chips de TV com vida média de 1.200 
h e desvio-padrão de 300 h. Testa-se um novo processo com uma amostra de 100 chips obtendo-se 
vida média de 1.265 h. Admitindo que o desvio-padrão do processo anterior possa ser utilizado com 
validade, você diria que este
novo processo proporciona uma vida média melhor que a do processo 
anterior ao nível de 1% e 5%? 
 
Exercício 3. O representante de um grupo comunitário informa que está interessado em estabelecer 
um centro comercial se a renda média familiar na área for no mínimo de $15.000,00. Suponha que, 
para o tipo de zona em questão, é possível supor que a renda média pode assumir um desvio-padrão 
de $2.000,00 (baseado em um estudo anterior). Para uma amostra aleatória de n = 15 famílias, a 
renda familiar obteve uma média de $ 14.000,00. Teste a hipótese adequada, ao nível de 
significância de 5%, para verificar se é ou não viável a construção do centro comercial nesta 
localidade. 
 
Exercício 4. Uma pesquisa mercadológica sobre fidedignidade a um produto foi realizada em dois 
anos consecutivos. No primeiro ano em que foi realizada, a preferência pela marca foi de 29%. No 
segundo ano em que se realizou, de uma amostra de 400 pessoas, 33% delas indicaram preferência 
pela marca. Existe evidência de que este resultado apresente uma mudança positiva na preferência, 
considerando um nível de significância de 2%? Se esta significância fosse de 10%, a sua conclusão 
mudaria? Por quê? 
 
Estatística II 
Prof. Laura Maria Saporski Cachuba 
113 
VI. AJUSTAMENTO/REGRESSÃO/CORRELAÇÃO 
 
 Muitas vezes estudamos certos fenômenos que envolvem duas ou mais variáveis, e 
frequentemente estamos interessados em estabelecer uma relação funcional entre as mesmas. O 
problema da regressão consiste em determinar a função que exprime essa relação. 
 Com muita frequência, na prática, verifica-se intuitivamente que existe uma relação entre 
duas (ou mais) variáveis. Por exemplo, verifica-se que a porcentagem de peças defeituosas 
fabricadas por uma máquina depende da velocidade imprimida a esta; o preço do quilo de batatas 
influi de algum modo na quantidade total adquirida na última semana do mês em um supermercado. 
 Quando o problema envolve apenas duas variáveis ele é conhecido por regressão simples, e 
no caso de duas ou mais variáveis por regressão múltipla. 
 Basicamente, um problema de regressão envolve variáveis que podem ser controladas 
(podem ser relacionadas matematicamente) e variáveis que não podem ser controladas (variação 
aleatória). 
 Seja Y uma variável aleatória que é influenciada pelas variáveis X1, X2, ... , Xn, então, 
Y = f(X) +  , 
onde : 
 X é a variável independente (variável explicativa); 
 Y é a variável dependente (variável resposta); 
  é a componente aleatória da variação de Y; 
 f é a função de regressão. 
Obs.: A escolha da variável explanatória nem sempre é tão óbvia. Por exemplo, quando os valores 
de X são fixados a priori, ajusta-se a regressão de Y contra X (Y=f(X)). Mas nem sempre os valores 
de X são fixados a priori. Então, tanto pode-se ajustar a regressão de X contra Y, como Y contra X. 
Para escolher entre as duas, é preciso identificar a variável que deve ser prevista, conhecido o valor 
da outra variável; X geralmente é uma variável que pode ser controlada pelo pesquisador. 
 
 As observações dos fenômenos nos fornecem pares de valores (X;Y) que, locados em um 
par de eixos cartesianos, configura o que chamamos de gráfico ou diagrama de dispersão. 
 O conjunto de pontos (xi;yi) poderia indicar a existência de uma relação funcional entre as 
duas variáveis, ficando por conta da variação aleatória as discrepâncias que alguns desses pontos 
tivessem em relação a equação matemática , que pode ser uma relação linear se os pontos tendem a 
se agrupar em torno de uma linha reta, ou se os pontos tendem a se agrupar em torno de uma curva 
exponencial, a relação adequada talvez seja a função exponencial. Enfim, o aspecto pode sugerir 
uma relação funcional adequada ao problema de regressão. 
 O problema será então encontrar a curva (ou reta) que melhor se ajuste ao conjunto de 
pontos do diagrama de dispersão. Isto é, trata-se de desenhar a sentimento ou determinar a equação 
matemática da curva que melhor se acomode ao conjunto de pontos disponíveis. A este problema 
denominamos AJUSTAMENTO. 
 Abaixo vemos a relação de vários tipos de curva de ajustamento e suas equações: 
a) Reta (regressão linear): Y = a + bX; 
b) Polinômios do n-ésimo grau (regressão polinomial): Y = a + bX + cX² + ... + nXk (forma geral); 
c) Polinômio do 2° grau (parábola quadrática): Y = a + bX + cX² ; 
d) Polinômio do 3° grau (parábola cúbica): Y = a + bX + cX² + dX³ ; 
e) Hiperbóle: Y = 1 / a + bX ; 
f) Curva exponencial: Y = abX ; 
g) Curva logística: Y = 1 / abX + g; 
h) Curva geométrica: Y = aXb . 
 
Estatística II 
Prof. Laura Maria Saporski Cachuba 
114 
O problema de como selecionar, entre todos os diferentes tipos possíveis de curvas, a que 
melhor e adapta à evolução dos dados não pode ser resolvido pela análise matemática formal. 
 De todas as curvas que se ajustam a um conjunto de pontos, a que tem propriedade de 
apresentar o mínimo valor para a soma dos quadrados dos desvios entre os valores observados e os 
calculados é denominada a melhor curva de ajustamento. É a curva de mínimos quadrados. 
 Se a variável X corresponder ao tempo, os dados representarão os valores de Y em diversos 
momentos. Os dados ordenados em relação ao tempo são denominados séries temporais (históricas 
ou cronológicas). A curva ajustante, neste caso, é denominada de TENDÊNCIA e é, 
frequentemente, empregada com o objetivo de fazer previsões (por extrapolações) ou avaliações 
(por interpolação). 
 
6.1 REGRESSÃO LINEAR SIMPLES 
 
 O Modelo Estatístico de uma regressão linear simples é do tipo 
Y =  + X +  
Onde  e  são parâmetros da regressão, sendo  denominado de coeficiente de regressão linear. O 
significado do coeficiente de regressão linear (coeficiente angular) é a variação da altura Y quando 
caminhamos uma unidade para a direita na direção de X, isto é, 
o coeficiente angular b = variação de Y correspondente a uma variação unitária de X. 
 As hipóteses gerais subjacentes ao modelo de regressão linear são que: 1) a variável 
dependente é uma variável aleatória, ou seja, se o primeiro valor de Y é grande, não há razão para 
esperar que o segundo Y também o seja (ou seja, pequeno); isto é, não há relacionamento entre os 
Y´s coletados; 2) as variáveis independente e dependente estão associadas linearmente; 3) as 
variâncias das distribuições condicionais da variável dependente, dados diferentes valores da 
variável independente, são todas iguais (homocedasticidade). A homocedasticidade é um termo que 
designa que a variância dos erros é constante para diferentes valores da variável coletada. Caso a 
suposição não possa ser considerada válida, teremos como efeito que os estimadores obtidos através 
do Método de Mínimos Quadrados estarão incorretos, e, portanto, a inferência não será válida. Os 
estimadores de MQ não são os de mínima variância, porém são os menos viesados. A hipótese (1) 
indica que, muito embora os valores da variável independente possam ser fixados, os valores da 
variável dependente devem ser obtidos através de um processo de amostragem. 
 Ao estabelecermos o modelo de regressão linear simples, devemos, portanto, pressupor que: 
1) A relação entre X e Y é linear; 
2) A variável X não é aleatória, ou seja, os valores de X são fixos; 
3) E( ) = 0, ou seja, a média do erro  (variável aleatória) é nula; 
4) A variância de  é sempre ², ou seja, V () = ²; 
5) Os erros são independentes; 
6) Os erros tem distribuição normal. A medida que a forma se afasta da normal, podem ser 
preferíveis outras técnicas. 
 
Se, em conjunto com a análise de regressão, utiliza-se a estimação por intervalo, é necessária 
a hipótese adicional de que as distribuições condicionais da variável dependente,
dados diferentes 
valores da variável independente, são todas distribuições normais para os valores da população. 
 Em uma análise de regressão linear, devemos inicialmente estimar os parâmetros  e , 
cujas estimativas chamaremos de a e b, respectivamente. 
 O método utilizado para determinar as estimativas é conhecido como Método dos Mínimos 
Quadrados (MMQ) que consiste em estimar os valores que minimizam a soma dos quadrados dos 
desvios. 
Y=na + b.X 
X.Y = aX + b.X² 
Estatística II 
Prof. Laura Maria Saporski Cachuba 
115 
Utilizando as variáveis centradas: 
Xb.-Ya e 
..
 e X onde
1
2
1
1
2
1
11













n
i
n
i
ii
n
i
n
i
ii
n
i
i
n
i
i
x
yx
x
Yx
b
n
Y
Y
n
X
YYyeXXx
 
 
 
O DIAGRAMA DE DISPERSÃO 
 Um diagrama de dispersão é um gráfico no qual cada ponto plotado representa um par 
observado de valores para as variáveis dependente e independente. O valor da variável 
independente X é plotado no eixo horizontal, e o valor da variável dependente Y é plotado no eixo 
vertical. 
 Uma abordagem frequente para relações que não são lineares é determinar um método de 
transformar os valores de tal forma que a relação dos valores transformados seja linear. A análise de 
regressão linear pode, então, ser aplicada aos valores transformados, e os valores estimados da 
variável dependente podem ser transformados de volta à escala original de medida. Um exemplo de 
uma relação curvilínea seria a relação entre o nível de vendas e os anos desde a incorporação de 
uma companhia, dado que o nível de fendas a cada ano cresça pela mesma percentagem em relação 
ao ano anterior. A curva resultante, com uma inclinação crescente, indicaria a assim chamada 
relação exponencial. 
 
ANÁLISE DA VARIÂNCIA APLICADA À REGRESSÃO LINEAR SIMPLES 
 
 A ANOVA aplicada à Regressão Linear Simples possibilita testar a regressão linear 
significativa o que é equivalente a mostrar que o coeficiente de regressão   0. 
 
Fonte de 
Variação 
Graus de 
Liberdade 
Soma dos 
Quadrados 
Quadrado Médio Estatística F 
Devido à 
Regressão 
K – 1 
xySb.
 
1
.
K
Sb xy
 
síduodoMédioQaudrado
gressãodaMédioQuadrado
Re
Re
 
Residual n – K 
xyyy SbS .
 
 
Kn
SbS
S
xyyy
R



.
2 
 
Total n -1 
yyS
 
 
 
     







n
i
n
i
i
n
i
i
ii
n
i
iixy
n
YX
YXYYXXS
1
11
1
 
Estatística II 
Prof. Laura Maria Saporski Cachuba 
116 
  

 








n
i
n
i
n
i
i
iiyy
n
Y
YYYS
1 1
2
122
 
Teste de Hipótese para a ANOVA: 
H0:  = 0 – a regressão linear de Y sobre X não é significativa; 
H1:   0 - a regressão linear de Y sobre X é significativa; 
Se Fcalc > F, com 1,2.  rejeita-se a hipótese nula. 
 Se o modelo proposto é correto, QMRes estima 2. Por isso é muitas vezes representado por 
s2. Se o modelo é inadequado, s2 superestima 2; medirá não só a variável aleatória de Y (ou ) em 
torno de sua média, mas também o mau ajustamento dos dados ao modelo escolhido – falta de 
ajuste (aderência). 
 O coeficiente de Determinação: se SQRes = 0, todos os pontos estão sobre a reta estimada. 
Desejamos, portanto, que este valor seja o menor possível, ou seja, que SQReg esteja muito 
próxima de SQTotal. Desta forma, a medida de precisão do modelo é dada por: 
SQTotal
gSQ
R
Re2 
, que 
mede a proporção da variável Y que é explicada pela reta de regressão. Para fazer previsões, é 
preciso que este valor esteja o mais próximo possível de 1. 
 
Exemplo I: Os dados a seguir mostram que o valor investido em propaganda em determinada 
empresa e o retorno da empresa, ou seja, o valor em u.m. empregado na propaganda (x) determina o 
retorno da empresa em lucro dado por u.m. (Y) ( Y=f(x) ); 
 
Tabela I: Quantidade de u.m. recebida como lucro em função da quantidade de u.m. investida em 
propaganda. 
 
X Y x y x.y x2 y2 X.Y Y2 X2 x.Y 
2 3,5 -6,625 -14,15 93,74375 43,890625 200,2225 7,0 12,25 4 -23,1875 
3 5,7 -5,625 -11,95 67,21875 31,640625 142,8025 17,1 32,49 9 -32,0625 
5 9,9 -3,625 -7,75 28,09375 13,140625 60,0625 49,5 98,01 25 -35,8875 
8 16,3 -0,625 -1,35 0,84375 0,390625 1,8225 130,4 265,69 64 -10,1875 
10 19,3 1,375 1,65 2,26875 1,890625 2,7225 193,0 372,49 100 26,5375 
12 25,7 3,375 8,05 27,16875 11,390625 64,8025 308,4 660,49 144 86,7375 
14 28,2 5,375 10,55 56,70625 28,890625 111,3025 394,8 795,24 196 151,575 
15 32,6 6,375 14,95 95,30625 40,640625 223,5025 489,0 1062,76 225 207,825 
69 141,2 371,35 171,875 807,2425 1589,2 3299,42 767 371,35 
 
média de X = 8,625 média de Y = 17,65 
 
Estatística II 
Prof. Laura Maria Saporski Cachuba 
117 
Exemplo II. Em um estudo sobre como a safra de trigo depende do fertilizante, suponhamos que 
dispomos de fundos para 10 observações experimentais, obtendo os dados abaixo: 
Xi = quantidade de fertilizante 
Yi = produção de trigo 
Y X x y x.y x2 y2 X.Y Y2 X2 x.Y 
40 6 -12 -17 204 144 289 240 1600 36 -480 
44 10 -8 -13 104 64 169 440 1936 100 -352 
46 12 -6 -11 66 36 121 552 2116 144 -276 
48 14 -4 -9 36 16 81 672 2304 196 -192 
52 16 -2 -5 10 4 25 832 2704 256 -104 
58 18 0 1 0 0 1 1044 3364 324 0 
60 22 4 3 12 16 9 1320 3600 484 240 
68 24 6 11 66 36 121 1632 4624 576 408 
74 26 8 17 136 64 289 1924 5476 676 592 
80 32 14 23 322 196 529 2560 6400 1024 1120 
570 180 956 576 1.634 11.216 34.124 3.816 956 
 
média de Y = 57 média de X = 18 
 
Estatística II 
Prof. Laura Maria Saporski Cachuba 
118 
Resolução do Exemplo I: 
 
RESUMO RESULTADOS 
Estatística de regressão 
R múltiplo 0,996955413 
R-Quadrado 0,993920096 
R-quadrado ajustado 0,992906779 
Erro padrão 0,904428164 
Observações 8 
 
ANOVA 
 gl SQ MQ F F de significação 
Regressão 1 802,3320582 802,3321 980,8576645 7,03936E-08 
Resíduo 6 4,907941818 0,81799 
Total 7 807,24 
 
 Coeficientes Erro padrão Stat t valor-P 95% inferiores 95% superiores 
Interseção -0,985018182 0,675492312 -1,458223 0,195054171 -2,637889534 0,667853171 
LUCRO 2,160581818 0,068987073 31,31865 7,03936E-08 1,991776407 2,329387229 
 
Estatística II 
Prof. Laura Maria Saporski Cachuba 
119 
 
 
 
 
 
Fig. 6.1 
 
 
Fig. 6.2 
Estatística II 
Prof. Laura Maria Saporski Cachuba 
120 
 
 
Fig. 6.3 
Estatística II 
Prof. Laura Maria Saporski Cachuba 
121 
Resolução do Exemplo II : 
 
 
RESUMO DOS RESULTADOS 
Estatística de regressão 
R múltiplo 0,985418303 
R-Quadrado 0,971049232 
R-quadrado ajustado 0,967430386 
Erro padrão 2,431706077 
Observações 10 
 
 
ANOVA 
 gl SQ MQ F F de significação 
Regressão 1 1586,694444 1586,694 268,3311803 1,94353E-07 
Resíduo 8 47,30555556 5,913194 
Total 9 1634 
 
 
 Coeficientes Erro padrão Stat t valor-P 95% inferiores 95% superiores 
Interseção 27,125 1,979265348 13,70458 7,74557E-07 22,56080297 31,6892 
PRODUÇÃO DE 
TRIGO 1,659722222 0,101321087 16,38082 1,94353E-07 1,426075227 1,893369 
 
 
 
 
 
Estatística II 
Prof. Laura Maria Saporski Cachuba 
122 
 
Fig. 6.4 
 
 
Fig. 6.5 
 
Estatística II 
Prof. Laura Maria Saporski Cachuba 
123 
 
Fig. 6.6 
 
 
Estatística II 
Prof. Laura Maria Saporski Cachuba
124 
6.2 CORRELAÇÃO E CAUSALIDADE 
 
 A observação de que duas grandezas tendem simultaneamente a variar no mesmo sentido 
não implica a presença de um relacionamento causal entre elas. Pode ser a flutuação de uma terceira 
variável que faz com que X e Y variem no mesmo sentido, embora X e Y sejam não 
correlacionadas. Esta terceira variável (que causa a correlação observada) é chamada de variável 
intercorrente (não conhecida), e a falsa correlação é chamada de correlação espúria. 
 Quais os significados de r =1 ; r =-1 ; r = 0 entre duas variáveis X e Y ? 
 Quando estudamos o grau de inter-relacionamento entre duas variáveis, a investigação 
usualmente começa com uma tentativa de descobrir a forma aproximada da relação. Isto é feito 
lançando-se as variáveis, aos pares, num gráfico cartesiano formando o que chamamos de diagrama 
de dispersão. Ainda que nos pareça que o conjunto de pontos (xi;yi) tenda a estar alinhado (segundo 
uma linha reta) também poderíamos supor que uma curva levemente ondulada serviria. 
 Poderíamos, então, medir, através do coeficiente de correlação linear r, o grau em que as 
variáveis estão linearmente relacionadas. Tal coeficiente é dado pela expressão: 




































2
11
2
2
11
2
111
n
i
i
n
i
i
n
i
i
n
i
i
n
i
i
n
i
i
n
i
ii
YYnXXn
YXYXn
r 
O valor do coeficiente de correlação linear r oscila no intervalo, 
–1  r  +1 
 Se as duas variáveis forem perfeitamente correlacionadas positivamente (ascendente) o valor 
de r será +1. 
 Se a correlação for inversa e perfeita r será –1. Em qualquer destes dois casos, haverá uma 
relação funcional entre as duas variáveis. Se as duas variáveis forem estatisticamente independentes 
não haverá associação alguma entre elas e o coeficiente de correlação será zero ou muito próximo 
deste valor. Os valores intermediários entre 0 e 1 mostram relação estatística entre as variáveis. 
Estatística II 
Prof. Laura Maria Saporski Cachuba 
125 
 Observe os exemplos abaixo; estes conjuntos de dados foram preparados pelo estatístico F. 
J. Ascombe e mostram os perigos de se analisar somente o coeficiente de correlação. 
 
Conjunto 1 Conjunto 2 Conjunto 3 Conjunto 4 
X Y X Y X Y X Y 
10,0 8,04 10,0 9,14 10,0 7,46 8,0 6,58 
8,0 6,95 8,0 8,14 8,0 12,74 8,0 5,76 
13,0 7,58 13,0 8,74 13,0 12,74 8,0 7,71 
9,0 8,81 9,0 8,77 9,0 7,11 8,0 8,84 
11,0 8,33 11,0 9,26 11,0 7,81 8,0 8,47 
14,0 9,96 14,0 8,10 14,0 8,84 8,0 7,04 
6,0 7,24 6,0 6,13 6,0 6,08 8,0 5,25 
4,0 4,26 4,0 3,10 4,0 5,39 19,0 12,50 
12,0 10,84 12,0 9,13 12,0 8,15 8,0 5,56 
7,0 4,82 7,26 7,26 7,0 6,42 8,0 7,91 
5,0 5,68 4,74 4,74 5,0 5,73 8,0 6,89 
 
Coef Corr. 0,8164 0,8162 0,8163 0,8165 
Médias 9,00 7,50 9,00 7,50 9,00 7,50 9,00 7,50 
Desvio 3,317 2,032 3,317 2,032 3,317 2,030 3,317 2,031 
 
 Note que as médias e os desvios-padrão dos dados nos quatro conjuntos são exatamente os 
mesmos valores, bem como o coeficiente de correlação. No entanto, a simples análise gráfica dos 
Diagrama de Dispersão mostra que os conjuntos estão longe de serem considerados iguais. Se 
calcularmos as retas de regressão para estes conjuntos encontraremos a mesma reta de regressão: Y 
= 3,00 + 0,5Xi . No entanto, uma análise mais detalhada do modelo mostrará que nem todas as retas 
estão bem estimadas. 
 
 
Conjunto 1
0
2
4
6
8
10
12
0 2 4 6 8 10 12 14 16
 
Fig. 6.7 
 
 
Estatística II 
Prof. Laura Maria Saporski Cachuba 
126 
 
 
Conjunto 2
0
1
2
3
4
5
6
7
8
9
10
0 2 4 6 8 10 12 14 16
 
Fig. 6.8 
 
Conjunto 3
0
2
4
6
8
10
12
14
0 2 4 6 8 10 12 14 16
 
Fig. 6.9 
 
 
Estatística II 
Prof. Laura Maria Saporski Cachuba 
127 
Conjunto 4
0
2
4
6
8
10
12
14
0 2 4 6 8 10 12 14 16 18 20
 
Fig. 6.10 
 
 “A interpretação do coeficiente de correlação como medida da intensidade de relação linear entre duas 
variáveis é uma interpretação puramente matemática e é completamente isenta de qualquer implicação de 
causa e efeito. O fato de que duas variáveis tendam a aumentar ou diminuir juntas não implica que uma 
delas tenha algum efeito direto ou indireto sobre a outra. Ambas podem ser influenciadas por outras 
variáveis de maneira a dar origem a forte relação matemática. Por exemplo, durante uma série de anos 
verificou-se ser de 0,98 o coeficiente de correlação entre o salário de professores e o consumo de bebidas. 
Durante este período de tempo houve uma forte alta nos ordenados e salários de todos os tipos e uma 
tendência geral ascendente de bons tempos. Sob tais condições, os salários dos professores também 
aumentaram. Além disso, a tendência geral ascendente nos ordenados e o poder aquisitivo, junto com o 
aumento da população, iria refletir num aumento da compra total de bebida. Assim, a alta correlação 
simplesmente reflete o efeito comum da tendência ascendente sobre duas variáveis. Os coeficientes de 
correlação devem ser empregados com cuidado se forem dar informações sensíveis concernentes à relação 
entre pares de variáveis. O sucesso com eles (os coeficientes) requer familiaridade com o campo de 
aplicação bem como com suas propriedades matemáticas.” (Hoel, p. 169). 
 
A interpretação dos valores numéricos obtidos para o coeficiente de correlação, na prática, é 
uma questão subjetiva e depende basicamente do pesquisador e das variáveis. 
 Podemos, por exemplo, adotar a relação abaixo: 
 
 r  Correlação 
0 Nula 
 0   0,3 Fraca 
0,3   0,6 Média 
0,6  0,9 Forte 
 0,9  0,99 Fortíssima 
1 Perfeita 
 
 
Estatística II 
Prof. Laura Maria Saporski Cachuba 
128 
 Exercício. Existe relação entre o volume de uma carga e o tempo gasto para acondicioná-la? Para 
investigar este fato, sortearam-se 9 pedidos de mercadorias, medindo-se as duas variáveis de 
interesse. Com os dados obtidos abaixo, quais seriam suas conclusões? 
 
TEMPO 84 108 110 133 144 152 180 196 231 
VOLUME 48 72 63 82 88 109 112 123 140 
 
 
6.3 Análise da Variância 
 
 A Análise da Variância (ANOVA) consiste em uma generalização do teste para a igualdade 
de duas médias populacionais. No teste para igualdade de duas médias usamos as estatísticas z ou t, 
conforme os critérios de desvio-padrão; na ANOVA testamos k (k≥2) médias populacionais com 
base na estatística F. 
 Esta técnica é usada se desejamos testar as hipótese para k (k≥2): 
k
k
H
H






211
210
:
: 
 Para isto, supomos as populações normalmente distribuídas e as variâncias populacionais 
iguais (homocedasticidade). Considerando as k amostras extraidas das populações cujas médias 
serão testadas, podemos estimar a variãncia de três maneiras: 
1. Variância Total: estimar a variância considerando todas as amostras reunidas em uma única 
amostra, supondo a hipótese inicial de que as variâncias são todas iguais. 
 
1
1 1
2
2




 
N
Xx
s
k
j
n
i
ij
t
 
Onde, o numerador é denominado de Soma Total dos Quadrados e representado por SQT. Esta 
estimativa terá sentido se a hipótese H0 proposta for verdadeira, o que implica que todas as 
populações tem, estatisticamente, a mesma média e variância. 
 
2. Variância entre Amostras: sendo verdadeira a hipótese H0, poderermos estimar a variância 2 
através das médias das k amostras, ou seja, como se fosse uma amostra de k valores. Como 
nX
2
2  
, e chamando
2
X
s
 a estimativa de 
2
X

 , então a estimativa de 
22 de es
será: 
 
1
 
1 1
2
22




 
k
Xx
sns
k
j
n
i
j
Xe
 
 
Onde o numerador é denominado de Soma de Quadrados entre Amostras, representado por SQE. 
 
 
3. Variância Residual (ouvariância dentro): consiste em estimar a variância dentro de cada amostra 
e em seguida estimarmos um único valor de 
2
, através da combinação dessas k variâncias. Para 
uma amostra qualquer, a estimativa individual será dada por: 
 
Estatística II 
Prof. Laura Maria Saporski Cachuba 
129 
 
1
1
2
2





n
xx
s
n
i
jij
j 
 
Combinando as k variâncias, obtemos a estimativa de 
2
: 
 
kN
xx
k
s
s
k
j
n
i
jij
k
j
j
r




  1 1
2
1
2
2 
 
Onde o numerador é denominado de Soma dos Quadrados Residuais, representado por 
SQR. Caso a hipótese H0 seja verdadeira, demonstra-se que as estimativas de 
 2es
e 
 2ts
são 
independentes. Assim, podemos comparar essas variâncias pela estatística: 
2
2
r
e
calc
s
s
F 
. O teste 
será sempre do tipo unilateral, pois sendo H0 falsa, F tenderá sempre a crescer. O valor crítico de F 
será, para um nível de siginificância α, dado por Fα, com ν1=k-1 e ν2=N-k. Logo, H0 será rejeitada 
para 
 kNkcalc fF  ;1
. 
 
 
 
 
 
 
 
 
 
 
 
 
6.4.1 Análise da Variância a um Critério de Classificação 
 Existe apenas uma característica, ou seja, os diferentes valores obtidos na amostra são 
devidos a apenas um critério de interesse a ser testado. Para k amostras a serem testadas, teremos: 
amostra ésima-j da tamanhoo é 
amostrask das sobservaçõe de totalnúmero o é 
amostrask das conjunto do geral média a é 
amostra ésima-j da média a é 
amostra ésima-j da elemento ésimo-i o é 
j
j
ij
n
N
X
x
x
 
Teremos então a sequência de análise: 
1) Determinar as hipóteses: 
k
k
H
H






211
210
:
: , onde em H1 pelo menos uma das médias é 
diferente. 
2) Fixar o nível de significância α. 
RAH0 
1-α 
RRH0 
1-α 
Fα 
Estatística II 
Prof. Laura Maria Saporski Cachuba 
130 
3) Determinar as Regiões de Aceitação e Rejeição. 
4) Cálculo da estatística de teste. 
5) Conclusão: se 
 kNkcalc fF  ;1
, rejeita-se H0, caso contrário, aceita-se H0. 
SQT=SQE+SQR 
 
QUADRO DA ANOVA 
Fonte de 
variação 
Soma de 
Quadrados 
Gl Quadrado Médio (s2) Estatística F 
Entre 
Amostras 
SQE k-1 
1
 2


k
SQE
QMEse
 
QMR
QME
s
s
F
r
e
calc  2
2 
Residual SQR N-k 
kN
SQR
QMRsr

 2
 
 
Total SQT N-1 
 
Exemplo: Em uma indústria, quatro operários executam a mesma operação. Com o objetivo de 
identificar se existe diferença significativa entre os tempos gastos para executar a oepração 
mencionada, foram realizadas as seguintes observações destes tempos (em segundos): 
Operário 1 8,1 8,3 8,0 8,1 8,5 
Operário 2 8,4 8,4 8,5 8,3 
Operário 3 8,8 8,7 8,9 
Operário 4 8,3 8,4 8,2 8,2 8,3 8,4 
- Verificar ao nível de 5% se a diferença é significativa. 
43211
43210
:
:




H
H 
F tabelado: k-1=4-1=3 ; n-k=18-4=14 
  34,305,014,3 f
 
 
Operário 1 Operário 2 Operário 3 Operário 4 Total 
8,1 8,4 8,8 8,3 
8,3 8,4 8,7 8,4 
8,0 8,5 8,9 8,2 
8,1 8,3 8,2 
8,5 8,3 
 8,4 
41,0 33,6 26,4 49,8 150,8 
 
   
37,263.1
18
8,150
22


N
xij 
       34,264.14,83,81,8
2222 ijx
 
Estatística II 
Prof. Laura Maria Saporski Cachuba 
131 
         











10,264.1
6
8,49
3
4,26
4
6,33
5
0,41
22222
j
ij
n
x
 
SQE=1.264,10 - 1.263,37=0,73 
SQR=1.264,34 - 1.264,10=0,24 
SQT=1.264,34 + 1.263,37=0,97 
 
QUADRO DA ANOVA 
Fonte de variação Soma de 
Quadrados 
Gl Quadrado Médio 
(s2) 
Estatística F 
Entre Amostras 0,73 4-1=3 0,243 
29,14
017,0
243,0

 
Residual 0,24 18-4=14 0,017 
Total 0,97 18-1=17 
 
Conclusão: Como Fcalc > 
  34,305,014,3 F
, rejeita-se H0, ou seja, existe pelo menos um 
operário cujos tempos diferem significativamente dos demais. 
 
6.3.2 Método de Scheffé 
 Havendo diferença entre as médias, precisamos verificar qual delas diferem das demais. O 
quadro da ANOVA apenas aponta a existência de pelo menos uma diferença, mas precisamo saber 
qual ou quais itens diferem. Existem diversos métodos: método de Tukey, método de Scheffé, 
método de Duncan e método dos contrastes ortogonais. O método de Scheffé é mais geral e 
completo, mesmo perdendo um pouco em precisão para os demais. 
 Para o modelo de classificação única, se duas médias diferem significativamente Scheffé 
demonstrou que 
 jij xx
 onde: 
    kNk
ji
Fk
nn
QMR 







 ;11
11 
Para o exemplo em questão: 
3,8;8,8;4,8;2,8
017,0
6;3;4;5
4321
4321



xxxx
QMR
nnnn
 
  34,3;14
11
017,0 









ji nn

 
 
Operários 

 
ji xx 
 Conclusão 
1 e 2 0,28 0,2 Não diferem 
1 e 3 0,30 0,6 diferem 
1 e 4 0,25 0,1 Não diferem 
2 e 3 0,32 0,4 diferem 
2 e 4 0,27 0,1 Não diferem 
3 e 4 0,29 0,5 diferem 
Estatística II 
Prof. Laura Maria Saporski Cachuba 
132 
Logo, podemos concluir que o operário 3 difere siginificativamente dos demais em relação ao 
tempo gasto para executar a operação. 
 
Estatística II 
Prof. Laura Maria Saporski Cachuba 
133 
REFERÊNCIAS BIBLIOGRÁFICAS 
 
 
1. MONTGOMERY, Douglas C. Design and Analysis of Experiments –– Third Edition – John 
Wiiley & Sons, Arizona, USA – 1991. 
2. CHISNALL, P. M. Pesquisa mercadológica.. Saraiva, 1980, Rio de Janeiro. 
3. BOYD JR., H. W., WESTFALL, R. Pesquisa mercadológica: texto e casos. Fundação 
Getúlio Vargas, 1979, São Paulo. 
4. CASTRO, Cláudio de Moura. A Prática da Pesquisa. McGraw-Hill, 1978. São Paulo. 
5. FERRARI, Alfonso Trujillo. Metodologia da Pesquisa Científica. Mcgraw-Hill, 1982. São 
Paulo. 
6. MADOW, William G. Teoria dos Levantamentos por Amostragem. IBGE, 1981. Rio de 
Janeiro. 
7. CHARNETT, Reinaldo e outros. Análise de Modelos de Regressão Linear. 1999, Ed. 
Unicamp, São Paulo. 
8. LEVINE, David M. Estatística: teoria e aplicações. 5ª Ed. Rio de Janeiro: LTC , 2008. 
9. SPIEGEL, Murray R. Estatística. 3 ed. São Paulo : McGraw-Hill , c1993. 
10. CAMPOS, V.F. Gerência da qualidade total: uma estratégia para aumentar a 
competitividade da empresa brasileira. Belo Horizonte: Fundação Christiano Ottoni, Escola 
de Engenharia da UFMG, 1990. 187p. 
11. CROSBY, P. A gestão pela qualidade. Banas Qualidade, v.8, n. 70, p. 98. 
12. SPIEGEL, Murray R. Estadística. 3 ed. São Paulo : McGraw-Hill , c1993. 
13. FONSECA, Jairo Simon da; MARTINS, Gilberto de Andrade. Estatística aplicada. 2ed. São 
Paulo: Atlas, 1995. 
14. PEREIRA, Wilson. Estatística: conceito básico. 2ª Ed. 1990. 
15. MARTINS, Gilberto de A. Estatística Geral e Aplicada. 3ª Ed. 2005. 
16. CALDEIRA, A. M. S. Estatística. Rio de Janeiro: Conquista, 1990. 
17. KARMEL, PH. & POLASEK, M. Estatística geral e aplicada para economistas. São Paulo, 
Atlas. 
 
 
 
Prof. Laura Maria Saporski Cachuba 
134 
ANEXO I: TABELAS ESTATÍSTICAS PARA PROBABILIDADE E INFERÊNCIA. 
 
 As tabelas a seguir estão liberadas para consulta durante a prova.
Para fazer uso do 
material, uma cópia destes arquivos deverá estar impressa à parte e sem anotações adicionais. 
 
 
 
 
 
 
Prof. Laura Maria Saporski Cachuba 
135 
 
 
Prof. Laura Maria Saporski Cachuba 
136 
 
 
Prof. Laura Maria Saporski Cachuba 
137 
 
 
Prof. Laura Maria Saporski Cachuba 
138 
 
 
Prof. Laura Maria Saporski Cachuba 
139 
 
 
Prof. Laura Maria Saporski Cachuba 
140 
 
 
Prof. Laura Maria Saporski Cachuba 
141 
 
 
Prof. Laura Maria Saporski Cachuba 
142 
 
 
Prof. Laura Maria Saporski Cachuba 
143 
 
 
Prof. Laura Maria Saporski Cachuba 
144 
 
 
 
 
 
 
 
 
 
 
Prof. Laura Maria Saporski Cachuba 
145 
 
 
Prof. Laura Maria Saporski Cachuba 
146 
 
 
Prof. Laura Maria Saporski Cachuba 
147 
 ANEXO II: Instrumental Matemático 
 
Arredondamento de dados 
Muitas vezes, é necessário ou conveniente suprimir unidades inferiores às de determinada ordem. 
Esta técnica é denominada arredondamento é feito da seguinte maneira: 
1 – Quando o primeiro algarismo a ser abandonado é 0,1,2,3 ou 4, fica inalterado o último 
algarismo a permanecer. 
EX: 53,24 passa a 53,2; 44,03 passa a 44,0. 
2 – Quando o primeiro algarismo a ser abandonado é 6,7,8 ou 9, aumenta-se de uma unidade o 
algarismo a permanecer. 
EX: 53,87 passa a 53,9; 44,08 passa a 44,1; 44,99 passa a 45,0. 
3 – Quando o primeiro algarismo a ser abandonado é 5, há duas soluções: 
a) Se ao 5 seguir em qualquer casa um algarismo diferente de zero, aumenta-se uma unidade ao 
algarismo a permanecer. 
EX: 2,352 passa a 2,4; 25,6501 passa a 25,7; 76,250002 passa a 76,3. 
a) Se o 5 for o último algarismo ou se ao 5 só se seguirem zeros, o último algarismo a ser 
conservado só será aumentado de uma unidade se for ímpar. 
Exemplos: 
24,75 passa a 24,8 
24,65 passa a 24,6 
24,75000 passa a 24,8 
24,6400 passa a 24,6 
Obs: Não devemos nunca fazer arredondamentos sucessivos. Exemplo: 17,3452 passa a 17,3 e não 
para 17,35 e depois para 17,4. 
 
Compensação 
Suponhamos os dados abaixo, aos quais aplicamos as regras do arredondamento: 
25,32 + 17,85 + 10,44 + 31,17 = 84,78 
25,3 + 17,8 + 10,4 + 31,2 = 84,7 
Verificamos que houve uma pequena discordância: a soma é exatamente 84,7 quando, pelo 
arredondamento, deveria ser 84,8. Entretanto, para a apresentação dos resultados, é necessário que 
desapareça tal diferença, o que é possível pela prática do que denominamos compensação, 
conservando o mesmo número de casas decimais. 
Usamos “descarregar” a diferença na(s) maior(es) parcela(s). Veja: 
25,3 + 17,8 + 10,4 + 31,3 = 84,8 
Obs: Se a maior parcela é igual ou maior que o dobro de qualquer outra parcela, “descarregamos” a 
diferença apenas na maior parcela. 
 
 
Prof. Laura Maria Saporski Cachuba 
148 
Álgebra do Somatório 
 



n
i
n
n
xxxx
xxx
1
211
21
...
,...,, :por expressa ser pode soma sua X, de valores São Se
 
 
Regras Básicas para uma variável 
1. Se a é uma constante: 
 
 


 





n
i
n
i
ii
n
i
nni
n
i
i
n
i
i
xaax
xxxaaxaxaxax
xaax
1 1
1
2121
11
......
 
 
2. Se X e Y são duas variáveis, então: 
 
           
   

 
 

 



n
i
n
i
ii
n
i
ii
nnnn
n
i
ii
n
i
n
i
ii
n
i
ii
yxyx
yyyxxxyxyxyxyx
yxyx
1 11
21212211
1
1 11
.........
 
 
3. Se X e Y são duas variáveis e a e b são constantes, então: 
  


n
i
i
n
i
i
n
i
ybxabyax
111
11
 
 
4. Se 
x
é a média aritmética de x, então: 
 
            





n
i
nn
n
i
n
i
i
xnxxxxxxxxxxxxxxx
xx
1
12121
1
1
1
0
.........
Como   0
1
1
1
1
11
1
1  



n
i
n
i
n
i
i
n
i
n
i
i
xxxxxxn
n
x
x
 
 
 
 
 
 
Prof. Laura Maria Saporski Cachuba 
149 
5. 
   
 
 
2
2
1
1
1
2
1
2
2
2
1
1
1
2
1
22
2
1
1
22
1
22
1
2
1 1 1 1
2
1
1
22
1
22
22
22
n
x
xxx
n
x
nxxnxxx
xnxnxxnxnxx
xxxxxxxxxx
n
i
n
i
i
n
i
i
n
i
n
i
i
n
i
i
n
i
n
i
i
n
i
i
n
i
n
i
n
i
n
i
n
i
iii





















   





   
.
 
 
Regras Para Duas Variáveis 
 
Dados: 
n
n
xxX
yyY
...
,...
1
1

 
 
Seja a função 
  yxyxf ,
, o somatório duplo dessa função pode ser expresso como:    
             
     nmmm
nn
m
i
n
j
ji
m
i
n
j
m
i
n
j
jiji
yxyxyx
yxyxyxyxyxyxyx
yxmyxf




 
 
   
...
.........
,
21
222121
1
21
1
11
1 1 1 1
 
 
Observações: 
 
1. a ordem da soma múltipla não importa: 
    
   

m
i
n
j
n
j
m
i
jiji yxfyxf
1 1 1 1
,,
 
 
2. a notação pode ser simplificada para: 
 
i j
ji yxf ,
 
 
 
Prof. Laura Maria Saporski Cachuba 
150 
ANEXO III: Alfabeto Grego 
 
 
Maiúsculo Minúsculo Nome 
  alfa 
  beta 
  gama 
  delta 
  épsilon 
  dzeta 
  eta 
  teta 
  iota 
  kapa 
  lâmbda 
  mü(mi) 
  nü (ni) 
  Ksi 
  ônicron 
  pi 
  rô 
  sigma 
  tau 
  úpsilom (ipsilon) 
  fi 
  chi (qui) 
  psi 
  ômega 
 
 
Prof. Laura Maria Saporski Cachuba 
151 
ANEXO IV: Lista para Estatística Descritiva. 
 
1. Contou-se o número de erros de impressão da primeira página de um jornal durante 50 dias, 
obtendo-se os resultados abaixo: 
 
8 11 8 12 14 13 11 14 14 5 
6 10 14 19 6 12 7 5 8 8 
10 16 10 12 12 8 11 6 7 12 
7 10 14 5 12 7 9 12 11 9 
14 8 14 8 12 10 12 22 7 15 
 
a) Elabore uma tabela de frequências. 
b) Quem é a variável de estudo? Classifique-a. 
c) Apresente média, moda e mediana. 
d) Escolha uma das medidas de tendência central e apresente a medida de dispersão adequada 
para ela. O que você pode concluir? 
e) O que você pode informar a cerca da assimetria do conjunto de dados? 
f) Você diria que o número de erros encontrados nos 50 dias de pesquisa pode ser considerado 
homogêneo? Por quê? 
g) Qual sua sugestão pessoal (como administrador) sobre a análise que você acaba de fazer? 
h) Elabore um gráfico adequado e comente o que você observa com ele. 
 
2. A mediana da série { 1, 3, 8, 15, 10, 12, 7 } é : 
a) igual a 15 
b) igual a 10 
c) igual a 7 
d) igual a 3,5 
e) não há mediana, pois não existe repetição de valores. 
 
3. Numa pesquisa de opinião, 80 pessoas são favoráveis ao divórcio, 50 são desfavoráveis, 30 
são indiferentes e 20 ainda não têm opinião formada a respeito do assunto. Então a média 
aritmética será: 
a) igual a 180, porque todos opinaram somente uma vez. 
b) igual a 40, porque é a média entre os valores 50 e 30. 
c) igual a 45. 
d) igual a 1, porque todos opinaram somente uma vez. 
e) não há média aritmética. 
 
4. Na série estatística formada
por { 3 , 1 , 2 , 3 , 6 }: 
a) mediana > moda > média. 
b) moda < média < mediana. 
c) moda = mediana = média. 
d) mediana = média e não há moda. 
e) média > mediana e não há moda. 
 
 
Prof. Laura Maria Saporski Cachuba 
152 
5. Considere uma série estatística com 2351 elementos. A posição da mediana é representada 
pelo: 
a) 1175º elemento. 
b) 1176º elemento. 
c) ponto médio entre o 1175º e o 1176º elemento. 
d) 1175,5º elemento. 
e) Impossível resolução, pois não há identificação dos elementos 
 
6. Uma pesquisa teve como objeto o transporte coletivo urbano de certa cidade. Seus objetivos 
foram quantificar a lotação dos ônibus no horário de pico e estabelecer a situação dos 
usuários desse horário em termos da qualidade do serviço. Utilizou-se a seguinte variável 
aleatória: X = Número de Passageiros Dentro de um Ônibus em Certo Horário. Analise a 
tabela abaixo e responda: 
 
CLASSE fi xi. xi.fi FAC xi2.fi 
50 | 54 4 52 
54 | 58 9 56 
58 | 62 11 60 
62 | 66 8 64 
66 | 70 5 68 
70 | 74 3 72 
Total 40 2.440,00 150.080,00 
 
a) Calcule a medida de tendência central que, na sua opinião, melhor traduz o objetivo proposto. 
b) Calcule a medida de dispersão que, na sua opinião, melhor traduz o objetivo proposto. 
c) O que você conclui a respeito dos dados, sabendo que a distribuição apresentou um formato 
gaussiano aceitável, quando analisado o gráfico adequado? Qual foi a forma (ou formas) gráfica 
adequada para avaliar os dados? 
d) Você diria que a forma como os dados foram apresentados responde adequadamente o objetivo 
proposto? Justifique. 
 
 
Prof. Laura Maria Saporski Cachuba 
153 
ANEXO V. Lista Treino de Exercícios para Distribuição de Probabilidade. 
 
1. A probabilidade de que um presumível cliente aleatoriamente escolhido faça uma compra é 
de 0,20. Se um vendedor visita 8 presumíveis clientes, qual a probabilidade de que: 
a) O vendedor faça exatamente 4 vendas; 
b) O vendedor faça um número de vendas inferior ou igual a 2; 
c) O vendedor faça entre 3 (inclusive) e 7 (exclusive) vendas. 
 
2. A probabilidade de que um empregado aleatoriamente escolhido participe de um programa 
de investimentos em ações patrocinado pela empresa é de 0,40. Se 16 empregados são 
escolhidos aleatoriamente, qual a probabilidade de que: 
a) Exatamente 75% deles participe do programa em questão; 
b) Menos de 5 (exclusive) participem do programa; 
c) O valor médio e o desvio-padrão dos empregados participantes. 
 
3. Um departamento de conserto de máquinas recebe em média 5 chamadas por hora. Qual a 
probabilidade de que o departamento receba: 
a) Mais de 3 (inclusive) chamadas por hora; 
b) 5 chamadas em meia hora; 
c) Entre 8 (exclusive) e 12 (inclusive) chamadas de 15 minutos; 
d) Menos de 2 chamadas (inclusive) em 5 minutos. 
e) Qual é a média e o desvio-padrão das chamadas por hora? 
 
4. A vida útil de uma certa marca de pneus radiais tem uma distribuição normal com média de 
38.000 km e desvio-padrão de 3.000 km. Qual a probabilidade de que o pneu escolhido 
aleatoriamente tenha vida útil: 
a) Entre 22.000 e 34.000 km? 
b) Dure mais do que 40.000 km? 
c) Se um comerciante encomenda 500 pneus desta marca, qual a quantidade 
aproximada que terá vida útil superior a 40.000 km? E entre 30.000 e 40.000 km? 
 
5. O tempo necessário para o atendimento de uma pessoa em um guichê de um banco tem 
média de 130 segundos e desvio padrão de 45 segundos. Qual a probabilidade de você: 
a) Leve menos de 100 segundos para terminar suas transações? 
b) Gaste de 2 a 3 minutos no guichê? 
c) Dentro de que período de tempo os 20% de pessoas que realizam as transações mais 
rápidas terminam suas transações no guichê? 
d) Qual o tempo mínimo necessário para os 5% de indivíduos com as transações mais 
complicadas? 
 
6. Suponha que haja em média 2 suicídios por ano numa população de 50.000 habitantes. Se a 
população sobe para 100.000 habitantes, encontre a probabilidade de que em um certo ano 
tenha havido: 
a) Nenhum suicídio; 
b) Somente 1 suicídio; 
c) Exatamente 2 suicídios; 
d) Menos de 5 (inclusive) suicídios. 
 
 
Prof. Laura Maria Saporski Cachuba 
154 
7. Suponha que a variável aleatória Q.I. tenha uma distribuição normal com média 100 e 
desvio-padrão 15. Qual a proporção da população que terá: 
a) Q.I. menor que 93? 
b) Q.I. maior que 145? 
c) Q.I. entre 100 e 140? 
 
8. Em um grupo de 1.500 mulheres entrevistadas, 600 delas foram favoráveis à inserção de um 
item de segurança específico em um novo automóvel. Em uma amostra de 12 mulheres, qual 
a probabilidade de que: 
a) Exatamente 6 mulheres sejam favoráveis à inserção deste item de segurança; 
b) Mais de 4 (inclusive) mulheres sejam favoráveis à inserção deste item de segurança; 
c) Pelo menos 8 mulheres sejam favoráveis à inserção deste item de segurança; 
d) Menos de 3 (inclusive) mulheres sejam favoráveis à inserção deste item de 
segurança. 
 
Respostas: 
1. a) 0,04588 b) 0,79691 c) 0,20301; 
2. a) 0,00396 b) 0,16657 c) média: 6,4 d.p.: 1,9595; 
3. a) 0,8754 b) 0,0668 c) 

0 d) 0,991 e) média: 5; d.p.: 2,236; 
4. a) 0,09175 b) 0,25142 c) 0,25142 x 500

126 d) 0,74478 x 500

373; 
5. a) 0,25142 b) 0,45357 c) 

93 segundos d) 

204 segundos; 
6. a) 0,0183 b) 0,0733 c) 0,1465 d) 0,7852; 
7. a) 0,31017 b) 0,00135 c) 0,4962; 
8. a) 0,17658 b) 0,77467 c) 0,05731 d) 0,22533. 
 
 
 
 
 
 
 
 
 
Prof. Laura Maria Saporski Cachuba 
155 
ANEXO VI: Lista Treino para Inferência Estatística 
 
1. Uma máquina automática de refrigerantes é regulada de modo que a quantidade suprida de cada 
vez tenha um desvio-padrão de 1,3 dl. Determinar uma estimativa média de 96%, sabendo que uma 
amostra de 30 copos de refresco acusou conteúdo médio de 21,0 dl. 
 
2. Uma pesquisa mercadológica sobre fidedignidade a um produto foi realizada em dois anos 
consecutivos. No primeiro ano em que foi realizada, a preferência pela marca foi de 29%. No 
segundo ano em que se realizou, de uma amostra de 400 pessoas, 33% delas indicaram preferência 
pela marca. Existe evidência de que este resultado apresente uma mudança positiva na preferência, 
considerando um nível de significância de 2%? Se esta significância fosse de 10%, a sua conclusão 
mudaria? Por quê? 
 
3. O diretor de compras de uma fábrica de peças industriais está examinando a possibilidade de 
comprar um novo tipo de máquina de moer. Ele decidiu que a nova máquina será comprada se 
houver evidências de que a variabilidade da resistência a ruptura das peças produzidas pelo novo 
tipo de máquina de moer for menor do que a variabilidade da máquina antiga. A máquina antiga 
mostra uma média de 65 Kg com desvio-padrão do processo de resistência à ruptura de 10 Kg. Uma 
amostra de 10 peças retiradas para a máquina nova, mostra uma média de 72 Kg do processo de 
resistência à ruptura com desvio-padrão de 9 Kg para a nova máquina. Utilizando =1%, há 
evidências de que a variabilidade da máquina nova é realmente menor que a variabilidade da 
máquina antiga? Por quê? 
 
4. Dentre 100 peixes capturados num certo lago, 18 não estavam apropriados para consumo devido 
aos níveis de poluição do ambiente. Construa um intervalo de confiança de 99% para a 
correspondente verdadeira proporção. 
 
5. Um departamento de manutenção recebe diariamente um carregamento de máquinas defeituosas. 
Para uma amostra de 10 máquinas, o tempo médio necessário para o conserto foi de 85 min com um 
desvio-padrão de 15 min. Estimar o tempo médio necessário para consertar as máquinas com 90% 
de confiança. Estime o tempo total necessário para consertar todas as máquinas, considerando que 
serão consertadas uma
por vez. 
 
6. Um produtor deseja obter peso específico médio 0,8 Kg/dm3 para certo material necessário á sua 
linha de produção. Admitindo o produtor a possibilidade de uma partida estar acima da 
especificação, quer saber se poderá, ao nível de 5% de significância, devolver a partida ao 
fornecedor. Para tanto, colheu uma amostra de 12 porções do material, a qual forneceu média de 
0,81 Kg/dm3 e desvio-padrão de 0,02 Kg/dm3 . O fornecedor indica como sendo de 0,01 Kg/dm3 o 
desvio-padrão do peso específico do produto. 
 
 
Prof. Laura Maria Saporski Cachuba 
156 
7. O índice médio da receita municipal dos 400 municípios de um estado tem sido de 7 pontos. O 
governo pretende melhorar este índice e para isso esta melhorando alguns incentivos. Para verificar 
os efeitos desta nova proposta, sorteou 10 cidades e anotou os índices investidos nas cidades 
encontrando uma média de 10,56 com desvio-padrão de 2,55. Admitindo uma confiança de 99%, é 
possível admitir que a receita municipal evidenciou melhorias com esta nova proposta? 
 
8. Sabe-se que o consumo mensal per capita de um determinado produto tem distribuição normal 
com desvio-padrão de 2 Kg. A diretoria da firma que fabrica o produto resolveu que retiraria o 
produto da linha de produção se a média de consumo per capita for menor que 8 Kg. Caso contrário, 
continuaria a fabricá-lo. Em uma amostra com 25 indivíduos encontrou-se uma média de 7,2 Kg. 
a) Verifique, com 5% de significância, qual deve ser a decisão da diretoria; 
b) Se a diretoria tivesse fixado uma significância de 1%, sua resposta em a seria a mesma? 
Justifique. 
c) Se o desvio-padrão da população fosse de 4 Kg, qual seria a decisão em a e b? 
 
 
 
 
 
Prof. Laura Maria Saporski Cachuba 
157 
ANEXO VII. RESPOSTAS DAS QUESTÕES PROPOSTAS 
Capítulo 1 
Ex. 1 
a) quantitativa contínua 
b) qualitativa ordinal 
c) qualitativa nominal 
d) qualitativa nominal 
e) quantitativa contínua 
f) qualitativa nominal 
 
Ex. 2 
a) quantitativa discreta 
b) qualitativa nominal 
c) quantitativa discreta 
d) quantitativa contínua 
e) qualitativa nominal 
f) quantitativa contínua 
g) qualitativa nominal 
h) qualitativa nominal 
i) qualitativa nominal 
j) qualitativa nominal 
 
Ex. 3 - qualitativa nominal 
 
Ex. 4 
a) quantitativa contínua 
b) quantitativa discreta 
c) quantitativa contínua 
d) qualitativa nominal 
e) qualitativa nominal 
f) qualitativa nominal 
g) qualitativa nominal 
h) quantitativa discreta 
i) qualitativa nominal 
j) qualitativa nominal 
k) qualitativa ordinal 
 
Ex. 7 
a) V 
b) F 
c) F 
d) V 
e) V 
f) V 
 
 
Prof. Laura Maria Saporski Cachuba 
158 
Ex. 8 
a) 
TAB. I - Causas de suicídio ocorridos no Brasil no ano de 1986. 
 
 
 
 
 
 
 
 
 
Fonte: IBGE, 1988. 
 
b) Moda: Doença Mental - só é possível calcular a moda, pois a variável é qualitativa nominal. 
c) variável: causa de suicídio - qualitativa nominal 
 
Ex. 9 
a) Menos do que 5.000, pois o quartil 3 indica que 75% ganham no máximo até este valor; 
b) Na Cia. B pois com a variabilidade muito baixa é praticamente certo o salário de 7.000 
 
Ex. 11 
a) Média: 180,91 cm Variância: 1.580,91 cm2 
b) Acima de 181,33 cm (mediana) 
c) Mediana: 181,33 cm Moda: 182,80 cm 
d) -X- 
e) O das mulheres por apresentar resultado mais homogêneo, de acordo com o coeficiente de 
variação (CVM: 2,45% CVH: 21,98%) 
f) Histograma e/ou Ogiva (ou Polígono) de Frequência, pois os dados são agrupados; 
 
Capitulo 2 
Ex. 4 
a) 0,7222 
b) 0,2778 
c) 0,50 
 
Ex. 5 
a) 0,2667 
b) 0,20 
c) 0,80 
d) 0,2667 
e) 0,3333 (na situação do casal) 
 
Ex. 6 - 0,55 
 
Ex. 7 
Máq. A - 0,3623 
Máq. B - 0,4058 
Máq. C - 0,2319 
 
CAUSA Nº DE OCORRÊNCIAS 
ALCOOLISMO 263 
DIFICULDADE FINANCEIRA 198 
DOENÇA MENTAL 700 
OUTRO TIPO DE DOENÇA 189 
DESILUSÃO AMOROSA 416 
OUTRAS CAUSAS 217 
∑ 1.983 
 
Prof. Laura Maria Saporski Cachuba 
159 
Ex. 14 
a) 0,30233 
b) 0,53853 
c) 0,50 
d) 0,93319 
e) 0,02275 
 
Ex. 15 
a) 0,99983 
b) 0,89435 
c) 0,00620 
 
Ex. 16 - 0,25142 
 
Ex. 17 - 0,74123 
 
Ex. 18 
a) 0,09175 - aproximadamente 6 candidatos 
b) Devem concluir em até 55,4 min 
c) Acima de 99,2 min - aproximadamente 7 devem retornar ao treinamento 
 
Ex. 19 
Pequenos até 4,328 kg 
Médios de 4,328 kg até 5,536 kg 
Grandes de 5,536 kg até 6,024 kg 
Extra acima de 6,024 kg

Teste o Premium para desbloquear

Aproveite todos os benefícios por 3 dias sem pagar! 😉
Já tem cadastro?