Esta é uma pré-visualização de arquivo. Entre para ver o arquivo original
reinaldo@ele.puc-rio.br ing.jdhernandes@gmail.com
street@ele.puc-rioi.br jjampinho@gmail.com
roxanajc@ele.puc-rio.br
1
PROBEST
Aula 1
Reinaldo Castro Souza, PhD
Alexandre Street
Roxana C. Contreras
José Daniel Hernández Vásquez, Monitor
José Aguinaldo M.Pinho, Auxiliar
2013.2
reinaldo@ele.puc-rio.br 2
Nota – Instalação das
Ferramentas de Análise do Excel
Muitas das técnicas descritas aqui requerem a prévia
instalação do suplemento (“add-in”) “Ferramentas de
Análise” do Excel. O procedimento de instalação é
descrito a seguir:
No menu Ferramentas, selecione “Suplementos” e na
caixa de diálogo que será aberta marque a opção
“Ferramentas de análise”. Se esta opção não estiver
presente, clique “procurar” para encontrar o arquivo
correspondente (em geral chamado Analys32.xll) ou
rode novamente o “set-up” do MS-Office.
reinaldo@ele.puc-rio.br 3
Aula 1
Estatística Descritiva
Definições básicas – Introdução à
Probabilidade
Probabilidade
Espaço amostral
Eventos
Propriedades das probabilidades
Probabilidade Condicional
Independência
Teorema de Bayes
reinaldo@ele.puc-rio.br 4
Estatística Descritiva
reinaldo@ele.puc-rio.br 5
Prá que serve estatística?
Porque nos permite entender e lidar com a idéia
de variabilidade.
Um exemplo típico é:
Produção de parafusos. Uma fábrica produz
parafusos, que devem ter diâmetros dentro de
certas especificações.
Ao medirmos os diâmetros de 100 parafusos
produzidos, selecionados ao acaso, existirão
variações individuais.
Estas variações são importantes? Até que ponto
as variações observadas são aceitáveis?
reinaldo@ele.puc-rio.br 6
Estatística
Em geral um número em Estatística não é apenas
um número! A ele associamos uma medida de
incerteza ou variabilidade.
População e Amostra
População = coleção de todos os elementos cujas
características desejamos conhecer. Os elementos (ou
"indivíduos") na população não são necessariamente
pessoas!
Amostra = subconjunto da população cujas características
serão medidas. A amostra será usada para descobrir
características da população.
reinaldo@ele.puc-rio.br 7
Exemplos
1) População = eleitores na cidade do Rio de Janeiro
Amostra = 650 eleitores escolhidos aleatoriamente (ao acaso)
Característica de interesse: percentual de eleitores que
planejam votar num candidato X nas próximas eleições.
2) População = automóveis produzidos no Brasil entre 1997 e
2002
Amostra = 10000 carros escolhidos aleatoriamente dentre os
sujeitos a “recall” das montadoras
Característica de interesse: verificar se o proprietário do carro
respondeu ao chamado de “recall” da fábrica
reinaldo@ele.puc-rio.br 8
Exemplos
3) População = todos os domicílios com TV na
cidade do Rio de Janeiro
Amostra = 1000 domicílios com TV escolhidos ao
acaso
Característica de interesse = percentual de
audiência de cada emissora de TV num certo dia
da semana no horário de 18 às 22 horas.
Em resumo: A partir de uma amostra coletamos
informações que nos permitem aprender alguma
coisa interessante sobre a população.
reinaldo@ele.puc-rio.br 9
Por que fazer isso?
É economicamente eficiente! Os custos
são infinitamente mais baixos que os de
amostrar a população inteira (“censo”).
Pode-se provar que, para populações
muito grandes, uma amostra de cerca de
600 ou 1000 "indivíduos" fornece
resultados bastante confiáveis sobre as
características da população.
reinaldo@ele.puc-rio.br 10
E agora?
Você coletou uma amostra e, dentro desta
amostra você coletou dados numéricos
(por exemplo, o consumo médio mensal
em kWh dos domicílios numa certa área
da cidade). O que fazer com isso?
Existem 2 possibilidades:
Você pode simplesmente descrever estes dados
numéricos através de gráficos e tabelas. Isto é chamado
de estatística descritiva. A maioria das pesquisas de
mercado faz só isso, que é sem dúvida, muito
importante.
reinaldo@ele.puc-rio.br 11
E agora?
Você pode tentar tirar conclusões sobre
as características da população a partir
dos dados observados na amostra.
Isso se chama estatística inferencial (ou
simplesmente estatística!). Para que a
gente consiga fazer isso, é necessário ter
uma noção bastante abrangente de
Probabilidades.
reinaldo@ele.puc-rio.br 12
E agora?
Na verdade, a estatística descritiva surgiu
muito antes da estatística inferencial.
Esta última depende da especificação de
modelos matemáticos baseados numa
noção fundamental, que é a de
"probabilidade".
reinaldo@ele.puc-rio.br 13
Estatística descritiva
Gráficos ("A picture is worth one thousand words")
Histograma
Diagramas de Pareto
Gráficos de dispersão, gráficos da variável ao longo do
tempo, gráficos de barras, etc...
Medidas Numéricas
Média amostral
Mediana amostral
Desvio padrão amostral
Variância amostral
Assimetria e Curtose amostrais
Percentis
Covariância, Correlação amostrais
reinaldo@ele.puc-rio.br 14
Alguns gráficos da evolução de
variáveis ao longo do tempo
reinaldo@ele.puc-rio.br 15
Consumo Total Energia Elétrica
Jan/1979 a Ago/2006
Consumo de Energia Elétrica - Total Brasil (GWh) - Fonte: Eletrobrás
7,000
12,000
17,000
22,000
27,000
32,000
jan
/79
jan
/80
jan
/81
jan
/82
jan
/83
jan
/84
jan
/85
jan
/86
jan
/87
jan
/88
jan
/89
jan
/90
jan
/91
jan
/92
jan
/93
jan
/94
jan
/95
jan
/96
jan
/97
jan
/98
jan
/99
jan
/00
jan
/01
jan
/02
jan
/03
jan
/04
jan
/05
jan
/06
monica@ele.puc-rio.br 16
EXEMPLO: Preços de Petróleo
Brent e WTI – dados diários –
02/01/1991 a 03/11/2006
Preços de Petróleo (US$/Barril) - Janeiro de 2000 a Novembro de 2006
16
20
24
28
32
36
40
44
48
52
56
60
64
68
72
76
80
84
4/
1/
20
00
4/
3/
20
00
3/
5/
20
00
2/
7/
20
00
31
/8
/2
00
0
30
/1
0/
20
00
29
/1
2/
20
00
27
/2
/2
00
1
28
/4
/2
00
1
27
/6
/2
00
1
26
/8
/2
00
1
25
/1
0/
20
01
24
/1
2/
20
01
22
/2
/2
00
2
23
/4
/2
00
2
22
/6
/2
00
2
21
/8
/2
00
2
20
/1
0/
20
02
19
/1
2/
20
02
17
/2
/2
00
3
18
/4
/2
00
3
17
/6
/2
00
3
16
/8
/2
00
3
15
/1
0/
20
03
14
/1
2/
20
03
12
/2
/2
00
4
12
/4
/2
00
4
11
/6
/2
00
4
10
/8
/2
00
4
9/
10
/2
00
4
8/
12
/2
00
4
6/
2/
20
05
7/
4/
20
05
6/
6/
20
05
5/
8/
20
05
4/
10
/2
00
5
3/
12
/2
00
5
1/
2/
20
06
2/
4/
20
06
1/
6/
20
06
31
/7
/2
00
6
29
/9
/2
00
6
Petróleo WTI Petróleo Brent
monica@ele.puc-rio.br 17
EXEMPLO: IPC-FIPE
reinaldo@ele.puc-rio.br 18
EXEMPLO: IPC-FIPE
No gráfico anterior exibimos o IPC-FIPE (o Índice de
Preços ao Consumidor da FIPE, um dos mais
importantes índices de inflação com suas
estimativas quadrissemanais) no período entre
01/1995 e 10/2006.
As prévias quadrissemanais servem como
indicadores da inflação do próximo mês medida
pelo IPC-FIPE.
No próximo gráfico exibimos os valores (01/2002 a
10/2006) do IPC-FIPE.
reinaldo@ele.puc-rio.br 19
IPC-FIPE - Janeiro de 2002
a 10/2006
Inflação FIPE (% a.m)- 01/2002 a 10/2006
-0.5
0.0
0.5
1.0
1.5
2.0
2.5
3.0
jan
/02
ab
r/0
2
jul
/02
ou
t/0
2
jan
/03
ab
r/0
3
jul
/03
ou
t/0
3
jan
/04
ab
r/0
4
jul
/04
ou
t/0
4
jan
/05
ab
r/0
5
jul
/05
ou
t/0
5
jan
/06
ab
r/0
6
jul
/06
ou
t/0
6
INFLAÇÃO - IPC - FIPE (% a.m.)
reinaldo@ele.puc-rio.br 20
IBOVESPA Diário – Julho de 1994 a
a 06/08/2004
reinaldo@ele.puc-rio.br 21
IBOVESPA Diário – Julho de 1994 a
a 06/08/2004
Parece que a bolsa subiu muito durante
quase todo o Plano Real.
Será que isso é mesmo verdade?
Veja o próximo gráfico, em que
comparamos o IBOVESPA em R$ e US$.
reinaldo@ele.puc-rio.br 22
IBOVESPA Diário – Julho de 1994 a
a 06/08/2004
IBOVESPA em Pontos em Reais e Dólares
2000.00
5000.00
8000.00
11000.00
14000.00
17000.00
20000.00
23000.00
26000.00
04
/0
7/
19
94
08
/1
1/
19
94
17
/0
3/
19
95
25
/0
7/
19
95
29
/1
1/
19
95
11
/0
4/
19
96
14
/0
8/
19
96
17
/1
2/
19
96
30
/0
4/
19
97
03
/0
9/
19
97
08
/0
1/
19
98
19
/0
5/
19
98
22
/0
9/
19
98
01
/0
2/
19
99
10
/0
6/
19
99
14
/1
0/
19
99
21
/0
2/
20
00
28
/0
6/
20
00
31
/1
0/
20
00
13
/0
3/
20
01
18
/0
7/
20
01
22
/1
1/
20
01
04
/0
4/
20
02
08
/0
8/
20
02
10
/1
2/
20
02
17
/0
4/
20
03
25
/0
8/
20
03
26
/1
2/
20
03
05
/0
5/
20
04
IBOVESPA em Dólares IBOVESPA em R$
reinaldo@ele.puc-rio.br 23
Gráfico de Dispersão
(uma variável versus outra)
reinaldo@ele.puc-rio.br 24
Exemplo - IBOVESPA e Dólar
Ibovespa versus Dólar PTAX -10/12/2002 a 12/06/2003
y = -3830.7x + 24366
R
2
= 0.8954
9,000
9,500
10,000
10,500
11,000
11,500
12,000
12,500
13,000
13,500
14,000
14,500
2.80 2.90 3.00 3.10 3.20 3.30 3.40 3.50 3.60 3.70 3.80 3.90
Neste período parece fazer sentido
ajustar uma reta e poderíamos
estipular um modelo que pudesse
prever o IBOVESPA em função da
taxa de câmbio
reinaldo@ele.puc-rio.br 25
Exemplo - IBOVESPA e Dólar –
incorporação de novos dados
Ibovespa versus Dólar PTAX -10/12/2002 a 02/03/2004
y = -10612x + 48010
R
2
= 0.4532
8,000
10,000
12,000
14,000
16,000
18,000
20,000
22,000
24,000
26,000
2.80 2.90 3.00 3.10 3.20 3.30 3.40 3.50 3.60 3.70 3.80 3.90
Claramente, um modelo linear não é mais
apropriado quando levamos em consideração os
novos dados (entre junho de 2003 e março de
2004) - OU SEJA: O MODELO MUDOU!
reinaldo@ele.puc-rio.br 26
Exemplo - IBOVESPA e Dólar –
incorporação de novos dados
Por que o modelo anterior não funciona?
No período entre junho de 2003 e março
de 2004 o dólar permaneceu praticamente
estável, enquanto o índice Bovespa subiu
consideravelmente, como podemos
verificar no próximo gráfico.
reinaldo@ele.puc-rio.br 27
Exemplo - IBOVESPA e Dólar –
incorporação de novos dados
IBOVESPA - 10/12/2002 a 02/03/2004
9,000
11,000
13,000
15,000
17,000
19,000
21,000
23,000
25,000
10
/1
2/0
2
25
/1
2/0
2
09
/0
1/0
3
24
/0
1/0
3
08
/0
2/0
3
23
/0
2/0
3
10
/0
3/0
3
25
/0
3/0
3
09
/0
4/0
3
24
/0
4/0
3
09
/0
5/0
3
24
/0
5/0
3
08
/0
6/0
3
23
/0
6/0
3
08
/0
7/0
3
23
/0
7/0
3
07
/0
8/0
3
22
/0
8/0
3
06
/0
9/0
3
21
/0
9/0
3
06
/1
0/0
3
21
/1
0/0
3
05
/1
1/0
3
20
/1
1/0
3
05
/1
2/0
3
20
/1
2/0
3
04
/0
1/0
4
19
/0
1/0
4
03
/0
2/0
4
18
/0
2/0
4
Junho de 2003
reinaldo@ele.puc-rio.br 28
Exemplo - temperaturas
Dados:Temperatura máxima mensal (média das
máximas diárias) na estação de Santa Cruz (Rio
de Janeiro) entre Jan/1982 e Dez/1991.
O que fazer com todos estes 120 números?
A coisa mais sensata é fazer um gráfico da
temperatura versus o índice de tempo (mês e
ano). Este gráfico vai revelar o óbvio, isto é, que
as temperaturas no verão são mais altas que no
inverno!
reinaldo@ele.puc-rio.br 29
Exemplo - temperaturas
Além disso, a gente vai perceber que
existe um comportamento sazonal nos
dados, ou seja, dentro de cada ano a
evolução da temperatura se repete mais
ou menos da mesma maneira.
O gráfico também nos dá uma idéia do
quanto a temperatura está variando em
todo o período. Por exemplo, pode-se
verificar que a temperatura máxima nestes
10 anos está sempre acima de 22 graus.
reinaldo@ele.puc-rio.br 30
Exemplo - temperaturas
Temperaturas Máximas - 1982 a 1991
23
25
27
29
31
33
35
37
ja
n/
82
m
ai
/8
2
se
t/8
2
ja
n/
83
m
ai
/8
3
se
t/8
3
ja
n/
84
m
ai
/8
4
se
t/8
4
ja
n/
85
m
ai
/8
5
se
t/8
5
ja
n/
86
m
ai
/8
6
se
t/8
6
ja
n/
87
m
ai
/8
7
se
t/8
7
ja
n/
88
m
ai
/8
8
se
t/8
8
ja
n/
89
m
ai
/8
9
se
t/8
9
ja
n/
90
m
ai
/9
0
se
t/9
0
ja
n/
91
m
ai
/9
1
se
t/9
1
reinaldo@ele.puc-rio.br 31
Exemplo - temperaturas
O gráfico é muito útil, mas certamente não
“conta” toda a informação ....
Por exemplo, qual será a temperatura média de
todos os meses? Dentre os 120 meses, em
quantos a temperatura média esteve entre 28 e 33
graus? Qual o percentual de temperaturas entre
22 e 25 graus? Tomando-se os 120 pontos, quais
os valores de temperatura tais que 90% dos
meses têm temperaturas entre estes dois
valores?
reinaldo@ele.puc-rio.br 32
Exemplo - temperaturas
Podemos pensar nestas, e numa infinidade de
outras questões. O fato é que um simples gráfico
da temperatura versus o tempo não fornece as
respostas de maneira prática.
O primeiro passo é fazer a distribuição de
freqüência dos seus dados. Isto é simplesmente
uma medida mais compacta de representação
dos dados. Você divide as temperaturas em
intervalos (chamados intervalos de classe) e
conta quantas observações caem em cada
intervalo.
reinaldo@ele.puc-rio.br 33
Exemplo - temperaturas
A escolha do número de intervalos é arbitrária.
O importante é garantir que o número de classes
não seja nem muito grande nem muito pequeno.
Se o número de classes for muito pequeno, fica
difícil verificar as diferenças entre as classes. Ao
contrário, se o número de classes for muito
grande, existirão muito poucas observações em
cada classe.
O primeiro passo é ordenar os dados pois facilita
a colocação dos dados em cada classe.
reinaldo@ele.puc-rio.br 34
Exemplo - temperaturas
Escolha do número de classes num
diagrama de frequência
Seja n o número de intervalos num diagrama de frequência.
Recomenda-se escolher n entre 5 e 20. Quanto maior o
número de observações, maior o número de intervalos.
Geralmente usa-se n igual à raiz quadrada do número total
de observações, que neste caso seria aproximadamente 11.
Para facilitar a visualização em geral usamos intervalos
com o mesmo comprimento. Muitas vezes o primeiro
intervalo é descrito como "abaixo de um certo valor" e o
último como "acima de um certo valor".
reinaldo@ele.puc-rio.br 35
Exemplo - temperaturas
Neste exemplo usamos n = 7, por uma questão
puramente prática, pois este número nos permite
encontrar intervalos de classe de comprimento
1.9 em todas as classes, exceto a primeira, e
todas as classes terminam com uma temperatura
que é um número inteiro e par.
A primeira classe vai de 24 a 26 graus, a segunda
vai de 26.1 a 28 graus e assim sucessivamente. O
diagrama de freqüências encontrado está a
seguir.
reinaldo@ele.puc-rio.br 36
Exemplo - temperaturas
Classe Frequência Frequência Relativa Frequência
Relativa
Acumulada
24-26 graus 7 7/120 = 5.83 % 5.83%
26.1- 28 graus 31 31/120 = 25.83 % 31.66%
28.1-30 graus 26 26/120 = 21.67 % 53.33%
30.1-32 graus 26 26/120 = 21.67 % 75.00%
32.1-34 graus 25 25/120 = 20.83 % 95.83%
34.1-36 graus 3 3/120 = 2.50 % 98.33%
36.1-38 graus 2 2/120 = 1.67 % 100%
Totais 120 100%
reinaldo@ele.puc-rio.br 37
Exemplo – temperaturas
O diagrama de frequências já nos permite
responder a diversas outras questões. Por
exemplo, a grande maioria (69.17%) das
temperaturas máximas está entre 26.1 e 32 graus.
Também percebemos que temperaturas máximas
acima de 34.1 graus são incomuns (apenas 5
dentre as 120).
Veja que outras conclusões você consegue obter
a partir deste diagrama.
reinaldo@ele.puc-rio.br 38
Exemplo - temperaturas
A partir de um diagrama de frequências podemos
facilmente construir um histograma.
Histograma:
Gráfico de barras, onde o eixo vertical contém as
frequências (ou freqüências relativas) e o eixo
horizontal contém os intervalos de classes. Muitas
vezes faz-se a área de cada barra igual à freqüência
relativa de cada classe, de tal forma que a área total
sob o histograma é 1 (100%).
reinaldo@ele.puc-rio.br 39
Histograma – produção no Excel
É automática, mas você precisa ter instalado
antes o suplemento (“add-in”) de ferramentas de
análise de dados.
Aliás, este suplemento será muito útil para nós,
portanto instale-o.
reinaldo@ele.puc-rio.br 40
Histograma – produção no Excel
reinaldo@ele.puc-rio.br 41
Histograma – produção no Excel
Células contendo os dados
Células contendo os limites dos intervalos (não precisam ser
especificados) – mas geralmente quando não os especificamos o
Excel gera uns limites meio “feios”
reinaldo@ele.puc-rio.br 42
Histograma – implementação
no Excel em Português
reinaldo@ele.puc-rio.br 43
Histograma – produção no Excel
Histograma
0
5
10
15
20
25
30
35
24 26 28 30 32 34 36 38 acima de 38
Intervalo
Fr
eq
üê
nc
ia
Note que este histograma usa intervalos diferentes
dos especificados na tabela de freqüência mostrada
anteriormente
reinaldo@ele.puc-rio.br 44
Histograma – Retorno diário do
preço do petróleo WTI – 01/1991 a
08/2006
Histograma - Log Retornos Petróleo WTI - 1991 a 2006
0
100
200
300
400
500
600
700
800
-1
3.1
%
-1
2.2
%
-1
1.3
%
-1
0.4
%
-9
.5%
-8
.6%
-7
.7%
-6
.8%
-6
.0%
-5
.1%
-4
.2%
-3
.3%
-2
.4%
-1
.5%
-0
.6% 0.
3%
1.
2%
2.
0%
2.
9%
3.
8%
4.
7%
5.
6%
6.
5%
7.
4%
8.
3%
9.
2%
10
.0
%
10
.9
%
11
.8
%
12
.7
%
13
.6
%
14
.5
%
M
or
e
Bin
Fr
eq
ue
nc
y
A grande maioria dos
retornos diários
(variações diárias)
nesta faixa, mas
também variações
extremas
reinaldo@ele.puc-rio.br 45
Exemplo: Produção da energia
eólica mensal
(Icaraizinho - NE).
0.0
10.0
20.0
30.0
40.0
50.0
60.0
70.0
80.0
Jan
-81
Ma
r-82
Ma
y-8
3
Jul-
84
Sep
-85
Nov
-86
Jan
-88
Ma
r-89
Ma
y-9
0
Jul-
91
Sep
-92
Nov
-93
Jan
-95
Ma
r-96
Ma
y-9
7
Jul-
98
Sep
-99
Nov
-00
Jan
-02
Ma
r-03
Ma
y-0
4
Jul-
05
Sep
-06
Nov
-07
Jan
-09
Ma
r-10
Ma
y-1
1
Jul-
12
Pro
duç
ão
(%
pot
ênc
ia m
áxi
ma
)
reinaldo@ele.puc-rio.br 46
Hitograma
Produção da energia eólica mensal (Icaraizinho - NE).
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
0%
1%
2%
3%
4%
5%
6%
7%
8%
9%
10%
Fre
q.
Re
lat
iva
Ac
um
ula
da
Fre
qü
ên
cia
Re
lat
iva
(%
nú
m.
ob
s)
Bloco (Produção de energia mensal em % Potência máxima)
Histograma e Frequência Acumulada
(Relativa)
reinaldo@ele.puc-rio.br 47
Diagrama de Pareto
Como fazer um diagrama de Pareto?
1) Faça um gráfico de barras colocando a freqüência de cada
tipo de evento no eixo vertical, e arranjando os eventos em
ordem decrescente de ocorrência. Assim, a primeira barra
corresponde ao evento que ocorre com mais freqüência, a
segunda barra diz respeito ao segundo evento mais
freqüente, e assim por diante.
2) Crie um eixo vertical no lado direito do seu gráfico
contendo as freqüências relativas acumuladas. Faça uma
linha juntando as frequências relativas acumuladas e a
superponha ao gráfico de barras.
reinaldo@ele.puc-rio.br 48
Exemplo – Consumo Residencial
Os dados a seguir representam a distribuição de
domicílios residenciais por classe de consumo de
energia elétrica na área de concessão de uma certa
distribuidora de energia. Os dados referem-se a uma
pesquisa realizada em 2012 com uma amostra de 2100
domicílios.
Consumidores Residenciais
Faixas de consumo número de domicílios frequência relativa
< 80 kWh 170 (170/2100)x100 = 8,1%
80 - 150 kWh 467 (467/2100)x100 = 22,24%
151 - 220 kWh 445 21,19%
221 - 400 kWh 582 27,71%
>400 kWh 436 20,76%
Total 2100
reinaldo@ele.puc-rio.br 49
Exemplo – Consumo Residencial
O diagrama de Pareto para estes dados é:
0
100
200
300
400
500
600
221 - 400
kWh
80 - 150
kWh
151 - 220
kWh
>400 kWh < 80 kWh
N
ú
m
e
ro
d
e
d
o
m
ic
íl
io
s
Faixa de consumo
Diagrama de Pareto
reinaldo@ele.puc-rio.br 50
Medidas Numéricas
A partir de agora suponha que os dados
observados na amostra são x1, x2, ..., xn .
n é o tamanho da amostra.
A partir dos x's vamos encontrar números que
resumem as características da amostra. Vamos
estar interessados em dois tipos principais de
medidas numéricas: as que caracterizam a
localização do centro da amostra e as que
caracterizam a dispersão dos dados.
reinaldo@ele.puc-rio.br 51
Medidas Numéricas
Medidas de Localização ou de tendência
central
dizem onde está o "meio" dos seus dados
exemplo: média e mediana amostrais
Medidas de Dispersão
dizem o quanto os seus dados estão “espalhados”
exemplo: desvio padrão e variância amostrais, amplitude
amostral
reinaldo@ele.puc-rio.br 52
Medidas de Tendência Central
Média Amostral
No Excel: função Média (....)
Considere agora a amostra x1, x2, ..., xn e suponha que você
a ordene, de tal forma que x(1) seja o menor elemento da
amostra, x(2) seja o segundo menor elemento, ...., x(n) seja o
maior elemento da amostra. Os valores x(1), x(2), ..., x(n) são
chamados de estatísticas de ordem da amostra. Outras
medidas de
tendência central e de dispersão serão
definidas a partir das estatísticas de ordem.
n
i
iX
n
X
1
1
0.0
10.0
20.0
30.0
40.0
50.0
60.0
70.0
80.0
Jan
-81
Ma
r-82
Ma
y-8
3
Jul-
84
Sep
-85
Nov
-86
Jan
-88
Ma
r-89
Ma
y-9
0
Jul-
91
Sep
-92
Nov
-93
Jan
-95
Ma
r-96
Ma
y-9
7
Jul-
98
Sep
-99
Nov
-00
Jan
-02
Ma
r-03
Ma
y-0
4
Jul-
05
Sep
-06
Nov
-07
Jan
-09
Ma
r-10
Ma
y-1
1
Jul-
12
Pro
duç
ão
(%
pot
ênc
ia m
áxi
ma
)
reinaldo@ele.puc-rio.br 53
Medidas de Tendência Central
Média Amostral: Produção da energia eólica mensal
(Icaraizinho - NE).
37.5%
reinaldo@ele.puc-rio.br 54
Medidas de Tendência Central
Média Amostral Condicional: Produção da energia eólica
mensal (Icaraizinho - NE).
0%
10%
20%
30%
40%
50%
60%
70%
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31
Pr
od
uç
ão
M
éd
ia
(%
Po
t)
Anos do Histórico
Aug Média Aug Feb Média Feb
56%
22%
reinaldo@ele.puc-rio.br 55
Medidas de Tendência Central
Mediana
É definida a partir das estatísticas de ordem.
Por exemplo, se existem 10 observações na amostra, a
mediana equivale à média entre x(5) e x(6) . Se a amostra
contém 11 elementos, a mediana é x(5) . A mediana amostral
é menos influenciada que a média por observações
aberrantes (“outliers”).
No Excel é a função med(...)
1
2 2
1
2
se n, o tamanho da amostra, é par
2
ou
se n, o tamanho da amostra, é ímpar
n n
n
X X
m
X
reinaldo@ele.puc-rio.br 56
Medidas de Tendência Central
Por exemplo, se os seus dados são 1,2,3,4,5, a
média amostral é: (1+2+3+4+5)/5 = 3 e a mediana
amostral tem o mesmo valor.
Se agora os dados são:
1,2,3,4,45, a média amostral é:
(1+2+3+4+45)/5 = 11, mas a mediana amostral
continua sendo 3.
Logo, a média amostral foi profundamente
influenciada por um único valor, e o mesmo não
aconteceu com a mediana amostral.
reinaldo@ele.puc-rio.br 57
Medidas de Dispersão
As medidas de tendência central não são as
únicas medidas necessárias para caracterizar
uma amostra (ou população).
Precisamos também saber o quanto as
observações na amostra estão " espalhadas".
Por exemplo, no gráfico a seguir as populações
têm a mesma média, mas certamente a segunda
distribuição tem maior dispersão.
0%
10%
20%
30%
40%
50%
60%
70%
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31
Pr
od
uç
ão
M
éd
ia
(%
Po
t)
Anos do Histórico
Aug
Feb
reinaldo@ele.puc-rio.br 58
Medidas de Dispersão:
Produção da energia eólica mensal
(Icaraizinho - NE).
Tem maior
dispersão:
é mais
“espalhada”
em torno da
média
reinaldo@ele.puc-rio.br 59
Medidas de Dispersão
Variância Amostral
É a medida mais comum de dispersão . A
variância amostral, denotada por s2 é definida
como:
Onde é a média amostral.
Note que, por definição, a variância amostral é
sempre não negativa!!!
A unidade de medida da variância é o quadrado
da unidade de medida das observações, o que
dificulta a sua interpretação.
n
i
i XX
n
s
1
22
1
1
X
reinaldo@ele.puc-rio.br 60
Medidas de Dispersão
Desvio Padrão Amostral
O desvio padrão amostral, denotado por s, é
definido como a raiz quadrada positiva da
variância amostral. Pelos comentários anteriores,
notamos que s é expresso nas mesmas unidades
de medida que as observações na amostra.
s s
n
X Xi
i
n
2
2
1
1
1
reinaldo@ele.puc-rio.br 61
Medidas de Dispersão: Produção da
energia eólica mensal (Icaraizinho -
NE).
0%
10%
20%
30%
40%
50%
60%
70%
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31
Pro
du
ção
M
éd
ia (
% P
ot)
Anos do Histórico
Aug Méd+Desv Aug Média Aug Méd-Desv Aug
Feb Méd+Desv Feb Média Feb Méd-Desv Feb
4.9%
8.3%
reinaldo@ele.puc-rio.br 62
Medidas de Dispersão
Coeficiente de variação amostral
É uma medida adimensional, e serve principalmente
para comparar duas amostras que foram coletadas
em unidades de medida diferentes, por exemplo,
uma em cm e outra em polegadas.
Amplitude Amostral
X
s
CV
mínmáxXXA n )1()(
reinaldo@ele.puc-rio.br 63
Como obter estatísticas
descritivas no Excel?
Opção 1
Use as funções apropriadas, por exemplo,
média(..), med(...), máximo(...), mínimo(...),
desvpad(...), ...
Opção 2
Use a ferramenta “estatística descritiva”
dentro das opções de “análise de dados”,
como indicado na tela a seguir. Várias outras
estatísticas, como a curtose (que mede o
“peso” das “caudas”(extremos) e a assimetria,
são também fornecidas).
reinaldo@ele.puc-rio.br 64
Como obter estatísticas
descritivas no Excel?
reinaldo@ele.puc-rio.br 65
Como obter estatísticas
descritivas no Excel?
Células contendo os
dados
Indicador de nome
da variável na 1a.
posição da coluna
ou linha
Produzir estatísticas
descritivas
reinaldo@ele.puc-rio.br 66
Percentis
O percentil x% é o ponto tal que, a
probabilidade de estar abaixo dele é x%.
O percentil 50% é a MEDIANA de um
conjunto de dados, e qualquer percentil
entre 0 e 100% pode ser encontrado
através da função PERCENTIL do Excel.
reinaldo@ele.puc-rio.br 67
Percentis: no MS Excel
Ordenar o conjunto de dados: {x(i)}i=1,...,n
O percentil de P%, por exemplo, 40% de um
conjunto de dados ordenado {15, 20, 35, 40, 50} é
calculado da seguinte forma:
x = (n+1)P/100 = 2.4
k = inteiro[x] = 2
f = fracionário[x] = 0.4
Percentil(P%) = x(k)+f(x(k+1)-x(k)) = 20 + 0.4x15 = 26
reinaldo@ele.puc-rio.br 68
Quartis
Primeiro Quartil: Q1 – é o percentil 25%,
ou seja, 25% das observações estão
abaixo de Q1
Segundo Quartil: Q2 - é a mediana
Terceiro Quartil: Q3 – é o percentil 75%
reinaldo@ele.puc-rio.br 69
Estatísticas Descritivas – Retorno
do Petróleo WTI – 01/1991 a 08/2006
reinaldo@ele.puc-rio.br 70
Percentis – Retorno do Petróleo
WTI – 01/1991 a 08/2006
5% -3.53%
10% -2.53%
25% -1.17%
50% 0.07%
75% 1.28%
90% 2.51%
95% 3.45%
Percentis
5% dos retornos
abaixo de -3.53%
90% dos retornos
abaixo de +2.51%
reinaldo@ele.puc-rio.br 71
Percentil:
Produção da energia eólica mensal
(Icaraizinho - NE).
Percentil = 50% 45% 40% 35% 30% 25% 20% 15% 10% 5%
Jan 24.9 24.5 23.6 22.3 20.9 20.1 19.1 17.7 16.4 13.8
Feb 18.8 18.5 18.2 17.2 16.7 16.0 15.5 14.4 12.1 11.0
Mar 15.7 14.5 13.7 13.3 12.4 10.5 10.2 9.9 9.5 9.0
Apr 17.5 16.0 14.3 12.0 11.6 10.6 9.8 9.3 9.2 8.0
May 24.1 21.8 18.9 17.7 16.5 15.6 14.6 12.5 11.4 10.9
Jun 30.6 29.4 27.6 27.2 26.9 26.2 25.3 23.5 23.2 21.2
Jul 37.7 37.2 36.8 36.6 36.4 35.9 33.7 30.7 27.7 26.5
Aug 54.6 54.4 53.7 53.4 52.6 51.9 50.6 50.3 49.7 47.7
Sep 62.1 61.9 61.0 60.4 60.1 58.3 56.3 54.3 51.2 49.7
Oct 58.3 57.9 56.3 56.0 55.3 54.3 51.3 50.6 48.7 46.2
Nov 52.3 51.9 51.5 50.4 49.7 48.4 47.5 45.4 44.6 41.0
Dec 39.9 39.5 38.7 37.4
35.2 31.9 31.5 28.0 27.0 21.4
Média 36.4 35.6 34.5 33.7 32.8 31.6 30.4 28.9 27.6 25.5
50% 45% 40% 35% 30% 25% 20% 15% 10% 5%
Todos os
meses 35.8 32.1 29.1 27.2 24.9 22.4 18.8 17.1 14.4 11.2
reinaldo@ele.puc-rio.br 72
Percentil:
Produção da energia eólica mensal
(Icaraizinho - NE).
0%
5%
10%
15%
20%
25%
30%
35%
40%
45%
50%
55%
60%
65%
70%
75%
80%
85%
90%
95%
100%
- 10.0 20.0 30.0 40.0 50.0 60.0 70.0 80.0
Fre
qu
ên
cia
Re
lat
iva
A
cu
mu
lad
a
Produção de energia (% potência máxima)
Feb Aug
reinaldo@ele.puc-rio.br 73
Análise dos Retornos do
IBOVESPA
Considere agora os retornos diários do
IBOVESPA no período entre 04 de julho de 1994 e
06/08/2004.
Defina o retorno diário entre os dias t e t + 1
como:
Onde log denota o logaritmo natural (base e) e Pt
e Pt+1 são, respectivamente, os preços nos dias t e
t + 1.
O retorno definido acima é chamado de retorno
geométrico.
t
t
t
P
P
R 11 log
reinaldo@ele.puc-rio.br 74
Histograma dos Retornos
IBOVESPA
Histograma dos retornos diários do IBOVESPA
0
50
100
150
200
250
300
350
400
450
500
-7.00%
-6.50%
-6.00%
-5.50%
-5.00%
-4.50%
-4.00%
-3.50%
-3.00%
-2.50%
-2.00%
-1.50%
-1.00%
-0.50%
0.00%
0.50%
1.00%
1.50%
2.00%
2.50%
3.00%
3.50%
4.00%
4.50%
5.00%
5.50%
6.00%
6.50%
7.00%
M
ais
Bloco
Fr
eq
üê
nc
ia
reinaldo@ele.puc-rio.br 75
Percentis dos Retornos
Percentil Retorno Correspondente
1.0% -6.75%
5.0% -3.90%
10.0% -2.74%
25.0% -1.24%
50.0% 0.13%
75.0% 1.48%
90.0% 2.69%
95.0% 3.66%
99.0% 6.63%
reinaldo@ele.puc-rio.br 76
Análise dos Retornos do
IBOVESPA
Uso da função “freqüência”
Produz a freqüência (número de ocorrências
num determinado intervalo).
Por exemplo, dentre 2501 retornos diários do
IBOVESPA, a referência:
FREQÜÊNCIA(E$3:E$2503;G7) significa:
Olhe para todos os dados em E$3 a E$2503 (são
os retornos diários) e conte QUANTOS estão
ABAIXO do valor em G7.
O gráfico destas frequências é mostrado na
próxima página.
reinaldo@ele.puc-rio.br 77
Análise dos Retornos do
IBOVESPA
Frequüências Acumuladas - Retornos Diários
-
500
1,000
1,500
2,000
2,500
3,000
-1
5.0
0%
-7
.00
%
-6
.50
%
-6
.00
%
-5
.50
%
-5
.00
%
-4
.50
%
-4
.00
%
-3
.50
%
-3
.00
%
-2
.50
%
-2
.00
%
-1
.50
%
-1
.00
%
-0
.50
%
0.
00
%
0.
50
%
1.
00
%
1.
50
%
2.
00
%
2.
50
%
3.
00
%
3.
50
%
4.
00
%
4.
50
%
5.
00
%
5.
50
%
6.
00
%
6.
50
%
7.
00
%
20
%
30
%
reinaldo@ele.puc-rio.br 78
Análise dos Retornos do
IBOVESPA
Se dividirmos cada uma destas freqüências
por 2501 obtemos as freqüências relativas
acumuladas – veremos mais tarde que isso
é uma aproximação para a função de
distribuição acumulada.
Veja o próximo gráfico.
reinaldo@ele.puc-rio.br 79
Análise dos Retornos do
IBOVESPA
Frequüências Relativas Acumuladas - Retornos Diários
0%
5%
10%
15%
20%
25%
30%
35%
40%
45%
50%
55%
60%
65%
70%
75%
80%
85%
90%
95%
100%
-1
5.0
0%
-7
.00
%
-6
.50
%
-6
.00
%
-5
.50
%
-5
.00
%
-4
.50
%
-4
.00
%
-3
.50
%
-3
.00
%
-2
.50
%
-2
.00
%
-1
.50
%
-1
.00
%
-0
.50
%
0.
00
%
0.
50
%
1.
00
%
1.
50
%
2.
00
%
2.
50
%
3.
00
%
3.
50
%
4.
00
%
4.
50
%
5.
00
%
5.
50
%
6.
00
%
6.
50
%
7.
00
%
20
%
30
%
reinaldo@ele.puc-rio.br 80
Assimetria
O coeficiente de assimetria amostral é
definido como:
2/3
1
2
1
3
2/3
1
2
1
3
3
1
1
n
i
i
n
i
i
n
i
i
n
i
i
XX
XXn
XX
n
XX
n
Se o coeficiente é zero, seus dados são simétricos em torno da
média.
Se o coeficiente é positivo (assimetria positiva), existem
valores “grandes” maiores que a média => existe uma cauda
comprida para a direita.
reinaldo@ele.puc-rio.br 81
Assimetria
Na curva A acima a
assimetria é positiva,
a curva B é simétrica
e a curva C tem
assimetria negativa.
Em geral, se a
assimetria é positiva, a
média é MAIOR que a
mediana.
O oposto ocorre se a
assimetria é negativa (em
geral média MENOR que a
mediana).
reinaldo@ele.puc-rio.br 82
Assimetria
Dados com assimetria
positiva
Dados simétricos
reinaldo@ele.puc-rio.br 83
Curtose
É uma medida do “achatamento” de uma
distribuição de probabilidade.
Como a distribuição Normal tem curtose
igual a 3, usualmente define-se: “excesso
de curtose”, ou seja, o quanto uma
distribuição de probabilidade tem mais
curtose que a Normal e “falta de curtose”,
quanto uma distribuição de probabilidade
tem menos curtose que a Normal.
reinaldo@ele.puc-rio.br 84
Curtose
Distribuições de retornos de ativos
financeiros geralmente tem a “cara” de
uma Normal, mas com excesso de
curtose!
Ao lado, a curva B
(mesocurtica) é a Normal
padrão, a curva C (platicurtica)
tem excesso de curtose e
curva A (leptocurtica) tem falta
de curtose.
reinaldo@ele.puc-rio.br 85
Curtose
A fórmula do excesso de curtose é:
Note que, se os seus dados são Normais, esta
medida é próxima de zero.
o Se k4 for igual a zero a curva é mesocurtica.
o Se k4 for maior que zero a curva é platicurtica.
o Se k4 for menor que zero a curva é leptocurtica.
4
1
4 2
2
1
3
n
i
i
n
i
i
n X X
X X
reinaldo@ele.puc-rio.br
86
Exercício1 (para casa)
Tomou-se uma amostra de 60 estudantes que fizeram uma
prova, e, a estatística descritiva, diagrama de frequência e
gráfico das notas da prova estão a seguir:
ESTATÍSTICA DESCRITIVA
Média 5,4
Erro padrão 0,3
Mediana 5,6
Moda 3,8
Desvio padrão 2,6
Variância da amostra 7,0
Curtose -1,2
Assimetria -0,1
Intervalo 8,4
Mínimo 1,2
Máximo 9,6
Soma 325,7
Contagem 60,0
Bloco Freqüência
Frequência relativa
acumulada
≤ 1,2 1 1,67%
(1,2 - 2,4] 11 20,00%
(2,4 - 3,6] 4 26,67%
(3,6 - 4,8] 9 41,67%
(4,8 - 6,0] 10 58,33%
(6,0 - 7,2] 8 71,67%
(7,2 - 8,4] 5 80,00%
> 8,4 12 100,00%
reinaldo@ele.puc-rio.br
87
Exercício1 (para casa)
Histograma
reinaldo@ele.puc-rio.br
88
Exercício1 (para casa)
Pergunta-se:
a) 80 % dos alunos, tiraram notas menores ou igual a
8,4.
V ( ) ou F ( ).
b) 60 % das notas dos alunos estão entre 1,2 e 8,4.
V ( ) ou F ( ).
c) Os valores da média e mediana permitem dizer que a
distribuição é simétrica.
V ( ) ou F ( ).
d) Podemos dizer que 20% dos alunos tiraram notas
menores ou igual a 2,4.
V ( ) ou F ( ).
reinaldo@ele.puc-rio.br
89
Exercício1 (para casa)
e)
A assimetria negativa indica que existem mais notas
altas e menos notas baixas.
V ( ) ou F ( ).
f) Podemos dizer que a nota 5,4 é a que mais vezes
acontece.
V ( ) ou F ( ).
g) O coeficiente de Variação conforme a estatística
descritiva é igual a 1,296.
V ( ) ou F ( ).
h) Construa o diagrama de Pareto desta amostra,
montando em blocos onforme o diagrama de
frequência dado (esboce o gráfico).
reinaldo@ele.puc-rio.br
90
Exercício1 (para casa)
i)- Na tabela abaixo, temos o diagrama de frequência de uma
amostra de 50 elementos onde: os intervalos [Li-1-L1) são
iguais; : é o ponto médio de cada classe (intervalo); fi:
frequência absoluta simples; Fi: frequência cumulada.
- Preencher os espaços vazios do diagrama de frequência.
[Li-1-L1) fi Fi xifi
[160 – 180) 850
190
27 2730
9
-260) 1500
50
ix
ix