Esta é uma pré-visualização de arquivo. Entre para ver o arquivo original
reinaldo@ele.puc-rio.br ing.jdhernandes@gmail.com street@ele.puc-rioi.br jjampinho@gmail.com roxanajc@ele.puc-rio.br 1 PROBEST Aula 1 Reinaldo Castro Souza, PhD Alexandre Street Roxana C. Contreras José Daniel Hernández Vásquez, Monitor José Aguinaldo M.Pinho, Auxiliar 2013.2 reinaldo@ele.puc-rio.br 2 Nota – Instalação das Ferramentas de Análise do Excel Muitas das técnicas descritas aqui requerem a prévia instalação do suplemento (“add-in”) “Ferramentas de Análise” do Excel. O procedimento de instalação é descrito a seguir: No menu Ferramentas, selecione “Suplementos” e na caixa de diálogo que será aberta marque a opção “Ferramentas de análise”. Se esta opção não estiver presente, clique “procurar” para encontrar o arquivo correspondente (em geral chamado Analys32.xll) ou rode novamente o “set-up” do MS-Office. reinaldo@ele.puc-rio.br 3 Aula 1 Estatística Descritiva Definições básicas – Introdução à Probabilidade Probabilidade Espaço amostral Eventos Propriedades das probabilidades Probabilidade Condicional Independência Teorema de Bayes reinaldo@ele.puc-rio.br 4 Estatística Descritiva reinaldo@ele.puc-rio.br 5 Prá que serve estatística? Porque nos permite entender e lidar com a idéia de variabilidade. Um exemplo típico é: Produção de parafusos. Uma fábrica produz parafusos, que devem ter diâmetros dentro de certas especificações. Ao medirmos os diâmetros de 100 parafusos produzidos, selecionados ao acaso, existirão variações individuais. Estas variações são importantes? Até que ponto as variações observadas são aceitáveis? reinaldo@ele.puc-rio.br 6 Estatística Em geral um número em Estatística não é apenas um número! A ele associamos uma medida de incerteza ou variabilidade. População e Amostra População = coleção de todos os elementos cujas características desejamos conhecer. Os elementos (ou "indivíduos") na população não são necessariamente pessoas! Amostra = subconjunto da população cujas características serão medidas. A amostra será usada para descobrir características da população. reinaldo@ele.puc-rio.br 7 Exemplos 1) População = eleitores na cidade do Rio de Janeiro Amostra = 650 eleitores escolhidos aleatoriamente (ao acaso) Característica de interesse: percentual de eleitores que planejam votar num candidato X nas próximas eleições. 2) População = automóveis produzidos no Brasil entre 1997 e 2002 Amostra = 10000 carros escolhidos aleatoriamente dentre os sujeitos a “recall” das montadoras Característica de interesse: verificar se o proprietário do carro respondeu ao chamado de “recall” da fábrica reinaldo@ele.puc-rio.br 8 Exemplos 3) População = todos os domicílios com TV na cidade do Rio de Janeiro Amostra = 1000 domicílios com TV escolhidos ao acaso Característica de interesse = percentual de audiência de cada emissora de TV num certo dia da semana no horário de 18 às 22 horas. Em resumo: A partir de uma amostra coletamos informações que nos permitem aprender alguma coisa interessante sobre a população. reinaldo@ele.puc-rio.br 9 Por que fazer isso? É economicamente eficiente! Os custos são infinitamente mais baixos que os de amostrar a população inteira (“censo”). Pode-se provar que, para populações muito grandes, uma amostra de cerca de 600 ou 1000 "indivíduos" fornece resultados bastante confiáveis sobre as características da população. reinaldo@ele.puc-rio.br 10 E agora? Você coletou uma amostra e, dentro desta amostra você coletou dados numéricos (por exemplo, o consumo médio mensal em kWh dos domicílios numa certa área da cidade). O que fazer com isso? Existem 2 possibilidades: Você pode simplesmente descrever estes dados numéricos através de gráficos e tabelas. Isto é chamado de estatística descritiva. A maioria das pesquisas de mercado faz só isso, que é sem dúvida, muito importante. reinaldo@ele.puc-rio.br 11 E agora? Você pode tentar tirar conclusões sobre as características da população a partir dos dados observados na amostra. Isso se chama estatística inferencial (ou simplesmente estatística!). Para que a gente consiga fazer isso, é necessário ter uma noção bastante abrangente de Probabilidades. reinaldo@ele.puc-rio.br 12 E agora? Na verdade, a estatística descritiva surgiu muito antes da estatística inferencial. Esta última depende da especificação de modelos matemáticos baseados numa noção fundamental, que é a de "probabilidade". reinaldo@ele.puc-rio.br 13 Estatística descritiva Gráficos ("A picture is worth one thousand words") Histograma Diagramas de Pareto Gráficos de dispersão, gráficos da variável ao longo do tempo, gráficos de barras, etc... Medidas Numéricas Média amostral Mediana amostral Desvio padrão amostral Variância amostral Assimetria e Curtose amostrais Percentis Covariância, Correlação amostrais reinaldo@ele.puc-rio.br 14 Alguns gráficos da evolução de variáveis ao longo do tempo reinaldo@ele.puc-rio.br 15 Consumo Total Energia Elétrica Jan/1979 a Ago/2006 Consumo de Energia Elétrica - Total Brasil (GWh) - Fonte: Eletrobrás 7,000 12,000 17,000 22,000 27,000 32,000 jan /79 jan /80 jan /81 jan /82 jan /83 jan /84 jan /85 jan /86 jan /87 jan /88 jan /89 jan /90 jan /91 jan /92 jan /93 jan /94 jan /95 jan /96 jan /97 jan /98 jan /99 jan /00 jan /01 jan /02 jan /03 jan /04 jan /05 jan /06 monica@ele.puc-rio.br 16 EXEMPLO: Preços de Petróleo Brent e WTI – dados diários – 02/01/1991 a 03/11/2006 Preços de Petróleo (US$/Barril) - Janeiro de 2000 a Novembro de 2006 16 20 24 28 32 36 40 44 48 52 56 60 64 68 72 76 80 84 4/ 1/ 20 00 4/ 3/ 20 00 3/ 5/ 20 00 2/ 7/ 20 00 31 /8 /2 00 0 30 /1 0/ 20 00 29 /1 2/ 20 00 27 /2 /2 00 1 28 /4 /2 00 1 27 /6 /2 00 1 26 /8 /2 00 1 25 /1 0/ 20 01 24 /1 2/ 20 01 22 /2 /2 00 2 23 /4 /2 00 2 22 /6 /2 00 2 21 /8 /2 00 2 20 /1 0/ 20 02 19 /1 2/ 20 02 17 /2 /2 00 3 18 /4 /2 00 3 17 /6 /2 00 3 16 /8 /2 00 3 15 /1 0/ 20 03 14 /1 2/ 20 03 12 /2 /2 00 4 12 /4 /2 00 4 11 /6 /2 00 4 10 /8 /2 00 4 9/ 10 /2 00 4 8/ 12 /2 00 4 6/ 2/ 20 05 7/ 4/ 20 05 6/ 6/ 20 05 5/ 8/ 20 05 4/ 10 /2 00 5 3/ 12 /2 00 5 1/ 2/ 20 06 2/ 4/ 20 06 1/ 6/ 20 06 31 /7 /2 00 6 29 /9 /2 00 6 Petróleo WTI Petróleo Brent monica@ele.puc-rio.br 17 EXEMPLO: IPC-FIPE reinaldo@ele.puc-rio.br 18 EXEMPLO: IPC-FIPE No gráfico anterior exibimos o IPC-FIPE (o Índice de Preços ao Consumidor da FIPE, um dos mais importantes índices de inflação com suas estimativas quadrissemanais) no período entre 01/1995 e 10/2006. As prévias quadrissemanais servem como indicadores da inflação do próximo mês medida pelo IPC-FIPE. No próximo gráfico exibimos os valores (01/2002 a 10/2006) do IPC-FIPE. reinaldo@ele.puc-rio.br 19 IPC-FIPE - Janeiro de 2002 a 10/2006 Inflação FIPE (% a.m)- 01/2002 a 10/2006 -0.5 0.0 0.5 1.0 1.5 2.0 2.5 3.0 jan /02 ab r/0 2 jul /02 ou t/0 2 jan /03 ab r/0 3 jul /03 ou t/0 3 jan /04 ab r/0 4 jul /04 ou t/0 4 jan /05 ab r/0 5 jul /05 ou t/0 5 jan /06 ab r/0 6 jul /06 ou t/0 6 INFLAÇÃO - IPC - FIPE (% a.m.) reinaldo@ele.puc-rio.br 20 IBOVESPA Diário – Julho de 1994 a a 06/08/2004 reinaldo@ele.puc-rio.br 21 IBOVESPA Diário – Julho de 1994 a a 06/08/2004 Parece que a bolsa subiu muito durante quase todo o Plano Real. Será que isso é mesmo verdade? Veja o próximo gráfico, em que comparamos o IBOVESPA em R$ e US$. reinaldo@ele.puc-rio.br 22 IBOVESPA Diário – Julho de 1994 a a 06/08/2004 IBOVESPA em Pontos em Reais e Dólares 2000.00 5000.00 8000.00 11000.00 14000.00 17000.00 20000.00 23000.00 26000.00 04 /0 7/ 19 94 08 /1 1/ 19 94 17 /0 3/ 19 95 25 /0 7/ 19 95 29 /1 1/ 19 95 11 /0 4/ 19 96 14 /0 8/ 19 96 17 /1 2/ 19 96 30 /0 4/ 19 97 03 /0 9/ 19 97 08 /0 1/ 19 98 19 /0 5/ 19 98 22 /0 9/ 19 98 01 /0 2/ 19 99 10 /0 6/ 19 99 14 /1 0/ 19 99 21 /0 2/ 20 00 28 /0 6/ 20 00 31 /1 0/ 20 00 13 /0 3/ 20 01 18 /0 7/ 20 01 22 /1 1/ 20 01 04 /0 4/ 20 02 08 /0 8/ 20 02 10 /1 2/ 20 02 17 /0 4/ 20 03 25 /0 8/ 20 03 26 /1 2/ 20 03 05 /0 5/ 20 04 IBOVESPA em Dólares IBOVESPA em R$ reinaldo@ele.puc-rio.br 23 Gráfico de Dispersão (uma variável versus outra) reinaldo@ele.puc-rio.br 24 Exemplo - IBOVESPA e Dólar Ibovespa versus Dólar PTAX -10/12/2002 a 12/06/2003 y = -3830.7x + 24366 R 2 = 0.8954 9,000 9,500 10,000 10,500 11,000 11,500 12,000 12,500 13,000 13,500 14,000 14,500 2.80 2.90 3.00 3.10 3.20 3.30 3.40 3.50 3.60 3.70 3.80 3.90 Neste período parece fazer sentido ajustar uma reta e poderíamos estipular um modelo que pudesse prever o IBOVESPA em função da taxa de câmbio reinaldo@ele.puc-rio.br 25 Exemplo - IBOVESPA e Dólar – incorporação de novos dados Ibovespa versus Dólar PTAX -10/12/2002 a 02/03/2004 y = -10612x + 48010 R 2 = 0.4532 8,000 10,000 12,000 14,000 16,000 18,000 20,000 22,000 24,000 26,000 2.80 2.90 3.00 3.10 3.20 3.30 3.40 3.50 3.60 3.70 3.80 3.90 Claramente, um modelo linear não é mais apropriado quando levamos em consideração os novos dados (entre junho de 2003 e março de 2004) - OU SEJA: O MODELO MUDOU! reinaldo@ele.puc-rio.br 26 Exemplo - IBOVESPA e Dólar – incorporação de novos dados Por que o modelo anterior não funciona? No período entre junho de 2003 e março de 2004 o dólar permaneceu praticamente estável, enquanto o índice Bovespa subiu consideravelmente, como podemos verificar no próximo gráfico. reinaldo@ele.puc-rio.br 27 Exemplo - IBOVESPA e Dólar – incorporação de novos dados IBOVESPA - 10/12/2002 a 02/03/2004 9,000 11,000 13,000 15,000 17,000 19,000 21,000 23,000 25,000 10 /1 2/0 2 25 /1 2/0 2 09 /0 1/0 3 24 /0 1/0 3 08 /0 2/0 3 23 /0 2/0 3 10 /0 3/0 3 25 /0 3/0 3 09 /0 4/0 3 24 /0 4/0 3 09 /0 5/0 3 24 /0 5/0 3 08 /0 6/0 3 23 /0 6/0 3 08 /0 7/0 3 23 /0 7/0 3 07 /0 8/0 3 22 /0 8/0 3 06 /0 9/0 3 21 /0 9/0 3 06 /1 0/0 3 21 /1 0/0 3 05 /1 1/0 3 20 /1 1/0 3 05 /1 2/0 3 20 /1 2/0 3 04 /0 1/0 4 19 /0 1/0 4 03 /0 2/0 4 18 /0 2/0 4 Junho de 2003 reinaldo@ele.puc-rio.br 28 Exemplo - temperaturas Dados:Temperatura máxima mensal (média das máximas diárias) na estação de Santa Cruz (Rio de Janeiro) entre Jan/1982 e Dez/1991. O que fazer com todos estes 120 números? A coisa mais sensata é fazer um gráfico da temperatura versus o índice de tempo (mês e ano). Este gráfico vai revelar o óbvio, isto é, que as temperaturas no verão são mais altas que no inverno! reinaldo@ele.puc-rio.br 29 Exemplo - temperaturas Além disso, a gente vai perceber que existe um comportamento sazonal nos dados, ou seja, dentro de cada ano a evolução da temperatura se repete mais ou menos da mesma maneira. O gráfico também nos dá uma idéia do quanto a temperatura está variando em todo o período. Por exemplo, pode-se verificar que a temperatura máxima nestes 10 anos está sempre acima de 22 graus. reinaldo@ele.puc-rio.br 30 Exemplo - temperaturas Temperaturas Máximas - 1982 a 1991 23 25 27 29 31 33 35 37 ja n/ 82 m ai /8 2 se t/8 2 ja n/ 83 m ai /8 3 se t/8 3 ja n/ 84 m ai /8 4 se t/8 4 ja n/ 85 m ai /8 5 se t/8 5 ja n/ 86 m ai /8 6 se t/8 6 ja n/ 87 m ai /8 7 se t/8 7 ja n/ 88 m ai /8 8 se t/8 8 ja n/ 89 m ai /8 9 se t/8 9 ja n/ 90 m ai /9 0 se t/9 0 ja n/ 91 m ai /9 1 se t/9 1 reinaldo@ele.puc-rio.br 31 Exemplo - temperaturas O gráfico é muito útil, mas certamente não “conta” toda a informação .... Por exemplo, qual será a temperatura média de todos os meses? Dentre os 120 meses, em quantos a temperatura média esteve entre 28 e 33 graus? Qual o percentual de temperaturas entre 22 e 25 graus? Tomando-se os 120 pontos, quais os valores de temperatura tais que 90% dos meses têm temperaturas entre estes dois valores? reinaldo@ele.puc-rio.br 32 Exemplo - temperaturas Podemos pensar nestas, e numa infinidade de outras questões. O fato é que um simples gráfico da temperatura versus o tempo não fornece as respostas de maneira prática. O primeiro passo é fazer a distribuição de freqüência dos seus dados. Isto é simplesmente uma medida mais compacta de representação dos dados. Você divide as temperaturas em intervalos (chamados intervalos de classe) e conta quantas observações caem em cada intervalo. reinaldo@ele.puc-rio.br 33 Exemplo - temperaturas A escolha do número de intervalos é arbitrária. O importante é garantir que o número de classes não seja nem muito grande nem muito pequeno. Se o número de classes for muito pequeno, fica difícil verificar as diferenças entre as classes. Ao contrário, se o número de classes for muito grande, existirão muito poucas observações em cada classe. O primeiro passo é ordenar os dados pois facilita a colocação dos dados em cada classe. reinaldo@ele.puc-rio.br 34 Exemplo - temperaturas Escolha do número de classes num diagrama de frequência Seja n o número de intervalos num diagrama de frequência. Recomenda-se escolher n entre 5 e 20. Quanto maior o número de observações, maior o número de intervalos. Geralmente usa-se n igual à raiz quadrada do número total de observações, que neste caso seria aproximadamente 11. Para facilitar a visualização em geral usamos intervalos com o mesmo comprimento. Muitas vezes o primeiro intervalo é descrito como "abaixo de um certo valor" e o último como "acima de um certo valor". reinaldo@ele.puc-rio.br 35 Exemplo - temperaturas Neste exemplo usamos n = 7, por uma questão puramente prática, pois este número nos permite encontrar intervalos de classe de comprimento 1.9 em todas as classes, exceto a primeira, e todas as classes terminam com uma temperatura que é um número inteiro e par. A primeira classe vai de 24 a 26 graus, a segunda vai de 26.1 a 28 graus e assim sucessivamente. O diagrama de freqüências encontrado está a seguir. reinaldo@ele.puc-rio.br 36 Exemplo - temperaturas Classe Frequência Frequência Relativa Frequência Relativa Acumulada 24-26 graus 7 7/120 = 5.83 % 5.83% 26.1- 28 graus 31 31/120 = 25.83 % 31.66% 28.1-30 graus 26 26/120 = 21.67 % 53.33% 30.1-32 graus 26 26/120 = 21.67 % 75.00% 32.1-34 graus 25 25/120 = 20.83 % 95.83% 34.1-36 graus 3 3/120 = 2.50 % 98.33% 36.1-38 graus 2 2/120 = 1.67 % 100% Totais 120 100% reinaldo@ele.puc-rio.br 37 Exemplo – temperaturas O diagrama de frequências já nos permite responder a diversas outras questões. Por exemplo, a grande maioria (69.17%) das temperaturas máximas está entre 26.1 e 32 graus. Também percebemos que temperaturas máximas acima de 34.1 graus são incomuns (apenas 5 dentre as 120). Veja que outras conclusões você consegue obter a partir deste diagrama. reinaldo@ele.puc-rio.br 38 Exemplo - temperaturas A partir de um diagrama de frequências podemos facilmente construir um histograma. Histograma: Gráfico de barras, onde o eixo vertical contém as frequências (ou freqüências relativas) e o eixo horizontal contém os intervalos de classes. Muitas vezes faz-se a área de cada barra igual à freqüência relativa de cada classe, de tal forma que a área total sob o histograma é 1 (100%). reinaldo@ele.puc-rio.br 39 Histograma – produção no Excel É automática, mas você precisa ter instalado antes o suplemento (“add-in”) de ferramentas de análise de dados. Aliás, este suplemento será muito útil para nós, portanto instale-o. reinaldo@ele.puc-rio.br 40 Histograma – produção no Excel reinaldo@ele.puc-rio.br 41 Histograma – produção no Excel Células contendo os dados Células contendo os limites dos intervalos (não precisam ser especificados) – mas geralmente quando não os especificamos o Excel gera uns limites meio “feios” reinaldo@ele.puc-rio.br 42 Histograma – implementação no Excel em Português reinaldo@ele.puc-rio.br 43 Histograma – produção no Excel Histograma 0 5 10 15 20 25 30 35 24 26 28 30 32 34 36 38 acima de 38 Intervalo Fr eq üê nc ia Note que este histograma usa intervalos diferentes dos especificados na tabela de freqüência mostrada anteriormente reinaldo@ele.puc-rio.br 44 Histograma – Retorno diário do preço do petróleo WTI – 01/1991 a 08/2006 Histograma - Log Retornos Petróleo WTI - 1991 a 2006 0 100 200 300 400 500 600 700 800 -1 3.1 % -1 2.2 % -1 1.3 % -1 0.4 % -9 .5% -8 .6% -7 .7% -6 .8% -6 .0% -5 .1% -4 .2% -3 .3% -2 .4% -1 .5% -0 .6% 0. 3% 1. 2% 2. 0% 2. 9% 3. 8% 4. 7% 5. 6% 6. 5% 7. 4% 8. 3% 9. 2% 10 .0 % 10 .9 % 11 .8 % 12 .7 % 13 .6 % 14 .5 % M or e Bin Fr eq ue nc y A grande maioria dos retornos diários (variações diárias) nesta faixa, mas também variações extremas reinaldo@ele.puc-rio.br 45 Exemplo: Produção da energia eólica mensal (Icaraizinho - NE). 0.0 10.0 20.0 30.0 40.0 50.0 60.0 70.0 80.0 Jan -81 Ma r-82 Ma y-8 3 Jul- 84 Sep -85 Nov -86 Jan -88 Ma r-89 Ma y-9 0 Jul- 91 Sep -92 Nov -93 Jan -95 Ma r-96 Ma y-9 7 Jul- 98 Sep -99 Nov -00 Jan -02 Ma r-03 Ma y-0 4 Jul- 05 Sep -06 Nov -07 Jan -09 Ma r-10 Ma y-1 1 Jul- 12 Pro duç ão (% pot ênc ia m áxi ma ) reinaldo@ele.puc-rio.br 46 Hitograma Produção da energia eólica mensal (Icaraizinho - NE). 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% 0% 1% 2% 3% 4% 5% 6% 7% 8% 9% 10% Fre q. Re lat iva Ac um ula da Fre qü ên cia Re lat iva (% nú m. ob s) Bloco (Produção de energia mensal em % Potência máxima) Histograma e Frequência Acumulada (Relativa) reinaldo@ele.puc-rio.br 47 Diagrama de Pareto Como fazer um diagrama de Pareto? 1) Faça um gráfico de barras colocando a freqüência de cada tipo de evento no eixo vertical, e arranjando os eventos em ordem decrescente de ocorrência. Assim, a primeira barra corresponde ao evento que ocorre com mais freqüência, a segunda barra diz respeito ao segundo evento mais freqüente, e assim por diante. 2) Crie um eixo vertical no lado direito do seu gráfico contendo as freqüências relativas acumuladas. Faça uma linha juntando as frequências relativas acumuladas e a superponha ao gráfico de barras. reinaldo@ele.puc-rio.br 48 Exemplo – Consumo Residencial Os dados a seguir representam a distribuição de domicílios residenciais por classe de consumo de energia elétrica na área de concessão de uma certa distribuidora de energia. Os dados referem-se a uma pesquisa realizada em 2012 com uma amostra de 2100 domicílios. Consumidores Residenciais Faixas de consumo número de domicílios frequência relativa < 80 kWh 170 (170/2100)x100 = 8,1% 80 - 150 kWh 467 (467/2100)x100 = 22,24% 151 - 220 kWh 445 21,19% 221 - 400 kWh 582 27,71% >400 kWh 436 20,76% Total 2100 reinaldo@ele.puc-rio.br 49 Exemplo – Consumo Residencial O diagrama de Pareto para estes dados é: 0 100 200 300 400 500 600 221 - 400 kWh 80 - 150 kWh 151 - 220 kWh >400 kWh < 80 kWh N ú m e ro d e d o m ic íl io s Faixa de consumo Diagrama de Pareto reinaldo@ele.puc-rio.br 50 Medidas Numéricas A partir de agora suponha que os dados observados na amostra são x1, x2, ..., xn . n é o tamanho da amostra. A partir dos x's vamos encontrar números que resumem as características da amostra. Vamos estar interessados em dois tipos principais de medidas numéricas: as que caracterizam a localização do centro da amostra e as que caracterizam a dispersão dos dados. reinaldo@ele.puc-rio.br 51 Medidas Numéricas Medidas de Localização ou de tendência central dizem onde está o "meio" dos seus dados exemplo: média e mediana amostrais Medidas de Dispersão dizem o quanto os seus dados estão “espalhados” exemplo: desvio padrão e variância amostrais, amplitude amostral reinaldo@ele.puc-rio.br 52 Medidas de Tendência Central Média Amostral No Excel: função Média (....) Considere agora a amostra x1, x2, ..., xn e suponha que você a ordene, de tal forma que x(1) seja o menor elemento da amostra, x(2) seja o segundo menor elemento, ...., x(n) seja o maior elemento da amostra. Os valores x(1), x(2), ..., x(n) são chamados de estatísticas de ordem da amostra. Outras medidas de tendência central e de dispersão serão definidas a partir das estatísticas de ordem. n i iX n X 1 1 0.0 10.0 20.0 30.0 40.0 50.0 60.0 70.0 80.0 Jan -81 Ma r-82 Ma y-8 3 Jul- 84 Sep -85 Nov -86 Jan -88 Ma r-89 Ma y-9 0 Jul- 91 Sep -92 Nov -93 Jan -95 Ma r-96 Ma y-9 7 Jul- 98 Sep -99 Nov -00 Jan -02 Ma r-03 Ma y-0 4 Jul- 05 Sep -06 Nov -07 Jan -09 Ma r-10 Ma y-1 1 Jul- 12 Pro duç ão (% pot ênc ia m áxi ma ) reinaldo@ele.puc-rio.br 53 Medidas de Tendência Central Média Amostral: Produção da energia eólica mensal (Icaraizinho - NE). 37.5% reinaldo@ele.puc-rio.br 54 Medidas de Tendência Central Média Amostral Condicional: Produção da energia eólica mensal (Icaraizinho - NE). 0% 10% 20% 30% 40% 50% 60% 70% 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 Pr od uç ão M éd ia (% Po t) Anos do Histórico Aug Média Aug Feb Média Feb 56% 22% reinaldo@ele.puc-rio.br 55 Medidas de Tendência Central Mediana É definida a partir das estatísticas de ordem. Por exemplo, se existem 10 observações na amostra, a mediana equivale à média entre x(5) e x(6) . Se a amostra contém 11 elementos, a mediana é x(5) . A mediana amostral é menos influenciada que a média por observações aberrantes (“outliers”). No Excel é a função med(...) 1 2 2 1 2 se n, o tamanho da amostra, é par 2 ou se n, o tamanho da amostra, é ímpar n n n X X m X reinaldo@ele.puc-rio.br 56 Medidas de Tendência Central Por exemplo, se os seus dados são 1,2,3,4,5, a média amostral é: (1+2+3+4+5)/5 = 3 e a mediana amostral tem o mesmo valor. Se agora os dados são: 1,2,3,4,45, a média amostral é: (1+2+3+4+45)/5 = 11, mas a mediana amostral continua sendo 3. Logo, a média amostral foi profundamente influenciada por um único valor, e o mesmo não aconteceu com a mediana amostral. reinaldo@ele.puc-rio.br 57 Medidas de Dispersão As medidas de tendência central não são as únicas medidas necessárias para caracterizar uma amostra (ou população). Precisamos também saber o quanto as observações na amostra estão " espalhadas". Por exemplo, no gráfico a seguir as populações têm a mesma média, mas certamente a segunda distribuição tem maior dispersão. 0% 10% 20% 30% 40% 50% 60% 70% 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 Pr od uç ão M éd ia (% Po t) Anos do Histórico Aug Feb reinaldo@ele.puc-rio.br 58 Medidas de Dispersão: Produção da energia eólica mensal (Icaraizinho - NE). Tem maior dispersão: é mais “espalhada” em torno da média reinaldo@ele.puc-rio.br 59 Medidas de Dispersão Variância Amostral É a medida mais comum de dispersão . A variância amostral, denotada por s2 é definida como: Onde é a média amostral. Note que, por definição, a variância amostral é sempre não negativa!!! A unidade de medida da variância é o quadrado da unidade de medida das observações, o que dificulta a sua interpretação. n i i XX n s 1 22 1 1 X reinaldo@ele.puc-rio.br 60 Medidas de Dispersão Desvio Padrão Amostral O desvio padrão amostral, denotado por s, é definido como a raiz quadrada positiva da variância amostral. Pelos comentários anteriores, notamos que s é expresso nas mesmas unidades de medida que as observações na amostra. s s n X Xi i n 2 2 1 1 1 reinaldo@ele.puc-rio.br 61 Medidas de Dispersão: Produção da energia eólica mensal (Icaraizinho - NE). 0% 10% 20% 30% 40% 50% 60% 70% 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 Pro du ção M éd ia ( % P ot) Anos do Histórico Aug Méd+Desv Aug Média Aug Méd-Desv Aug Feb Méd+Desv Feb Média Feb Méd-Desv Feb 4.9% 8.3% reinaldo@ele.puc-rio.br 62 Medidas de Dispersão Coeficiente de variação amostral É uma medida adimensional, e serve principalmente para comparar duas amostras que foram coletadas em unidades de medida diferentes, por exemplo, uma em cm e outra em polegadas. Amplitude Amostral X s CV mínmáxXXA n )1()( reinaldo@ele.puc-rio.br 63 Como obter estatísticas descritivas no Excel? Opção 1 Use as funções apropriadas, por exemplo, média(..), med(...), máximo(...), mínimo(...), desvpad(...), ... Opção 2 Use a ferramenta “estatística descritiva” dentro das opções de “análise de dados”, como indicado na tela a seguir. Várias outras estatísticas, como a curtose (que mede o “peso” das “caudas”(extremos) e a assimetria, são também fornecidas). reinaldo@ele.puc-rio.br 64 Como obter estatísticas descritivas no Excel? reinaldo@ele.puc-rio.br 65 Como obter estatísticas descritivas no Excel? Células contendo os dados Indicador de nome da variável na 1a. posição da coluna ou linha Produzir estatísticas descritivas reinaldo@ele.puc-rio.br 66 Percentis O percentil x% é o ponto tal que, a probabilidade de estar abaixo dele é x%. O percentil 50% é a MEDIANA de um conjunto de dados, e qualquer percentil entre 0 e 100% pode ser encontrado através da função PERCENTIL do Excel. reinaldo@ele.puc-rio.br 67 Percentis: no MS Excel Ordenar o conjunto de dados: {x(i)}i=1,...,n O percentil de P%, por exemplo, 40% de um conjunto de dados ordenado {15, 20, 35, 40, 50} é calculado da seguinte forma: x = (n+1)P/100 = 2.4 k = inteiro[x] = 2 f = fracionário[x] = 0.4 Percentil(P%) = x(k)+f(x(k+1)-x(k)) = 20 + 0.4x15 = 26 reinaldo@ele.puc-rio.br 68 Quartis Primeiro Quartil: Q1 – é o percentil 25%, ou seja, 25% das observações estão abaixo de Q1 Segundo Quartil: Q2 - é a mediana Terceiro Quartil: Q3 – é o percentil 75% reinaldo@ele.puc-rio.br 69 Estatísticas Descritivas – Retorno do Petróleo WTI – 01/1991 a 08/2006 reinaldo@ele.puc-rio.br 70 Percentis – Retorno do Petróleo WTI – 01/1991 a 08/2006 5% -3.53% 10% -2.53% 25% -1.17% 50% 0.07% 75% 1.28% 90% 2.51% 95% 3.45% Percentis 5% dos retornos abaixo de -3.53% 90% dos retornos abaixo de +2.51% reinaldo@ele.puc-rio.br 71 Percentil: Produção da energia eólica mensal (Icaraizinho - NE). Percentil = 50% 45% 40% 35% 30% 25% 20% 15% 10% 5% Jan 24.9 24.5 23.6 22.3 20.9 20.1 19.1 17.7 16.4 13.8 Feb 18.8 18.5 18.2 17.2 16.7 16.0 15.5 14.4 12.1 11.0 Mar 15.7 14.5 13.7 13.3 12.4 10.5 10.2 9.9 9.5 9.0 Apr 17.5 16.0 14.3 12.0 11.6 10.6 9.8 9.3 9.2 8.0 May 24.1 21.8 18.9 17.7 16.5 15.6 14.6 12.5 11.4 10.9 Jun 30.6 29.4 27.6 27.2 26.9 26.2 25.3 23.5 23.2 21.2 Jul 37.7 37.2 36.8 36.6 36.4 35.9 33.7 30.7 27.7 26.5 Aug 54.6 54.4 53.7 53.4 52.6 51.9 50.6 50.3 49.7 47.7 Sep 62.1 61.9 61.0 60.4 60.1 58.3 56.3 54.3 51.2 49.7 Oct 58.3 57.9 56.3 56.0 55.3 54.3 51.3 50.6 48.7 46.2 Nov 52.3 51.9 51.5 50.4 49.7 48.4 47.5 45.4 44.6 41.0 Dec 39.9 39.5 38.7 37.4 35.2 31.9 31.5 28.0 27.0 21.4 Média 36.4 35.6 34.5 33.7 32.8 31.6 30.4 28.9 27.6 25.5 50% 45% 40% 35% 30% 25% 20% 15% 10% 5% Todos os meses 35.8 32.1 29.1 27.2 24.9 22.4 18.8 17.1 14.4 11.2 reinaldo@ele.puc-rio.br 72 Percentil: Produção da energia eólica mensal (Icaraizinho - NE). 0% 5% 10% 15% 20% 25% 30% 35% 40% 45% 50% 55% 60% 65% 70% 75% 80% 85% 90% 95% 100% - 10.0 20.0 30.0 40.0 50.0 60.0 70.0 80.0 Fre qu ên cia Re lat iva A cu mu lad a Produção de energia (% potência máxima) Feb Aug reinaldo@ele.puc-rio.br 73 Análise dos Retornos do IBOVESPA Considere agora os retornos diários do IBOVESPA no período entre 04 de julho de 1994 e 06/08/2004. Defina o retorno diário entre os dias t e t + 1 como: Onde log denota o logaritmo natural (base e) e Pt e Pt+1 são, respectivamente, os preços nos dias t e t + 1. O retorno definido acima é chamado de retorno geométrico. t t t P P R 11 log reinaldo@ele.puc-rio.br 74 Histograma dos Retornos IBOVESPA Histograma dos retornos diários do IBOVESPA 0 50 100 150 200 250 300 350 400 450 500 -7.00% -6.50% -6.00% -5.50% -5.00% -4.50% -4.00% -3.50% -3.00% -2.50% -2.00% -1.50% -1.00% -0.50% 0.00% 0.50% 1.00% 1.50% 2.00% 2.50% 3.00% 3.50% 4.00% 4.50% 5.00% 5.50% 6.00% 6.50% 7.00% M ais Bloco Fr eq üê nc ia reinaldo@ele.puc-rio.br 75 Percentis dos Retornos Percentil Retorno Correspondente 1.0% -6.75% 5.0% -3.90% 10.0% -2.74% 25.0% -1.24% 50.0% 0.13% 75.0% 1.48% 90.0% 2.69% 95.0% 3.66% 99.0% 6.63% reinaldo@ele.puc-rio.br 76 Análise dos Retornos do IBOVESPA Uso da função “freqüência” Produz a freqüência (número de ocorrências num determinado intervalo). Por exemplo, dentre 2501 retornos diários do IBOVESPA, a referência: FREQÜÊNCIA(E$3:E$2503;G7) significa: Olhe para todos os dados em E$3 a E$2503 (são os retornos diários) e conte QUANTOS estão ABAIXO do valor em G7. O gráfico destas frequências é mostrado na próxima página. reinaldo@ele.puc-rio.br 77 Análise dos Retornos do IBOVESPA Frequüências Acumuladas - Retornos Diários - 500 1,000 1,500 2,000 2,500 3,000 -1 5.0 0% -7 .00 % -6 .50 % -6 .00 % -5 .50 % -5 .00 % -4 .50 % -4 .00 % -3 .50 % -3 .00 % -2 .50 % -2 .00 % -1 .50 % -1 .00 % -0 .50 % 0. 00 % 0. 50 % 1. 00 % 1. 50 % 2. 00 % 2. 50 % 3. 00 % 3. 50 % 4. 00 % 4. 50 % 5. 00 % 5. 50 % 6. 00 % 6. 50 % 7. 00 % 20 % 30 % reinaldo@ele.puc-rio.br 78 Análise dos Retornos do IBOVESPA Se dividirmos cada uma destas freqüências por 2501 obtemos as freqüências relativas acumuladas – veremos mais tarde que isso é uma aproximação para a função de distribuição acumulada. Veja o próximo gráfico. reinaldo@ele.puc-rio.br 79 Análise dos Retornos do IBOVESPA Frequüências Relativas Acumuladas - Retornos Diários 0% 5% 10% 15% 20% 25% 30% 35% 40% 45% 50% 55% 60% 65% 70% 75% 80% 85% 90% 95% 100% -1 5.0 0% -7 .00 % -6 .50 % -6 .00 % -5 .50 % -5 .00 % -4 .50 % -4 .00 % -3 .50 % -3 .00 % -2 .50 % -2 .00 % -1 .50 % -1 .00 % -0 .50 % 0. 00 % 0. 50 % 1. 00 % 1. 50 % 2. 00 % 2. 50 % 3. 00 % 3. 50 % 4. 00 % 4. 50 % 5. 00 % 5. 50 % 6. 00 % 6. 50 % 7. 00 % 20 % 30 % reinaldo@ele.puc-rio.br 80 Assimetria O coeficiente de assimetria amostral é definido como: 2/3 1 2 1 3 2/3 1 2 1 3 3 1 1 n i i n i i n i i n i i XX XXn XX n XX n Se o coeficiente é zero, seus dados são simétricos em torno da média. Se o coeficiente é positivo (assimetria positiva), existem valores “grandes” maiores que a média => existe uma cauda comprida para a direita. reinaldo@ele.puc-rio.br 81 Assimetria Na curva A acima a assimetria é positiva, a curva B é simétrica e a curva C tem assimetria negativa. Em geral, se a assimetria é positiva, a média é MAIOR que a mediana. O oposto ocorre se a assimetria é negativa (em geral média MENOR que a mediana). reinaldo@ele.puc-rio.br 82 Assimetria Dados com assimetria positiva Dados simétricos reinaldo@ele.puc-rio.br 83 Curtose É uma medida do “achatamento” de uma distribuição de probabilidade. Como a distribuição Normal tem curtose igual a 3, usualmente define-se: “excesso de curtose”, ou seja, o quanto uma distribuição de probabilidade tem mais curtose que a Normal e “falta de curtose”, quanto uma distribuição de probabilidade tem menos curtose que a Normal. reinaldo@ele.puc-rio.br 84 Curtose Distribuições de retornos de ativos financeiros geralmente tem a “cara” de uma Normal, mas com excesso de curtose! Ao lado, a curva B (mesocurtica) é a Normal padrão, a curva C (platicurtica) tem excesso de curtose e curva A (leptocurtica) tem falta de curtose. reinaldo@ele.puc-rio.br 85 Curtose A fórmula do excesso de curtose é: Note que, se os seus dados são Normais, esta medida é próxima de zero. o Se k4 for igual a zero a curva é mesocurtica. o Se k4 for maior que zero a curva é platicurtica. o Se k4 for menor que zero a curva é leptocurtica. 4 1 4 2 2 1 3 n i i n i i n X X X X reinaldo@ele.puc-rio.br 86 Exercício1 (para casa) Tomou-se uma amostra de 60 estudantes que fizeram uma prova, e, a estatística descritiva, diagrama de frequência e gráfico das notas da prova estão a seguir: ESTATÍSTICA DESCRITIVA Média 5,4 Erro padrão 0,3 Mediana 5,6 Moda 3,8 Desvio padrão 2,6 Variância da amostra 7,0 Curtose -1,2 Assimetria -0,1 Intervalo 8,4 Mínimo 1,2 Máximo 9,6 Soma 325,7 Contagem 60,0 Bloco Freqüência Frequência relativa acumulada ≤ 1,2 1 1,67% (1,2 - 2,4] 11 20,00% (2,4 - 3,6] 4 26,67% (3,6 - 4,8] 9 41,67% (4,8 - 6,0] 10 58,33% (6,0 - 7,2] 8 71,67% (7,2 - 8,4] 5 80,00% > 8,4 12 100,00% reinaldo@ele.puc-rio.br 87 Exercício1 (para casa) Histograma reinaldo@ele.puc-rio.br 88 Exercício1 (para casa) Pergunta-se: a) 80 % dos alunos, tiraram notas menores ou igual a 8,4. V ( ) ou F ( ). b) 60 % das notas dos alunos estão entre 1,2 e 8,4. V ( ) ou F ( ). c) Os valores da média e mediana permitem dizer que a distribuição é simétrica. V ( ) ou F ( ). d) Podemos dizer que 20% dos alunos tiraram notas menores ou igual a 2,4. V ( ) ou F ( ). reinaldo@ele.puc-rio.br 89 Exercício1 (para casa) e) A assimetria negativa indica que existem mais notas altas e menos notas baixas. V ( ) ou F ( ). f) Podemos dizer que a nota 5,4 é a que mais vezes acontece. V ( ) ou F ( ). g) O coeficiente de Variação conforme a estatística descritiva é igual a 1,296. V ( ) ou F ( ). h) Construa o diagrama de Pareto desta amostra, montando em blocos onforme o diagrama de frequência dado (esboce o gráfico). reinaldo@ele.puc-rio.br 90 Exercício1 (para casa) i)- Na tabela abaixo, temos o diagrama de frequência de uma amostra de 50 elementos onde: os intervalos [Li-1-L1) são iguais; : é o ponto médio de cada classe (intervalo); fi: frequência absoluta simples; Fi: frequência cumulada. - Preencher os espaços vazios do diagrama de frequência. [Li-1-L1) fi Fi xifi [160 – 180) 850 190 27 2730 9 -260) 1500 50 ix ix