Logo Passei Direto
Buscar

Esta é uma pré-visualização de arquivo. Entre para ver o arquivo original

Aulas/00 - Programa.doc
		UNIVERSIDADE FEDERAL DE JUIZ DE FORA
		
		INSTITUTO DE CIÊNCIAS EXATAS
		
		DEPARTAMENTO DE ESTATÍSTICA
		
Disciplina: EST030 - Análise Exploratória de Dados
Horário: Terças e Quintas das 14:00 às 16:00
Professora: Camila Borelli Zeller
Objetivos gerais: Habilitar o aluno a realizar análises exploratórias de dados de diversos tipos e complexidades por meio de gráficos e medidas resumo, com o auxílio de pacotes estatísticos e planilhas de cálculo.
Conteúdo programático: 
Unidade I: Introdução
Por que aprender estatística?
O que é estatística?
Ramos da estatística
Análise exploratória de dados
Probabilidade
Inferência estatística
Conceitos básicos
População
Amostra
Variável
Tipos de variáveis
Dados
Unidade II: Apresentando dados em tabelas e gráficos
Tabelas e gráficos para dados qualitativos
Tabela resumida
Gráfico de barras
Gráfico de pizza
Organizando dados quantitativos
Disposição ordenada
Disposição ramo e folha
Tabelas e gráficos para dados quantitativos
Distribuição de freqüências
Histograma
Unidade III: Medidas resumo
Medidas de localização
Média aritmética
Mediana
Moda
Quartis
Medidas de dispersão
Amplitude
Amplitude interquartil
Variância e desvio padrão
Coeficiente de variação
Formato
Simetria versus assimetria
Resumo dos cinco números
BoxPlot
BoxPlots comparativos
Unidade IV: Análise bivariada
Dados qualitativos
Tabela de contingência
Gráfico e barras paralelas
Associação. Medida de associação
Dados quantitativos
Diagrama de dispersão
Correlação. Medida de Correlação.
Unidade V: Análise de séries temporais
Conceito de série temporal
Gráfico de séries temporais
Fatores que influenciam séries temporais
Componente tendência
Componente sazonal
Componente cíclico
Componente irregular	
Referências Bibliográficas (em ordem alfabética)*:
Básicas (todas disponíveis nas bibliotecas da UFJF):
Bussab, W. O. e Morettin, P. A. (2010). Estatística Básica. 6ª edição, Atual Editora.
Devore, J. L. (2006). Probabilidade e Estatística: para Engenharia e Ciências. São Paulo: Pioneira Thomson.
Fonseca, J. S. e Martins, G. A. (1996). Curso de Estatística. 6ª edição, São Paulo: Editora Atlas.
Hoaglin, D. C., Mosteller, F. e Tukey, J. W. (2000). Understanding Robust and Exploratory Data Analysis. New York: John Wiley & Sons, Inc.
Magalhães, M. N. e Lima, A. C. P. (2010). Noções de Probabilidade e Estatística. 10ª edição, Editora da Universidade de São Paulo, Edusp.
Soares, J. F. (1991). Introdução à Estatística. Rio de Janeiro: Editora LTC.
Triola, M. F. (2008). Introdução à Estatística. 10ª edição, Editora LTC.
Complementares:
Levine, D. M., Stephan, D. F., Krehbiel, T. C. e Berenson, M. L. (2008). Estatística: Teoria e Aplicações. LTC Editora.
Murteira, B. J. F. (1993). Análise Exploratória de Dados – Estatística Descritiva. Alfragide: McGraw-Hill de Portugal.
Tukey, J. W. (1977). Exploratory Data Analysis. Addison-Wesley Series in Behavioural Science: Quantitative Methods. Reading, Massachusetts: Addison-Wesley Publishing Company.
*Outras referências específicas, se necessárias, serão fornecidas durante o curso.	
Aplicativo(s) necessário(s): O computador desempenha um papel importante em um curso de estatística. Esta disciplina usará Minitab, R e planilhas de cálculo como os principais recursos computacionais ilustrativos. Informações detalhadas sobre o R estão disponíveis em http://www.r-project.org/.
Procedimentos didáticos: Aulas expositivas com o uso de slides, quadro negro e/ou de outros recursos didáticos.
Critérios de avaliação: Duas provas P1 (30 pontos): 08/05/2012; P2 (30 pontos): 03/07/2012; Segunda Chamada: 12/07/2012. Exercícios em sala de aula E (20 pontos). Trabalhos realizados em R ou Minitab T (20 pontos).
Contato com a professora: Caso precise entrar em contato com a professora da disciplina fora do horário de aulas, enviar mensagem para camila.zeller@ufjf.edu.br. 
Atendimento: Estarei com horário preferencial de atendimento nas terças e quintas de 08:00 às 9:30, ou em outro qualquer horário, desde que previamente marcado.
				
				
			
Aulas/01 - Aula 1.ppt
*
Introdução
Análise Exploratória de Dados
*
Comentários Gerais
Quem pretende efetuar estudos ou tomar decisões começa normalmente por recolher os fatos que lhe parecem relevantes.
Os fatos recolhidos devem conter informações e serem acumulados de forma organizada, por isso são denominados por dados.
*
Estamos denominando por dados um ou mais conjunto de valores, numéricos ou não.
Exemplos de dados:
Marca da calculadora dos estudantes (A, B ou C).
Número de defeitos graves em automóveis recentemente fabricados (1, 2, 3 ou 4).
*
Não parece errado afirmar que hoje, muitas pessoas, das mais variadas profissões, têm necessidade de trabalhar com dados; quer queiram, quer não, consciente ou inconscien-temente, recorrem à Estatística.
Economia: utiliza a estatística para tomar decisões (governamentais e privadas).
Administração: utiliza a estatística para estimar posições futuras (de vendas, propaganda, produção e desempenho das empresas).
*
Por que aprender estatística?
Hoje, alguma familiaridade com os princípios básicos da estatística deve fazer parte da educação geral de todo ser humano.
Afinal, é difícil ser um cidadão informado sem uma compreensão dos vários índices governamentais, dos gráficos e médias publicados diariamente na imprensa e das pesquisas de opinião pública.
*
Motivação
Em uma linha de empacotamento de leite, se medirmos o volume de cada saquinho, vamos descobrir que nenhum deles contém exatamente uma mesma quantidade de leite. 
Duas unidades produzidas por um processo de fabricação nunca são idênticas. Alguma variação é inevitável (caso contrário, uma única observação revelaria todas as informações desejadas).
*
Por que aprender estatística?
A estatística nos ensina a fazer julgamentos inteligentes e a tomar decisões na presença de incertezas e variações.
*
O que é estatística?
A palavra estatística lembra, à maioria das pessoas, recenseamentos. 
Os censos são feitos pelos governos como o objetivo de conhecer seus habitantes, sua condição socioeconômica, sua cultura, religião, etc... Portanto, associar estatística a censo é perfeitamente natural.
*
Definição de Estatística
A estatística é um conjunto de técnicas que permite, de forma sistemática, recolher e organizar => explorar e descrever => analisar e interpretar dados oriundos de estudos ou experimentos, realizados em qualquer área do conhecimento. 
*
Áreas da Estatística
Estatística Descritiva e Análise exploratória de dados
Probabilidade
Inferência Estatística
*
Estatística Descritiva e Análise Exploratória de Dados
O presente curso tem o propósito de fazer uma introdução à análise exploratória de dados (EDA) e à estatística descritiva sem grandes preocupações sobre a distinção entre os dois conceitos, em relação ao qual parece não haver consenso.
*
Etapa inicial da análise, quando tomamos conta-to com os dados pela primeira vez. 
Crítica, organização, resumo e apresentação de dados.
A disponibilidade de uma grande quantidade de dados e de métodos computacionais muito eficientes revigoraram esta área da estatística => Minitab, R, SPSS, SAS, etc...
Análise Exploratória
de Dados
*
Motivação
A utilidade da estatística descritiva é bastante geral. 
Quem vê os jornais sabe quão frequente é o uso de médias, índices e gráficos na descrição de uma realidade social ou econômica, por exemplo.
*
Exemplo I
O INPC, Índice Nacional de Preços ao Consumidor, construído pelo IBGE – Instituto Brasileiro de Geografia e Estatística, é um índice muito importante em nossa sociedade. Basta dizer que os aumentos salariais são reivindicados com base nesse índice. 
Sua construção envolve a sintetização, em um único número, dos aumentos dos produtos de uma cesta básica. Seu processo de cálculo é um sucessivo cálculo de médias.
*
Exemplo II
Anuário Estatístico Brasileiro. O IBGE publica esse anuário, apresentando em várias tabelas os mais diversos dados sobre o Brasil: educação, saúde, transporte, economia, cultura, etc...
Embora simples e fáceis de serem entendidas, as tabelas são fruto de um processo demorado e extremamente dispendioso de coleta e apuração de dados.
*
Exemplo III
Perfil do consumidor. A informação obtida pelos prestadores de serviços é guardada em grandes bancos de dados, usados na construção de perfis de consumidores.
Esses perfis são usados, por exemplo, para identificar roubos de cartões de crédito e para a criação de listas de clientes potenciais. 
*
Probabilidade
A probabilidade é a base matemática sob a qual a Estatística é construída. Fornece métodos para quantificar a incerteza existente em determinada situação.
A teoria de probabilidades nos permite descrever os fenômenos aleatórios, ou seja, aqueles em que está presente a incerteza.
*
Motivação 
O cálculo das probabilidades é fundamental para se conviver de forma inteligente com o risco, inerente a tantos processos sociais. 
No caso de seguros, isso é evidente.
*
Exemplo IV
Cálculo do prêmio do seguro: 
 Uma companhia de seguros deve saber calcular o valor a se cobrar para segurar, por exemplo, a saúde de um indivíduo. Se seu valor é alto demais, ela não terá clientes; se é baixo demais, pode não ter recursos para honrar seus compromissos.
*
Inferência Estatística
É o estudo de técnicas que possibilitam a extrapolação, a um grande conjunto de dados (população), das informações e conclusões obtidas a partir de subconjuntos de valores (amostra), usualmente de dimensão menor.
Problema central: Tomada de decisões sobre a população com base em estudos feitos sobre os dados da amostra.
*
Exemplo V
Comparação: Testes sobre medicamentos.
Um experimento médico testa um novo analgésico para ver se ele é melhor que o produto padrão correspondente. 
Dez pessoas selecionadas aleatoriamente tomam o novo medicamento, e as dez outras tomam o remédio padrão. 
*
O experimento é do tipo “duplo cego”, isto é, nem o paciente nem o médico sabem qual dos dois remédios está sendo administrado. Essa informação é do conhecimento apenas do estatístico.
*
 Podemos concluir que o novo remédio é melhor só porque mais pessoas, no grupo das que o tomaram, relataram diminuição da dor?
É preciso saber se a margem de 8 para 5 é real ou se os dois remédios são igualmente eficientes, tendo a diferença ocorrido apenas por uma variação aleatória.
*
Exemplo VI
Previsão: Demanda por produtos e serviços.
Os planejadores tanto no Estado quanto no setor privado precisam estimar a demanda por serviços. 
Quantos leitos hospitalares serão necessários? Quantas vagas nas diferentes séries escolares? Quantos médicos cardiologistas devem prestar serviços em uma comunidade?
*
População
Amostra
Variável
Conceitos Básicos 
*
População
Coleção completa de todos os elementos (escores, pessoas, medidas e outros) a serem estudados. A coleção é completa no sentido que inclui todos os sujeitos a serem estudados.
Conjunto de dados com alguma característica comum e com potencial interesse para o estudo.
*
Exemplos
Todos os habitantes de Juiz de Fora.
Todas as lâmpadas produzidas por uma fábrica em um certo período de tempo.
Todo o sangue no corpo de uma pessoa.
*
Os elementos da população são em geral denominados por unidades estatísticas: objeto da observação qualquer que seja a sua natureza, desde que tenha uma definição precisa.
Exemplos: 
Seres Vivos (homem, cabeça de gado, ...)
Instituições (família, empresa, ...)
Objetos (automóvel, trator, ...)
*
Uma população pode ser finita ou infinita.
Exemplos:
População constituída por todos os parafusos produzidos numa fábrica em certo dia é finita.
População constituída de todos os resultados (cara ou coroa) em sucessivos lances de uma moeda é infinita.
*
Raramente é possível coletar dados de todos os elementos de uma população (censo). 
População finita: razões econômicas, razões éticas, tempo, observações destrutivas, etc.
E é impossível observar todos os elementos de uma população infinita.
Tendo em vista a dificuldade de várias naturezas para se observar todos os elementos da população, tomaremos alguns deles para formar um grupo a ser estudado.
*
Desenho Esquemático
*
Amostra
Subconjunto da população, em geral, com dimensão sensivelmente menor. 
Corresponde à parcela da população selecionada para a análise. 
*
Exemplos: População versus Amostra
População: Todos os estudantes matriculados em horário integral em uma faculdade.
Amostra: 50 alunos de horário integral selecionados para um estudo de marketing.
*
Exemplos: População versus Amostra
População: Todos os eleitores registrados em Juiz de Fora.
Amostra: 500 eleitores registrados em Juiz de Fora contactados por telefone para uma pesquisa de intenção de voto.
*
Amostra
Subconjunto da população que se supõe ser representativo.
Se uma amostra é representativa de uma população, conclusões importantes sobre a população podem ser inferidas de sua análise.
*
População versus Amostra
*
Relação entre Probabilidade e Inferência Estatística
A probabilidade faz considerações da popula-ção para a amostra (raciocínio dedutivo) e a inferência estatística faz considerações da amostra para a população (raciocínio indutivo).
População
Amostra
Probabilidade
Inferência Estatística
*
Etapas da Análise Estatística
*
Existem tantos modos de obtenção de uma amostra que estes procedimentos constituem uma especialidade dentro da Estatística, conhecida como Amostragem.
Como selecionar uma amostra?
*
Devemos ressaltar que, em princípio, a seleção da amostra tenta fornecer um subconjunto de elementos o mais parecido possível com a população que lhe dá origem.
Para procurar assegurar a representatividade da amostra são necessários os maiores cuidados.
O método mais simples de assegurar uma seleção representativa é obter uma amostra aleatória simples.
*
Amostra aleatória simples: todos os elementos da população têm chance igual de serem incluídos nela e a chance dela ser escolhida é a mesma que qualquer outra de mesmo tamanho.
O fundamento das técnicas correntemente empregues para colher amostras consiste em deixar ao acaso (seleção aleatória) a indicação dos elementos da população que devem ser incluídos na amostra.
*
Quando ao colher uma amostra se dá preferência a determinados elementos da população, a amostra diz-se viciada ou tendenciosa.
Tais como, amostras intencionais, onde os elementos são selecionados com auxílio de especialistas e amostras de voluntários, como ocorre em 
Pesquisas
feitas pela internet, nas quais os sujeitos podem decidir se respondem ou não.
Pesquisas feitas pelo correio, nas quais os sujeitos podem decidir se enviam respostas ou não.
*
Exercício
Logo após a destruição das torres do World Trade Center por terroristas, uma revista realizou uma pesquisa online com seus assinantes e fez a seguinte pergunta “As torres devem ser reconstruídas?”
Entre as 1.304.240 respostas, 768.731 responderam “sim”, 286.756 responderam “não” e 248.753 diziam ser “muito cedo para decidir”.
*
Exercício
Defina a população e a amostra dessa pesquisa.
Dado que essa amostra é muito grande, as respostas podem ser consideradas representativas da população dos Estados Unidos? Explique.
Aulas/02 - Aula 2.ppt
Clique para editar o estilo do subtítulo mestre
*
*
*
Clique para editar o estilo do título mestre
Introdução
Análise Exploratória de Dados
*
*
*
Conceitos Básicos
População
Amostra
Variável
*
*
*
Revisão
População: Coleção completa de todos os elementos (escores, pessoas, medidas e outros) 
 a serem estudados.
Amostra: subconjunto da população selecionado para a análise. 
*
*
*
População versus Amostra
População: Todas as transações de vendas de uma empresa de um ano específico.
Amostra: 200 transações de vendas da empresa selecionadas ao acaso por um auditor.
*
*
*
População versus Amostra
População: Todos os consumidores que fizeram compras em uma loja este final de semana.
Amostra: 30 consumidores da loja selecionados ao acaso.
*
*
*
Conceitos Gerais
Normalmente, estamos interessados apenas em certas características dos elementos de uma população.
Conceito de variável.
*
*
*
Variável
Qualquer característica associada a uma população.
Corresponde a uma característica de um elemento da população.
Como o próprio nome, sugere que alguma coisa se modifica ou varia.
*
*
*
Exemplo I
População: Todas as transações de vendas de uma empresa de um ano específico.
Variáveis: vendas, despesas e lucro líquido (apresentam diferentes valores de ano para ano).
*
*
*
Exemplo II
População: Todos os funcionários de uma escola. 
Variáveis: sexo, estado civil, escolaridade, idade, altura, peso, número de filhos na família, hábito de fumar, etc...
*
*
*
Exemplo II
A variável altura assume os valores (em metros) 1,60; 1,58;... 
A variável escolaridade assume os valores ensino fundamental, ensino médio ou superior, por exemplo.
*
*
*
Natureza das Variáveis
As variáveis têm naturezas diferentes em relação aos possíveis valores que podem assumir.
*
*
*
Exemplos
Variável escolaridade apresenta como possíveis realizações uma qualidade ou atributo (valor não numérico).
Variável altura apresenta como possíveis realizações valores numéricos.
*
*
*
Tipos de Variáveis
Variáveis qualitativas
Variáveis quantitativas
*
*
*
Variáveis Qualitativas
Ou variáveis categóricas.
Possíveis realizações são valores não numéricos.
Exemplos: sexo, escolaridade, cor dos olhos, etc..
*
*
*
Variáveis Quantitativas
Possíveis realizações são valores numéricos.
Exemplos: peso, altura, número de filhos, idade, etc..
*
*
*
Classificação das Variáveis
Variáveis qualitativas
Nominais
Ordinais
Variáveis quantitativas
Discretas
Contínuas
*
*
*
Variáveis Qualitativas
Variável qualitativa nominal: seus valores podem ser distribuídos em categorias mutuamente exclusivas sem ordenação natural.
Exemplos: religião (católico, protestante ou judeu), ideologia política (esquerda, centro ou direita), etc...
*
*
*
Variáveis Qualitativas
Variável qualitativa ordinal: seus valores podem ser distribuídos em categorias mutuamente exclusivas que possuem ordenação natural.
Exemplos: classe social (alta, média ou baixa), dureza de minerais (alta, moderada ou fraca), etc... 
*
*
*
Variáveis Quantitativas
Variável quantitativa discreta tem ou um número finito de valores ou uma quantidade enumerável de valores, onde enumerável se refere ao fato de que podem existir infinitos valores, mas que podem ser associados a um processo de contagem (numeral associável ao conjunto dos números inteiros).
Exemplo: Número de ovos que uma galinha bota em um dia, etc...
*
*
*
Variáveis Quantitativas
Variável quantitativa contínua tem infinitos valores, e esses valores podem ser associados com medidas em uma escala contínua, de modo que não há pulos ou interrupções (numeral associável ao conjunto dos reais).
Exemplo: Quantidade de leite que uma vaca produz em um dia.
*
*
*
Desenho esquemático
*
*
*
Comentários
É importante salientar que a classificação das variáveis se refere à natureza da mesma e, em geral, devemos utilizar o bom senso na hora de decidir qual procedimento adotar para caracterizar uma variável.
*
*
*
Comentários
A natureza da variável deve ser levada em consideração para interpretar os resultados. 
Variável idade: Se A tem 40 anos e B tem 20 anos, é correto dizer que A tem o dobro da idade de B. 
*
*
*
Comentários
Variável grau de especialização:
não especializado=>[1]
semi-especializado=>[2]
especializado=>[3]
muito especializado=>[4]
Não é correto dizer, por exemplo, que um trabalhador muito especializado tem o dobro da especialização de um semi-especializado.
*
*
*
Dados
O termo variável sugere que alguma coisa se modifica ou varia. Esses diferentes valores constituem os dados a serem analisados.
Os dados resultam da observação de uma variável ou de duas ou mais variáveis simultaneamente.
*
*
*
Dados Univariados
Um conjunto de dados univariados consiste em observações sobre uma variável.
A amostra a seguir de vida útil (horas) de baterias da marca D colocadas em um determinado uso é um conjunto numérico de dados univariados: 
 5,6 5,1 6,2 6,0 5,8 5,5
*
*
*
Dados Bivariados
Temos dados bivariados quando as observações são feitas em cada uma de duas variáveis. 
 Nosso conjunto de dados pode consistir em um par (peso,altura) de cada jogador de basquete de um time, com a primeira observação como (72;1,68), a segunda como (75;2,12) e assim por diante.
*
*
*
Dados Multivariados
Dados multivariados surgem quando são feitas observações sobre mais de duas variáveis. 
Em muitos conjuntos de dados multivariados, algumas variáveis são quantitativas e outras são qualitativas.
*
*
*
Dados Multivariados
Por exemplo, um médico pesquisador pode determinar a pressão sanguínea sistólica, a pressão sanguínea diastólica e o nível de colesterol de cada paciente participante de um estudo. 
Cada observação seria um trio de números, como (120,80,146).
*
*
*
Dados Multivariados
A edição anual de uma revista automotiva fornece valores de tais variáveis:
tipo do veículo (pequeno, esportivo, compacto, médio, grande), 
consumo de combustível na cidade (milhas/galão),
 
consumo de combustível na estrada (milhas/galão), 
tipo de tração (traseira, dianteira, nas quatro rodas).
*
*
*
Tipos de Dados
Dados qualitativos 
Dados quantitativos
*
*
*
Coleta de Dados
Identificar as variáveis relevantes para o estudo e em seguida coletar os dados, ou seja, coletar os valores para essas variáveis.
Coleta de dados a partir de uma amostra.
*
*
*
Fontes de Dados
A fonte dos dados a serem coletados nem sempre é óbvia.
As fontes de dados podem ser classificadas como fontes primárias ou fontes secundárias.
*
*
*
Fontes Primárias vs Secundárias
Quando o coletor de dados é a pessoa que está utilizando os dados para fins de análise, a fonte é primária.
Quando a pessoa que está realizando a análise estatística não é o coletor de dados, a fonte é secundária.
*
*
*
Exercício
Um pesquisador entrevista 200 pessoas e lhes pergunta sobre o partido político de sua preferência (Democrata, Republicano, Independente ou Outro). 
Qual a variável de interesse desse estudo? Classifique-a.
*
*
*
Exercício
Ele codifica as respostas como 0 (para Democrata), 1 (para Republicano), 2 (para Independente) ou 3 (para quaisquer outras respostas). Ele calcula, então, a média dos números e obtém 0.95. 
Como se pode interpretar esse valor?
Aulas/03 - Lista 1.doc
Lista 1 – Análise Exploratória de Dados
1) O que é Estatística?
2) Como se subdivide a Estatística?
3) Qual a relação entre a teoria de probabilidades e a inferência estatística?
4) O que se entende por população e amostra?
5) Identifique a amostra e a população dos estudos abaixo.
Projeto de pesquisa: Um cientista político seleciona 25 dos 100 senadores atualmente no Congresso e determina o período de tempo em que eles atuaram.
Posse de arma: Em uma pesquisa 1059 adultos selecionados aleatoriamente, 39% responderam “sim” quando lhes foi perguntado “Você tem uma arma em sua casa?”
6) Um estudante de último ano está realizando uma pesquisa em psicologia e precisa obter o QI de 50 pessoas. Ele coloca um anúncio no jornal local e pede voluntários, cada um dos quais receberá 50 dólares para fazer um teste de QI. Essa é uma boa amostra? Por que sim ou por que não?
7) Como podem ser classificadas as variáveis?
8) Qual a diferença entre variáveis qualitativas e quantitativas?
9) Qual a diferença entre variáveis contínuas e discretas? E entre nominais e ordinais?
10) Classifique as seguintes variáveis: 
a) estado civil dos alunos de certa turma; b)(idade dos alunos matriculados em Laboratório de Ciências; c) religião dos alunos de certa turma; d)(número de pessoas nas famílias dos alunos de certa turma; e) nível de instrução dos pais dos alunos de certa escola; f) tempo gasto pelos alunos de certa turma na realização de um trabalho acadêmico; g) cor dos olhos dos alunos de certa turma; h) peso de um indivíduo; i) altura de um indivíduo; j) tipo sangüíneo de um indivíduo; k) fator RH de um indivíduo; l) valor obtido na face superior de um dado; m) sexo de um indivíduo; n) comprimento de um segmento de reta; o) área de um círculo; p) raça de um indivíduo; q) quantidade de livro em uma biblioteca; r) volume de água contido em uma piscina.
11) Dê os possíveis valores que cada uma das seguintes variáveis pode assumir. Diga se são variáveis contínuas ou discretas.
Número G de litros de água numa máquina de lavar roupa.
Número B de livros em uma estante da biblioteca.
Soma S de pontos obtidos ao lançar um par de dados.
12) Um pesquisador deseja estudar as seguintes características dos 800 hospitais de determinada região: área construída, número de médicos e tamanho (pequeno, médio e grande). Quais são as variáveis em questão? Estes hospitais constituem uma amostra ou população? Justifique sua resposta.
13) Com relação ao problema anterior, admita que para estudar as características dos hospitais na região, foram escolhidos apenas 100. Os hospitais escolhidos constituem uma amostra ou uma população? Justifique sua resposta.
14) Um fabricante de ração para gatos estava planejando pesquisar domicílios nos Estados Unidos com o objetivo de determinar os hábitos de compras dos proprietários de gatos. Dentre as questões a serem incluídas, encontram-se aquelas relacionadas ao:
local em que a ração para gatos normalmente é comprada.
fato de ser comprado alimento do tipo ração ou enlatado.
número de gatos que vivem no domicílio.
fato do gato possuir pedigree.
Descreva a população.
Para cada um dos quatro itens apresentados, indique se as variáveis são quantitativas ou qualitativas.
Desenvolva cinco perguntas com respostas qualitativas para a pesquisa.
Desenvolva cinco perguntas com respostas quantitativas para a pesquisa.
15) Uma amostra de 50 estudantes de graduação respondeu à seguinte pesquisa.
Qual é o seu gênero? (Feminino ou Masculino)
Qual é a sua idade?
Qual é a sua altura (em cm)?
Qual é a sua classificação atual em relação ao ano em curso? (Primeiranista, Segundarista, Terceiranista ou Quartanista)
Qual é a sua principal área de estudo? (Contabilidade, Economia/Finanças, Sistemas de Informação, Negócios Internacionais, Administração, Marketing/Vendas, Outra ou A decidir)
No presente momento, você planeja freqüentar um curso de pós-graduação? (Sim, Não ou Não tenho certeza)
Qual a sua média acumulada atual?
Qual seria o salário anual inicial que você espera, caso tivesse que procurar emprego imediatamente depois de obter seu grau de bacharel?
Que salário você imaginaria ter depois de cinco anos de experiência de trabalho em regime de horário integral?
Qual é a sua situação atual em termos de emprego? (Expediente integral, Meio expediente ou Desmpregado)
De quantos clubes, grupos, organizações ou equipes você participa atualmente na universidade?
O quão satisfeito você está com os serviços de orientação de alunos na faculdade? (Extremamente insatisfeito – 1, 2 ou 3, Neutro – 4 ou 5, Extremamente satisfeito – 6 ou 7) 
Aproximadamente quanto você gastou neste semestre com livros e materiais?
Os resultados da pesquisa estão no arquivo PESQUISAGRADUAÇÃO.xls. Classifique as variáveis.
16) Uma fisiologista seleciona aleatoriamente 16 corredores que terminaram a maratona de Nova York e mede a altura de cada pessoa selecionada.
Os dados são quantitativos ou qualitativos?
Os dados são discretos ou contínuos?
Se a pesquisadora usa os dados amostrais para inferir alguma coisa sobre uma população, qual é essa população?
Aulas/04 - Conjunto de dados.xls
DataCopy
				GPA		Exp Sal
				3,19		40
				3,11		50
				3,02		50
				4		50
				2,75		40
				3,24		60
				2,93		50
				3,26		40
				3,21		45
				3,23		50
				3,77		60
				3,71		40
				3,2		45
				2,94		40
				3,22		40
				3,34		60
				3,09		40
				3,72		50
				2,5		50
				2,74		60
				3,55		60
				3		45
				3,62		30
				2,6		40
				3,63		50
				2,38		40
DataCopy2
				GPA		Ant Sal5
				3,19		70
				3,11		60
				3,02		60
				4		57
				2,75		100
				3,24		100
				2,93		75
				3,26		60
				3,21		65
				3,23		70
				3,77		120
				3,71		60
				3,2		65
				2,94		60
				3,22		80
				3,34		90
				3,09		65
				3,72		80
				2,5		75
				2,74		75
				3,55		100
				3		65
				3,62		90
				2,6		60
				3,63		150
				2,38		60
DataCopy3
				Exp Sal		Ant Sal5
				40		70
				50		60
				50		60
				50		57
				40		100
				60		100
				50		75
				40		60
				45		65
				50		70
				60		120
				40		60
				45		65
				40		60
				40		80
				60		90
				40		65
				50		80
				50		75
				60		75
				60		100
				45		65
				30		90
				40		60
				50		150
				40		60
ForBoxWhiskerPlot
		2,38		0,5
		2,38		1
		2,38		1,5
		2,94		0,5
		2,94		1
		2,94		1,5
		3,205		0,5
		3,205		1
		3,205		1,5
		3,55
0,5
		3,55		1
		3,55		1,5
		4		0,5
		4		1
		4		1,5
		2,38		1
		4		1
		2,94		0,5
		3,55		0,5
		2,94		1,5
		3,55		1,5
ForBoxWhiskerPlot2
		18		0,5
		18		1
		18		1,5
		19		0,5
		19		1
		19		1,5
		20		0,5
		20		1
		20		1,5
		21		0,5
		21		1
		21		1,5
		36		0,5
		36		1
		36		1,5
		18		1
		36		1
		19		0,5
		21		0,5
		19		1,5
		21		1,5
ForBoxWhiskerPlot3
		62		0,5		60		2
		62		1		60		2,5
		62		1,5		60		3
		68		0,5		63		2
		68		1		63		2,5
		68		1,5		63		3
		69		0,5		65		2
		69		1		65		2,5
		69		1,5		65		3
		70		0,5		66		2
		70		1		66		2,5
		70		1,5		66		3
		79		0,5		69		2
		79		1		69		2,5
		79		1,5		69		3
		62		1		60		2,5
		79		1		69		2,5
		68		0,5		63		2
		70		0,5		66		2
		68		1,5		63		3
		70		1,5		66		3
ForBoxWhiskerPlot4
		60		0,5
		60		1
		60		1,5
		65		0,5
		65		1
		65		1,5
		67		0,5
		67		1
		67		1,5
		69		0,5
		69		1
		69		1,5
		79		0,5
		79		1
		79		1,5
		60		1
		79		1
		65		0,5
		69		0,5
		65		1,5
		69		1,5
ForBoxWhiskerPlot5
		200		0,5
		200		1
		200		1,5
		400		0,5
		400		1
		400		1,5
		500		0,5
		500		1
		500		1,5
		550		0,5
		550		1
		550		1,5
		1000		0,5
		1000		1
		1000		1,5
		200		1
		1000		1
		400		0,5
		550		0,5
		400		1,5
		550		1,5
ForBoxWhiskerPlot6
		200		0,5
		200		1
		200		1,5
		400		0,5
		400		1
		400		1,5
		450		0,5
		450		1
		450		1,5
		525		0,5
		525		1
		525		1,5
		1000		0,5
		1000		1
		1000		1,5
		200		1
		1000		1
		400		0,5
		525		0,5
		400		1,5
		525		1,5
ForBoxWhiskerPlot7
		18		0,5
		18		1
		18		1,5
		19		0,5
		19		1
		19		1,5
		20		0,5
		20		1
		20		1,5
		21		0,5
		21		1
		21		1,5
		36		0,5
		36		1
		36		1,5
		18		1
		36		1
		19		0,5
		21		0,5
		19		1,5
		21		1,5
ForBoxWhiskerPlot8
		2,45		0,5		2,5		2		2,38		3,5
		2,45		1		2,5		2,5		2,38		4
		2,45		1,5		2,5		3		2,38		4,5
		2,94		0,5		2,735		2		2,75		3,5
		2,94		1		2,735		2,5		2,75		4
		2,94		1,5		2,735		3		2,75		4,5
		3,25		0,5		3,09		2		3,02		3,5
		3,25		1		3,09		2,5		3,02		4
		3,25		1,5		3,09		3		3,02		4,5
		3,62		0,5		3,385		2		3,33		3,5
		3,62		1		3,385		2,5		3,33		4
		3,62		1,5		3,385		3		3,33		4,5
		4		0,5		3,77		2		3,72		3,5
		4		1		3,77		2,5		3,72		4
		4		1,5		3,77		3		3,72		4,5
		2,45		1		2,5		2,5		2,38		4
		4		1		3,77		2,5		3,72		4
		2,94		0,5		2,735		2		2,75		3,5
		3,62		0,5		3,385		2		3,33		3,5
		2,94		1,5		2,735		3		2,75		4,5
		3,62		1,5		3,385		3		3,33		4,5
ForBoxWhiskerPlot9
		2,38		0,5
		2,38		1
		2,38		1,5
		2,8		0,5
		2,8		1
		2,8		1,5
		3,195		0,5
		3,195		1
		3,195		1,5
		3,48		0,5
		3,48		1
		3,48		1,5
		4		0,5
		4		1
		4		1,5
		2,38		1
		4		1
		2,8		0,5
		3,48		0,5
		2,8		1,5
		3,48		1,5
ForBoxWhiskerPlot10
		2,38		0,5
		2,38		1
		2,38		1,5
		2,8		0,5
		2,8		1
		2,8		1,5
		3,135		0,5
		3,135		1
		3,135		1,5
		3,43		0,5
		3,43		1
		3,43		1,5
		4		0,5
		4		1
		4		1,5
		2,38		1
		4		1
		2,8		0,5
		3,43		0,5
		2,8		1,5
		3,43		1,5
DataCopy5
				GPA		Exp Sal
				3,19		40
				3,11		50
				3,02		50
				4		50
				2,75		40
				3,24		60
				2,93		50
				3,26		40
				3,21		45
				3,23		50
				3,77		60
				3,71		40
				3,2		45
				2,94		40
				3,22		40
				3,34		60
				3,09		40
				3,72		50
				2,5		50
				2,74		60
				3,55		60
				3		45
				3,62		30
				2,6		40
				3,63		50
				2,38		40
				2,45		40
				3,28		50
				3,18		50
				3,33		55
				2,87		35
				3,14		45
				3,44		45
				3,85		60
				3,5		45
				2,92		55
				2,8		55
				2,67		40
				2,65		45
				2,88		50
				3,43		50
				3,48		60
				2,91		45
				2,75		50
				3,62		55
				2,42		35
				2,76		40
				3,1		45
				2,61		40
				3,13		45
DataCopy6
				GPA		Exp Sal
				3,19		40
				3,11		50
				3,02		50
				4		50
				2,75		40
				3,24		60
				2,93		50
				3,26		40
				3,21		45
				3,23		50
				3,77		60
				3,71		40
				3,2		45
				2,94		40
				3,22		40
				3,34		60
				3,09		40
				3,72		50
				2,5		50
				2,74		60
				3,55		60
				3		45
				3,62		40
				2,6		40
				3,63		50
				2,38		40
				2,45		40
				3,28		50
				3,18		50
				3,33		55
				2,87		30
				3,14		45
				3,44		45
				3,85		60
				3,5		45
				2,92		55
				2,8		55
				2,67		40
				2,65		45
				2,88		50
				3,43		50
				3,48		60
				2,91		45
				2,75		50
				3,62		55
				2,42		35
				2,76		40
				3,1		45
				2,61		40
				3,13		45
DataCopy7
				GPA		Ant Sal5
				3,19		70
				3,11		60
				3,02		60
				4		57
				2,75		100
				3,24		100
				2,93		75
				3,26		60
				3,21		65
				3,23		70
				3,77		120
				3,71		60
				3,2		65
				2,94		60
				3,22		80
				3,34		90
				3,09		65
				3,72		80
				2,5		75
				2,74		75
				3,55		100
				3		65
				3,62		90
				2,6		60
				3,63		150
				2,38		60
				2,45		65
				3,28		75
				3,18		75
				3,33		85
				2,87		50
				3,14		75
				3,44		90
				3,85		100
				3,5		60
				2,92		85
				2,8		80
				2,67		65
				2,65		80
				2,88		80
				3,43		100
				3,48		110
				2,91		90
				2,75		80
				3,62		85
				2,42		60
				2,76		65
				3,1		70
				2,61		65
				3,13		80
DataCopy8
				Exp Sal		Ant Sal5
				40		70
				50		60
				50		60
				50		57
				40		100
				60		100
				50		75
				40		60
				45		65
				50		70
				60		120
				40		60
				45		65
				40		60
				40		80
				60		90
				40		65
				50		80
				50		75
				60		75
				60		100
				45		65
				40		90
				40		60
				50		150
				40		60
				40		65
				50		75
				50		75
				55		85
				30		50
				45		75
				45		90
				60		100
				45		60
				55		85
				55		80
				40		65
				45		80
				50		80
				50		100
				60		110
				45		90
				50		80
				55		85
				35		60
				40		65
				45		70
				40		65
				45		80
DataCopy4
				GPA		Exp Sal
				3,19		40
				3,11		50
				3,02		50
				4		50
				2,75		40
				3,24		60
				2,93		50
				3,26		40
				3,21		45
				3,23		50
				3,77		60
				3,71		40
				3,2		45
				2,94		40
				3,22		40
				3,34		60
				3,09		40
				3,72		50
				2,5		50
				2,74		60
				3,55		60
				3		45
				3,62		40
				2,6		40
				3,63		50
				2,38		40
				2,45		40
				3,28		50
				3,18		50
				3,33		55
				2,87		30
				3,14		45
				3,44		45
				3,85		60
				3,5		45
				2,92		55
				2,8		55
				2,67		40
				2,65		45
				2,88		50
				3,43		50
				3,48		60
				2,91		45
				2,75		50
				3,62		55
				2,42		35
				2,76		40
				3,1		45
				2,61		40
				3,13		45
Dados
		Núm ID		Gênero		Idade		Altura (em polegadas)		Ano do Curso		Principal Área de Estudo na Graduação		Intenção de Fazer Pós-graduação		GPA (Média Acumulada)		Salário Esperado		Salário Anual em 5 Anos		Situação Atual de Emprego		Participação em Associações, Clubes		Satisfação para com Orientação		Gastos
		ID01		m		19		69		Segundo		Marketing/Vendas		Sim		3,19		40		70		Desempregado		0		2		550
		ID02		m		21		67		Quarto		Administração		Não Decidiu		3,11		50		60		Parcial
0		2		400
		ID03		m		20		68		Terceiro		Economia/Finanças		Não		3,02		50		60		Parcial		0		5		450
		ID04		m		18		79		Primeiro		Economia/Finanças		Sim		4,00		50		57		Parcial		0		5		360
		ID05		m		19		67		Segundo		Administração		Sim		2,75		40		100		Parcial		1		1		500
		ID06		m		21		70		Terceiro		Contabilidade		Sim		3,24		60		100		Parcial		2		5		650
		ID07		m		20		68		Terceiro		Economia/Finanças		Sim		2,93		50		75		Desempregado		0		4		500
		ID08		m		21		71		Terceiro		Administração		Sim		3,26		40		60		Parcial		0		1		500
		ID09		f		20		62		Terceiro		Marketing/Vendas		Não		3,21		45		65		Parcial		0		4		350
		ID10		m		19		70		Segundo		Contabilidade		Sim		3,23		50		70		Parcial		0		6		300
		ID11		m		36		67		Segundo		Contabilidade		Não Decidiu		3,77		60		120		Parcial		1		4		200
		ID12		f		19		65		Segundo		Contabilidade		Não Decidiu		3,71		40		60		Desempregado		0		5		550
		ID13		f		20		65		Terceiro		Contabilidade		Não Decidiu		3,20		45		65		Parcial		3		5		425
		ID14		f		21		65		Terceiro		Marketing/Vendas		Sim		2,94		40		60		Parcial		0		4		600
		ID15		f		19		66		Segundo		Marketing/Vendas		Sim		3,22		40		80		Parcial		0		3		600
		ID16		m		20		69		Terceiro		A decidir		Não Decidiu		3,34		60		90		Parcial		0		5		400
		ID17		f		19		64		Segundo		Negócios Intermac.		Não Decidiu		3,09		40		65		Desempregado		1		4		250
		ID18		m		20		67		Terceiro		Marketing/Vendas		Não		3,72		50		80		Parcial		2		4		350
		ID19		m		23		70		Terceiro		Economia/Finanças		Não Decidiu		2,50		50		75		Desempregado		0		2		400
		ID20		m		20		70		Segundo		Economia/Finanças		Sim		2,74		60		75		Desempregado		0		4		400
		ID21		f		20		63		Segundo		Marketing/Vendas		Sim		3,55		60		100		Parcial		2		5		500
		ID22		f		19		67		Segundo		Administração		Não Decidiu		3,00		45		65		Parcial		0		3		600
		ID23		f		19		65		Segundo		Marketing/Vendas		Sim		3,62		40		90		Parcial		0		3		400
		ID24		f		20		63		Terceiro		Administração		Não Decidiu		2,60		40		60		Parcial		1		3		500
		ID25		f		22		63		Quarto		Economia/Finanças		Sim		3,63		50		150		Parcial		3		6		1000
		ID26		f		21		65		Quarto		Outra		Não		2,38		40		60		Parcial		2		4		300
		ID27		m		21		73		Terceiro		Administração		Sim		2,45		40		65		Parcial		0		2		450
		ID28		m		30		71		Terceiro		Administração		Não		3,28		50		75		Parcial		0		5		550
		ID29		f		20		66		Segundo		Negócios Intermac.		Não Decidiu		3,18		50		75		Desempregado		1		5		600
		ID30		m		24		62		Segundo		Contabilidade		Não		3,33		55		85		Parcial		0		4		400
		ID31		f		19		69		Segundo		Marketing/Vendas		Não Decidiu		2,87		30		50		Parcial		0		3		700
		ID32		f		33		67		Quarto		Contabilidade		Não		3,14		45		75		Parcial		0		5		500
		ID33		f		19		64		Primeiro		Negócios Intermac.		Não		3,44		45		90		Parcial		1		6		350
		ID34		m		20		72		Segundo		Administração		Sim		3,85		60		100		Parcial		1		1		450
		ID35		f		22		61		Terceiro		Outra		Sim		3,50		45		60		Desempregado		0		7		600
		ID36		m		21		69		Segundo		Economia/Finanças		Não		2,92		55		85		Parcial		0		5		400
		ID37		f		19		60		Primeiro		Contabilidade		Não Decidiu		2,80		55		80		Parcial		0		3		450
		ID38		f		21		66		Terceiro		Marketing/Vendas		Não Decidiu		2,67		40		65		Parcial		0		3		800
		ID39		m		20		69		Segundo		Contabilidade		Não Decidiu		2,65		45		80		Desempregado		0		3		400
		ID40		f		20		63		Segundo		Sist. Inform.		Não		2,88		50		80		Desempregado		1		4		375
		ID41		f		19		65		Segundo		Economia/Finanças		Não Decidiu		3,43		50		100		Parcial		0		3		400
		ID42		f		21		63		anças		Economia/Finanças		Sim		3,48		60		110		Parcial		0		5		500
		ID43		m		20		68		Segundo		Contabilidade		Não Decidiu		2,91		45		90		Parcial		1		4		350
		ID44		m		19		72		Segundo		Contabilidade		Não		2,75		50		80		Parcial		0		5		525
		ID45		m		22		69		Terceiro		Sist. Inform.		Sim		3,62		55		85		Desempregado		2		4		400
		ID46		m		21		68		Terceiro		Administração		Não		2,42		35		60		Parcial		1		3		450
		ID47		f		22		66		Terceiro		Marketing/Vendas		Não		2,76		40		65		Parcial		0		3		500
		ID48		m		19		69		Primeiro		A decidir		Não Decidiu		3,10		45		70		Parcial		0		4		400
		ID49		m		20		68		Segundo		Sist. Inform.		Não		2,61		40		65		Parcial		1		3		450
		ID50		f		20		66		Segundo		Sist. Inform.		Não		3,13		45		80		Parcial		0		2		500
Aulas/05 - Diagrama de Pareto - Coment�rios.ppt
*
Diagrama de Pareto - Comentários
Análise Exploratória de Dados
*
Estratificação de Diagramas de Pareto
A comparação de diagramas de Pareto construídos considerando diferentes níveis de fatores de estratificação de interesse pode ser muito útil. 
A estratificação de diagramas de Pareto nos permite identificar se a causa do problema considerado é comum a todo o processo ou se existem causas específicas associadas a diferentes fatores que compõem o processo.
*
Gráf3
			40			0,4
			30			0,7
			15			0,85
			10			0,95
			5			1
Plan1
			
			
												Máquina 1												Máquina 1
			Homogeneidade			A			A			40			40,00%			40,00%			A			43			43,00%			43,00%
			Viscosidade			B			B			30			70,00%			30,00%			B			26			69,00%			26,00%
			Cor			C			C			15			85,00%			15,00%			C			14			83,00%			14,00%
			Presença de ar			D			D			10			95,00%			10,00%			D			10			93,00%			10,00%
			Presença de Impurezas			E			E			5			100,00%			5,00%			E			7			100,00%			7,00%
									Total			100									Total			100
			
			
			
			
												Máquina 2												Máquina 2
									C			65			65,00%			65,00%			D			39			39,00%			39,00%
									B			16			81,00%			16,00%			B			25			64,00%			25,00%
									A			12			93,00%			12,00%			C			17			81,00%			17,00%
									E			5			98,00%			5,00%			A			12			93,00%			12,00%
									D			2			100,00%			2,00%			E			7			100,00%			7,00%
									Total			100												100
Plan1
			
Plan2
			
Plan3
			
Gráf2
			43			0,43
			26			0,69
			14			0,83
			10			0,93
			7			1
Plan1
			
			
												Máquina 1												Máquina 1
			Homogeneidade			A			1			40			40,00%			40,00%			A			43			43,00%			43,00%
			Viscosidade			B			2			30			70,00%			30,00%			B			26			69,00%			26,00%
			Cor			C			3			15			85,00%			15,00%			C			14			83,00%			14,00%
			Presença de ar			D			4			10			95,00%			10,00%			D			10			93,00%			10,00%
			Presença de Impurezas			E			5			5			100,00%			5,00%			E			7			100,00%			7,00%
									Total			100									Total			100
			
			
			
			
												Máquina 2												Máquina 2
									C			65			65,00%			65,00%			D			39			39,00%			39,00%
									B			16			81,00%			16,00%			B			25			64,00%			25,00%
									A			12			93,00%			12,00%			C			17			81,00%			17,00%
									E			5			98,00%			5,00%			A			12			93,00%			12,00%
									D			2			100,00%			2,00%			E			7			100,00%			7,00%
									Total			100												100
Plan1
			
Plan2
			
Plan3
			
Gráf4
			65			0,65
			16			0,81
			12			0,93
			5			0,98
			2			1
Plan1
			
			
												Máquina 1												Máquina 1
			Homogeneidade			A			A			40			40,00%			40,00%			A			43			43,00%			43,00%
			Viscosidade			B			B			30			70,00%			30,00%			B			26			69,00%			26,00%
			Cor			C			C			15			85,00%			15,00%			C			14			83,00%			14,00%
			Presença de ar			D			D			10			95,00%			10,00%			D			10			93,00%			10,00%
			Presença de Impurezas			E			E			5			100,00%			5,00%			E			7			100,00%			7,00%
									Total			100									Total			100
			
			
			
			
												Máquina 2												Máquina 2
									C			65			65,00%			65,00%			D			39			39,00%			39,00%
B			16			81,00%			16,00%			B			25			64,00%			25,00%
									A			12			93,00%			12,00%			C			17			81,00%			17,00%
									E			5			98,00%			5,00%			A			12			93,00%			12,00%
									D			2			100,00%			2,00%			E			7			100,00%			7,00%
									Total			100												100
Plan1
			
Plan2
			
Plan3
			
Gráf5
			39			0,39
			25			0,64
			17			0,81
			12			0,93
			7			1
Plan1
			
			
												Máquina 1												Máquina 1
			Homogeneidade			A			A			40			40,00%			40,00%			A			43			43,00%			43,00%
			Viscosidade			B			B			30			70,00%			30,00%			B			26			69,00%			26,00%
			Cor			C			C			15			85,00%			15,00%			C			14			83,00%			14,00%
			Presença de ar			D			D			10			95,00%			10,00%			D			10			93,00%			10,00%
			Presença de Impurezas			E			E			5			100,00%			5,00%			E			7			100,00%			7,00%
									Total			100									Total			100
			
			
			
			
												Máquina 2												Máquina 2
									C			65			65,00%			65,00%			D			39			39,00%			39,00%
									B			16			81,00%			16,00%			B			25			64,00%			25,00%
									A			12			93,00%			12,00%			C			17			81,00%			17,00%
									E			5			98,00%			5,00%			A			12			93,00%			12,00%
									D			2			100,00%			2,00%			E			7			100,00%			7,00%
									Total			100												100
Plan1
			
Plan2
			
Plan3
			
*
Comparação de Diagramas de Pareto ao longo do tempo
A comparação de diagramas de Pareto ao longo do tempo nos fornece indicações sobre a estabilidade do processo.
São diagramas construídos ao longo de um determinado intervalo de tempo e que permitem a visualização de alterações na seqüência de ordenação das categorias. 
*
Diagramas de Pareto “Antes” e “Depois”
A utilização de gráficos de Pareto para comparação “antes” e “depois” permite a avaliação do impacto das mudanças efetuadas no processo.
*
Gráf7
			124			0,6231155779
			45			0,8492462312
			18			0,9396984925
			10			0,9899497487
			2			1
Plan1
			
			
												Máquina 1												Máquina 1
			Homogeneidade			A			A			40			40,00%			40,00%			A			43			43,00%			43,00%
			Viscosidade			B			B			30			70,00%			30,00%			B			26			69,00%			26,00%
			Cor			C			C			15			85,00%			15,00%			C			14			83,00%			14,00%
			Presença de ar			D			D			10			95,00%			10,00%			D			10			93,00%			10,00%
			Presença de Impurezas			E			E			5			100,00%			5,00%			E			7			100,00%			7,00%
									Total			100									Total			100
			
			
			
			
												Máquina 2												Máquina 2
									C			65			65,00%			65,00%			D			39			39,00%			39,00%
									B			16			81,00%			16,00%			B			25			64,00%			25,00%
									A			12			93,00%			12,00%			C			17			81,00%			17,00%
									E			5			98,00%			5,00%			A			12			93,00%			12,00%
									D			2			100,00%			2,00%			E			7			100,00%			7,00%
									Total			100												100
Plan1
			
Plan2
			
			
			
						Contaminação dos tachos			124			62,31%			62,31%						Umidade da carga
						Umidade da carga			45			84,92%			22,61%						Consistência do pigmento
						Consistência do pigmento			18			93,97%			9,05%						Evaporação do solvente
						Evaporação do solvente			10			98,99%			5,03%						Pesagem do polímero
						Pesagem do polímero			2			100,00%			1,01%						Contaminação dos tachos
									199
Plan2
			
Plan3
			
Gráf8
			45			0,4838709677
			21			0,7096774194
			14			0,8602150538
			7			0,935483871
			6			1
Plan1
			
			
												Máquina 1												Máquina 1
			Homogeneidade			A			A			40			40,00%			40,00%			A			43			43,00%			43,00%
			Viscosidade			B			B			30			70,00%			30,00%			B			26			69,00%			26,00%
			Cor			C			C			15			85,00%			15,00%			C			14			83,00%			14,00%
			Presença de ar			D			D			10			95,00%			10,00%			D			10			93,00%			10,00%
			Presença de Impurezas			E			E			5			100,00%			5,00%			E			7			100,00%			7,00%
									Total			100									Total			100
			
			
			
			
												Máquina 2												Máquina 2
									C			65			65,00%			65,00%			D			39			39,00%			39,00%
									B			16			81,00%			16,00%			B			25			64,00%			25,00%
									A			12			93,00%			12,00%			C			17			81,00%			17,00%
									E			5			98,00%			5,00%			A			12			93,00%			12,00%
									D			2			100,00%			2,00%			E			7			100,00%			7,00%
									Total			100												100
Plan1
			
Plan2
			
			
			
						Contaminação dos tachos			124			62,31%			62,31%						Umidade da carga						45			48,39%			48,39%
						Umidade da carga			45			84,92%			22,61%						Consistência do pigmento						21			70,97%			22,58%
						Consistência do pigmento			18			93,97%			9,05%						Evaporação do solvente						14			86,02%			15,05%
						Evaporação do solvente			10			98,99%			5,03%						Pesagem do polímero						7			93,55%			7,53%
						Pesagem do polímero			2			100,00%			1,01%						Contaminação dos tachos						6			100,00%			6,45%
									199																		93
Plan2
			
Plan3
			
*
*
*
*
*
*
Aulas/06 - Exerc�cio.doc
Exercício: Um artigo discutiu sobre os custos das empresas ao defender suas redes informatizadas de ataques externos. A tabela a seguir apresenta a discriminação dos custos.
		
		
		Tabela 1: Tabela resumida dos custos das empresas.
		Custo
		Porcentagem (%)
		Consultoria
		7,6
		Ferramentas de hardware
		8,2
		Mão de obra
		25,9
		Negócios perdidos/receita perdida
		23,6
		Tempo não produtivo de empregados
		15,5
		Ferramentas de software
		14,2
		Outros
		5,0
		Fonte: The Wall Street Journal, 2006.
Construa um gráfico de barras, um gráfico de pizza e um diagrama de pareto.
Que método gráfico você acha melhor para retratar esses dados? Explique.
Que conclusões você tira com relação aos custos das empresas para defender suas redes informatizadas de ataques externos?
Aulas/07 - Dados Qualitativos.doc
Lista 2 - Análise Exploratória de Dados
Parte 1
A tabela abaixo mostra o sexo (categorias possíveis: F, feminino e M, masculino) e a raça (categorias possíveis: A, amarelo; B, branco; P, pardo e N, negro) dos alunos de certa turma.
		Tabela 1: Sexo e Raça dos alunos de certa turma.
		Sexo
		F
		M
		M
		F
		M
		F
		F
		F
		M
		M
		M
		M
		M
		M
		F
		F
		F
		M
		F
		F
		F
		F
		M
		M
		F
		M
		M
		Raça
		B
		B
		B
		B
		B
		B
		B
		B
		B
		B
		B
		B
		B
		B
		B
		B
		B
		P
		B
		B
		B
		A
		B
		B
		B
		B
		N
		Fonte: Dados do experimento.
Construa a tabela de freqüências para cada uma das variáveis.
Faça os gráficos de barra e de pizza (setores) para cada uma das variáveis.
Analise os resultados.
Qual o gráfico mais comumente utilizado quando se deseja evidenciar a participação de um dado em relação ao total?
A tabela abaixo mostra o consumo de determinada bebida durante um baile de carnaval.
		Tabela 2: Consumo de bebidas.
		Bebida
		Consumo (litros)
		Vinho
		100
		Suco de Frutas
		200
		Água Mineral
		400
Refrigerante
		700
		Cerveja
		1600
		Fonte: Tabela de dados brutos.
Construa um gráfico de pizza (gráfico de setores) e interprete os resultados.
Qual o ângulo do setor correspondente ao suco de frutas?
Aulas/08 - Disposicao Ordenada.ppt
*
Organizando Dados Quantitativos
Disposição Ordenada
*
Preço de refeições na cidade e no subúrbio
*
*
Disposição Ordenada
*
*
Visualização Gráfica
Gráfico de Pontos – Minitab.
*
*
*
*
Aulas/09 - Ramoe Folhas.ppt
Clique para editar o estilo do título mestre
Clique para editar o estilo do subtítulo mestre
*
*
*
Disposição Ramo-e-Folhas
Organizando Dados Quantitativos 
Análise Exploratória de Dados
*
*
*
Tabela 2: Temperatura média do ar em 1990
*
*
*
Comentários
Dados não estão em disposição ordenada.
Disposição ordenada: Observar as temperaturas extremas.
Temperatura mínima: 11,4 (Guarda)
Temperatura máxima: 19,4 (Funchal)
*
*
*
Saída Minitab: Disposição ramo-e-folhas para a temperatura média
Stem-and-leaf of Temperat N = 20
Leaf Unit = 0,10
 1 11 4
 1 12 
 3 13 02
 5 14 14
 9 15 3568
 (5) 16 02677
 6 17 14567
 1 18 
 1 19 4
*
*
*
Comentários
Presença de lacunas nos dados.
 Presença de observações extremas (Funchal e Guarda).
Presença de um agrupamento dos locais restantes com temperaturas entre 13 e 18.
Valor típico próximo de 16.
Pequena dispersão dos valores.
*
*
*
Exemplo
Taxas de juros das 51 aplicações mais utilizadas em 1990 na Bolsa de Valores de Lisboa.
*
*
*
Tabela 3: Taxas de juros (%) das aplicações 
*
*
*
Como construir uma disposição ramo-e-folhas?
76 (ramo:7 e folha:6).
13,2 (ramos:13 e folha 2).
15,26?????.
Desprezar a última casa decimal: ainda permite identificar os valores na coleção original.
15,26 => 15,2 (ramo:15 e folha:2).
*
*
*
Saída Minitab: Disposição ramo-e-folhas para juros
Acúmulo massivo de folhas no ramo 15.
Stem-and-leaf of Juros N = 51
Leaf Unit = 0,10
 1 12 2
 1 13 
 5 14 0789
 (39) 15 012233333344444555555555556666666889999
 7 16 05669
 2 17 0
 1 18 
 1 19 0
*
*
*
Observações afastadas da massa de dados.
Stem-and-leaf of Juros N = 51
Leaf Unit = 0,10
 1 12 2
 1 12 
 1 13 
 1 13 
 2 14 0
 5 14 789
 20 15 012233333344444
 (24) 15 555555555556666666889999
 7 16 0
 6 16 5669
 2 17 0
 1 17 
 1 18 
 1 18 
 1 19 0
*
*
*
Stem-and-leaf of Juros N = 51
Leaf Unit = 0,010
 LO 1224; 1407; 1479; 
 4 148 2
 5 149 4
 6 150 8
 7 151 6
 9 152 36
 15 153 256779
 20 154 04668
 (11) 155 00113466699
 20 156 0222577
 13 157 
 13 158 14
 11 159 0048
 7 160 8
 HI 1659; 1664; 1664; 1693; 1708; 1904; 
*
*
*
Comentários
Presença de outliers.
Certa simetria.
Valor típico próximo de 15,5.
Pequena dispersão.
 
Aulas/10 - Ramoe Folhas - Exerc�cio.doc
Exercício: Um artigo da Consumer Reports sobre pasta de amendoim (setembro de 1990) relatou as seguintes pontuações para diversas marcas:
		 
		 
		 
		 
		 
		 
		 
		 
		 
		Cremosa
		56
		44
		62
		36
		39
		53
		50
		65
		
		45
		40
		56
		68
		41
		30
		40
		50
		
		56
		30
		22
		
		
		
		
		
		
		
		
		
		
		
		
		
		
		Crocante
		62
		53
		75
		42
		47
		40
		34
		62
		
		52
		50
		34
		42
		36
		75
		80
		47
		 
		56
		62
		 
		 
		 
		 
		 
		 
		
		
		
		
		
		
		
		
		
Construa uma disposição ramo-e-folhas comparativa, relacionando ramos na parte central e então, exibindo as folhas de cremosa à direita e as de crocante à esquerda. Descreva semelhanças e diferenças para os dois tipos.
Aulas/11 - Aula - Dados Discretos.ppt
*
Análise Exploratória de Dados 
Tabelas e Gráficos para Dados Quantitativos: 
Caso Discreto
*
Dados
Um (ou mais) conjunto de valores, numéricos ou não.
Os dados resultam da observação de uma variável ou de duas ou mais variáveis simultaneamente.
*
Variável
Variável é uma característica qualquer de uma pessoa, elemento, fenômeno ou evento, que pode variar.
Exemplos: Número de acertos/jogo, cor dos olhos, altura, número de irmãos, sexo, etc.
*
Descrever e Explorar os Dados
*
Algumas Técnicas Estatísticas
Uma das formas de organizar e resumir a informação contida em dados observados é através da tabela de freqüências (distribuição de freqüências) e gráficos. 
Técnicas que ajudam na visualização das características dos dados.
*
Algumas Técnicas Estatísticas
As técnicas estatísticas diferem em função do tipo de variável que está sendo analisada.
Quantitativas
 Idade
 Peso
 Distância
 Salário
Qualitativas 
 Sexo
 Raça
 Estado Civil
 Gravidade de doença
Variáveis
*
Tipos de Variáveis
Variáveis Quantitativas
Contínuas
Altura(cm)
Temperatura (oC)
Variáveis Qualitativas
Ordinais
Gravidade (L/M/S)
Classe social (A/M/B)
Discretas
No de filhos
No de gânglios
Nominais
Sexo
Religião
Raça
*
Dados Qualitativos
Como organizar os dados qualitativos?
Tabela de freqüências.
Gráfico de barras, gráfico setorial (ou em forma de pizza) e o diagrama de Pareto.
*
Dados Quantitativos
Como organizar os dados quantitativos?
Tabela de freqüências.
Histograma.
*
*
Comentários
Variável de interesse: número de filhos.
Classificação da variável: variável quantitativa discreta. 
Possíveis valores: 0, 1, 2, 3 e 5.
Número pequeno de valores distintos.
*
Frequência absoluta da categoria i (número de indivíduos que pertencem à categoria i.
Frequência relativa da categoria i. 
Porcentagem da categoria i.
*
Comentários
Não temos perda de informação dos dados originais. 
Percebemos que as famílias mais freqüentes são as de 2 filhos, seguida pelas famílias de 1 filho. Ainda 20% das famílias não tem filhos e são mais comuns que as famílias com 4 ou 5 filhos.
*
*
Aspectos Gerais da Distribuição de Freqüências
Ao estudarmos a distribuição de freqüências de uma variável quantitativa, devemos verificar basicamente três características:
Posição Central.
Variabilidade.
Forma.
*
Aspectos Gerais da Distribuição de Freqüências
O histograma permite a visualização destas características da distribuição de freqüências, como veremos a seguir. 
Além disso, elas podem ser quantificadas através das medidas resumo ( que serão discutidas nas próximas aulas), por exemplo, variância.
*
Posição Central
A posição central da distribuição de freqüências de uma variável é caracterizada pelo valor (ou faixa de valores) “típico” da variável.
Valor ou classe de maior freqüência: moda ou classe modal.
No histograma, esta classe corresponde àquela com barra mais alta (“pico”).
*
Posição Central
 bimodal unimodal
*
Distribuição de Freqüências
Unimodal: apenas uma moda.
Bimodal: duas modas.
Multimodal: várias modas.
Amodal: todos os valores são igualmente freqüentes.
*
Variabilidade
*
Variabilidade
*
Variabilidade
*
Forma
A distribuição de uma variável pode ter várias formas, mas existem duas formas básicas:
Simétrica.
Assimétrica.
*
Distribuição Simétrica
Quando uma distribuição é simétrica em torno de um valor (o mais freqüente), significa que as observações estão igualmente distribuídas em torno desse valor (metade acima e metade
abaixo).
*
Exemplos - Forma
 simétrica assimétrica à esquerda assimétrica à direita
 
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
Aulas/12 - Aula - Dados Cont�nuos.ppt
*
Tabelas e Gráficos para Dados Quantitativos: Caso Contínuo
Análise Exploratória de Dados
*
Exemplo: Cia MB
Um pesquisador está interessado em fazer um levantamento sobre alguns aspectos socioeconômicos dos empregados da seção de orçamentos da Companhia MB. 
Usando informações obtidas do departamento pessoal, ele coletou, por exemplo, informações sobre a variável salário (salários mínimos). 
*
Variável Salário
*
*
Comentários
Variável de interesse: salário.
Classificação da variável: variável quantitativa contínua.
Possíveis valores: 4,00; 4,56; ...
Muitos valores distintos.
*
Solução: agrupar os valores em classes (intervalos) para montar a distribuição de freqüências.
Quantas classes consideramos???
Depende do tamanho do conjunto de dados (n).
Comentários
*
Distribuição de Freqüências para Variáveis Contínuas
Encontre o menor e o maior valor das observa-ções (conjunto de dados).
Menor valor = 4,00.
Maior valor = 23,30.
Amplitude (R): Maior valor – Menor valor = 
23,30 - 4,00 = 19,30.
*
Distribuição de Freqüências para Variáveis Contínuas
Determinar o número de classes (k): 
K = 	 = 6 (no máximo 6 classes).
Determinar o tamanho das classes (h): 
 h = R/k = 3,21666 ≈ 4.
*
Primeira classe: 4,00 |-- 8,00.
Segunda classe: 8,00 |-- 12,00.
E assim por diante...
Distribuição de Freqüências para Variáveis Contínuas
*
Distribuição de Freqüências para Variáveis Contínuas
Notação: a|-- b 
a: limite inferior da classe
b: limite superior da classe
Intervalo fechado em “a” e aberto em “b” = [a,b).
*
Distribuição de Freqüências para Variáveis Contínuas
Freqüências absolutas de cada classe.
 Freqüências relativas de cada classe.
Porcentagem de cada classe.
*
Nesta organização de dados, temos perda de informação dos dados originais.
*
Histograma para a variável salário – Saída Minitab
*
Histograma para a variável salário – Saída Minitab
*
Comentários
Para o caso de termos dados discretos com valores muito distintos é usual proceder o agrupamento dos dados em classes (ou intervalos).
Exemplo: Número de casos de uma doença, número de acidentes, etc.
*
Exemplo
Dados representam o tempo de hemodiálise (meses) antes do transplante renal efetuado em 104 doentes no Hospital de Santa Cruz.
*
*
Histograma para tempo de hemodiálise – Saída Minitab
*
Gráfico de pontos para tempo de hemodiálise
*
Escala densidade
*
Histograma para a variável salário – Saída Minitab. 
*
Exemplo
A corrosão das barras de aço da armação é um problema sério em estruturas de concreto localizadas em ambientes afetados por condições climáticas extremas.
Por esse motivo, os pesquisadores têm investigado a utilização de barras de reforço feitas de material composto.
Um estudo foi executado para desenvolver diretrizes sobre a aderência de barras plásticas reforçadas com fibra de vidro ao concreto.
*
*
Histograma para a variável resistência – Saída Minitab. 
*
*
*
*
*
*
*
*
Aulas/13 - Dados Discretos - Exerc�cio.doc
Exercício: O número de partículas de contaminação de uma pastilha de silício antes de certo processo de limpeza foi determinado para cada pastilha em uma amostra de tamanho 100, resultando nas freqüências a seguir.
		
		
		
		
		Tabela 1: Tabela resumida do número de partículas.
		Número de Partículas
		Frequencia
		Número de Partículas
		Frequencia
		0
		1
		8
		12
		1
		2
		9
		4
		2
		3
		10
		5
		3
		12
		11
		3
		4
		11
		12
		1
		5
		15
		13
		2
		6
		18
		14
		1
		7
		10
		 
		 
		Fonte: Devore (2006)
Que proporção das pastilhas da amostra tinha ao menos uma partícula? Ao menos cinco partículas?
Que proporção das pastilhas da amostra tinha entre cinco e dez (inclusive) partículas? Estritamente entre cinco e dez partículas?
Construa um histograma usando a freqüência relativa no eixo vertical. Quais informações você pode obter através do histograma?
Aulas/14 - Dados Continuos - Exerc�cio.doc
Exemplo: A corrosão das barras de aço da armação é um problema sério em estruturas de concreto localizadas em ambientes afetados por condições climáticas extremas. Por esse motivo, os pesquisadores têm investigado a utilização de barras de reforço feitas de material composto. Um estudo foi executado para desenvolver diretrizes sobre a aderência de barras plásticas reforçadas com fibra devido ao concreto. Considere as 48 observações da resistência da aderência medida.
		 
		 
		 
		 
		 
		 
		 
		 
		 
		11,5
		12,1
		9,9
		9,3
		7,8
		6,2
		6,6
		7,0
		13,4
		5,7
		5,4
		5,2
		5,1
		4,9
		10,7
		15,2
		8,5
		4,2
		3,6
		3,4
		20,6
		25,5
		13,8
		12,6
		13,1
		8,9
		8,2
		5,2
		5,5
		5,1
		5,0
		5,2
		4,8
		4,1
		3,8
		3,7
		17,1
		9,3
		5,6
		4,0
		3,9
		3,8
		10,7
		14,2
		7,6
		3,6
		3,6
		3,6
		 
		 
		 
		 
		 
		 
		
		
		
		
		
		
		
		
		
Aulas/15 - Conhecendo a Curva Normal - Localiza��o e dispers�o.xls
Curva Normal
		
		
				Média		11,21				Variância		4,4
						1121						440
Curva Normal
		0		0		0		0		0		0,0000007088
		0,0257391834		0,1153550168		0,1901882698		0,1153550168		0,0257391834		0,0000011627
												0,0000018885
												0,0000030367
												0,0000048345
												0,0000076199
												0,0000118909
												0,0000183709
												0,0000281
												0,0000425538
												0,0000638011
												0,0000947053
												0,0001391802
												0,000202506
												0,0002917128
												0,0004160352
												0,0005874374
												0,0008212025
												0,0011365695
												0,0015573949
												0,0021128008
												0,0028377585
												0,0037735435
												0,0049679857
												0,0064754265
												0,0083562894
												0,0106761734
												0,0135043854
												0,0169118486
												0,0209683567
												0,0257391834
												0,0312811123
												0,0376380112
												0,0448361384
												0,0528794331
												0,0617450911
												0,0713797685
												0,0816967707
												0,0925745694
0,1038569504
												0,1153550168
												0,1268511657
												0,138105029
												0,1488612219
												0,1588585963
												0,167840559
												0,1755659008
												0,181819507
												0,1864222898
												0,1892397019
												0,1901882698
												0,1892397019
												0,1864222898
												0,181819507
												0,1755659008
												0,167840559
												0,1588585963
												0,1488612219
												0,138105029
												0,1268511657
												0,1153550168
												0,1038569504
												0,0925745694
												0,0816967707
												0,0713797685
												0,0617450911
												0,0528794331
												0,0448361384
												0,0376380112
												0,0312811123
												0,0257391834
												0,0209683567
												0,0169118486
												0,0135043854
												0,0106761734
												0,0083562894
												0,0064754265
												0,0049679857
												0,0037735435
												0,0028377585
												0,0021128008
												0,0015573949
												0,0011365695
												0,0008212025
												0,0005874374
												0,0004160352
												0,0002917128
												0,000202506
												0,0001391802
												0,0000947053
												0,0000638011
												0,0000425538
												0,0000281
												0,0000183709
												0,0000118909
												0,0000076199
												0,0000048345
												0,0000030367
												0,0000018885
												0,0000011627
												0,0000007088
+2sd
+1sd
Media
-1sd
-2sd
P(x)
x
P(x)
Curva Normal
Plan2
				x		P(x)
		-5		0,7219115183		0,0000007088				0,7219115183		0		SD-5
		-4,9		0,9316732879		0,0000011627				0,7219115183		0,0000007088
		-4,8		1,1414350576		0,0000018885
		-4,7		1,3511968272		0,0000030367
		-4,6		1,5609585968		0,0000048345
		-4,5		1,7707203665		0,0000076199
		-4,4		1,9804821361		0,0000118909
		-4,3		2,1902439057		0,0000183709
		-4,2		2,4000056754		0,0000281
		-4,1		2,609767445		0,0000425538
		-4		2,8195292146		0,0000638011				2,8195292146		0		SD -4
		-3,9		3,0292909843		0,0000947053				2,8195292146		0,0000638011
		-3,8		3,2390527539		0,0001391802
		-3,7		3,4488145235		0,000202506
		-3,6		3,6585762932		0,0002917128
		-3,5		3,8683380628		0,0004160352
		-3,4		4,0780998324		0,0005874374
		-3,3		4,2878616021		0,0008212025
		-3,2		4,4976233717		0,0011365695
		-3,1		4,7073851413		0,0015573949
		-3		4,917146911		0,0021128008				4,917146911		0		SD -3
		-2,9		5,1269086806		0,0028377585				4,917146911		0,0021128008
		-2,8		5,3366704502		0,0037735435
		-2,7		5,5464322199		0,0049679857
		-2,6		5,7561939895		0,0064754265
		-2,5		5,9659557591		0,0083562894
		-2,4		6,1757175288		0,0106761734
		-2,3		6,3854792984		0,0135043854
		-2,2		6,5952410681		0,0169118486
		-2,1		6,8050028377		0,0209683567
		-2		7,0147646073		0,0257391834				7,0147646073		0		SD -2
		-1,9		7,224526377		0,0312811123				7,0147646073		0,0257391834
		-1,8		7,4342881466		0,0376380112
		-1,7		7,6440499162		0,0448361384
		-1,6		7,8538116859		0,0528794331
		-1,5		8,0635734555		0,0617450911
		-1,4		8,2733352251		0,0713797685
		-1,3		8,4830969948		0,0816967707
		-1,2		8,6928587644		0,0925745694
		-1,1		8,902620534		0,1038569504
		-1		9,1123823037		0,1153550168				9,1123823037		0		SD -1
		-0,9		9,3221440733		0,1268511657				9,1123823037		0,1153550168
		-0,8		9,5319058429		0,138105029
		-0,7		9,7416676126		0,1488612219
		-0,6		9,9514293822		0,1588585963
		-0,5		10,1611911518		0,167840559
		-0,4		10,3709529215		0,1755659008
		-0,3		10,5807146911		0,181819507
		-0,2		10,7904764607		0,1864222898
		-0,1		11,0002382304		0,1892397019
		-0		11,21		0,1901882698				11,21		0		SD 0
		0,1		11,4197617696		0,1892397019				11,21		0,1901882698
		0,2		11,6295235393		0,1864222898
		0,3		11,8392853089		0,181819507
		0,4		12,0490470785		0,1755659008
		0,5		12,2588088482		0,167840559
		0,6		12,4685706178		0,1588585963
		0,7		12,6783323874		0,1488612219
		0,8		12,8880941571		0,138105029
		0,9		13,0978559267		0,1268511657
		1		13,3076176963		0,1153550168				13,3076176963		0		SD+1
		1,1		13,517379466		0,1038569504				13,3076176963		0,1153550168
		1,2		13,7271412356		0,0925745694
		1,3		13,9369030052		0,0816967707
		1,4		14,1466647749		0,0713797685
		1,5		14,3564265445		0,0617450911
		1,6		14,5661883141		0,0528794331
		1,7		14,7759500838		0,0448361384
		1,8		14,9857118534		0,0376380112
		1,9		15,195473623		0,0312811123
		2		15,4052353927		0,0257391834				15,4052353927		0		SD+2
		2,1		15,6149971623		0,0209683567				15,4052353927		0,0257391834
		2,2		15,8247589319		0,0169118486
		2,3		16,0345207016		0,0135043854
		2,4		16,2442824712		0,0106761734
		2,5		16,4540442409		0,0083562894
		2,6		16,6638060105		0,0064754265
		2,7		16,8735677801		0,0049679857
		2,8		17,0833295498		0,0037735435
		2,9		17,2930913194		0,0028377585
		3		17,502853089		0,0021128008				17,502853089		0		SD+3
		3,1		17,7126148587		0,0015573949				17,502853089		0,0021128008
		3,2		17,9223766283		0,0011365695
		3,3		18,1321383979		0,0008212025
		3,4		18,3419001676		0,0005874374
		3,5		18,5516619372		0,0004160352
		3,6		18,7614237068		0,0002917128
		3,7		18,9711854765		0,000202506
		3,8		19,1809472461		0,0001391802
		3,9		19,3907090157		0,0000947053
		4		19,6004707854		0,0000638011				19,6004707854		0		SD+4
		4,1		19,810232555		0,0000425538				19,6004707854		0,0000638011
		4,2		20,0199943246		0,0000281
		4,3		20,2297560943		0,0000183709
		4,4		20,4395178639		0,0000118909
		4,5		20,6492796335		0,0000076199
		4,6		20,8590414032		0,0000048345
		4,7		21,0688031728		0,0000030367
		4,8		21,2785649424		0,0000018885
		4,9		21,4883267121		0,0000011627
		5		21,6980884817		0,0000007088				21,6980884817		0		SD+5
										21,6980884817		0,0000007088
Plan3
		
Aulas/16 - Lista 1 - Laborat�rio de Estat�stica.doc
Lista 1: Lab - Análise Exploratória de Dados
Considere os dados a seguir sobre os tipos de queixas de saúde (J = inflamação de articulações, F = fadiga, B = dor nas costas, M = fadiga muscular, C = tosse, N = irritação nasal/coriza, O = outros) feitas por agricultores. Construa a distribuição de freqüências, um gráfico de barras, um gráfico de pizza e um diagrama de pareto. Que método gráfico você acha melhor para retratar esses dados? Interprete os resultados. Os dados são consistentes com as porcentagens fornecidas no artigo “Physiological Effects of Work Stress and Pesticide Exposure in Tree Planting by British Columbia Silviculture Workers”, Ergonomics, 1993, p. 951-961.
		 
		 
		 
		 
		 
		 
		 
		 
		 
		 
		 
		 
		 
		 
		O
		O
		N
		J
		C
		F
		B
		B
		F
		O
		J
		O
		O
		M
		O
		F
		F
		O
		O
		N
		O
		N
		J
		F
		J
		B
		O
		C
		J
		O
		J
		J
		F
		N
		O
		B
		M
		O
		J
		M
		O
		B
		O
		F
		J
		O
		O
		B
		N
		C
		O
		O
		O
		M
		B
		F
		J
		O
		F
		N
		 
		 
		 
		 
		 
		 
		 
		 
		 
		 
		
		
		
		
		
		
		
		
		
		
		
		
		
		
Os dados a seguir referem-se ao nível de ansiedade observado em 20 pessoas na clínica X em fevereiro de 2010. Construa a distribuição de freqüências, um gráfico de barras, um gráfico de pizza e um diagrama de pareto. Que método gráfico você acha melhor para retratar esses dados? Interprete os resultados.
pessoa
		nível
		pessoa
		nível
		pessoa
		nível
		pessoa
		nível
		I................
		médio
		VI............
		muito baixo
		XI............
		médio
		XVI..........
		alto
		II...............
		baixo
		VII...........
		médio
		XII...........
		alto
		XVII........
		muito alto
		III.............
		médio
		VIII..........
		muito baixo
		XIII..........
		baixo
		XVIII.......
		muito baixo
		IV.............
		baixo
		IX............
		médio
		XIV……..
		baixo
		XIX.........
		médio
		V..............
		alto
		X.............
		baixo
		XV...........
		médio
		XX...........
		baixo
Aulas/17 - Lista 2 - Laborat�rio de Estat�stica.doc
Lista 2: Lab – Análise Exploratória de Dados
Cada pontuação do conjunto de notas de um exame a seguir está nas dezenas 60, 70, 80 ou 90. Um diagrama de ramo-e-folhas com apenas quatro ramos 6, 7, 8 e 9 não forneceria uma descrição detalhada da distribuição das pontuações. Nessas situações, é desejável usarmos ramos repetidos. Aqui podemos repetir o ramo 6 duas vezes, usando 6L para pontuações na parte inferior da dezena dos 60 (folhas 0, 1, 2, 3 e 4) e 6H para as pontuações na parte superior da dezena dos 60 (folhas 5, 6, 7, 8 e 9). De forma similar, os outros ramos podem ser repetidos duas vezes para obtermos um diagrama consistindo em oito linhas. Construa esse diagrama para as pontuações fornecidas. Que característica dos dados é realçada por ele?
		 
		 
		 
		 
		 
		 
		 
		 
		 
		 
		 
		 
		 
		74
		89
		80
		93
		64
		67
		72
		70
		66
		85
		89
		81
		81
		71
		74
		82
		85
		63
		72
		81
		81
		95
		84
		81
		80
		70
		69
		66
		60
		83
		85
		98
		84
		68
		90
		82
		69
		72
		87
		88
		 
		 
		 
		 
		 
		 
		 
		 
		 
		 
		 
		 
		
		
		
		
		
		
		
		
		
		
		
		
		
As propriedades mecânicas permissíveis para projetos estruturais de veículos aeroespaciais metálicos exigem um método aprovado para análise estatística de dados de testes empíricos. O artigo “Establishing Mechanical Property Allowables for Metals” (J. of Testing and Evaluation, 1998, p. 293-299) usou os dados sobre resistência à tração (Ksi) como base para definir as dificuldades de desenvolvimento do método.
		 
		 
		 
		 
		 
		 
		 
		 
		 
		122,2
		124,2
		124,3
		125,6
		126,3
		126,5
		126,5
		127,2
		127,3
		127,5
		127,9
		128,6
		128,8
		129,0
		129,2
		129,4
		129,6
		130,2
		130,4
		130,8
		131,3
		131,4
		131,4
		131,5
		131,6
		131,6
		131,8
		131,8
		132,3
		132,4
		132,4
		132,5
		132,5
		132,5
		132,5
		132,6
		132,7
		132,9
		133,0
		133,1
		133,1
		133,1
		133,1
		133,2
		133,2
		133,2
		133,3
		133,3
		133,5
		133,5
		133,5
		133,8
		133,9
		134,0
		134,0
		134,0
		134,0
		134,1
		134,2
		134,3
		134,4
		134,4
		134,6
		134,7
		134,7
		134,7
		134,8
		134,8
		134,8
		134,9
		134,9
		135,2
		135,2
		135,2
		135,3
		135,3
		135,4
		135,5
		135,5
		135,6
		135,6
		135,7
		135,8
		135,8
		135,8
		135,8
		135,8
		135,9
		135,9
		135,9
		135,9
		136,0
		136,0
		136,1
		136,2
		136,2
		136,3
		136,4
		136,4
		136,6
		136,8
		136,9
		136,9
		137,0
		137,1
		137,2
		137,6
		137,6
		137,8
		137,8
		137,8
		137,9
		137,9
		138,2
		138,2
		138,3
		138,3
		138,4
		138,4
		138,4
		138,5
		138,5
		138,6
		138,7
		138,7
		139,0
		139,1
		139,5
		139,6
		139,8
		139,8
		140,0
		140,0
		140,7
		140,7
		140,9
		140,9
		141,2
		141,4
		141,5
		141,6
		142,9
		143,4
		143,5
		143,6
		143,8
		143,8
		143,9
		144,1
		144,5
		144,5
		147,7
		147,7
		
		
		
		
		
		
		
		
		
Construa um diagrama de ramo-e-folhas dos dados excluindo (truncando) inicialmente os dígitos decimais e depois repetindo cada ramo cinco vezes (uma vez para as folhas 1 e 2, uma segunda vez para as folhas 3 e 4, etc...). Por que é relativamente fácil identificar um valor de resistência representativo?
Construa um histograma usando classes de mesma largura em que a primeira classe possua um limite inferior a 122 e um limite superior a 124. Comente, então, características interessantes do histograma.
Os transdutores de temperatura de um determinado tipo são enviados em lotes de 50. Uma amostra de 60 lotes foi selecionada e o número de transdutores fora da especificação em cada lote foi determinado, resultando nos dados a seguir:
		2
		1
		2
		4
		0
		1
		3
		2
		0
		5
		3
		3
		1
		3
		2
		4
		7
		0
		2
		3
		0
		4
		2
		1
		3
		1
		1
		3
		4
		1
		2
		3
		2
		2
		8
		4
		5
		1
		3
		1
		5
		0
		2
		3
		2
		1
		0
		6
		4
		2
		1
		6
		0
		3
		3
		3
		6
		1
		2
		3
Determine as freqüências e freqüências relativas dos valores observados de x = número de transdutores fora das especificações em um lote.
Que proporção de lotes na amostra possui no máximo cinco transdutores fora das especificações? Que proporção tem menos de cinco? Que proporção possui no mínimo cinco unidades fora das especificações?
Desenhe um histograma dos dados, usando a freqüência relativa na escala vertical e comente suas características.
A transformação de valores de dados por meio de uma função matemática, como √x ou 1/x, normalmente resulta em um conjunto de números com “melhores” propriedades estatísticas do que os dados originais. Em particular, é possível encontrar uma função para a qual o histograma dos valores transformados seja mais simétrico do que os dados originais. Como exemplo, o artigo “Time Lapse Cinematographic Analysis of BerylliumLung Fibroblast Interactions” (Environ. Research, 1983, p. 34-43) relatou os resultados de experimentos projetados para estudar o comportamento de algumas células que foram expostas ao berílio. Uma característica importante de tal célula individual é seu tempo de interdivisão (IDT). Os IDTs foram determinados para um grande número de células em condições de exposição (tratamento) e não-exposição (controle). Os autores do artigo usaram uma transformação logarítmica, isto é, valor transformado = log (valor original). Considere os seguintes dados representativos de IDT:
		 
		 
		 
		 
		 
		 
		IDT
		log(IDT)
		IDT
		log(IDT)
		IDT
		log(IDT)
		28,10
		1,45
		60,10
		1,78
		21,00
		1,32
		31,20
		1,49
		23,70
		1,37
		22,30
		1,35
		13,70
		1,14
		18,60
		1,27
		15,50
		1,19
		46,00
		1,66
		21,40
		1,33
		36,30
		1,56
		25,80
		1,41
		26,60
		1,42
		19,10
		1,28
		16,80
		1,23
		26,20
		1,42
		38,40
		1,58
		34,80
		1,54
		32,00
		1,51
		72,80
		1,86
		62,30
		1,79
		43,50
		1,64
		48,90
		1,69
		28,00
		1,45
		17,40
		1,24
		21,40
		1,33
		17,90
		1,25
		38,80
		1,59
		20,70
		1,32
		19,50
		1,29
		30,60
		1,49
		57,30
1,76
		21,10
		1,32
		55,60
		1,75
		40,90
		1,61
		31,90
		1,50
		25,50
		1,41
		
		
		28,90
		1,46
		52,10
		1,72
		 
		 
		
		
		
		
		
		
Use os intervalos de classes 10-<20, 20-<30, ... para construir um histograma dos dados originais. Use os intervalos 1,1-<1,2, 1,2-<1,3, ... para fazer o mesmo para os dados transformados. Qual é o efeito da transformação?
Em um estudo de quebras de urdidura durante a tecelagem de tecidos (Technometrics, 1982, p. 63),100 amostras de fios foram testadas. O número de ciclos de esforço para quebra foi determinado para cada amostra de fio, resultando nos dados a seguir:
		 
		 
		 
		 
		 
		 
		 
		 
		 
		 
		86
		146
		251
		653
		98
		249
		400
		292
		131
		169
		175
		176
		76
		264
		15
		364
		195
		262
		88
		264
		157
		220
		42
		321
		180
		198
		38
		20
		61
		121
		282
		224
		149
		180
		325
		250
		196
		90
		229
		166
		38
		337
		65
		151
		341
		40
		40
		135
		597
		246
		211
		180
		93
		315
		353
		571
		124
		279
		81
		186
		497
		182
		423
		185
		229
		400
		338
		290
		398
		71
		246
		185
		188
		568
		55
		55
		61
		244
		20
		284
		393
		396
		203
		829
		239
		236
		286
		194
		277
		143
		198
		264
		105
		203
		124
		137
		135
		350
		193
		188
		
		
		
		
		
		
		
		
		
		
Construa um histograma de freqüência relativa com base nos intervalos de classe 0-<100, 100-<200, ... e comente as características do histograma.
Construa um histograma com base nos seguintes intervalos de classe 0-<50, 50-<100, 100-<150, 150-<200, 200-<300, 300-<400, 400-<500, 500-,600 e 600-<900.
Se as especificações de tecelagem exigem um esforço de quebra de ao menos 100 ciclos, que proporção das amostras de fio dessa amostra deve ser considerada satisfatória?
Aulas/18 - Lista 3 - Laborat�rio de Estat�stica.doc
Exercício 01 
Os dados a seguir correspondem aos recordes de atletas de 10 países na Olimpíada de Los Angeles em 1984 em algumas provas de atletismo.
Mulheres
		País
		100m (seg)
		400m (seg)
		3000m (min)
		Maratona (min)
		Argentina
		11,61
		54,50
		9,79
		178,52
		Brasil
		11,31
		52,80
		9,77
		168,75
		Chile
		12,00
		54,90
		9,37
		171,38
		Colômbia
		11,6
		53,26
		9,46
		165,42
		Alemanha
		11,01
		48,16
		8,75
		148,53
		França
		11,15
		51,73
		8,98
		155,27
		Portugal
		11,81
		54,30
		8,84
		151,20
		Canadá
		11,00
		50,06
		8,81
		149,50
		USA
		10,79
		50,62
		8,50
		142,72
		Kenya
		11,73
		52,70
		9,20
		181,05
Homens
		País
		100m (seg)
		400m (seg)
		3000m (min)
		Maratona (min)
		Argentina
		10,39
		46,84
		14,04
		137,72
		Brasil
		10,22
		45,21
		13,62
		133,13
		Chile
		10,34
		46,20
		13,61
		134,03
		Colômbia
		10,43
		46,10
		13,49
		131,35
		Alemanha
		10,16
		44,50
		13,21
		132,23
		França
		10,11
		45,28
		13,34
		132,30
		Portugal
		10,53
		46,70
		13,13
		128,65
		Canadá
		10,17
		45,68
		13,55
		131,15
		USA
		9,93
		43,86
		13,20
		128,22
		Kenya
		10,46
		44,92
		13,10
		129,75
Para cada gênero e modalidade calcule a média, mediana e desvio padrão dos recordes. 
Compare os resultados em (a). Em qual modalidade as diferenças quanto ao gênero é maior? E em qual é menor? 
Utilizando gráficos boxplot faça uma comparação do desempenho entre os sexos nas quatro modalidades. Comente. 
Aulas/19 - Lista 3.doc
Análise Exploratória de Dados
Considere as observações a seguir sobre resistência (MPa) de uma junta soldada de uma determinada forma:
		22,2
		40,4
		16,4
		73,7
		36,6
		109,9
		30
		4,4
		33,1
		66,7
		81,5
		
Determine a média amostral.
Determine a mediana amostral. Por que este valor é tão diferente da média?
Se uma constante c é adicionada a cada xi de uma amostra, resultando em yi = xii + c, como a média e a mediana amostrais dos yi se relacionam com a média e a mediana dos xi? Verifique suas hipóteses. Agora, se cada xi é multiplicado por uma constante c, resultando em yi = cxi, responda à questão da parte (a). Verifique novamente suas hipóteses.
A pressão mínima de injeção (psi) em amostras de moldagem por injeção de milho de alta amilose foi determinada para oito amostras diferentes (pressões mais altas correspondem a maio dificuldade de processamento), resultando nas observações a seguir:
		15,0
		13,0
		18,0
		14,5
		12,0
		11,0
		8,9
		8,0
Determine os valores da média amostral e da mediana amostral, compare-os.
Em quanto a menor observação da amostra, atualmente 8,0 pode ser aumentada sem afetar o valor da mediana amostral?
Suponha que desejemos que os valores da média e da mediana amostrais sejam expressos em quilogramas (ksi) em vez de psi. É necessário mudar as unidades de cada observação ou os valores calculados na parte (a) podem ser usados diretamente? Dica: 1 ksi= 1\2,2 psi.
O artigo “Snow Cover and Temperature Relationships in North America and Eurasia” (J. Climate and Applied Meteorology, 1983, p. 460-469) usou técnicas estatísticas para relacionar a quantidade de cobertura de neve em cada continente com a temperatura média continental. Os dados apresentados incluíram 10 observações a seguir sobre a cobertura de neve, em outubro, na Eurásia, durante 1970 e 1979 (em milhões de km2):
		6,5
		12,0
		14,9
		10,0
		10,7
		7,9
		21,9
		12,5
		14,5
		9,2
 
O que você descreveria como valor característico ou representativo da cobertura de neve em outubro para esse período e o que levou a essa escolha?
Calcule e interprete os valores da mediana amostral, da média amostral e do desvio padrão amostral das observações a seguir da resistência à ruptura (MPa):
		87
		93
		96
		98
		105
		114
		128
		131
		142
		168
Um estudo da relação entre idade e diversas funções visuais (como precisão e percepção de profundidade) informou as seguintes observações da área de lâmina escleral (mm2) nas extremidades do nervo óptico humano:
		2,75
		2,62
		2,74
		3,85
		2,34
		2,74
		3,93
		4,21
		3,88
		4,33
		3,46
		4,52
		2,43
		3,65
		2,78
		3,56
		3,01
		
Calcule ∑ xi e ∑ xi2.
Use os valores calculados na parte (a) para obter a variância amostral e o desvio padrão amostral.
O artigo “A thin-Film Oxygen Uptake Test for the Evaluation of Automotive Crankcase Lubricants” (Lubric. Engr., 1984, p. 75-83) informou os seguintes dados sobre tempo de oxidação-indução (min) para diversos óleos comerciais:
		87
		103
		130
		160
		180
		195
		132
		145
		211
		105
		145
		153
		152
		138
		87
		99
		93
		119
		129
		
		
		
Calcule a variância e o desvio padrão amostrais.
Se as observações fossem especificadas em horas, quais seriam os valores resultantes para a variância e para o desvio padrão amostrais? Responda sem reescrever os valores.
Reconsidere
os dados do exercício (7).
Determine o primeiro, o segundo e o terceiro quartis.
Calcule a amplitude interquartil.
Se os dois maiores valores da amostra, 4,33 e 4,52, fossem 5,33 e 5,52, como a amplitude interquartil seria afetada? Explique.
Reconsidere as observações de resistência (MPa) apresentadas no exercício (1).
Quais são os valores dos quartis e qual é o valor da amplitude interquartil?
Faça um resumo dos cinco números.
Construa um boxplot com base no resumo dos cinco números e comente suas características.
Quão grande ou pequena deve ser uma observação para se qualificar como um outlier?
A quantidade de contaminação por alumínio (ppm) em certo tipo de plástico foi determinada para uma amostra de plástico, resultando nos dados a seguir:
		30
		30
		60
		63
		70
		79
		87
		90
		101
		102
		115
		118
		119
		119
		120
		125
		140
		145
		172
		182
		183
		191
		222
		244
		291
		511
		
 Construa um boxplot que mostre outliers e comente suas características.
Uma amostra de 20 garrafas de certo tipo de vidro foi selecionada e a resistência à pressão interna de cada garrafa foi determinada. Considere as seguintes informações parciais da amostra:
Mediana = 202,2 Q1 = 196,0 Q3 = 216,8
Três observações menores: 125,8 188,1 193,7
Três observações maiores: 221,3 230,5 250,2
Há algum outlier na amostra?
b) Construa um boxplot e comente suas características. 
Os seguintes dados sobre emissões de HC (gm/mi) e CO (gm/mi) para um determinado veículo foram fornecidos:
		HC
		13,8
		18,3
		32,2
		32,5
		CO
		118
		149
		232
		236
Calcule os desvios padrão amostrais das observações de HC e CO.
Calcule os coeficientes de variação. O coeficiente de variação avalia a dispersão em relação à media. Valores desses coeficientes de diversos conjuntos de dados exibem mais ou menos dispersão. Faça uma comparação dos dados fornecidos.
Aulas/20 - Aula 3.pptx
Correlação 
O gráfico de Dispersão Bidimensional
O gráfico de Dispersão Bidimensional
Suponha que estejamos interessados em um par de variáveis aleatórias continuas, sendo uma delas medidas no mesmo conjunto de pessoas, países ou outras unidades de estudo.
O gráfico de Dispersão Bidimensional
O gráfico de Dispersão Bidimensional
O gráfico de Dispersão Bidimensional
A porcentagem de crianças imunizadas contra DPT aparece no eixo horizontal e a taxa de mortalidade de cinco anos no eixo vertical. 
Obviamente, a taxa de mortalidade tende a decrescer conforme a porcentagem de crianças imunizadas aumenta.
O gráfico de Dispersão Bidimensional
Nação
Porcentagem
Imunizada
Taxa de Mortalidade por
1.000 nascidos vivos
Bolívia
77
118
Brasil
69
65
Camboja
32
184
Canadá
85
8
China
94
43
República Tcheca
99
12
Egito
89
55
Etiópia
13
208
Finlândia
95
7
França
95
9
Grécia
54
9
Índia
89
124
Itália
95
10
Japão
87
6
México
91
33
Polônia
98
16
Federação Russa
73
32
Senegal
47
145
Turquia
76
87
Reino Unido
90
9
O gráfico de Dispersão Bidimensional
O gráfico de Dispersão Bidimensional
O gráfico de Dispersão Bidimensional
Coeficiente de Correlação de Pearson
Coeficiente de Correlação de Pearson
Coeficiente de Correlação de Pearson
Coeficiente de Correlação de Pearson
Coeficiente de Correlação de Pearson
No entanto, é preciso tomar cuidado ao interpretarmos essa relação. 
Um efetivo programa de imunização pode ser a razão primária para o decréscimo da mortalidade ou uma ramificação de um bem-sucedido sistema abrangente de cuidados em saúde, que é a própria causa do decréscimo. 
O coeficiente de correlação meramente nos diz que existe uma relação linear entre duas variáveis e não especifica se a relação é de causa e efeito.
Coeficiente de Correlação de Pearson
OBS.: devemos ter me mente que uma alta correlação entre duas variáveis não implica que ela própria seja uma relação de causa e efeito, tudo devido a correlação de Pearson ser muito sensível a valores atípicos.
Coeficiente de Correlação de Pearson
Considere a seguinte a distribuição conjunta de X e Y:
Calcular o coeficiente de correlação de Pearson.
Exemplo:
x/y
-2
-1
4
5
1
0,1
0,2
0
0,3
2
0,2
0,1
0,1
0
Exemplo:
Exemplo:
Exemplo:
A contagem do numero de plaquetas por mm³ e o ângulo de agregação plaquetária em adrenalina após 5 minutos de 10 pacientes com artrite reumatoide estão assinalados abaixo. Faça um diagrama de dispersão e interprete seu formato:
Exercício:
Paciente
Plaquetas (x)
Ângulo (y)
1
460
60
2
820
25
3
306
60
4
302
50
5
340
62
6
394
60
7
344
58
8
562
60
9
360
61
10
782
41
Para as variáveis aleatórias discretas X e Y, com distribuição conjunta, determine coeficiente de correção:
Exercício:
0,2
0,1
0,1
0,1
0,1
0,4
Aulas/21 - Aula 3 Pr�itica series temporais.doc
Universidade Federal de Juiz de Fora
Instituto de Ciências Exatas
Departamento de Estatística
Analise Exploratória de Dados
Aula Pratica de Series Temporais:
Criar os bancos abaixo nos software Excel, SPSS-15 (Dropline)e interpretar os resultados. Entregar as analises em uma folha separada ao final da aula.
Venda por importação e exportação de sacas de café por milhão de dólares:
		Mês
		2010
		2011
		2012
		Janeiro
		31,9
		39,4
		45
		Fevereiro
		27
		36,2
		39,6
		Março
		31,3
		40,5
		 
		Abril
		31
		44,6
		 
		Maio
		39,4
		46,8
		 
		Junho
		40,7
		44,7
		 
		Julho
		42,3
		52,2
		 
		Agosto
		49,5
		54
		 
		Setembro
		45
		48,8
		 
		Outubro
		50
		55,8
		 
		Novembro
		50,9
		58,7
		 
		Dezembro
		58,5
		63,4
		 
Valores do investimento em saúde:
		Ano/Trimestre
		1º
		2º
		3º
		4º
		1992
		24560
		26840
		23330
		25410
		1993
		26760
		29420
		24500
		27840
		1994
		30400
		33770
		30660
		33643
		1995
		34783
		36389
		31418
		34547
		1996
		36261
		37937
		33,96
		38833
		1997
		36202
		40265
		36096
		39952
		1998
		36584
		37289
		32,64
		37903
		1999
		37885
		42282
		37973
		44418
		2000
		42894
		44519
		40064
		 
Valores da receita de produtos importados que entram no Brasil:
		Ano
		Receita (milhoes de dolares)
		1981
		1622,8
		1982
		1587,7
		1983
		1558
		1984
		1752,5
		1985
		1407,5
		1986
		1309,9
		1987
		1424
		1988
		1676,6
		1989
		1936,9
		1990
		1684,7
		1991
		1488
		1992
		1562,2
		1993
		1618,5
		1994
		1686,6
		1995
		1840,9
		1996
		1865,2
		1997
		1636,7
		1998
		1652,8
		1999
		1699
 
Temperatura de uma determinada substancia química com o passar do tempo:
		1
		3,16
		2
		2,57
		3
		2,4
		4
		2,76
		5
		2,37
		6
		2,83
		7
		3,04
		8
		2,65
		9
		2,4
		10
		2
		11
		2,33
		12
2,75
		13
		2,46
		14
		2,91
		15
		3,04
		16
		3,17
		17
		2,76
		18
		2,55
		19
		2,36
		20
		2,47
Aulas/22 - Aula 4.pptx
Analise de Séries Temporais
Chamamos de Série temporal um conjunto de observações ordenadas no tempo, comumente em intervalos iguais. 
Introdução
São exemplos de séries temporais:
 os valores diários do preço das ações de uma empresa, na bolsa de valores
de São Paulo;
os valores mensais da temperatura na região centro-oeste do Brasil.
a produção anual de café no estado do Goiás;
as quantidades anuais de chuva na cidade de Goiânia;
a produção total anual de aço no Brasil.
Introdução
Uma série temporal pode ser representada ilustrativamente, através de um gráfico de Y em função de t, num sistema de eixos cartesianos.
Introdução
A primeira série que servirá de exemplo respeita a concentrações médias de CO2 na atmosfera, registadas no observatório de Mauna Loa, Hawaii, de 1974 a 1987. Estas concentrações foram monitoradas pelo analisador contínuo de infra-vermelhos da Divisão de Monitoramento Geofísico para a Mudança Climática do Laboratório de Recursos Atmosféricos do NOAA (National Oceanic and Atmospheric Administration, USA).
Introdução
Introdução
Concentração mensal de CO2 como o rácio de mistura em ar seco, expressa na escala de fracções molares WMO X85, registada no Scripps Institution of Oceanography
A primeira figura ilustra a evolução da série. 
É claro que esta série nos desperta a atenção para o problema ambiental global do efeito de estufa e permite um conjunto de reflexões importante, se bem que fora do âmbito do presente texto.
Observando-a, constatamos um comportamento sazonal e uma tendência de fundo continuamente crescente.
Introdução
O consumo total de gás na cidade de Lisboa, observado pela empresa Gás de Portugal, S.A., que ao tempo era concessionária da distribuição de gás de cidade, exprime-se em m3 por dia, à pressão de medida normalizada, valor obtido por soma dos consumos horários registados à saída da fábrica de gás. Para além dos fins de semana, há que ter em conta também a ocorrência de feriados, que influenciam o padrão de consumo, perturbando a regularidade do comportamento semanal.
introdução
Introdução 
Consumos diários de gás de cidade em Lisboa, entre 1 de Setembro e 20 de Dezembro de 1990, registados em m3. As abcissas correspondem à numeração sequencial dos dias do ano, de 1 a 365, estando assinalados os Domingos.
Uma série temporal possui alguns movimentos característicos, denominados de componentes fundamentais, que são definidos a seguir:
Componentes Fundamentais de uma Série Temporal
 Componente tendencial (T) :
 Também chamada de tendência ou tendência secular. 
É um movimento evolutivo que traduz a influencia de fatores que fazem com que o fenômeno tenha a sua intensidade aumentada ou diminuída com o passar do tempo. 	
Componentes Fundamentais de uma Série Temporal
Esta componente se caracteriza, portanto, como um movimento ascendente ou descendente de longa duração (períodos maiores de que um ano).
Quando uma série temporal não apresenta qualquer tipo de tendência, ascendente nem descendente, ela é chamada de “série estacionária”.
Componentes Fundamentais de uma Série Temporal
Componentes Fundamentais de uma Série Temporal
Figura – Série virtual de vendas totais anuais para empresa fictícia à qual foi associada uma tendência
artificial.
Componente estacional (E):
 Também chamada de estacionalidade, componente sazonal ou sazonalidade. 
É um movimento oscilatório de curta duração (períodos menores do que um ano) que traduz a influência de fatores cuja atuação é periódica, no sentido de aumentar ou diminuir a intensidade do fenômeno.
Componentes Fundamentais de uma Série Temporal
Componentes Fundamentais de uma Série Temporal
Componente cíclica (C):
 É um movimento oscilatório de longa duração que exprime a influência de fatores aleatórios de ação reiterada. 
Tal componente indica as fazes de expansão e contração das atividades econômicas, sendo de duração não fixa.
Componentes Fundamentais de uma Série Temporal
Em geral quanto aos ciclos, podemos denominar:
ciclos longos: duração de mais ou menos cinquenta anos.
ciclos médios: duração de mais ou menos dez anos.
ciclos curtos: duração de dois a sete anos.
Componentes Fundamentais de uma Série Temporal
Série virtual de vendas totais anuais para uma empresa fictícia – média móvel.
Agora, pode-se perceber que os períodos compreendidos entre os anos 20 e 40 bem como entre os anos 60 e 80 tiverem baixa venda. Houve um período de alta venda entre os anos 40 e 60 e outro, a partir dos anos 90
Componentes Fundamentais de uma Série Temporal
Série virtual de vendas totais anuais para uma empresa fictícia – média móvel.
Agora, pode-se perceber que os períodos compreendidos entre os anos 20 e 40 bem como entre os anos 60 e 80 tiverem baixa venda. Houve um período de alta venda entre os anos 40 e 60 e outro, a partir dos anos 90
Componentes Fundamentais de uma Série Temporal
Componente aleatória (A) :
 Também chamada de componente irregular. 
É um movimento oscilatório de curta duração e de grande instabilidade que exprime a influência de fatores casuais, como por exemplo, secas, enchentes, greves, eleições, etc...
Componentes Fundamentais de uma Série Temporal
Componentes Fundamentais de uma Série Temporal
Indique quais são os componentes encontrados nos series temporais:
Exercícios:
Oscilação meridional: média mensal da diferença de pressão barimétrica entre Tahiti e as Ilhas Darwin, no Oceano Pacífico.
Exercícios:
Exercícios:
Trechos da função seno (linha tracejada) e co-seno (linha sólida) para intervalols entre 0o e 450o, ou 0 a 5/2 radianos. Cada curva executa um ciclo completo a cada 2 radianos e se estende de - a +.
Exercícios:
Construa um diagrama serie temporal e interprete:
Exercícios:
t=mês
TemperaturaoC
1
-5.44
2
-5.17
3
0.11
4
6.89
5
12.67
6
17.94
7
20.44
8
19.5
9
15.67
10
9.72
11
4.06
12
-2.56
A que movimento característico de uma série
temporal está fortemente associada cada uma das
seguintes ocorrências:
a) Um incêndio em uma fábrica, atrasando a produção em três semanas.
b) Uma era de prosperidade.
c) Uma venda anterior à páscoa, em uma loja de chocolates.
d) A necessidade de aumentar a produção de trigo devido ao acréscimo constante da população.
e) Números mensais de centímetros de precipitação de chuva em uma cidade durante um período de cinco anos.
Exercícios:
Aulas/23 - Aula 4 Pratica.doc
 Universidade Federal de Juiz de Fora
Instituto de Ciências Exatas
Departamento de Estatística
 
 Exercícios sobre o software estatístico SPSS-15 (correlação e demais estatísticas) 
Criar um arquivo com as variáveis abaixo.
Ordenar os dados em forma crescente (sort cases)
Obter as tabelas de frequência de sexo, hipertenso e obeso.
Obter o gráfico de barras e de setores de sexo, hipertenso e obeso. 
Obter o histograma de altura, idade.
Obter o Box-plot de PAS, PAD e FC
Obter as estatísticas descritivas de altura, peso 1, peso 2, a idade, PAS, PAD e FC.
Obter o diagrama de dispersão e o coeficiente de correlação das variáveis: idade x peso 1/2, altura x peso 1/2, peso1/2 x PAS, peso1/2 x PAD e peso1/2 x FC, existe associação entre as variáveis?
		Identificação
		Idade
		Sexo
		Altura
		Peso 1
		Peso 2
		Obeso
		Hipertenso
		PAS
		PAD
		FC
		394
		21
		0
		1,59
		57
		54
		0
		0
		153
		75
		54
		265
		32
		1
		1,64
		110
		98
		1
		1
		175
		87
		73
		299
		33
		1
		1,59
98
		70
		1
		0
		130
		70
		67
		545
		21
		1
		1,60
		59
		54
		0
		0
		136
		70
		84
		555
		25
		0
		1,56
		56
		55
		0
		0
		120
		80
		60
		588
		31
		1
		1,63
		57
		56
		0
		0
		130
		70
		68
		813
		25
		0
		1,49
		53
		52
		0
		0
		160
		100
		86
		29
		39
		1
		1,56
		52
		49
		0
		0
		140
		90
		72
		695
		26
		0
		1,49
		53
		49
		0
		0
		140
		90
		64
		34
		17
		0
		1,45
		44
		46
		0
		0
		133
		59
		83
		48
		21
		0
		1,53
		50
		52
		0
		1
		93
		64
		43
		77
		30
		0
		1,50
		99
		78
		1
		1
		110
		60
		76
		140
		17
		1
		1,65
		112
		87
		1
		0
		120
		90
		72
		235
		23
		0
		1,45
		98
		82
		1
		1
		169
		122
		78
		351
		15
		1
		1,73
		120
		98
		1
		1
		134
		77
		80
		405
		23
		0
		1,45
		54
		52
		0
		0
		120
		70
		60
		440
		14
		1
		1,49
		53
		51
		0
		0
		170
		110
		82
		446
		19
		0
		1,60
		110
		99
		1
		0
		137
		66
		72
		527
		19
		1
		1,54
		56
		53
		0
		0
		170
		80
		60
		528
		24
		1
		1,85
		148
		97
		1
		1
		110
		80
		76
		541
		31
		1
		1,80
		159
		99
		1
		1
		190
		90
		72
		556
		40
		0
		1,50
		89
		81
		1
		0
		135
		76
		64
		674
		30
		0
		1,45
		49
		52
		0
		0
		140
		80
		64
		748
		27
		0
		1,51
		50
		49
		0
		0
		137
		85
		68
Variáveis: 0-Fem 0- Normal 0- Normal
 1-Mas 1- Obeso 1- Hipertenso
Aulas/24 - Lista de exercicio.doc
Universidade Federal de Juiz de Fora
Instituto de Ciências Exatas
Departamento de Estatística
Analise Exploratória de Dados
Lista de Exercício:
Os dados seguintes vêm de um estudo concebido para investigar problemas de bebida entre os estudantes universitários. Em 2000, foi perguntado a um grupo se já dirigira um automóvel depois de beber. Em 2010, depois de atingida a idade legal para o mesmo consumo de bebidas, foi feita a mesma questão a outro grupo universitário. 
		Dirigia enquanto bebia
		Total
		
Total
		
		2000
		2010
		
		Sim
		1250
		991
		2241
		Não
		1387
		1666
		3053
		Total
		2637
		2657
		5294
a)Qual é a razão de universitários que bebiam enquanto dirigiam no ano de 2000 e 2010. Comente sobre os resultados. 
b) Qual e proporção de universitários que bebiam enquanto dirigiam e dos que não dirigiam.
c) Desenho o gráfico de barras paralelas dos universitários que bebiam ou não em relação aos anos.
d) Calcule as medidas de associação.
Em um estudo de variabilidade intra-observadores na avaliação de manchas cervicais, 3325 slides foram triados com relação à presença ou ausência de células escamosas anormais. Cada slide foi triado por um observador.
		Primeira
Triagem
		Segunda Triagem
		
Total
		
		Presente
		Ausente
		
		Presente
		1763
		489
		2252
		Ausente
		403
		670
		1073
		total
		2166
		1159
		3325
a) Qual a razão de manchas cervicais presentes da primeira triagem e presente/ausente na segunda triagem? E os ausentes na primeira triagem com presente/ausente na segunda triagem? Comente sobre os resultados.
b) Qual a proporção de manchas cervicais presentes e ausentes na primeira triagem?
c) Desenhe o gráfico de barras paralelas entre a primeira triagem em relação a segunda.
d) Calcule as medidas de associação.
Um administrador de Marketing conduz um estudo para determinar se existe uma relação linear entre o dinheiro gasto em propaganda e as vendas de uma companhia. Os dados estão dispostos abaixo. Desenhe o diagrama de dispersão e interprete seu resultado:
		Gasto com propaganda (milhares de dólares), x
		Venda da empresa ( milhares de dólares) Y
		2,4
		225
		1,6
		184
		2,0
		220
		2,6
		240
		1,4
		180
		1,6
		184
		2,0
		186
		2,2
		215
Calcule os coeficientes de correlação das duas tabelas abaixo. Comente os resultados:
a)
		X
		1
		2
		3
		Y
		7
		9
		11
		
		0,2
		0,6
		0,2
b)
		y/x
		1
		2
		4
		3
		1/8
		0
		0
		4
		1/4
		0
		0
		5
		0
		1/2
		0
		6
		0
		0
		1/8
Desenhe o gráfico de serie temporal e interprete seu resultado:
		t=mês
		Temperatura oC
		 1
		-5.44
		2
		-5.17
		3
		0.11
		4
		6.89
		5
		12.67
		 6
		17.94
		7
		20.44
		8
		19.5
		9
		15.67
		10
		9.72
		11
		4.06
		12
		-2.56

Teste o Premium para desbloquear

Aproveite todos os benefícios por 3 dias sem pagar! 😉
Já tem cadastro?