Esta é uma pré-visualização de arquivo. Entre para ver o arquivo original
1 1 � Aplicações da Estatística � População e amostra � Conceito e divisão � Síntese histórica � Escalas de medida � Classificação de variáveis � Método científico e a Estatística � Coleta de dados Introdução 2 3 � Um político quer saber qual é o percentual de eleitores que pretende votar nele nas próximas eleições. � Cientistas querem verificar se uma nova vacina contra a dengue faz efeito. � Uma montadora de automóveis quer verificar a qualidade de um lote inteiro de peças fornecidas através de uma pequena amostra. Parte de perguntas/desafios do mundo real 4 MatériaMatéria--primaprima dada EstatísticaEstatística →→→→→→→→ variabilidade É “difícil” encontrar duas coisas exatamente iguais Objetivo da Estatística Objetivo da Estatística →→→→→→→→ A Estatística desenvolve métodos para descobrir e expor os padrões de comportamento (regularidade) que estão escondidos nos dados. Definição de Estatística � A estatística engloba um conjunto de métodos científicos para: � coleta, organização, resumo e análise de dados. � obtenção de conclusões (suporte à tomada de decisão) 2 5 Limitações ���� A estatística não corrige erros grosseiros e técnicas defeituosas. Como toda informação está contida nos dados, se estes forem falsos ou viciados será falsa qualquer conclusão que deles for retirada; ���� Não substitui o julgamento crítico do pesquisador. “Algumas pessoas usam a estatística como um bêbado usa um poste de iluminação, para servir de apoio e não para iluminar.” Andrew Lang 6 �� PopulaçãoPopulação �� AmostraAmostra �� AmostragemAmostragem Alguns conceitos básicos: 7 UnidadesUnidades População:População: é o conjunto de todas as unidades (elementos) de interesse que têm pelo menos uma característica em comum. Pode ser finita finita ou infinitainfinita.. Exemplo: Pesquisas eleitorais no RS Característica definidora → votar no RS População → conjunto de todos os eleitores que votam no RS Unidade → o eleitor 8 AmostraAmostra é parte de uma população, convenientemente escolhida, que tem a finalidade de representá-la. Deve apresentar as mesmas características da população. AmostragemAmostragem é a metodologia de obtenção das amostras. 3 9 � Antes da eleição diversos órgãos de pesquisa e imprensa ouvem um conjunto selecionado de eleitores para ter uma ideia do desempenho dos vários candidatos nas futuras eleições. � Uma empresa metal-mecânica toma uma amostra do produto fabricado em intervalos de tempo especificados para verificar se o processo está sob controle e evitar a fabricação de itens defeituosos. � O IBGE faz levantamentos periódicos sobre emprego, desemprego, inflação, etc. � Redes de rádio e TV se utilizam constantemente dos índices de popularidade dos programas para fixar valores da propaganda ou então modificar ou eliminar programas com audiência insatisfatória. Exemplos 10 Por que fazer amostragem? � população infinita � diminuir custo � aumentar velocidade na caracterização (medidas que variam no tempo) � minimizar perdas por medidas destrutivas Quanto amostrar? depende: � da variabilidade original dos dados (maior variabilidade → maior n) � da precisão requerida na estimação (maior precisão → maior n) � do tempo disponível (menor o tempo → menor n) � do custo da amostragem (maior o custo → menor n) 11 AmostragemAmostragem Todos os elementos da população têm probabilidade conhecida e diferente de zero de participar da amostra. A realização deste tipo de amostragem só é possível se a população for finita e totalmente acessível. Não probabilística:Não probabilística: Probabilística:Probabilística: Presença dos elementos na amostra deve-se a outros critérios. Por exemplo, quando somos obrigados a colher a amostra na parte da população a que temos acesso. A amostragem probabilísticaprobabilística é a mais recomendável porque garante a imparcialidadeimparcialidade da amostra. 12 Amostragem não probabilística:Amostragem não probabilística: Amostragem probabilística:Amostragem probabilística: � Amostragem aleatória simples � Amostragem aleatória estratificada � Amostragem aleatória por conglomerados � Amostragem aleatória sistemática � Amostragem intencional � Amostragem por quota � Amostragem a esmo 4 13 Amostragem probabilística Amostragem probabilística –– aleatória simplesaleatória simples � É equivalente a um sorteio de loteria; � Considera a população homogênea; � Cada elemento da população tem a mesma oportunidade de ser escolhido; � Utilizam-se números aleatórios, programas computacionais, calculadoras, bolinhas numeradas, etc. Exemplo: Imagine que você queira amostrar um número de pessoas que estão fazendo um determinado concurso com N inscritos. Devemos enumerar cada um dos N candidatos e sortear n deles. Amostragem probabilística Amostragem probabilística –– estratificadaestratificada � Quando a variável de interesse apresenta heterogeneidade na população e esta heterogeneidade permite a identificação de grupos homogêneos, divide-se a população em grupos (estratos) e faz-se uma amostragem dentro de cada estrato, garantindo, assim, a representatividade de cada estrato na amostra. Exemplo: Podemos verificar que pesquisas eleitorais apresentam uma grande heterogeneidade em relação à intenção de votos, quando consideramos, por exemplo, a faixa salarial ou o nível de escolaridade. 14 15 Amostragem probabilística Amostragem probabilística –– por conglomeradospor conglomerados � A população já é dividida em diferentes conglomerados (grupos), extraindo-se uma amostra apenas dos conglomerados selecionados, e não de toda a população. O ideal é que cada conglomerado represente tanto quanto possível o total da população. � Os conglomerados são definidos em função da experiência do pesquisador. Geralmente, podemos definir os conglomerados por fatores geográficos, como por exemplo, bairros e quarteirões. Exemplo: este tipo de amostragem é muito útil quando a população é grande, por exemplo, no caso de uma pesquisa em nível nacional. 16 Amostragem probabilística Amostragem probabilística –– sistemáticasistemática � Quando os elementos da população se apresentam ordenados e a retirada dos elementos da amostra é feita periodicamente, temos uma amostragem sistemática. � É de fundamental importância que a variável de interesse não apresente ciclos de variação coincidente com os ciclos de retirada, pois este fato tornará a amostragem não aleatória. Exemplo: em uma linha de produção, podemos, a cada dez itens produzidos, retirar um para avaliar a qualidade da produção. 5 17 Amostragem não probabilística Amostragem não probabilística –– intencionalintencional � A amostra pesquisada muitas vezes está disponível no local e no momento onde a pesquisa está sendo realizada. � A seleção das unidades amostrais é deixada a cargo do pesquisador. Com base em seu julgamento, o pesquisador seleciona os elementos que julga mais representativos da população. Exemplos: • Para saber a preferência por determinado cosmético, o pesquisador entrevista os frequentadores de um grande salão de beleza. • Para saber a aceitação em relação a uma nova marca de whisky a ser inserida no mercado, farão parte da amostra pessoas que façam uso da bebida e que tenham condições financeiras de comprar esta nova marca. 18 Amostragem não probabilística Amostragem não probabilística –– por quotapor quota � A população é dividida em grupos, e seleciona-se uma cota proporcional ao tamanho de cada grupo. Entretanto, dentro de cada grupo não é feito sorteio, e sim os elementos são procurados até que a cota de cada grupo seja cumprida. � As quotas asseguram que a composição da amostra seja a mesma da população com relação às características escolhidas. Exemplo: Em pesquisas eleitorais, a divisão de uma população em grupos (ex. sexo, escolaridade, idade e renda) pode servir de base para a definição dos grupos, partindo da suposição de que estas variáveis definem grupos com comportamentos diferenciados no processo eleitoral. Para saber o tamanho destes grupos, pode-se recorrer a pesquisas feitas anteriormente pelo IBGE. 19 Amostragem não probabilística Amostragem não probabilística –– a esmoa esmo � É a amostragem em que o pesquisador, para simplificar o processo, procura ser aleatório sem, no entanto, realizar propriamente o sorteio usando algum dispositivo aleatório confiável. � Os resultados da amostragem a esmo são, em geral, equivalentes aos da amostragem probabilística se não existir a possibilidade de o pesquisador ser inconscientemente influenciado por alguma característica da população. Exemplo: Se desejarmos retirar uma amostra de 100 parafusos de uma caixa contendo 10.000, evidentemente não faremos uma AAS, pois seria muito trabalhosa a tarefa de enumeração destes parafusos. Então retiramos simplesmente a esmo (sem regra) nossa amostra. 20 � Riscos da amostragem: o processo de amostragem envolve riscos, pois toma-se decisões sobre toda a população com base em apenas uma parte dela. � A teoria da probabilidade pode ser utilizada para fornecer uma ideia do risco envolvido, ou seja, do erro que se comete ao utilizar uma amostra ao invés de toda a população. 6 21 �� DescritivaDescritiva �� InferênciaInferência Divisão da Estatística 22 Estatística Descritiva �É a parte da estatística que cuida: � da apresentação de dados através de tabelas e gráficostabelas e gráficos � do resumo ou descrição de dados através de medidas descritivasmedidas descritivas �Em geral, não tem por objetivos tirar conclusões. 23 � Métodos que propiciem a realização das inferências sobre populações a partir de amostras delas retiradas, tendo por base o cálculo das probabilidades � Trabalha basicamente com dois grandes tópicos: �� estimaçãoestimação dede parâmetrosparâmetros e �� testestestes dede hipóteseshipóteses Inferência Estatística 24 �������� Existem indícios de que há mais de 2000 anos a.C. já se faziam censos na Babilônia, na China e no Egito. Informações históricas �������� O objetivo do censo era saber o número de pessoas disponíveis para fazer a guerra e para a cobrança de impostos. 24 �������� A Estatística teve origem na necessidade do Estado Político conhecer os seus domínios. �������� Sob a palavra Estatística, provavelmente derivada da palavra “status”“status” (estado, em latim), acumularam-se descrições e dados relativos ao Estado. Nas mãos dos governantes, a Estatística passou a constituir-se verdadeira ferramenta administrativa. 7 25 Jonh GrauntJonh Graunt (1620 (1620 -- 1674)1674) William Petty William Petty (1623 (1623 -- 1687)1687) Resultado: o número de nascimentos de crianças do sexo masculino era ligeiramente superior ao de nascimentos de crianças do sexo feminino 25 �������� Século XVII →→→→ a aritmética política (demografia) ganhou destaque na Inglaterra a partir das tábuas de mortalidade de GrauntGraunt e PettyPetty. Tábuas de mortalidadeTábuas de mortalidade: exaustivas análises de nascimentos e mortes Esse levantamento originou o “DomesdayDomesday BookBook” (Livro do dia do juízo final) que serviria de base também para o cálculo de impostos. �������� Em 1085, Guilherme I, o Conquistador, ordenou que se fizesse um levantamento estatístico da Inglaterra, com informações sobre terras, proprietários, empregados e animais. 26 �������� A partir das distribuições de probabilidade foi possível a criação de técnicas de amostragem mais adequadas e de formas de relacionarrelacionar asas amostrasamostras comcom asas populaçõespopulações. �������� Outro marco decisivo no desenvolvimento da Estatística foi o advento da computaçãocomputação, ferramenta que permitiu que a Estatística ampliasse seus horizontes. 26 �������� Um grande avanço na teoria das probabilidades se deu, no início do século XIX, através dos estudos de LaplaceLaplace e GaussGauss que descreveram a famosa Distribuição NormalDistribuição Normal f r e q u ê n c i a estatura da população brasileira estatura média A maioria das A maioria das observações observações se concentra se concentra em torno da em torno da médiamédia 27 � Características e variáveis � Escalas de medida � Classificação de variáveis Conceitos fundamentais 27 28 �� CaracterísticaCaracterística é uma propriedade qualquer das unidades de uma população. � Não há interesse nas unidades em si e sim nas suas características. � Denominamos níveisníveis as alternativas para uma característica. �� VariávelVariável é uma característica para a qual foi definida uma escala de medidaescala de medida.. Características e Variáveis 28 8 29 Escalas de medida As variáveis podem ser expressas em quatro escalas distintas: ��NominalNominal ��OrdinalOrdinal ��IntervalarIntervalar ��Racional (de razão)Racional (de razão) 29 30 ExemplosExemplos �� Sexo de estudantes (11 - Masculino, 22 - Feminino); � Respostas do tipo sim ou não (00 - Não, 11 - Sim); �� Nomes de cidades (11 - Porto Alegre, 22 - Canoas, 33 - Viamão, 44 - Cachoeirinha, ...). Escala nominal Dados expressosDados expressos em escala nominalem escala nominal �������� Não é possível estabelecer Não é possível estabelecer qualquer relação de ordem entre elesqualquer relação de ordem entre eles �������� Números não têm nenhum Números não têm nenhum significado para efeito de cálculos. significado para efeito de cálculos. Apenas a contagem por categoria faz Apenas a contagem por categoria faz sentido.sentido. 30 31 ExemplosExemplos �� Grau de instrução: 1 1 - fundamental, 2 2 - médio, 3 3 - graduação e 4 4 -- pós-graduação �� Classificação de alunos num teste de estatística: 1 1 - ruim, 2 2 - regular, 3 3 - bom e 4 4 - muito bom �� Faixa etária: 1 1 - criança, 2 2 - jovem, 3 3 - adulto e 4 4 - idoso Escala ordinal Dados expressosDados expressos em escala ordinalem escala ordinal �������� É possível associar a eles É possível associar a eles valores que representam as ordensvalores que representam as ordens �������� Diferenças entre valores não Diferenças entre valores não podem ser determinadas, ou não podem ser determinadas, ou não têm sentidotêm sentido 31 32 Escala intervalar ExemploExemplo �� Temperatura (em graus Celsius) : 5ºC, 10ºC 5ºC, 10ºC e 20ºC20ºC Se em 3 dias consecutivos a temperatura atingir 5ºC, 10ºC e 20ºC num certo horário, não faz sentido dizer que o 3º dia esteve 2 vezes mais quente que o segundo ou 4 vezes mais quente que o primeiro. O zero nesta escala é apenas uma convenção. �������� Análogo à escala ordinal, mas Análogo à escala ordinal, mas possui uma unidade de medida que possui uma unidade de medida que permite determinar as diferenças permite determinar as diferenças entre os dadosentre os dados �������� Não possui um ponto de partida Não possui um ponto de partida (zero) inerente(zero) inerente Dados expressosDados expressos em escala intervalarem escala intervalar 32 9 33 �������� Análogo à escala intervalar, Análogo à escala intervalar, com a propriedade adicionalcom a propriedade adicional de de ter um ponto de partida zero ter um ponto de partida zero inerente (que significa ausência inerente (que significa ausência de quantidade)de quantidade) �������� Tanto as diferenças como as Tanto as diferenças como as razões têm significadorazões têm significado � Pesos e estaturasPesos e estaturas � Distância percorrida em kmDistância percorrida em km � Duração de filmesDuração de filmes Dados expressosDados expressos em escala racionalem escala racional ExemplosExemplos Escala racional 33 34 1º nível:1º nível: escala nominal 2º nível:2º nível: escala ordinal 3º nível:3º nível: escala intervalar 4º nível:4º nível: escala racional Metodologia Metodologia EstatísticaEstatística Operações Operações realizadasrealizadas Escalas de medida A complexidade e a informação A complexidade e a informação aumentam com o nível.aumentam com o nível. 34 Exercício proposto: Classifique as características abaixo quanto à escala de medida. i) Idade j) Nº de transações financeiras k) Velocidade de um carro l) Postos em um exército m) Nº de peças com defeito em um lote n) Altura de uma pessoa o) Classe social p) Valor de venda diária de uma empresa a) Religião b) Nº de vendas diárias de uma empresa c) Distância entre duas cidades d) Consumo mensal de energia elétrica e) Estado civil f) Nº da identidade g) Temperatura de uma mistura h) Estado de nascimento 35 1º nível:1º nível: escala nominal 2º nível:2º nível: escala ordinal 3º nível:3º nível: escala intervalar 4º nível:4º nível: escala racional 36 OrdinaisOrdinais NominaisNominais CategóricasCategóricas NuméricasNuméricas DiscretasDiscretas ContínuasContínuas VariáveisVariáveis Classificação de variáveis 36 10 37 Variáveis categóricas Variáveis categóricas →→→→→→→→ descrevem qualidades (categorias ou classes) NominaisNominais Exemplos: sexo (masculino e feminino) profissão (advogado, professor, médico, etc.) região geográfica (norte, sul, sudeste, etc.) →→→→→→→→ não há um sentido de ordem entre seus níveis OrdinaisOrdinais Exemplos: faixas de idade (criança, adolescente, adulto, idoso) intensidade de cor (claro, médio, escuro) nível de instrução (primário, secundário, universitário) →→→→→→→→ há um sentido de ordem entre seus níveis 37 38 Variáveis numéricas Variáveis numéricas →→→→→→→→ seus valores são números reais (observados) →→→→→→→→ descrevem dados discretos ou de enumeração (geralmente obtidos por processo de contagemprocesso de contagem) →→ assumem valores inteiros não negativos (0, 1, 2, 3, ...) Exemplos: número de carros sinistrados número de pacientes que se recuperam número de filhos de um casal →→→→→→→→ descrevem dados contínuos ou de mensuração (geralmente obtidos por processo de mediçãoprocesso de medição) →→→→→→→→ podem assumir qualquer valor dos reais (-10, 0, pi) Exemplos: peso, altura, tempo, velocidade, temperatura DiscretasDiscretas ContínuasContínuas 38 39 É de fundamental importância saber classificar corretamente uma variável porque esta discriminação é que irá indicar a possibilidade e a forma de utilização dos procedimentos estatísticos disponíveis. Porque classificar as variáveis 39 Exercício proposto: Classifique as variáveis abaixo. i) Idade j) Nº de transações financeiras k) Velocidade de um carro l) Postos em um exército m) Nº de peças com defeito em um lote n) Altura de uma pessoa o) Classe social p) Valor de venda diária de uma empresa a) Religião b) Nº de vendas diárias de uma empresa c) Distância entre duas cidades d) Consumo mensal de energia elétrica e) Estado civil f) Nº da identidade g) Temperatura de uma mistura h) Estado de nascimento NuméricaNumérica ContínuaContínua DiscretaDiscreta CategóricaCategórica 40 OrdinalOrdinal NominalNominal 11 41 � Método científico e a Estatística � Coleta de dados Estatística e a Ciência � Nas pesquisas científicas precisamos coletar dados que possam fornecer informaçõesinformações queque respondamrespondam nossasnossas indagaçõesindagações � Para que os resultados da pesquisa sejam confiáveis, tanto a coletacoleta como a análiseanálise dosdos dadosdados devem ser feitas de forma criteriosacriteriosa e objetivaobjetiva � A metodologia estatística deve ser aplicadaaplicada nasnas diversasdiversas etapasetapas da pesquisa A estatística na pesquisa científica 42 43 Definição do problema, objetivosDefinição do problema, objetivos Planejamento da pesquisaPlanejamento da pesquisa Coleta dos dadosColeta dos dados Análise dos dadosAnálise dos dados ResultadosResultados ConclusõesConclusões MetodologiaMetodologia estatísticaestatística MetodologiaMetodologia da área de da área de estudoestudo Principais etapas da pesquisa científica 44 � Os dados são a basebase parapara aa tomadatomada dede decisõesdecisões confiáveis durante a análise de um problema � Os dados são úteis quando eles geram algum tipo de açãoação. Por isso, é importante ter bem claro quais são os objetivos da coleta de dados. � Para a etapa de coleta de dados, o pesquisador deve conhecer os métodosmétodos disponíveisdisponíveis, os tipostipos dede dadosdados que podem ser coletados, as fontesfontes dede dadosdados e as formasformas dede coletácoletá--loslos. Coleta de Dados 12 45 a)a) DadosDados HistóricosHistóricos:: Dados disponíveis e mantidos sem propósito específico de uso. Estão disponíveis em agências coletoras de dados (IBGE, por exemplo), em anuários, etc. b)b) DadosDados dede pesquisapesquisa: Gerados para algum propósito específico - Levantamento por amostragem - Experimento - Estudo Observacional - Censo Métodos para obtenção de dados 46 �� LevantamentoLevantamento porpor amostragemamostragem:: Enumeração parcial de uma parte da população. As unidades são escolhidas por um procedimento específico que em geral envolve sorteio e a pesquisa é conduzida segundo um plano previamente estabelecido. �� ExperimentoExperimento:: Pesquisa onde condições alternativas (sistemas) são impostas com o propósito de avaliar comparativamente seus efeitos. �� EstudoEstudo observacionalobservacional:: Unidades são incluídas no estudo segundo as circunstâncias. Comum na medicina, ciências sociais. �� CensoCenso:: Todas as unidades da população são observadas. Notação somatório � Variáveis numéricas estão presentes em quase todas as pesquisas onde são aplicados métodos estatísticos � Como o processo de decisão é quase sempre obtido em termos “médios” a notação soma adquire uma grande importância na descrição das metodologias. 47 i xi yi 1 1 2 2 0 1 3 2 -2 4 -1 1 5 4 0 ii é o número da observação, tal que i = 1i = 1,, 22,, ......,, nn nn é o número total de observações xxii é o valor da variável X para a observação i, tal que xx11 = 1= 1,, xx22 = 0= 0,, ...... ,,xx55 = 4= 4 yyii é o valor da variável Y para a observação i, tal que yy11 = 2= 2,, yy22 = 1= 1,, ...... ,,yy55 = 0= 0 xx(i)(i) é o valor da variável X para a observação i, tal que xx(1)(1) ≤≤≤≤≤≤≤≤ xx(2)(2) ≤≤≤≤≤≤≤≤ ......≤≤≤≤≤≤≤≤ xx(n)(n) xx(1)(1) é o menor valor da variável X xx(n)(n) é o maior valor da variável X Notação somatório 48 13 �������� indica a soma sequencial de um conjunto de valores ∑ = n 1i ix 54321 xxxxx ++++=∑ = 5 1i ix somatóriosomatório número das observaçõesnúmero das observações limite inferior da somalimite inferior da soma Valores que estão sendo somadosValores que estão sendo somados limite superior da somalimite superior da soma Somatório (ΣΣΣΣ) A notação inclui todos os valores do intervalo e pode ser simplificada por Σ ∑ = n 1i 49 Algumas quantidades de interesse:Algumas quantidades de interesse: 2 5 2 4 2 3 2 2 2 1 xxxxx ++++=∑ = 5 1i 2 ix ( )254321 xxxxx ++++= ∑ = 25 1i ix 5544332211 yxyxyxyxyx ++++=∑ = 5 1i ii yx ( ) ( )5432154321 yyyyy.xxxxx ++++++++=∑∑ == 5 1i i 5 1i i y.x 50 Exercício proposto: Desenvolva os seguintes somatórios. a) 54321 5 1i i 2x2x2x2x2x2x ++++=∑ = (exemplo) b) =∑ = 10 6j 2 jf c) =+∑ = 6 3j j c)(x d) =+∑ = i 4 1i 2 i f2)(x e) =∑∑ == 3 1i i 5 1i i yk f) =∑ = 5 3i iiyx4 1 g) =++ ∑∑ == 4 2i i 4 2i 2 ii y)3y(x 2 10 2 9 2 8 2 7 2 6 fffff ++++ )cx()cx()cx()cx( 6543 +++++++ 4 2 43 2 32 2 21 2 1 f)2x(f)2x(f)2x(f)2x( +++++++ )yyy()kkkkk( 32154321 ++++++ 554433 yx4 1yx 4 1yx 4 1 ++ )yyy(])y3x()y3x()y3x[( 432244233222 ++++++++ 51