Esta é uma pré-visualização de arquivo. Entre para ver o arquivo original
Noções de estatística básica Prof. Francisco Lima Email: franciscovieiralima@gmail.com O que é estatística? “Estatística é a ciência de obter conclusões a partir de dados” Paul Velleman Subdivisões da Estatística AMOSTRAGEM: técnicas para obter uma amostra representativa, suficiente e que possa ser generalizada para a população. ANÁLISE EXPLORATÓRIA DE DADOS: técnicas para resumir, organizar e interpretar os dados, de uma amostra ou da população, para obter informações. INFERÊNCIA ESTATÍSTICA: técnicas para generalizar estatisticamente os resultados de uma amostra para a população. PROBABILIDADE: técnicas que permitem calcular a confiabilidade das conclusões de Inferência Estatística. Subdivisões da Estatística Variáveis São características observáveis em cada elemento pesquisado, sejam elas medidas, controladas ou manipuladas em uma pesquisa. Conjunto de resultados possíveis de um determinado dado estatístico estudado. Variáveis - Classificação Variáveis – Nível de Mensuração Qualitativas: definidas por atributos. Podem ser nominais ou ordinais. Nominais – rótulos, nomes, categorias. Não podem ser ordenadas. Ordinais – representam uma ordem. Poder sem caracterizadas em termos de “mais que” ou “menos que”, embora não podem ser quantificadas, mesmo que expressadas em números. Variáveis – Nível de Mensuração Quantitativas: conjunto de dados produz resultados numéricos. Discreta / Contínua – números inteiros, não negativos. Resulta de contagens. Ex: número de alunos presentes nas reuniões da LBCP. Descontínua – números reais, qualquer valor entre dois limites. Resulta de mensurações. Ex: temperatura da sala nas reuniões da LBCP. Variáveis – Nível de Manipulação Dependentes Aquela que mede o fenômeno que se estuda. São ditas observacionais. Exemplo: Número de trabalhos produzidos pela LBCP/ano. - Quantitativa discreta: 1, 2, 3, 4... trabalhos / ano. - Qualitativa ordinal: menos que 3, entre 3-6, mais que 6 trabalhos / ano. Variáveis – Nível de Manipulação Independentes Aquela que explica a dependente. São ditas manipuladas. Exemplo: Número de trabalhos produzidos pela LBCP/ano e semestre dos membros da LBCP. - Os alunos dos 3º e 4º ano produzem entre 3-6 trabalhos/ano, já os alunos dos 5º e 6º ano produzem menos de 3 trabalhos/ano. - Pode-se “suspeitar” que semestre do curso e a quantidade de trabalhos produzidos estão intimamente relacionados. 11 Objetivos das pesquisas Em última análise os objetivos das pesquisas consistem em estudar a relação entre variáveis na POPULAÇÃO. São baseadas em magnitude e confiabilidade do relacionamento. Objetivos das pesquisas O número de variáveis envolvidas, o seu nível de mensuração, quais são as “independentes” e as “dependentes”, o tipo de pesquisa (levantamento, experimento, censo ou amostragem) influenciarão na escolha das técnicas: para coletar os dados; para apresentar os dados; 13 Análise Exploratória de Dados Variáveis qualitativas Tabelas (freqüências ou percentuais) Gráficos Variáveis quantitativas Tabelas (freqüências ou percentuais) Gráficos Medidas de tendência: média, mediana, desvio padrão Apresentações simples: apenas uma variável. Apresentações múltiplas: dependentes em função das independentes. Amostragem Representatividade da amostra em relação à população Tamanho da amostra Para uma “margem de erro” de 3% precisamos de pelo menos 1112 elementos Aleatoriedade da amostra Garantir que TODOS os elementos da população tenham chance de pertencer à amostra. Sorteio NÃO VICIADO. Única forma de poder generalizar estatisticamente os resultados para a população. Medidas de tendência central Média (Mean) Média aritmética Média geométrica Média harmônica Moda (Mode) Valor mais frequentemente observado Mediana (Median) Valor do meio Medida de dispersão Alcance (range) – Mínimo e Máximo Variância Desvio-Padrão Erro-Padrão Medidas de dispersão Desvio-Padrão Medida de dispersão mais utilizada Usado extensivamente na distribuição normal Calculado utilizando fórmulas matemáticas Unidade de observação: Média Vantagens: Estima a variabilidade em uma amostra; Estima a probabilidade de diferença entre médias observadas Tipos de distribuição Algumas distribuições utilizadas: Bernoulli Binomial Poisson Negativa binomial Normal – Pesquisa Médica! A normalidade define o método de análise estatística! Curva de distribuição normal de Gauss Estar fora da curva de Gauss significa assumir um evento matemático pouco provável. Análise – Mensuração de associação Frequência – em que intensidade ocorre a observação. Prevalência – estudo transversal Incidência – coorte / ensaio clínico Associação Risco relativo (RR) – razão de incidências Odds ratio (OR) - razão de chances, razão dos produtos cruzados – quem foi “exposto” teve um risco “n” vezes maior ou menor que os não expostos Mensuração de associação a b c d Sim Não Sim Não Fator Fenômeno RR = a / c OR = ad / bc Grupos menores – o ideal é usar risco relativo! À medida que se aumenta a amostra, RR e OR tendem a se aproximar! Magnitude de efeito O Intervalo de Confiança Emprega a variação no risco relativo para determinada amostra em relação à população. Também chamado de magnitude do efeito. Exemplo: Determinada associação encontrou RR=20 e IC95%=10,6-37,6. Este intervalo de confiança informa que apesar do RR da amostra ter dado 20, ao repeti-lo 100x, pelo menos 95% das vezes variou entre 10,6-37,6, extrapolando para a população estudada. Estatística inferencial - Significância Estabelecer se os resultados obtidos em uma amostra têm significância estatística, de acordo com certos limites pré-estabelecidos. Quando se formula uma hipótese em relação a uma determinada característica de uma população, a amostra dela retirada pode: Pertencer à população de origem, portanto as diferenças observadas são decorrentes de flutuações biológicas normais Não pertencer a essa população e as diferenças encontradas representam um efeito real, não podendo ser atribuídas ao acaso Nível de significância É o limite que se toma como base para afirmar que um certo desvio é decorrente do acaso ou não. São aceitos como estatisticamente significativos os níveis p = 0,05 e p = 0,01, ou seja, 5% e 1% respectivamente. A partir de um nível de significância convencionado ( alfa ) os desvios são devidos à lei do acaso e o resultado é considerado não significativo. P < 0.05 = o acaso contribuiu com menos de 5% das variações na amostra, representando portanto uma diferença estatisticamente significante Teste de hipóteses Para se testar algo é necessário estabelecer uma hipótese nula e uma alternativa, sendo ambas antagônicas. A hipótese nula é uma hipótese tida como verdadeira até que provas estatísticas indiquem o contrário. É comumente designada por H0. Pode ser uma afirmação quanto a um parâmetro que é propriedade de uma população (Ex: média, variância, desvio padrão). Teste de hipóteses Como é impossível observar toda a população, o teste é baseado na observação de uma amostra aleatória dela retirada. Também é frequente que a hipótese nula consista em afirmar que os parâmetros ou características matemáticas de duas ou mais populações são idênticos. Exemplo: H0 : os índices de aprovação em provas de residência das escolas A e B são idênticos. Teste de hipóteses A hipótese alternativa deve ser contrária, oposta, antagônica à hipótese nula. É comumente designada por H1 ou Ha. Assim, quando se aceita H0 também rejeita-se H1 e vice-versa. No exemplo anterior a hipótese alternativa H1 seria: “O índice de aprovação da escola A é diferente da escola B". A escolha do teste estatístico Quais as variáveis estudadas? Nominais Ordinais Há emparelhamento dos dados? Mesma amostra ou amostra diferentes? Qual a distribuição da amostra? Normal ou não normal / desconhecida Qual o tipo de comparação? 2 amostras Múltiplas amostras Teste de hipóteses Resumindo, para aplicar um teste de significância, cria-se uma hipótese que, geralmente, é a de igualdade (hipótese nula). O teste é feito para tentar refutar esta hipótese. Obtém-se a distribuição nula, que é simplesmente a distribuição amostral do teste estatístico supondo que a hipótese nula seja verdadeira. Teste de hipóteses Compara-se a estatística observada com a distribuição nula. Se o valor obtido estiver em uma região suficientemente improvável da distribuição nula, então H0 é rejeitada, improvável de ser verdadeira. Se o valor obtido estiver em uma região provável da distribuição nula, então H0 não pode ser rejeitada. Isto não quer dizer que a hipótese nula seja verdadeira, mas que não há evidência suficiente a princípio para refutá-la. Erros estatísticos Erro do tipo 1: rejeita-se H0, quando H0 é verdadeira . Erro do tipo 2: aceita-se H0, quando H0 é falsa. Hipótese nula verdadeira Hipótese nula falsa Se aceita a hipótese nula Corretamente, se aceita a hipótese verdadeira. Erro do tipo II (beta): Se aceita uma hipótese nula que é falsa. Rejeita-se a hipótese nula Erro do tipo I (alfa): Rejeita-se uma hipótese nula que é verdadeira. Corretamente, rejeita-se a hipótese falsa. Erros estatísticos O valor máximo que estabelecemos para ocorrência do erro do Tipo I é que estabelece se aceitamos ou rejeitamos a Hipótese Nula (H0) e deve ser escolhido antes da realização do teste. O valor mais frequentemente usado é o 0.05. Assim, se p for menor do que o valor escolhido rejeitamos H0, Em caso contrário a aceitamos. Alguns testes estatísticos Teste qui-quadrado para verificar associação Teste não paramétrico Fácil compreensão e execução Não envolve nenhum pressuposto, contanto que a frequencia de cada célula observada seja maior que 5 Aplicar a correção de Yates para células menores que 5 Pode ser aplicado para diferença de proporções entre 2 amostras Alguns testes estatísticos Teste T de Student: Teste útil para pequenas amostras Compara médias Fácil compreensão e aplicação Teste mais popular e utilizado na prática Alguns testes estatísticos Teste t pareado para comparar médias antes e depois Para o mesmo tipo de indivíduo Teste t para 2 amostras Aplicável para 2 amostras não parelhadas Não necessariamente do mesmo tamanho 35 Alguns testes estatísticos Testes não paramétricos Normalidade não é assumida Teste Sign, teste run, Mann Whitney U-test, Wilcoxon, etc. Não estima os parâmetros Analisam dados qualitativos Possuem poder de análise menor que os testes paramétricos 36 Ferramentas para análise de dados SPSS Epidata Bioestat Excel STATA SAS Epi Info Contestando estatística Quem está afirmando? Vieses, conflito de interesses, tentativas de desqualificação, patrocínios, etc Qual é o embasamento? Metodologia da pesquisa Tamanho da amostra O que está faltando? Dados absolutos ou dados relativos? Data da pesquisa, fonte, abrangência, confiabilidade Referência usada