Esta é uma pré-visualização de arquivo. Entre para ver o arquivo original
1 Tecnologia da Amostragem I Eduardo Campos Principais Referências Bibliográficas Utilizadas: (1) Cochran, W.G., Sampling Techniques, 3rd ed. (1977). (2) Thompson, S.K., Sampling (1992). (3) Notas de Aula do Professor (2012). (4) Bolfarine, H., Bussab, W.O., Elementos de Amostragem (2005). (5) Sarndal, C.E., Swensson, B., Wretman, J., Model Assisted Survey Sampling (1992). • Amostragem (definição) Conjunto de técnicas para selecionar uma amostra, a partir de uma população, com o propósito de obter informações acerca de uma ou mais variáveis de interesse, que permitam formular conclusões acerca de um ou mais parâmetros-alvo. 1 – Noções Gerais • População - conjunto U de N unidades sobre as quais queremos conhecer algo. • Parâmetro-Alvo - quantidade populacional desconhecida, na qual temos interesse. • Amostra - subconjunto s de n unidades selecionadas da população. Exemplo 1: População → N = 4 domicílios. Variável de interesse: y = renda domiciliar (em R$ 1000,00). Parâmetro-alvo - renda média: . N y Y Ui i∑ ∈ = • Amostragem x Inferência Já é possível perceber algumas diferenças da teoria da amostragem em relação à teoria da inferência estatística clássica. 2 Quanto à Definição da População Em inferência a população é definida como uma distribuição de probabilidade supostamente adequada para representar a característica de interesse. Esta distribuição é o modelo populacional, e toda a inferência baseia-se nele. Além disto, o número de unidades populacionais não é explicitado, sendo tratado como se fosse infinito. Em amostragem, a definição da população não depende de modelagem. Não é feita nenhuma hipótese acerca da distribuição da característica de interesse. A inferência sobre os parâmetros não é “model based”. O número de unidades populacionais é finito, denotado por N. Por esta razão, a teoria da amostragem é também chamada: amostragem para populações finitas. Quanto à Notação Note a diferença entre a notação da média populacional em inferência e amostragem. Em inferência, parâmetros populacionais são denotados por letras gregas (µ,σ2,λ), ao passo que, em amostragem, são denotados por letras romanas maiúsculas. Também haverá diferença na notação dos estimadores, como veremos mais à frente. Outras distinções entre a amostragem e a inferência clássica ficarão claras e serão comentadas à medida que forem surgindo. Exemplo 1 (cont.) - suponha que os valores da renda na população sejam: 34 33 52 41 yiU Obs - Os valores de y na população são chamados de população-matriz. Este termo não é muito utilizado, pois estes valores, na prática, não estarão disponíveis, (a não ser que façamos um censo). O que teremos, na prática, são os valores de y referentes à amostra selecionada, levantados por observação ou entrevista. 3 Vamos considerar primeiramente que o parâmetro-alvo seja a média: e passamos a tratar o problema da sua estimação, a partir de uma amostra. , N y Y Ui i∑ ∈ = A partir da amostra s, podemos definir um estimador para qualquer parâmetro-alvo. • Estimador - função dos valores de y na amostra, utilizada para obter uma estimativa para o parâmetro-alvo. Um estimador “natural” para a média populacional seria a média amostral. Média Amostral: . n y y si i∑ ∈ = Perceba novamente a diferença para a notação adotada em inferência (qual é?). Quantidades amostrais serão representadas por letras minúsculas, para distinguí-las das quantidades populacionais (maiúsculas). Exemplo 1 (cont.) - suponha s = (2,3). Não entraremos ainda no mérito de como selecionar esta amostra (plano amostral). Calcule a estimativa correspondente ao estimador do slide anterior. R: 3,75. Obs - em inferência, a média amostral é o melhor estimador da média populacional. Isto porque, em inferência, só trabalhamos com um tipo de plano amostral: AAS (Amostragem Aleatória Simples). • Plano Amostral Procedimento adotado para selecionar a amostra (mais adiante, lapidaremos esta definição, formalizando-a mais, e mostrando a distinção entre os conceitos de plano amostral e esquema de seleção). Em amostragem, trabalharemos AAS e com outros planos amostrais mais complicados do que a AAS. Entretanto, todos os demais baseiam-se na AAS. 4 Importante: Sob outros planos amostrais, que não AAS, a média amostral é um estimador viciado para a média populacional. A demonstração deste fato será feita no módulo 2 do curso. Retornando ao exemplo 1, considere agora um novo parâmetro-alvo, ao qual chamaremos total populacional: .yY Ui i∑ ∈ = Note que este parâmetro não é definido, e nem faz sentido, na inferência clássica! Considere o seguinte estimador para o total, ao qual chamaremos total amostral: .yt si i∑ ∈ = Este estimador parece razoável? O que você acha que acontecerá com ele? O total amostral subestimará o total populacional, pois será sempre menor do que ele (ou, na situação-limite, igual). Isto se refletirá em um vício negativo. Uma forma de corrigir este problema, e um estimador não viciado do total populacional serão apresentados no módulo 2 do curso. Outros parâmetros de interesse em amostragem: - Proporção Populacional (P) - Razão Populacional (R): . x y R Ui i Ui i ∑ ∑ ∈ ∈ = • Censo x Pesquisa por Amostragem Um censo é uma pesquisa na qual todas as unidades populacionais são investigadas, de tal forma que os valores da variável de interesse tornem-se conhecidos para toda a população. Exemplos de Censo no IBGE: - Censo Demográfico (2010) - Censo Agropecuário (2006) - MUNIC (Pesquisa de Informações Básicas Municipais) 5 Já em uma pesquisa por amostragem, os valores de y são obtidos apenas para um subconjunto da população: a amostra. Exemplos de Pesquisas Amostrais no IBGE: - Pesquisa Nacional por Amostra de Domicílios (PNAD) - Pesquisa Mensal de Emprego (PME) - Índice de Preços ao Consumidor (INPC) - Pesquisa Anual de Serviços (PAS) - Pesquisa Mensal de Comércio (PMC) - Pesquisa Industrial Anual (PIA) Uma questão importante: o que é uma boa amostra? Uma boa amostra é aquela que representa adequadamente o universo que queremos estudar, chamada amostra representativa. • Amostra Representativa É a que representa com fidedignidade o comportamento da variável de interesse na população, de tal forma que seja possível generalizar as conclusões da amostra para esta população. Esta definição, aparentemente simples, pode levar à confusão em situações específicas, como no exemplo a seguir. Exemplo 2 (amostra representativa x estratificada com alocação proporcional) Considere uma população com N = 1.000 indivíduos, sendo 100 da classe A (ricos), 300 da classe B (média) e 600 da classe C (pobres). Se nosso interesse for estimar a renda média nesta população a partir de uma amostra de tamanho 50, o que seria uma amostra representativa da população? • Cadastro (ou Sistema de Referências) Um cadastro é uma lista das unidades populacionais utilizada, quando disponível, para selecionar a amostra. Um bom cadastro deve identificar clara e inequivocamente as unidades populacionais, e permitir localizá-las. Etapas de uma Pesquisa por Amostragem: 1 – Definição dos Objetivos; 2 – Elaboração de um Cadastro; 3 – Seleção da Amostra; 4 – Coleta das Informações; 5 – Estimação dos Parâmetros; 6 – Compilação das Informações. 6 • Estratégia de Estimação Cada plano amostral levará a um estimador adequado para o parâmetro-alvo. O conjunto plano+estimador é chamado estratégia de estimação. Claramente, podemos ter diversas estratégias de estimação para um mesmo parâmetro. Devemos então responder a 2 perguntas: 1 - Dado um plano amostral, qual o estimador adequado para o parâmetro-alvo? (esta é a situação mais usual, em que o plano amostral não está sob nosso controle) 2 - Dadas 2 ou mais estratégias de estimação, qual será a mais adequada para o parâmetro-alvo? (esta é a situação em que temos o plano amostral sob controle) As respostas a estas perguntas aparecerão no módulo 2 do curso, no qual será discutido o problema de estimação de parâmetros. Esta teoria permitirá estimar e controlar a margem de erro associada às estimativas associadas a planos amostrais probabilísticos. Mas o que são planos probabilísticos? • Planos Amostrais Probabilísticos Seja S o conjunto de todas as amostras s de mesmo tamanho n, possíveis de serem selecionadas da população U. S é denominado espaço amostral. Um plano amostral é chamado probabilístico se as 3 condições a seguir são satisfeitas: 1) Cada amostra s⊂S tem uma probabilidade de seleção p(s) conhecida ou possível de ser calculada. Obs - se p(s) = cte, ∀ s⊂S, temos uma Amostragem Aleatória Simples (AAS). Obs - as probabilidades p(s) são chamadas probabilidades de seleção. Estas probabilidades necessariamente somam 1. A distribuição das probabilidades de seleção é chamada distribuição de aleatorização (tradução encontrada para design distribution). Formalmente, p(s) define o que chamaremos de plano amostral (≠ esquema de seleção = algoritmo necessário para obter a amostra). 7 2) Cada unidade da população tem probabilidade de inclusão estritamente positiva, ou seja: pii = P(i∈s) > 0, ∀ i∈U. 3) A seleção da amostra s é feita a partir de um esquema de seleção que garanta que cada amostra s seja selecionada com a probabilidade p(s) definida no plano amostral. falaremos mais sobre esquemas de seleção no módulo 3 do curso. Exemplo 3 - considere o plano amostral a seguir: p(1,2) = p(3,4) = 0; p(1,3) = ½; p(1,4) = p(2,3) = p(2,4) = 1/6. Obtenha as probabilidades de inclusão e verifique se o plano é probabilístico. Obs - na prática, a condição a ser verificada é a 2. Solução: 0 1/6 1/6 1/6 1/2 0 p(s) (3,4) (2,4) (2,3) (1,4) (1,3) (1,2) s pi1 = 0+ 1/2+1/6 = 2/3. pi2 = 0+ 1/6+1/6 = 1/3. Analogamente: pi3 = 2/3 e pi4 = 1/3. Como todos os pii`s são >0, o plano é probabilístico. Obs - note que: Isto não é coincidência. É uma propriedade das probabilidades de inclusão, válida para qualquer plano amostral e população. n Ui i∑ ∈ =pi Exemplos de Planos Não-Probabilísticos: - Amostragem de Conveniência - Amostragem de Voluntários - Amostragem Intencional - Amostragem por Quotas (Cotas) Obs - o uso de amostragem por quotas/cotas em pesquisas eleitorais gera uma das críticas mais contundentes à validade destas pesquisas: não é possível calcular a margem de erro! Sobre este assunto, disponibilizo para discussão o artigo dos professores José Carvalho e Cristiano Ferraz.