Esta é uma pré-visualização de arquivo. Entre para ver o arquivo original
Universidade regional do noroeste do estado do rio grande do sUl – UnijUí vice-reitoria de gradUação – vrg coordenadoria de edUcação a distância – cead coleção educação a distância série livro-texto Ijuí, Rio Grande do Sul, Brasil 2009 ruth Marilda Fricke iara denise endruweit Battisti antonio Édson corrente MÉtodos estatísticos e a adMinistração 2009, Editora Unijuí Rua do Comércio, 1364 98700-000 - Ijuí - RS - Brasil Fone: (0__55) 3332-0217 Fax: (0__55) 3332-0216 E-mail: editora@unijui.edu.br Http://www.editoraunijui.com.br Editor: Gilmar Antonio Bedin Editor-adjunto: Joel Corso Capa: Elias Ricardo Schüssler Revisão: Véra Fischer Designer Educacional: Vanessa Francieli da Frota Responsabilidade Editorial, Gráfica e Administrativa: Editora Unijuí da Universidade Regional do Noroeste do Estado do Rio Grande do Sul (Unijuí; Ijuí, RS, Brasil) Catalogação na Publicação: Biblioteca Universitária Mario Osorio Marques – Unijuí F897m Fricke, Ruth Marilda. Métodos estatísticos e a administração / Ruth Marilda Fricke, Iara Denise Endruweit Battisti, Antonio Édson Corrente. – Ijuí : Ed. Unijuí, 2009. – 164 p. - (Coleção educação a distância. Série livro-texto). ISBN 978-85-7429-840-5 1. Estatística. 2. Administração. 3. Amostragem. 4. Ban- co de dados. 5. Excel. I. Battisti, Iara Denise Endruweit. II. Corrente, Antonio Édson. III. Título. IV. Série. CDU : 311 311:658 Sumário CONHECENDO OS PROFESSORES ...........................................................................................7 APRESENTAçãO ...........................................................................................................................9 UNIDADE 1 – CONCEITOS BÁSICOS ESTATÍSTICA NA ADMINISTRAçãO .....................11 Seção 1.1 – A Estatística e a Administração ...........................................................................11 1.1.1 Um Olhar na Ciência da Administração ...................................................................12 1.1.2 Um Olhar na Ciência da Estatística – Métodos Estatísticos ....................................14 1.1.3 Interligando o Potencial das Duas Ciências .............................................................15 Seção 1.2 – Ajustando a Linguagem por meio dos Conceitos Básicos da Estatística ...........16 1.2.1 Informantes .................................................................................................................17 1.2.2 Informações ................................................................................................................20 Seção 1.3 – Aplicações .............................................................................................................22 Resumo da Unidade 1 .........................................................................................................24 UNIDADE 2 – BANCO DE DADOS, TABELAS E GRÁFICOS: Sistematização e Apresentação de Dados ..........................................................25 Seção 2.1 – Banco de Dados ...................................................................................................26 Seção 2.2 – Tabelas Simples – Univariadas e Bivariadas – Com Variáveis Qualitativas ......29 Seção 2.3 – Tabelas em Série Numérica e Distribuição de Frequências com Variáveis Quantitativas ................................................................................36 Seção 2.4 – Representação Gráfica e sua Leitura ...................................................................45 Seção 2.5 – Aplicações .............................................................................................................49 Resumo da Unidade 2 .........................................................................................................54 UNIDADE 3 – MEDIDAS QUE DESCREVEM O CONJUNTO DE DADOS ...........................55 Seção 3.1 – Quadro-Resumo das Fórmulas ............................................................................56 Seção 3.2 – Medida de Tendência Central e de Variabilidade – conceitos e operacionalização ..........................................................................58 3.2.1 Operacionalização de Medidas Descritivas em Série Numérica ............................62 3.2.2 Operacionalização de Medidas Descritivas em Distribuição de Frequências ........70 Seção 3.3 – Aplicações .............................................................................................................83 Resumo da Unidade 3 .........................................................................................................85 UNIDADE 4 – INTRODUçãO À AMOSTRAGEM ....................................................................87 Seção 4.1 – Padrões a Seguir no Processo Amostral ..............................................................89 4.1.1 Fatores Intervenientes ...............................................................................................89 4.1.2 Métodos de Cálculo da Amostra ...............................................................................90 Seção 4.2 – Delineamento Amostral: dimensionamento e seleção .......................................93 Seção 4.3 – Aplicações .............................................................................................................99 Resumo da Unidade 4 .......................................................................................................101 UNIDADE 5 – NOçõES DE INFERêNCIA ESTATÍSTICA ....................................................103 Seção 5.1 – Conceitos e Definições .......................................................................................104 Seção 5.2 – Estimativas e sua Projeção .................................................................................104 5.2.1 ESTIMATIVAS ........................................................................................................105 5.2.2 TESTES DE HIPÓTESES PARA GENERALIZAçãO DE ESTATÍSTICAS AMOSTRAIS ...........................................................................106 Seção 5.3 – Aplicações ...........................................................................................................117 Resumo da Unidade 5 .......................................................................................................118 UNIDADE 6 – REGRESSãO LINEAR SIMPLES .....................................................................119 Seção 6.1 – Correlação Entre Variáveis ................................................................................120 Seção 6.2 – Diagrama de Dispersão ......................................................................................121 Seção 6.3 – Coeficiente de Correlação ..................................................................................122 Seção 6.4 – Coeficiente de Determinação ( 2R ) ....................................................................124 Seção 6.5 – Análise de Regressão ..........................................................................................125 Seção 6.6 – Banco de Dados ..................................................................................................127 Resumo da Unidade 6 .......................................................................................................128 UNIDADE 7 – FERRAMENTAS DE ANÁLISE ESTATÍSTICA NO EXCEL ...........................129 Seção 7.1 – Elaborando um Banco de Dados no Excel ........................................................131 Seção 7.2 – Utilizando as Técnicas Estatísticas para Analisar os Dados no Excel .............133 Seção 7.3 – Medidas Descritivas para as Variáveis Quantitativas ......................................134 Seção 7.4 – Tabelas Simples para as Variáveis Qualitativas e para as Variáveis Quantitativas com Pouca Variabilidade ............................136 Seção 7.5 – Tabelas Cruzadas ................................................................................................142 Seção 7.6 – Gráficos de Setores, Colunas e Barras ..............................................................145 Seção 7.7 – Histograma e Polígono de Frequências .............................................................154 Seção 7.8 – Gráfico de Linha .................................................................................................159 Resumo da Unidade 7 .......................................................................................................161 REFERêNCIAS ...........................................................................................................................163 EaD 7 MÉtodos estatísticos e a adMinistraçãoConhecendo os Professores São três os professores contribuindo para este material didá- tico: A doutora Ruth Marilda Fricke nasceu em Ijuí (RS) no dia 16 de março de 1946. Foi professora estadual e é professora de Estatística desde 1976, na Unijuí (RS) com Graduação em Pedagogia pela Unijuí (Ijuí – RS-1977), Aperfeiçoamento em Estatística na FDRH (PoA – RS – 1975), Especialização em Metodologia do Ensino Superior na Unijuí (Ijuí – RS – 1978), Especialização em Estatística na UPF (Passo Fundo – RS – 1979), Mestrado em Estatística pela Unicamp (Campi- nas – SP– 1990), Doutorado em Educação pela Unicamp (Campinas – SP– 1999). Vem lecionando em diversos cursos da Unijuí desde essa época atuando como professora titular de Estatística. Sua produção como pesquisadora centra-se em quatro campos: 1) Educação Esta- tística e na produção de material didático para o ensino de Estatística na Educação Básica: Fundamental e Médio; 2) Modelagem Estatís- tica na Produção de Indicadores de Qualidade de Vida Urbana; 3) Modelagem Estatística para o Tratamento de Variáveis Qualitativas: Questões Abertas na Pesquisa de campo, 4) Relações entre formação e desemprego dos trabalhadores urbanos. Neste material didático é autora da introdução e das unidades 1 a 5. A doutora Iara Denise Endruweit Battisti é a autora da Uni- dade 7 deste material didático. Nasceu em 8 de outubro de 1974 no município de Ijuí (Rio Grande do Sul). Cursou Informática na Universidade Regional do Noroeste do Estado do Rio Grande do Sul (Unijuí) de 1992 a 1996, fez Especialização em Estatística e Mode- lagem Quantitativa na Universidade Federal de Santa Maria (Rio Grande do Sul) entre 1997 e 1998. De 1999 a 2001 fez Mestrado em Estatística e Experimentação Agropecuária na Universidade Federal de Lavras (Minas Gerais). Fez Doutorado em Epidemiologia na Uni- versidade Federal do Rio Grande do Sul com tese sobre amostragem complexa e modelos multiníveis entre 2004 e 2008. Atua como professora de Estatística no magistério superior desde agosto de 1998 na Unijuí e nos cursos de Especialização desta universidade. É docente e pesquisadora do Mestrado em Modelagem Matemática da Unijuí. Antonio Édson Corrente nasceu em 16 de outubro de 1962 em Ijuí (RS), e neste material didático é o autor da unidade 6. Possui Gra- duação em Ciências e Matemática – Licenciatura Curta – pela Univer- sidade Regional do Noroeste do Estado do Rio Grande do Sul (1988), Graduação em Matemática – Habilitação Plena – pela Universidade Regional do Noroeste do Estado do Rio Grande do Sul (1990) e Mes- trado em Modelagem Matemática pela mesma universidade (1999). Atualmente é professor assistente na Unijuí. Tem experiência na área de Matemática, com ênfase em Estatística, lecionando em diferentes cursos esta disciplina e atualmente atua nos seguintes temas: mode- lagem estatística, comunicação comunitária, formas de codificação de dados e elaboração de questionários e análise multivariada. EaD 9 MÉtodos estatísticos e a adMinistraçãoApresentação Estamos começando uma relação de conhecimento dos métodos estatísticos relacionados com a profissão do administrador. Algumas etapas são comuns a todas as áreas, algumas são mais específicas, no entanto ao longo de todo conhecimento vamos tentar fazer a conexão entre essas áreas de forma que o próprio estudo gere conhecimento válido para você. Entendemos que as aplicações técnicas são cada dia mais facilitadas em virtude dos avanços das novas tecnolo- gias, mas visualizamos que estas só fazem sentido quando pensadas e interpretadas por nós, seres humanos. Então este aspecto nos leva a dominar o desenvolvimento de todas as etapas e direciona a metodologia que pretendemos empregar: • compreensão dos conceitos; • domínio das técnicas; • entendimento da pertinência das aplicações; • capacidade de utilizar a informática como ferramenta que permite a obtenção de resultados mais ágeis, dinâmicos e corretos, potencializando o tempo da análise; • a sistematização e avaliação dos conhecimentos adquiridos acompanhará todo o desenvolvimen- to dos capítulos. Ademais, é proposta uma aplicação que será realizada por meio de pesquisa de campo numa temática definida na área de Administração e tratada estatisticamente. Procuraremos partir sempre de uma situação de estudo, real e prática, que desencadeie a utilização da Estatística pertinente, de forma a potencializar maior compreensão do conteú- do. Você deve acompanhar este desenvolvimento, refazer os passos que foram desenvolvidos, realizar as atividades previstas, buscar apoio didático para suas dúvidas ou certezas, plenificar seu conhecimento fazendo uma resenha do mesmo para que em suas próprias palavras e na sua compreensão os conceitos trabalhados se solidifiquem. O objetivo deste material é introduzir o educando nos conhecimentos básicos dos métodos estatísticos que permitem a sistematização de dados e a sua projeção em pesquisas amostrais de modo a transformá-los em informações confiáveis contribuindo para melhorar a performance do profissional da área de Administração. Para tal desenvolveremos: 1) noções conceituais que permitam estabelecer uma linguagem comum e conhecer a conexão estreita entre os métodos estatísticos e a Administração; EaD ruth Marilda Fricke – iara denise endruweit Battisti – antonio Édson corrente 10 2) estatísticas descritivas que sistematizam as informações obtidas em forma de tabelas e gráficos descrevendo os fenômenos em suas ocorrências; 3) medidas descritivas que buscam descrever o padrão dos dados sintetizando-os por meio de números típicos e a análise do comportamento dos mesmos em relação a estes números típi- cos. Uma vez conhecendo o comportamento padrão dos dados e podendo descrevê-los e apre- sentá-los, passamos a uma segunda fase do tratamento estatístico: o conhecimento dos padrões populacionais a partir de um estudo por amostragem. 4) noções de amostragem que delimitam as restrições essenciais para obtermos uma amostra com potencial representativo corretamente definido; 5) noções de inferência que permitem a generalização da amostra para a população, intensifi- cando o uso de proporções; 6) relações entre variáveis quantitativas que tratam de expor o que estudos descritivos não visualizam, ou seja, as relações que estão por trás dos fenômenos; 7) estatística no excel por que após o conhecimento detalhado dos métodos estatísticos é im- portante que os mesmos possam ser obtidos por meio de técnicas informacionais, de modo que as análises sejam relatadas com uma base mais confiável de resultado. Todos os métodos estatísticos avaliados da unidade 1 a 6 serão retomados nesta unidade com o software Excel. Ruth Marilda Fricke EaD 11 MÉtodos estatísticos e a adMinistraçãoUnidade 1 conceitos BÁsicos estatística na adMinistração Ruth Marilda Fricke oBjetivo desta Unidade: • Conhecer a relação entre a Estatística e a Administração, principalmente, dominando os con- ceitos básicos que as inter-relacionam. as seçÕes desta Unidade: • Seção 1.1 – A Estatística e a Administração. • Seção 1.2 – Ajustando a linguagem por meio dos conceitos básicos da Estatística. • Seção 1.3 – Aplicações. As áreas da Administração e da Estatística fazem parte do mesmo campo de estudos das Ciências: o das Ciências Aplicadas. Muitos alocam a Estatística no campo das Ciências Exatas, no entanto, ela é uma ciência não determinística, trata do conhecimento dos fenômenos sociais e/ ou naturais como o retrato de um momento, propiciando uma visão das tendências futuras como um evento probabilístico, com chances conhecidas/estimadas de ocorrer, portanto não exata, que trata dos fenômenos sociais e/ou naturais em sua evolução. Então, a partir desta breve introdução, você consegue estabelecer a diferença entre deter- minístico e não determinístico? Busque maiores conhecimentos para ampliar seu conhecimento sobre este assunto. Vejamos, a seguir, a relação existente entre a Administração e a Estatística. seção 1.1 a estatística e a administração Iniciamos com observações sobre cada uma das ciências para depois entender como se estabelecem os links entre elas. EaD ruth Marilda Fricke – iara denise endruweit Battisti – antonio Édson corrente 12 1.1.1 UM olHar na ciÊncia da adMinistração As áreas preferenciais da Administração são: • Administração financeira. • Administração da produção. • Administração pública. • Administração de materiais. • Marketing. • Gestão de pessoas. • Gestão sistêmica. • Administração de sistemas de informação. • Organização, sistemas e métodos. • Comércio internacional. A existência da Administração, segundo a Wikipédia, está relacionada a “normas e funções elaboradas para disciplinar elementos de produção, que têm como objetivo alcançar um resultado eficaz e retorno financeiro”. Pode-se afirmar, conforme a Wikipédia, que se trata do gerenciamento dessa operacionalização mediante o conhecimento e uso de técnicas de Administração: • Planos: Um conjunto de propostas resultantes de um processo de planejamento econômico, urbano, regional, etc., que visam a determinado objetivo. • Pareceres: Avaliação de conjunturas no sentido de emitir um parecer sobre o comportamento do fenômeno analisado. • Relatórios: Produzir um relato das ocorrências de uma etapa de trabalho. • Projetos: Elaboração de linhas de ação e estratégias sobre uma determinada realidade para atin- gir determinados fins. Tem um tempo finito de execução, e pretende criar um produto, serviço ou resultado único. Segundo a Wikipédia: pode ser uma demanda de mercado, necessidade organizacional, solicitação de um cliente, avanço tecnológico ou requisito legal. Apresentam: objetivos, hipóteses, cronograma, orçamento, responsabilidades. • Laudos: Relato de técnico ou especialista designado para avaliar determinada situação que estava dentro de seus conhecimentos. EaD 13 MÉtodos estatísticos e a adMinistração Segundo John Riegel: o êxito do desenvolvimento de executivos em uma empresa é resultado, em grande parte, da atuação e da capacidade dos seus gerentes no seu papel de educadores. Cada superior assume este papel quando ele procura orientar e facilitar os esforços dos seus subordinados para se desenvolverem (1995). Atualmente as principais funções administrativas são: • Planejamento. • Conhecimento dos problemas. • Busca e encaminhamento de soluções. • Definição dos recursos (humanos, financeiros e tecnológicos). • Liderar as ações na empresa. • Gerenciar os fenômenos organizacionais que envolvem as transações da empresa. • Tomadas de decisão. • Controle dos fatos e fenômenos mediante técnicas de conhecimento, mensuração, acompanha- mento, avaliação das informações relacionadas ao negócio da empresa. Essas perspectivas de atuação dependem efetivamente da capacidade do administrador de encontrar as alternativas mais viáveis e potencialmente bem-sucedidas nas diferentes etapas do processo decisório. Para tal precisa essencialmente identificar o problema e seu entorno. Isto é, deve ser capaz de definir o que parece, e o que realmente é, contextualizado no âmbito da ocorrência dos fatos e fenômenos, com pesquisa, levantamento e sistematização estatística dos mesmos. Dessa forma começamos a compreender a importância dessa interação entre a Adminis- tração e os métodos estatísticos. Estes, na sua essencialidade, subsidiam a ação do administrador/ gestor, tanto o público quanto o privado. Os tipos de decisões envolvendo aspectos quantificáveis que são tomadas em uma orga- nização: • Identificação dos custos para poder valorar os produtos, incluindo a produção (matéria-prima, equipamentos, ferramentaria, maquinaria), recursos humanos, distribuição, logística, armaze- namento. • Planejamento das despesas e orçamento das diferentes áreas da organização. • Análise das margens e da rentabilidade dos produtos. • Análise dos custos de venda. • Planejamento do marketing (pesquisa de mercado, aceitação, satisfação do cliente). EaD ruth Marilda Fricke – iara denise endruweit Battisti – antonio Édson corrente 14 Segundo Araújo (2004), entende-se como características do gestor suas funções, habilidades e competências: planejar, organizar, liderar e controlar. O planejamento envolve a determinação no presente do que se espera para o futuro da organização, incluindo quais as decisões que deverão ser tomadas para que as metas e propósitos sejam alcançados. As metas organizacionais adaptam as funções aos recursos da empresa e aos recursos humanos necessários para concretizá-los. O gestor precisa conduzir o processo de forma a influenciar todas as pessoas a trabalharem em torno de objetivos comuns, suscitando participação e adesão, gerenciando democraticamente o processo. O controle integra as ações para o acompanhamento do processo em busca do sucesso do empreendimento. Estas características dão conta de que somente a união de todos permite atingir com sucesso os objetivos. Vamos agora abordar a ciência Estatística, como ela se organiza no tratamento de dados. 1.1.2 UM olHar na ciÊncia da estatística – MÉtodos estatísticos As áreas preferenciais da Estatística são: • Estatística descritiva. • Probabilidade. • Amostragem. • Inferência. • Relações entre variáveis. • Estatística paramétrica. • Estatística não paramétrica. • Estatística Bayesiana. • Bioestatística. • Estatística aplicada: medicina, sociedade, gestão pública e privada, indústria, comércio, agri- cultura, psicologia, saúde... A teoria da Estatística preocupa-se em construir modelos com base em técnicas estatís- ticas capazes de descrever, relacionar e fazer projeções a partir das situação reais na empresa. A criação de modelos, sejam eles descritivos ou inferenciais, pretende subsidiar a resolução de problemas de tomada de decisão, uma vez que sistematizam os dados obtidos e permitem uma apresentação mais didática e compreensível. EaD 15 MÉtodos estatísticos e a adMinistração É por meio de tabelas, gráficos, medidas descritivas, amostragem, inferências, relações entre variáveis, que se fazem representações da realidade. Com isso pretendemos descrever os fenômenos como eles ocorrem, simular situações futuras e avaliar a probabilidade de sua ocorrência. Simplificam, dão visibilidade para os fenômenos e permitem que representemos a realidade, com condições de projetar as tendências e interferências na realidade de modo a melhorar nosso poder decisório. Com isso: • entendemos melhor os fatos reais; • damos visibilidade a relações existentes entre distintas variáveis que compõem o problema em estudo, não perceptíveis apenas ao primeiro olhar; • os métodos estatísticos trabalham o problema como um todo e de forma multivariada, com múltiplas variáveis ao mesmo tempo; • conseguem acompanhar a evolução do fenômeno no tempo e no espaço, acompanhando os resultados parciais, incluindo novos fatores no desenvolver do estudo; • conduzem a soluções quantitativas, mais compreensíveis e mais argumentativas; • permitem uso de computadores para processar grandes volumes de dados. 1.1.3 interligando o Potencial das dUas ciÊncias Um candidato ou candidata a um emprego leva, seguramente, vantagem se tiver em sua bagagem de conhecimento o domínio dos métodos estatísticos, uma vez que essa habilidade pode ser de grande interesse para as empresas contratantes. A leitura de um gráfico, de uma tabela, a interpretação e análise de relações e de tendências permitem uma nova linguagem a serviço da organização empresarial. Para fazer essa interligação entre a Administração e os métodos estatísticos apresentamos diferentes níveis de aprofundamento nessa leitura da realidade dos fatos e fenômenos sociais e/ ou naturais: a. Estatística Descritiva: nesse âmbito, como o próprio nome diz, pretende-se descrever os fenô- menos. Trata-se de técnicas estatísticas para sistematização, sintetização e apresentação de fenômenos de forma compreensível, dando visibilidade ao que realmente aconteceu ou acon- tece. Como compreender os diferentes estágios do nível de pobreza nos municípios gaúchos, N = 496, sem uma descrição completa de sua localização, magnitude, permitindo avaliar e traçar metas em relação aos bolsões de miserabilidade no Estado. Qual o gestor público que não deseja ter à disposição essa descrição do fenômeno ao traçar planos e metas, definir prio- ridades? EaD ruth Marilda Fricke – iara denise endruweit Battisti – antonio Édson corrente 16 b. Estatística Inferencial: observamos que o termo “inferência” provém do verbo inferir, quer dizer, que pretendemos olhar um quadro de resultados e projetá-los para um universo maior. A inferência reúne um conjunto de métodos que permitem fazer essas projeções com garantia e conhecimento da margem de erro máxima inerente às inferências realizadas com base em uma amostra. Como podemos projetar o sucesso do lançamento de um novo produto no merca- do sem antecipar seu potencial de vendas? Para tal busca é impossível represar o lançamento esperando que se conheça qual a fatia do mercado que se interessaria pela sua aquisição, portanto é um caso típico para inferir o resultado populacional mediante uma amostra dos possíveis clientes. c. Estatística Aplicada: nos dois itens anteriores passamos uma ideia sobre a existência de um conjunto de métodos e técnicas estatísticas, construindo descrições e inferências dos dados. Após o uso das mesmas, estando aptos a traçar um perfil descritivo do nosso conjunto de dados, vamos aplicar algumas técnicas que revelam relações entre variáveis de forma a mostrar o que está por trás dessas relações descritivas. Podemos descobrir, por exemplo, que as mulheres compram preferencialmente determinados produtos; podemos conhecer o quanto a idade pode estar relacionada à quantidade de gastos com multas de trânsito; podemos avaliar os limites permitidos de diâmetro de uma determinada peça; podemos avaliar a resposta em termos de volume de vendas com o passar dos meses... Nós, seres humanos, e até mesmo os animais e as plantas, temos diferentes formas de nos expressar. Dependendo da situação, empregamos as mesmas palavras para expressar diferentes ideias. O mesmo se dá nas diversas Ciências. A palavra “população” na Demografia expressa os habitantes de uma determinada região; já na Estatística sob a idéia de população agregamos todos os indivíduos, animais, objetos, lugares, períodos ou máquinas, etc., que apresentam ca- racterísticas comuns predefinidas que constituem o nosso universo de informantes. Na seção a seguir vamos apresentar os principais conceitos da Estatística. seção 1.2 ajustando a linguagem por meio dos conceitos Básicos da estatística Os principais conceitos da Estatística dizem respeito aos informantes e às informações que formam as bases do tratamento estatístico. Os métodos estatísticos aparecem, então, intimamente relacionados com esse contexto, pois permitem conhecer e explorar os fenômenos. Dois são os âmbitos da perspectiva estatística: INFORMANTES E INFORMAÇÕES. EaD 17 MÉtodos estatísticos e a adMinistração 1.2.1 inForMantes O que queremos dizer com Informantes? Trata-se da proveniência dos dados, quem os fornece. Nossos informantes podem ser as empresas, os trabalhadores, os produtos... Eles são a origem das informações. Ao analisar as empresas posso obter delas uma série de informações que constituirão o objeto da estatística. Os informantes podem se constituir numa população ou numa amostra. a. POPULAÇÃO: É o conjunto de todas as unidades que reunimos a partir de características que as definem e que são o espaço temático de nosso estudo. Segundo o dicionário Aurélio: “População é o conjunto de habitantes de um território, de um país, de uma região, de uma cidade, etc.” Ainda no Dicionário Aurélio (1995, p. 1.115): “Estat. Conjunto, em geral infinito ou com um grande número de membros, cujas propriedades se investigam por meio das características dos subconjuntos que lhes pertencem, universo”. Segundo a Wikipédia Português: Genericamente, uma população é o conjunto de pessoas ou organismos de uma mesma espécie que habitam uma determinada área, num espaço de tempo definido. O termo população tem, consoante a disciplina a que se refere, distintas definições. Em Biologia define-se como um grupo de indivíduos que acasalam uns com os outros, produzindo descendência. Em Estatística chama-se população ao conjunto de todos os valores que descrevem o fenômeno que interessa ao investigador (grifo nosso). Em Sociologia define-se como um conjunto de pessoas adscritas a um determinado espaço, num dado tempo (p. 1.115). E assim por diante. Na Geografia, população são os indivíduos que fazem parte de um mesmo grupo: habitantes de um país, de uma tribo, de uma região, de um Estado, ou ainda mais específica, economicamente ativa, desocupados, inativos... Entendemos que na área da Administração, sob o ponto de vista dos métodos estatísticos, população é um conjunto de instituições, empreendimentos, clientes, negócios, produtos, traba- lhadores, indicadores, etc. Nesse caso, basta que nosso estudo esteja centrado nessa população, de forma que como nossos informantes, eles forneçam as informações que estão no entorno de nossa temática. Para serem população é necessário que se constituam de um grupo exaustivo de elemen- tos que são definidos sob as características mencionadas. Um grupo exaustivo quer dizer que é composto por todas as unidades possíveis que só podem ser avaliadas censitariamente, isto é, EaD ruth Marilda Fricke – iara denise endruweit Battisti – antonio Édson corrente 18 por meio de um censo, em que nenhuma das unidades fique de fora. As características tornam único aquele conjunto de dados, de forma que se distingue logo se uma unidade pertence ou não àquela população. Vejamos no Quadro 1 alguns exemplos de população: Quadro 1: exemplos de população e sua descrição estatística População Características Tamanho Definição Trabalhadores Pessoas com 10 anos ou mais que são a PEA – região Metropol i tana de Porto Alegre – março de 2008. N = 1.875 mil pessoas Ωx : { x ∈ (1 , 2 , 3 , . . . . , 1 .875.000} Empresas Da construção de I juí registradas no Cadastro da Prefei tura Muni- cipal de I juí – 2006. N = 121 Ωx : { x ∈ (1 , 2 , 3 , . . . . , 121} Produtos Comercial izados pela empresa X de I juí – março de 2009. 2 mil i tens Ωx : { x ∈ (1 , 2 , 3 , . . . . , 2000} Fonte: Elaboração da autora. b) AMOSTRA: entendemos por amostra quando temos um conjunto significativo da população que apresenta as mesmas características e que a distingue de outros informantes. Nesse caso, nenhuma características particular pode dominar a amostra e não estar presente em toda a população. Por exemplo: se nossa população são os cães de nossa cidade, não pode a amostra constituir-se só de fêmeas, pois nesse caso acrescentaria uma nova característica, que excluiria uma parte dos cães da cidade. No Dicionário Aurélio (1995, p. 88), a definição 2 de amostra afirma que é uma porção, fragmento ou unidade de um produto natural ou fabricado destituído de valor comercial, e apresentado para demonstrar sua natureza, qualidade ou tipo (...). Em Farm. Amostra grátis de me- dicamentos que laboratórios farmacêuticos distribuem, como propaganda, para conhecimento dos médicos. Amostra indeformada Constr. Amostra de solo obtida de tal modo que se podem considerar como subsistentes nela todas as características que se verificam no local em que foram extraídas. Reunindo todos os resultados do Dicionário Aurélio (1995, p. 88), que se referem ao conceito estatístico observamos que amostra é EaD 19 MÉtodos estatísticos e a adMinistração Subconjunto de uma população por meio do qual se estabelecem ou estimam as propriedades ou ca- racterísticas dessa população (...) Amostra acidental, obtida por meio de um processo de amostragem casual; (...) Amostra pequena que tem um número de elementos insuficientes para permitir fazer uma estimativa não viciada1 dos parâmetros2 da população; (...) Amostra representativa que foi obtida por um processo isento de vício. A partir destas explicações podemos constatar que em quase todas as áreas do conheci- mento a amostra apresenta finalidades que têm suas bases apoiadas no sentido estatístico, isto é, pretende de forma sintética, rápida, menos custosa e eficiente conhecer, estimar o comporta- mento da população. Em Estatística, pretendemos obter uma amostra que tenha um potencial comprovado de fazer essas inferências, de modo que dependemos de um bom delineamento amostral: dimensionamento formal (por meio de fórmula) do tamanho necessário de unidades amostrais, seleção aleatória e representatividade das características do perfil que interessa manter, tais como por sexo (50% de mulheres e 50% de homens se for esta a composição da população), faixa etária, escolaridade... Exemplificando: uma auditoria numa empresa identificou telefonemas dados a sua prin- cipal concorrente, e como foi constatado que algumas das promoções planejadas pela empresa vazaram antes de serem postas em prática, há necessidade de rapidamente detectar de qual(is) linha(s) interna(s) partiu (partiram) as chamadas e verificar a demanda e o responsável por elas. Entendeu-se que inicialmente o processo por amostragem seria o mais rápido de realizar. Na empresa existem 240 ramais telefônicos, e foram constatadas ligações em 15% deles. Neste caso definimos como: • População: Ramais com ligações efetuadas para o principal concorrente • N = 36 ramais, N: tamanho da população • Dimensionamento da amostra: n = 20 • Numerados os ramais de U1 a U60, procedemos ao sorteio das unidades amostrais • Unidades amostrais conforme sorteio: 1 Não viciada é uma expressão estatística que significa não tendenciosa, isto é, um resultado confiável, que não sofreu interferências externas que o deturpassem. 2 Parâmetros são os números típicos, tipo média aritmética, obtidos em dados populacionais, enquanto que estatísticas são estimativas destes parâmetros obtidos num processo amostral. EaD ruth Marilda Fricke – iara denise endruweit Battisti – antonio Édson corrente 20 Quadro 2: amostras sorteadas3 para a pesquisa e as reservas RAMAL SORTEADO RESERVAS Ordem Ramal Ordem Ramal Ordem Ramal Ordem Ramal Ordem Ramal 1 3 6 13 11 21 16 28 21 17 2 5 7 15 12 22 17 29 22 9 3 8 8 16 13 23 18 30 23 24 4 10 9 19 14 25 19 31 5 12 10 20 15 27 20 35 Fonte: Elaboração da autora. Na seção seguinte vamos conhecer o outro lado do tratamento estatístico. Se por um lado precisamos dos informantes, por outro necessitamos saber quais as informações sobre a popu- lação/amostra nos interessam e que são importantes para tirarmos conclusões que respondam as nossas perguntas/hipóteses. 1.2.2 inForMaçÕes Por informações entendemos os próprios dados que serão trabalhados estatisticamente com os métodos estatísticos. O tema a ser investigado, as hipóteses e os objetivos é que definem quais são as informações de interesse nesse campo. Estas informações são denominadas de variável aleatória. variÁvel aleatÓria (va) Um problema bem estruturado tem suas principais variáveis conhecidas. Por variável entendemos o conjunto de informações de interesse que estão envolvidas no problema. Essas informações são aleatórias, isto é, podem ser definidas num conjunto possível de respostas, porém se combinam ao acaso e não são predeterminadas. Não são informações isoladas, únicas, mas cada unidade investigada apresenta uma resposta, que mostra diferenças entre elas, isto é, tem variedade, e apresenta respostas esperadas num grande conjunto de repetições. Se avaliamos as características físicas do produto principal da empresa podemos encontrar informações sobre tamanho, espessura, finalidade, valor, custo, cor, formato, tempo de produção, materiais empregados na sua fabricação, máquinas utilizadas na produção, função dos trabalha- 3 Sorteio realizado com o auxílio do Excel por meio da função: Aleatório ()*36, que gerou 20 nºs entre os 36 ramais da População e mais 3 para reserva em caso de problemas de acesso ao ramal sorteado. EaD 21 MÉtodos estatísticos e a adMinistração dores envolvidos na produção, locais e formas de comercialização, durabilidade... Estas, portan- to, são variáveis envolvidas no produto. Observamos que algumas delas apresentam respostas quantitativas e outras qualitativas. Se considerarmos o exemplo utilizado para explicar a questão da amostra, podemos consi- derar que a metodologia a ser empregada na obtenção dos dados é a de quebra do sigilo telefô- nico nos ramais sorteados (este procedimento deve ser previamente autorizado). Serão colhidas algumas informações como: X1: autor da ligação, X2: cargo do autor da ligação, X3: tempo de serviço na empresa e X4: destinatário da ligação; X5: cargo do destinatário da ligação na empresa concorrente, X6: data e X7: tempo da ligação; X8: assunto abordado na ligação, X9: abordagem de assunto relacionado com os pré-lançamentos, X10: nº de ligações realizadas para a empresa concorrente, X11: nº total de ligações, X12: frequência de realização, X13: relação das datas com períodos de pré-lançamento de produtos, etc. Algumas respostas são categóricas (qualitativas) outras são numéricas (quantitativas). a. Variáveis aleatórias qualitativas: são informações cujas respostas são categóricas que podem apresentar uma ordem ou não entre as diferentes categorias de respostas. Permitem que se codifique as diferentes alternativas possíveis, são obtidas por meio de contagem de suas repeti- ções, chamadas de frequências (fi). Entre as variáveis relacionadas anteriormente encontramos como variável qualitativa (VA Qualitativa): Quadro 3: exemplos de variável qualitativa e sua classificação estatística Variável Categorias Classificação Cor branca, cinza, verde, azul, ver- melha... Variável Aleatória Qualitativa Não Ordenável Função dos trabalhadores envol- vidos na produção Projetista, operador de máquina, alimentador de matéria-prima, carregador, pintor... Variável Aleatória Qualitativa Não Ordenável Durabilidade Mínima, Média, Máxima Variável Aleatória Qualitativa Ordenável Fonte: Elaboração da autora. b) Variáveis aleatórias quantitativas: são variáveis que apresentam valores quantitativos como respostas. Podem ser somente valores inteiros (VA Quantitativas discretas) ou admitem valores fracionários (VA Quantitativas contínuas) como respostas. São finitas (N conhecido) ou infinitas (N desconhecido). Podem ser enumeradas em ordem crescente ou decrescente, apresentam valores mínimos (Li) e valores máximos (Ls), são obtidas por meio de técnica de mensuração. Entre as variáveis relacionadas anteriormente encontramos como variável qualitativa (VA Qualitativa): EaD ruth Marilda Fricke – iara denise endruweit Battisti – antonio Édson corrente 22 Quadro 4: exemplos de variável quantitativa e sua classificação estatística Variável Valores Classif icação Custo de produção X > R$ 00,00 Variável Aleatória Quantitativa Contínua Nº de trabalhadores envol- vidos na produção X ∈ (0, 1, 2, 3, . . . . . ) Variável Aleatória Quantitativa Discreta Fonte: Elaboração da autora. Com esse Quadro 4 concluímos a apresentação da base necessária para constituir um tra- balho estatístico, isto é, seu objeto e seu objetivo, construídos na ótica de buscar os informantes e por meio deles obter as informações necessárias para conhecer de forma ampla a temática de nosso interesse. Com as aplicações pretendemos abrir um espaço de uso desse conteúdo de forma que possa alargar os horizontes do conhecimento estatístico. Lembre-se de que esta adequação inicial em termos de linguagem, conceitos, identificações, vão permitir que o seu tratamento dos dados seja adequado e pertinente. seção 1.3 aplicações a. Considere o exemplo dos ramais, as variáveis sugeridas, complementando-as e classificando- as organizando um quadro como os utilizados anteriormente. b. Organize três estudos definindo: A temática, população, N, amostra, n, sorteio, variáveis e sua classificação. No banco de dados (Inep/IBGE/PNAD) a seguir, defina Temática, População, N, Variáveis e sua classificação: EaD 23 MÉtodos estatísticos e a adMinistração tabela 1: rendimento médio mensal e número de profissionais por tipo de profissão segundo regiões geográficas e Brasil – 2001 (Em R$ 1,00) Nº de profissio- nais Brasil Norte Nordeste Sudeste Sul Centro– Oeste Professor da educação infantil 201.232 422,78 388,89 232,79 522,44 435,87 749,61 Professor de 1a a 4a série 881.623 461,67 443,17 293,18 599,19 552,72 567,38 Professor de 5a a 8a série 521.268 599,85 600,99 372,81 792,82 633,92 593,52 Funções adm. de nível superior em educação 139.575 849,16 753,20 549,60 1.092,85 738,27 834,86 Professor de nível médio 348.831 866,23 826,28 628,08 979,16 804,32 872,20 Suboficial das Forças Armadas 517.038 868,73 817,55 723,52 986,19 747,23 910,93 Professor-pesquisador no E. Superior 6.448 898,80 215,33 1.150,16 946,56 712,65 875,47 Agente administrativo público 316.761 911,82 661,40 679,31 1.072,50 926,14 1.103,37 Administrador de empresas 502.895 1.202,86 986,87 774,85 1.411,18 1.057,85 1.123,93 Técnico de nível superior – público 421.318 1.310,56 1.053,94 794,02 1.586,97 1.308,30 1.876,79 Policial civil 72.743 1.510,64 1.344,46 1.320,40 1.457,90 1.488,02 2.087,23 Oficial das Forças Armadas 89.387 2.091,53 2.129,41 1.674,46 2.250,53 1.949,68 2.321,03 Economista 44.772 2.254,66 1.700,77 2.009,08 2.227,19 1.641,35 3.592,64 Auditor 68.870 2.408,40 3.512,94 1.584,94 2.588,47 1.986,32 3.133,88 Advogado 271.241 2.496,76 3.893,83 2.245,35 2.431,04 2.597,39 2.768,25 Professor de nível superior 136.977 2.565,47 1.800,30 2.252,08 3.086,95 2.122,77 2.190,10 Delegado/Perito 13.973 2.660,52 2.753,91 1.347,25 2.650,73 3.714,45 5.969,61 Médico 257.414 2.973,06 4.429,82 2.576,78 2.801,77 3.260,41 4.110,87 Juiz 10.036 8.320,70 5.905,38 8.038,88 9.018,42 9.750,00 7.331,08 Fonte: Pesquisa Nacional por Amostra de Domicílios (Pnad) – 2001. Nota: (1) Valor em R$ de setembro de 2001. Obs. Não estamos enfatizando o processo amostral nestas aplicações da Unidade 1, posto que esta será tratada mais detalhadamente na Unidade 4. EaD ruth Marilda Fricke – iara denise endruweit Battisti – antonio Édson corrente 24 resUMo da Unidade 1 Esta é uma unidade essencial, pois nela conhecemos termos e sig- nificados que vão acompanhar nossos estudos até o final deste livro e muito além. Aprendemos que a Estatística basicamente utiliza In- formantes (População e Amostra) e Informações (Variáveis aleatórias quantitativas e qualitativas) para descrever (Estatística Descritiva), projetar (Estatística Inferencial) e estabelecer relações (Estatística Aplicada). Neste curso vamos trabalhar esses três níveis de conhe- cimento estatístico. Referências que consultamos especificamente para esta Unidade e sugerimos aos alunos que consultem: • CHIAVENATO, Idalberto. Introdução à Teoria Geral da Administração. 4. ed. São Paulo: Makron, 1993. • DRUCKER, Ferdinand P. A profissão de administrador. São Paulo: Pioneira Thompson Learning, 1998. • FERREIRA, Aurélio Buarque de Holanda. Dicionário da Língua Portuguesa. Rio de Janeiro: Nova Fronteira, 1995. • LACOMBE, F. J. M.; Heilborn, G. L. J. Administração: princípios e tendências. 1. ed. São Paulo: Saraiva, 2003. • MONTANA, Patrick J. Administração. 2. ed. São Paulo: Saraiva, 2003. • ARAÚJO, Luis César G. Teoria geral da Administração: aplicação e resultados nas empresas brasileiras. São Paulo: Ed. Atlas, 2004. • RIEGEL, John. Employee interest in company success-how can it be stimulated and maintained? Address on industrial relations. Bureau of Industrial Relations; University of Michigan; Ann Arbor, 1955. p. 25. EaD 25 MÉtodos estatísticos e a adMinistração Banco de dados, taBelas e grÁFicos: sistematização e apresentação de dados Ruth Marilda Fricke oBjetivo desta Unidade: • Dominar três formas especiais de sistematizar e apresentar dados estatísticos transformando-os em informações de apoio na área administrativa: bancos de dados, tabelas e gráficos. seçÕes desta Unidade: Seção 2.1 – Banco de Dados Seção 2.2 – Tabelas Simples – Univariadas e Bivariadas – com Variáveis Qualitativas Seção 2.3 – Tabelas em Série Numérica e Distribuição de frequências com Variáveis Quantitativas Seção 2.4 – Representação Gráfica e sua Leitura Seção 2.5 – Aplicações As áreas da Administração e da Estatística interagem a partir do momento em que ambas trabalham com informações da realidade. Estas informações são mais bem conhecidas a partir do tratamento estatístico, que permite uma visão mais global do comportamento dos dados quando visualizados em sua individualidade, e das relações que elas estabelecem entre si quando ana- lisadas conjuntamente, em um plano bidimensional ou tridimensional. Esse tratamento, que se inicia com o banco de dados, é organizado em forma de tabelas e apresentado em forma de grá- ficos. Com isso a Administração potencializa as tomadas de decisão embasada em informações estatísticas que conduzem as ideias e sustentam os projetos da área administrativa. Unidade 2 EaD ruth Marilda Fricke – iara denise endruweit Battisti – antonio Édson corrente 26 Utilizaremos na apresentação deste conteúdo alguns indicadores calculados a partir de estatísticas dos municípios gaúchos apresentados pelo IBGE; disponível em: <www.ibge.gov.br/ cidades/default.php>. Acesso em: jun. 2009. Inicialmente precisamos entender que a divisão po- lítica do RS é realizada em mesorregiões, em número de 7, 35 microrregiões e 496 municípios. Vamos então iniciar pela utilização do banco de dados, uma espécie de planilha de dados que apresenta não apenas os dados, mas as variáveis, informa a população, número de registros e dados pareados1 de todas as unidades (populacionais ou amostrais) que estão sendo apresen- tadas. seção 2.1 Banco de dados Para dar início ao tratamento estatístico necessitamos coletar dados que provêm das per- guntas que nos fazemos em relação à nossa população dentro da temática que nos interessa. Assim, se formos estudar a distribuição dos municípios da Microrregião de Três Passos, suas potencialidades econômicas e capacidade de atender à demanda na região em que está estabelecida, podemos buscar dados sobre: 1 Pareados significa que todos os dados apresentados numa mesma linha referem-se à mesma unidade e não podem ser isolados nem misturados, pertencem àquela unidade. Por exemplo, se temos idade, sexo, escolaridade, data de admissão na empresa, estas são sempre informações particulares do sujeito e não podem desconectar-se dele. EaD 27 MÉtodos estatísticos e a adMinistração Quadro 1: codificação e variável com classificação e categorias do banco de dados X N Nº de ordem do município X1 Mun Município X2 POP População Residente – Variável aleatória quantitativa discreta X3 PIB_cap PIB per capita – Variável aleatória quantitativa contínua X4 Cls_PIB Classificação do PIB per capita – Variável aleatória qualitativa ordenável –[1) Pobre: <7 mil dólares /ano; 2) Em desenvolvimento: de 7 a 24,99 mil dólares/ano; 3) Rico: > 25 mil dólares/ano ou mais] X5 N_agFin Nº de agências financeiras no município -– Variável aleatória quantitativa discreta X6 Valor_ FPM Valor retorno do Fundo de Participação dos Municípios– Variável aleatória quantita- tiva contínua X7 Valor_ITR Valor do Imposto Territorial Rural– Variável aleatória quantitativa contínua X8 Ind_Res Nº de indústrias por mil hab. – Variável aleatória quantitativa contínua X9 Cls_ind Classificação da relação entre indústrias por mil habitantes– Variável aleatória qualitativa ordenável – [1) Não industrializado < 1 indústria por 1000 hab.; 2) Pouco industrializado – 2 a 4,9 indústrias por 1000 hab.; 3) Média industrialização 5 a 10,9 indústrias por 1000 hab.; 4) Bem Industrializado – 11 a 19,9 indústrias por 1000 hab.; 5) Industrial – ≥ 20 indústrias por 1000 hab.;] X10 Área Área territorial do município em km²– Variável aleatória quantitativa contínua X11 Cls_Área Classificação da área territorial – Variável aleatória qualitativa ordenável– [1) Peque- na – < 200 km²; 2) Médio – 200 a 500 km²; 3) Grande 501 a 1000 km²; 4) Extenso – > 1000 km²] X12 Densidade Densidade demográfica Hab/km² – Variável aleatória quantitativa contínua X13 Cls_Dens Classificação da Densidade demográfica– Variável aleatória qualitativa ordenável– [1) Alta densidade: > 1000 hab./km²; 2) Grande densidade: 501 a 1000 hab./km²; 3) média densidade: 100 a 500 hab./km²; 4) baixa densidade: < 100 hab./km²] Fonte: Elaboração da autora. Nossa população são todos os municípios da Microrregião de Três Passos. Isso se consti- tui no nosso N, numeradas de 1 a N. Todas as informações que obtivermos às nossas perguntas constituirão nossas variáveis. As informações referem-se a cada um dos municípios, portanto constituem informações casadas, relacionadas, e não podem ser misturadas, pois cada uma está ligada a um município em particular. Trata-se, portanto, de uma relação de dados obtidos por meio de uma pesquisa, de um levantamento de dados e contém todas as informações que foram levantadas e as transforma- ções que foram realizadas para conseguir ampliar a base das mesmas. No banco de dados nº 1, EaD ruth Marilda Fricke – iara denise endruweit Battisti – antonio Édson corrente 28 as variáveis básicas são X1, X2, X3, X5, X6, X7, X8, X10. Com estas variáveis foram feitas algumas transformações que resultaram nas variáveis X4, X9, X11, X12, X13. Assim, o banco de dados vai se constituindo com as variáveis originais e as que são geradas a partir das mesmas. As informações dos municípios entrarão nas linhas e as variáveis nas colunas. O total de municípios é o N = 20, neste caso Quadro 2: Banco de dados nº 1– Municípios da Microrregião de três Passos X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11 X12 X13 X1 N Mun POP PIB_ cap Cls_ PIB N_ agFin Valor_FPM Valor_ ITR Ind_ Res Clsind Area Cls area Den- sida- de Cls dens 1 Barra do Guarita 2.969 6.508 1 0 2.797.615,36 533,7 2 2 65 1 45,7 5 2 Boa Vista do Buricá 6.468 10.114 1 2 2.797.615,36 1.902,02 17 4 109 1 59,3 5 3 Bom Pro- gresso 2.441 7.338 1 0 2.797.615,36 2.369,08 5 3 89 1 27,4 3 4 Braga 3.826 6.984 1 0 2.797.615,36 4.145,13 3 2 129 1 29,7 3 5 Campo Novo 5.581 9.658 1 2 2.810.105,39 15.989,17 7 3 222 2 25,1 3 6 Crissiumal 14.726 9.687 1 3 5.267.727,46 5.417,75 8 3 362 2 40,7 5 7 Derrubadas 3.378 8.957 1 0 2.410.580,60 4.060,42 1 1 361 2 9,4 1 8 Dr Maurício Cardoso 5.494 10.597 1 2 3.512.012,00 7.660,00 6 3 256 2 21,5 3 9 Esperança do Sul 3.445 7.821 1 0 2.798.876,06 1.724,62 3 2 148 1 23,3 3 10 Horizontina 18.305 19.805 2 4 5.595.230,83 8.291,42 8 3 229 2 79,9 5 11 Humaitá 4.923 11.774 1 1 2.797.615,36 2.519,68 8 3 135 1 36,5 4 12 Miraguaí 4.869 6.473 1 1 2.797.615,36 1.324,74 4 2 130 1 37,5 4 13 Nova Can- delária 2.739 12.368 1 0 2.797.615,39 946,85 4 2 98 1 27,9 3 14 Redentora 9.600 5.122 1 1 2.810.105,36 6.674,59 2 2 303 2 31,7 4 15 São Marti- nho 5.853 10.212 1 2 2.797.615,36 5.514,40 10 4 172 1 34,0 4 16 Sede Nova 2.968 11.782 1 0 2.797.615,36 4.554,22 7 3 119 1 24,9 3 17 Tenente Portela 13.906 7.301 1 2 4.340.091,71 3.703,25 7 3 338 2 41,1 5 18 Tiradentes do Sul 6.928 6.765 1 0 2.797.615,36 2.944,97 2 2 234 2 29,6 3 19 Três Passos 23.467 12.755 1 5 9.657.490,50 5.196,27 8 3 268 2 87,6 5 20 Vista Gaú- cha 2.713 9.920 1 0 2.797.615,76 922,33 8 3 89 1 30,5 4 Fonte: IBGE/cidades. O banco de dados é na verdade uma listagem de todas as informações obtidas, sejam elas originais ou transformações. Nos casos em que as variáveis forem qualitativas, utilizamos um código para representar as diversas categorias de resposta, como fizemos com a variável – Classificação do PIB per capita, na qual utilizamos os seguintes códigos, com as respectivas classificações e faixa de dados: EaD 29 MÉtodos estatísticos e a adMinistração 1) Pobre– < 7 mil dólares/ano. 2) Em desenvolvimento – 7 a 24,99 mil dólares/ano. 3) Rico-> 25 mil dólares/ano. Se não obtivermos informação podemos assumir um código único para todo o banco de dados representando a Não Resposta: 99, 999 por exemplo. Essa informação será contabilizada como um valor não válido e será descontada do total para obtermos um percentual válido sobre as respostas válidas. É importante obtermos todas as respostas para os questionamentos feitos, pois o excesso de “Não resposta” pode inviabilizar a análise e a retirada de conclusões, isto é, nossa base de informações pode não estar realmente “informando”. Na próxima seção vamos estudar os tipos de tabelas simples – univariadas (uma única variável na tabela) e bivariadas (duas variáveis tratadas conjuntamente numa única tabela, apresentando o comportamento interativo das duas). Esse tratamento abrange as variáveis qua- litativas na maioria dos casos. seção 2.2 taBelas siMPles – Univariadas e Bivariadas – com variáveis Qualitativas A tabela univariada apresenta uma única variável e é também chamada de tabela simples. É utilizada para representar variáveis qualitativas, cujas respostas são nominais, são categorias. A estatística neste caso está limitada a descrever o que ocorreu em termos de repetições. As partes da tabela são: título, barra de informações, dados obtidos, barra de totais e fonte das informações. Nenhuma dessas partes pode faltar para que o trabalho estatístico tenha validade, seja feita uma leitura das informações obtidas e possam ser compreendidas. 1) Uma tabela deve apresentar um título que apresenta a variável que está sendo apresentada, população, local e tempo em que os dados foram coletados. 2) Na parte superior da tabela simples existe uma barra de informações, em que constam todos os tipos de informações que serão apresentadas ou trabalhadas na tabela. 3) No corpo da tabela contabilizamos as repetições das respostas e calculamos o valor percentual. As repetições são números reais e absolutos, permitem avaliar a importância das diferentes categorias, no entanto só podemos comparar com outras variáveis se o número de dados for igual. Nesse caso, se a intenção é fazer comparações temos de utilizar um valor relativo, que é a porcentagem. EaD ruth Marilda Fricke – iara denise endruweit Battisti – antonio Édson corrente 30 • Nº: são as repetições de uma determinada resposta no banco de dados; • %: é o valor relativo do Nº em relação ao total de respostas, o n º% *100N n = • % válido: é o valor relativo calculado sobre o total de respostas válidas, isto é, n* = n – NR, não respostas. º % *100, * * N n n NR n = = − , ou seja: • *100 %. % i f n = ; *100 %.. % :. sin i válido f n NI NI mis g = − ; Na parte inferior, uma barra com os totais, ou seja, as somatórias das colunas do Nº (fi) que no caso representa o n, Total de dados, (∑ fi = n) e dos percentuais, cuja soma deve ser 100%. Neste cálculo vários arredondamentos são possíveis de serem utilizados: a) em primeiro lugar, optamos por trabalhar com duas casas após a vírgula para que os arredondamentos não possuam efeito muito drástico, capaz de alterar a interpretação do resultado; b) utilizamos, pre- ferencialmente, os seguintes critérios: se a 3ª casa for um nº no intervalo de 0 a 4, eliminamos (exemplo % = 5/26*100 = 19,23077 ≅ 19,23); se a 3ª casa for um nº no intervalo de 5 a 9, elimi- namos e aumentamos um ponto na 2ª casa (exemplo % = 6/26*100 = 23,07692 ≅ 23,08). • Fonte: informa a proveniência dos dados, potencializando que se busquem mais informações, que as atualizemos e também referem a credibilidade dos dados. Estes detalhes podem ser vistos na Tabela 1 a seguir. Apresentamos um exemplo com base no banco de dados sobre a participação da população com 100 anos ou mais na população com 60 anos ou mais segundo o local de moradia e sexo nas UF/BR – 2007. Esta tabela demonstra as duas possibilidades – Presença de todas as Respostas e presença de dados censurados NI (missing) – ou seja, falta de informação: *100 %. . . . . .100 6 % 23,08% 26 deRaros Mulher Rural com de anos> = = ; *100 %.. . . . . . 100. 6 % 24% .......26 1 :. sin 1 válido de raros MR c anos NI mis g > = = − = EaD 31 MÉtodos estatísticos e a adMinistração tabela 1: Participação de idosos com 100 anos ou mais no grupo de pessoas com 60 anos ou mais, considerando sexo e local de moradia, nas diversas UF/Br – 2007 Participação MR % MR % MR válido HR % HR MU % MU HU % HU Raros (0 a 4/10 mil idosos) 6 23,08 24,00 19 73,08 8 30,77 19 73,08 Nº Médio (5 a 14/10 mil idosos) 14 53,85 56,00 7 26,92 17 65,38 7 26,92 Grande Nº (15 ou +/10 mil idosos) 5 19,23 20,00 1 3,85 Total 25 96,15 100,00 26 100,00 26 100,00 26 100,00 NR 1 3,85 Total 26 100,00 Fonte: IBGE/cidades. Obs.: Siglas: MR – Mulheres da área Rural; HR – Homens da área Rural; MU – Mulheres da área Urbana; HU – Homens da área Urbana; Categorias da participação: Raros: % < 0,05; Nº Médio: 0,05 a 0,14; Grande Nº: % > 0,14 Na Tabela 1 estamos avaliando a variável Participação de Idosos com 100 anos ou mais no grupo de Idosos da População com 60 anos ou mais, considerando diferentes informações que potencializam obter diferentes aspectos que podem ser comparados. Estamos comparando os Estados segundo sua distribuição de longevidade a partir de di- ferenças apresentadas por sexo (H ou M) e por localização (R ou U). Nesse caso a variável é a mesma, as populações apresentam características diferenciadas. O comentário que vamos apresentar a seguir de cada tratamento específico dos dados é uma das diversas “leituras” dos resultados estatísticos. Procuramos, especialmente, nesse tipo de comentário: • apresentar inicialmente uma idéia geral à qual o tratamento estatístico permitiu chegar, au- xiliando o leitor a “enxergar” nos resultados o que estes nos revelam, isto é, encaminhando a leitura na direção que é compatível com os objetivos para os quais os dados foram coletados; • sustentar as ideias, argumentações com as estatísticas calculadas. Estas são argumentativas por si próprias e devem convencer o leitor. Por exemplo, não basta dizer “a maioria” dos Esta- dos, é necessário informar de quanto é essa proporção para que ela convença o leitor sobre a superioridade em termos de presença dessa categoria; • evitar referir todos os dados da tabela, apenas os que queremos colocar em destaque; • procurar apresentar informações que estão subjacentes, retrabalhadas, tipo a soma de dois dados, o complementar de algum deles. Comentário 1: Com base nesta tabela constatamos que a maior participação de pessoas com 100 anos ou mais na população idosa são as mulheres do meio ru- ral (MR), que apresentam em 76% dos Estados um número médio de idosos, EaD ruth Marilda Fricke – iara denise endruweit Battisti – antonio Édson corrente 32 em torno de 5 a 14 idosos com 100 anos ou mais em cada 10 mil idosos (56%), 15 ou mais idosos com 100 anos ou mais em cada 10 mil idosos (20%). A menor presença é de homens com mais de 100 anos, tanto no meio urbano como no rural. São raros (menos de 5 idosos com 100 anos ou mais em cada 10 mil idosos) em 73% dos Estados em ambos os casos. Outro exemplo deste tratamento utilizando múltiplas tabelas para traçar o perfil pode ser vista na Tabela 2. Nesse caso, diferentes variáveis são consideradas para uma mesma população, mas ainda tratadas isoladamente. O que muda é a apresentação conjunta. Vejamos então, na Tabela 2, variáveis da Microrregião de Três Passos, apresentando seu perfil econômico a partir de 5 delas: Porte dos municípios, Classificação da densidade demográ- fica, Classificação pelo PIB per capita, Nº de Agências Financeiras e Classificação nº indústrias/ mil hab. tabela 2: classificação dos municípios segundo potencial econômico da Microrregião de três Passos com 20 municípios 2 N=20 Nº % Porte dos Municípios2 1 – Pequeno Porte I (até 20 mil hab.) 11 55,00 2 – Pequeno Porte II (20 a 50 mil hab.) 9 45,00 Classificação da densidade demográfica* 1 – (< 10hab. /km²) 1 5,00 3 – (20 a 29 hab./km²) 8 40,00 4 – (30 a 39 hab./km²) 5 25,00 5 – (40 e mais hab./km²) 6 30,00 Classificação pelo PIB per capita 1 – Pobre 19 95% 2 – Em desenvolvimento 1 5% Nº de Agências Financeiras 0 9 45,00 1 3 15,00 2 5 25,00 3 1 5,00 4 1 5,00 5 1 5,00 Classificação nº indústrias/mil hab. 1) Não industrializado (<1/mil hab.) 1 5,00 2) Pouco industrializado (2 a 4,9/mil hab.) 7 35,00 3) Média industrialização ( 5 a 10,9 /mil hab.) 10 50,00 4) Bem Industrializado – (11 a 19,9/mil hab.) 2 10,00 Fonte: IBGE/cidades. * Todos os municípios apresentam densidade inferior a 100 hab./km2, logo tem baixa densidade demo- gráfica. A classificação evidencia 5 níveis (1 a 5) sendo 1 o menor e 5 o maior dentro do grupo 2 Fonte: Atlas de Desenvolvimento Humano, 2002. EaD 33 MÉtodos estatísticos e a adMinistração Estas variáveis oferecem uma visão geral da Microrregião, não permitindo fazer desta- ques de municípios individualmente, mas pretende dar uma visão da Microrregião em termos econômicos. Comentário 2: Utilizando o banco de dados da Microrregião de Três Passos, buscamos fazer uma avaliação do potencial econômico da riqueza da região. Constata-se na Tabela 2 que são 20 municípios de pequeno porte (55% de nível I com até 20 mil habitantes e 45% de nível II com 20 a 50 mil habitantes), em sua maioria com baixo rendimento econômico e baixa densidade demográfica: menos de 100 hab./km2. Apenas três municípios apresentam um destaque em termos econômicos: Três Passos, Crissiumal e Horizontina. Os demais apresentam populações pobres, com baixo rendimento e baixo potencial de desenvolvimento. Podemos observar que em termos de PIB per capita (fatia do PIB por residente nos municípios da Microrregião), 95% dos municípios podem ser considerados subdesenvolvidos/pobres, uma vez que o PIB per capita/ ano é inferior a US $ 7 mil dólares/ano, o que daria uma base em torno de R$ 1000,00/mês. Nessa Microrregião 45% dos municípios não dispõem sequer de uma agência financeira, e o número médio de agências financeiras por município é de 1,25. O número de indústrias para cada mil habitantes indica que existem apenas dois municípios que apresentam uma maior industrialização, com 11 a 20 indústrias por mil habitantes. 40% dos municípios são pouquís- simo ou nada industrializados (menos de 5 indústrias por mil habitantes). As tabelas bivariadas, por sua vez, apresentam simultaneamente duas ou mais variáveis, cada variável é uma dimensão. Quando trabalhamos com uma ou até duas dimensões os resul- tados do tratamento são simples de explicar e compreender, porém se trabalharmos com três ou mais dimensões torna-se bem mais complexo. Por isso vamos nos restringir a duas dimensões. Ao sistematizar duas variáveis vamos construir uma tabela bivariada, também chamada de tabela cruzada, ou tabela de dupla entrada. Estas variáveis devem ser qualitativas ou então transformadas em qualitativas pela orga- nização de dados quantitativos em intervalos tipo faixa etária, por exemplo. Uma variável entra na linha (li) e outra na coluna (cj) da matriz. Nas margens da Tabela teremos os dados de cada variável em separado, e no interior a frequência conjunta (fi j), em que i representa a informação da linha e j a informação da coluna. Se estamos tratando de sexo e consumo de determinado bem, podemos ter os seguintes pares de informações conjuntas: masculino e consome; mascu- lino e não consome; feminino e consome; feminino e não consome. Resumidamente, temos os seguintes pares: (M;C); (M;N); (F;C); (F;N). Vamos contar a repetição de cada par para formar a frequência conjunta. Se tivermos seis homens que consomem este bem, então a primeira fre- quência conjunta é 6. EaD ruth Marilda Fricke – iara denise endruweit Battisti – antonio Édson corrente 34 Nas tabelas cruzadas temos três tipos de frequência relativa: • de linha (em relação a cada categoria da variável que está na linha), permitindo saber como essa categoria se distribuiu ante as que estão na coluna; • de coluna (em relação a cada categoria da variável que está na coluna), permitindo saber como essa categoria se distribuiu ante as que estão na linha; • do total (em relação ao total geral), permitindo saber como essa categoria se distribuiu ante o grupo todo, total geral. As fórmulas para o cálculo desses percentuais são estas: , *100 , %. . % i ji j i de linha f l = ∑ ; , *100 , %. . % i ji j j de coluna f c = ∑ ; , *100 , %. . % i ji j de total f n = No exemplo: *100 1,1 %. . 6 % 20,0% 30 de sexo = = ; *1001,1 %. . 6 % 11,8% 51 de consumo = = ; , *100 , %. . % i ji j de total f n = Para apresentar a tabela bivariada, ou tabela conjunta, estamos utilizando um exemplo do banco de dados sobre o padrão alimentar de um grupo de alunos. Encontramos inicialmente as frequências conjuntas e as frequências marginais (estas formam os resultados como se fossem uma tabela simples). A seguir, empregando as fórmulas apresentadas anteriormente, calculamos os percentuais, realizando logo a seguir o comentário (leitura) das informações sistematizadas nessa tabela: tabela 3: consumo de alimento “light” por sexo Sexo\consumo Consome Não Consome Total p/sexo Masculino 6 24 30 % sexo 20,0 80,0 100,0 % consumo 11,8 58,5 32,6 % do total 6,5 26,1 32,6 Feminino 45 17 62 % sexo 72,6 27,4 100,0 % consumo 88,2 41,5 67,4 % do total 48,9 18,5 67,4 Total p/consumo 51 41 92 % sexo 55,4 44,6 100,0 % consumo 100,0 100,0 100,0 % do total 55,4 44,6 100,0 Fonte: Registro de aula. EaD 35 MÉtodos estatísticos e a adMinistração Comentário 3: Observa-se que a preocupação com o consumo de alimentos “light”, conside- rados com menor potencial de prejuízo à saúde, está associado com o sexo do consumidor: mulheres consomem mais do que homens. Constata-se que é maior entre as mulheres (72,6% das mulheres) do que entre os homens (apenas 20% dos homens), referindo portanto que 88,2% do consumo é realizado por pessoas do sexo feminino e 58,5% dos que não consomem são homens. Para fazer a análise da tabela bivariada realizamos o mesmo tipo de recorte permitido nas tabelas simples. • apresentar a idéia síntese da intenção que motivou a tabela; • um cuidado é o de não rediscutir todos os percentuais; • não utilizar todos os percentuais referentes a uma frequência conjunta. Escolher o que melhor expressa a intenção da pesquisa; • procurar embasar os comentários com as estatísticas mais adequadas, isto é, escolher o que vai sustentar melhor, convencer melhor o leitor. Ao fazermos a leitura da tabela temos de nos conscientizar de que o fazemos para terceiros, que não terão a visão dos dados brutos e nem das diferentes maneiras pelas quais os mesmos podem ser sistematizados, apresentados ou interpretados. Muitas relações que estão subjacentes aos dados podem ser ressaltadas nesses comentários pelo autor, encaminhando a compreensão que o leitor vai ter da temática. Com isso, alertamos para a parcialidade do comentário, não há neutralidade nele. O autor deve assumir que conduz o leitor à interpretação. A seguir vamos apresentar outro exemplo: Condições Econômicas dos Municípios da Mi- crorregião de Três Passos, a partir do banco de dados nº 1. tabela 4: nº de agências financeiras segundo o porte dos municípios da Microrregião de três Passos em 2007. Por te dos munic íp ios Nº Agênc ias 0 1 2 ou mais Tota l por Agênc ias Pequeno Por te I 7 2 2 11 % área 63 ,6 18 ,2 18 ,2 100 ,0 % agênc ias 77 ,8 66 ,7 40 ,0 55 ,0 % to ta l 35 ,0 10 ,0 10 ,0 55 ,0 Pequeno Por te I I 2 1 6 9 % área 22 ,2 11 ,1 66 ,8 100 ,0 % agênc ias 22 ,2 33 ,3 83 ,3 45 ,0 % to ta l 10 ,0 5 ,0 30 ,0 45 ,0 Tota l por Por te 9 3 8 20 % área 45 ,0 15 ,0 40 ,0 100 ,0 % agênc ias 100 ,0 100 ,0 100 ,0 100 ,0 % to ta l 45 ,0 15 ,0 40 ,0 100 ,0 Fonte: IBGE/cidades. EaD ruth Marilda Fricke – iara denise endruweit Battisti – antonio Édson corrente 36 Comentário 4: O número de agências financeiras no município depende do porte do mesmo. Na Microrregião de Três Passos observa-se que três municípios apresentam melhores con- dições econômicas em termos de PIB per capita. O porte do município explica o número de agências financeiras observado em cada município. Assim, constata-se que 35% deles são de Pequeno Porte nível I, isto é, com até 20 mil habitantes e não apresentam agência finan- ceira, enquanto que 30% são de Pequeno Porte nível II, de 20 a 50 mil habitantes, e possuem 5 agências financeiras. Agora que construímos tabelas simples e cruzadas para sistematizar e apresentar as variáveis qualitativas, vamos ver como se organizam dados quantitativos. Basicamente a organização de dados quantitativos é realizada com dois procedimentos distintos: Série Numérica (uma relação de dados não agrupados) e Distribuição de frequências (os dados agrupados em intervalos). seção 2.3 tabelas em série numérica e distribuição de Frequências com variáveis Quantitativas A sistematização dos dados de variáveis quantitativas permite um pouco mais de trata- mento estatístico. O número de informações com as quais trabalhamos e a apresentação de um comportamento padronizado ou não vão definir se a sistematização será feita por meio de Série Numérica (pequenas amostras, n<20), que trabalha com toda a informação individualizada, isto é, listada uma a uma, ou de Distribuição de frequências (grandes amostras, n≥20), que distribui as repetições dentro de intervalos, informando, portanto, que naquela faixa de valores existem fi (frequência, nº), que são as observações. Na Série Numérica, quando trabalhamos com pequenas amostras de tamanho menor do que 20, listamos os valores de Xi (variável aleatória) ordenados em ordem crescente, do menor para o maior. Consideramos a listagem dos dados absolutos nesse caso, pois devido ao pequeno tamanho da Amostra ou População, o agrupamento dos valores observados em intervalos signi- ficaria uma perda de informações que inviabilizaria a compreensão do fenômeno. Após fazer a listagem dos dados ordenados o máximo que podemos obter, nessa fase inicial, são: • Informações sobre o n, valor mínimo (Li – Limite Inferior), o valor máximo (Ls – Limite Supe- rior), a amplitude total (At = Ls – Li, Faixa de variação dos dados entre o maior e o menor). • Referências para um agrupamento qualitativo, formação de categorias que reagrupem os valores de forma nominal. EaD 37 MÉtodos estatísticos e a adMinistração • Avaliação da composição do total pelo valor relativo da parte considerada. 1 *100in i i x VR x = = ∑ Empregamos, para exemplificar, os dados referentes aos municípios que estão separados por Porte, como municípios de Pequeno Porte Nível I e II, da Microrregião de Três Passos. No caso dos Municípios de Pequeno Porte I ou II, observa-se que: Quadro 3: informações básicas da Microrregião de três Passos Municípios de Pequeno Porte I Municípios de Pequeno Porte II nI = 11 nII = 9 Li = R$ 533,70 Li = R$ 2.944,97 Li = R$ 5.514,40 Li = R$ 15.989,17 At = R$ 4.980,70 At = R$ 13.044,20 Fonte: Elaboração da autora. Apesar do número diferenciado de municípios de Pequeno porte por Nível, n = 11 no caso do Nível I e n = 9 no Nível II, a variação entre o menor valor do ITR no primeiro caso é de aproximadamente R$ 5.000,00 (0,5 a 5,5 mil reais), enquanto no segundo caso é de quase 3 vezes mais (2,9 a 15,9 mil reais). tabela 5: valor do itr (imposto territorial rural) nos municípios de Pequeno Porte nível i e ii da Microrregião de três Passos – rs – 2007. Pequeno Porte I Pequeno Porte II N Município Valor_ITR VR N Município Valor_ITR VR 1 Barra do Guarita 533,70 2,02 1 Tiradentes do Sul 2.944,97 4,91 2 Vista Gaúcha 922,33 3,49 2 Tenente Portela 3.703,25 6,18 3 Nova Candelária 946,85 3,58 3 Derrubadas 4.060,42 6,77 4 Miraguaí 1.324,74 5,01 4 Três Passos 5.196,27 8,67 5 Esperança do Sul 1.724,62 6,52 5 Crissiumal 5.417,75 9,04 6 Boa Vista do Buricá 1.902,02 7,19 6 Redentora 6.674,59 11,14 7 Bom Progresso 2.369,08 8,95 7 Dr Maurício Cardoso 7.660,00 12,78 8 Humaitá 2.519,68 9,52 8 Horizontina 8.291,42 13,83 9 Braga 4.145,13 15,67 9 Campo Novo 15.989,17 26,68 10 Sede Nova 4.554,22 17,21 Total 59.937,84 100,00 11 São Martinho 5.514,40 20,84 Total 26.456,77 100,00 Fonte: IBGE/cidades. EaD ruth Marilda Fricke – iara denise endruweit Battisti – antonio Édson corrente 38 Estes dados são apresentados em forma de série numérica pois em ambos os casos, n<20:3 municípios de Pequeno Porte I, nPPI = 11; Municípios de Pequeno Porte I, nPPII = 9. Agrupá-los e distribuí-los em intervalos é inviável porque ocorre muita perda de informação. Como são valores quantitativos, procurou-se avaliar a contribuição total em cada grupo de municípios e a participação de cada um deles nesse montante. Para calcular essa participação utilizamos o VR = valor relativo, isto é, a parte da cada município dentro do total do grupo. Comentário 5: O montante arrecadado de ITR nos Municípios de Pequeno Porte nível II é aproximadamente o dobro do outro grupo, perfazendo quase 60 mil reais. O município que mais contribui para o primeiro montante (R$ 26.456,77) é São Martinho, que arrecada 20,84% do valor total. O município que mais contribui para o segundo montante (R$ 59.937,84) é Campo Novo, que arrecada 26,86% do valor total. Aproximadamente 90,9% dos municípios de Pequeno Porte I apresentam baixa arrecadação de ITR, enquanto que no grupo de municípios de Pequeno Porte II, 66,7% dos municípios apresentam arrecadação média. Com esse resultado poderíamos formar 2 grupos de arrecadações do ITR, apresentados a seguir mediante tabelas simples, pois criaram-se a partir dessa informação estatística dois grupos: com baixa e média arrecadação, visualizados na Tabela 6: tabela 6: classificação dos municípios segundo o porte e valor de itr arrecadado na Microrregião de três Passos Arrecadação Intervalo Pequeno Porte I Pequeno Porte II Nº % Nº % Baixa < R$ 5.000,00 10 90,91 3 33,33 Média ≥ R$ 5.000,00 1 9,09 6 66,67 Total 11 100,00 9 100,00 Fonte: Elaboração da autora com base nos dados do IBGE/cidades. Na Distribuição de frequências, quando trabalhamos com grandes amostras de tamanho maior ou igual a 20, podemos adotar essa técnica de agrupamento de dados, que é uma ferra- menta poderosa na sistematização dos dados, pois apresenta bastante flexibilidade na escolha da amplitude parcial e dos limites dos intervalos com pequena perda de informações. As únicas exigências que se fazem nesse caso são: a. que o Li seja incluído no 1º intervalo, entendendo-se neste caso que o limite inicial do 1º intervalo não precisa necessariamente ser o Li, mas este deve estar obrigatoriamente contido nele; 3 N PPI: número de municípios de pequeno porte I. N PPII: número de municípios de Pequeno Porte II. EaD 39 MÉtodos estatísticos e a adMinistração b. que o Ls seja incluído no último intervalo, entendendo-se neste caso que o limite final do último intervalo não pode ser o Ls, mas tem de estar obrigatoriamente contido nele; c. que todos intervalos precisam ter frequência maior do que zero, isto é, fi > 0. Observadas à risca estas exigências, iniciamos o tratamento dos dados para um conjunto de dados cujo n > 20. Essa tarefa de sistematização passa pelo levantamento das informações básicas, ordenação em forma crescente do menor para o maior valor com o Ramo e Folhas, avaliação da ocorrência de valores soltos, fora do padrão, por meio do Diagrama de Pontos, dimensionamento dos intervalos mediante a Amplitude Parcial, construção da Distribuição de Frequências (DF): • Informações básicas dos dados Para iniciar o processo de agrupar os dados em intervalos precisamos saber o montante de variação que deve ser distribuído em intervalos, usualmente de tamanho regular. Essas in- formações podem ser obtidas sem qualquer tratamento prévio: n – número de dados; Li – valor mínimo da distribuição de valores; Ls – valor máximo do conjunto de observações. De posse destas informações podemos calcular a faixa de variação dos dados pela diferença entre o mínimo e o máximo. Este dado é denominado de At = Amplitude total. Quadro 4: informações básicas necessárias para a construção de uma distribuição de frequências n = Nº de valores Li = Menor valor Ls = Maior valor At = Faixa de Variação Fonte: Elaboração da autora. • Ordenação dos dados por meio do Ramo e Folhas Na natureza ou na sociedade quando obtemos os dados eles seguem uma sequência ale- atória que no mais das vezes não cumpre um ordenamento crescente. A distribuição de frequ- ências pressupõe a construção de intervalos com padrões regulares e crescentes de forma que nos primeiros intervalos serão alocados os valores mais baixos e nos últimos serão contados os valores mais altos. Por isso, precisamos ordenar os dados de forma crescente. Como cada valor representa uma observação, mesmo repetidas, cada uma deve constar para posterior contagem da frequência. EaD ruth Marilda Fricke – iara denise endruweit Battisti – antonio Édson corrente 40 Esta ordenação pode ser feita usando o programa Excel que classifica os dados por uma variável ou fazer uma ordenação manual. O modo manual comumente utilizado, o da ordenação visual, é muito demorado em grandes amostras. Temos uma outra alternativa, que é da organi- zação em ramos e folhas. Esta técnica busca nos dados duas faixas de variação: uma para os ramos – de variação mais demorada, construída a partir da avaliação dos limites Li e Ls computada anteriormente para o caso. Observamos de quanto a quanto os dados variam e construímos faixas de referên- cias de maior amplitude; outra para as folhas, que é uma faixa de variação mais rápida dentro da maior. Por exemplo, se escolhemos uma variação nas dezenas para os Ramos, nas Folhas a va- riação será das unidades. Após organizar o Ramo e folhas, alocamos cada observação no Ramo adequado e registramos a parte da observação que não aparece no ramo. A apresentação do Ramo e Folhas fica assim, se as informações básicas fossem estas (referentes ao ITR dos municípios de Pequeno Porte I da Microrregião de Três Passos): Quadro 5: informações básicas necessárias para a construção de uma distribuição de frequências Li = R$ 0.533,00 Ls = R$ 15.989,00 Observações: 534 1902 2369 4145 15989 5418 4060 7660 1725 8291 2520 1325 947 6675 5514 4554 3703 2945 5196 922 Fonte: Elaboração da autora. Usando as informações básicas vamos considerar os valores de Li (R$ 0.533,00) e da Ls (R$ 15.989,00) estrategicamente colocados um sobre o outro. Observando atentamente, verifi- camos que o primeiro valor é inferior a mil, logo tem 0 (zero) milhares, e o máximo é superior a 15 mil. Podemos então considerar o Ramo com a variação mais demorada: de 0 a 15 mil, e as Folhas que apresentam uma Variação menor, ou seja, mais rápida na centena, dezena, unidade – 000 a 999. Como verificamos que um grande vazio ocorre isolando o valor máximo, podemos optar por informar todos os intervalos ou então indicar apenas o vazio, como foi realizado no quadro a seguir. Os dados são distribuídos pelas linhas em acordo com o valor e a faixa correta, registrando-se nas Folhas apenas o restante do número que não aparece no Ramo. Neste caso, registramos centena, dezena e unidade. O passo seguinte é ordenar os valores nas linhas. Este processo pode ser acompanhado no Quadro 6: EaD 41 MÉtodos estatísticos e a adMinistração Quadro 6: dados distribuídos pela técnica de ramo e Folhas RAMO E FOLHAS não ordenado RAMO E FOLHAS ordenado na linha RAMO FOLHAS RAMO FOLHAS 0 534 725 947 922 0 534 725 922 947 1 902 325 1 325 902 2 369 520 945 2 369 520 945 3 703 3 703 4 145 .060 554 4 .060 145 554 5 418 514 196 5 196 418 514 6 675 6 675 7 660 7 660 8 291 8 291 . . . . 15 989 15 989 Fonte: Elaboração da autora. Com essa técnica olhamos os dados apenas uma vez. São distribuídos inicialmente já nas faixas certas e posteriormente ordenados em cada faixa, de forma rápida. • Diagrama de Pontos Outra técnica importante para verificar se a padronização dos dados está garantida, isto é, se não há nem um valor muito fora do padrão, é o Diagrama de Pontos. Faz-se uma régua parcial, dando conta da variação dos dados e se desenha um ponto para cada valor, respeitando a primeira casa das Folhas apenas. Com isso, será possível verificar se algum dos valores está muito fora do esquema e tam- bém concluir sobre a forma provável da distribuição dos dados. Vamos enxergar as regiões de concentração dos valores, e também, conseguimos visualizar as faixas de dispersão em que os pontos se tornam mais raros, dispersos. Chamamos os valores fora do padrão de pontos isolados, tecnicamente são os “outliers”. Estes valores precisam ser reconhecidos, pois atrapalham a distribuição das observações nos intervalos, constituindo uma quebra da terceira regra que impõe uma exigência de frequência maior do que zero em todos os intervalos. Se a distância entre o penúltimo ponto e o “outlier” for muito grande corremos o risco de ter fi = 0. Neste caso, este ponto deve ser descartado, colocado em uma observação e o padrão será calculado com os pontos restantes. Necessariamente vamos ter que redimensionar o n, Li ou Ls e o At. Vejamos como fica no exemplo dos Quadros 5 e 6. EaD ruth Marilda Fricke – iara denise endruweit Battisti – antonio Édson corrente 42 Quadro 7: diagrama de Pontos dos municípios (em milhares) o o o o o o o o o o o o o o o o o o o o 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Fonte: Elaboração da autora. Neste Diagrama de Pontos observamos perfeitamente que a maioria dos municípios apre- senta ITR de 0 a 8 mil reais; este é, portanto, o padrão destes municípios, no entanto encontramos um valor que pode ser considerado um “outlier”: o 15.989. Ele se encontra afastado dos demais e não poderá ser agrupado, está fora do padrão. Existe um vazio entre ele e o valor imediatamente anterior de mais de 7.500 reais. O tratamento dos dados deve colocar este valor à parte e informar que temos um caso de valor fora do padrão, “outlier”, portanto. Não se trata de perda de informação, mas sim de tratá-la em separado para evitar tenden- ciosidades nas estatísticas. Os “outliers” tanto podem ser informações corretas que apresentam uma outra tendência que não a do grupo de dados mais homogêneos, quanto pode ser valor incorretamente observado. Excluindo-se este valor as informações básicas modificam e passam a ser: Quadro 8: informações básicas readequadas ao novo cenário de ocorrência de “outlier” n = 19 Li = R$ 534,00 Ls = R$ 8.291,00 At = R$ 7.757,00* Fonte: Elaboração da autora. * Excluído o valor de R$ 15.989 por estar fora do padrão. • Amplitude Parcial (hi) Após o ajuste dos dados, o passo seguinte é calcular o número e o tamanho dos intervalos que vão dar lugar à Amplitude Parcial (hi). A distribuição em faixas, usualmente, de igual ta- manho, deve facilitar a leitura e a compreensão das informações. Em alguns casos, como o de faixas etárias da população, é interessante adotar as faixas comumente utilizadas pelo IBGE, permitindo uma comparação com resultados censitários. Este também é o caso de faixa de renda, tamanho de propriedades rurais que impõem o uso de intervalos de tamanho diferenciado em função da extrema variação de renda e hectares, por isso é interessante utilizar as faixas como o faz o IBGE. EaD 43 MÉtodos estatísticos e a adMinistração • O número de intervalos pode variar entre 4 e 10, tendo em vista que agrupar os dados pretende facilitar a visão do conjunto de dados. Nesse caso o excesso de intervalos acabaria diluindo a informação de forma a prejudicar a análise. O número de intervalos é dado pela n . Caso o resultado dessa raiz for superior a 10, é possível adaptar para um resultado mais favorável. • A amplitude parcial (hi) é o tamanho do intervalo, este resulta da aplicação de uma fórmula, cuja resposta deve ser olhada apenas como um indicador do entorno de amplitude a ser em- pregada. O ajuste deve sempre favorecer a visibilidade da informação, por isso nem sempre o valor encontrado é diretamente utilizado. É necessário fazer uma aproximação do mesmo de forma a atingir os objetivos de sua utilização. Essa aproximação permanece no entorno do valor encontrado. ,.ti t s i A h A L L n = = − • Distribuição de Frequências (DF) O passo seguinte é a construção da tabela de Distribuição de Frequências (DF). A ideia é distribuir a frequência dos valores dentro das faixas construídas, mediante contagem delas no Ramo e Folhas ordenado. • é usual, tendo em vista a continuidade dos dados numa DF, utilizar um intervalo do tipo [ li |-------– ls ]. Esta forma indica que valores a partir de li estarão sendo contados no intervalo, pertencem a ele, no entanto valores iguais a ls serão incluídos no intervalo seguinte; • decisão sobre o limite inicial do primeiro intervalo, lembrando que qualquer valor pode ser utilizado, desde que se garanta a contagem de li nesse primeiro intervalo. A seguir, ls= li+ hi permitirá construir todos os intervalos; • checagem se o último intervalo contém o último valor. É preciso verificar se ele não é igual ao limite superior (ls) do último intervalo, pois nesse caso não será contado no mesmo; • outra checagem fundamental é quanto às frequências (fi) em cada intervalo. Todas elas devem ser maiores do que zero, fi> 0; EaD ruth Marilda Fricke – iara denise endruweit Battisti – antonio Édson corrente 44 • Além do fi, utilizaremos outros recursos para compreender o comportamento do fenômeno: • fa: frequência absoluta acumulada. A ideia é a de ir acumulando as frequências observadas de forma a verificar como elas se concentram. No primeiro intervalo, fa= fi; a partir de então será acrescentada a do segundo intervalo e assim por diante fa2= fa1+ fi2 • fr%: frequência relativa percentual 100*n x %f ir = • fr%ac: frequência relativa percentual acumulada, a primeira repete, a segunda fr%ac2= fr%ac1+ fr%2 Vejamos esta sequência de tratamentos aplicados ao exemplo dos municípios da Micror- região de Três Passos no que se refere ao ITR. • Informações básicas após o ajuste de “outlier” Como foi observada a presença de um “outlier”, a sua supressão gera modificações nas informações básicas. Quadro 9: informações básicas readequadas ao novo cenário de ocorrência de “outlier” n = 19 Li = R$ 534,00 Li = R$ 8291,00 At = R$ 7.757,00 Fonte: Elaboração da autora. • Cálculo do tamanho do intervalo: 00,000.257,1779 3589,4 00,757.7 19 00,757.7 ≅==== n A h ti Como o valor para a raiz de n é 4,3589, faremos aproximadamente 5 intervalos de tamanho 2 mil. tabela 7: valor (r$ ) do imposto territorial rural (itr) arrecadado nos municípios da Microrregião de três Passos – rs/2007 Valores de Xi fi fa fr% fr%ac 0 |-------- 2.000 6 6 31,58 31,58 2.000 |-------- 4.000 4 10 21,05 52,63 4.000 |-------- 6.000 6 16 31,58 84,21 6.000 |-------- 8.000 2 18 10,53 94,74 8.000 |-------- 10.000 1 19 5,26 100,00 ∑ 19 100,00 Fonte: IBGE/cidades. Obs.: Exceto o município de Campo Novo com valor do ITR= R$15.989,17, representando 26,68% do imposto arrecadado na microrregião, considerado “outlier”, isto é, valor isolado, pois se encontra fora do padrão dos demais municípios. EaD 45 MÉtodos estatísticos e a adMinistração Comentário 7: A arrecadação de ITR constitui-se de valores baixos (de 500 a 8,5 mil reais), caracterizando pequenas propriedades na Microrregião, excetuando-se Campo Novo, que apresenta um valor mais elevado, acima de R$ 15.000,00. Observa-se que em 84,21% dos municípios a arrecadação do ITR foi inferior a 6 mil reais. Na faixa de menos de R$ 2.000,00 se concentram 31,58% dos municípios. Na sequência de nossos estudos vamos verificar como a utilização de gráficos facilita a leitura dos dados que foram sistematizados em tabelas. A diferença entre usar tabela ou gráfico está na agilidade da informação ou no seu detalhamento: o gráfico dá um impacto direto, per- mitindo a visualização rápida do comportamento geral dos dados, enquanto a tabela vai deixar que o leitor conheça todos os detalhes desse comportamento, exigindo maior tempo de avaliação para uma melhor compreensão do fenômeno. Vamos adiante? seção 2.4 representação gráfica e sua leitura Nada melhor do que um gráfico para potencializar uma visão geral e rápida do comporta- mento dos dados. Os diagramas de colunas, barras, setores (pizza), linhas, pontos, são os mais utilizados para apresentar tabelas simples e cruzadas e o histograma, polígono de frequências e setores (limitado a 7 intervalos na DF) para representar a distribuição de frequências. O gráfico pode ser feito manualmente ou com auxílio de um software tipo “Excel”. Um cuidado que devemos ter é o de fazer uma escolha, ou utilizamos a tabela ou o grá- fico, nunca os dois ao mesmo tempo, pois apesar de permitirem visões diferenciadas (a tabela um olhar detalhista, o gráfico uma visão mais geral), as informações são as mesmas, e faremos uma repetição desnecessária e incômoda para o leitor. A nossa análise é que vai definir o que pretendemos enfatizar naquele momento, permitindo a escolha. A composição do gráfico agrega essencialmente o título, a figura e a fonte: • Título: deve identificar a variável apresentada, a população de origem, local e tempo de ocor- rência. Quer dizer, o leitor do gráfico deve ficar perfeitamente situado em relação às informações que lhe estão sendo apresentadas. O título pode ser colocado na parte superior ou inferior da figura, pode ser numerado e seguir um mesmo padrão em todos eles. • Figura: A figura deve identificar as informações que estão sendo apresentadas em cada eixo, de preferência apresentar os valores em % para permitir comparações, uma vez que o valor absoluto só permite comparações quando os n são iguais. Outro cuidado extremamente importante é EaD ruth Marilda Fricke – iara denise endruweit Battisti – antonio Édson corrente 46 relativo à escala de apresentação dos dados. Deve-se ter o cuidado de apresentar como se fosse uma régua, respeitando a base decimal. Algumas dicas na escolha dos gráficos: escolha o de colunas, se as categorias forem palavras curtas ou siglas; opte pelo de barras se as categorias forem palavras longas ou expressões; adote o de linhas se estiver apresentando uma variável temporal, isto é, que evolui no tempo; escolha o de setores (pizza) se o objetivo for comparar o desempenho das alternativas e estas forem num número máximo de 7 categorias; o histograma de frequências se quiser representar uma Tabela de Distribuição de Frequências. • Fonte: é imprescindível informar a fonte dos dados para agregar credibilidade e possibilidade de voltar à informação original se for o caso. Um gráfico sem estas três partes não é considerado um gráfico. Vejamos alguns EXEMPLOS de gráficos: grÁFico de colUnas gráfico 1: distribuição dos municípios da Microrregião de três Passos segundo a densidade demográfica (hab./km2) rs/2007 1 8 5 6 0 2 4 6 8 Municípios (< 10) (20 a 29) (30 a 39) (40 e mais) Habitantes/km² Gráfico 1: Distribuição dos municípios da Microrregião de Três Passos segundo a densidade demográfica (hab./km²) RS/2007 Fonte: IBGE Fonte: IBGE. Comentário: De forma geral podemos observar que a Microrregião de Três Passos apresenta uma densidade demográfica igual a 20 hab./km², indicando uma boa concentração popula- cional. O que mais ocorre são municípios com densidade entre 20 e 29 hab./km². O que menos ocorre são municípios com pouca densidade, inferior a 10 hab./km². EaD 47 MÉtodos estatísticos e a adMinistração grÁFico de Barras gráfico 2: distribuiçção dos municípios da Microrregião de três Passos por porte – rs/2007 Gráfico 2: Distribuição dos municípios da Microrregião de Três Passos por porte - RS/2007. 1 1 9 0 2 4 6 8 10 12 1 – Pequeno Porte I (até 20 mil hab.) 2 - Pequeno Porte II (20 a 50 mil hab.) P o r t e Nº de muncípios Fonte: IBGE Fonte: IBGE. Comentário: A Microrregião de Três Passos é formada por 20 pequenos municípios. Observa- se que 55% deles são classificados como Pequeno Porte nível I (< de 20 mil hab.) e 45% deles como Pequeno Porte nível II (de 20.001 a 50 mil habitantes). grÁFico de setores (PiZZa) gráfico 3: avaliação do potencial municipal a partir do indicador de industrialização (nº de indústrias/10 mil hab.) Microrregião de três Passos – 2007 Gráfico 3: Avaliação do potencial municipal a partir do Indicador de Industrialização (nº de indústrias/10 mil hab.) Microrregião d eTrês Passos - RS/2007. 5% 35% 50% 10% 1) Não industrializado 2) Pouco industrializado 3) Média industrialização 4) Industrializado Fonte: IBGE. EaD ruth Marilda Fricke – iara denise endruweit Battisti – antonio Édson corrente 48 Comentário: A sociedade em geral tem a percepção que um município deve incentivar inves- timentos na instalação de indústrias visando a potencializar a criação de empregos. Observa- mos que 50% dos municípios têm de 5 a 10,9 indústrias/10 mil habitantes, uma concentração média. Apenas 5% das comunidades são Não Industrializadas, certamente com atividades mais rurais. grÁFico de linHas gráfico 4: nº de agências financeiras no município – Microrregião de três Passos – rs/2007Gráfico 4: Nº de agências financeiras no município - Microrregião de Três Passos - RS/2007. 0 10 20 30 40 50 0 1 2 3 4 5 Nº de Agências % Fonte : IBGE Fonte: IBGE. Comentário: Numa sociedade capitalista como a nossa, a função das agências financeiras canaliza as movimentações, no entanto, o avanço das agências virtuais por meio da Internet minimiza a necessidade do acesso físico no local de moradia. A agência presencial facilita a solução de problemas por potencializar o contato pessoal. Na Microrregião, 45% das loca- lidades não têm agência financeira e isto é explicado pelo porte dos municípios. Apenas três municípios apresentam três ou mais agências. grÁFico de taBelas crUZadas (Bivariadas) gráfico 5: distribuição dos municípios (%) segundo o nº de agências financeiras e o porte do município – Microrregião de três Passos – rs/2007 Gráfico 5: Distribuição dos municípios (%) segundo o nº de agências financeiras e o porte do município - Microrregião de Três Passos - RS/2007. 63,6 18,2 18,222,2 11,1 66,8 0 20 40 60 80 0 1 2 ou mais Nº de Agências % Pequeno I Pequeno II Fonte: IBGE. EaD 49 MÉtodos estatísticos e a adMinistração Comentário: A análise dessa visão bidimensional corrobora com a opinião emitida no gráfico anterior. Os municípios que não têm agência financeira são 63,6% dos de pequeno porte I e os que possuem 2 ou mais agências são 66,8% dos municípios de pequeno porte II. Desta forma podemos verificar que existe uma associação entre a presença de agências financeiras e o porte do município na Microrregião de Três Passos. HistograMa de FreQUÊncias gráfico 6: arrecadação do itr imposto territorial rural pormunicípio na Microrregião de três Passos – rs/2007 Gráfico 6: Arrecadação do ITR - Imposto Territorial Rural por município na Microrregião de Três Passos - RS/2007. 0 31,58 21,05 31,58 10,53 0 5 10 15 20 25 30 35 0 2.000 4.000 6.000 8.000 10.000 ITR (R$) % Fonte: IBGEFonte: IBGE. Comentário: Entendemos que a Microrregião de Três Passos tem uma tradição de pequenas propriedades rurais e produção de alimentos com mão de obra familiar. As duas faixas de ar- recadação que concentram os municípios incluem aqueles que arrecadam ITR < R$ 2.000,00 (31,58%) e ITR no intervalo de 4 a 6 mil reais também com 31,58% dos municípios. No geral, 85% das localidades arrecadam menos de R$ 6.000,00. Nesses exemplos foi possível comprovar que visualizar as informações das tabelas por meio de gráficos torna a informação muito mais dinâmica e rápida, porém tem suas limitações em termos de detalhes. Vejamos agora como aplicar estes conhecimentos. Seguem-se alguns bancos de dados que precisam ser trabalhados conforme o conhecimento exemplificado até ago- ra: tabelas simples uni e bivariadas, gráficos, comentários. Agilize-se e mostre o que aprendeu, aproveitando para refazer os exemplos ampliando seu conhecimento. seção 2.5 aplicações Para desenvolver habilidades na aplicação dos conceitos e tratamentos apresentados ante- riormente, solicitamos que aplique o tratamento adequado nos seguintes bancos de dados: EaD ruth Marilda Fricke – iara denise endruweit Battisti – antonio Édson corrente 50 1) Banco de dados número 2 apresenta algumas variáveis sociais da Mesorregião Centro Oci- dental Rio-Grandense por município, fornecidas pelo IBGE, com classificações que foram pesquisadas em artigos publicados na Internet para serem aqui atribuídas. Como vimos, o RS é constituído de sete mesorregiões. A Centro-Ocidental abrange três microrregiões (Santiago, Restinga Seca e Santa Maria) e 31 municípios. A abordagem pretendida com este tratamento estatístico visa a construir um panorama referencial de informações que dizem do exercício da democracia e cidadania por meio de Indicadores Sociais. Aproveite e complete os espaços pontilhados: Quadro 10: informações sobre variáveis e categorias 456 N: Nº de ordem dos registros Município: Variável ............................ pois seus valores são ................................................................................; X1: Índice de Pobreza, Variável...............................................................................................................................; X2: Classificação do Índice de Pobreza, Variável aleatória ..................................................................................., sendo 1) Baixa proporção (<15%); 2) Média Proporção (15 a 29%); 3) Alta proporção (≥ 30%)4 X3: Índice de Pobreza Subjetiva, V. A. .................................................................................................................... X4: Classificação da Pobreza Subjetiva , V. A. ........................................................................................................ X5: Índice de Gini, Indicador de distribuição de renda, V. A. ............................................................................... X6: Classificação do IG V. A. ........................... (0 a 8, (0-Igualdade e 8-Desigualdade), 0 -< 25; 1– 25 a 29,9; 2– 30 a 34,9; 3– 35 a 39,9; 4-40 a 44,9; 5– 45 a 49,9; 6– 50 a 54,9; 7-55 a 59,9; 8– 60 e mais5 X7: Residentes, V. A. ................................................................................................................................................ X8: Porte do município V. A, ...................................; ( 1: Pequeno I – até 20 mil hab.; 2: Pequeno II – 20001 a 50000; 3: Médio – 50001 a 100000; 4: Grande – 100001 a 900000; 5: Metrópole – > 900 000.6 Fonte: Elaboração da autora. 4 www.pnud.org.br/hdr/hdr97/rdh7-1.htm 5 Coeficiente de Gini, Origem: Wikipédia, a enciclopédia livre. 6 portalsocial.sedsdh.pe.gov.br/.../Gloss%E1rio%20tabela%20dos%20munic%EDpios.pdf EaD 51 MÉtodos estatísticos e a adMinistração Quadro 11: Banco de dados nº 2: variáveis sociais da Mesorregião centro ocidental rio-grandense por município N Mun Pobreza Cls_pobr Pobresubj Cls_pobsubj Igini Cls_IG Residentes Porte 1 Agudo 17,35 2 13,55 1 0,41 4 16.714 1 2 Cacequi 34,21 3 27,6 2 0,41 4 13.629 1 3 Capão do Cipó 999 999 999 999 999 999 3.180 1 4 Dilermando de Aguiar 20,31 2 15,93 2 0,35 3 3.129 1 5 Dona Francisca 23,21 2 18,16 2 0,42 4 3.572 1 6 Faxinal do Soturno 21,99 2 17,05 2 0,43 4 6.343 1 7 Formigueiro 20,37 2 15,75 2 0,39 3 7.116 1 8 Itaara 29,94 2 23,4 2 0,39 3 4.633 1 9 Itacurubi 25,67 2 20,48 2 0,38 3 3.568 1 10 Ivorá 15,96 2 11,64 1 0,36 3 2.378 1 11 Jaguari 19,72 2 14,94 1 0,39 3 11.626 1 12 Jarí 20,12 2 15,9 2 0,35 3 3.692 1 13 Júlio de Castilhos 30,37 3 23,89 2 0,39 3 19.541 1 14 Mata 22,12 2 16,96 2 0,37 3 5.291 1 15 Nova Esperança do Sul 28,63 2 21,25 2 0,36 3 4.775 1 16 Nova Palma 17,49 2 12,93 1 0,37 3 6.432 1 17 Pinhal Grande 22,83 2 16,9 2 0,37 3 4.496 1 18 Quevedos 22,66 2 17,95 2 0,37 3 2.732 1 19 Restinga Seca 21,02 2 16,77 2 0,4 4 15.595 1 20 Santa Maria 25,26 2 18,98 2 0,44 4 263.403 4 21 Santiago 26,76 2 20,75 2 0,41 4 49.558 2 22 São João do Polêsine 14,18 1 10,6 1 0,4 4 2.702 1 23 São Martinho da Serra 18,29 2 13,47 1 0,35 3 3.409 1 24 São Pedro do Sul 26,3 2 21 2 0,4 4 16.613 1 25 São Sepé 27,43 2 20,66 2 0,4 4 23.787 2 26 São Vicente do Sul 23,61 2 17,91 2 0,39 3 8.361 1 27 Silveira Martins 18,86 2 13,74 1 0,36 3 2.479 1 28 Toropi 15,79 2 11,73 1 0,34 2 3.070 1 29 Tupanciretã 30,05 3 24,12 2 0,39 3 22.556 2 30 Unistalda 25,9 2 19,67 2 0,36 3 2.392 1 31 Vila Nova do Sul 24,67 2 19,04 2 0,36 3 4.255 1 Fonte: IBGE, contagem 2007. Obs.: 9)99 é o código para NI, NR, Não Tem a informação. Nossa pergunta relaciona-se com o Perfil da Pobreza na Mesorregião Centro Ocidental Rio- Grandense. 2) Banco de dados número 3 apresenta algumas variáveis da Microrregião de Ijuí, com as mesmas variáveis do banco número 2, e responde à mesma pergunta anterior, porém nesta microrregião. EaD ruth Marilda Fricke – iara denise endruweit Battisti – antonio Édson corrente 52 Quadro 12: Banco de dados número 3: variáveis sociais relacionadas com as condições de acesso à riqueza da Microrregião de ijuí por município N Mun Pobreza Cls_ pobr Pobre- subj Cls_po- bsubj Igini Cls_IG Residentes Porte Area_ terr Cls_ area Densi- dade Cls_ dens 1 Ajuricaba 19,3 2 13,79 1 0,37 3 7.261 1 323 2 22,5 4 2 Alegria 25,42 2 20,1 2 0,38 3 4.789 1 173 1 27,7 4 3 Augusto Pestana 16,4 2 11,98 1 0,37 3 7.273 1 347 2 21,0 4 4 Bozano 999 999 999 999 999 999 2.296 1 201 2 11,4 4 5 Chiapetta 24,55 2 19,3 2 0,37 3 4.078 1 396 2 10,3 4 6 Condor 23,17 2 17,76 2 0,38 3 6.607 1 465 2 14,2 4 7 Coronel Barros 15,98 2 12,36 1 0,35 3 2.441 1 163 1 15,0 4 8 Coronel Bicaco 26,81 2 20,75 2 0,39 3 7.873 1 492 2 16,0 4 9 Ijuí 26,16 2 19,68 2 0,42 4 76.739 3 689 3 111,4 3 10 Inhacorá 32,31 3 25,7 2 0,35 3 2.290 1 114 1 20,1 4 11 Nova Ramada 12,36 1 9,44 1 0,35 3 2.461 1 255 2 9,7 4 12 Panambi 25,79 2 18,97 2 0,39 3 36.360 2 491 2 74,1 4 13 Pejuçara 22,46 2 16,98 2 0,38 3 3.900 1 414 2 9,4 4 14 Santo Augusto 29,16 2 23,47 2 0,4 4 13.622 1 468 2 29,1 4 15 São Valério do Sul 28,02 2 20,06 2 0,38 3 2.635 1 108 1 24,4 4 Fonte: IBGE/cidade. É necessário acrescentar algumas definições de variáveis às que já estavam definidas anteriormente no Quadro 10. Quadro 13: informações sobre variáveis e categorias complementares Área_territorial (km²) V. A. ..................... Cls_área V. A. ..................... (1. Pequeno (<200 km²); 2. Médio (200 a 500 km²); 3. Grande (> 500 km²) Densidade Demográfica (hab./km²) V. A. ..................... Cls_densidade V. A. ..................... (1. < 10; 2. 10 a 19; 3. 20 a 29; 4. 30 a 39; 5. 40 e mais) Fonte: Elaboração da autora. 3) Banco de dados número 4 apresenta a série histórica de algumas variáveis econômico/sociais coletadas na Região Metropolitana de Porto Alegre. EaD 53 MÉtodos estatísticos e a adMinistração Quadro 14: Banco de dados número 4: variáveis econômico/sociais coletadas na região Metropolitana de Porto alegre por município Período Mês na série Tx desocu- pação não quer trab Cart assim Período Mês na série Tx desocu- pação não quer trab Cart assim Período Mês na série Tx desocu- pação não quer trab Cart assim mar/02 1 10,4 77,7 47,6 ago/04 30 7,3 84,8 47,6 jan/07 59 8,1 85,3 49,3 abr/02 2 11,2 80,7 48,1 set/04 31 8,4 86,5 47,3 fev/07 60 7,5 85,0 49,7 mai/02 3 10,8 80,0 49,3 out/04 32 7,0 87,3 46,9 mar/07 61 7,3 86,1 50,3 jun/02 4 9,4 80,3 47,3 nov/04 33 7,2 86,9 47,9 abr/07 62 7,1 86,1 48,8 jul/02 5 9,8 79,5 47,8 dez/04 34 6,5 88,7 46,4 mai/07 63 6,5 86,9 49,1 ago/02 6 8,5 80,7 47,4 jan/05 35 6,9 87,2 47,0 jun/07 64 7,8 87,4 49,5 set/02 7 9,4 81,7 47,8 fev/05 36 6,6 87,3 47,9 jul/07 65 7,5 88,2 49,3 out/02 8 8,3 79,8 47,0 mar/05 37 6,9 88,0 49,2 ago/07 66 7,9 88,8 50,8 nov/02 9 8,7 80,8 46,6 abr/05 38 6,5 87,3 49,5 set/07 67 6,7 89,0 49,8 dez/02 10 7,5 79,8 48,5 mai/05 39 6,9 86,6 49,2 out/07 68 5,9 89,3 49,3 jan/03 11 8,2 80,8 49,6 jun/05 40 6,2 86,0 49,6 nov/07 69 5,9 89,2 50,1 fev/03 12 8,7 81,8 49,1 jul/05 41 5,7 87,2 49,7 dez/07 70 5,1 88,6 50,2 mar/03 13 9,8 80,9 48,0 ago/05 42 6,7 87,0 49,7 jan/08 71 5,6 87,2 52,1 abr/03 14 9,3 79,0 47,2 set/05 43 7,6 87,9 48,9 fev/08 72 6,1 87,9 50,6 mai/03 15 9,7 79,4 46,9 out/05 44 6,4 88,4 49,1 mar/08 73 5,5 88,2 50,6 jun/03 16 11,0 81,5 45,7 nov/05 45 7,2 90,0 48,9 abr/08 74 6,9 87,0 50,3 jul/03 17 9,3 81,7 45,1 dez/05 46 6,5 89,1 49,8 mai/08 75 6,0 86,1 50,4 ago/03 18 10,0 82,9 47,2 jan/06 47 7,8 88,1 49,1 jun/08 76 5,9 86,3 50,9 set/03 19 10,6 83,2 46,9 fev/06 48 7,1 89,0 49,4 jul/08 77 5,8 86,6 52,1 out/03 20 9,9 84,3 47,7 mar/06 49 8,0 90,6 48,7 ago/08 78 5,6 87,4 51,0 nov/03 21 9,0 84,8 46,5 abr/06 50 7,8 91,0 48,8 set/08 79 5,6 87,7 51,4 dez/03 22 7,0 84,5 47,0 mai/06 51 8,9 88,4 48,6 out/08 80 5,7 87,9 51,5 jan/04 23 7,6 84,4 48,4 jun/06 52 7,9 87,4 48,4 nov/08 81 5,0 89,4 51,1 fev/04 24 7,4 84,4 48,2 jul/06 53 9,3 86,9 48,7 dez/08 82 4,4 86,8 51,6 mar/04 25 9,1 84,4 48,4 ago/06 54 7,7 87,0 49,2 jan/09 83 5,5 87,2 53,1 abr/04 26 9,2 83,5 48,4 set/06 55 8,1 88,1 49,9 fev/09 84 6,0 87,4 53,2 mai/04 27 8,8 86,2 48,0 out/06 56 8,2 88,7 49,8 mar/09 85 6,0 88,4 52,0 jun/04 28 8,7 84,0 48,6 nov/06 57 7,3 88,8 49,5 jul/04 29 7,8 83,9 47,8 dez/06 58 6,2 87,1 48,9 Fonte: IBGE, Diretoria de Pesquisas, Coordenação de Trabalho e Rendimento, Pesquisa Mensal de Emprego mar. 2002-mar. 2009. Classifique as variáveis e crie a pergunta, faça o tratamento dos dados e analise. 5) Banco de dados número 5 apresenta dados das Unidades da Federação relativos à participação dos idosos e população com 100 anos ou mais. EaD ruth Marilda Fricke – iara denise endruweit Battisti – antonio Édson corrente 54 Quadro 15: Banco de dados número 5: participação dos idosos e população com 100 anos ou mais por UF/Br Situação do domicílio Urbana Rural Sexo Homens Mulheres Homens Mulheres Idade 100 ou mais 60 e mais 100 e mais/ 10 mil 100 ou mais 60 e mais 100 e mais/ 10 mil 100 ou mais 60 e mais 100 e mais/ 10 mil 100 ou mais 60 e mais 100 e mais/ 10 mil SP 87 464.003 2 97 334.542 3 11 68.376 2 5 17.690 3 RO 5 21.668 2 3 15.403 2 3 16.795 2 1 3.470 3 TO 9 24805 4 11 19721 6 3 13750 2 1 3171 3 PI 23 56.578 4 34 55.083 6 13 48.145 3 6 18.706 3 SC 22 102.609 2 32 79.422 4 7 45.780 2 5 14.038 4 CE 36 100.831 4 57 84.344 7 34 95.875 4 17 37.972 4 MO 16 55.743 3 14 37.788 4 6 21.794 3 2 3.659 5 PR 49 171.130 3 56 127.382 4 14 76.137 2 14 22.173 6 MS 21 59.602 4 15 45.913 3 2 14.288 1 2 3.140 6 PA 19 54.159 4 26 42.259 6 18 55.138 3 12 18.417 7 ES 19 40.829 5 41 31.419 13 8 24.310 3 5 7.625 7 MA 41 93.405 4 72 94.528 8 26 74.394 3 27 36.347 7 RS 32 188.766 2 76 156.827 5 14 101.524 1 24 32.002 7 AL 22 53.694 4 38 55.859 7 14 28.371 5 12 14.965 8 PB 37 87.113 4 58 90.234 6 23 45.917 5 20 21.044 10 PE 49 106.659 5 86 108.769 8 22 68.573 3 34 33.805 10 MG 139 369.719 4 235 303.217 8 49 156.357 3 57 55.542 10 GO 45 89.364 5 53 68.289 8 9 31.069 3 7 6.613 11 SE 26 32.837 8 48 38.943 12 19 19.580 10 15 12.032 12 RJ 31 104.947 3 53 87.452 6 7 18.150 4 11 8.324 13 BA 133 174.018 8 253 170.736 15 113 176.287 6 126 86.580 15 AM 11 39.727 3 14 38.731 4 7 17.301 4 8 4.619 17 AP 2 7336 3 6 6832 9 1 1381 7 1 502 20 RR 2 4273 5 2 3837 5 1 2324 4 1 496 20 RN 42 70.127 6 60 64.739 9 17 30.472 6 28 12.852 22 AC 2 9130 2 1 8565 1 3 4985 6 - 1305 - Fonte: IBGE/Estados. Classifique as variáveis e crie a pergunta, faça o tratamento dos dados e analise. resUMo da Unidade 2 Esta unidade foi dedicada a descrever um conjunto de dados obtidos por meio de pesquisa, de levantamentos, de registros, de censos, mediante sua sistematização e apresentação em tabelas simples – univariadas e bivaria- das – e gráficos. Aprendemos que não se deve representar as informações obtidas por meio de gráficos e tabelas simultaneamente, pois ambas vão apresentar as mesmas descrições. As tabelas serão elaboradas quando for necessário fornecer os detalhes e os gráficos quando a intenção for obter uma visão geral e rápida do comportamento da(s) variável (eis). EaD 55 MÉtodos estatísticos e a adMinistração Medidas QUe descreveM o conjUnto de dados Ruth Marilda Fricke oBjetivo desta Unidade: • Descrever o conjunto de dados quantitativos de forma sintetizada por meio da média e suas alternativas e dominar a variação em torno das mesmas com a finalidade de conhecer sua tendenciosidade, apoiando a escolha da medida apropriada para descrever comportamentos padrões na área da administração. seçÕes desta Unidade: Seção 3.1– Quadro-resumo das fórmulas Seção 3.2 – Medida de Tendência Central e de Variabilidade – Conceitos e Operacionalização Seção 3.3 – Aplicações. A coleta de dados e sua representação em tabelas e gráficos permite uma visão detalhada e circunstanciada da informação aliada ao espaço e tempo que está descrevendo. Outra manei- ra de descrever esse conjunto de informações é expressá-lo por números típicos que consigam sintetizar esse padrão e forneçam informações comparáveis entre diversos conjuntos de dados, independentemente do tamanho da amostra que está sendo utilizada. As medidas típicas de uma variável quantitativa são especialmente a média aritmética, que considera cada valor da variável com a mesma importância no conjunto de dados e verifica qual o número que pode dar uma ideia desse comportamento. A população é, então, analisada por esse número, avaliando-se que cada observação é entendida a partir dele, iX = média ± certo desvio. Para facilitar o entendimento do tratamento descritivo e das relações entre as medidas vamos trabalhar de forma relacionada a média e a variabilidade e posteriormente as alternativas para o caso de a média não se constituir numa informação válida, isto é, para o caso de apresentar tendenciosidade. Unidade 3 EaD ruth Marilda Fricke – iara denise endruweit Battisti – antonio Édson corrente 56 seção 3.1 Quadro-resumo das Fórmulas As medidas descritivas vão fornecer números típicos que descrevem o comportamento dos dados. São elas as Medidas de Tendência Central e as Medidas de Variabilidade. Para facilitar o manuseio das fórmulas necessárias para o cálculo das estatísticas desta unidade vamos iniciar com um quadro-resumo de fórmulas. As fórmulas para o cálculo das medidas descritivas são apresentadas somente para variáveis quantitativas com duas opções: para série numérica (n< 20) e distribuição de frequências (n ≥ 20), em dois quadros: um para as Medidas de Tendência Central: Média ( X ), Mediana (Md) e Moda (Mo), outro para as Medidas de Variabilidade: Variância absoluta (s²), Desvio padrão (s) e Coeficiente de Variação (CV). Quadro 1: Quadro-resumo das fórmulas das Medidas de tendência central – Mtc Medidas Série Numérica Distribuição de freqüências Média Aritmética ( na amostra e µ na população) 1 n i i x X n= = ∑ ( ) 2 ,... 1 si i n i ii ll X n xf X + == ∑ = Mediana (Md) N par → P = 2 n , a Mediana é a média dos dois valores cen- trais, i .é. , do P-ésimo valor e o seguinte. N ímpar → P = 1 2 n + , a Media- na é o P-ésimo valor. P = 2 n → localizar no af o imd, intervalo mediano. Seleciona o in- tervalo e retira todos os dados com exceção da faa que é o fa anterior. ( ) i iaa i f hfP lMd −+= Moda (Mo) A moda numa série numérica é o valor mais repetido, i .é, com concentração máxima. A série pode ser: Amodal – sem moda Unimodal – um valor modal Bimodal – dois valores modais Plurimodal – mais de dois valo - res mais repetidos if → localizar no > if o imo, inter- valo modal. Seleciona o intervalo e retira todos os dados. ii hdd d lMo + += 21 1 , antm ffd −=1 postm ffd −=2 mf : frequência máxima antf : frequência anterior à máxima postf : frequência posterior à máxima Fonte: Elaboração da autora a partir da literatura estatística. EaD 57 MÉtodos estatísticos e a adMinistração Entendemos que será fácil para o estudante visualizar e comparar as diferenças que as fór- mulas apresentam quando são utilizadas em séries numéricas ou distribuições de frequências. Fundamentalmente, compreendemos que a série não apresenta grande dificuldade de obtenção das informações e de compreensão de seu significado e do que elas indicam no caso da tendência central, pois apresenta uma listagem dos dados. A maior complexidade do cálcu- lo na distribuição de frequências deve-se ao fato de que os intervalos não dão visibilidade ao valor em si, mas ao número de ocorrências dentro do intervalo, à respectiva faixa de variação e principalmente ao fato de que não trabalhamos com o próprio valor, mas sim com um valor representativo, que é o ponto médio. Isso exige uma certa disposição para recriar a informação. As fórmulas servem para recuperá-la. Observa-se que para a Média Aritmética e para a Variância as fórmulas se modificam apenas pela inclusão do Xi ponto médio no caso da DF. Quadro 2: Quadro-resumo das fórmulas das Medidas de variabilidade ou dispersão – Mv Medidas Série Numérica Distribuição de frequências Variância Absoluta (s² ou σ²) ( ) 2 22 1 n i i x S x n= = −∑ se pequena amostra )30( <n , aplica Fator de Correção – 1− = n n FC FCSS .2* = ( )2 1 2 2 x n xf S n i ii −= ∑ = se pequena amostra )30( <n , aplica Fator de Correção – 1− = n n FC FCSS .2* = Desvio padrão (s ou σ) 2S S= 2SS = Coeficiente de Variação (CV) CV > 60%, Moda é padrão 100 S CV X = 100 S CV X = CV < 30%, Média é padrão 30% ≤CV ≤ 60%, Mediana é padrão CV > 60%, Moda é padrão Intervalo de Nor- malidade (IN)* 65% ;IN X S X S= − + 95% 2* ; 2*IN X S X S= − + 99% 3* ; 3*IN X S X S= − + 65% ;IN X S X S= − + 95% 2* ; 2*IN X S X S= − + 99% 3* ; 3*IN X S X S= − + Fonte: Elaboração da autora a partir da literatura estatística. * O Intervalo de Normalidade só é aplicável quando a média é válida, isto é, CV < 30%. EaD ruth Marilda Fricke – iara denise endruweit Battisti – antonio Édson corrente 58 Alguns conceitos básicos são importantes e serão apresentados num quadro, permitindo um debate e sua ampliação em pesquisa conceitual. A seção a seguir vai tratar principalmente do cálculo e interpretação dessas medidas. É importante para uma boa aprendizagem que todos os exemplos sejam retomados por você. seção 3.2 Medida de tendência central e de variabilidade – conceitos e operacionalização Iniciamos com uma apresentação dos conceitos, propiciando que sejam discutidas as razões que levam a sua utilização. A ideia principal, como já foi expresso anteriormente, é a de resumir o comportamento dos dados em números que sirvam de parâmetro para sua análise. Como a informação mais usualmente empregada, e observa-se que ela é influenciada pelos valores extremos da variável, é importante que verifiquemos como os dados se concentram ou se dispersam em relação à média para avaliar a adequabilidade de seu uso ou a necessidade de buscar medidas alternativas, como a mediana ou a moda. Cada uma das Medidas de Tendência Central vai olhar a centralidade dos dados por uma ótica: • Média – centro em termos de massa • Mediana – centro real • Moda – centro em termos de concentração A variabilidade vai permitir concluir sobre a homogeneidade ou heterogeneidade dos va- lores obtidos em relação à média aritmética: • em sendo homogêneos, a distribuição dos valores se concentra em torno da média; • em sendo heterogêneos, a distribuição dos valores se dispersa em torno da média. EaD 59 MÉtodos estatísticos e a adMinistração Quadro 3: Quadro-resumo de conceitos básicos para Medidas de tendência central e das Medidas de variabilidade ou dispersão MEDIDAS DE TENDÊNCIA CENTRAL MÉDIA ARITMÉTICA Ponto de equilíbrio da variável em termos de massa MEDIANA Ponto central da distribuição de dados separa o conjunto em dois grupos de 50% cada MODA É o valor mais frequente no conjunto de dados MEDIDAS DE VARIABILIDADE VARIÂNCIA ABSOLUTA Mede os desvios quadráticos dos valores em relação à média DESVIO PADRãO Informa o desvio médio dos valores em relação à média COEFICIENTE DE VARIAçãO Valor relativo da variabilidade em torno da média, permite obter uma conclusão sobre a validade da média INTERVALO DE NORMALIDADE Intervalo em torno da média considerando um afastamento médio em relação a ela Fonte: Elaboração da autora com base em literatura estatística. As fórmulas para o cálculo das medidas descritivas são apresentados com duas variações: para Série Numérica e para Distribuição de Frequências (DF). Como podemos observar no quadro resumo das fórmulas, a principal diferença é que na série temos os valores individual- mente e podemos somá-los diretamente, enquanto que na DF eles estão dentro de um intervalo de valores e o que sabemos é a sua frequência, isto é, a sua repetição. Nesse caso, temos de encontrar um valor que represente o intervalo. Este valor será denominado de Xi, ponto médio. É na verdade o meio do intervalo que adotamos como se todos os valores do intervalo fossem iguais a ele. Por exemplo: num intervalo de 10 |-----– 20 o ponto central é 15 pois (10+20)/2 = 15, ( ) 2 i s i l l X + = ; logo, se nesse intervalo forem contados 5 valores, fi = 5, então a soma dos mesmos será 5*15=75. Vamos trabalhar com a aplicação desses conteúdos num banco de dados que traz informa- ções sobre o desenvolvimento das microrregiões do RS e respectivas mesorregiões. EaD ruth Marilda Fricke – iara denise endruweit Battisti – antonio Édson corrente 60 Quadro 4: variáveis, seus conceitos, categorias e tipo de variável do banco de dados nº 5 com as microrregiões do rs e respectivas mesorregiões Microrregião Microrregião é, de acordo com a Constituição Brasileira de 1988, um agrupamento de municípios limítrofes. Sua finalidade é integrar a organização, o planejamento e a exe- cução de funções públicas de interesse comum, definidas por lei complementar estadu- al. VA qualitativa não ordenável. Significado dos códigos estão no banco de dados. Mesorregião Mesorregião é uma subdivisão dos Estados brasileiros que congrega diversos municí- pios de uma área geográfica com similaridades econômicas e sociais. Foi criada pelo IBGE e é utilizada para fins estatísticos e não constitui, portanto, uma entidade políti- ca ou administrativa. VA qualitativa não ordenável. Significado dos códigos estão no banco de dados. IDH-Médio O Índice de Desenvolvimento Humano (IDH) é uma medida comparativa que engloba três dimensões: riqueza, educação e esperança média de vida. É uma maneira padro- nizada de avaliação e medida do bem-estar de uma população. O índice vem sendo usado desde 1993 pelo Programa das Nações Unidas para o Desenvolvimento. Primei- ros do mundo Islândia e Noruega IDH = 0,968. Va Quantitativa Contínua pode ser transformada em VA qualitativa ordenável ([1. Baixa (0 a 0,499); 2. Médio (0,5 a 0,799); 3. Alto (0,8 a 1). PIB per capita O produto interno bruto (PIB) representa a soma (em valores monetários) de todos os bens e serviços finais produzidos numa determinada região (quer seja países, Estados, cidades), durante um período determinado (mês, trimestre, ano, etc.). O PIB é um dos indicadores mais utilizados na macroeconomia com o objetivo de mensurar a ativida- de econômica de uma região. Os indicadores econômicos agregados (produto, renda, despesa) indicam os mesmos valores para a economia de forma absoluta. Dividindo-se esse valor pela população de um país, obtém-se um valor médio per capita. VA Quanti- tativa Contínua. Pode ser transformado em VA Qualitativa Ordenável [ 1. Pobre PIB PC < U$ 7 mil; 2.Em desenvolvimento (7 a 24,99 mil dólares); 3. Rico (> de 25 mil dóla- res)]. Densidade Densidade populacional, densidade demográfica ou População relativa é a medida expressa pela relação entre a população e a superfície do território, geralmente aplica- da a seres humanos, mas também a outros seres vivos (comumente animais). É geral- mente expressa em habitantes por quilômetro quadrado. O país com a maior densidade populacional é Mônaco (16.620) e a menor é a Mongólia (1). É uma VA Quantitativa contínua. Se transformada em faixas temos uma VA Qualitativa Ordenável [1. Alta densidade: mais de 1000 hab./km2; 2.Grande densidade: de 50 hab./km2 a 1000 hab./ km2; 3 Média densidade: de 10 hab./km2 a 500 hab./km2; 4 Baixa densidade: menos de 100 hab./km2 ] Fonte: Elaboração da autora com base em dados do IBGE. EaD 61 MÉtodos estatísticos e a adMinistração Quadro 5: Banco de dados número 5 com as variáveis sociais e econômicas com as microrregiões do rs e respectivas mesorregiões microrregião cod_ microrre- gião cod_ mesorre- gião mesorregião IDH_ médio PIB per capita DENSIDADE 24. Restinga Seca 24 1 1.Centro Ocidental Rio-grandense 0,778 R$ 10.771,63 22,7 27. Santa Maria 27 1 1.Centro Ocidental Rio-grandense 0,824 R$ 7.107,62 31,8 29. Santiago 29 1 1.Centro Ocidental Rio-grandense 0,781 R$ 11.515,27 10,2 1. Cachoeira do Sul 1 2 2.Centro Oriental Rio-grandense 0,772 R$ 8.085,83 21,1 16. Lajeado-Estrela 16 2 2.Centro Oriental Rio-grandense 0,787 R$ 14.741,40 73,6 26. Santa Cruz do Sul 26 2 2.Centro Oriental Rio-grandense 0,782 R$ 15.779,80 57,1 2. Camaquã 2 3 3.Metropolitana de Porto Alegre 0,765 R$ 9.404,93 22,6 12. Gramado-Canela 12 3 3.Metropolitana de Porto Alegre 0,819 R$ 10.191,58 113,7 18. Montenegro 18 3 3.Metropolitana de Porto Alegre 0,819 R$ 14.885,89 94,4 20. Osório 20 3 3.Metropolitana de Porto Alegre 0,792 R$ 7.222,50 37,1 23. Porto Alegre 23 3 3.Metropolitana de Porto Alegre 0,829 R$ 11.500,41 665,2 31. São Jerônimo 31 3 3.Metropolitana de Porto Alegre 0,779 R$ 45.175,33 28,9 7. Caxias do Sul 7 4 4.Nordeste Rio-grandense 0,852 R$ 17.417,44 153 13. Guaporé 13 4 4.Nordeste Rio-grandense 0,823 R$ 17.866,55 35,8 35. Vacaria 35 4 4.Nordeste Rio-grandense 0,754 R$ 11.381,48 9,4 6. Carazinho 6 5 5.Noroeste Rio-grandense 0,768 R$ 12.005,06 32,9 8. Cerro Largo 8 5 5.Noroeste Rio-grandense 0,756 R$ 10.470,75 30,17 9. Cruz Alta 9 5 5.Noroeste Rio-grandense 0,77 R$ 14.709,39 18,9 10. Erechim 10 5 5.Noroeste Rio-grandense 0,778 R$ 12.514,84 38,2 11. Frederico Westphalen 11 5 5.Noroeste Rio-grandense 0,758 R$ 8.743,02 33,8 14. Ijuí 14 5 5.Noroeste Rio-grandense 0,784 R$ 12.875,91 35,9 19. Não-Me-Toque 19 5 5.Noroeste Rio-grandense 0,786 R$ 19.420,57 28,3 21. Passo Fundo 21 5 5.Noroeste Rio-grandense 0,797 R$ 13.922,97 45,3 25. Sananduva 25 5 5.Noroeste Rio-grandense 0,775 R$ 11.576,32 19,3 28. Santa Rosa 28 5 5.Noroeste Rio-grandense 0,813 R$ 11.606,43 47,1 30. Santo Ângelo 30 5 5.Noroeste Rio-grandense 0,783 R$ 10.076,02 18,77 33. Soledade 33 5 5.Noroeste Rio-grandense 0,75 R$ 7.294,43 20 34. Três Passos 34 5 5.Noroeste Rio-grandense 0,779 R$ 13.743,19 36,7 15. Jaguarão 15 6 6.Sudeste Rio-grandense 0,761 R$ 8.115,95 9,3 17. Litoral Lagunar 17 6 6.Sudeste Rio-grandense 0,786 R$ 16.766,70 27,9 22. Pelotas 22 6 6.Sudeste Rio-grandense 0,794 R$ 6.607,87 48,6 32. Serras de Sudeste 32 6 6.Sudeste Rio-grandense 0,744 R$ 8.152,46 7,4 3. Campanha Central 3 7 7.Sudoeste Rio-grandense 0,78 R$ 6.780,64 11,8 4. Campanha Meridional 4 7 7.Sudoeste Rio-grandense 0,777 R$ 8.631,31 12,6 5. Campanha Ocidental 5 7 7.Sudoeste Rio-grandense 0,789 R$ 10.588,69 12,8 Fonte: Elaboração da autora com base em dados do IBGE. Para compreender a aplicação das medidas descritivas em ambos os casos, SN e DF, vamos apresentar alguns exemplos usando e analisando as medidas propostas. Retome estes exercícios- exemplos, pois esse procedimento é muito importante. Se você o fizer vai ter imediatamente a noção de que acertou os resultados, pois pode compará-los com os que são apresentados na seção seguinte. EaD ruth Marilda Fricke – iara denise endruweit Battisti – antonio Édson corrente 62 3.2.1 oPeracionaliZação de Medidas descritivas eM sÉrie nUMÉrica A operacionalização aqui pretendida vai desenvolver a busca de números típicos, conhecer sua validade e utilizar a medida apropriada para avaliar o comportamento de variáveis sociais em algumas microrregiões do RS. Vamos trabalhar com a uma parte do banco de dados número 5. São 13 microrregiões que fazem parte da Mesorregião Noroeste Rio-Grandense. Como n = 13, vamos trabalhar em SN – Série Numérica, listagem de dados por microrregião, uma a uma. Quadro 6: Banco de dados número 5 com as variáveis sociais e econômicas com as microrregiões do rs da Mesorregião noroeste rio-grandense n Microrregião X Y Z X² Y² Z² 1 6. Carazinho 0,768 12.005,06 32 ,9 0 ,589824 144 .121 .465 ,60 1 .082 ,41 2 8. Cerro Largo 0 ,756 10 .470 ,75 30 ,2 0 ,571536 109 .636 .605 ,56 912 ,04 3 9. Cruz Alta 0,770 14.709,39 18,9 0,5929 216.366.154,17 357,21 4 10. Erechim 0 ,778 12 .514 ,84 38 ,2 0 ,605284 156 .621 .220 ,23 1 .459 ,24 5 11. Frederico Westphalen 0 ,758 8 .743 ,02 33 ,8 0 ,574564 76 .440 .398 ,72 1 .142 ,44 6 14. Ijuí 0,784 12.875,91 35 ,9 0 ,614656 165 .789 .058 ,33 1 .288 ,81 7 19. Não-Me-Toque 0 ,786 19 .420 ,57 28 ,3 0 ,617796 377 .158 .539 ,12 800 ,89 8 21. Passo Fundo 0,797 13.922,97 45,3 0,635209 193.849.093,62 2.052,09 9 25. Sananduva 0 ,775 11 .576 ,32 19 ,3 0 ,600625 134 .011 .184 ,74 372 ,49 10 28. Santa Rosa 0 ,813 11 .606 ,43 47 ,1 0 ,660969 134 .709 .217 ,34 2 .218 ,41 11 30. Santo Ângelo 0,783 10.076,02 18 ,8 0 ,613089 101 .526 .179 ,04 353 ,44 12 33. Soledade 0 ,750 7 .294 ,43 20 ,0 0 ,5625 53 .208 .709 ,02 400 ,00 13 34. Três Passos 0 ,779 13 .743 ,19 36 ,7 0 ,606841 188 .875 .271 ,38 1 .346 ,89 Total 10 ,097 158 .958 ,90 405 ,4 7 ,845793 2 .052 .313 .096 ,89 13 .786 ,36 Fonte: Elaboração da autora com base em dados do IBGE. Obs.: Denominamos as variáveis neste estudo de X, Y e Z que são, respectivamente: X – IDH_ médio; Y -PIB per capita (R$); Z -DENSIDADE Questão em Estudo: Comportamento Padrão da Mesorregião Noroeste Rio-Grandense em Termos de Desenvolvimento. Para desenvolver esta temática precisamos conhecer as Medidas Descritivas dessa Me- sorregião composta por 13 microrregiões. Observando no Banco anterior temos três variáveis quantitativas contínuas: IDH, PIB PC, Densidade, tal que X: IDH médio (varia de 0,75 a 0,813); Y: PIB pc (R$ 7.294,00 a R$ 19.421,00); Z: Densidade (18,8 a 47,1). a. Medidas de Tendência Central a1. Média Aritmética ( )X Inicialmente vamos calcular a Média Aritmética, a mais conhecida das medidas de Tendên- cia Central para as 3 variáveis (lembrando que X: IDH; Y: PIBpc; Z: Densidade demográfica). EaD 63 MÉtodos estatísticos e a adMinistração 1 10,097 0,7766923 13 n i i x X n= = = =∑ , Este IDH é um índice classificado como médio pelas categorias expressas no Quadro 4, o que não é a pior situação, uma vez que a média do Estado é de 0,785, ficando, portanto, estatis- ticamente na mesma situação do Estado. 1 158.958,90 $12.227,61 13 n i i y Y R n= = = =∑ , Este é um PIB per capita médio, que indica que nossa região apresenta uma receita eco- nômica insatisfatória, isto é, a riqueza produzida não a retira da classificação de região pobre, em torno de US$ 7.000,00 (utilizando-se uma base de 2:1), próxima ao valor do estadual, R$ 12.504,29, ficando, portanto, um pouco acima da do Estado, mas no seu entorno, indicando que é uma das mesorregiões consideradas pobres no Estado, pois fica abaixo de US$ 7.000,00. 1 405,4 31,18 . / ² 13 n i i z Z hab km n= = = =∑ , Esta é uma baixa densidade, uma vez que a média do Estado é de 54,64 hab./km², ficando, portanto, abaixo da do Estado, entendendo-se que é pouco povoada, permitindo ainda expansão em termos populacionais. Outro fator motivador dessa baixa densidade são as áreas rurais, que praticamente estão reduzidas a poucas famílias que resistem e à concentração da área rural em propriedades maiores com expansão do latifúndio e às migrações urbanas em busca de melhores condições de trabalho pela baixa industrialização da região. b. Mediana e Moda Temos outras medidas descritivas alternativas para a Média: a Mediana e a Moda. As outras medidas de Tendência Central, Mediana (Md) e Moda (Mo), na série numérica não de- pendem de grandes cálculos, pois a mediana é uma medida separatriz que separa o grupo em dois, cada um com 50% das informações e a moda informa qual o valor com maior frequência, isto é, mais repetido. Neste caso, a primeira providência para o cálculo destas duas medidas é a ordenação dos dados em ordem crescente. Essa providência permite que rapidamente se visualize o valor cen- tral (Mediana) e o valor com maior repetição (Moda). Vamos agora calcular as outras medidas de Tendência Central para cada uma das 3 variáveis: X, Y e Z. EaD ruth Marilda Fricke – iara denise endruweit Battisti – antonio Édson corrente 64 b1. Variável X: IDH-Médio Quadro 7: variável: idH-Médio, dados ordenados, para obtenção da mediana e da moda – valores por microrregiões da Mesorregião noroeste rio-grandense do rs IDH_ médio Xi Ordenados 0,750 0,756 0,758 0,768 0,770 0,775 0,778 0,779 0,783 0,784 0,786 0,797 0,813 1 2 3 4 5 6 7 8 9 10 11 12 13 IDH_ médio Xi aproximados 0,75 0,76 0,76 0,77 0,77 0,78 0,78 0,78 0,78 0,78 0,79 0,80 0,81 Fonte: Elaboração da autora. Para calcular a mediana (Md) consideramos que n = 13 é ímpar, logo a posição do valor mediano é dada por: P= 1 2 n + = 13 1 7º 2 valor + = , a mediana é então o P-ésimo valor de IDH. O 7º valor se observarmos no Quadro 7 é 0,778. Assim, conclui-se que 50% das microrregiões não apresenta IDH superior a 0,778, um valor considerado médio (intervalo de 0,5 a 0,799). Para calcular a moda (Mo) verificamos quais dentre as microrregiões apresentam valores iguais de IDH, implicando valor mais repetido. Para o caso de considerarmos três casas decimais, não encontramos valor repetido no IDH, podendo considerar a série amodal. Se considerarmos a aproximação para duas casas decimais, o valor mais repetido é 0,78, que ocorre 5 vezes, conforme pode ser observado no Quadro 7, formando uma série unimodal. Neste caso, o valor modal para IDH é 0,78, confirmando a ideia de que a Mesorregião Noroeste Rio-Grandense apresenta um Índice de Desenvolvimento Humano médio. Como a Média é de 0,776, Mediana é 0,778 e Moda é 0,78, podemos afirmar que a Moda não difere significativa- mente da Média e da Mediana e permitindo concluir que: X Md Mo≅ ≅ Esta igualdade nos informa que estamos diante de dados com muita simetria, cuja concen- tração central apresenta todas as 3 medidas, logo a curva dos dados tende a normal, simétrica com concentração central. EaD 65 MÉtodos estatísticos e a adMinistração b2. Variável Y: PIB per capita Quadro 8: variável: PiB per capita, dados ordenados, para obtenção da Mediana e da Moda PIB per capita – ordenado 7.294,43 8.743,02 10.076,02 10.470,75 11.576,32 11.606,43 12.005,06 12.514,84 12.875,91 13.743,19 13.922,97 14.709,39 19.420,57 1 2 3 4 5 6 7 8 9 10 11 12 13 7,3 8,7 10,1 10,5 11,6 11,6 12,0 12,5 12,9 13,7 13,9 14,7 19,4 Fonte: Elaboração da autora. Para calcular a Mediana (Md), novamente consideramos que n = 13 é ímpar, logo a posição do valor mediano é dada por: P = 1 2 n + = 13 1 7º 2 valor + = , a Mediana é o P-ésimo valor que é o sétimo valor do PIBC é 12.005,06. Observa-se, portanto, que 50% das microrregiões não apresenta PIB per capita superior a R$ 12.005,06, um valor um pouco abaixo de US$ 7.000,00, confirmando a classificação como região pobre. Apenas dois municípios apresentam classificação de Região em desenvolvimento. Para calcular a Moda (Mo), consideramos quais dentre as microrregiões apresentam valo- res iguais de PIBpc. Não encontramos valor repetido no PIB, podendo considerar a série amodal. Com uma aproximação para milhares, isto é, dividindo todos os valores por mil, observamos que o valor de PIBpc = 11,6 mil reais é o único repetido. Neste caso, como a Média é de R$ 12.227,61 e a Mediana é de R$ 12.005,06, verificamos que a Moda é menor do que a Mediana e esta, por sua vez, menor que a Média, indicando uma distribuição assimétrica: X Md Mo> > Esta desigualdade nos informa que estamos diante de dados com assimetria, cuja con- centração não é central. Apresenta o ponto mais alto da distribuição, a Moda, nos valores mais baixos, logo a curva é assimétrica positiva. b3.Variável Z: Densidade Quadro 9: variável densidade, dados ordenados, para obtenção da Mediana e da Moda DENSIDADE 18,8 18,9 19,3 20,0 28,3 30,2 32,9 33,8 35,9 36,7 38,2 45,3 47,1 1 2 3 4 5 6 7 8 9 10 11 12 13 DENSIDADE 19 19 19 20 28 30 33 34 36 37 38 45 47 Fonte: Elaboração da autora. EaD ruth Marilda Fricke – iara denise endruweit Battisti – antonio Édson corrente 66 Para calcular a Mediana (Md), novamente consideramos que n = 13 é ímpar, logo a posi- ção do valor mediano é dada por: P = 1 2 n + = 13 1 7º 2 valor + = , a Mediana é o P-ésimo valor que é densidade= 32,9 hab./km². Observa-se, portanto, que 50% das microrregiões não apresenta densidade inferior a 32,9 hab./km², um valor um pouco maior que o valor médio, que é de 31,2 hab./km². Para calcular a Moda (Mo), consideramos quais dentre as microrregiões apresentam va- lores iguais de densidade. Não encontramos valor repetido na densidade, podendo considerar a série amodal. Com uma aproximação para inteiros observamos que o valor de densidade = 19 hab./km² é o único repetido. Neste caso, a Moda é menor do que a Mediana e esta é maior do que a Média, indicando uma distribuição assimétrica, no entanto não dentro do padrão, e podemos concluir que: X Md Mo< > Esta desigualdade nos informa que estamos diante de dados com assimetria, cuja con- centração não é central. Apresenta o ponto mais alto da distribuição, a Moda, nos valores mais baixos, mas como a Mediana é maior que a Média, podemos entender como uma curva tendendo à assimétrica negativa. c. Medidas de Variabilidade Para avaliarmos qual das três medidas de Tendência Central (Média, Mediana ou Moda) consegue apresentar melhor o padrão dos dados avaliamos a variabilidade. Como a Média é a mais utilizada e é uma medida paramétrica, esta é o melhor número típico para evidenciar a forma do padrão de afastamento dos valores observados. Eles estabelecem uma relação, in- formam a variação em torno da Média. Vamos analisar a homogeneidade (valores distribuídos proximamente à Média) ou heterogeneidade (valores muito espalhados, dispersos em relação à Média) dos dados com base nos afastamentos. Entende-se que se a variação relativa dos afastamentos em torno da Média forem menores do que 30%, esta é considerada baixa, aceitável, então a Média é representativa, válida como padrão dos dados; caso a variação fique entre 30% e 60%, a variação é considerada grande, EaD 67 MÉtodos estatísticos e a adMinistração grupo heterogêneo, e a melhor medida para informar o padrão é a Mediana; em último caso, se a variação for maior que 60%, sem limite final, o grupo é heterogêneo e a medida que pode ser considerada um padrão para os dados é a Moda. ( ) ( ) ( )| | | mod | .......................30%....................60%...................... média X mediana Md a Mo CV→ c1. Variável X: IDH-médio • Variância Absoluta (s²) Vamos utilizar a fórmula para série numérica, pois o conjunto de dados tem n = 13 < 20. ( ) 2 22 1 [ ] 1 n i i x n S x n n= = − −∑ , com fator de correção para pequenas amostras Vamos utilizar os somatórios que já foram realizados junto ao banco de dados. Vamos pre- cisar da soma de xi², entendendo-se que cada valor da variável vai ser colocado ao quadrado e por fim somado. ( ) 2 22 1 7,845793 13 [ ] [ (0,7766923)²]* 0,000294243 1 13 12 n i i x n S x n n= = − = − = − ∑ Apesar de este valor estar expresso na mesma unidade de valor da variável, como é uma média quadrática, isto é, de diferenças elevadas ao quadrado, o resultado não vai ser avaliado efetivamente. • Desvio Padrão (s) A partir deste momento os cálculos seguem em sequência, por isso o melhor é deixá-los no visor da calculadora, sem desligá-la. 2 0,000294243S S= = =0,01753533 unidades de IDH de diferença média entre os valores e a média com um limite de 4 desvios padrões a mais e 4 a menos. • Coeficiente de Variação (CV) Com valores absolutos a comparação e compreensão do significado torna-se complicada, por isso utilizamos uma medida relativa dessa variação, que é o Coeficiente de Variação. 0,01753533 100 *100 2,26% 0,7766923 S CV X = = = EaD ruth Marilda Fricke – iara denise endruweit Battisti – antonio Édson corrente 68 Como CV<30%, pois o desvio encontrado representa apenas 2,26% de afastamento em relação à média, podemos afirmar que se trata de um grupo homogêneo e o padrão do IDH é o indicado pela média = 0,777, revelando que a Mesorregião Noroeste Rio-Grandense tem um Índice de Desenvolvimento Humano médio. c2. Variável Y: PIB per capita • Variância Absoluta (s²) Vamos utilizar a fórmula para série numérica, pois n = 13 < 20. ( ) 2 22 1 [ ] 1 n i i x n S x n n= = − −∑ , com fator de correção para pequenas amostras Vamos empregar os somatórios que já foram realizados junto ao banco de dados. Vamos precisar da soma de xi², entendendo-se que cada valor da variável vai ser colocado ao quadrado e por fim somado. ( ) 2 22 1 2.052.313.096,89 13 [ ] [ (12227,61)²]* 9.052.107,829 1 13 12 n i i x n S x n n= = − = − = − ∑ Apesar de este valor estar expresso na mesma unidade de valor da variável, como é uma mé- dia quadrática, isto é, de diferenças elevadas ao quadrado, não vai ser avaliado efetivamente. • Desvio Padrão (s) A partir deste momento os cálculos seguem em sequência, por isso o melhor é deixá-los no visor da calculadora, sem desligá-la. 2 9.052.107,829S S= = =3.008,672104 reais de diferença média entre os valores e a média com um limite de 4 desvios padrões a mais e 4 a menos. • Coeficiente de Variação (CV) Com valores absolutos a comparação e compreensão do significado torna-se complicada, por isso utilizamos uma medida relativa dessa variação, que é o Coeficiente de Variação. 3.008,672104 100 *100 24,6% 12.227,61 S CV X = = = Como CV<30%, pois o desvio encontrado representa 24,6% de afastamento em relação à média, podemos afirmar que se trata de um grupo homogêneo e o padrão do PIB per capita é o indicado pela média = R$12.227,61, revelando que a Mesorregião Noroeste Rio-Grandense tem um padrão abaixo de 7 mil dólares. EaD 69 MÉtodos estatísticos e a adMinistração c3. Variável Z: Densidade • Variância Absoluta (s²) Vamos utilizar a fórmula para série numérica, pois n = 13 < 20. ( ) 2 22 1 [ ] 1 n i i x n S x n n= = − −∑ , com fator de correção para pequenas amostras Vamos utilizar os somatórios que já foram realizados junto ao banco de dados. Vamos pre- cisar da soma de xi², entendendo-se que cada valor da variável vai ser colocado ao quadrado e por fim somado. ( ) 6549,95 12 13 *)²]18,13( 13 13.786,36 [ 1 ][ 2 1 2 2 = −= − −= ∑ = n n x n x S n i i [hab./km²]² Apesar de este valor estar expresso na mesma unidade de valor da variável, como é uma mé- dia quadrática, isto é, de diferenças elevadas ao quadrado, não vai ser avaliado efetivamente. • Desvio Padrão (s) A partir deste momento os cálculos seguem em sequência, por isso o melhor é deixá-los no visor da calculadora, sem desligá-la. 2 95,6549S S= = =9,780332305 hab./km² de diferença média entre os valores e a média com um limite de 4 desvios padrões a mais e 4 a menos, neste caso, 36 a mais ou a menos. • Coeficiente de Variação (CV) Com valores absolutos a comparação e compreensão do significado torna-se complicada, por isso utilizamos uma medida relativa dessa variação, que é o Coeficiente de Variação. 9,780332305 100 *100 31,4% 31,18 S CV X = = = Como 30%<CV<60%, pois o desvio encontrado representa 31,4% de afastamento em re- lação à média, podemos afirmar que se trata de um grupo heterogêneo e o padrão da densidade demográfica não é bem informada pela Média, sendo indicado usar a Mediana Md=32,9 hab./ km², indicando que a Mesorregião Noroeste Rio-Grandense tem um padrão baixo de povoamento, havendo espaço ainda para o crescimento populacional. EaD ruth Marilda Fricke – iara denise endruweit Battisti – antonio Édson corrente 70 Conclusão: Observa-se que a Mesorregião Noroeste Rio-Grandense é um lugar com potencial para se viver com espaço de crescimento em termos de desenvolvimento, merecendo maior atenção tanto por parte da esfera pública como dos moradores. Observou-se um IDH médio na Mesorregião de 0,777, considerado um médio indicador, sendo que este varia de 0,75 a 0,813, um PIBPC baixo de R$ 12.227,61, um padrão ainda abaixo do esperado, pois não garante a superação da faixa de 7 mil dólares per capita, que a colocaria na condição de região em desenvolvimento. Apresenta espaço de crescimento populacional, pois as estatísticas indicam que as microrregiões têm uma densidade em torno de 31,18 hab./km². A região precisa ser incentivada para gerar mais riqueza e promover maior distribuição da renda e da riqueza. No tópico seguinte vamos mostrar como se calcula e interpretam as Medidas Descritivas em dados agrupados em forma de Distribuição de Frequências. 3.2.2 oPeracionaliZação de Medidas descritivas eM distriBUição de FreQUÊncias Considerando a situação em que os valores observados são em n> 20 e podem ser agru- pados em faixas de frequência, precisamos rever as fórmulas a serem aplicadas no cálculo das medidas descritiva: tendência central e de variabilidade. Na prática, a alteração observada na Média e nas medidas de variabilidade limitam-se à necessidade de calcular o ponto médio do intervalo que representa os xi’s, e considerar que os mesmos apresentam uma repetição expressa em termos de frequência (fi). Este valor é que vai ser acrescentado nas fórmulas da Média e da Variância. Os demais cálculos permanecem os mesmos. Estamos analisando agora o padrão estadual a partir do banco de dados número 6, que contém os dados das 35 microrregiões do Estado do RS. Vamos utilizá-lo e as variáveis presentes para responder à seguinte questão e poder comparar com o resultado da Mesorregião Noroeste Rio-Grandense tratada a partir de uma análise descritiva realizada em série numérica, pois n=13 microrregiões que fazem parte da mesma. Questão em estudo: Qual é o comportamento padrão do Estado do Rio Grande do Sul em termos de desenvolvimento? EaD 71 MÉtodos estatísticos e a adMinistração Neste momento, ao tratar do âmbito estadual, vamos trabalhar com dados agrupados em faixas empregando a Distribuição de Frequências. Não vamos desenvolver os cálculos para a construção da DF, mas apresentaremos as informações básicas necessárias para você refazer essa construção. As medidas de Tendência Central são medidas de posição, porque posicionam o conjunto de dados na reta, isto é, nos informam sobre os pontos em que ocorrem as respostas de nossas variáveis, neste caso, as mesmas utilizadas anteriormente: IDH-médio, PIB per capita e Densi- dade populacional. O tratamento estatístico vai partir de uma DF, com os cálculos necessários para realizar a análise pretendida. a1. Variável X: IDH-médio Vamos começar pelo procedimento usual de agrupamento de dados (construção da Dis- tribuição de Frequências). Quadro10: informações básicas sobre o idH-médio das microrregiões do rs N 35 Li 0,744 Ls 0,852 At 0,108 Raiz n 5,916079783 Hi 0,018255332 ≅ 0,02 Fonte: Elaboração da autora. Depois destas informações construímos a Distribuição de Frequências com 6 intervalos de tamanho 0,02, iniciando em 0,74, pois Li = 0,744, e finalizando em 0,86, uma vez que Ls = 0,852. tabela 1: distribuição do idH-médio do rs por microrregião Valores de Xi fi fa fr% fr%ac Xi fi*xi fi*xi² 0,74 |------- 0,76 5 5 14,29 14,29 0,75 3,75 2,8125 0,76 |------- 0,78 11 16 31,43 45,72 0,77 8,47 6,5219 0,78 |------- 0,80 12 28 34,29 80,00 0,79 9,48 7,4892 0,80 |------- 0,82 3 31 8,57 88,58 0,81 2,43 1,9683 0,82 |------- 0,84 3 34 8,57 97,15 0,83 2,49 2,0667 0,84 |------- 0,86 1 35 2,86 100,00 0,85 0,85 0,7225 Total 35 100,00 27,47 21,5811 Fonte: Elaboração da autora com dados do IBGE. EaD ruth Marilda Fricke – iara denise endruweit Battisti – antonio Édson corrente 72 • Média Aritmética ( x ) Para preparar a DF para o cálculo da Média precisamos da coluna do Xi, ponto médio (soma dos limites do intervalo dividida por 2). Após obter o ponto médio, multiplicamos cada um pela frequência (fi*xi), que será a soma dos valores nesse intervalo. Após o cálculo do último produto somamos e obtemos a soma geral que será utilizada na fórmula, como evidenciamos a seguir: 1 27,47 0,785 35 n i i i f x X n= = = =∑ , IDH-médio do Estado do RS. Apesar de ser um valor alto, ainda não se encontra na faixa dos melhores IDHs, que se inicia em 0,8. O “Brasil entrou pela primeira vez para o grupo de países com elevado desenvolvimento humano, com um índice medido em 0,800 no ano de 2005. Em 2006 obteve uma melhora no índice de 0,007, com uma pontuação de 0,807. Encontra-se na 70ª colocação mundial, posição que já mantinha no ano anterior”(Wikipédia, IDH, 14/7/2009). • Mediana (Md) O cálculo da Mediana numa DF deve ser feito a partir de uma fórmula que recupere o valor que separa o grupo em duas partes, com 50% cada. Inicialmente precisamos encontrar o ponto central, ou seja, sua posição (P), que vai nos indicar em qual intervalo se encontra o valor mediano. Sua localização será feita na coluna do fa, aquele que contém o p-ésimo valor. Nossa refe- rência é que o valor que se encontra naquele intervalo é a posição do último valor que foi contado naquele intervalo. Nesse caso, o intervalo deve conter o valor P. Explicando mais concretamente, se os valores do fa são 1, 5, 20,... isto significa que no primeiro intervalo só entrou um dado, do 2º ao 5º entrou no segundo intervalo, do 6º ao 20º no terceiro intervalo e assim por diante. Com isso, se n=30, P = 15º, valor que estará contido no 3º intervalo. Do intervalo mediano, que foi o selecionado, retiraremos toda a informação necessária. A única informação que não segue este critério é o faa (frequência acumulada do intervalo anterior ao mediano). Quando o intervalo mediano ocorrer no primeiro intervalo o faa será zero. P = 35 17,5 2 2 n = = → localiza o af no terceiro intervalo, pois as micror regiões 17 até a 28 se encontram nesse intervalo mediano, o imd. Seleciona o intervalo e ret i ra todos os dados do mesmo com exceção da faa, que é o fa anterior. ( ) (17,5 16)0,02 0,78 0,7825 12 aa i i i P f h Md l f − −= + = + = EaD 73 MÉtodos estatísticos e a adMinistração Com isso entende-se que 50% das microrregiões do RS não ultrapassam um IDH-médio de 0,783, têm índices inferiores, mas no limite de 0,75, informando-nos que no RS nenhuma microrregião é muito problemática em termos de desenvolvimento humano. • Moda (Mo) Para obtermos informação sobre o valor que mais ocorre no conjunto de dados, após o agrupamento dos valores, devemos nos concentrar no intervalo que agrega o maior número de informações (> fi). Este será denominado de intervalo modal (Imo). Esta localização independe da localização da Mediana, pois são duas informações diferentes, no entanto algumas vezes, principalmente em função da simetria da distribuição, as duas medidas utilizam o mesmo in- tervalo como referência para o cálculo. É uma coincidência, não uma regra. Quando o intervalo modal ocorrer no primeiro intervalo o fant será zero, e o mesmo ocorre se o> fi se encontrar no último, nesse caso, fpos t será zero. if → localizar no > if que é 12, no terceiro intervalo, o mesmo da Mediana neste caso, este é considerado em relação a ele o Imo (Intervalo modal). Seleciona o intervalo e retira todos os dados. 1 1 2 1 0,78 *0,02 0,782 1 9i i d Mo l h d d = + = + = + + 1 12 11 1m antd f f= − = − = 2 12 3 9m postd f f= − = − = mf : frequência máxima antf : frequência anterior à máxima postf : frequência posterior à máxima Comparando-se as três informações ( 0,785.. .. 0,783.. ... 0,782x Md Mo= ≅ = ≅ = ) verificamos que se trata de uma curva simétrica, pois a Moda não difere significativamente da Média e da Mediana e podemos concluir que: X Md Mo≅ ≅ Esta igualdade nos informa que estamos diante de dados com muita simetria, cuja concen- tração central apresenta todas as 3 medidas, logo a curva dos dados tende à normal, simétrica com concentração central, concluindo-se que o grupo é bastante homogêneo. EaD ruth Marilda Fricke – iara denise endruweit Battisti – antonio Édson corrente 74 Tendo em vista a necessidade de nos reportarmos à Tabela 1 para avaliar a validade da Média, vamos calcular logo a variação em torno da Média por meio das Medidas de Variabili- dade, antes de fazermos o tratamento das outras variáveis. Com as Medidas de Variabilidade queremos responder à seguinte questão: O IDH médio do RS é válido como padrão para analisar o Estado? • Variância absoluta (s²) Para calcular a variância absoluta precisamos de uma coluna com o produto de cada fi pelo quadrado do Xi, ponto médio. Ao finalizarmos todos os produtos, é a soma dos mesmos que vai ser utilizada na fórmula. Se n > 30, não há necessidade de aplicar o Fator de Correção – [n/ (n-1)]. Neste caso n=35, então a variância será calculada sem ele. ( ) 2 22 1 (21,5811) (0,785)² 0,000377857 35 n i i i f x S x n= = − = − =∑ • Desvio Padrão (s) Ao calcular o desvio padrão, ou seja, a informação que nos dirá qual é, em média, o afas- tamento dos dados em relação à média, comumente vamos lembrar que nas pesquisas eleitorais os resultados são informados num intervalo, por exemplo: (3% para mais ou 3% para menos). Isto nos auxilia a perceber a importância do desvio padrão. ² 0,000377857 0,019438544S s= = = • Coeficiente de Variação (CV) Para avaliar a validade da Média precisamos verificar quanto representa o desvio padrão em relação à Média e após tirar uma conclusão com base no esquema que foi apresentado an- teriormente. 0,019438544 100 100 2,48% 0,785 S CV X = = = Observa-se que a Média é válida, pois a dispersão em torno dela tende a zero, < 30%. Trata-se de um grupo homogêneo de dados com pouquíssima variação entre as microrregiões, uma vez que CV = 2,48%, caso típico de simetria, como vimos anteriormente. Nesse caso, a aplicação do Intervalo de Normalidade é perfeitamente aplicável. EaD 75 MÉtodos estatísticos e a adMinistração 65% ;IN X S X S= − + = {0,785-0,0004;0,785+0,0004}={0,7846;0,7854} 95% 2* ; 2*IN X S X S= − + = {0,785-2*0,0004;0,785+2*0,0004}={0,7842;0,7858} 99% 3* ; 3*IN X S X S= − + = {0,785-3*0,0004;0,785+3*0,0004}={0,7838;0,7862} Respondendo, então, à questão inicial, formulamos a seguinte conclusão: Conclusão: O padrão de IDH do Estado gaúcho é 0,785 com pouquíssima diferença entre as microrregiões, podendo-se definir este IDH como representativo do comportamento estadual. Tendo em vista que o IDH variando de 0,5 a 0,799 é considerado um Índice de Desenvolvimen- to Humano médio, entendemos que o RS apresenta um médio padrão de desenvolvimento. Observando-se o intervalo de normalidade, concluímos que ainda estão faltando mais in- vestimentos na área social para que o IDH do Estado supere esse nível, pois no IN99% o valor máximo possível é de 0,786, não superando os limites desse intervalo. a2. Variável Y: PIB per capita Vamos começar pelo procedimento usual de agrupamento de dados (construção da Dis- tribuição de Frequências). Quadro 11: informações básicas do PiB per capita das microrregiões do rs n 34 Li R$ 6.607,87 Ls R$ 19.420,57 At 12812,7 Raiz n 5,830951895 Hi 2197,359922 Fonte: Elaboração da autora com base em dados do IBGE. Encontramos um outlier = R$ 45.175,33 da Microrregião de São Jerônimo que se encontra fora do padrão. Por isso no conjunto analisado no Estado para fins deste tratamento estatístico este foi descartado por ser impossível agrupá-lo com os demais. N = 34 então ≅ 3 mil reais. Depois destas informações construímos a Distribuição de Frequências com 6 intervalos de tamanho 3 mil, iniciando em 6, pois Li = R$ 6.607,87 e finalizando em 21, uma vez que Ls = R$ 19.420,57. EaD ruth Marilda Fricke – iara denise endruweit Battisti – antonio Édson corrente 76 tabela 2: distribuição do PiB per capita (em milhares de reais) do rs por microrregião Valores de Xi fi fa fr% fr%ac Xi fi*xi fi*xi² 6 |-------- 9 10 10 29,41 29,41 7,5 75 562,5 9 |-------- 12 11 21 32,35 61,76 10,5 115,5 1212,75 12 |-------- 15 8 29 23,53 85,29 13,5 108 1458 15 |-------- 18 4 33 11,76 97,06 16,5 66 1089 18 |-------- 21 1 34 2,94 100,00 19,5 19,5 380,25 Total 34 100,00 384 4702,5 Fonte: Elaboração da autora com base em dados do IBGE. • Média Aritmética ( x ) Para preparar a DF para o cálculo da Média precisamos da coluna do Xi, ponto médio (soma dos limites do intervalo dividida por 2). Após obter o ponto médio multiplicamos cada um pela frequência (fi*xi), que será a soma dos valores nesse intervalo. Após o cálculo do último produto, somamos e obtemos a soma geral que será utilizada na fórmula, como evidenciamos a seguir: 1 384 11,294 34 n i i i f x X mil reais n= = = =∑ O PIB per capita estadual é de R$11.294,00, abaixo do valor mínimo razoável: 7 mil dóla- res. Este desempenho indica que, no Estado, existem microrregiões que fazem decrescer o valor médio e pelos padrões mundiais é uma região pobre. • Mediana (Md) O cálculo da Mediana numa DF necessita ser feito a partir de uma fórmula que recupere o valor que separa o grupo em duas partes, com 50% cada. Inicialmente precisamos encontrar o ponto central, ou seja, sua posição (P), que vai nos indicar em qual intervalo se encontra o valor mediano. Sua localização será feita na coluna do fa, aquele que contém o p-ésimo valor. Deste intervalo retiraremos toda a informação necessária. A única que não segue este critério é o valor do faa (frequência acumulada do intervalo anterior ao mediano). Quando o intervalo mediano ocorrer no primeiro intervalo o valor do faa será zero. P = 34 17 2 2 n = = → localiza o af no terceiro intervalo, pois as microrregiões 17 até a 28 se encontram nesse intervalo mediano, o imd. Seleciona o intervalo e retira todos os dados do mesmo, com exceção da faa que é o fa anterior. ( ) (17 10)*3 9 10,91 11 aa i i i P f h Md l f − −= + = + = EaD 77 MÉtodos estatísticos e a adMinistração Com isso, entende-se que 50% das microrregiões do RS não ultrapassam um PIB per ca- pita de R$ 10.910,00, tem índices inferiores, mas no limite de R$ 6.607,87, informando-nos que no RS a maioria das microrregiões pode ser considerada pobre (26 delas têm classificação de região pobre, pois o PIB per capita é inferior a 7 mil dólares, 9 delas podem ser consideradas em desenvolvimento, pois o PIB fica entre 7 e 25 mil dólares. • Moda (Mo) Para obtermos informação sobre o valor que mais ocorre no conjunto de dados, após o agrupamento dos valores, devemos nos concentrar no intervalo que agrega o maior número de informações (> fi). Este será denominado o intervalo modal. Esta localização independe da localização da Mediana, pois são duas informações diferentes, no entanto algumas vezes, prin- cipalmente em função da simetria da distribuição, as duas medidas utilizam o mesmo intervalo como referência para o cálculo. É uma coincidência, não uma regra. Quando o intervalo modal ocorrer no primeiro intervalo o fant será zero, e o mesmo ocorre se o> fi se encontrar no último, nesse caso fpost será zero. if → localizar no > if que é 12, no se- gundo intervalo , o mesmo da mediana neste caso, este é considerado em relação a ele o imo, intervalo modal. Seleciona o intervalo e retira todos os dados. 1 1 2 1 9 *3 9,75 1 3i i d Mo l h d d = + = + = + + 1 11 10 1m antd f f= − = − = 2 11 8 3m postd f f= − = − = mf : frequência máxima antf : frequência anterior à máxima postf : frequência posterior à máxima O que é mais frequente no Rio Grande do Sul são microrregiões que apresentam um PIB per capita em torno de R$ 9.750,00, um valor muito abaixo do esperado. Comparando-se as três informações ( R$ 11.294,00, .. R$ 10.910,00.. ... R$ 9.750,00x Md Mo= > = > = ) verificamos que se trata de uma curva assimétrica positiva, pois a Moda é o menor valor difere da Média e da mediana e podemos concluir que: X Md Mo> > EaD ruth Marilda Fricke – iara denise endruweit Battisti – antonio Édson corrente 78 Esta desigualdade nos informa que estamos diante de dados cuja distribuição é assimétrica, concluindo-se que o grupo é heterogêneo. Tendo em vista a necessidade de nos reportarmos à Tabela 2 para avaliar a validade da Média, vamos calcular logo a variação em torno da Média por meio das Medidas de Variabili- dade, antes de passarmos o tratamento das outras variáveis. Medidas de variabilidade O PIB per capita médio do RS é válido como padrão para analisar o Estado? • Variância absoluta (s²) Para calcular a variância absoluta precisamos de uma coluna com o produto de cada fi pelo quadrado do Xi, ponto médio. Ao finalizarmos todos os produtos é a soma destes que vai ser utilizada na fórmula. Se n > 30, não há necessidade de aplicar o Fator de Correção – [n/(n-1)]. Neste caso n=34 (um dos valores foi isolado por não apresentar o mesmo padrão dos demais), então a variância será calculada sem ele. ( ) 2 22 1 (4702,5) (11,294)² 10,75438753 ² 34 n i i i f x S x milreais n= = − = − =∑ • Desvio Padrão (s) Ao calcular o desvio padrão, ou seja, aquela informação que nos dirá qual é, em média, o afastamento dos dados em relação à Média, é importante lembrar que nas pesquisas eleitorais os resultados são informados num intervalo, por exemplo: (3% para mais ou 3% para menos). Isto nos auxilia a entender a importância do desvio padrão. ² 10,75438753 3,279388286 mil reaisS s= = = Entende-se que o desvio médio para mais e para menos em torno da média é de R$ 3.279,00. • Coeficiente de Variação (CV) Para avaliar a validade da Média, precisamos verificar quanto representa o desvio padrão em relação à Média e após tirar uma conclusão com base no esquema que foi apresentado an- teriormente. 3,279388286 100 100 29,04% 11,294 S CV X = = = EaD 79 MÉtodos estatísticos e a adMinistração Observa-se que a Média é válida, pois a dispersão em torno dela é < 30%. Trata-se de um grupo homogêneo de dados com variação entre as microrregiões, uma vez que CV = 29,04%, no limite do permitido em termos de variação tendendo a 30%. Conclusão: que o PIB per capita do Estado gaúcho é R$11.294,00 com pouca diferença entre as microrregiões, podendo-se considerar este PIB representativo do comportamento estadual, indicando que uma grande parte das microrregiões e o próprio Estado podem ser considerados pobres. a3. Variável Z: Densidade Vamos começar pelo procedimento usual de agrupamento de dados (construção da Dis- tribuição de Frequências). Quadro 12: informações básicas da densidade (hab./km²) das microrregiões do rs N 34 Li 7,4 Ls 153 At 145,6 Raiz n 5, 830951895 Hi 24, 970194 Fonte: Elaboração da autora com base em dados do IBGE. Encontramos um outlier = 665,2 hab. /km² da Microrregião metropolitana de PoA que se encontra fora do padrão. Por isso no conjunto analisado no Estado para fins deste tratamento estatístico este foi descartado por ser impossível agrupá-lo com os demais. N = 34 então ≅ 25. Depois destas informações construímos a Distribuição de Frequências com 6 intervalos de tamanho 25, iniciando em 5, pois Li = 7,4 hab./km² e finalizando em 150, uma vez que Ls = 145,6 hab./km². tabela 3: distribuição da densidade Populacional (hab./km²) do rs por microrregião Valores de Xi fi fa fr% fr%ac Xi fi*xi fi*xi² 5 |-------- 30 17 17 50,00 50 17,5 297,5 5206,25 30 |-------- 55 12 29 35,29 85,29 42,5 510 21675 55 |-------- 80 2 31 5,88 91,18 67,5 135 9112,5 80 |-------- 105 1 32 2,94 94,12 92,5 92,5 8556,25 105 |-------- 130 1 33 2,94 97,06 117,5 117,5 13806,3 130 |-------- 155 1 34 2,94 100,00 142,5 142,5 20306,3 Total 34 100,00 1152,5 58356,3 Fonte: Elaboração da autora com base em dados do IBGE. EaD ruth Marilda Fricke – iara denise endruweit Battisti – antonio Édson corrente 80 • Média Aritmética ( x ) Para preparar a DF para o cálculo da Média precisamos da coluna do Xi, ponto médio (soma dos limites do intervalo dividida por 2). Após obter o ponto médio, multiplicamos cada um pela frequência (fi*xi), que será a soma dos valores nesse intervalo. Após o cálculo do último produto somamos e obtemos a soma geral que será utilizada na fórmula, como evidenciamos a seguir. 1 1.152,5 33,9 . / ² 34 n i i i f x X hab km n= = = =∑ A densidade populacional média no Estado é de 33,9 hab./km², classificada como razoável. Este é o padrão das 34 microrregiões, que diferem muito da microrregião metropolitana de Porto Alegre, que apresenta uma densidade de 665,2 hab./km². • Mediana (Md) O cálculo da Mediana numa DF é feito a partir de uma fórmula que recupere o valor que separa o grupo em duas partes, com 50% cada. Inicialmente precisamos encontrar o ponto cen- tral, ou seja, sua posição (P), que vai nos indicar em qual intervalo se encontra o valor mediano. Sua localização será feita na coluna do fa, aquele que contém o p-ésimo valor. Deste intervalo retiraremos toda a informação necessária. A única que não segue este critério é o faa (frequência acumulada do intervalo anterior ao mediano). Quando o intervalo mediano ocorrer no primeiro intervalo o faa será zero. P = 34 17 2 2 n = = → localiza o af no terceiro intervalo pois as microrregiões 17 até a 28 se encontram nesse intervalo mediano, o imd. Seleciona o intervalo e retira todos os dados do mesmo com exceção da faa, que é o fa anterior. ( ) (17 0)* 25 5 30. . / ² 17 aa i i i P f h Md l hab km f − −= + = + = Com isso, entende-se que 50% das microrregiões do RS não ultrapassam uma densidade de 30 hab./km², apresentando uma densidade inferior a 30, indicando que no RS a maioria das microrregiões pode ser considerada pouco povoada. • Moda (Mo) Para obtermos informação sobre o valor que mais ocorre no conjunto de dados, após o agrupamento dos valores, devemos nos concentrar no intervalo que agrega o maior número de informações (> fi). Este será denominado de intervalo modal. Esta localização independe da EaD 81 MÉtodos estatísticos e a adMinistração localização da Mediana, são duas informações diferentes, no entanto algumas vezes, principal- mente em função da simetria da distribuição, as duas medidas utilizam o mesmo intervalo como referência para o cálculo. É uma coincidência, não uma regra. Quando o intervalo modal ocorrer no primeiro intervalo o fant será zero, e o mesmo ocorre se o (> fi) se encontrar no último, ou seja, fpos t será zero. if → localizar no > if que é 17, no primeiro intervalo, o mesmo da Mediana neste caso, este é considerado em relação a ele o imo intervalo modal. Seleciona o intervalo e retira todos os dados. 1 1 2 17 5 * 25 24,3. . / ² 17 5i i d Mo l h hab km d d = + = + = + + 1 17 0 17m antd f f= − = − = 2 17 12 5m postd f f= − = − = mf : frequência máxima antf : frequência anterior à máxima postf : frequência posterior à máxima Entendemos que a densidade populacional mais frequente é de 24,3 hab./km². Comparando- se as três informações, ( 33,9. . / ².. .. 30. . / ².. .. 24,3. . / ²x hab km Md ha km Mo hab km= > = > = ), verificamos que se trata de uma curva assimétrica positiva, pois a Moda é o menor valor, difere da Média e da Mediana e podemos concluir que: X Md Mo> > Esta desigualdade nos informa que estamos diante de dados cuja distribuição é assimétrica, concluindo-se que o grupo é heterogêneo. Tendo em vista a necessidade de nos reportarmos à Tabela 3 para avaliar a validade da Média, vamos calcular logo a variação em torno da Média por meio das Medidas de Variabili- dade, antes de realizarmos o tratamento das outras variáveis. Medidas de variabilidade A densidade populacional média do RS é válida como padrão para analisar o Estado? EaD ruth Marilda Fricke – iara denise endruweit Battisti – antonio Édson corrente 82 • Variância absoluta (s²) Para calcular a variância absoluta precisamos de uma coluna com o produto de cada fi pelo quadrado do Xi, ponto médio. Ao finalizarmos todos os produtos é a soma destes que vai ser utilizada na fórmula. Se n > 30, não há necessidade de aplicar o Fator de Correção – [n/(n-1)]. Neste caso n=34 (um dos valores foi isolado por não apresentar o mesmo padrão dos demais), então a variância será calculada sem ele. ( ) 2 22 1 (58356,3) (33,9)² 567,1517647( . / ²)² 34 n i i i f x S x hab km n= = − = − =∑ • Desvio Padrão (s) Ao calcular o desvio padrão, isto é, aquela informação que nos dirá qual é, em média, o afastamento dos dados em relação à Média, comumente vamos lembrar que nas pesquisas eleitorais os resultados são informados num intervalo, por exemplo: (3% para mais ou 3% para menos). Isto nos auxilia a perceber a importância do desvio padrão. ² 567,1517647 23,81494835. . / ²S s hab km= = = Entende-se que o desvio médio para mais ou para menos em torno da média é de 23,815 hab./km². • Coeficiente de Variação (CV) Para avaliar a validade da Média precisamos verificar quanto representa o desvio padrão em relação à Média e após tirar uma conclusão com base no esquema que foi apresentado an- teriormente. 23,815494835 100 100 70,25% 33,9 S CV X = = = Observa-se que a Média não é válida, pois a dispersão em torno dela é > 60%. Trata-se de um grupo heterogêneo de dados com variação entre as microrregiões, uma vez que CV = 70,25%. Neste caso a medida padrão a ser utilizada é a Moda = 24,3 hab./km². Assim sendo, a densidade populacional do Estado está num padrão de baixa ocupação, pois o que mais ocorre são densidades em torno de 24,3 hab./km². Conclusão: Verificamos que o Estado do RS apresenta um IDH médio de 0,785, PIB per capi- ta de R$ 11.294,00, inferior ao padrão de 7 mil dólares, podendo ser considerado um Estado pobre, e por fim com baixa densidade demográfica, uma vez que a mesma é de 24,3 hab./ km²<100 hab./km2. O Estado reflete uma postura cultural que dá destaque à educação e à saúde, porém ainda está dominado por políticas públicas que privilegiam a concentração de renda, a não realização da reforma agrária, protegendo a concentração de terra. Percebe-se EaD 83 MÉtodos estatísticos e a adMinistração também a falta de investimento para o crescimento das regiões. Para tanto, é importante que o foco, tanto da organização e da administração pública quanto da sociedade civil, esteja no cidadão e na cidadã com vistas a ampliar os espaços de participação popular em todos os níveis. As estatísticas refletem uma falta de vontade política de viabilizar a Qualidade de Vida com qualidade. A Estatística é uma ciência presente em todos os aspectos da vida, seja ela humana ou ani- mal, seja ela com elementos não vivos, mas que se repetem na nossa sociedade e/ou na natureza. Muitos cálculos aparentemente, mas que no decorrer de sua aplicação vamos compreendendo que se trata de formatações que se apoiam umas nas outras, repetindo raciocínios e cálculos, com uma importante contribuição na descrição do comportamento de fatos já ocorridos, na projeção de resultados, nas tomadas de decisão. Essa é nossa intenção com as aplicações: que você se torne apto a conhecer estatisticamente e tomar as melhores decisões, com uma grande margem de segurança. Como sugestão para tornar esta unidade menos complexa, insistimos que você se disponha a refazer os exemplos apresentados antes de partir para as aplicações. Além do que, é importante retomar todos os capítulos anteriores ao realizar as aplicações. seção 3.3 aplicações Considere o seguinte banco de dados para construir suas questões e desenvolver as esta- tísticas necessárias para obter as respostas. Este banco traz informações educacionais da: Mesorregião 2 – Centro Oriental Rio-Grandense com 54 municípios, sendo composta por três Microrregiões (1. Cachoeira do Sul; 16. Lajeado-Estrela; 26. Santa Cruz do Sul). Ao fazer o estudo, sugerimos que trabalhe em separado as três Microrregiões, oportuni- zando duas séries numéricas e uma DF: 1. Cachoeira do Sul (n = 7); 16. Lajeado-Estrela (n = 31); 26. Santa Cruz do Sul (n = 16); Também trabalhe estatisticamente a Mesorregião como um todo para comparar os achados estatísticos. EaD ruth Marilda Fricke – iara denise endruweit Battisti – antonio Édson corrente 84 Quadro 13: Banco de dados número 6 – Mesorregião 2 – centro oriental rio-grandense N Mun Microrre- gião MatrEF07 MatrEM07 Matr07 Doc_EF07 Doc_ EM07 Doc07 Nal_ docEF Nal_ docEM Nal_ doc07 1 Cachoeira do Sul 1 11.889 3.288 15.177 851 265 1116 14 12 14 2 Cerro Branco 1 689 171 860 60 14 74 11 12 12 3 Novo Cabrais 1 587 154 741 44 12 56 13 13 13 4 Pantano Grande 1 1.777 389 2.166 110 28 138 16 14 16 5 Paraíso do Sul 1 947 231 1178 67 11 78 14 21 15 6 Passo do Sobrado 1 825 239 1064 89 16 105 9 15 10 7 Rio Pardo 1 5.679 1.407 7.086 369 123 492 15 11 14 1 Arroio do Meio 16 2.360 781 3.141 183 52 235 13 15 13 2 Bom Retiro do Sul 16 1.710 499 2.209 121 35 156 14 14 14 3 Boqueirão do Leão 16 1.298 240 1.538 106 21 127 12 11 12 4 Canudos do Vale 16 274 0 274 27 0 27 10 999 10 5 Capitão 16 402 127 529 40 16 56 10 8 9 6 Colinas 16 257 66 323 26 12 38 10 6 9 7 Coqueiro Baixo 16 193 0 193 19 0 19 10 999 10 8 Cruzeiro do Sul 16 1.440 358 1.798 105 33 138 14 11 13 9 Doutor Ricardo 16 290 76 366 35 10 45 8 8 8 10 Encantado 16 2.588 817 3.405 203 66 269 13 12 13 11 Estrela 16 4.238 1.345 5.583 298 122 420 14 11 13 12 Fazenda Vilanova 16 541 154 695 25 9 34 22 17 20 13 Forquetinha 16 303 96 399 29 7 36 10 14 11 14 Imigrante 16 291 96 387 34 14 48 9 7 8 15 Lajeado 16 9.346 2.991 12.337 673 236 909 14 13 14 16 Marques de Souza 16 524 95 619 50 17 67 10 6 9 17 Muçum 16 640 194 834 77 21 98 8 9 9 18 Nova Bréscia 16 400 196 596 32 17 49 13 12 12 19 Paverama 16 886 215 1101 68 18 86 13 12 13 20 Pouso Novo 16 303 76 379 33 11 44 9 7 9 21 Progresso 16 1.081 225 1.306 89 19 108 12 12 12 22 Relvado 16 257 76 333 32 7 39 8 11 9 23 Roca Sales 16 1.123 423 1.546 100 45 145 11 9 11 24 Santa Clara do Sul 16 710 243 953 49 15 64 14 16 15 25 Sério 16 346 108 454 25 13 38 14 8 12 26 Tabaí 16 579 201 780 59 12 71 10 17 11 27 Taquari 16 3.860 1.144 5.004 277 87 364 14 13 14 28 Teutônia 16 3.571 1.187 4.758 259 96 355 14 12 13 29 Travesseiro 16 257 85 342 29 9 38 9 9 9 30 Vespasiano Correa 16 175 67 242 20 9 29 9 7 8 31 Westfália 16 347 98 445 36 9 45 10 11 10 1 Arroio do Tigre 26 1.991 601 2.592 168 45 213 12 13 12 2 Candelária 26 4.485 814 5.299 284 79 363 16 10 15 3 Estrela Velha 26 613 104 717 55 8 63 11 13 11 4 Gramado Xavier 26 787 101 888 70 12 82 11 8 11 5 Herveiras 26 582 101 683 41 11 52 14 9 13 6 Ibarama 26 761 144 905 80 17 97 10 8 9 7 Lagoa Bonita do Sul 26 470 104 574 45 11 56 10 9 10 8 Mato Leitão 26 555 133 688 43 18 61 13 7 11 9 Passa Sete 26 981 222 1203 77 15 92 13 15 13 10 Santa Cruz do Sul 26 16.667 4.333 21.000 1.056 332 1.388 16 13 15 11 Segredo 26 1.284 227 1.511 116 20 136 11 11 11 12 Sinimbu 26 1.542 343 1.885 107 30 137 14 11 14 13 Sobradinho 26 2.193 628 2.821 168 48 216 13 13 13 14 Vale do Sol 26 1.727 176 1.903 93 14 107 19 13 18 15 Venâncio Aires 26 9.321 2.221 11.542 653 200 853 14 11 14 16 Vera Cruz 26 3.445 841 4.286 220 46 266 16 18 16 Fonte: Elaboração da autora com base em dados dos censos do IBGE. Obs.: 999 é o código de NR EaD 85 MÉtodos estatísticos e a adMinistração Alguns complementos para apoiar o estudo: Quadro 14: variáveis presentes no banco de dados número 6 – Mesorregião 2 – centro oriental rio-grandense e sua classificação Variáveis Aleatórias Classificação das variáveis N Nº de ordem Nºm Numeração dentro da microrregião Mun Município Microrregião Codigo da Microrregião Mesorregião Código da Mesorregião MatrEF07 Matrícula no Ensino Fundamental em 2007 MatrEM07 Matrícula no Ensino Médio em 2007 Matr07 Matrícula total em 2007 Doc_EF07 Docentes do Ensino Fundamental em 2007 Doc_EM07 Docentes do Ensino Médio em 2007 Doc07 Total de Docentes em 2007 Nal_docEF Nº de alunos por docente no Ensino Fundamental 2007 Nal_docEM Nº de alunos por docente no Ensino Médio 2007 Nal_doc07 Nº de alunos por docente geral 2007 Fonte: Elaboração da autora com base em dados dos censos do IBGE. resUMo da Unidade 3 Nesta unidade abordamos técnicas e métodos estatísticos com a finalidade de sistematizar os dados coletados, descrever seu padrão comportamen- tal a partir de medidas descritivas. Estas se repartem em dois tipos de medidas: as de tendência central, que são Média, Mediana e Moda; e as de variabilidade que são basicamente a variância, o desvio padrão e o coeficiente de variação. EaD 87 MÉtodos estatísticos e a adMinistração introdUção À aMostrageM Ruth Marilda Fricke oBjetivo desta Unidade • Entender os meandros do processo de amostragem, que substitui os levantamentos censitários exaustivos, os quais se tornam inviáveis nos processos decisórios do mundo moderno em termos de delineamento e seleção da amostra. as seçÕes desta Unidade Seção 4.1 Padrões a Seguir no Processo Amostral Seção 4.2 – Delineamento Amostral: Dimensionamento e Seleção Seção 4.3 – Aplicações A coleta de dados e sua representação em tabelas e gráficos permite uma visão detalhada e circunstanciada dos fenômenos. Apesar do apoio de suporte computacional, no entanto, a demanda por análise estatística na tomada de decisão e a necessidade de agilizar a informação retiram da coleta populacional o caráter de fonte única de dados. O domínio dos mecanismos de uma amostra cientificamente delineada capaz de represen- tar a população em estudo faz desse método estatístico um elemento de extrema importância na gestão empresarial da atualidade. O objetivo é introduzir o aluno no processo de amostragem sem um caráter definitivo, isto é, a proposição é a de estudar os procedimentos básicos na definição do tamanho da amostra, delineamento e seleção amostral. O processo amostral é muito útil numa sociedade como a nossa, com grandes populações, sejam elas de pessoas, animais, coisas, negócios... Este fato, de ocorrerem grandes números quando realizamos um levantamento de dados, agrega ao processo amostral uma característica fundamental: a agilidade de coleta, a menor demanda de tempo, rapidez na obtenção de infor- Unidade 4 EaD ruth Marilda Fricke – iara denise endruweit Battisti – antonio Édson corrente 88 mações, a diminuição de erros, a possibilidade de qualificar instrumentos e técnicos em coleta de dados de forma a minimizar os erros não amostrais. Estes erros ocorrem independentemente do delineamento, decorrem de fatores alheios à diferença entre população e amostra (N≥n). A coleta censitária exaustiva, único meio de realizar estudos populacionais, só é viável em casos em que o tamanho da mesma é mínimo, ou em situações em que a magnitude de recursos para a sua realização é de um montante extraordinário. Mesmo a precisão não é atingida em sua totalidade, pois o custo leva: • à diminuição no tempo de treinamento dos coletores de dados; • à supressão ou insuficiente pesquisa-piloto para melhorar o instrumento de coleta; • à necessidade de um orçamento de grande dimensão; • à má qualidade dos softwares de tratamento dos dados; • à utilização de técnicos com baixa capacidade, sem experiência e pouca capacitação. Estes fatores demandam um retrabalho sobre os dados coletados, na verificação de ocor- rência de dados censurados, na necessidade de refazer o processo de coleta, de tratamento, a acessibilidade a técnicos de alto padrão para validar e liberar o uso dos dados oficialmente. Com um processo por amostragem, que apresenta uma série de garantias técnicas, cientifi- camente comprovadas iremos inferir, a partir de uma quantidade menor de dados da população, estimar os parâmetros populacionais com base nas estatísticas amostrais. Este n é provavelmente sempre menor do que N. Isso, por si só, já vai garantir mais rapidez e menor custo, além de que a demanda por coletores e técnicos também se reduz, contribuindo de fato para minimizar os erros no processo de coleta e tratamento. Uma das principais vantagens do processo amostral é que temos informação sobre a mar- gem de erro (podemos estipular o máximo permitido) e a confiança no potencial de resposta com os dados coletados. É importante observar que alguns critérios de dimensionamento e seleção devem ser ri- gorosamente seguidos para garantir bons resultados: • definição do instrumento com pesquisa piloto prévia; • treinamento do pessoal em todas as áreas envolvidas; • traçado prévio da temática, área e período de abrangência, objetivos, hipóteses, referencial teórico, metodologia de campo e de tratamento estatístico; • dimensionamento da amostra conforme critérios definidos previamente; EaD 89 MÉtodos estatísticos e a adMinistração • delineamento para realizar a amostra respeitando as proporções de características de interesse na população; • aleatoriedade na seleção das unidades amostrais; • criteriosidade na construção do banco de dados; • adequação dos métodos e técnicas estatísticas para o tratamento dos dados; • correção nos métodos e técnicas para apresentação dos resultados. seção 4.1 Padrões a seguir no Processo amostral O trabalho quando realizado por amostragem e não de forma censitária, populacional, requer algumas estratégias para seu desenvolvimento: Seguindo uma certa lógica presente neste texto, estamos disponibilizando conceitos no processo amostral e os meios para sua utilização. 4.1.1 Fatores intervenientes Alguns fatores que afetam o tamanho da amostra, conforme já estudamos: • a variabilidade dos dados – se os dados são homogêneos, isto é, com baixo coeficiente de va- riação, vão exigir um tamanho de amostra menor para representarem bem a população em estudo; se os dados populacionais forem heterogêneos vão exigir maior tamanho de amostra para conterem essa heterogeneidade e, dessa maneira, conseguirem transmitir com maior adequação as informações pretendidas; • a margem de erro amostral máxima aceita – o erro fixado é um erro relativo e diz respeito ao fato de que o tamanho da amostra (n) difere do tamanho da população (N), de tal modo que n<N. Esse erro quando absolutizado representa uma porção relativa da média, nesse caso ( Xrr ∗=∗= εεµεε ;.. ). O erro relativo deve ter um valor baixo (0,10; 0,05; 0,01 e menores) porque representa o montante de afastamento entre o resultado obtido e o verdadeiro parâ- metro; EaD ruth Marilda Fricke – iara denise endruweit Battisti – antonio Édson corrente 90 • a probabilidade de confiança (Pf) – é a confiabilidade na capacidade da amostra realizada de responder às expectativas de estimativa do parâmetro. A confiança que devemos ter é sempre um valor alto e não é complementar ao erro, pois se trata de medidas diferentes, que dizem respeito a aspectos diferentes no dimensionamento da amostra. A Pf deve atingir um valor em torno de 0,90; 0,95; 0,99 e será expressa em termos de: a. desvios padrão de afastamento da média dos valores limites(z) da normal padrão que têm média 0 e variância 1 no caso de conhecermos os valores da variância populacional ou em caso de estarmos trabalhando com estimativas calculadas a partir de uma amostra piloto de no mínimo 30 informações; b. no caso em que a estimativa da variância for feita com uma amostra pequena, n < 30, usa- mos os limites da distribuição t de Student, obtidos a partir dos graus de liberdade (n-1) e da Pf desejada. • Outra informação que pode afetar o tamanho da amostra é a condição de N ser conhecido ou não. Isto é, estarmos calculando o tamanho da amostra para uma população com tamanho finito (conhecido) ou uma tendendo a infinito (N desconhecido ou muito grande). 4.1.2 MÉtodos de cÁlcUlo da aMostra Existem diversos métodos para o cálculo do tamanho da amostra. O mais famoso é o Método de Cochran (1965), adotado no mundo inteiro. Este método leva em consideração: • se a variância populacional é conhecida ou estimada; • se a população é finita (N conhecido) ou tendendo a infinita (N desconhecido). Um fator determinante nesse processo é a quantidade de informação que temos para mu- niciar as fórmulas que iremos utilizar. Essa quantidade, maior ou menor, tem um efeito direto no resultado do tamanho da amostra (n): • se as informações que podemos utilizar no cálculo são pobres, provavelmente o tamanho da amostra será superdimensionado para compensar; • se as informações forem mais confiáveis, válidas, ricas, o tamanho da amostra será minimizado. Vejamos, então, dois métodos e suas variantes: 1º Método de cochran: Necessita definir previamente a precisão – margem de erro εr, sendo ε =εr.µ, a fidedig- nidade – z valor da curva normal – e conhecer/estimar a variabilidade populacional – σ ou s. Para trabalharmos de forma mais operacional e simplificada, considerando que o ε depende da EaD 91 MÉtodos estatísticos e a adMinistração média e que o coeficiente de variação também, podemos multiplicar as expressões de cálculo da amostra pela fração µ/µ, que é igual a 1, portanto não altera a fórmula, e substituir os valores absolutos pelos relativos. Para obter os valores de z e de t precisamos nos reportar às tabelas da Normal no caso de z e de Student no caso de t. A primeira é fácil de obter, pois os valores da Normal padrão são fixos, basta que seja fixado o valor de probabilidade de confiança desejado, consultando a tabela, localizando no interior da tabela a metade da probabilidade fixada e retornando ao valor inicial da linha em questão (os da 1ª coluna) e subindo ao topo da coluna para constituir o valor de z. Como na maioria dos casos, os valores prefixados são muito repetidos, pois quase sempre são utilizados os mesmos. É possível determinar os valores da curva normal para esses Pf e dei- xar num quadro para uso constante. Os valores mais usuais de Pf são: 0,99; 0,95; 0,90. Vemos no Quadro a seguir os valores de Z da curva normal. Nos casos em que utilizamos estimativas da variância, Pf será dado por t de Student, no entanto esse dimensionamento depende de uma informação variável, que é o tamanho da amostra piloto utilizada para estimar a variância, mu- dando de caso para caso, não permitindo ter um quadro prévio. Quadro 1: valores de Z prefixados para três valores de Pf: 0,90; 0,95; 0,99 Pf Valor a procurar no corpo da tabela z 0,90 0,45 1,64 0,95 0,475 1,96 0,99 0,495 2,58 Fonte: Elaboração da autora com base na literatura estatística. Para encontrarmos o valor de t na tabela t de Student precisamos fixar o valor de Pf e en- contrar os graus de liberdade fixados por (n-1), sendo n o tamanho da amostra piloto, e localizar o valor de t no interior da tabela. Por exemplo, se n = 30; 20; 10, α = 0,05, veja os resultados no quadro a seguir para os valores de t: Quadro 2: valores de t calculados para um valor de Pf: 0,95, com n variado: 30; 20 e 10 Pf n-1 t 0,95 30 -1=29 2,262 0,95 20 -1=19 2,093 0,95 10 -1=9 2,045 Fonte: Elaboração da autora com base na literatura estatística. Quando estamos trabalhando com base em estimativa da variância e n > 120, os valores de t se aproximam de z e podemos utilizar a aproximação normal. EaD ruth Marilda Fricke – iara denise endruweit Battisti – antonio Édson corrente 92 Para facilitar o dimensionamento da amostra, fizemos uma transformação da Variância (σ) para valores relativos (CV), o que nos permite utilizar o erro relativo (εr) em lugar do erro absoluto (ε). Os resultados dessa transformação já estão apresentados nas fórmulas a seguir. Estas fórmulas para o cálculo da amostra são de Cochran (1965). Para utilizar as fórmulas necessitamos: • conhecer a variabilidade da população ou estimá-la por meio de uma amostra piloto. A varia- bilidade mínima reflete diretamente no tamanho da amostra, pois sendo pequena, inferior a 30%, temos um grupo homogêneo e os dados são muito assemelhados, então a amostra pode ser pequena, caso contrário vai exigir um tamanho maior; • definir a margem de erro máxima que podemos admitir tendo em vista os objetivos de nossa investigação, isto é, precisamos estabelecer um máximo de precisão. Quanto menor essa mar- gem, maior será o tamanho da amostra para procurar garanti-la; • estabelecer a probabilidade de confiança (Pf) na amostra que for realizada. Esta Pf deve ser máxima, altos valores, sua interferência no tamanho da amostra é menor do que a margem de erro. A seguir as fórmulas: 1ª fórmula: 22 /2 /2 r CV n z zα α σ ε ε = ≈ * Esta fórmula é utilizada para populações infinitas ou com N desconhecido, com σ conhecido. 2ª fórmula: 2 2 /2 /2 ˆ r s CV n t tα αε ε = = * Esta fórmula é para populações infinitas ou com N desconhecido, com σ estimado. 3ª fórmula: 2 2 2 2 /2 /2 2 2 2 2 2 2 /2 /2( 1) ( 1) r N z N z cv n N z N z cv α α α α σ ε σ ε = ≈ − + − + * Esta fórmula é para populações finitas, com σ conhecido. 4ª fórmula: 2 2 2 2 /2 /2 2 2 2 2 2 2 /2 /2 ˆ ˆ( 1) ( 1) r N t s N t cv n N t s N t cv α α α αε ε = ≈ − + − + * Esta fórmula é para populações finitas, com σ estimado. EaD 93 MÉtodos estatísticos e a adMinistração 2º Método: Populações infinitas Este método é uma espécie de estimativa do tamanho de n, sem considerar os princípios básicos do cálculo de amostragem. Respeita apenas a precisão, desconsiderando fidedignidade e variabilidade. É, portanto, um método com baixa cientificidade e com pouca segurança. Este método é pobre de informações adicionais, logo vai compensar superestimando o tamanho da amostra. 5ª fórmula: 2 1 r n ε = seção 4.2 delineamento amostral: dimensionamento e seleção Esta seção vai nos apresentar a metodologia do delineamento amostral e da seleção alea- tória que irá garantir a cientificidade dos resultados. o delineamento amostral prevê algumas atividades fundamentais: A definição dos fatores de inclusão na amostra, como características especiais da população e sua distribuição na mesma, deve ser as mesmas população. Por exemplo, se na população a divisão por gênero é igualitária, devemos delinear a amostra para ter 50% feminino e 50% mas- culino; se na população 3,5% são pessoas sem escolaridade, a amostra deve ser delineada para conter 3,5% de pessoas sem escolaridade. Então, delineamento trata de estabelecermos critérios de pertencimento à amostra para melhor representar a população. os cuidados na seleção amostral Outro fato importante trata-se da seleção aleatória dos indivíduos que comparecem à amostra. Com isso queremos garantir que cada unidade populacional tenha as mesmas chances de vir a ser sorteada. Atualmente esse procedimento é facilmente obtido mediante a geração de números aleatórios multiplicados pelo tamanho da população e restritos ao tamanho da amostra. No Excel utiliza-se a seguinte função: Aleatório ()*N repetido até obtermos o n necessário com alguns de reserva para o caso de gerarmos números repetidos. EaD ruth Marilda Fricke – iara denise endruweit Battisti – antonio Édson corrente 94 A seguir, seleciona-se as unidades populacionais na Listagem da População. Por exemplo: no caso de estarmos sorteando n = 40 municípios do RS, geramos 40 números aleatórios por meio da função Aleatório()*496, este número é N, a população de municípios gaúchos, e obte- mos nossa amostra. Em seguida vamos à lista e selecionamos os municípios correspondentes. Posteriormente, vamos à base de dados que pode ser a FEE ou o IBGE, cidades ou outra base de dados conhecida e reconhecida, e organizamos um banco de dados com as variáveis de interesse para nosso estudo. exemplificação do processo amostral Seja o seguinte quadro de informações provenientes de uma população: Quadro 3: informações básicas sobre as variáveis em estudo População RGS Empresa Produção Unidade básica Municípios Funcionários Produtos N 496 2.500 Desconhecido Variável PIB per capita em mi- lhares de reais Idade Peso da peça Média 11,294118 32,27 2,3 kg Desvio Padrão 3,2789831 valor po - pulacional 3,8724 valor estima- do, n = 20 0,8625 valor estima- do, n= 40 Coeficiente de Variação 0,29032663 0,12 0,375 εr 0,05 0,05 0,10 PF 0,90 0,95 0,99 Tamanho estimado só com base no Erro, fórmula 5 400 10.000 100 Fonte: Elaboração da autora com base nos dados do IBGE. Utilizando os dados do Quadro 3 vamos dimensionar a amostra para cada grupo, conside- rando as informações disponíveis na hora de escolher a fórmula adequada e proceder à seleção aleatória. • Dimensionamento da amostra Grupo 1: RGS – municípios Como N é conhecido, N = 496 e σ=3,278931, variância populacional conhecida, vamos escolher a fórmula 3: 2 2 /2 2 2 2 /2 496*(1,64)² * (0,29032663)² 76,8 77 ( 1) (496 1)*(0,05)² (1,64)² * (0,29032663)²r N z cv n municípios N z cv α αε = = = ≅ − + − + EaD 95 MÉtodos estatísticos e a adMinistração O estudo deve considerar uma amostra de 77 municípios sorteados aleatoriamente para fazer o estudo entre os 496 que compõem o Estado do RS. Realizamos o sorteio aleatório utilizando a função do Excel, retirando municípios repetidos, com a função: =Aleatório ( )*496 e se encontra no Quadro 4 a seguir. O sorteio realizado é uma AAS – Amostra Aleatória Simples que considera todas as unidades populacionais com a mesma chance de serem sorteadas para participar da amostra. As unidades populacionais são os municípios gaúchos enumerados de 1 a 496. A seguir apresentamos as 77 unidades amostrais sorteadas no Excel, com o respectivo número de sorteio, que é o número do próprio município. Quadro 4: seleção aleatória por sorteio entre os municípios do rs nº Sorteado Município nº Sorteado Município nº Sorteado Município 1 17 Antônio Prado 27 162 Farroupilha 53 356 Salto do Jacuí 2 20 Aratiba 28 164 Faxinalzinho 54 368 Santa Tereza 3 26 Arroio Grande 29 171 Forquetinha 55 376 Santo Antônio do Palma 4 27 Arvorezinha 30 179 Getúlio Vargas 56 379 Santo Cristo 5 28 Augusto Pestana 31 190 Harmonia 57 385 São Gabriel 6 37 Barra do Ribeiro 32 191 Herval 58 393 São José do Inhacorá 7 39 Barra Funda 33 197 Ibiaçá 59 394 São José do Norte 8 46 Boa Vista do Cadeado 34 202 Ijuí 60 395 São José do Ouro 9 48 Boa Vista do Sul 35 203 Ilópolis 61 403 São Martinho da Serra 10 60 Cacequi 36 215 Itati 62 404 São Miguel das Missões 11 63 Cacique Doble 37 222 Jaguarão 63 408 São Pedro das Missões 12 68 Cambará do Sul 38 232 Lajeado 64 411 São Sebastião do Caí 13 73 Campo Novo 39 244 Marau 65 416 São Vendelino 14 74 Campos Borges 40 254 Minas do Leão 66 419 Sapucaia do Sul 15 83 Capão da Canoa 41 267 Muliterno 67 427 Serafina Corrêa 16 99 Cerro Branco 42 270 Nonoai 68 434 Sinimbu 17 116 Coqueiros do Sul 43 279 Nova Pádua 69 441 Taquara 18 120 Cotiporã 44 283 Nova Ramada 70 443 Taquaruçu do Sul 19 124 Cristal do Sul 45 289 Novo Machado 71 458 Três Forquilhas 20 131 Dilermando de Aguiar 46 294 Palmares do Sul 72 459 Três Palmeiras 21 138 Dona Francisca 47 296 Palmitinho 73 461 Trindade do Sul 22 141 Eldorado do Sul 48 302 Parobé 74 466 Tupanciretã 23 144 Engenho Velho 49 333 Protásio Alves 75 472 Unistalda 24 151 Erval Seco 50 334 Putinga 76 486 Victor Graeff 25 156 Estância Velha 51 343 Rio Grande 77 491 Vista Alegre 26 160 Eugênio de Castro 52 354 Sagrada Família Fonte: Elaboração da autora com base na relação de municípios do RS no Wikipédia. Grupo 2: Empresa de Grande Porte – Funcionários Delineamento: proporcionalidade por sexo: 50%. Condições: Independente de setor, cargo, tempo de serviço. Como N é conhecido, N = 2500 e 3,8724S = a partir de uma amostra piloto de tamanho 20, logo variância populacional desconhecida, variância estimada, vamos escolher a fórmula 4: EaD ruth Marilda Fricke – iara denise endruweit Battisti – antonio Édson corrente 96 2 2 /2 2 2 2 /2 2.500*(2,093)² * (0,12)² 24,99 25 ( 1) (2.500 1)*(0,05)² (2,093)² * (0,12)²r N t cv n funcionários N t cv α αε = = = ≅ − + − + O estudo deve considerar uma amostra de 25 funcionários para garantir uma margem máxima de erro de 5% e uma confiabilidade de 95%. Utilizamos a função da calculadora para fazer o sorteio com os seguintes passos: (2nd F+RND)*2500, gerando os 25 números da amostra e mais as 6 reservas, controlando para não haver repetições. No sorteio devemos considerar um delineamento que garanta uma distribuição igualitária por sexo, quer dizer, uma amostra estratificada por sexo. Para tanto, separamos os funcionários em dois grupos e metade será sorteada entre os do sexo masculino e a outra metade entre as de sexo feminino. Como se trata de pessoas que eventualmente podem se negar a responder ou faltar, ou ain- da não serem encontradas, sorteia-se também um grupo de nomes-reserva chamado de reserva técnica para fazer substituições caso seja necessário. O pressuposto, neste caso, é a existência de uma listagem com a relação de trabalhadores. A cada um deles vai ser atribuído um único número que varia de 1 a N=2.500. Neste caso, as reservas também têm de ser meio a meio por sexo. Quadro 5: amostra sorteada e respectiva seleção. Masculino Feminino n2 sorteado nome n2 sorteado nome 1 94 Gustavo 14 960 Anastácia 2 202 Adolfo 15 1.049 Tarsila 3 272 Maximino 16 1.467 Fabiana 4 340 Carlos 17 1.640 Raquel 5 363 Ernesto 18 1.745 Eliana 6 498 François 19 1.798 Edivania 7 907 Gabriel 20 1.825 Alice 8 944 Mateus 21 2.101 Luciana 9 1.467 Frederico 22 2.148 Guilhermina 10 1.688 Homero 23 2.217 Jamilia 11 1.725 Elvis 24 2.217 Constancia 12 1.914 Cassiano 25 2.415 Zuleica 13 2.216 Josias reserva M reserva F 1 278 Ricardo 1 727 Inês 2 1.250 Fabrício 2 996 Janaina 3 2.107 Jonas 3 1.137 Débora Fonte: Elaboração da autora com base nos dados da empresa. EaD 97 MÉtodos estatísticos e a adMinistração Após a seleção amostral, proceder-se-á à coleta das assinaturas nos Termos de Consentimento Livre e Esclarecido (TCLE) para iniciar a coleta de dados. Este procedimento garante que o pesqui- sado conhece os objetivos da pesquisa e sua participação, bem como os procedimentos metodoló- gicos. Também lhe é garantido sigilo de sua participação e em nenhum momento as informações prestadas serão relacionadas a sua pessoa e lhe causarão prejuízo na empresa ou em qualquer lugar. Garante ainda que a qualquer momento estará livre para retirar seu consentimento. Grupo 3: Produção contínua de uma empresa de médio porte – peças Delineamento: como a produção é contínua, entende-se que a população de peças pro- duzidas tendem a infinito, por isso não dimensionamos o N. Também é impossível conhecer a variância populacional, apenas podemos estimá-la mediante uma amostra piloto com uma variável quantitativa que nos assegure média, variância, desvio padrão e coeficiente de variação. Neste caso a variabilidade foi estimada a partir de uma grande amostra, n=40. Podemos considerar então a utilização da primeira fórmula. Como N é conhecido, N →∞ e CV = 0,375 a partir de uma amostra piloto de tamanho 40, logo temos variância populacional desconhecida, mas estimada numa grande amostra, com uma margem de erro fixada em εr= 0,10 e uma probabilidade de confiança, PF=0,99, vamos escolher a fórmula 1: 2 2 /2 0,375 2,58* 93,6 94. . . 0,10r CV n z lote de peçasα ε = = = ≅ Não é possível aplicar os métodos de sorteio neste caso, pois se trata de uma produção contínua e as peças não são numeradas nem identificadas, apenas fazem parte de lotes que identificam o período, turno e dia em que foram produzidas, o responsável pela máquina, a pró- pria máquina e o conferente. Cada lote é constituído de dez peças, o que favorece, por exemplo, o cálculo da proporção de peças defeituosas por lote, etc. A forma que pode ser adotada é a de fazer uma amostra aleatória sistemática, em que uma razão é estabelecida para o momento da coleta. Considerando a experiência na produção estabeleceu-se o momento da coleta de 6 em 6 horas, com sorteio da primeira coleta do dia e a partir daí de 6 em 6 horas coleta-se uma amostra, sendo que a unidade amostral é o lote daquele período. O sistema é repetido até ser composto o número de lotes definido pelo dimensionamento da amostra. Sabe-se que a empresa funciona ininterruptamente, 24 horas por dia. O turno de trabalho para o sorteio inicial é da meia noite às 6 da manhã. É nesse intervalo de tempo que será sorteado o horário da primeira amostra e a partir daí inicia-se a coleta do lote de 6 em 6 horas. O intervalo é contabilizado em meia hora e hora completa, formando assim 12 intervalos de tempo: • Enumeração dos períodos de tempo para o sorteio inicial: Nº 1 2 3 4 5 6 7 8 9 10 11 12 Horário 0,5 1 1,5 2 2,5 3 3,5 4 4,5 5 5,5 6 EaD ruth Marilda Fricke – iara denise endruweit Battisti – antonio Édson corrente 98 • Sorteio da hora de início da coleta dos lotes, um em cada período previsto. Serão sorteados números de 1 a 12, correspondente ao número de períodos de meia hora da meia-noite às 6 da manhã. Quadro 6: amostra de períodos sorteados como hora de início da coleta Sorteio da primeira hora Sorteio da primeira hora 1 8 4 13 11 5,5 2 3 1,5 14 8 4 3 6 3 15 6 3 4 5 2,5 16 6 3 5 9 4,5 17 12 6 6 3 1,5 18 10 5 7 1 0,5 19 2 1 8 10 5 20 12 6 9 1 0,5 21 3 1,5 10 4 2 22 1 0,5 11 8 4 23 11 5,5 12 1 0,5 24 8 4 Fonte: Elaboração da autora. A hora inicial é considerada a semente geradora dos horários para o processo amostral, a qual será então somada com (+ 6) gerando os demais horários do dia. Para completar o último dia de coleta, o 24º, aproximamos para n = 96. Quadro 7: amostra de períodos sorteados gerados a partir da hora sorteada inicialmente n3 Coleta N3 Coleta n3 Coleta n3 Coleta 1 4 25 5 49 5,5 73 1 2 10 26 11 50 11,5 74 7 3 16 27 17 51 17,5 75 13 4 22 28 23 52 23,5 76 19 5 1,5 29 0,5 53 4 77 6 6 7,5 30 6,5 54 10 78 12 7 13,5 31 12,5 55 16 79 18 8 19,5 32 18,5 56 22 80 24 9 3 33 5,5 57 3 81 1,5 10 9 34 11,5 58 9 82 7,5 11 15 35 17,5 59 15 83 13,5 12 21 36 23,5 60 21 84 19,5 13 2,5 37 4 61 3 85 0,5 14 8,5 38 10 62 9 86 6,5 15 14,5 39 16 63 15 87 12,5 16 20,5 40 22 64 21 88 18,5 17 4,5 41 3 65 6 89 5,5 18 10,5 42 9 66 12 90 11,5 19 16,5 43 15 67 18 91 17,5 20 22,5 44 21 68 24 92 23,5 21 1,5 45 3 69 5 93 4 22 7,5 46 9 70 11 94 10 23 13,5 47 15 71 17 95 16 24 19,5 48 21 72 23 96 22 Fonte: Elaboração da autora. EaD 99 MÉtodos estatísticos e a adMinistração Dessa forma o delineamento está concluído e as amostras serão coletadas em 24 dias. Para fixarmos os conteúdos, o que acham de resolver algumas questões? Vamos adiante, pessoal, para finalizar mais esta unidade do nosso livro. seção 4.3 aplicações O gerente de uma empresa do ramo de calçados populares quer conhecer a interferência de algumas variáveis na condução de seus negócios. Como o estatístico deve conduzir o processo amostral? Em cada proposição identifique: a população a unidade amostral o delineamento o cálculo da amostra a seleção aleatória Caso 1) Se ele pretende entrevistar a clientela utilizando a variável “gasto na última aqui- sição” para delinear a amostra, vai precisar de uma amostra piloto. Com base em 26 notas de clientes da empresa monte o processo amostral, definindo margem de erro, probabilidade de confiança e coeficiente de variação a partir dos valores das notas: Quadro 8: Banco de dados da amostra piloto 1 R$ 136,40 14 R$ 64,00 2 R$ 119,87 15 R$ 117,00 3 R$ 124,33 16 R$ 145,00 4 R$ 112,60 17 R$ 186,90 5 R$ 102,53 18 R$ 166,99 6 R$ 87,90 19 R$ 268,00 7 R$ 99,12 20 R$ 54,80 8 R$ 127,45 21 R$ 145,00 9 R$ 132,90 22 R$ 219,00 10 R$ 123,10 23 R$ 104,00 11 R$ 107,34 24 R$ 131,60 12 R$ 264,00 25 R$ 59,23 13 R$ 148,00 26 R$ 84,50 Fonte: Escritório da empresa. EaD ruth Marilda Fricke – iara denise endruweit Battisti – antonio Édson corrente 100 Caso 2) Se ele pretende utilizar a informação sobre o número de pares de calçados que vendeu nas últimas exportações para os vizinhos da América Latina, onde tem 180 clientes, enviando uma mala investigativa via Internet por processo amostral. Quadro 9: Banco de dados de todos os clientes n pares n pares n pares n pares n pares n pares 1 411 31 239 61 183 91 267 121 312 151 451 2 577 32 132 62 190 92 238 122 384 152 188 3 564 33 445 63 442 93 198 123 599 153 252 4 507 34 265 64 190 94 552 124 282 154 317 5 202 35 219 65 410 95 167 125 289 155 437 6 435 36 430 66 162 96 210 126 392 156 365 7 513 37 519 67 427 97 310 127 493 157 512 8 292 38 225 68 417 98 409 128 150 158 248 9 394 39 485 69 481 99 458 129 532 159 142 10 404 40 259 70 403 100 217 130 461 160 514 11 127 41 148 71 406 101 195 131 327 161 266 12 485 42 401 72 350 102 180 132 389 162 284 13 165 43 555 73 110 103 132 133 554 163 573 14 352 44 259 74 534 104 201 134 585 164 274 15 128 45 320 75 176 105 495 135 427 165 571 16 435 46 365 76 327 106 224 136 480 166 535 17 520 47 223 77 325 107 453 137 169 167 137 18 435 48 107 78 562 108 514 138 137 168 458 19 137 49 580 79 396 109 533 139 565 169 127 20 415 50 141 80 139 110 545 140 136 170 258 21 204 51 560 81 476 111 454 141 118 171 271 22 527 52 572 82 445 112 213 142 412 172 564 23 450 53 356 83 333 113 258 143 526 173 422 24 569 54 391 84 344 114 473 144 233 174 290 25 175 55 429 85 188 115 295 145 104 175 259 26 463 56 260 86 574 116 476 146 159 176 550 27 559 57 148 87 296 117 436 147 248 177 334 28 249 58 212 88 388 118 585 148 238 178 586 29 500 59 536 89 291 119 503 149 287 179 584 30 103 60 542 90 446 120 405 150 485 180 155 Fonte: Departamento de vendas. Caso 3) Se ele deseja saber como seria a aceitação de um novo produto entre seus clientes usuais. Não sabe quantos clientes costumam vir a sua loja e comprar um tipo de calçado como esse novo produto. Caso 4) Se ele deseja encontrar o perfil de clientes na aceitação de um novo plano de promoções. Toma como informação a proporção de clientes que costuma frequentar a loja nos sábados à tarde: p = 0,54 EaD 101 MÉtodos estatísticos e a adMinistração Caso 5) Sabendo que tem 228 sapateiras, toma uma amostra de 35 delas tomando a infor- mação sobre o tempo de trabalho na indústria calçadista, deseja conhecer o grau de satisfação dos trabalhadores da empresa. Quadro 10: amostra piloto n TS n TS n TS 1 0 13 6 25 4 2 13 14 23 26 23 3 3 15 16 27 26 4 12 16 14 28 10 5 24 17 11 29 7 6 4 18 20 30 14 7 12 19 13 31 29 8 1 20 20 32 25 9 24 21 12 33 2 10 27 22 29 34 27 11 18 23 9 35 0 12 12 24 11 Fonte: Registro empresarial. resUMo da Unidade 4 Nesta unidade introduzimos o estudante em um dos principais procedi- mentos dentro da Estatística, que distingue um trabalho de senso comum de um trabalho científico: o processo amostral. Procuramos trabalhar as principais fórmulas, o rigor do delineamento e da seleção aleatória das unidades amostrais. EaD 103 MÉtodos estatísticos e a adMinistração noçÕes de inFerÊncia estatística Ruth Marilda Fricke oBjetivo desta Unidade • Mostrar como, por meio do processo amostral, fizemos a extensão dos resultados amostrais para descrever o comportamento da população, dominando algumas técnicas de generalização, como a estimação e teste de hipóteses. seçÕes desta Unidade Seção 5.1 – Conceitos e definições Seção 5.2 – Estimativas e sua projeção Seção 5.3 – Aplicações. A Inferência é o processo de generalização e de projeções realizadas a partir da amostra por meio de Estimativas, Intervalos de Confiança e de Testes de Hipótese. A ideia é fazer as medidas numa amostra (calculada e selecionada aleatoriamente com critérios científicos, como foi visto na Unidade 4, aplicar as técnicas estatísticas nessa amostra e projetar os resultados para a população. Com isso ganhamos tempo, precisão, agilidade, avaliando também as relações e tendências futuras. Desse modo, as estatísticas amostrais servirão para conhecer o comportamento de uma população, que só poderia ser estudada censitariamente, o que nem sempre é possível. Unidade 5 EaD ruth Marilda Fricke – iara denise endruweit Battisti – antonio Édson corrente 104 seção 5.1 conceitos e definições estimadores: Os estimadores são as estatísticas amostrais que serão calculadas na amostra e projetadas por meio de estimativas por ponto (a estimativa é utilizada como se fosse o parâmetro popula- cional) ou por intervalo (uma estimação que parte da estatística amostral calculada, média ou proporção, no caso deste texto e acrescentando uma margem de erro para mais e para menos, que nos informa a faixa de ocorrência do verdadeiro valor populacional). intervalo de confiança: O Intervalo de Confiança dimensiona uma faixa de possível ocorrência do parâmetro po- pulacional, ou seja, do verdadeiro valor, desconhecido mas estimado por meio da amostra. Este intervalo é construído após a definição da probabilidade de confiança que pretendemos ter na estimativa realizada. teste de Hipótese: Após o cálculo da estimativa precisamos conferir se o valor encontrado está garantido como uma projeção do valor populacional. Para tal, estabelecemos um nível de significância (uma es- pécie de margem de erro) para nossa estimativa e conseguimos estabelecer uma garantia para a informação obtida, possibilitando que as decisões sejam tomadas tendo por base a informação amostral. Na seção 5.2 vamos apresentar a metodologia estatística que permite inferir os parâmetros populacionais a partir de uma amostra, ou seja, generalizar a partir dela. No processo amostral não interessam por si mesmas as estatísticas da amostra, mas sim as estimativas construídas a partir dela e que inferem o comportamento populacional. seção 5.2 estimativas e sua Projeção Nesta seção vamos apresentar as estimativas e os testes de hipóteses que permitem a projeção dos resultados amostrais. As estimativas são calculadas com valores das estatísticas amostrais. As projeções são realizadas quando testamos se os valores encontrados na amostra trazem evidência suficiente para inferirmos os parâmetros populacionais. EaD 105 MÉtodos estatísticos e a adMinistração 5.2.1 estiMativas As estimativas da informação populacional a partir da amostra podem ser realizadas: • Por ponto: quando se projeta o valor calculado na amostra como se fosse o próprio parâmetro, o valor populacional. Este procedimento desconsidera a margem de erro presente no processo amostral e não oferece garantia à estimativa. • Por intervalo: ao estabelecer a estatística amostral como estimativa, constrói-se em torno dela um intervalo baseado no potencial de erro de estimativa do processo. Como se diz popularmen- te, o valor verdadeiro é projetado como a estatística calculada na amostra mais ou menos um determinado valor que é a margem de erro agregada da confiança. Por isso, é denominado de Intervalo de Confiança. Usualmente este intervalo é calculado para garantir 95% de confiança de conter o verdadeiro parâmetro. Ao utilizarmos a média amostral, já temos comprovação anterior que esta medida é um estimador ótimo para a média populacional, pois o valor esperado da média amostral é o próprio parâmetro, ε( )= µ e a variância é mínima, V( )= σ²/n. Mesmo assim a estimativa por ponto é arriscada, pois fazemos o cálculo amostral a partir de uma amostra entre todas as possíveis, então é importante que na projeção trabalhemos com uma estimativa por intervalo, considerando a confiança dentro da margem de erro. Vários são os parâmetros que podem ser estimados, mas vamos trabalhar somente com os estimadores da média – µ, e proporção, π. intervalo de confiança para a Média /295%IC X z Pf n σ ∂ = ± = Esta é a fórmula para o Intervalo de Confiança no caso de variância populacional conhecida ou estimada com grandes amostras. ( 1); /2 ˆ 95% n s IC X t Pf n − ∂ = ± = Esta é a fórmula para o Intervalo de Confiança no caso de variância estimada. O valor da variância amostral estimada precisa de uma correção ao valor da variância amostral, pois esta apresenta uma tendenciosidade logo ˆ² ² * 1 n s s n = − é a expressão da variância amostral corri- gida para pequenas amostras, em que n < 30. EaD ruth Marilda Fricke – iara denise endruweit Battisti – antonio Édson corrente 106 intervalo de confiança para a proporção /2 ( ) * (1 ) 95% p p IC p z Pf n ∂ − = ± = Esta é a fórmula para o Intervalo de Confiança no caso de proporção. Utilizamos sempre a padronização normal e o cálculo da média é dado por pµ = , tal que µ é o símbolo da média populacional, o parâmetro média; a variância é dada por σ² = (p)*(1-p) em que σ² é o símbolo da variância populacional e p é o valor da proporção obtida na amostra, enquanto π é a proporção populacional desconhecida. 5.2.2 testes de HiPÓteses Para generaliZação de estatísticas aMostrais Outro tratamento importante que deve ser realizado antes de projetarmos as estimativas é o teste de hipóteses. O teste de hipóteses deve ser aplicado aos valores amostrais para verifi- carmos se os mesmos podem ser projetados para a população. Este item merece um estudo mais aprofundado, no entanto nos restringiremos aos testes da média e da proporção, que são os mais utilizados nas pesquisas por amostragem. Quadro 1: Parâmetros, estimadores e teste de hipóteses Medida Teste de hipóteses Média Parâmetro: µ (mi) Estimador: X (xbarra) H0: µ =µ0, a média atual é igual à antiga. Ha: µ ≠ µ0, µ >µ0, µ <µ0, a média atual é diferente, menor ou maior que a antiga. Grandes amostras 0 o X z n µ σ −= Rejeitar H0 se: z0<-zα; z0>+zα; Aceitar H0 se: -zα< z0<+zα Pequenas amostras: 0 o x X t s n µ−= Rejeitar H0 se: t0<-t(n-1)α; t0>+ t(n-1)α; Aceitar H0 se:– t(n-1)α/2 < t0<+ t(n-1)α/2 Proporção Parâmetro: π(pi) Estimador: p’ (p proporção) H0: π =π0, a proporção atual é igual à antiga. Ha: π ≠ π0, π >π0, π <π0, a proporção atual é diferente, menor ou maior que a antiga. ( ) 0 0 0 ' (1 ) o p z p p n π−= − , p’= p estimado na amostra, π0= Valor já existente Rejeitar H0 se: z0<-zα; z0>+zα; Aceitar H0 se: -zα< z0<+zα Fonte: Elaboração da autora com base na literatura estatística. EaD 107 MÉtodos estatísticos e a adMinistração EXEMPLO: Sabe-se que o módulo da propriedade rural na nossa região é de 25 ha. Devido ao modelo agrícola e sistema de organização social em função de lucro e de acumulação, a população urbana vem crescendo e a rural diminuindo em função do êxodo rural. Os agricultores e suas famílias saem do meio rural por causa do endividamento, busca de instituições de saúde e de educação, do custo elevado de produção agrícola, da dificuldade de acesso às novas tecnologias, etc. Hipótese: Em função disso entende-se que o módulo rural esteja se modificando. 1) Fazemos uma amostra de propriedades rurais de nossa região Dados disponíveis para o dimensionamento da amostra: Seja um estudo de propriedades rurais, avaliando-se a concordância atual com o módulo rural em 25 ha. O censo agrícola revela que nesta região o número total de propriedades rurais é de 2.049 estabelecimentos e o número total de hectares é de 51.508. Dessa relação podemos tirar uma razão de ha/propriedade: . . 51.508. 25,13. / º 2.049 total de ha ha Razão ha propriedade n de propriedades rurais propriedades rurais = = = Segundo essa razão (25,13 ha/propriedade), observamos que na prática ela corresponde ao módulo rural. Como comprovaremos a hipótese de que o modelo de concentração de terras está modifi- cando o tamanho das propriedades rurais? Estabelecemos então uma proporcionalidade com a finalidade de ter uma informação bá- sica para o cálculo da amostra: P=25/25, 13=0,99 logo q=(1-p)= 0,01 µ’=p=0,99; σ’²=s’² =p*q= 0,99*0,01=0,0099; s=√( p*q)= √(0,0099)=0,09949874 e CV= √q/p=√0,01/0,99)=0,10050378 Estabelecendo εr=0,03 e uma Pf=0,95→zα /2=1,96, vamos dimensionar o tamanho da amostra utilizando a fórmula para proporção com N finito: 2 2 /2 2 2 2 /2( 1) N z n N z α α σ ε σ = − + = 2 2 /2 2 2 2 /2 2049*(1,96)² * (0,10050378)² ( 1) (2049 1)*(0,03)² (1,96)² * (0,10050378)²r N z CV N z CV α αε = = − + − + = = 42,25 ≈ 43 propriedades na amostra. EaD ruth Marilda Fricke – iara denise endruweit Battisti – antonio Édson corrente 108 Como percebemos, em princípio não temos muita informação sobre as propriedades para fazer um cálculo da amostra; buscamos então um apoio numa proporção que na realidade é uma razão. A estatística que mais agregaria informação seria a Média, pois ela é uma medida que faz um aporte de dados individual, isto é, teríamos uma informação conhecida para o cálculo da Média de cada uma das propriedades. Como, no entanto, a razão calculada representa baixíssima variabilidade, entendemos que a amostra não sofrerá superestimação para compensar. Posteriormente, com base na amostra realizada, poderemos estimar um real tamanho da amostra para verificar o nível de satisfação com os cálculos realizados. 2) Redimensionamento dos requisitos em termos de erro e confiança, se adotarmos uma amostra menor do que a calculada. Uma vez que o n calculado foi de 43 para um εr=0,03 e uma Pf=0,95 e o n realizado foi de 30, devemos atualizar o erro e/ou a confiança. Vamos assumir que a Probabilidade de Confiança não se modificou e apenas vamos mexer na margem de erro, portanto: Continua Pf=0,95→zα/2=1,96 E vamos deixar como incógnita o εr. Refazemos a conta do dimensionamento da amostra, substituindo o n, incógnita na versão anterior, por n = 30, tamanho que foi realmente efetivado e a incógnita agora é o εr. Desse modo, refazendo os cálculos vamos redimensionar o montante de erro que realmente foi praticado quando a decisão foi reduzir de 43 para 30 o tamanho da amostra. Retomemos a fórmula com todos os seus valores substituídos, com exceção do erro. 2 2 /2 2 2 2 /2 2049*(1,96)² * (0,10050378)² 30 ( 1) (2049 1)*( )² (1,96)² * (0,10050378)²r r N z CV N z CV α αε ε = = − + − + 2 2 2 2 2 2 2/2 /2 0 /22 2 2 /2 0 1/2 2 2 2 2 2 2 2 2 2/2 /2 /2 /2 0 0 2 2 2 ( 1) ( 1) 1 1 ( 1) ( 1) (2049)(1,96) (0,10050378) (1,96) (0,1 30 r r r r r N z CV N z CV n N z CV N z CV n N z CV N z CV z CV z CV n N n N α α α α α α α α ε ε ε ε ε = → − = − − + → = − → = − − − = − 1/2 2 10050378) 0,036 (2049 1) = − EaD 109 MÉtodos estatísticos e a adMinistração Então, diminuindo o tamanho da amostra para 30, considerando que PF = 0,95, estaremos trabalhando com um erro máximo de εr=0,036 3) Coletamos dados referentes às 30 propriedades rurais, selecionadas aleatoriamente. 4) Construímos o banco de dados das propriedades sorteadas para compor a amostra. Quadro 2: relação das variáveis coletadas por meio do instrumento de coleta e sua classificação X1 Tamanho da propriedade (ha) VA quantitativa contínua X2 Produção: soja (0.Não produz; 1.Produz) VA qualitativa não ordenável X3 Produção: milho(0.Não produz; 1.Produz) VA qualitativa não ordenável X4 Produção: aves(0.Não produz; 1.Produz) VA qualitativa não ordenável X5 Produção: leite(0.Não produz; 1.Produz) VA qualitativa não ordenável X6 Nº de moradores da propriedade VA quantitativa Fonte: Elaboração da autora. Quadro 3: Banco de dados nº 6 com as variáveis coletadas por meio do instrumento de coleta X1 X2 X3 X4 X5 X6 X1 ² X6 ² Nº Tam soja milho aves leite moradores tam² moradores 1 28 1 1 1 1 5 784 25 2 12 1 0 1 1 7 144 49 3 15 1 1 0 1 7 225 49 4 5 0 1 1 1 9 25 81 5 8 0 1 1 1 8 64 64 6 55 1 1 0 1 2 3025 4 7 80 1 1 0 0 3 6400 9 8 36 1 1 1 1 4 1296 16 9 27 1 1 1 1 5 729 25 10 10 0 1 1 1 8 100 64 11 47 1 1 0 0 2 2209 4 12 62 1 1 0 0 3 3844 9 13 87 1 1 0 0 3 7569 9 14 13 0 1 1 1 6 169 36 15 25 1 1 0 1 5 625 25 16 42 1 0 0 0 2 1764 4 17 53 1 1 1 1 3 2809 9 18 84 1 1 0 0 2 7056 4 19 27 0 1 0 1 4 729 16 20 18 1 1 1 1 5 324 25 21 15 1 1 1 1 6 225 36 22 61 1 0 0 0 2 3721 4 23 76 1 1 0 1 4 5776 16 24 34 0 1 1 1 3 1156 9 25 29 1 0 1 1 5 841 25 26 50 1 1 0 1 3 2500 9 27 42 1 0 0 0 2 1764 4 28 24 1 1 1 1 2 576 4 29 16 0 1 1 1 8 256 64 30 49 1 1 0 0 4 2401 16 ∑ 1130 132 59106 714 p 0,77 0,87 0,50 0,70 Fonte: Elaboração da autora, com base em técnicas de simulação. EaD ruth Marilda Fricke – iara denise endruweit Battisti – antonio Édson corrente 110 Cálculo das estatísticas amostrais das variáveis quantitativas Quadro 4: estatísticas descritivas Medida Fórmula X1: Tamanho X6: Moradores Média Aritmética: 1 n i i x X n= = ∑ 1 1.130 37,67. 30 X ha= = 6 132 4,4 30 X moradores= = Variância ( ) 2 22 1 n i i x S x n= = −∑ ( ) 22 59.106 3037,67 30 30 1 570,177 ² S ha = − − = ( )22 714 304,4 30 30 1 22,59310345 ² S moradores = − − = Desvio Padrão 2S S= 2(570,177 23,87837934. S ha = = = 2(22,59310345) 4,753220324 S = = = Coeficiente de Variação 100 S CV X = 23,87837934 100 37,67 63,4% CV = = = 4,753220324 100 4,4 108% CV = = = Fonte: Elaboração da autora. Quadro resumo das estatísticas e dos resultados da aplicação do intervalo de confiança e do teste de hipóteses para as variáveis quantitativas Quadro 5: Quadro resumo: intervalo de confiança e teste de hipóteses Medidas Parâmetros estimativa Intervalo Confiança TH Sig. Li Ls Tamanho Pro- priedade µ 37,67 29,12 46,21 2,096 0,0180, * Moradores µ 4,4 2,67 6,10 1,325 0,0918 n.s. Fonte: Elaboração da autora. Li: Limite Inferior; Ls: Limite Superior; TH: Teste de Hipóteses Intervalo de confiança de 95% para a Média; utiliza-se o intervalo de confiança com base na distribuição normal devido ao tamanho da amostra piloto, n = 30. EaD 111 MÉtodos estatísticos e a adMinistração X1: Tamanho da propriedade (conforme o quadro 3): { } /2 23,87837934 95% 95% 37,67 1,96 0,95 30 95% 29,12 46,21 0,95 IC X z Pf IC n IC σ µ ∂ = ± = → = ± = = ≤ ≤ = Constatamos que o tamanho médio das propriedades rurais nessa região está estimado em 37,67 ha, o qual pode ser avaliado potencialmente como um valor entre 29,12 e 46,21 há, com um nível de significância de 5%. O intervalo de confiança calculado evidencia que o zero não é um valor possível para a verdadeira média, com 95% de confiança. A verdadeira intenção do estudo, no entanto, é saber se o módulo rural nessa região continua sendo 25 ha. Para isso vamos construir um teste de hi- pótese com essa premissa, de que o módulo não se alterou e tem 25 ha. H0: µ =µ0 → , µ =25 ha a média atual é igual à antiga. Ha: µ >25 ha, a média atual maior que a antiga. Região crítica do teste Pf=0,95, α=0,05 → Z=1,96 Logo: Aceita H0 se z0 ≤ 1,96 Rejeita H0 se z0 > 1,96 Estatística de teste: Grandes amostras 0 37,67 25 2,906 23,87837934 30 o X z n µ σ − −= = = Conclusão: Como zo= 2,906 > zt =1,96, tem uma chance de 1,79% de ocorrer no caso da igualdade com o módulo rural antigo ser verdadeira, garantindo que a diferença é estatisticamente signifi- cativa (P<0,05). Rejeitamos H0 concluindo que houve mudança no padrão de propriedades, ocorrendo uma concentração de terras nessa região, constatando-se que o padrão médio não é mais 25 ha, cresceu e com um nível de significância estatístico de 5%, podemos estimar o tamanho médio das propriedades em 37,67, com um potencial de variar entre 29 e 46 ha. EaD ruth Marilda Fricke – iara denise endruweit Battisti – antonio Édson corrente 112 X6: Nº de moradores por propriedade (conforme o quadro 3): { } /2 4,753220324 95% 95% 4,4 1,96 0,95 30 95% 2,67 6,10 0,95 IC X z Pf IC n IC σ µ ∂ = ± = → = ± = = ≤ ≤ = Constatamos que o número médio de moradores das propriedades rurais nessa região está estimado em 4,4 moradores, e que o tamanho médio pode ser avaliado potencialmente como um valor entre 2,67 e 6,10 moradores, com um nível de significância de 5%. O intervalo de confiança calculado evidencia que o zero não é um valor possível para a verdadeira média, com 95% de confiança, no entanto há informações de que o número médio de membros nas famílias gaúchas é de 3,25 pessoas. Queremos saber se o número médio dessa região é maior do que o do Estado. Para isso vamos construir um teste de hipótese com essa premissa, de que o número médio é igual ao do Estado. H0: µ =µ0 →, µ =3,25 moradores, a média da região é igual à do Estado. Ha: µ >3,25 moradores por família, a média da região é maior que a do Estado. Região crítica do teste Pf=0,95, α=0,05 → Z=1,96 Logo: Aceita H0 se z0 ≤ 1,96 Rejeita H0 se z0 > 1,96 Estatística de teste: Grandes amostras 0 4,4 3,25 1,325 4,753220324 30 o X z n µ σ − −= = = Conclusão: Como zo= 1,325 < zt =1,96 aceitamos H0, há uma chance de ocorrer de 9,18% no caso de a igualdade com o número de moradores ser verdadeiramente 3,25, garantindo que a diferença não é estatisticamente significativa (P>0,05). Aceitamos H0 concluindo que não há diferença estatisticamente significativa entre a média estadual = 3,25, e a média da região = 4,4. As famílias, atualmente, como decorrência da vida moderna, do planejamento familiar, acesso aos meios de contracepção, tendem a ter menos filhos, restringindo-se a 1 ou 2 no máximo. EaD 113 MÉtodos estatísticos e a adMinistração X2: Produz soja, p: sim; (1-p): não tal que p = 0,77 (1-p) = 0,23 { } /2 (1 ) 0,77 *0,23 95% 95% 0,77 1,96 0,95 30 95% 0,71 0,83 0,95 p p IC p z Pf IC n IC π ∂ − = ± = → = ± = = ≤ ≤ = Constatamos que a proporção de propriedades que produz soja é estimada em 0,77, e que a proporção pode ser avaliada potencialmente como um valor entre 0,71 e 0,83, com um nível de significância de 5%. O intervalo de confiança calculado evidencia que o zero não é um valor possível para a verdadeira média, com 95% de confiança. Supondo, no entanto, que metade das propriedades rurais produz soja, queremos saber se a proporção estimada é significativamente maior do que a suposta. Para isso vamos construir um teste de hipótese com essa premissa, de que a proporção real é igual a 0,50. H0: π = 0,50→ a proporção de propriedades que produzem soja é de 0,50. Ha: π = 0,50→ a proporção de propriedades que produzem soja é > que 0,50. Região crítica do teste Pf=0,95, α=0,05 → Z=1,96 Logo: Aceita H0 se z0 ≤ 1,96 Rejeita H0 se z0 > 1,96 Estatística de teste: Grandes amostras 0 0,77 0,50 3,514 (1 ) 0,77(0,23) 30 o p z p p n π− −= = = − Conclusão: Como zo= 3,514 > zt =1,96 tem uma chance de 0,02% de ocorrer no caso da igualdade com a hipótese de que 50% das propriedades produzem soja seja verdadeira, é altamente improvável, garantindo que a diferença é altamente significativa estatisticamente (P<0,01). Rejeitamos H0, concluindo que há diferença altamente significativa estatisticamente entre a proporção suposta = 0,50 e a proporção da região = 0,77 quando se trata de produção de soja EaD ruth Marilda Fricke – iara denise endruweit Battisti – antonio Édson corrente 114 com um nível de significância de 1%. Apesar de a soja ser uma produção que exige grandes extensões rurais e cultivo com maquinário agrícola, a maioria das propriedades (indepen- dentemente do tamanho) dedica-se a essa cultura pelo manejo exigido e retorno bastante garantido, bem como pela política agrícola que favorece esta cultura. Podemos então afirmar que a proporção estimada de produtores de soja é de 77% com grandes possibilidades de o intervalo de 71% a 83% conter a real proporção da região em termos de produtores de soja, tenha uma chance de 95% de conter a verdadeira proporção. X 3: Produz milho, p: sim; (1-p): não tal que p = 0,87 (1-p) = 0,13 { } /2 (1 ) 0,87 *0,23 95% 95% 0,87 1,96 0,95 30 95% 0,83 0,91 0,95 p p IC p z Pf IC n IC π ∂ − = ± = → = ± = = ≤ ≤ = Constatamos que a proporção de propriedades que produzem milho é estimada em 0,87, e que a proporção pode ser avaliada potencialmente como um valor entre 0,83 e 0,91, com um nível de significância de 5%. O intervalo de confiança calculado evidencia que o zero não é um valor possível para a verdadeira média, com 95% de confiança. Supondo, no entanto, que metade das propriedades rurais produz milho, queremos saber se a proporção estimada é significativamente maior do que a suposta. Para isso vamos construir um teste de hipótese com essa premissa, de que a proporção real é igual a 0,50. H0: π = 0,50→ a proporção de propriedades que produzem milho é de 0,50. Ha: π = 0,50→ a proporção de propriedades que produzem milho é > que 0,50. Região crítica do teste Pf=0,95, α=0,05 → Z=1,96 Logo: Aceita H0 se z0 ≤ 1,96 Rejeita H0 se z0 > 1,96 Estatística de teste: Grandes amostras 0 0,87 0,50 6,026 (1 ) 0,87(0,13) 30 o p z p p n π− −= = = − EaD 115 MÉtodos estatísticos e a adMinistração Conclusão: Como zo= 6,026 > zt =1,96 rejeitamos H0, tem uma chance de ocorrer de 0,0000..% no caso da igualdade com a suposição 0,50 ser verdadeira, garantindo que a diferença é altamente significativa estatisticamente (P<0,01). Concluímos que há diferença altamente significativa estatisticamente entre a proporção suposta = 0,50 e a proporção da região = 0,87 quando se trata de produção de milho com um nível de significância de 1%. Apesar de o milho ser uma produção que exige uma terra de boa qualidade, quase sempre uma terra de mato, é uma cultura de grande utilidade tanto para a comercialização quanto para a demanda interna da propriedade, por isso a maioria das propriedades (independentemente do tamanho) se dedica a essa cultura pelo manejo exigido e retorno bastante garantido, bem como pela polí- tica agrícola que favorece esta cultura. Podemos então afirmar que a proporção estimada de produtores de milho é de 87% com grandes possibilidades de o intervalo de 83% a 91% conter a real proporção da região em termos de produtores de milho, tenha uma chance de 95% de conter a verdadeira proporção. X 4: Produz aves, p: sim; (1-p): não tal que p = 0,50 (1-p) = 0,50 { } /2 (1 ) 0,50*0,50 95% 95% 0,50 1,96 0,95 30 95% 0,41 0,59 0,95 p p IC p z Pf IC n IC π ∂ − = ± = → = ± = = ≤ ≤ = Constatamos que a proporção de propriedades que produzem aves é estimada em 0,50, e que a proporção pode ser avaliada potencialmente como um valor entre 0,41 e 0,59, com um nível de significância de 5%. O intervalo de confiança calculado evidencia que o zero não é um valor possível para a verdadeira média, com 95% de confiança. Sabendo, no entanto, que 65% das propriedades rurais produzem aves, queremos saber se a proporção estimada é significativamente maior do que a suposta. Para isso vamos construir um teste de hipótese com essa premissa, de que a proporção real é igual a 0,50. H0: π = 0,65→ a proporção de propriedades que produzem aves é de 0,65. Ha: π < 0,65→ a proporção de propriedades que produzem aves é < que 0,65. EaD ruth Marilda Fricke – iara denise endruweit Battisti – antonio Édson corrente 116 Região crítica do teste Pf=0,95, α=0,05 → Z=1,96 Logo: Aceita H0 se z0 ≥ -1,96 Rejeita H0 se z0 < -1,96 Estatística de teste: Grandes amostras 0 0,50 0,65 1,643 (1 ) 0,50*(0,50) 30 o p z p p n π− −= = = − − Conclusão: Como zo= -1,643 > zt =-1,96 aceitamos H0, tem uma chance de ocorrer de 0,0505% no caso da igualdade com a suposição de 0,50 ser verdadeira, garantindo que a diferença não é sig- nificativa estatisticamente (P>0,05). É possível concluir que não há diferença estatisticamente significativa entre a proporção suposta = 0,65 e a proporção da região = 0,50 quando se trata de produção de aves com um nível de significância de 5%. Apesar de ave ser uma produção que não exige grandes extensões rurais, de fácil manuseio e consumo garantido, a maioria das propriedades, independentemente do tamanho, não se dedica muito a essa produção. Po- demos então afirmar que o a proporção estimada de produtores de aves é de 50% com grandes possibilidades de que o intervalo de 41% a 59% conter a real proporção da região em termos de produtores de aves, tenha uma chance de 95% de conter a verdadeira proporção., X 5: Produz leite, p: sim; (1-p): não tal que p = 0,70 (1-p) = 0,30 { } /2 (1 ) 0,70*0,30 95% 95% 0,70 1,96 0,95 30 95% 0,62 0,78 0,95 p p IC p z Pf IC n IC π ∂ − = ± = → = ± = = ≤ ≤ = Constatamos que a proporção de propriedades que produzem leite é estimada em 0,70, e que a proporção pode ser avaliada potencialmente como um valor entre 0,62 e 0,78 com um nível de significância de 5%. O intervalo de confiança calculado evidencia que o zero não é um valor possível para a verdadeira média, com 95% de confiança. Supondo, porém, que as propriedades rurais são pe- quenas entende-se que se dediquem à produção de leite em torno de 90%, queremos saber se a proporção estimada é significativamente menor do que a suposta. Para isso vamos construir um teste de hipótese com essa premissa, de que a proporção real é igual a 0,90. EaD 117 MÉtodos estatísticos e a adMinistração H0: π = 0,90→ a proporção de propriedades que produzem leite é de 0,80. Ha: π < 0,90→ a proporção de propriedades que produzem leite é > que 0,80. Região crítica do teste Pf=0,95, α=0,05 → Z=1,96 Logo: Aceita H0 se z0 ≥– 1,96 Rejeita H0 se z0 < – 1,96 Estatística de teste: Grandes amostras 0 0,70 0,90 2,390 (1 ) 0,70(0,30) 30 o p z p p n π− −= = = − − Conclusão: Como zo= -2,390 < zt =-1,96 rejeitamos H0, tem uma chance de ocorrer de 0,0084% no caso de a igualdade com a suposição ser 0,50 a verdadeira proporção, garantindo que a diferença é altamente significativa estatisticamente (P<0,01). Concluindo que há diferença altamente significativa estatisticamente entre a proporção suposta = 0,90 e a proporção da região = 0,70 quando se trata de produção de leite com um nível de significância de 5%. Apesar de o leite ser um produto altamente comercializável, pois várias empresas de beneficiamento do leite operam na região, a proporção de produtores é menor do que a esperada. Podemos então afirmar que a proporção estimada de produtores de leite é de 70% com grandes possibilidades de que o intervalo de 62% a 78% conter a real proporção da região em termos de produtores de leite tenha uma chance de 95% de conter a verdadeira proporção., seção 5.3 aplicações Organize uma pesquisa de campo em que você precise entrevistar, coletar dados de qual- quer natureza. EaD ruth Marilda Fricke – iara denise endruweit Battisti – antonio Édson corrente 118 Estabeleça um tema, objetivos, hipóteses Descreva a metodologia de coleta Descreva a metodologia estatística Faça uma revisão bibliográfica da estatística Faça uma revisão de literatura do assunto abordado Calcule amostra Faça o delineamento amostral Sorteie as unidades amostrais Colete os dados Construa o banco de dados Aplique o máximo de estatísticas possíveis Faça uma discussão dos resultados embasada na revisão da literatura sobre o assunto Elabore conclusões Bibliografia resUMo da Unidade 5 Nesta unidade aprendemos a projetar os resultados de uma amostra para uma população. As garantias que temos de resultados confiáveis é estabelecida a partir de estimativas calculadas por meio de intervalo de confiança de 95%. Além das estimativas, aprendemos a testar se os valores estimados por intermédio da amostra diferem significati- vamente de valores antigos. EaD 119 MÉtodos estatísticos e a adMinistração regressão linear siMPles Antonio Édson Corrente oBjetivos desta Unidade • Examinar a relação entre duas variáveis. • Compreender o significado da correlação entre variáveis. • Compreender o significado da regressão linear simples. • Identificar situações em que a técnica de regressão possa ser aplicada. • Compreender que o modelo de regressão linear permite fazer projeções futuras e fornece ex- plicações por meio de seus coeficientes. • Compreender os resultados da regressão linear simples. As seções desta Unidade Seção 6.1 – Correlação entre as variáveis Seção 6.2 – Diagrama de dispersão Seção 6.3 – Coeficiente de correlação Seção 6.4 – Coeficiente de determinação (R2) Seção 6.5 – Análise de regressão Seção 6.6 – Banco de dados Esta ferramenta ajuda o administrador a interpretar variáveis não facilmente compreen- didas, e mediante a análise do comportamento quantitativo passado das variáveis em estudo, equaciona-os possibilitando projetar seu comportamento no futuro. A descrição e a inferência estatística tratam de uma só variável de cada vez. Por exemplo, quando temos uma amostra de uma empresa, como o índice de liquidez. Quando, porém, temos de estabelecer novas metas em uma empresa, a amostra apresentará diversas variáveis que poderão Unidade 6 EaD ruth Marilda Fricke – iara denise endruweit Battisti – antonio Édson corrente 120 ser observadas em cada unidade amostrada: o índice de liquidez da empresa, o faturamento, as vendas, o número de funcionários, os salários, outras despesas, etc. Obrigatoriamente teremos de trabalhar com mais de uma variável. No momento vamos considerar o caso de duas variáveis (análise bivariada). Nosso objetivo será estabelecer o comportamento quantitativo passado das variáveis em estudo e o equacionar- mos, proporcionando projetar o seu comportamento no futuro, pois prioritariamente a análise de regressão é usada com o propósito de previsão. A busca de associação entre variáveis é o propósito de toda pesquisa científica, pois a possível existência de relação entre variáveis orienta análise, conclusões e evidencia novas des- cobertas, ou seja, ressalta relações subjacentes a uma só variável. Ao dispormos de uma amostra de n unidades, contamos com um par de valores das vari- áveis iX e iY , por exemplo, os valores dos investimentos reais em função dos anos, em bilhões de dólares. O grupo pode ser descrito separadamente, no entanto nosso interesse será o de es- tabelecer uma possível relação funcional (matemática) entre as duas variáveis e se a relação for boa, usá-la para fazer previsões. No exemplo dado nosso interesse será estabelecer uma relação matemática (linear) entre os anos ( iX ) e os investimentos reais ( iY ). Não podemos esquecer que o ajuste de um conjunto de dados com a finalidade de fazer projeções futuras só é viável mediante o conhecimento a priori das possíveis influências de causa e efeito que uma ou mais variáveis exercem sobre as demais. seção 6.1 correlação entre variáveis O termo correlação significa relação em dois sentidos que serve para designar a força que mantém “unidos” dois conjuntos de dados. A correlação mede a intensidade, a direção e estabelece o grau de associação linear entre duas variáveis quantitativas. EaD 121 MÉtodos estatísticos e a adMinistração Exemplo de Aplicação: tabela 1: valores dos investimentos reais, em bilhões de dólares, no período entre 1968 e 1982 nos estados Unidos ANO iX iY i iX Y 2 iX 2 iY 1968 1969 1970 1971 1972 1973 1974 1975 1976 1977 1978 1979 1980 1981 1982 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 161 172 158 173 195 217 199 163 195 231 257 259 225 241 204 161 344 474 692 975 1302 1393 1304 1755 2310 2827 3108 2925 3374 3060 1 4 9 16 25 36 49 64 81 100 121 144 169 196 225 25921 29584 24964 29929 38025 47089 39601 26569 38025 53361 66049 67081 50625 58081 41616 ∑ 120 3050 26004 1240 636520 Fonte: Fundação Getúlio Vargas. Disponível em: <www.ibre.fgv.br/>. iX : Tempo em anos codificado e iY : Invest: Investimentos reais. seção 6.2 diagrama de dispersão O cálculo do coeficiente de correlação é bastante trabalhoso, assim é conveniente fazermos primeiro o diagrama de dispersão, que é uma representação gráfica bidimensional. O diagrama de dispersão é uma representação gráfica da relação entre duas variáveis quantitativas. Esta representação é feita sob a forma de pares ordenados ( iX , iY ), onde iX é um valor observado de uma variável e iY é o correspondente valor da outra variável. Na construção do gráfico podemos começar com qualquer um dos eixos. No nosso exemplo a variável iX representa os gastos, pois entre o valor que representa o menor investimento e o que indica o maior investimento, que são 2 e 20, devemos criar uma escala no eixo correspondente. Proceder no eixo iY da mesma maneira, pois o mês de janeiro apresentou o menor valor para o faturamento, que é 20, o mês de outubro apresentou o maior faturamento, que é de 62. Pois bem, devemos criar uma escala considerando este intervalo e representarmos no corresponde eixo. EaD ruth Marilda Fricke – iara denise endruweit Battisti – antonio Édson corrente 122 Em nosso exemplo: O diagrama de dispersão fica: Figura 1: evolução dos investimentos em função dos anos 150 170 190 210 230 250 270 1967 1969 1971 1973 1975 1977 1979 1981 1983 Anos In ve st im en to ( b ilh õ es d e d ó la re s) Fonte: Elaboração do autor, com dados da FGU na tabela 1. Ao observamos o diagrama de dispersão verificamos que parece plausível a existência de uma relação linear dos dados em relação ao tempo. seção 6.3 coeficiente de correlação A correlação mede a intensidade, a direção e estabelece o grau de associação linear entre duas variáveis quantitativas. As relações lineares têm importância especial porque uma linha reta é um padrão simples e bastante comum. EaD 123 MÉtodos estatísticos e a adMinistração 0 1R≤ ≥ 1 0R− ≤ ≥ Correlação linear positiva Correlação linear negativa Correlação não linear Não há correlação linear Karl Person (1857 – 1936) foi quem desenvolveu a fórmula de R, que é dado por: ( ) ( )( ) ( ) ( )2 22 2 i i i i i i i i n X Y X Y R n X X n Y Y − = − − ∑ ∑ ∑ ∑ ∑ ∑ ∑ , -1 ≤ R ≤ 1 O valor de R deve estar sempre entre –1 e +1, inclusive. Valores de R próximos de –1 e +1 indicam correlação forte, e valores próximos de zero indicam correlação fraca. O sinal de R indica se a correlação é positiva ou negativa. Por simulação numérica e pela proximidade ou não dos pontos em torno da reta de regres- são, temos: R 0 Sem Correlação Linear R 0 |---– 0,3 Correlação Linear Positiva Fraca R 0,3 |---– 0,6 Correlação Linear Positiva Média R 0,6 |---– 0,8 Correlação Linear Positiva Forte R 0,8 |---– 1,0 Correlação Linear Positiva Muito Forte R 1,0 Correlação Linear Posi t iva Perfei ta No nosso exemplo devemos calcular e interpretar o Coeficiente de Correlação. EaD ruth Marilda Fricke – iara denise endruweit Battisti – antonio Édson corrente 124 15(26004) (120).(3050) 15(1240) (120)² 15(636520) (3050)² R −= − − → 390060 366000 4200 245300 R −= 24060 64,80741* 495,2777 R = → 24060 32097,66 R = → 0,749587R = Assim, o grau de correlação observado entre os investimentos reais em função do tempo é linear positiva forte. Observação Importante: Correlação não é igual à causa e efeito, pois duas variáveis podem estar relacionadas e, no entanto, não haver entre elas nenhuma relação de causa e efeito. Como exemplo, em Triola (1999) e outros, ao relacionarmos o tamanho do pé com a renda de um grupo de indivíduos, poderemos observar uma alta correlação, próximo de 1, no entanto na prática não existe nenhuma relação de causa e efeito entre ambas. Se duas variáveis estiverem relacionadas pela lei de causa e efeito, é viável o estabeleci- mento do grau que mantém as mesmas correlacionadas. No nosso exemplo, embora não possamos afirmar que a variável iX seja a única causa das variações sofridas em iY , é razoável admitir que maiores gastos em comerciais oferecem uma maior probabilidade de retornos financeiros. Assim, dá para sabermos quanto da variação de iY pode ser explicada pelas variações de iX , que é dado pelo Coeficiente de Determinação. seção 6.4 coeficiente de determinação ( 2R ) É um dos critérios mais empregados para caracterizar o ajuste, pois o Coeficiente de Deter- minação nos permite saber quanto da variação de iY pode ser explicado pela variação de iX . ( )22 .100R R= Assim, o Coeficiente de Determinação (poder explicativo do modelo) é dado por: Se 0,749587R = , então 2 (0,749587)².100R = → 2 56,19%R = , significando que aproximadamente 56,19% das variações dos investimentos reais são explicadas pelas variações dos anos. E o restante pode ser explicado por outras variáveis que não estão sendo consideradas no modelo. EaD 125 MÉtodos estatísticos e a adMinistração seção 6.5 análise de regressão Com a regressão buscamos as leis que explicam como duas ou mais variáveis estão relacio- nadas. Além disso, proporciona obtermos um dado desconhecido a partir de seu par conhecido, com uma boa aproximação. O estudo da regressão é usado para estabelecer uma equação matemática que possa des- crever com certa precisão a relação entre duas ou mais variáveis. Ao traçarmos o diagrama de dispersão e obtermos uma nuvem de pontos de configuração lembrando uma reta, é possível equacionarmos a esses pontos uma reta com o objetivo de pro- duzirmos uma informação simplificada que possa expressar a lei que as mantém unidas. Devemos lembrar que por dois pontos passa uma e somente uma reta, mas que quando temos uma nuvem de pontos podemos traçar inúmeras retas. De todas as retas possíveis devemos escolher a que melhor se ajuste a todos os pontos simultaneamente. A escolha dessa reta (equação) segue um critério chamado Método dos Mí- nimos Quadrados. O Método dos Mínimos Quadrados deve-se ao matemático e astrônomo francês Pierre Simon Laplace, que segue estes critérios: iˆ i iY X eα β= + + ⇒Þ Sejam (a, b) estimadores de (αa , βb) ⇒Þ ( )2 2 1 , n i i i i S e Y a bX = = = − −∑ ∑ o que torna necessário: 0 0 S a S b ∂ = ∂ ∂ = ∂ Diferenciando S parcialmente em relação aos estimadores a e b, e simplificando as ex- pressões, obtemos as equações normais do ajuste pelo método dos mínimos quadrados. Essas equações normais são equações lineares e podem ser resolvidas, simultaneamente, em relação aos coeficientes a e b, ou algebricamente temos: EaD ruth Marilda Fricke – iara denise endruweit Battisti – antonio Édson corrente 126 i iY Xa b n n = −∑ ∑ ( )22 i i i i i i n X Y X Y b n X X − = − ∑ ∑ ∑ ∑ ∑ No caso da regressão linear simples, a variável iY é considerada a variável dependente (resposta) e a variável iX é considerada a variável independente (explicativa). Significado dos parâmetros: α : Coeficiente Linear ou intercepto. É onde a reta corta o eixo iY . Interpretado como a variação média da variável dependente iY , que não depende da variável independente iX . É dado na mesma unidade de medida de iY . Diz o nível de iY quando iX é igual a zero. β : Coeficiente Angular, inclinação. Fornece uma estimativa da variação esperada de iY , a partir da variação de uma unidade de iX . A variação pode ser positiva ou negativa. ie : São os erros aleatórios, inerentes às variáveis em estudo. Assim, a equação de regressão estimada é: iˆ iY a bX= + Observação importante: O sinal ^ sobre o iY é para indicar que se trata de um valor teórico, próximo da realidade, mas não necessariamente presente nos dados observados. Agora devemos calcular a equação da reta de regressão e comentar sobre o significado das estimativas. Cálculo dos coeficientes a e b. 15(26004) (120).(3050) 24060 15(1240) (120)² 4200 b −= = − → 5,7286b = agora podemos determinar 3050 120 5,7286. 15 15 a = − → 203,3333 45,8288a = − → 203,3333 45,8288a = − → 157,5045a = Em nosso exemplo: ˆ 157,5045 5,7286i iY X= + Significado dos coeficientes: 157,5045a = Investimento médio real que não depende do passar dos anos. No exemplo este coeficiente não tem sentido prático, no entanto não podemos esquecer que ele faz parte do modelo ajustado e que para fazermos projeções ele é essencial. EaD 127 MÉtodos estatísticos e a adMinistração 5,7286b = Acréscimo médio nos investimentos reais a cada ano. A cada ano os investi- mentos reais tiveram um acréscimo médio de 5,7286 dólares. Pergunta: Qual é o volume esperado de investimentos reais a serem gastos no ano de 1983? ˆ 157,5045 5,7286i iY X= + substituindo em iX o código respectivo ao ano seguinte temos: ˆ 157,5045 5,7286.(16)iY = + → ˆ $249,16iY U= volume esperado para o ano de 1983. seção 6.6 Banco de dados tabela 2: valores dos investimentos reais e do Produto interno Bruto, em bilhões de dólares, as taxas médias de juros e as taxas de inflação no período entre 1968 e 1982 nos estados Unidos ANO INVESTIMENTO PIB JUROS INFLAçãO 1968 1969 1970 1971 1972 1973 1974 1975 1976 1977 1978 1979 1980 1981 1982 161 172 158 173 195 217 199 163 195 231 257 259 225 241 204 1058 1088 1086 1122 1186 1254 1246 1232 1298 1370 1439 1479 1474 1503 1475 5,16 5,87 5,95 4,88 4,50 6,44 7,83 6,25 5,50 5,46 7,46 10,28 11,77 13,42 11,02 4,40 5,15 5,37 4,99 4,16 5,75 8,82 9,31 5,21 5,83 7,40 8,64 9,31 9,44 5,99 Fonte: Disponível em: www.ibre.fgv.br/. Com este banco de dados pretendemos que você aplique a teoria estudada na Unidade 6. EaD ruth Marilda Fricke – iara denise endruweit Battisti – antonio Édson corrente 128 resUMo da Unidade 6 Nesta Unidade aprendemos a desvendar as relações que existem entre as variáveis quantitativas estabelecendo o tipo e o grau de correlação que existe entre elas. Além disso, buscamos compreender o resultado estatístico dessas relações no contexto das variáveis que envolvem o estudo. EaD 129 MÉtodos estatísticos e a adMinistração FerraMentas de anÁlise estatística no eXcel Iara Denise Endruweit Battisti oBjetivo desta seção • Habilitar o aluno a agilizar a produção de estatísticas por meio do manuseio correto das ferra- mentas do Excel. as seçÕes desta Unidade: Seção 7.1 – Elaborando um banco de dados no Excel Seção 7.2 – Utilizando as técnicas estatísticas para analisar os dados no Excel Seção 7.3 – Medidas descritivas para as variáveis quantitativas Seção 7.4 – Tabelas simples para as variáveis qualitativas e para as variáveis quantitativas com pouca variabilidade Seção 7.5 – Tabelas cruzadas Seção 7.6 – Gráficos de setores, colunas e barras Seção 7.7 – Histograma e polígono de frequências Seção 7.8 – Gráfico de linha Agora que já conhecemos os conceitos teóricos, vamos aplicar estes conhecimentos na prática, utilizando para isso uma planilha eletrônica. Neste livro vamos usar como referência o software Microsoft Excel® nas versões 2003 e 2007. O MS Excel é um aplicativo do tipo Planilha Eletrônica, ou seja, é um software apropriado para a edição de documentos com características numéricas. Empregando uma planilha eletrônica podemos manipular com facilidade a edição de tabelas, efetuar cálculos, operações estatísticas e a geração de gráficos. De forma geral permite armazenar dados e produzir informações a partir destes. Unidade 7 EaD ruth Marilda Fricke – iara denise endruweit Battisti – antonio Édson corrente 130 Os arquivos que normalmente produzimos com o Excel são do tipo Pasta de Trabalho, e pos- suem a extensão .xls ou .xlsx., respectivamente para MS Excel versão 2003 e versão 2007. A tela inicial do Excel é apresentada na Figura 1a para a versão 2003 e Figura 1b para a versão 2007. Figura 1a: tela inicial do excel 2003 Figura 1b: tela inicial do excel 2007 Uma planilha é um conjunto de linhas e colunas, como uma grade. No Excel, as colunas são identificadas por letras em ordem alfabética, e as linhas por números em ordem crescente. Uma célula é a menor unidade de trabalho do Excel, identificada pelo cruzamento de uma linha e uma coluna. EaD 131 MÉtodos estatísticos e a adMinistração Cada célula tem um endereço próprio, formado pela combinação da letra da coluna com o número da linha. Por exemplo, a célula D8 localiza-se no cruzamento da coluna D com a linha 8. Para selecionar uma célula, colocando-a em foco, utiliza-se o cursor, que na planilha aparece como um ponteiro semelhante a uma cruz. Basta clicar na célula desejada. Um intervalo de células é a representação de uma faixa ou conjunto de células. Pode ser selecionado clicando com o cursor sobre um dos cantos do intervalo e arrastando até o canto oposto, formando um retângulo. Pode também ser apenas uma coluna ou linha. Para selecionar uma coluna inteira deve-se clicar na respectiva letra, no cabeçalho da coluna. Para selecionar uma linha inteira deve-se clicar no número identificador da linha. O in- tervalo é identificado por suas coordenadas, sendo que o primeiro elemento das coordenadas é o endereço da célula superior esquerda, e o segundo elemento das coordenadas é o endereço da célula inferior direita do intervalo. Os dois elementos são separados por dois pontos ( : ). Por exemplo, o intervalo C4:E5 compreende as células C4,C5,D4,D5,E4 e E5. seção 7.1 elaborando um Banco de dados no excel Para criar um banco de dados no Excel destinamos as linhas aos dados de cada elemento da amostra e as colunas a cada uma das variáveis. A Figura 2 mostra o exemplo do banco de dados dos clientes da empresa Costa, apresentado a seguir. Tomemos esse banco de dados como exemplo para desenvolver toda a Unidade 7. Exemplo: Pesquisa de satisfação realizada, por amostragem, com clientes da empresa Costa (empresa fictícia), em maio de 2009. EaD ruth Marilda Fricke – iara denise endruweit Battisti – antonio Édson corrente 132 Banco (planilha) de dados da pesquisa de satisfação na empresa costa Cliente Sexo Satisfação com atendimento Satisfação com preço Nota geral Idade 1 F MS MS 10 22 2 F S +- 7 26 3 F +- +- 6 32 4 M +- S 7 35 5 F S S 8 23 6 F S MS 9 27 7 F +- +- 7 22 8 F +- S 7 37 9 M S I 5 41 10 F I I 5 40 11 M S S 8 35 12 F S +- 8 35 13 F MI +- 9 37 14 F S +- 9 22 15 F S I 7 21 16 M MS S 10 19 17 F S +- 8 40 18 F S S 8 51 19 F S S 9 55 20 M I +- 7 45 21 F +- S 7 46 22 M S S 8 33 23 M MS S 9 34 F = feminino, M = masculino, MS = Muito satisfeito, S = satisfeito, +– = mais ou menos satisfeito, I = insatisfeito, MI = muito insatisfeito. Figura 2: exemplo de um banco de dados EaD 133 MÉtodos estatísticos e a adMinistração seção 7.2 Utilizando as técnicas estatísticas para analisar os dados no excel Primeiramente você deve ativar as ferramentas de análise estatística no Excel. O proce- dimento é diferente no Excel versão 2003 e no Excel versão 2007. Siga os passos conforme a versão que você possui. No Excel 2003: Clique no menu Ferramentas, depois em Suplementos e então marque a opção Ferra- mentas de Análise e clique no botão ok conforme a Figura 3 (esquerda). De agora em diante, sempre que você desejar utilizar o comando análise de dados, este estará disponível no menu Ferramentas. No Excel 2007: Clique no botão do Office , depois no botão opções do Excel e no menu escolha a opção Suplementos e então na lista de suplementos de aplicativos inativos a opção Ferramentas de análise. Após clique no botão ir . Então aparecerá a janela da Figura 3 (direita). Nesta marque Ferramentas de análise e clique no botão ok. De agora em diante, sempre que você desejar utilizar o comando análise de dados, este estará disponível no menu Dados. Figura 3: instalação das Ferramentas de análise no excel 2003 (esquerda) e no excel 2007 (direita) EaD ruth Marilda Fricke – iara denise endruweit Battisti – antonio Édson corrente 134 seção 7.3 Medidas descritivas para as variáveis Quantitativas Para obter as medidas descritivas, você clica na opção Análise de dados no menu Ferra- mentas no Excel 2003 ou clica no botão Análise de dados no menu Dados no Excel 2007. Então aparecerá a janela da Figura 4. Figura 4: Ferramentas de análise Nesta janela você clica na opção Estatística descritiva. Após, aparecerá a janela da Figura 5. Nesta, observar os seguintes passos: • selecione os dados da coluna que você deseja analisar, por exemplo, coluna E, que se refere à variável idade; • marque a opção rótulos na primeira linha, pois foi selecionado junto com os valores o nome (rótulo) da variável; • marque nova planilha, assim o resultado do comando vai aparecer numa nova planilha da pasta de trabalho; • marque resumo estatístico; • clique no botão ok. EaD 135 MÉtodos estatísticos e a adMinistração Figura 5: estatística descritiva Uma nova planilha é criada com os resultados do comando, conforme Figura 6. Figura 6: resultado do comando estatística descritiva Para calcular o coeficiente de variação deve-se incluir uma fórmula da seguinte maneira: • clique numa célula vazia do Excel; sugestão: na célula B16; • digite =; • clique no valor do desvio padrão; • digite /; • clique no valor da média; EaD ruth Marilda Fricke – iara denise endruweit Battisti – antonio Édson corrente 136 • digite*; • digite 100; • tecle enter. A fórmula deste exemplo é: Neste exemplo o valor do coeficiente de variação é 29,59%. Interpretação dos resultados: A idade média dos indivíduos pesquisados é de 33,83 anos, com desvio padrão de 10 anos. Dos 23 indivíduos avaliados, 50% deles têm idade até 35 anos e os outros 50% têm idade igual ou maior a 35 anos. A menor idade desta amostra é 19 anos e a maior é 55. Tem-se um conjunto de dados homogêneos, posto que o coeficiente de variação assume valor menor que 30%. seção 7.4 tabelas simples para as variáveis Qualitativas e para as variáveis Quantitativas com Pouca variabilidade Para elaborar uma tabela simples a partir de um banco de dados utilize o comando relatório de tabela dinâmica. Atenção: este é disponibilizado diferentemente no Excel 2003 e no Excel 2007. No Excel 2003: Escolha a opção Relatório de tabela e gráfico dinâmico no menu Dados, sendo apresentada a tela da Figura 7. Figura 7: tabela e gráficos dinâmicos no excel 2003 EaD 137 MÉtodos estatísticos e a adMinistração A opção de tabela dinâmica já está marcada; caso deseje um gráfico você deve selecionar a segunda opção, conforme Figura 7. Após, clique no botão avançar e então a janela da Figura 8 será apresentada. Figura 8: seleção do banco de dados no excel 2003 Caso o banco de dados (informações já digitadas na planilha) não esteja selecionado, selecione com o mouse. Novamente clique no botão avançar, na janela da Figura 9, clique no botão layout. Figura 9: seleção do local de saída dos resultados e layout no excel 2003 Neste momento você escolhe o modo de apresentação da tabela (layout), mostrada na figura 10. Para escolher o local de apresentação das categorias da variável você deve arrastar o botão apresentado à direita da tela, referente à variável de interesse, até o corpo da tabela sobre Linha. Depois, arraste novamente o botão da variável para o centro do corpo da tabela para calcular frequência absoluta (n), ou seja, contar as categorias. Deve aparecer no botão: Contar de nome_ da_variável. Caso isso não ocorra, clique duplo sobre o botão e escolha a opção ContNúm. EaD ruth Marilda Fricke – iara denise endruweit Battisti – antonio Édson corrente 138 Figura 10: layout da tabela no excel 2003 Para calcular a frequência relativa percentual, você deve novamente arrastar o botão da variável até o centro do corpo da tabela e clicar duplo sobre o botão, sendo apresentada a tela da Figura 11, clique em Opções e no campo Mostrar dados como, selecione a opção % do total e clique no botão ok. Figura 11: opções de apresentação da frequência no excel 2003 Clique no botão OK e no botão Concluir e então aparecerá a tabela simples dinâmica da Figura 12. EaD 139 MÉtodos estatísticos e a adMinistração Figura 12: exemplo de tabela simples dinâmica Para formatar a tabela clique no botão Formatar Relatório na barra de ferramentas do re- latório e escolher o Relatório 7. A tabela ficará assim: No Excel 2007: Clique no menu Inserir e na opção Tabela dinâmica e aparecerá a janela da Figura 13. Se o banco de dados (área com as informações da pesquisa) não estiver selecionado você deve selecioná-lo com o mouse e após clique no botão ok. Figura 13: seleção de banco de dado no excel 2007 Após o OK, aparecerá a janela da Figura 14. EaD ruth Marilda Fricke – iara denise endruweit Battisti – antonio Édson corrente 140 Figura 14: elaboração de tabela dinâmica no excel 2007 Marque a variável de interesse no menu à direita, neste exemplo marque a variável sexo e então arraste (clique com o mouse e arraste com o botão clicado) para rótulos de linha . Arraste-a também para valores , duas vezes. Deve aparecer ContNúm em cada botão de valores, caso não estiver aparecendo então clique com o mouse sobre o primeiro botão e escolha a opção configurações do campo valor. Aparecerá a janela da Figura 15. EaD 141 MÉtodos estatísticos e a adMinistração Figura 15: Marcando a opção contnúm Na janela da Figura 15: marque a opção ContNúm e no botão ok, assim aparecerá o valor absoluto na tabela simples (segunda coluna). Clique sobre o segundo botão e escolhe a opção configurações do campo valor. Aparecerá a janela da Figura 16: Figura 16: Marcando a opção mostrar valores como % do total Marque a opção ContNúm e clique na ficha mostrar valores como e escolher a opção % do total, conforme Figura 16; assim aparecerá o valor relativo percentual na tabela simples (terceira coluna). A tabela para este exemplo está apresentada na Figura 17. EaD ruth Marilda Fricke – iara denise endruweit Battisti – antonio Édson corrente 142 Figura 17: exemplo de tabela simples No cabeçalho da tabela substitui-se contar de sexo por n e contar de sexo 2 por %, assim obtém-se a tabela 1 (Figura 18). Figura 18: exemplo de tabela simples formatada Interpretação: 69,57% dos indivíduos entrevistados são do sexo feminino e 30,43% dos indivíduos entrevistados são do sexo masculino. seção 7.5 tabelas cruzadas O processo para a construção de tabelas cruzadas dinâmicas é semelhante à construção de tabelas simples. A seguir apresentamos procedimento para o Excel 2003 e Excel 2007. No Excel 2003: Selecione mais uma variável para o corpo da tabela conforme a Figura 19, colocando-a sobre a Coluna. Finalizando todo o processo aparecerá a tabela cruzada conforme Figura 20. EaD 143 MÉtodos estatísticos e a adMinistração Figura 19: elaboração da tabela cruzada Figura 20: exemplo de tabela cruzada dinâmica No Excel 2007: Selecione mais uma variável conforme a Figura 21 para rótulos da coluna . EaD ruth Marilda Fricke – iara denise endruweit Battisti – antonio Édson corrente 144 Figura 21: elaboração da tabela cruzada Finalizando todo o processo aparecerá a tabela cruzada conforme Figura 22. Figura 22: exemplo de tabela cruzada dinâmica Na Figura 23 está apresentada uma tabela cruzada formatada. EaD 145 MÉtodos estatísticos e a adMinistração Figura 23: exemplo de tabela cruzada formatada seção 7.6 gráficos de setores, colunas e Barras Você elabora um gráfico a partir de dados sistematizados (a partir de uma tabela já elaborada) de forma diferente no Excel 2003 e no Excel 2007. Existem diferentes tipos de gráficos, adequados para cada tipo de variável. A seguir são apresentados os tipos de gráficos mais usados. Gráfico de setores (pizza) É usado para representar uma variável aleatória. Suas categorias devem totalizar 100% e é mais indicado quando o número de categorias chega no máximo a 5. Primeiramente você seleciona as categorias e os valores absolutos ou relativos que serão apresentados no gráfico, a partir da tabela já elaborada, conforme Figura 24. Figura 24: selecionando os dados para elaborar um gráfico No Excel 2003: Para construir um gráfico de setores no Excel 2003 clique no ícone na barra de ferra- mentas ou no menu Inserir e escolha a opção Figura e então Gráfico. Neste momento aparecerá a tela referente ao Assistente Gráfico, como apresentada na Figura 25. Escolha o Tipo de gráfico Pizza e aparecerá subtipos de gráficos. Você pode escolher um dos seis tipos e então clicar no botão Avançar. EaD ruth Marilda Fricke – iara denise endruweit Battisti – antonio Édson corrente 146 Figura 25: gráfico de setores – etapa 1 A Figura 26 mostra a segunda etapa, quando é apresentada uma prévia do gráfico, permi- tindo selecionar novamente os dados, se necessário. Figura 26: gráfico de setores – etapa 2 Na etapa 3 (Figura 27), clique no campo Título do gráfico e digite o título do gráfico. EaD 147 MÉtodos estatísticos e a adMinistração Figura 27: gráfico de setores – etapa 3, título do gráfico Após, clique na ficha Legenda para alterar o local de posição da legenda ou para excluí-la (Figura 28). Figura 28: gráfico de setores – etapa 3, legenda do gráfico Na ficha Rótulos de dados (Figura 29) é possível mostrar o nome das categorias e a por- centagem no gráfico. Após, clique no botão Concluir. EaD ruth Marilda Fricke – iara denise endruweit Battisti – antonio Édson corrente 148 Figura 29: gráfico de setores – etapa 3, rótulos de dados Pode-se personalizar o gráfico, alterando a cor dos setores, trocando a cor do fundo, modi- ficando o tamanho, tipo e cor da fonte. Para alterar a cor dos setores você clica uma vez no gráfico, após clica mais uma vez no setor (fatia) cuja cor deseja alterar e após clica duplo para aparecer o menu de cores. Então, seleciona-se uma cor ou no botão Efeitos de Preenchimento para utilizar as opções gradiente ou textura. Na Figura 30 apresenta-se um exemplo de gráfico formatado. Figura 30: gráfico de setores – exemplo Gráfico 1 - Sexo dos funcionários da empresa COSTA, maio de 2008 Feminino 70% Masculino 30% Gráfico de Colunas Utilizamos um gráfico de colunas simples ou barras simples para representar uma variável aleatória. O procedimento é o mesmo adotado no gráfico de setores, mas na etapa 3 (Figura 31) digitamos além do título do gráfico, o título do eixo x (horizontal) e o título do eixo y (vertical). EaD 149 MÉtodos estatísticos e a adMinistração Figura 31: gráfico de colunas – etapa 3 O gráfico de colunas finalizado é apresentado na Figura 32. Figura 32: gráfico de colunas – exemplo Gráfico 1 - Sexo dos funcionários da empresa COSTA, maio de 2008 0,00 10,00 20,00 30,00 40,00 50,00 60,00 70,00 80,00 Feminino Masculino sexo % Gráfico de Barras De forma similar podemos construir um gráfico de barras, como o apresentado na Figura 33. EaD ruth Marilda Fricke – iara denise endruweit Battisti – antonio Édson corrente 150 Figura 33: gráfico de barras – exemplo Gráfico 1 - Sexo dos funcionários da empresa COSTA, maio de 2008 0,00 20,00 40,00 60,00 80,00 Feminino Masculino se xo % No Excel 2007: Para construir um gráfico de setores (pizza) no Excel 2007, utilize o menu Inserir e escolha gráfico de pizza, conforme a Figura 34. Figura 34: elaboração de gráfico No menu do gráfico de pizza escolha um tipo e o gráfico será apresentado como a Figura 35. EaD 151 MÉtodos estatísticos e a adMinistração Figura 35: exemplo de gráfico de setores Clique com o mouse na área do gráfico (parte branca dentro do retângulo) e clique na opção Layout 1 no menu Design, conforme Figura 36. Figura 36: Formatando o gráfico de setores O gráfico final ficará conforme a Figura 37. EaD ruth Marilda Fricke – iara denise endruweit Battisti – antonio Édson corrente 152 Figura 37: exemplo de gráfico de setores Você pode clicar com o mouse sobre o Título do Gráfico para editá-lo e então digitar o título para o seu gráfico. Ainda, pode mudar o estilo do gráfico clicando no menu Design e então em Estilo (Figura 38). Figura 38: Utilizando a opção design do gráfico para gráfico de setores Para elaborar um gráfico de colunas o procedimento é semelhante: primeiro selecione os dados na tabela (categorias e valores absolutos ou percentuais) e depois clique no menu Inserir e escolha Colunas, aparecerá o gráfico da Figura 39. EaD 153 MÉtodos estatísticos e a adMinistração Figura 39: exemplo de gráfico de colunas Você pode clicar na área do gráfico (parte branca dentro do retângulo) e usar a opção do menu Design para alterar definições do gráfico: em Layout do gráfico você pode incluir o título do gráfico e os valores. Clicando com o mouse no título é possível editar e colocar o título para o seu gráfico, conforme Figura 40. Figura 40: Utilizando a opção design do gráfico para gráfico de colunas Para o desenvolvimento de um gráfico de barras, o procedimento a ser seguido é o mesmo descrito para o gráfico de colunas, mudando apenas a escolha do tipo de gráfico no início do procedimento. EaD ruth Marilda Fricke – iara denise endruweit Battisti – antonio Édson corrente 154 Quando desejamos representar os resultados de uma tabela cruzada num gráfico podemos optar pelo gráfico de colunas agrupadas ou barras agrupadas. Primeiramente devemos digitar a tabela cruzada no Excel conforme a Figura 41 e selecioná-la. Tomemos como exemplo a tabela cruzada da satisfação com atendimento em relação ao sexo dos clientes da empresa Costa. O procedimento para a elaboração do gráfico de colunas agrupadas ou gráfico de barras agrupadas é semelhante à elaboração do gráfico de colunas simples e barras simples, porém agora a legenda deverá aparecer, conforme Figura 42. Figura 41: tabela cruzada para construir um gráfico de colunas agrupadas Figura 42: exemplo de um gráfico de colunas agrupadas Gráfico 2 - Satisfação com o atendimento em relação ao sexo do clientes da empresa COSTA, maio de 2008 0 2 4 6 8 10 I MI MM MS S Satisfaçao n F M seção 7.7 Histograma e Polígono de Frequências O histograma e o polígono de frequências são os gráficos adequados para representar uma distribuição de frequência. Agora veremos como construir esses dois gráficos no Excel. Pri- meiramente precisamos digitar a tabela de distribuição de frequência e selecioná-la, conforme Figura 43. Tomemos como exemplo o rendimento médio nominal da Tabela 1. EaD 155 MÉtodos estatísticos e a adMinistração tabela 1: rendimento médio nominal do trabalho principal, habitualmente recebido por mês, pelas pessoas de 10 anos ou mais de idade, ocupadas na semana de referência, em Porto alegre, janeiro/2005 a dezembro/2007 R$ Fi frac % xi 903 |-– 939 5 13,89 921 939 |-– 975 11 44,45 957 975 |-– 1011 5 58,34 993 1011 |-– 1047 5 72,23 1029 1047 |-– 1083 6 88,89 1065 1083 |-– 1119 4 100,00 1101 Total 36 - - Fonte: IBGE, 2008. Nota: Não incluídos trabalhadores não remunerados e trabalhadores que receberam so- mente em benefícios. Figura 43: tabela de distribuição de frequência para construir um histograma No Excel 2003: Após, no menu inserir, escolhemos a opção gráfico e após o tipo de gráfico de colunas e executamos o procedimento conforme descrito anteriormente. Quando o gráfico tiver sido con- cluído (Figura 44) clicamos com o botão direito do mouse sobre uma das colunas do gráfico e então aparecerá o menu da Figura 45; neste escolhemos a opção formatar série de dados. Assim, aparecerá a tela da Figura 46, clicar na ficha opções e em largura do espaçamento digitar 0. O histograma é apresentado na Figura 47. Figura 44: construindo um histograma EaD ruth Marilda Fricke – iara denise endruweit Battisti – antonio Édson corrente 156 Figura 45: Formatar série de dados no histograma Figura 46: Unir colunas do histograma Figura 47: exemplo de um histograma Histograma 0 2 4 6 8 10 12 903 |-- 939 939 |-- 975 975 |-- 1011 1011 |-- 1047 1047 |-- 1083 1083 |-- 1119 R$ fi O procedimento é semelhante para construir o polígono de frequência. Primeiramente te- mos de digitar a tabela de distribuição de frequência conforme a Figura 48. Esta deverá ter um intervalo inferior ao primeiro, com fi = 0, e um intervalo superior ao último, com fi = 0. Depois, selecionamos a tabela e no menu inserir gráfico escolhemos o tipo de gráfico de linha e seguimos os passos até a finalização, conforme a Figura 49. EaD 157 MÉtodos estatísticos e a adMinistração Figura 48: tabela de distribuição de frequência para construir um polígono de frequência Figura 49: exemplo de um polígono de frequência Polígono de freqüência 0 2 4 6 8 10 12 867 |-- 90 3 903 |-- 93 9 939 |-- 97 5 975 |-- 10 11 101 1 |- - 10 47 104 7 |- - 10 83 108 3 |- - 11 19 111 9 |- - 11 55 R$ n No Excel 2007: Após, no menu inserir, escolhemos a opção gráfico e após o tipo de gráfico de colunas 2 D e o gráfico da Figura 50 será apresentado. Em layout do gráfico escolhemos o layout 8 (Figura 51) e o gráfico da Figura 52 será apresentado. Clicamos com o botão direito do mouse sobre uma das colunas do gráfico e no menu escolhemos formatar série de dados e, então escolhemos a opção cor da borda conforme Figura 53. Nesta escolhemos linha sólida e cor preta. O histograma é apresentado na Figura 54. EaD ruth Marilda Fricke – iara denise endruweit Battisti – antonio Édson corrente 158 Figura 50: construindo o histograma Figura 51: layout do gráfico número 8 (figura central) Figura 52: Histograma EaD 159 MÉtodos estatísticos e a adMinistração Figura 53: Formatando bordas nas colunas do histograma Figura 54: Histograma formatado seção 7.8 gráfico de linha Digitamos os dados, observando que na primeira coluna consta o tempo e na segunda os valores que queremos representar em um gráfico de linha conforme exemplo da Figura 55. Selecionamos os dados das duas colunas. EaD ruth Marilda Fricke – iara denise endruweit Battisti – antonio Édson corrente 160 Figura 55: dados do exemplo No Excel 2003: Após, no menu inserir, escolhemos a opção gráfico e a seguir o tipo de gráfico de linha e executamos o procedimento conforme descrito anteriormente. Digitamos o título do gráfico e o título dos eixos. Podemos alterar a cor da linha clicando com o botão direito do mouse sobre a linha. Também podemos alterar a cor do fundo clicando com o botão direito do mouse. O gráfico de linha é apresentado na Figura 56. Figura 56: exemplo de um gráfico de linha No Excel 2007: Após, no menu inserir, escolhemos a opção gráfico e a seguir o tipo de gráfico de linha 2 D e executamos o procedimento conforme descrito anteriormente. Em layout do gráfico escolhemos o layout 1 (Figura 57). Digitamos o título do gráfico e o título dos eixos. Deletamos a legenda. Podemos alterar a cor da linha clicando com o botão direito do mouse sobre a linha e escolhemos a opção formatar série de dados. O gráfico de linha é apresentado na Figura 58. EaD 161 MÉtodos estatísticos e a adMinistração Figura 57: layout 1 do gráfico de linha (primeira figura) Figura 58: exemplo de um gráfico de linha resUMo da Unidade 7 Nesta unidade utilizamos os recursos estatísticos do Excel para tratar as informações. A aplicação dos métodos estatísticos é favorecida pela informática, no que diz respeito a hardware e software, uma vez que geralmente neces- sitamos trabalhar com grande quantidade de dados (n grande). Assim, o conhecimento a respeito da utilização de um software estatístico ou um software que fornece técnicas estatísticas é essencial para alu- nos ou profissionais que estão iniciando seu aprendizado em Métodos Estatísticos. A planilha eletrônica Excel é uma boa alternativa para alunos que estão se iniciando nos métodos estatísticos, por ser de fácil acesso, posto que grande parte dos usuários domésticos e organizações possuem o pacote Microsoft Office. EaD 163 MÉtodos estatísticos e a adMinistração ANDRADE MARTINS, Gilberto. Estatística geral e aplicada. São Paulo: Ed. Atlas, 2002. BATTISTI, I. E.; KIRCHNER, R. M.; FRICKE R. M. Rotinas da planilha eletrônica Excel para uso em estatística descritiva. Ijuí: Ed. Unijuí, 2003. (Cadernos Unijuí). BEARZOTI, E.; OLIVEIRA M. Estatística básica. Lavras, MG: Ufla, 1997. CORRAR, L. J.; PAULO, E.; DIAS FILHO, J. M. Análise multivariada para os cursos de Admi- nistração, Ciências Contábeis e Economia. São Paulo, Ed. Atlas, 2007. COSTA NETO, P. L. Estatística. São Paulo: Ed. Edgard Blücher, 1977. COSTA NETO, P. L. Probabilidades. Ed. São Paulo: Edgard Blücher, 1974. COSTA, Sérgio Francisco. Introdução ilustrada à estatística. São Paulo: Ed. Harbra, 1988. DOWNING, D.; CLARK, J. Estatística aplicada. São Paulo: Ed. Saraiva, 2000. FRICKE, R. M. Padrões estatísticos para descrição de dados: medidas de tendência central e de variabilidade. Ijuí: Ed. Unijuí, 2002. (Cadernos Unijuí – Série Estatística). FRICKE, R. M. Teoria e aplicações de amostragem, inferência, relações entre variáveis. Ijuí: Unijuí, 2008a. Apostila. FRICKE, R. M. Estatística aplicada aos fenômenos sociais. Ijuí: Unijuí, 2008b. Apostila. IBGE. Diretoria de Pesquisas, Coordenação de Trabalho e Rendimento. Pesquisa mensal de emprego, mar.2002-abr. 2008. KAZMIER, L. J. Estatística aplicada à Economia e Administração. São Paulo: Ed.McGraw Hill, 1982. KMENTA, J. Elementos de econometria. Teoria econométrica básica. 2. Ed. São Paulo: Ed. Atlas, 1988. V. 1. MAGALHãES, M. N.; LIMA, A. C. P. Noções de probabilidade e estatística. São Paulo: Edusp. 2002. MEDEIROS, V. Z.; CALDEIRA, A. M.; PACHECO, G. L.; MACHADO, M. A. S. Métodos quan- titativos com Excel. São Paulo: Ed. Cengage Learning, 2008. MONTGOMERY, Douglas C. Probabilidad y Estadística. Universidade do Estado do Arizona; Editora: McGraw-Hill, 2004. Referências EaD ruth Marilda Fricke – iara denise endruweit Battisti – antonio Édson corrente 164 MORETTIN, P. A.; TOLOI, C. M. Série temporais. Série Métodos Quantitativos. 2. ed. São Paulo: Ed. Atual, 1987. MUNIZ, J. A.; ABREU, A. R. Técnicas de amostragem. Lavras, MG: Faepe, 1999. OLIVEIRA, S. T. Ferramentas para o aprimoramento da qualidade. 2. ed. São Paulo: Ed.Pioneira, 1996. SILVA, N. N. Amostragem probabilística. São Paulo, SP: Edusp, 1998. SILVER, M. Estatística para Administração. São Paulo: Ed. Atlas, 2000. STEVENSON, W. Estatística aplicada à Administração. São Paulo: Ed. Harbra, 1981. TRIOLA, M. Introdução à estatística. 7. ed. Rio de Janeiro: Ed. LTC, 1999. VIEIRA, Sonia. Princípios de estatística. São Paulo: Ed. Pioneira, 1999.