Esta é uma pré-visualização de arquivo. Entre para ver o arquivo original
CONCEITOS INICIAIS EM ESTATI´STICA 1 O que e´ Estat´ıstica? A estat´ıstica e´ o ramo da matema´tica interessado nos me´todos cient´ıficos para coleta,organizac¸a˜o, resumo, apresentac¸a˜o e ana´lise de dados, bem como na obtenc¸a˜o de concluso˜es va´lidas e na tomada de deciso˜es razoa´veis baseadas em tais ana´lises. Estat´ıstica e´ um conjunto de me´todos e te´cnicas que auxiliam a tomada de decisa˜o sobre a presenc¸a de incerteza. 1.1 Subdiviso˜es da Estat´ıstica A estat´ıstica pode ser dividida em treˆs grandes a´reas: • Estat´ıstica Descritiva ou Ana´lise Explorato´ria dos Dados • Probabilidade • Estat´ıstica Indutiva ou Infereˆncia Estat´ıstica Estat´ıstica Descritiva: E´, em geral, utilizada na etapa inicial da ana´lise, quando tomamos contato com os dados pela primeira vez. Pode ser definida como um conjunto de te´cnicas des- tinadas a descrever e resumir os dados, a fim de que possamos tirar informac¸o˜es e concluso˜es a respeito de caracter´ısticas de interesse. A Estat´ıstica Descritiva pode ser resumida da seguinte forma: Tabelas Coleta de ⇒ Cr´ıtica ⇒ Apresentac¸a˜o ⇒ Ana´lise dados de dados dos Dados Gra´ficos Probabilidade: E´ a base matema´tica sob a qual a Estat´ıstica e´ constru´ıda. Fornece me´todos para quantificar a incerteza existente em determinada situac¸a˜o, usando ora um nu´mero ora uma func¸a˜o matema´tica. A Infereˆncia Estat´ıstica: Consiste em obter e generalizar concluso˜es; ou seja, inferir propriedades para o todo com base na parte, no particular. E´ tratada atrave´s de te´cnicas e me´todos que se fundamentam na Teoria das Probabilidades. A infereˆncia estat´ıstica envolve questo˜es de dois tipos: a estimac¸a˜o de paraˆmetros populacionais e os testes de hipo´teses. Em estat´ıstica utilizaremos extensivamente os termos populac¸a˜o e amostra. Assim, definire- mos esses termos no contexto da estat´ıstica: • Populac¸a˜o: conjunto da totalidade dos elementos (valores, pessoas, medidas) a serem estudados. Congrega todas as observac¸o˜es que sejam relevantes para o estudo de uma ou mais caracter´ısticas dos indiv´ıduos. Podem ser tanto seres animados ou inanimados. • Amostra: um subconjunto de elementos extra´ıdos de uma populac¸a˜o. • Censo: e´ uma colec¸a˜o de dados relativos a todos os elementos de uma populac¸a˜o. 1 2 ESTATI´STICA DESCRITIVA 2.1 Fases do Trabalho Estat´ıstico A estat´ıstica esta´ envolvida em todas as etapas de um projeto de pesquisa. A seguir as fases de um trabalho cientif´ıco sa˜o citadas do ponto de vista do trabalho estat´ıstico. As fases do trabalho estat´ıstico sa˜o do aˆmbito da Estat´ıstica Descritiva, e sa˜o as principais fases as seguintes: 1. Definic¸a˜o do Problema: Consiste na: • formulac¸a˜o correta do problema; • examinar outros levantamentos realizados no mesmo campo (revisa˜o da literatura); • saber exatamente o que se pretende pesquisar definindo o problema corretamente (varia´veis, populac¸a˜o, hipo´teses, etc.) 2. Planejamento: - Determinar o procedimento necessa´rio para resolver o problema: • Como levantar informac¸o˜es; • Tipos de levantamentos: por censo (completo) ou por amostragem (parcial). • Cronograma, custos, etc. 3. Coleta de dados (quesitos espec´ıficos para obter informac¸o˜es desejadas): refere- se a` obtenc¸a˜o, reunia˜o e registro sistema´tico de dados, com um objetivo determinado. 4. Cr´ıtica dos questiona´rios: leitura dos questiona´rios, observac¸a˜o de respostas incom- pletas, erradas. Supressa˜o de valores estranhos ao levantamento. 5. Apurac¸a˜o dos dados: consiste em resumir os dados, atrave´s de sua contagem e agrupa- mento. E´ um trabalho de condensac¸a˜o e de tabulac¸a˜o dos dados, que chegam ao analista de forma desorganizada, tornando imposs´ıvel a tarefa de apreender todo o seu significado pela simples leitura. Nos dias atuais esta apurac¸a˜o tornou-se sinoˆnimo de organizac¸a˜o de base de dados, que e´ realizada em computadores. 6. Apresentac¸a˜o dos Dados: ha´ duas formas de apresentac¸a˜o: a) Apresentac¸a˜o Tabular: apresentac¸a˜o nume´rica dos dados. As tabelas teˆm a vantagem de conseguir expor, sinteticamente, e em um so´ local, os resultados sobre determinado assunto, de modo a se obter uma visa˜o global mais ra´pida daquilo que se pretende analisar. b) Apresentac¸a˜o Gra´fica: constitui uma apresentac¸a˜o geome´trica. E´ de extrema im- portaˆncia, no sentido de permitir uma visa˜o ra´pida, fa´cil e clara do fenoˆmeno e sua variac¸a˜o. 7. Ana´lise e Interpretac¸a˜o dos Dados: O interesse maior consiste em tirar concluso˜es que auxiliem o pesquisador a resolver seu problema. A analise dos dados estat´ısticos esta´ ligada essencialmente ao ca´lculo de medidas, cuja finalidade principal e´ descrever o fenoˆmeno. Assim, o conjunto de dados a ser analisado pode ser expresso por nu´meros- resumos, as estat´ısticas, que evidenciam caracter´ısticas particulares desse conjunto. O significado exato de cada um desses valores sera´ explicado posteriormente. 2 2.2 Classificac¸a˜o de Varia´veis Definiremos varia´vel como qualquer atributo/caracter´ıstica que exerc¸a influeˆncia no fenoˆmeno estudado. Por exemplo, desejamos registrar a idade das pessoas ao morrer, a estatura ou peso dos indiv´ıduos, o rendimento das famı´lias em uma grande cidade, o nu´mero de empregados dispensados, por meˆs, em uma grande empresa,a distribuic¸a˜o dos alunos por sexo, etc. Antes da escolha da ana´lise descritiva apropriada e´ necessa´ria a classificac¸a˜o da varia´vel de interesse, pois a adequac¸a˜o da te´cnica esta´ diretamente relacionada ao tipo de varia´vel em questa˜o. De acordo com a estrutura nume´rica as varia´veis podem ser classificadas em: • Qualitativas (ou atributos ou catego´ricos): Sa˜o caracter´ısticas que na˜o podem ser medidas, ou seja, sa˜o na˜o-nume´ricas.Elas podem ser: – Nominal : varia´veis em que na˜o e´ poss´ıvel estabelecer uma ordem natural entre seus valores. Ex.: cor da flor, que pode ser rosa, branca ou vermelha; Sexo (feminino ou masculino). – Ordinal ou por postos: varia´veis que teˆm uma ordenac¸a˜o natural, indicando inten- sidades crescentes de realizac¸a˜o. Ex.: Tamanho (pequeno, me´dio ou grande), Classe Social (baixa, me´dia ou alta). • Quantitativas: Sa˜o caracter´ısticas que podem ser contadas ou medidas, sendo classificadas em discretas e cont´ınuas. – Discretas: sa˜o aquelas varia´veis que podem assumir somente valores inteiros num conjunto de valores. E´ gerada pelo processo de contagem. Ex.: nu´mero de folhas por planta; nu´mero de carrapatos por animal; etc. – Cont´ınuas: sa˜o aquelas varia´veis que podem assumir um valor dentro de um intervalo de valores. E´ gerada pelo processo de medic¸a˜o ou mensurac¸a˜o. Ex.: volume de a´gua em um reservato´rio; peso de raiz; diaˆmetro do caule, etc. 2.3 PARAˆMETRO X ESTIMADOR X ESTIMATIVA a) Paraˆmetro: e´ uma medida nume´rica que descreve alguma caracter´ıstica da populac¸a˜o. E´ o resumo da varia´vel observada na populac¸a˜o. Por exemplo, me´dia, variaˆncia e desvio padra˜o. Cada paraˆmetro e´ representado por um s´ımbolo ou letra. No exemplo tem-se que para a me´dia, a variaˆncia e o desvio padra˜o as letras gregas µ, σ2 e σ. Na˜o e´ poss´ıvel fazer infereˆncias baseada em paraˆmetro, uma vez que toda a populac¸a˜o foi investigada. b) Estimador (tambe´m chamado de Estat´ıstica): e´ uma medida nume´rica que descreve al- guma caracter´ıstica de umaamostra, ou seja, o estimador e´ obtido a partir do resumo da varia´vel observada na amostra. Neste caso, e´ poss´ıvel utilizarmos as teorias infereˆncias 3 para que, com base na amostra, possamos obter concluso˜es sobre a populac¸a˜o. Cada estimador tambe´m e´ representado por um s´ımbolo ou letra. Para a me´dia, a variaˆncia e o desvio padra˜o as letras gregas µ̂ ou X , σ̂2 ou S2 e σ̂ ou S. 2.4 Apresentac¸a˜o de Dados 2.4.1 Se´ries Estat´ısticas As se´ries estat´ısticas resumem um conjunto ordenado de observac¸o˜es atrave´s de treˆs fatores fundamentais: • tempo: refere-se a data ou a e´poca em que o fenoˆmeno foi investigado; • espac¸o: refere-se ao local ou regia˜o onde o fato ocorreu; • espe´cie: refere-se ao fato ou fenoˆmeno que esta´ sendo investigado e cujos valores nume´ricos esta˜o sendo apresentados. As se´ries estat´ısticas sa˜o classificadas de acordo com o fator que estiver variando, podendo ser simples ou mistas. 1. Se´ries simples • Se´rie Cronolo´gica (temporal, histo´rica ou evolutiva): onde varia o tempo per- manecendo fixos o espac¸o e a espe´cie do fenoˆmeno estudado. Tabela 01: Casos de sarampo notificado no Brasil de 1987 a 1992 • Se´rie Geogra´fica (Espacial, ou Territorial, ou de Localizac¸a˜o): onde varia o espac¸o permanecendo fixos o tempo e a espe´cie do fenoˆmeno estudado. Tabela 02: Necessidades me´dias de energia em alguns pa´ıses, em 1973. 4 • Se´rie especificativa (qualitativa ou catego´rica: onde varia a espe´cie permanecendo fixos o tempo e o espac¸o do fenoˆmeno estudado. Tabela 03: Abate de animais, por espe´cie, no Brasil, em 1993. 2. Se´ries mistas: sa˜o aquelas em que mais de um fator varia ou um fator varia mais de uma vez. • Se´rie histo´rica geogra´fica (ou geogra´fica histo´rica) Tabela 04: Taxa de atividade feminina urbana, em percentual, em treˆs regio˜es do Brasil, 1981,90 • Se´rie especificativa geogra´fica (ou geogra´fica especificativa) Tabela 05: Consumo per capita anual de alguns tipos de alimentos, em algumas regio˜es metropolitanas do Brasil, no ano de 1988 5 • Se´rie especificativa histo´rica (ou histo´rica especificativa) Tabela 06: Taxa de mortalidade (em percentual) de menores de um ano no Brasil, segundo as treˆs principais causas, no per´ıodo de 1984 a 1987 • Se´rie especificativa histo´rica geogra´fica Tabela 07: Nu´mero de v´ıtimas em acidentes, segundo as grandes regio˜es do Brasil, nos anos de 1991 e 1992 2.4.2 Tabelas Tem como finalidade apresentar os dados de modo ordenado, simples e de fa´cil inter- pretac¸a˜o, fornecendo o ma´ximo de informac¸a˜o num mı´nimo de espac¸o. A construc¸a˜o de uma tabela, entretanto, deve obedecer a uma se´rie de normas te´cnicas. Estas normas podem ser encontradas na publicac¸a˜o do IBGE intitulada “Normas de Apresentac¸a˜o Tabular”. 2.4.3 Elementos da Tabela • T´ıtulo: e´ a indicac¸a˜o que precede a tabela contendo a designac¸a˜o do fato observado, o local e a e´poca em que foi estudado. • Corpo: e´ o conjunto de lihas e colunas onde esta˜o inseridos os dados. • Cabec¸alho: e´ a parte superior da tabela que indica o conteu´do das colunas. • Coluna indicadora: e´ a parte da tabela que indica o conteu´do das linhas. Os elementos complementares sa˜o: 6 • Fonte: entidade que fornece os dados ou elabora a tabela. • Notas: informac¸o˜es de natureza geral, destinadas a esclarecer o conteu´do das tabelas. • chamadas: informac¸o˜es espec´ıficas destinadas a esclarecer ou conceituar dados numa parte da tabela. Os elementos complementares devem situar-se no rodape´ da tabela, na mesma ordem em que foram descritos. 2.5 Distribuic¸a˜o de Frequeˆncia e Representac¸a˜o Gra´fica Uma das formas de organizar e resumir a informac¸a˜o contida em dados observados e´ por meio de tabela de frequ¨eˆncias e gra´ficos. A definic¸a˜o de alguns conceitos sera´ importante para o uso da linguagem apropriada ao elaborarmos e analisarmos as distribuic¸o˜es de frequeˆncias. No total, sa˜o 9 conceitos a serem apresentados. A seguir definiremos 5 primeiros, va´lidos para quaiquer distribuic¸a˜o de frequ¨eˆncias, e mais adiante apresentaremos os 4 u´ltimos, espec´ıficos para dados agru- pados em classes.: (a) Dados Brutos - E´ o conjunto dos dados nume´ricos obtidos apo´s a coleta dos dados. Ex: Idade dos alunos do curso de medicina veterina´ria da UFBA, no ano de 1993. 24− 23− 22− 28− 35− 21− 23− 33− 34− 24− 21− 25− 36− 26− 22− 30− 32− 25− 26− 33− 34− 21− 31− 25− 31− 26− 25− 35− 33− 31 Como pode ser observado, os valores esta˜o dispostos de forma desordenada. Em raza˜o disso, pouca informac¸a˜o se consegue obter inspecionando-se os dados anotados. 7 Mesmo uma informac¸a˜o ta˜o simples como a de saber os valores mı´nimos e ma´ximo requer um certo exame dos dados coletados. (b) Rol - E´ o arranjo dos dados brutos em uma determinada ordem crescente ou decres- cente. Ex: Utilizando os mesmos dados anteriores: 21− 21− 21− 22− 22− 23− 23− 24− 25− 25− 25− 25− 26− 26− 26− 28− 30− 31− 31− 31− 32− 33− 33− 33− 34− 34− 34− 35− 35− 36 Apresenta vantagens concretas em relac¸a˜o aos dados brutos. Ela torna poss´ıvel visualizar, de forma bem ampla, as variac¸o˜es dos dados, uma vez que os valores extremos sa˜o percebidos de imediato. Mas, a ana´lise com este tipo de disposic¸a˜o comec¸a a se complicar quando o nu´mero de observac¸o˜es tende a crescer. (c) Amplitude total ou ”range” (A) - E´ a diferenc¸a entre o maior e o menor valor ob- servado da varia´vel em estudo. Ex: Utilizando os mesmos dados anteriores: A = 36− 21 = 15. (d) Frequeˆncia absoluta simples (Fi) - E´ o nu´mero de vezes que o elemento aparece na amostra ou o nu´mero de elementos pertencentes a uma classe. Para condensarmos melhor os dados, e´ aconselha´vel a elaborac¸a˜o de distribuic¸o˜es de frequeˆncia. Uma tabela com distribuic¸a˜o de frequeˆncia e´ uma tabela onde se procura fazer um arranjo dos valores e suas respectivas frequeˆncias, onde a frequeˆncia de determi- nado valor sera´ dado pelo nu´mero de observac¸o˜es ou repetic¸o˜es de um valor ou de uma modalidade. As tabelas de frequeˆncias podem representar tanto valores individuais como valores agrupados em classes. Essas tabelas podem ser classificadas em: • Distribuic¸a˜o de Frequeˆncias de Dados Tabulados Na˜o-Agrupados em Classes - e´ uma tabela onde os valores da varia´vel aparecem individualmente. Esse tipo de dis- tribuic¸a˜o e´ utilizado geralmente para representar uma varia´vel discreta, com pouca variedade de valores. Exemplo : Utilizando os mesmos dados anteriores, a tabela a seguir representa a distribuic¸a˜o de frequeˆncias de dados na˜o agrupados. 8 Table 1: dos alunos do curso de medicina veterina´ria da UFBA, no ano de 1993. Idade (xi) Fi 21 3 22 2 23 2 24 1 25 4 26 3 28 1 30 1 31 3 32 1 33 3 34 3 35 2 36 1 Total 30 Este tipo de tabela na˜o e´ aconselha´vel quando estamos trabalhando com varia´veis que apresentam uma grande quantidade de valores distintos, uma vez que a tabela podera´ ficar muito extensa, dificultando, ale´m de sua elaborac¸a˜o, as ana´lises e con- cluso˜es dos dados pesquisados. Note que a soma das frequeˆncias absolutas simples e´ sempre igual ao nu´mero total de valores observados. • Distribuic¸a˜o de Frequeˆncias de Dados Agrupados em Classes. Muitas vezes com o objetivo de resumir os dados originais em uma distribuic¸a˜o de frequeˆncias, utilizaremos os dados agrupados em classes e na˜o mais individualmente. Classe pode ser definida como sendo os subintervalos da Amplitude Total de uma varia´vel (grupo de valores). Quando a varia´vel objeto de estudo for cont´ınua geralmente sera´ conveniente agrupar os valores observados em classes. Se, por outro lado, a varia´vel for discreta e o nu´mero de valores representativos dessa varia´vel for muito grande, recomenda-se o agrupamento dos dados em classes. Nesse u´ltimo caso, o procedimento visa a evitar certos inconvenientes, como: (a) grande extensa˜o da tabela, dificultando, tanto quanto os dados brutos, a leitura e a interpretac¸a˜o dos resultados apurados. (b) o aparecimento de diversos valores da varia´vel com frequeˆncia nula. (c) impossibilidade ou dificuldade de visualizac¸a˜o do comportamento do fenoˆmeno como um todo, bem como de sua variac¸a˜o. Este tipo de tabela informa, de imediato, a tendeˆncia de a se´rie se concentrar em torno de um valor central, ale´m de proporcionar uma visa˜o panoraˆmica do compor- tamento da varia´vel, o que seria imposs´ıvel de se fazer a partir da lista dos dados brutos. 9 Exemplo: Utilizando os mesmos dados anteriores, temos: Table 2: Idade dos alunos do curso de medicina veterina´ria da UFBA, no ano de 1993. Idade Nu´mero de alunos (Fi) 21| − 24 7 24| − 27 8 27| − 30 1 30| − 33 5 33| − 36 9 Total 30 O s´ımbolo |– indica a inclusa˜o do limite inferior do intervalo naquela classe. Outras possibidades sa˜o: –|, |–|, – Para construc¸a˜o de tabelas de frequeˆncia para dados agrupados em classe os 4 conceitos listados a seguir, complementam os 5 primeiros ja´ apresentados: (a) Definic¸a˜o do nu´mero de classes - E´ representado por k. E´ importante que a distribuic¸a˜o conte com um nu´mero adequado de classes. Se esse nu´mero for escasso, os dados originais ficara˜o ta˜o comprimidos que pouca informac¸a˜o podera´ ser extra´ıda desta tabela. Se, por outro lado, forem utilizadas muitas classes, havera´ algumas com frequeˆncia nula ou muito pequena, apresentando uma distribuic¸a˜o irregular e prejudicial a` interpretac¸a˜o do fenoˆmeno. Para determinar o nu´mero de classes ha´ diversos me´todos. No´s aprenderemos duas soluc¸o˜es: a) k = 5, para n = 25 e k = √ n , para n > 25. b) Formula de Sturges: K = 1 + 3, 3log10n, onde n e o tamanho da amostra Exemplo: Se n = 49 teriamos: – pelo primeiro metodo: k = 7 – pelo segundo metodo: k = 1 + 3, 3log1049⇒ k = 6, 58⇒ k = 7 (b) Limites de Classe - Os limites de classe sa˜o seus valores extremos. No exemplo anterior de distribuic¸a˜o de frequeˆncia, o valor 21 e´ denominado limite inferior da primeira classe, enquanto o valor 24 e´ denominado limite superior da primeira classe. (c) Amplitude do Intervalo de Classe (h) - A amplitude de um intervalo de classe corresponde ao comprimento desta classe. Numericamente, sua amplitude pode ser definida como a diferenc¸a existente entre os limites superior (ou inferior) de duas classes consecutivas. Exemplo: Utilizando os mesmos dados anteriores: h = 24− 21 = 3 (d) Pontos Me´dios ou Centrais da Classe (xj) - E´ a me´dia aritme´tica simples entre o limite superior e o inferior de uma mesma classe. Ex: Utilizando os mesmos dados anteriores: x1 = 24 + 21 2 = 22, 5 10 Para obter os pontos me´dios das demais classes, basta acrescentar ao ponto me´dio da classe precedente a amplitude do intervalo de classe. 2.5.1 Tipos de Frequeˆncias 1) Frequeˆncia Simples: a) Frequeˆncia Simples Absoluta (Fi) - e´ o nu´mero de repetic¸o˜es de um valor individual ou de uma classe de valores da varia´vel. Trata-se do caso visto ate´ o presente momento. b) Frequeˆncia Simples Relativa (fi) - representa a proporc¸a˜o de observac¸o˜es de um valor individual ou de uma classe, em relac¸a˜o ao nu´mero total de observac¸o˜es. Trata-se, portanto, de um nu´mero relativo. fi = Fi n Desejando expressar o resultado em termos percentuais, multiplica-se o quo- ciente obtido por 100: fi = Fi n × 100 2) Frequeˆncia Acumulada a) Frequeˆncias Acumulada Absoluta: e´ a soma da frequeˆncia simples absoluta de uma classe ou de um dado valor com as frequeˆncias simples absolutas das classes ou dos valores anteriores. E´ utilizada toda vez que se procura saber quantas observac¸o˜es existem ate´ uma determinada classe ou valor individual. b) Frequeˆncia acumulada Relativa - e´ a soma da frequeˆncia simples relativa dessa classe ou desse valor com as frequeˆncias simples relativas das classes ou dos valores anteriores. Exemplo com as frequeˆncias apresentadas. Table 3: Idade dos alunos do curso de medicina veterina´ria da UFBA, no ano de 1993. Idade Nu´mero de alunos (Fi) fr% Fac 21| − 24 7 23% 7 24| − 27 8 27% 15 27| − 30 1 3% 16 30| − 33 5 17% 21 33| − 36 9 30% 30 Total 30 100 2.6 Apresentac¸a˜o Gra´fica Os gra´ficos podem ser cartogramas ou diagramas. Identifiquemos cada um deles: 11 (a) Cartogramas - sa˜o mapas geogra´ficos ou topogra´ficos em que as frequeˆncias das categorias de uma varia´vel sa˜o projetadas nas a´reas espec´ıficas do mapa, utilizando- se cores ou trac¸ados cujos significados constam em legendas anexadas a`s figuras. (b) Diagramas - sa˜o gra´ficos em que a magnitude das frequeˆncias e´ representada por certa mensurac¸a˜o de uma determinada figura geome´trica. Sa˜o os gra´ficos mais usados na representac¸a˜o de se´ries estat´ısticas e se apresentam atrave´s de uma grande variedade de tipos. Tipos de Diagramas: a) Gra´ficos em Linhas ou Gra´ficos Lineares - Sa˜o frequentemente usados para a repre- sentac¸a˜o de se´ries temporais. b) Gra´ficos em Barras - Teˆm por finalidade comparar grandezas, por meio de retaˆngulos de igual largura e alturas proporcionais a`s respectivas grandezas. Cada barra rep- resenta a intensidade de uma modalidade ou atributo. c) Gra´ficos em Colunas - Prestam-se a` mesma finalidade dos gra´ficos em barras hor- izontais, sendo, entretanto, prefer´ıveis a esses u´ltimos quando as legendas a se in- screverem sob os retaˆngulos forem breves. d) Gra´ficos de Colunas Remontadas ou de Barras Agrupadas - Sa˜o utilizados para estabelecer comparac¸o˜es entre duas ou mais categorias. e) Gra´ficos em Setores - Sa˜o utilizados para representar valores absolutos ou porcent- agens complementares. Utilizados quando se pretende comparar cada valor da se´rie com o total. A seguir podemos encontrar alguns tipos de diagramas. 12 13 2.6.1 GRA´FICOS REPRESENTATIVOS DAS DISTRIBUIC¸O˜ES DE FREQUEˆNCIA A representac¸a˜o gra´fica das distribuic¸o˜es de frequeˆncia e´ feita atrave´s do histograma e do pol´ıgono de frequeˆncia. (a) Histograma - E´ um gra´fico formado por um conjunto de retaˆngulos justapostos, de forma que a a´rea de cada retaˆngulo seja proporcional a` frequeˆncia da classe que ele representa. (b) Pol´ıgonos de Frequeˆncia - Unindo por linhas retas os pontos me´dios das bases superiores dos retaˆngulos do histograma, obte´m-se outra representac¸a˜o dos dados, denominada pol´ıgono de frequeˆncia. 3 MEDIDAS DE TENDEˆNCIA CENTRAL Vimos ate´ agora a sintetizac¸a˜o dos dados sob a forma de tabelas, gra´ficos e distribuic¸o˜es de frequeˆncias. Agora, vamos aprender o ca´lculo de medidas que possibilitem representar um conjunto de dados relativos a` observac¸a˜o de determinado fenoˆmeno de forma resumida. As medidas de tendeˆncia central sa˜o tambe´m chamadas de medidas de posic¸a˜o, e estab- elecem o valor em torno do qual os dados se distribuem. Vale a pena chamar a atenc¸a˜o que, para o ca´lculo dessas medidas, e´ necessa´rio que a varia´vel seja quantitativa. As principais medidas de tendeˆncia central sa˜o: 3.1 Me´dias Sa˜o as medidas de tendeˆncia central mais comumente utilizadas para descrever resumida- mente uma distribuic¸a˜o de frequeˆncia. 3.1.1 Me´dia Aritme´tica 1) Media Aritmetica Simples: E dada pelo quociente entre a soma dos valores observa- dos e a frequencia total ( o numero total de observac¸o˜es). Genericamente, podemos escrever: µ = ∑N i=1 xi N e X = ∑n i=1 xi n onde xi = valor generico da observac¸a˜o. n = tamanho da amostra e N = tamanho da populac¸a˜o. Este tipo de media aritme´tica sera´ calculada quando os valores na˜o estiverem tab- ulados, ou seja, quando aparecerem representados individualmente como e´ o caso dos dados brutos, por exemplo. 14 Exemplo: Temos uma amostra de 10 crianc¸as de 5 anos de idade, com dados referentes a seus pesos (em kg): 23, 0− 20, 0− 22, 0− 19, 0− 25, 0− 28, 2− 24, 0− 21, 0− 27, 0− 21, 0 n = 10 X = 23, 0 + 20, 0 + 22, 0 + 19, 0 + 25, 0 + 28, 2 + 24, 0 + 21, 0 + 27, 0 + 21, 0 10 = 23, 0 (1) Isso significa que o peso medio e´ de 23, 0kg. E´ claro que foram obtidos pesos de crianc¸as desta idade que se encontram abaixo ou acima do valor me´dio. No entanto, a media representa um valor tipico 2) Me´dia Aritme´tica Ponderada: E´ a me´dia aritme´tica calculada quando os dados estiverem agrupados em distribuic¸o˜es de frequeˆncia. Os valores x1, x2, . . . , xn sera˜o ponderados pelas respectivas frequeˆncias absolutas F1, F2, . . . , Fn. Enta˜o teremos: µ = ∑N i=1 xiFi N e X = ∑n i=1 xiFi n Exemplos: a) Para tabelas de distribuic¸a˜o de dados na˜o agrupados Table 4: Nu´mero de ca´ries em crianc¸as de 7 anos de idade. Candeias.1990. Nu´mero de dentes careados (xi) Nu´mero de Crianc¸as (Fi) xiFi 0 3 0 1 2 2 2 4 8 3 2 6 4 1 4 5 1 5 Total 13 25 O nu´mero me´dio de ca´ries por crianc¸a e´ 2,0 entre a populac¸a˜o avaliada em Candeias, ou seja, em me´dia cada crianc¸a de 7 anos apresenta 2 ca´ries. b) Para tabelas de distribuic¸a˜o de dados agrupados em classes A tabela abaixo representa os escores obtidos por um grupo de 58 alunos matriculados em uma determinada disciplina: Determinar o desempenho me´dio deste grupo de alunos. Caracter´ısticas da Me´dia Aritme´tica Simples (a) A Me´dia Aritme´tica Simples devera´ estar entre o menor e o maior valor observado; 15 ESCORES ALUNOS xi xi ∗ Fi 35|−45 5 40 200 45|−55 12 50 600 55|−65 18 60 1080 65|−75 14 70 980 75|−85 6 80 480 85|−95 3 90 270 TOTAL 58 3610 (b) A soma alge´brica dos desvios calculados entre os valores observados e a me´dia ar- itme´tica e´ igual a zero; (c) Somando-se ou subtraindo-se todos os valores (xi) da se´rie por uma constante k (k 6= 0), a nova me´dia aritme´tica sera´ igual a me´dia original somada ou subtra´ıda por esta constante k. (d) Multiplicando-se ou dividindo-se todos os valores (xi) da se´rie por uma constante k (k 6= 0), a nova me´dia aritme´tica sera´ igual a me´dia original multiplicada ou dividida por esta constante k. 3.2 Mediana - Md E´ definido como o valor que divide uma se´rie ordenada de tal forma que pelo menos a metade dos itens sejam iguais ou maiores do que ela, e que a outra metada dos itens sejam menores do que ela. Colocados em ordem crescente, a mediana e´ o elemento que ocupa a posic¸a˜o central. Como a mediana divide os dados ordenados ao meio, ela na˜o e´ sens´ıvel a valores discrepantes. A depender de como estejam os dados, deve-se diferenciar a forma como encontra-se a mediana. 1) Determinac¸a˜o da Mediana de Valores na˜o-tabulados. Processa-se a partir de um rol ou lista ordenada dos dados. Podem ocorrer duas hipo´teses com relac¸a˜o ao nu´mero de observac¸o˜es n: que ele seja ı´mpar ou par. Veremos os dois casos: a) Nu´mero ı´mpar de observac¸o˜es: Requer, em primeiro lugar, que se determine a ordem em que se encontra a mediana na se´rie. Para isto encontramos: POS(Md) = n+ 1 2 O passo seguinte sera´ localizar a mediana na lista de valores, de acordo com o resultado obtido no ca´lculo do elemento mediano POS(Md). b) Nu´mero par de observac¸o˜es: Neste caso, o elemento mediano sera´ determinado atrave´s da expressa˜o: POS(Md) = n 2 A mediana sera´ determinada pela me´dia aritme´tica entre os valores que ocupam a posic¸a˜o de finida pelo elemento mediano e a posic¸a˜o sucessora. 16 2) Determinac¸a˜o da Mediana de Valores Tabulados na˜o-Agrupados em Classes. Da mesma forma como foi calculado anteriormente, definiremos o elemento mediano. Em seguida, acrescentaremos a` tabela de frequeˆncia uma coluna de frequeˆncias acumuladas ”abaixo de” absoluta. Com o uso destas frequeˆncias encontraremos a posic¸a˜o definida pelo elemento mediano, na qual estara´ a mediana. Exemplo: Em um determinado dia foi registrado o nu´mero de ve´ıculos negociados por uma amostra de 10 vendedores de uma ageˆncia de automo´veis obtendo a seguinte tabela: ve´ıculos negociados nu´mero de vendedores 1 1 2 3 3 5 4 1 Total 10 Determinar o valor da mediana. 3) Determinac¸a˜o da Mediana de Valores Tabulados Agrupados em Classes. Procedimento • Calcula-se a posic¸a˜o da mediana: POS(Md)=n2 ; • Pela Fac identifica-se a classe que conte´m o valor da mediana; • Utiliza-se a fo´rmula: Md = li + n 2 − ∑ f FMd h Onde: • li = limite inferior da classe mediana; • ∑ f = soma das frequeˆncias anteriores a classe da mediana; • h = amplitude da classe da mediana; • FMd = frequeˆncia absoluta da classe da mediana. Exemplo: A tabela abaixo representa os escores obtidos por um grupo de 58 alunos matriculados em uma determinada disciplina: ESCORES ALUNOS xi xi ∗ Fi 35|−45 5 40 200 45|−55 12 50 600 55|−65 18 60 1080 65|−75 14 70 980 75|−85 6 80 480 85|−95 3 90 270 TOTAL 58 3610 Determinar o desempenho me´dio deste grupo de alunos. 17 3.3 Moda A moda e´ outra medida de tendeˆncia central, sendo, no entanto a menos importante. Sua vantagem e´ que pode ser usada para varia´veis qualitativas. Genericamente, pode-se de finir a moda como o valor mais frequente da distribuic¸a˜o. 1) Determinac¸a˜o da Moda de Valores Na˜o-Tabulados. Considerando um conjunto or- denado de valores, a moda sera´ o valor predominante, o valor mais fre-quente desse conjunto. Embora seu signi ficado seja o mais simples poss´ıvel, nem sempre a moda existe (distribuic¸a˜o amodal) e nem sempre e´ u´nica. Se apresentar apenas uma moda diremos que e´ unimodal; se possuir duas modas diremos que e´ bimodal; se tiver va´rias modas (mais que duas) diremos que e´ multimodal. 2) Determinac¸a˜o da Moda para Valores Tabulados. No caso de dados tabelados na˜o agrupados em classe, a determinac¸a˜o da moda e´ imediata, bastando para isso, con- sultar a tabela, localizando o valor que apresenta a maior frequeˆncia. Exemplo: Em um determinado dia foi registrado o nu´mero de ve´ıculos negociados por uma amostra de 10 vendedores de uma ageˆncia de automo´veis obtendo a seguinte tabela: ve´ıculos negociados nu´mero de vendedores 1 1 2 3 3 5 4 1 Total 10 Assim, se a maior frequeˆncia e´ Fi = 5, logo Mo = 3, ou seja, a quantidade de ve´ıculos comercializados no dia com maior frequeˆncia foi de treˆs ve´ıculos. (a) Determinac¸a˜o do valor da Moda para Valores Tabulados Agrupados em Classes. Para dados agrupados em classes, temos diversas fo´rmulas para o calculo da moda. A utilizada sera´: Fo´rmula de Czuber Procedimento • Pela Fac identifica-se a classe modal (aquela que possui maior frequeˆncia); • Utiliza-se a fo´rmula: Mo = li + ∆1 ∆1 + ∆2 h Onde: • li = limite inferior da classe mediana; • ∆1 = Fi − Fi,ant ; • ∆2 = Fi − Fi,post • h = amplitude da classe modal; 18 Exemplo: A tabela abaixo representa os escores obtidos por um grupo de 58 alunos matriculados em uma determinada disciplina: ESCORES ALUNOS 35|−45 5 45|−55 12 55|−65 18 65|−75 14 75|−85 6 85|−95 3 TOTAL 58 Determinar o valor da moda. 19