Esta é uma pré-visualização de arquivo. Entre para ver o arquivo original
AULA 1 AULA 1 -- INTRODUÇÃOINTRODUÇÃO EstatísticaEstatística CONSIDERAÇÕES GERAIS A Estatística exerce um papel crescente na atividade humana (científica, comercial ou governamental): • áreas econômicas (públicas ou privadas) → decisões importantes dependem do significado e da precisão de indicadores como taxas de desemprego, deindicadores como taxas de desemprego, de crescimento econômico, de preços ao consumidor; • área agrícola → a adoção de novas técnicas depende de complexos esquemas de coleta e análise de dados; • área médica → a avaliação do sucesso da administração de tratamentos clínicos (vacinação) obedece a critérios estatísticos; • estudos demográficos (crescimento populacional, migração) → contam com a fundamental contribuição dos métodos estatísticos; • estudos sociológicos ou políticos → só são• estudos sociológicos ou políticos → só são possíveis porque a Estatística dispõem de métodos que possibilitam o estudo de populações enormes a partir de pequenos grupos. •• POPULAÇÃOPOPULAÇÃO – conjunto de todos os elementos com uma ou mais características em comum. •• AMOSTRAAMOSTRA – é uma parte representativa da população.população. Estatística ⇒ ferramenta necessária à compreensão dos fenômenos que ocorrem nas mais diferentes áreas. SÍNTESE HISTÓRICA ORIGEM necessidade que o Estado Político tinha de conhecer os seus domínios. A Estatística A Estatística é tão antiga quanto a é tão antiga quanto a humanidadehumanidadeA Estatística A Estatística é tão antiga quanto a é tão antiga quanto a humanidadehumanidade Os fatos mais antigos de aplicação da Estatística datam: − do antigo Egito → anualmente, efetuavam-se levantamentos cadastrais e censitários que permitiam conhecer a repartição de propriedades e dos bens para que fossem restituídos após as inundações do rio Nilo. − da época do Império Romano → periodicamente eram feitos levantamentos dos bens para cobrança de impostos. Metade do século XIX, a palavra estatística, derivada da palavra latina “status” (= estado), era utilizada basicamente para designar informações a respeito do Estado. campo de ação. O avanço no estudo do cálculo de probabilidades permitiu, contudo, que a Estatística fosse estruturada e ampliasse o seu campo de ação. Um marco significativo no desenvolvimento da Estatística foram as publicações dos ingleses Graunt (1666) e Petty (1683) que deram início ao que hoje se chama demografia. Na mesma época, iniciou-se o cálculo das probabilidades a partir do interesse do matemático e filósofo francês Blaise Pascal em resolver jogos de azar. Em 1708, foi organizado o primeiro curso de estatística na Universidade de Yena na Alemanha. Século XVIII, destacaram-se impulsionando o estudo das probabilidades: o suíço Bernoulli, osestudo das probabilidades: o suíço Bernoulli, os franceses Moivre e Laplace, o alemão Gauss, o astrônomo belga Quételet e os ingleses Galton e Pearson. 1920 à 1940 - foi ainda muito fecundo, contando com os estudos do inglês Fisher, que, entre as muitas contribuições que trouxe à estatística, criou a técnica da Análise da Variação, até hoje uma das mais importantes utilizadas na estatística. Outro marco decisivo no desenvolvimento dos métodos estatísticos foi o advento da computação eletrônica, ferramenta que permitiu que a estatística alargasse ainda mais os seus horizontes. ESTATÍSTICA NO BRASIL Início → com o domínio português → saber dos recursos disponíveis, no Brasil, para exploração conveniente. Séculos XVII e XVIII → diversos levantamentos, principalmente em Minas Gerais, com relação a existência e a exploração de ouro. 1854→ fundação da 1a Sociedade Brasileira de Estatística.1854→ fundação da 1 Sociedade Brasileira de Estatística. 1871 → criação da Diretoria Geral de Estatística, encarregada de fazer levantamentos da população brasileira. 1872→ 1o recenseamento geral do país. Instituto Brasileiro de Geografia e Estatística (IBGE) promove estudos de natureza estatística, visando permitir o conhecimento da realidade física, econômica e social do país, possibilitando assim, o planejamento econômico e social e a segurança nacional. CONCEITO E DIVISÃO Estatística moderna é o conjunto de conceitos e métodos, fundamentados na matemática, que se preocupa com o processo de descrição e inferência, particularmente com: a eficiente sumarização dos dados; o planejamento e a análise de experimentos e levantamentos; a natureza dos erros de observação e outras causas que provocam variação em uma natureza dos erros de observação e outras causas que provocam variação em um conjunto de dados. Estatística é a matemática aplicada a dados de observação, na organização, descrição, análise e interpretação desses dados. ���� dados numéricos apresentados em tabelas e gráficos incluindo médias, porcentagens, etc. ���� parte do método científico instrumento auxiliar de real importância na pesquisa científica. A Estatística pode ser dividida em duas partes principais: Estatística Descritiva ou Dedutiva: que tem como objetivo o resumo, a apresentação e a descrição dos dados de observação por meio de tabelas, de gráficos e de medidas, dentre as quais se destacam as medidas de posição e de dispersão. Estatística Analítica ou Inferência Estatística: que tem como objetivo fornecer métodos que proporcionem a realização de inferência sobre populações a partir de amostras dela provenientes, tendo por base o cálculo de probabilidades. Compreende basicamente dois grandes tópicos: a estimação de parâmetros e os testes de hipóteses. Conhecimento da população através de uma amostra. LIMITAÇÕES DA ESTATÍSTICA � a estatística não serve para corrigir erros grosseiros, nem técnicas defeituosas; � a estatística não substitui o julgamento crítico; � os testes estatísticos não devem ser empregados� os testes estatísticos não devem ser empregados para verificar hipóteses sugeridas apenas pela inspeção dos dados; � o emprego da estatística requer concordância satisfatória entre o modelo matemático utilizado e os dados reais obtidos. AULA 2 AULA 2 –– SÉRIES, TABELAS E SÉRIES, TABELAS E GRÁFICOSGRÁFICOS EstatísticaEstatística GRÁFICOSGRÁFICOS SÉRIES ESTATÍSTICAS - CONSIDERAÇÕES GERAIS Dado Estatístico: é a representação numérica de um fenômeno. a) dados de enumeração: dados obtidos através de contagem. Geralmente são números inteiros. b) dados de mensuração: referem-se à intensidade de umab) dados de mensuração: referem-se à intensidade de uma grandeza contínua como peso, altura, tempo, volume, etc., são dados obtidos através de medições, dependem da precisão do instrumento de medida. SÉRIE ESTATÍSTICA: é o conjunto de dados estatísticos dispostos de acordo com o tempo, o local ou a espécie. Estes3 fatores fundamentais se referem a: Tempo – data ou época que o assunto foi investigado. Local (ou espaço) – espaço geográfico ou regiãoLocal (ou espaço) – espaço geográfico ou região onde o fato ocorreu. Espécie – fato ou fenômeno que foi investigado e cujos valores numéricos estão sendo apresentados na tabela. Série Temporal (Histórica, Cronológica ou Evolutiva) – varia o tempo, permanecendo fixos o local e a espécie do fenômeno estudado. Anos Número de casos Tabela 1 – Casos notificados de sarampo no Brasil, de 2000 à 2003 Anos Número de casos 2000 61.435 2001 45.532 2002 7.934 2003 5.849 Fonte: Anuários Estatísticos – IBGE. Série Geográfica (Territorial ou de Localização) – varia o local, permanecendo fixos o tempo e a espécie do fenômeno estudado. Países Número de anos Itália 7,5 Tabela 2 – Duração média dos estudos superiores, 2004 7,5 Alemanha 7,0 França 7,0 Holanda 5,9 Inglaterra 4,0 Fonte: Revista Veja. Série Especificativa (Qualitativa ou Categórica) – varia o fenômeno estudado, permanecendo fixos o local e o tempo. Alimentos Número de crianças Leite Artificial 25 Tabela 3 – Introdução de novos alimentos à crianças de 3 a 6 meses de idade, em 2007 Leite Artificial 25 Sucos 40 Sopas 46 Caldo de Feijão 56 Ovo 51 Fonte: Trabalho de alunos do Curso de Nutrição Séries Mistas – varia mais de um fator. Receberá o nome de acordo com os fatores que variam, por exemplo, se variam o tempo e o local, a série será Temporal Geográfica ou Geográfica Temporal. Tabela 4 - Efetivo do rebanho bovino nas regiões do Brasil Regiões Anos 1991 1992 1993 Norte 342.938 375.658 403.494 Nordeste 1.287.813 1.379.101 1.486.649 Sudeste 6.234.501 6.729.467 7.231.634 Sul 1.497.315 1.608.989 1.746.232 Centro-oeste 713.357 778.925 884.822 Fonte: Ministério das Comunicações Causas Anos 1996 1997 1998 Doenças Infecciosas 17,9 16,8 16,4 Tabela 5 – Mortalidade proporcional (%) em menores de 1 ano, segundo as três principais causas, no Brasil, de 1996-98. 17,9 16,8 16,4 Pneumonia 12,0 10,8 11,4 Causas perinatais 45,3 48,0 47,1 Fonte: Informe Epidemiológico SUS Distribuição de Frequências – são séries onde não variam nenhum dos 3 fatores (tempo, local e espécie). Os dados são agrupados em classes com limites pré-estabelecidos. Classes Frequência Tabela 6 – Estatura de 80 alunos da Escola X, 1995 Classes Frequência 155 | 160 39 160 | 165 30 165 | 170 10 170 | 175 1 Total 80 Fonte: dados fictícios TABELASTABELAS Forma não discursiva de apresentar informações Dado numérico se destaca como informação central Finalidade: apresentar os dados numéricos de modo ordenado, simples e de fácil interpretação, fornecendoordenado, simples e de fácil interpretação, fornecendo o máximo de informação num mínimo de espaço. Construção: deve obedecer uma série de normas técnicas (do IBGE - "Normas de Apresentação Tabular“ - orienta a apresentação racional e uniforme de dados estatísticos na forma tabular. Elementos da tabela elementos essenciais Tabela Estatística elementos complementares ELEMENTOS ESSENCIAIS: * Título: é a indicação que precede a tabela contendo a designação* Título: é a indicação que precede a tabela contendo a designação do fato observado, do local e da época em que foi registrado. * Corpo: é conjunto de linhas e colunas onde estão inseridos os dados numéricos. * Cabeçalho: é a parte superior da tabela que indica o conteúdo das colunas. * Coluna indicadora: é a parte da tabela que indica o conteúdo das linhas. Tabela: modelo IBGE CabeçalhoCabeçalho TítuloTítulo CorpoCorpo RodapéRodapé ELEMENTOS COMPLEMENTARES: * Fonte: entidade que fornece os dados ou elabora a tabela. * Notas: informações de natureza geral, destinadas a esclarecer o conteúdo das tabelas. * Chamadas: informações específicas destinadas a* Chamadas: informações específicas destinadas a esclarecer ou conceituar dados numa parte da tabela. Deverão estar indicadas no corpo da tabela, em números arábicos entre parênteses. Os elementos complementares devem situar-se no rodapé da tabela, na mesma ordem em que foram descritos. NÚMERO DA TABELA Uma tabela deve ter número para identificá- la, sempre que o documento apresentar uma ou mais tabelas, permitindo assim, a sua localização. A identificação da tabela deve ser feita em númerosA identificação da tabela deve ser feita em números arábicos, de modo crescente, precedidos da palavra Tabela, podendo ou não ser subordinada a capítulos ou seções de um documento. Exemplos: Exemplos: Tabela 5, Tabela 10.4 APRESENTAÇÃO DE DADOS NUMÉRICOS Toda tabela deve ter dado numérico para informar a quantificação de um fato específico observado, o qual deve ser apresentado em números arábicos. A parte inteira dos dados numéricos deve ser separada por pontos ou espaços de três em três algarismos, da direita para a esquerda. A separação da parte inteira da decimal deve ser feita por vírgula. Obs.: No sistema inglês, a separação da parte inteira é feita por vírgula, e a separação da parte inteira da decimal é feita por ponto, ou seja, é o inverso do sistema brasileiro. Algarismos romanos devem ser evitados, inclusive em datas SINAIS CONVENCIONAIS Sempre que um dado numérico não puder ser apresentado, o mesmo deve ser substituído por um sinal convencional, como: a) - (traço): indica dado numérico igual a zero; b) ... (três pontos): indica dado numérico não disponível c) 0; 0,0 ou 0,00: indica dado numérico igual a zero resultante de arredondamento d) ?: quando há dúvida sobre a veracidade da informação Os sinais convencionais deverão ser apresentados em nota geral com seus respectivos significados. ARREDONDAMENTO Quando o primeiro algarismo a ser abandonado for menor que 5, fica inalterado o último algarismo a permanecer. < 5 Quando o primeiro algarismo a ser abandonado for maior ou igual a 5, aumenta-se de uma unidade o último algarismo a permanecer. ≥≥≥≥ 5 UNIDADE DE MEDIDA TABELA unidade de medida, inscrita no cabeçalho ou nas colunas indicadoras, sempre que houver necessidade de se indicar, complementarmente ao título, a expressão quantitativa ou metrológica dos dados numéricos. INDICAÇÃO com símbolos ou palavras, entre parênteses. Exemplos: (m) ou (metros), (t) ou (toneladas), (R$) ou {reais). Dados numéricos divididos por uma CONSTANTE indicar por algarismos arábicos, símbolos ou palavras, entre parênteses, precedendo a unidade de medida, quando for o caso. Exemplos: (1.000 t): indica dados numéricos em toneladas que devem ser multiplicados por mil; (1.000 R$): indica dados numéricos em reais que devem ser multiplicados por mil; (%) ou (percentual): indica dados numéricos proporcionais a cem; (t/ 1.000): indica dados numéricos em toneladas divididos por 1.000. CLASSE DE FREQUÊNCIA A classe de frequência é cada um dos intervalos não superpostos em que se divide uma distribuição de frequências. Toda classe deve ser apresentada, por extenso ou com notação.notação. Toda classe que inclui o limite inferior do intervalo (Li) e exclui o limite superior (Ls), deve ser apresentada de uma destas duas formas: Li | Ls ou [Li; Ls) Apresentação de tempo Série histórica consecutiva deve ser apresentada por seus pontos inicial e final, ligados por hífen (-). Exemplos: 1892-912: quando varia o século; 1960-65: quando variam os anos dentro do século; out 1991 - mar 1992: quando variam os meses dentro de anos.out 1991 - mar 1992: quando variam os meses dentro de anos. Série histórica não consecutiva deve ser apresentada por seus pontos inicial e final, ligados por barra (/). Exemplos: 1981 / 85: indica dados não apresentados para pelo menos um ano do intervalo; out 1991/ mar 1992: indica dados não apresentados para pelo menos um mês do intervalo. Apresentação da tabela �O corpo da tabela deve ser delimitado, no mínimo, por três traços horizontais. ���� Recomenda-se não delimitar as tabelas a direita e à esquerda por traços verticais. ����Quando, por excessiva altura, a tabela tiver que ocupar mais de uma página, não deve ser delimitada inferiormente,de uma página, não deve ser delimitada inferiormente, repetindo-se o cabeçalho na página seguinte. Deve-se usar no alto do cabeçalho a palavra continuação ou conclusão, conforme o caso. ����A disposição da tabela deve estar na posição normal de leitura. Caso isso não seja possível, a apresentação será feita de forma que a rotação da página seja no sentido horário. Unidade da Federação Total de estabelecimentos Pessoal ocupado Valor da produção1 (1.000 Cr$) Valor da transformação industrial (1.000 Cr$) Rondônia 1 x x X Acre 2 x x X Amapá - - - - Rio Grande do Sul 706 30.103 156.680 74.316 Mato Grosso do Sul 29 485 1.643 623 Tabela 7 – Total de estabelecimentos, pessoal ocupado, valor da produção e valor da transformação industrial das indústrias metalúrgicas, em algumas Unidade da Federação, em 1982 Paraná 449 11.118 43.797 22.014 Santa Catarina 305 10.816 84.294 41.894 São Paulo 4.699 272.983 2.531.363 939.0322 Rio de Janeiro 847 40.768 635.731 177.358 Fonte: Pesquisa Industrial, 1982-84. Dados gerais, Brasil, Rio de Janeiro: IBGE, v.9., 410 p. Nota: Sinal convencional utilizado: x dado numérico omitido - dado numérico igual a zero (1) Em 31.12.1982 (2) Inclui o valor dos serviços prestados a terceiros e a estabelecimentos da mesma empresa. GRÁFICOSGRÁFICOS GRÁFICOS constituem-se numa das mais eficientes formas ilustradas de apresentação de dados estatísticos. GRÁFICO - FIGURA construída a partir de uma tabela; TABELA fornece uma idéia mais precisa e possibilita uma inspeção mais rigorosa aos dados;inspeção mais rigorosa aos dados; GRÁFICO mais indicado para situações que visem proporcionar uma impressão mais rápida e maior facilidade de compreensão do comportamento do fenômeno em estudo. Os gráficos e as tabelas se prestam, portanto, a Os gráficos e as tabelas se prestam, portanto, a objetivos distintos, de modo que a utilização de uma objetivos distintos, de modo que a utilização de uma forma de apresentação não exclui a outra. forma de apresentação não exclui a outra. NORMAS GERAIS PARA REPRESENTAÇÃO GRÁFICA 1) os gráficos devem ser claros, simples e verídicos; 2) os gráficos, geralmente, são construídos num sistema de eixos chamado sistema cartesiano ortogonal. A variável independente é localizada no eixo horizontal (abcissas), enquanto a variável dependente é colocada no eixo vertical (ordenadas). O início da escala deverá ser sempre zero, ponto de encontro dos eixos; 3) Iguais intervalos para as medidas deverão corresponder a iguais intervalos para as escalas. As unidades utilizadas devem estar expressas no desenho; 4) o gráfico deverá possuir título, fonte, notas e legenda, ou seja, toda a informação necessária à sua compreensão, sem auxílio do texto. 5) o gráfico deverá possuir formato, aproximadamente, quadrado para evitar que problemas de escala interfiram na sua correta interpretação. Tipos de gráficos ESTEREOGRAMAS CARTOGRAMAS PICTOGRAMASgráficos PICTOGRAMAS DIAGRAMAS ESTEREOGRAMAS São gráficos onde as grandezas são representadas por volumes. Geralmente, são construídos num sistema de eixos bidimensional, mas podem ser construídos num sistema tridimensional para ilustrar a relação entre três variáveis. CARTOGRAMAS Representações em cartas geográficas (mapas). PICTOGRAMAS OU GRÁFICOS PICTÓRICOS São gráficos puramente ilustrativos, construídos de modo a ter grande apelo visual, dirigidos a um público muito grande e heterogêneo. Não devem ser utilizados em situações que exijam maior precisão. DIAGRAMAS São gráficos geométricos de duas ou três dimensões, de fácil elaboração e grande utilização. Podem ser ainda subdivididos em gráficos de: Colunas Barras Linhas Setores Pirâmides Gráfico de colunas Grandezas são comparadas através de retângulos de mesma largura, dispostos verticalmente e com alturas proporcionais às grandezas. Distância entre os retângulos deve ser, no mínimo, igual a 1/2 e, no máximo, 2/3 da largura da base dos mesmos (para não dar aspecto de continuidade).aspecto de continuidade). Fator que varia for o tempo - retângulos devem ser dispostos na ordem cronológica e, quando não for o tempo - devem ser dispostos na ordem de grandeza, para facilitar a leitura e a comparação dos valores. Gráficos de coluna são mais utilizados quando as inscrições a serem inseridas sob os retângulos forem curtas. 0 2 4 6 8 10 12 Japão Rússia China Perú Maiores pescadores mundiais em 1975 (em milhões de toneladas) 0 100 200 300 400 500 600 700 1991 1992 1993 1994 1995 1996 Lucros totais, dividendos e lucros retidos de uma empresa, 1991/96 (US$ milhões) Lucros Dividendos Lucros Retidos Gráfico de barras ⌦⌦⌦⌦Mesmas instruções que o gráfico de colunas. ⌦⌦⌦⌦ Diferença é que os retângulos são dispostos horizontalmente. ⌦⌦⌦⌦ Usado quando as inscrições dos retângulos forem maiores que a base dos mesmos. ⌦ Mais utilizados para representar séries especificativas e geográficas. Gráfico de linhas ���� Os pontos são dispostos no plano de acordo com suas coordenadas ���� São ligados por segmentos de retas���� São ligados por segmentos de retas ���� Utilizado em séries históricas e em séries mistas quando um dos fatores de variação é o tempo, como instrumento de comparação. Gráfico de setores (ou de pizza) ���� Recomendado para situações em que se deseja evidenciar o quanto cada informação representa do total. ���� A figura consiste num círculo onde o total (100%) representa 360°, subdividido em tantas partes quantas forem necessárias à representação. Etapas para a construção de um gráfico de setores: 1. Calcular o percentual correspondente a cada valor observado, por meio de uma regra de três simples; 2. Calcular o ângulo correspondente ao percentual2. Calcular o ângulo correspondente ao percentual de cada valor observado; 3. Construir uma circunferência de raio qualquer; 4. Efetuar a marcação dos ângulos correspondentes a cada divisão, com o auxílio de um transferidor, no sentido horário. Outros tipos de gráficos podem ser feitos através de programas gráficos como o Excel ou de planilhas eletrônicas. GRÁFICO DE ÁREASGRÁFICO DE ÁREAS 400 Casos notificados de AIDS na Região Sul do Brasil de 1987 a 1991 0 100 200 300 1987 1989 1991 S. Catarina Paraná R. G. do Sul GRÁFICO DE CILINDROSGRÁFICO DE CILINDROS 16 18 Densidade demográfica (hab./km2) dos países do Mercosul em 1991 0 2 4 6 8 10 12 14 16 Brasil Argentina Paraguai Uruguai (1) GRÁFICO DE ROSCAGRÁFICO DE ROSCA 7% Hopitalizações pagas pelo SUS, segundo a natureza do prestador de serviço, em 1993 75% 18% 7% Privado Público Universitário GRÁFICO DE CONESGRÁFICO DE CONES 40 50 Taxa de atividade feminina urbana, em percentagem, em três regiões do Brasil - 1981/90 0 10 20 30 1 9 8 1 1 9 8 3 1 9 8 6 1 9 9 0 Norte Nordeste Sudeste GRÁFICO EM BARRAS FLUTUANTESGRÁFICO EM BARRAS FLUTUANTES Pessoas da saúde com formação universitária no Paraguai em 1991 3419 715 1516 2992 Outros Bioquímica Químicos farmacêuticos Médicos GRÁFICO EM PIRÂMIDESGRÁFICO EM PIRÂMIDES 6034 Casos notificados de AIDS nos cinco estados brasileiros de maior incidência em 1992 1384 702 483 450 São Paulo Rio de Janeiro Rio Grande do Sul Minas Gerais Paraná GRÁFICO EM LINHAS COLORIDASGRÁFICO EM LINHAS COLORIDAS 200 250 300 350 Casos notif icados de AIDS na região Sul do Brasil de 1987 a 1991 0 50 100 150 200 1987 1988 1989 1990 1991 Paraná S. Catarina R. G. do Sul AULA AULA 3 3 –– MEDIDAS DESCRITIVASMEDIDAS DESCRITIVAS EstatísticaEstatística MEDIDAS DESCRITIVAS OU ESTATÍSTICASMEDIDAS DESCRITIVAS OU ESTATÍSTICAS Em muitas situações são exigidas medidas que caracterizem mais precisamente um conjunto de dados. As medidas descritivas têm como objetivo a redução dos dados a um pequeno número de valores chamado estatísticas fornecendo informações com referência à população. Uma estatística deverá ter as seguintes características: a) ser representativa; b) ser de fácil interpretação; c) prestar-se a um tratamento estatístico mais elaborado, em etapas posteriores;elaborado, em etapas posteriores; d) ter qualidades que a credencie a ser a melhor representante do parâmetro, ou seja, do valor correspondente na população, geralmente desconhecido. As MEDIDAS DESCRITIVAS MEDIDAS DESCRITIVAS dividem-se em 44 grupos: �medidas de posiçãomedidas de posição � medidas de dispersão � assimetria � curtose MEDIDAS DE POSIÇÃO E DE DISPERSÃO MEDIDAS DE POSIÇÃOMEDIDAS DE POSIÇÃO Em um conjunto de dados, os valores são mais numerosos em torno de um valor central e mais raros nos extremos. Essa maior concentração em torno de um valor central sugere que se calcule medidas de posição ou de tendência central que são: a MÉDIA ARITMÉTICA, a MEDIANA e a MODA. As medidas de posição ou de tendência central tem como objetivo representar o ponto de equilíbrio ou o centro de uma distribuição. Notação de somatório Às vezes, precisamos escrever expressões que envolvem somas com muitos termos. Por exemplo a soma dos 100 primeiros números naturais: 1, 2, 3, 4, ..., 100. Simbolizando por xi o i-ésimo termo da soma e n oSimbolizando por xi o i-ésimo termo da soma e n o número total de termos, temos que: Ex: Calcular o somatório do conjunto de valores: {20; 30; 15; 40; 10; 25} ∑ = ++++= n 1i n321i x...xxxx Propriedades dos somatórios 1ª) Se cada elemento da série é multiplicado por uma constante, os elementos podem ser somados e a soma multiplicada pela constante. nn ∑∑ == = n i i n i i xcxc 11 .. ( ) ∑∑ == =++++=++++= n 1i in321n32 n 1i 1i x.cx...xxxcx.c...x.cx.cx.cx.c 2ª) A soma de uma constante sobre n termos é igual a n vezes a constante. ∑ = = n ni c.nc 3ª) O somatório da soma (ou da diferença) é3ª) O somatório da soma (ou da diferença) é igual a soma (ou a diferença) de somatórios. ∑∑∑ === +=+ n 1i i n 1i i n 1i ii yx)yx( MEDIDAS DE POSIÇÃO MEDIDAS DE POSIÇÃO dados não agrupadosdados não agrupadosdados não agrupadosdados não agrupados MÉDIA ARITMÉTICAMÉDIA ARITMÉTICA ( ) É a medida mais conhecida pela facilidade de uso, de cálculo e de compreensão. Utiliza para o seu cálculo todos os valores do conjunto de observações. X Existe somente uma média aritmética para cada conjunto de observações. n x X n 1i i∑ = = Ex: Calcule a média aritmética para o conjunto de valores: {9; 7; 5; 10; 4} Propriedades da média aritméticaPropriedades da média aritmética 1ª) A soma algébrica dos desvios de um conjunto de valores em relação a sua média aritmética é nula, ou seja: ∑ = =− n 1i i 0)Xx( 2ª) A soma dos quadrados dos desvios de um conjunto de valores em relação a sua média aritmética é mínima, ou seja: ∑∑ == −<− n 1i 2 i n 1i 2 i )Kx()Xx( para qualquer K ≠≠≠≠X MÉDIA ARITMÉTICA PONDERADAMÉDIA ARITMÉTICA PONDERADA ( ) Quando as observações x1, x2, x3, ..., xn foram associadas à pesos p1, p2, p3, ..., pn, a média aritmética ponderada será dada por: pX ∑ = = ++++ ++++ = n n 1i ii nn332211 p px p...ppp px...pxpxpx X ∑ = = ++++ = n 1i i n321 p pp...ppp X ∑ ∑ = = = n 1i i n 1i ii p p px X Ex: Um aluno de Matemática recebeu notas 6; 7; 6; 8; 7,5 em 5 avaliações durante o semestre cujos pesos são, respectivamente: 25 %; 12,5 %; 25 %; 12,5 % e 25 %. Pergunta-se qual a média final deste aluno? MEDIANA MEDIANA (Md) A mediana de um conjunto de valores “ordenados” será o valor que se encontra no centro, ou seja, que é precedido ou sucedido pelo mesmo número de valores. Devemos considerar 2 casos n par n ímpar Quando n (número de observações) é ÍMPAR, então: é a posição que ocupa a mediana no conjunto de valores ordenados. 2 1nP += Ex: Calcular a mediana para o conjunto de valores {9; 7; 5; 10; 4} Quando n (número de observações) é PAR, calcula-se uma posição P1 e outra P2: A mediana será a média aritmética dos valores 2 nP1 = 2 2nP2 + = A mediana será a média aritmética dos valores que se encontram nas duas posições: 2 PnaestáquevalorPnaestáquevalor Md 21 += Ex: Calcular a mediana para o conjunto de valores {3; 5; 4; 8; 3; 9} MODAMODA (Mo) É o valor mais freqüente, ou seja, é o que ocorre mais vezes em um conjunto de dados. É a única medida que pode não existir, ser única ou pode existir mais de uma moda. Ex: ���� 2; 3; 7; 5; 7; 5; 8; 7; 9 ���� 5, 7, 8, 3, 9, 1, 4 ���� 1, 3, 4, 4, 5, 1, 3, 5 ���� 1, 3, 4, 5, 4, 8, 6, 8 QUARTIS QUARTIS (Q) Os quartis são medidas separatrizes. Conjunto de dados “ordenados” é ÷÷÷÷ em 4 partes iguais. Existem 2 quartis. Q (primeiro quartil) – é o valor que antecede 25 % daQ1 (primeiro quartil) – é o valor que antecede 25 % da freqüência abaixo dele e sucede 75 %. Q2 (segundo quartil) – é o valor que divide o conjunto de dados em duas partes iguais. É igual ao valor mediano. Q3 (terceiro quartil) – é o valor que antecede 75 % da freqüência abaixo dele e sucede 25 %. n par: n ímpar: 4 2n3P3 + = 4 2nP1 + = 4 2n2P2 + = 4 1nP1 + = 4 )1n(2P2 + = 4 )1n(3P3 + = Ex: Calcular os quartis para os conjuntos de valores a) {185; 196; 207; 305; 574; 597; 612} b) {10; 12; 12; 16; 20; 23; 25; 28} 4 P1 42 4 P3 = DECÍSDECÍS (D) Conjunto de dados “ordenados” é ÷÷÷÷ em 10 partes iguais. Simbolizadas por: D1, D2, ..., D9Simbolizadas por: D1, D2, ..., D9 ... 10 1nD1 + = 10 )1n(2D2 + = 10 )1n(9D9 + = CENTÍS ou PERCENTÍS CENTÍS ou PERCENTÍS (P) Conjunto de dados “ordenados” é ÷÷÷÷ em 100 partes iguais. Simbolizadas por: P1, P2, ..., P9Simbolizadas por: P1, P2, ..., P9 ...100 1nP1 + = 100 )1n(2P2 + = 100 )1n(99P99 + = MEDIDAS DE DISPERSÃOMEDIDAS DE DISPERSÃO dados não agrupadosdados não agrupados Complementam as informações fornecidas pelas medidas de posição.medidas de posição. Servem para indicar o quanto os dados se apresentam dispersos em torno da região central de um conjunto de valores, o que caracteriza o grau de variação desse conjunto. AMPLITUDE TOTALAMPLITUDE TOTAL (At) ⌦⌦⌦⌦ É uma medida de variação muito simples ⌦⌦⌦⌦ Diferença entre o maior e o menor valor de um conjunto de observações. ⌦⌦⌦⌦ Dá uma ideia da variação, visto que utiliza só dois valores de todo o conjunto de observações para servalores de todo o conjunto de observações para ser calculada. mínmáx xxAt −= Ex: Calcular a amplitude total para o conjunto de valores: {10; 13; 9; 5; 7; 6} Média do quadrado dos desvios de um conjunto de valores em relação a sua média aritmética Fórmula de definição VARIÂNCIAVARIÂNCIA (s2) 1 )( 1 2 2 − − = ∑ = n Xx s n i i ∴ Fórmula prática 1− = n s 1n n )x( x s n 1i 2 in 1i 2 i 2 − − = ∑ ∑ = = 1n )XXx2x( 1n )Xx( s 2 ii 2 i2 − +− = − − = ∑∑ 1n XXx2x 2 i 2 i − +− = ∑ ∑ ∑ 1n 1 n x nx n x 2x 2 i i i2 i − ⋅ + −= ∑ ∑ ∑∑ ( ) 1n XnxX2x 2 i 2 i − +− = ∑ ∑ 2 ( ) 1n 1 n x xx n 2 x 2 i iii − ⋅ +−= ∑ ∑ ∑ ∑ ( ) ( ) 1n 1 n x n x 2x 2 i 2 i2 i − ⋅ +−= ∑ ∑∑ 1n n )x( x s 2 i2 i 2 − − = ∑ ∑∴∴∴∴ 2 Ex.: Calcular a variância para o conjunto de observações, utilizando as duas fórmulas: {5; 8; 10; 12; 15} )( 2−∑ Xx n )x( n 2∑ 1 )( 1 2 2 − − = ∑ = n Xx s i i 1n n )x( x s 1i 2 in 1i 2 i 2 − − = ∑ ∑ = = DESVIO PADRÃODESVIO PADRÃO (S) ☺☺☺☺ É a raiz quadrada da variância. ☺☺☺☺ Utiliza-se o desvio padrão para interpretar os resultados, visto que, as unidades ficam elevadas ao quadrado na variância. 2ss = Ex.: Para o conjunto de observações, calcule o desvio padrão {5; 8; 10; 12; 15} COEFICIENTE DE VARIAÇÃO COEFICIENTE DE VARIAÇÃO (CV) É definido como a razão percentual entre o desvio padrão (s) e a média aritmética ( ).X 100. X sCV =É expresso em porcentagem,portanto, independe da unidade de medida, sendo assim, é muito útil Xmedida, sendo assim, é muito útil para comparar grupos de valores expressos em unidades de medida diferentes ou que tenham médias diferentes. É uma medida adequada para comparação entre conjuntos de valores. Ex.: Duas turmas A e B de uma mesma disciplina apresentaram: turma A, média 68 e turma B, média 85. As variâncias foram 225 e 235, respectivamente, para as turmas A e B. Qual é a turma mais homogênea? OBSERVAÇÃOOBSERVAÇÃO Tanto as medidas de posição quanto as de variação devem ser expressas na de variação devem ser expressas na mesma unidade dos valores originais (kg, m, h, L, alunos, ...). Somente a variância possui a unidade elevada ao quadrado. AULA 4 AULA 4 -- DISTRIBUIÇÃO DE FREQUÊNCIASDISTRIBUIÇÃO DE FREQUÊNCIAS EstatísticaEstatística CONCEITOS FUNDAMENTAISCONCEITOS FUNDAMENTAIS Variável – característica ou fator a ser estudado, representado por letras maiúsculas: X, Y, Z... Dado ou observação – representação numérica de umaDado ou observação – representação numérica de uma variável, representado por letras minúsculas: x1, x2, x3, ..., xn As variáveis podem ser divididas em dois grupos: variáveis quantitativas e variáveis qualitativas 1º) Variáveis quantitativas – são as que descrevem quantidades, magnitudes mensuráveis. Podem ser divididas em contínuas ou discretas. Variáveis contínuas – são aquelas usadas para descrever dados contínuos, isto é, aquelas que podem teoricamente assumir qualquer valor de um subconjunto dos númerosassumir qualquer valor de um subconjunto dos números reais. Dependem da precisão do instrumento de medida. Ex.: Z = {quantidade de leite, em kg, em duas ordenhas, de 5 vacas holandesas, aos 6 anos} X = {teor de gordura no leite} Variáveis discretas – são aquelas que assumem apenas determinados valores no campo dos reais. Se forem originadas de processo de contagem assumirão valores inteiros. Ex.: Z = {número de semente germinadas, por vaso,Ex.: Z = {número de semente germinadas, por vaso, após 2 semanas de plantio} Y = {número de medicamentos com prazo de validade vencido} 2º) Variáveis qualitativas – são utilizadas para descrever qualidades, categorias, atributos, etc. Podem ser classificadas em ordinais e nominais. Variáveis ordinais – quando houver um sentido de ordenação em seus valores. Ex.: X = {conceito obtido pelos alunos em Estatística}= {ruim, médio, bom, ótimo} T = {classe de renda dos operários do bairro B} = {baixa, média baixa, média, média alta, alta} Variáveis nominais – quando não houver sentido de ordenação. Ex.: Y = {sexo} ={masculino, feminino} Z = {raça de bovinos da estância E} = {holandês, nelore, zebu} DISTRIBUIÇÃO DE FREQUÊNCIAS ☺☺☺☺ É utilizada para organizar dados provenientes de medições, onde os mesmos serão distribuídos em classes pré- estabelecidas, com limites bem definidos. A distribuição de frequências é uma série estatística onde☺☺☺☺ A distribuição de frequências é uma série estatística onde permanecem fixos o tempo, o local e a espécie. É um arranjo dos valores observados em uma tabela com suas respectivas frequências. A organização dos dados estatísticos em classes tem como objetivo diminuir o tamanho da tabela e facilitar a visualização da variação do fenômeno em estudo. ☺☺☺☺ ☺☺☺☺ ☺☺☺☺ Ex: Trinta estudantes foram submetidos a uma prova de Estatística, obtendo as seguintes notas: 84 93 83 89 70 81 83 90 94 90 95 77 99 91 80 98 77 81 88 83 92 94 86 86 87 78 76 92 76 87 Agrupe os dados em intervalos de classe, determinando as frequências absoluta ( Fj ), absoluta acumulada ( ), relativa ( fj ) e relativa acumulada ( ) e represente-os graficamente. 92 94 86 86 87 78 76 92 76 87 ' jF ' jf CONSTRUÇÃO DE UMA DISTRIBUIÇÃO DE FREQUÊNCIAS Primeiro, nós temos os DADOS BRUTOS, ou seja, os dados desorganizados conforme foram coletados na pesquisa. coletados na pesquisa. Para construir uma distribuição de frequências devemos seguir os seguintes passos: 1º) Organizar o ROL, ou seja, colocar os dados em ordem crescente de grandeza; 70 76 76 77 77 78 80 81 81 83 83 83 84 86 86 87 87 88 89 90 90 91 92 92 93 94 94 95 98 9990 91 92 92 93 94 94 95 98 99 2º) Determinar o número de classes (nc) que será função do tamanho da amostra. O nc não deve ser muito pequeno ao ponto de perdemos informações, nem muito grande para que não sejamos repetitivos. Para calcular o nc usamos a Fórmula de Sturges: nc = 1 + 3,32 log n Onde: n é o número de observações (tamanho da amostra) Se nc não for inteiro ⇒⇒⇒⇒ arredondar para o inteiro MAIOR 3º) Calcular o intervalo de classe (i) que é a diferença entre os limites inferior e superior de cada classe: nc LL nc Ati is − == Se i não for inteiro ⇒⇒⇒⇒ arredondar para o inteiro MAIOR nc = 1 + 3,32 log n = 1 + 3,32 log 30 = 1 + (3,32 x 1,48) = 5,9 nc = 6 8,4 6 29 6 7099 nc LiLs nc Ati ==−=−== i = 5 4º) Montar a tabela de distribuição de frequências: ���� o limite inferior da 1ª classe deve coincidir com o limite inferior do ROL; ���� o limite superior da 1ª classe será igual ao limite inferior mais o intervalo de classe (Ls = Li + i); ���� o limite inferior da 2ª classe será igual ao limite superior da 1ª classe e assim, sucessivamente; ���� as classes devem apresentar intervalo fechado à esquerda e aberto à direita ( | ) para evitar que um dado esteja em duas classes ao mesmo tempo. j Classes 1 70 | 75 2 75 | 80 3 80 | 85 4 85 | 90 Tabela 1 – Distribuição de frequências das notas de 30 estudantes em uma prova de Estatística 4 85 | 90 5 90 | 95 6 95 | 100 Σ 5º) Após elaborarmos as classes, vamos colocar na tabela as seguintes colunas: a) Centro de classe (cj) – é o ponto médio entre o Li e o Ls da classe j, ou seja, é a média aritmética entre Li e Ls: 2 LL c isj + = b) Frequência absoluta (Fj) – conta-se no ROL, o número de observações que existem entre os limites da classe j. c) Frequência absoluta acumulada ( ) – soma-se a frequência absoluta da classe j com as frequências absolutas das classes anteriores. 2 c j = ' jF d) Frequência relativa (fj) – obtida pela divisão da frequência absoluta da classe “j” pelo número total de observações, ou seja: É bom observar que: - a frequência relativa representa a proporção de observações de n F f jj = - a frequência relativa representa a proporção de observações de um valor ou de uma classe em relação ao número total de observações; - a soma das frequências relativas é igual a 1 ou 100 %. e) Frequência relativa acumulada ( ) – soma-se a frequência relativa da classe “j” com as frequências relativas das classes anteriores. ' jf j Classes cj Fj F’j f j f’j 1 70 | 75 72,5 1 1 0,03 0,03 2 75 | 80 77,5 5 6 0,17 0,20 3 80 | 85 82,5 7 13 0,23 0,43 4 85 | 90 87,5 6 19 0,20 0,63 Tabela 1 – Distribuição de frequências das notas de 30 estudantes em uma prova de Estatística 4 85 | 90 87,5 6 19 0,20 0,63 5 90 | 95 92,5 8 27 0,27 0,90 6 95 | 100 97,5 3 30 0,10 1,00 Σ − 30 − 1,00 − GRÁFICOS DA DISTRIBUIÇÃO DE GRÁFICOS DA DISTRIBUIÇÃO DE FREQUÊNCIASFREQUÊNCIAS a) Histograma ⌦⌦⌦⌦ utiliza um sistema de coordenadas cartesianas onde as grandezas são representadas por retângulos contíguos (um ao lado do outro).contíguos (um ao lado do outro). ⌦⌦⌦⌦ as bases dos retângulos são proporcionais ao intervalo de classe e as alturas proporcionais as frequências absolutas. ⌦⌦⌦⌦ pode representar de forma gráfica a frequência relativa e as frequências absolutas e relativas acumuladas. 4 5 6 7 8 9 Notas de 30 estudantes em uma prova de Estatística Fj 0 1 2 3 4 70-75 75-80 80-85 85-90 90-95 95-100 Limites de classe b) Polígono de frequências ���� utiliza um sistema de coordenadas cartesianas ���� definido como uma linha poligonal fechada em relação ao eixo das abscissas ���� é a união dos pontos médios das bases superiores dos retângulos que compõem o histograma. 3 4 5 6 7 8 9Fj Notas de 30 estudantes em uma prova de Estatística 0 1 2 3 67,5 72,5 77,5 82,5 87,5 92,5 97,5 102,5 Centros de classe Medidas de posição para dados agrupados em classes a) Média aritmética ponderada ( )pX cF k ∑ n cF X 1j jj p ∑ = = onde: k – número de classes n – número de observações =pX 50,8630 00,595.2 = b) Mediana (Md) onde: Li – limite inferior da classe mediana P – é o ponto central do Rol, ou seja: i. F FPLMd med ' i − += 2 1nP +=P – é o ponto central do Rol, ou seja: F’ – é a frequência absoluta acumulada da classe imediatamente anterior à classe mediana Fmed – é a frequência absoluta da classe mediana i – intervalo de classe CLASSE MEDIANA – é a classe que deverá conter o elemento central do ROL (onde a frequência relativa acumulada é de 50 %). 2 P = Mediana (Md) 2 1nP += 5,152 130 = + = Classe mediana = 4ª i. F FPLMd med ' i − += 08,8708,2855. 6 135,1585 =+= − += 2 P = 2 c) Moda (Mo) onde: Li – limite inferior da classe modal ∆∆∆∆1 – diferença entre a frequência absoluta da classe modal e a i.LMo 21 1 i ∆+∆ ∆ += ∆∆∆∆1 – diferença entre a frequência absoluta da classe modal e a frequência absoluta da classe imediatamente anterior ∆∆∆∆2 - diferença entre a frequência absoluta da classe modal e a frequência absoluta da classe imediatamente posterior i – intervalo de classe CLASSE MODAL – é a classe de maior frequência absoluta. Moda (Mo) Classe modal = 5ª = ∆+∆ ∆ += iLMo i . 21 1 43,9143,1905.)38()68( )68(90 =+= −+− − + a) Variância (s2) (Temos duas fórmulas como no caso dos dados isolados) )cF( k 2∑ Medidas de variação para dados agrupados em classes k Definição Prática 1n n )cF( cF s 1j 2 jjk 1j 2 jj 2 − − = ∑ ∑ = = 1n )Xc(F s k 1j 2 pjj 2 − − = ∑ = onde: k – número de classes n – número de observações b) Desvio padrão (s) c) Coeficiente de variação (CV) 2ss = 100. X sCV p = Ex.: Para a distribuição de frequências construída, calcule todas as medidas de posição e de dispersão. j Classes cj Fj Fjcj Fjcj2 1 70 | 75 72,5 1 72,5 5.256,25 196,00 2 75 | 80 77,5 5 387,5 30.031,25 405,00 3 80 | 85 82,5 7 577,5 47.643,75 112,00 4 85 | 90 87,5 6 525,0 45.643,75 6,00 Tabela 1 – Distribuição de frequências das notas de 30 estudantes em uma prova de Estatística 2 jj )( xcF − 4 85 | 90 87,5 6 525,0 45.643,75 6,00 5 90 | 95 92,5 8 740,0 68.450,00 288,00 6 95 | 100 97,5 3 292,5 28.518,75 363,00 Σ − 30 2.595,0 225.837,50 1.370,00 pX s2 Variância (s2) 1n )Xc(F s k 1j 2 pjj 2 − − = ∑ = 24,47 29 370.1 == OU 1n n )cF( cF s k 1j 2 jjk 1j 2 jj 2 − − = ∑ ∑ = = 24,47 29 370.1 130 30 )0,595.2(50,837.225 2 == − − = Desvio padrão (s) 2ss = 87,624,47 == Coeficiente de variação (CV) 100. X sCV p = %95,7100.50,86 87,6 == ASSIMETRIAASSIMETRIA indica se existem mais observações à esquerda, à direita ou se a distribuição das observações se processa mais uniformemente à esquerda ou à direita da posição deà esquerda ou à direita da posição de referência, normalmente a média aritmética. indica o grau e a direção do afastamento da simetria. Momentos são quantidades calculadas com o propósito de se estudar a distribuição. O momento de ordem r centrado num valor a é dado por: )ax( m n 1i r i∑ = − = n m 1ir = = n )ac(F m n 1i r jj r ∑ = − =Distribuição de frequências Dois valores geram MOMENTOS importantes em um conjunto de valores: a=0→momentos centrados na origem chamados ORDINÁRIOS de ordem r ( ) ' rmchamados ORDINÁRIOS de ordem r ( ) a= →momentos centrados na média chamados momentos de ordem r (mr) rm X O coeficiente de assimetria (a3) utiliza o segundo e o terceiro momento centrados na média: 22 3 3 mm m a = n )Xc(F m 2 pjj 2 ∑ − = n )Xc(F m 3 pjj 3 ∑ − = Classificação 1º) |a3| ≤≤≤≤ 0,5 – a distribuição é simétrica, não havendo predominância de valores nem à direita, nem à esquerda da média. = Md = MoX 2º) a3 > 0 – a distribuição é assimétrica positiva ou há predominância dos valores à esquerda da média. a3 < 0 – a distribuição é assimétrica negativa ou há predominância dos valores à direita da média. <Md < Mo>Md > MoX X j Classes cj 1 70 | 75 72,5 1 196,00 - 2.744,00 38.416,00 2 75 | 80 77,5 5 405,00 - 3.645,00 32.805,00 3 80 | 85 82,5 7 112,00 -448,00 1.792,00 4 85 | 90 87,5 6 6,00 6,00 6,00 2 jj )( xcF −jF 3jj )( xcF − 4jj )( xcF − ppp Tabela 1 – Distribuição de frequências das notas de 30 estudantes em uma prova de Estatística 4 87,5 6 5 90 | 95 92,5 8 288,00 1.728,00 10.368,00 6 95 | 100 97,5 3 363,00 3.993,00 43.923,00 Σ − 30 1.370,00 -1.110,00 127.310,00 Assimetria (a3) 22 3 3 mm m a = 12,0 73,308 00,37 76,667,45 00,37 30 370.1 30 370.1 30 00,110.1 −= − = − = − = x 3030 a3 = - 0,12 SIMÉTRICA CURTOSECURTOSE É o grau de achatamento de uma distribuição. Uma curva pode apresentar-se mais achatadaUma curva pode apresentar-se mais achatada ou mais afilada em relação à curva padrão ou normal. O coeficiente de curtose é definido por: 2 2 4 4 m m a = n )Xc(F m 2 pjj 2 ∑ − = n )Xc(F m 4 pjj 4 ∑ − = As distribuições são classificadas em: a4 < 3 – distribuição platicúrtica (c) a4 = 3 – distribuição mesocúrtica (b) a4 > 3 – distribuição leptocúrtica (a)a4 > 3 – distribuição leptocúrtica (a) 2 2 4 4 m m a = Curtose (a4) 03,2 75,085.2 67,243.4 370.1 30 00,310.127 2 == = 2m 30 a4 = 2,03 PLATICÚRTICA “A curva normal padrão é simétrica e mesocúrtica” Ex.: Calcule os coeficientes de assimetria e de curtose para a distribuição de frequências das notas de 30 estudantes na prova de Estatística (exemplo anterior). AULA AULA 5 5 –– CORRELAÇÃO E CORRELAÇÃO E REGRESSÃO LINEARREGRESSÃO LINEAR EstatísticaEstatística REGRESSÃO LINEARREGRESSÃO LINEAR CORRELAÇÃO LINEAR SIMPLESCORRELAÇÃO LINEAR SIMPLES * É o estudo do grau de relação entre duas variáveis X e Y * Ao verificar a inter-relação queremos verificar também, se ao variar uma das variáveis a outra varia e, se varia, é no mesmo sentido ou no sentido inverso.sentido ou no sentido inverso. Exemplos: - aumento de peso de cobaias e quantidade de ração consumida; - temperatura e pressão de um gás; - quantidade de adubo e produtividade de lavouras; - peso e altura de pessoas adultas. CorrelaçãoCorrelação SimplesSimples - quando se trata de duas variáveis � Correlação positivapositiva – se X e Y variam no mesmo sentido (X↑ Y ↑ ) � Correlação negativanegativa – se T e Z variam em sentido contrário (T↑Z↓ ou T↓ Z↑) CorrelaçãoCorrelação MúltiplaMúltipla – mais de duas variáveis CorrelaçãoCorrelação LinearLinear - se ao localizarmos os pontos em um diagrama de dispersão, observarmos a tendência de proximidade de uma RETA. ∑ ∑ yx A correlação pode ser medida por um coeficiente “r”, chamado COEFICIENTE DE CORRELAÇÃO LINEAR DE PEARSON e independe das unidades de medida, cuja expressão é: ( ) ( ) − − − = ∑ ∑∑ ∑ ∑ ∑ ∑ n y y n x x n yx yx r i i i i ii ii 2 2 2 2 onde: x e y são os valores das variáveis consideradas n é igual ao número de pares de variáveis Propriedades de r 1º) r deve satisfazer a desigualdade: ; 2º) r será igual a –1 ou +1, se, e somente se, todos os pontos da dispersão estiverem numa linha reta; 1r1 +≤≤− pontos da dispersão estiverem numa linha reta; 3º) se r for maior que zero (r > 0), a relação entre X e Y é direta, isto é, à medida que X cresce, Y cresce; 4º) se r for menor que zero (r < 0), a relação4º) se r for menor que zero (r < 0), a relação entre X e Y é inversa, isto é, à medida que X cresce, Y decresce. r < 0 r >0 r ≅≅≅≅ 0 Ex.: Ao final do primeiro período letivo de um curso universitário, as seguintes médias de notas foram obtidas por 12 alunos e comparadas com o teste de QI que também estão na Tabela 1. Calcule o Coeficiente deestão na Tabela 1. Calcule o Coeficiente de Correlação Linear de Pearson para esses dados. Alunos Notas (x) QI (y) 1 2,1 116 243,6 4,41 13.456 2 2,2 129 283,8 4,84 16.641 3 3,1 123 381,3 9,61 15.129 4 2,3 121 278,3 5,29 14.641 5 3,4 131 445,4 11,56 17.161 6 2,9 134 388,6 8,41 17.956 7 2,9 126 365,4 8,41 15.876 iiyx 2ix 2 iy Tabela 1 - Notas foram obtidas por 12 alunos de um Curso Universitário comparadas com o teste de QI no primeiro período letivo 7 2,9 126 365,4 8,41 15.876 8 2,7 122 329,4 7,29 14.884 9 2,1 114 239,4 4,41 12.996 10 1,7 118 200,6 2,89 13.924 11 3,3 132 435,6 10,89 17.424 12 3,5 129 451,5 12,25 16.641 Σ 32,2 1.495 4.042,9 90,26 186.729 ( ) ( ) 73,09,4766,38 32,3112 495.12,329,042.4 == − = x x r ( ) ( ) − − − = ∑ ∑∑ ∑ ∑ ∑ ∑ n y y n x x n yx yx r i i i i ii ii 2 2 2 2 ( ) ( ) 73,09,4766,38 12 1495729.186 12 2,3226,90 22 == − − = x r r = 0,73 r > 0 a relação entre X e Y é direta, isto é, à medida que X cresce, Y cresce O chamado coeficiente de determinação, mede o modo de associação de duas variáveis. CD = (R²).100 COEFICIENTE DE DETERMINAÇÃO COEFICIENTE DE DETERMINAÇÃO (CD)(CD) CD = (R²).100 Quanto maior o CD em termos percentuais, maior é a relação existente entre as variáveis estudadas. Voltando ao exemplo anterior, o CD = 53,29 % (% de correlação entre as variáveis estudadas. REGRESSÃO LINEAR SIMPLESREGRESSÃO LINEAR SIMPLES É o estudo da relação linear entre duas variáveis X e Y X é a variável independente, fixa, sem erro experimental Y é a variável dependente, aleatória, sujeita a erro experimentalY é a variável dependente, aleatória, sujeita a erro experimental A Regressão mede as relações de causa e efeito Em um sistema de coordenadas cartesianas é possível visualizar a tendência dos dados, para que verifiquemos se essa tendência pode ser representada por uma CURVA ou uma RETA. Se a relação for expressa por uma função linear chama-se REGRESSÃOREGRESSÃO LINEARLINEAR : Uma variável independente (REGRESSÃO LINEAR SIMPLES) Mais de uma variável independente (REGRESSÃO LINEAR MÚLTIPLA) 21 2 2 2 1 3341740)( xxxxYE −−−= O estudo da relação entre X e Y é expresso pelo modelo matemático (EQUAÇÃO DA RETA): onde: Yi observação da variável dependente Y no i-ésimo par (xi, yi); Xi é a i-ésima observação da variável independente X do par (xi,, y ); iii eBXAY ++= yi); A é o coeficiente linear, isto é, a altura em que a reta corta o eixo do Y; B é o coeficiente angular, que é o aumento ou decréscimo que sofre a variável Y quando acrescentamos a variável X de uma unidade; ei é o erro experimental associado a cada observação Yi. onde: A e B são os parâmetros do modelo matemático. A função linear estimada é dada pela equação: ii XBˆAˆYˆ += e são as estimativas dos parâmetros A e B, obtidas através do Método dos Mínimos Quadrados, que torna mínima a soma de quadrados dos desvios, ou seja: deve ser mínima. 2 ii 2 i )YˆY(eˆ ∑∑ −= Aˆ Bˆ MÉTODO DOS MÍNIMOS QUADRADOSMÉTODO DOS MÍNIMOS QUADRADOS ∑ ∑ ∑ ∑ ∑ − − = )x( x n yx yx Bˆ 2 i2 ii ii onde: n é o número de pares (x , y )∑ ∑ − n )x( x i2 i n é o número de pares (xi, yi) XBˆYAˆ −= Ex.: Considere o seguinte conjunto de pares de valores (xi, yi) onde X=pH e Y=notas (x 10), atribuídas a um determinado produto: X Y (valores ajustados) 4,0 33 132,0 16,00 35,321 4,5 42 189,0 20,25 40,071 iiyx 2ix Y ˆ 4,5 42 189,0 20,25 40,071 5,0 45 225,0 25,00 44,821 5,5 51 280,5 30,25 49,571 6,0 53 318,0 36,00 54,321 6,5 61 396,5 42,25 59,071 7,0 62 434,0 49,00 63,821 38,5 347 1.975,0 218,75 5,9 7 )5,38(75,218 7 3475,38975.1 ˆ 2 = − − = x B 5,5 7 5,38X == 57,49 7 347Y i == ∑ ∑ ∑ ∑ ∑ − − = n )x( x n yx yx Bˆ 2 i2 i ii ii 68,2)5,5x5,9(57,49Aˆ −=−= ii X5,968,2Yˆ +−=Equação de regressão XBˆYAˆ −= Com a equação da reta calculamos os valores ajustados :iYˆ 321,35)0,4x5,9(68,2Yˆ 1 =+−= 071,40)5,4x5,9(68,2Yˆ 2 =+−= . Com dois pontos estimados 821,63)0,7x5,9(68,2Yˆ 7 =+−= . . . Como o valor do coeficiente angular é positivo, a reta é crescente. estimados traçamos a reta pH Notas (x 10) y = 9,5x - 2,678 R² = 0,969 0 10 20 30 40 50 60 70 3 4 5 6 7 8 y = 9,5x - 2,679 R² = 1 0 10 20 30 40 50 60 70 3 4 5 6 7 8 pH Notas (x 10) MÉTODO DOS MÍNIMOS QUADRADOS