Esta é uma pré-visualização de arquivo. Entre para ver o arquivo original
UNIVERSIDADE FEDERAL DO RIO DE JANEIRO – UFRJ - 46 - - ESTATÍSTICA APLICADA – ANÁLISE DE CORRELAÇÃO - Prof. André A. de Salles ESTATÍSTICA APLICADA -- UNIDADE 4 -- ANÁLISE DE CORRELAÇÃO Relação entre duas variáveis Consumo × renda Peso × idade Quantidade × preço taxa de juros × procura por moeda Salário × escolaridade taxa de câmbio × balança comercial Vendas × gastos com publicidade Demanda × preço Problemas reais envolvem relações --- bivariadas --- multivariadas Se existe relação, ou associação, entre duas ou mais variáveis é importante a informação do grau dessa associação e é esse o objeto de estudo da associação ou da correlação. Estudo da Correlação como medir a relação, aderência, ou associação entre duas variáveis ou mais. coeficiente de correlação ≡ correlação momento-produto (Karl Pearson). Coeficiente de correlação ρ (rô) da população é definido como: YX XY XYYX σσ σρρ ==);( ou )()( ),();( YDPXDP YXCOVYX XY == ρρ UNIVERSIDADE FEDERAL DO RIO DE JANEIRO – UFRJ - 47 - - ESTATÍSTICA APLICADA – ANÁLISE DE CORRELAÇÃO - Prof. André A. de Salles VARIÁVÉIS ALEATÓRIAS BIVARIADAS (ou bidimensionais) INFERÊNCIA ESTATISTICA PRESSUPOSTO Existe distribuição da população para todas as possíveis observações das variáveis de interesse. Distribuições populacionais ---- Parâmetros DISTRIBUIÇÃO DISCRETA DE PROBABILIDADE DE ( )YX ; ijjiji pyxPyYxXP ==== );();( DISTRIBUIÇÃO DE PROBABILIDADE BIVARIADA X Y 1x K ix K mx )(YP ) 1y 11p K 1ip K 1mp 1•p M M K M K M M jy jp1 K ijp K mjp jp• M M K M K M M ny np1 K inp K mnp n p • P(X) •1p K •ip K •mp 1 UNIVERSIDADE FEDERAL DO RIO DE JANEIRO – UFRJ - 48 - - ESTATÍSTICA APLICADA – ANÁLISE DE CORRELAÇÃO - Prof. André A. de Salles Seis parâmetros importantes: - Médias ∑ •== i iiX xpXE )(µ ∑ •== i jjY ypYE )(µ - Variâncias ∑ −=−== • i XiiXX xpXEXVar 222 )()()( µµσ ∑ −=−== • j YjjYY ypYEYVar 222 )()()( µµσ - Covariância [ ] ))(())(();( YjX I J iijYXXY yxpYXEYXCov µµµµσ −−=−−== ∑∑ - Coeficiente de Correlação YX XY XYYX σσ σρρ ==);( PROBABILIDADES CONDICIONADAS )( ),()/( i ji ij xXP yYxXP xXyYP = == === ou • = i ij ij p p xyP )/( , sendo: )/( ij xXyYP == a probabilidade de jyY = condicionada a ixX = ; •ip a probabilidade marginal e ijp a probabilidade conjunta. UNIVERSIDADE FEDERAL DO RIO DE JANEIRO – UFRJ - 49 - - ESTATÍSTICA APLICADA – ANÁLISE DE CORRELAÇÃO - Prof. André A. de Salles Parâmetros importantes: - Média Condicional (ou valor esperado condicionado) )( );())/(()/(/ i ji j j jijjiXY xP yxP yxXyPyXYE i ∑ ∑====µ - Variância Condicional )/()()/( 2/2 / ij j XYjiXY xXYPYXYVar ii =×−== ∑ µσ Observação: As médias e variâncias condicionais são funções de x => tem-se um conjunto de m médias e variâncias (da mesma forma pode-se obter um conjunto de n médias e variâncias condicionais para x em função de y). Exemplos: • SALÁRIOS vs TEMPO DE SERVIÇO --- firma com 10 operários: Operário 1 2 3 4 5 6 7 8 9 10 Salário ($) 140 150 180 160 170 170 160 160 160 150 tempo (anos) 4 5 6 6 6 6 5 6 6 5 Y = salário em $ X = tempo de serviço em anos N = 10 UNIVERSIDADE FEDERAL DO RIO DE JANEIRO – UFRJ - 50 - - ESTATÍSTICA APLICADA – ANÁLISE DE CORRELAÇÃO - Prof. André A. de Salles Dada a Distribuição de Probabilidade Conjunta (X ; Y) , tem-se: X Y 4 5 6 P(Y) 140 0,1 0,0 0,0 0,1 150 0,0 0,0 0,0 0,0 160 0,0 0,0 0,0 0,0 170 0,0 0,0 0,0 0,0 180 0,0 0,0 0,0 0,0 P(X) 0,1 0,0 0,0 1,0 • SALÁRIOS vs DESPESAS COM FÉRIAS → as variáveis formam a população. X = salário em $ mil Y = despesa com férias em $ mil Dada a Distribuição de Probabilidade Conjunta (X ; Y) , tem-se: X Y 20 30 40 1 0,28 0,03 0,00 2 0,08 0,15 0,03 3 0,04 0,06 0,06 4 0,00 0,06 0,15 5 0,00 0,00 0,03 6 0,00 0,00 0,03 P(X) 0,4 0,30 0,30 Media (Y/X) 1,40 2,50 3,90 Variancia (Y/X) 0,44 0,85 1,09 UNIVERSIDADE FEDERAL DO RIO DE JANEIRO – UFRJ - 51 - - ESTATÍSTICA APLICADA – ANÁLISE DE CORRELAÇÃO - Prof. André A. de Salles Probabilidades de Y condicionadas a X X Y 20 30 40 1 0,7 0,1 0,0 2 0,2 0,5 0,1 3 0,1 0,2 0,2 4 0,0 0,2 0,5 5 0,0 0,0 0,1 6 0,0 0,0 0,1 DISTRIBUIÇÃO DE PROBABILIDADE CONTÍNUA DE ( )YX ; ijjiji pyxPyYxXP ==== );();( ou XYXYXY pfYXf ==),( Seis parâmetros importantes: - Médias ∫ +∞ ∞− == dxxxfXE xX )()(µ ∫ +∞ ∞− == dxxxfXE xX )()(µ - Variâncias 22 )()( XX XEXVar µσ −== 22 )()( YY YEYVar µσ −== - Covariância [ ] ∫∫ −−=−−== R yxxyYXXY dxdyyxfYXEYXCov ))(())(();( µµµµσ - Coeficiente de Correlação YX XY XYYX σσ σρρ ==);( UNIVERSIDADE FEDERAL DO RIO DE JANEIRO – UFRJ - 52 - - ESTATÍSTICA APLICADA – ANÁLISE DE CORRELAÇÃO - Prof. André A. de Salles VARIÁVEIS ALEATORIAS BIVARIADAS Contínuas → );( yxf • Distribuição mais importante: Distribuição Normal Bivariada . Função Densidade de Probabilidade: − + − − − − − − − = 22 22 2)1(2 1 exp 12 1);( Y y Y y X X X X YX yyxx yxf σ µ σ µ σ µρ σ µ ρρσpiσ . Distribuição marginal de X Integrando );( yxf em relação a x -------- )(xf → );( 2XXN σµ −− = 2 2 1 exp 2 1)( X X X x xf σ µ piσ . Distribuição Condicional de Y dado X -- )/( XYf → );( 2 / / XYXYN σµ −− == 2 / / 2 / 2 1 exp 2 1 )( );()/( XY XY XY y Xf YXfXYf σ µ piσ UNIVERSIDADE FEDERAL DO RIO DE JANEIRO – UFRJ - ESTATÍSTICA APLICADA – ANÁLISE DE CORRELAÇÃO - Prof. André A. de Salles - 58 - COVARIÂNCIA . Definição Covariância é a média aritmética do produto dos desvios das variáveis em relação às suas médias. Mede a associação linear entre variáveis aleatórias, mas não a intensidade dessa associação. . Propriedades Sendo a e b números reais quaisquer, tem-se: ( i) )();( XVXXCOV = ; (ii) );();( YXCOVbYaXCOV =±± ; (iii) ab YXCOV b Y a XCOV );();( = . Covariância Amostral n yyxx YXCOV ii∑ −−= ))(();( ou −= ∑ ∑ ∑ n yx yx n YXCOV iiii 1);( COEFICIENTE DE CORRELAÇÃO . Definição Coeficiente de correlação é a razão da covariância pelos desvios padrões das variáveis em questão. Mede o grau de associação linear de variáveis aleatórias. . Propriedades Sendo a e b números reais quaisquer, tem-se: ( i) );();( YXbYaX ρρ =±± ; (ii) );();( YX b Y a X ρρ = . UNIVERSIDADE FEDERAL DO RIO DE JANEIRO – UFRJ - ESTATÍSTICA APLICADA – ANÁLISE DE CORRELAÇÃO - Prof. André A. de Salles - 59 - . Correlação Amostral ∑ ∑∑∑ ∑∑∑ −− − == 2222 )()( ))(();( yynxxn yxxyn rYXr XY . Limites do Coeficiente de Correlação 1);(1 +≤≤− YXρ ou 11 +≤≤− xyr DIAGRAMA DE DISPERSÃO Diagrama de Dispersão 0 1 2 3 4 5 6 7 8 0 1 2 3 4 5 6 UNIVERSIDADE FEDERAL DO RIO DE JANEIRO – UFRJ - ESTATÍSTICA APLICADA – ANÁLISE DE CORRELAÇÃO - Prof. André A. de Salles - 60 - 0=r Relação Não Linear 0 0.2 0.4 0.6 0.8 1 1.2 0 1 2 3 4 5 6 Correlação Linear Positiva Perfeita ........... 1+=r Correlação Linear Positiva Perfeita 0 1 2 3 4 5 6 7 8 9 0 2 4 6 8 10 Correlação Linear Negativa Perfeita ........... 1−=r Correlação Linear Negativa Perfeita 0 1 2 3 4 5 6 7 8 9 0 2 4 6 8 10 UNIVERSIDADE FEDERAL DO RIO DE JANEIRO – UFRJ - ESTATÍSTICA APLICADA – ANÁLISE DE CORRELAÇÃO - Prof. André A. de Salles - 61 - Correlação Linear Positiva ................ 10 << r Correlação Linear Positiva 0 1 2 3 4 5 6 7 8 9 10 0 2 4 6 8 10 Correlação Linear Negativa ....................... 01 <<− r Correlação Linear Negativa 0 1 2 3 4 5 6 7 8 9 10 0 2 4 6 8 10 Observações sobre a interpretação do coeficiente de correlação: (i) ⇒0 Correlação Nula ⇒≤< 3.00 r Correlação Fraca ⇒≤< 7.03.0 r Correlação Moderada ⇒<< 17.0 r Correlação Forte ⇒1 Correlação Perfeita (ii) Correlação Espúria – Existência de um coeficiente de correlação entre duas variáveis, sem nenhuma explicação lógica para isso.