Esta é uma pré-visualização de arquivo. Entre para ver o arquivo original
Infereˆncias sobre o vetor de Me´dia (Johnson & Wichern, Cap. 5) Considere o problema univariado no qual tem- se uma amostra aleato´ria de tamanho n da distribuic¸a˜o N(µ, σ2), em que ambos os paraˆ- metros de me´dia e variaˆncia sa˜o desconheci- dos. A estat´ıstica dada por t = X¯ − µ√ s2/n tem distribuic¸a˜o t-de-Student com n− 1 graus de liberdade. X¯ = 1n ∑n i=1Xi, s 2 = 1n−1 ∑n i=1(Xi − X¯)2 e X1, X2, ..., Xn compo˜em a amostra aleato´ria da N(µ, σ2). 1 Tomando o quadrado da estat´ıstica t, observe que ela pode ser escrita na forma t2 = √ n(X¯ − µ)T ( s2 )−1√ n(X¯ − µ). Esta u´ltima expressa˜o nos sugere uma versa˜o multivariada desta estat´ıstica, a saber, T2 = n(X¯ − µ)TS−1(X¯ − µ), X¯ = 1n ∑n i=1Xi, S = 1n−1 ∑n i=1(Xi−X¯)(Xi−X¯)T e X1, X2, ..., Xn compo˜em uma amostra aleato´ria da Np(µ,Σ). A estat´ıstica T2 e´ chamada estat´ıstica T2 de Hotelling em homenagem a Harold Hotelling, pioneiro na Ana´lise Multivariada e o primeiro a obter a sua distribuic¸a˜o amostral. 2 Proposic¸a˜o 1: Sejam X1, X2, ..., Xn uma amostra aleato´ria da distribuic¸a˜o Np(µ,Σ) e T2 = n(X¯ − µ)TS−1(X¯ − µ). Enta˜o n− p (n− 1)pT 2 ∼ Fp,n−p. Natureza da estat´ıstica T2: √ n(X¯ − µ)T︸ ︷︷ ︸ Np(0,Σ) (Wp(n−1,Σ)n−1 ) −1︷ ︸︸ ︷{ 1 n− 1 n∑ i=1 (Xi − X¯)(Xi − X¯)T } √ n(X¯ − µ)︸ ︷︷ ︸ Np(0,Σ) √ n(X¯ − µ) e ∑ni=1(Xi − X¯)(Xi − X¯)T independentes. 3 Considere o problema de testar as hipo´teses H0 : µ = µ0 versus H1 : µ 6= µ0 quando se tem uma amostra aleato´ria da distribuic¸a˜o normal multivariada. A estat´ıstica de teste neste caso sera´ dada por T2 = n(X¯ − µ0)TS−1(X¯ − µ0). Sob H0, a estat´ıstica T 2 tem distribuic¸a˜o (n−1)p n−p Fp,n−p de acordo com a proposic¸a˜o 1. Assim, ao n´ıvel de significaˆncia α, rejeitamos H0 se T2 ≥ (n−1)pn−p Fp,n−p(1−α) com Fp,n−p(1−α) representando o quantil de 100(1− α)% da distribuic¸a˜o Fp,n−p. 4 Exemplo: A transpirac¸a˜o de 20 mulheres sau- da´veis foi analisada. As observac¸o˜es aqui sa˜o tri-variadas, a saber, X1 - taxa de suor, X2 - conteu´do de so´dio e X3 - conteu´do de pota´ssio. Os dados esta˜o dispon´ıveis no arquivo t5-1.dat dos autores. Deseja-se testar, ao n´ıvel de sig- nificaˆncia de 10%, as hipo´teses H0 : µ T = (4,50,10) versus H1 : µ T 6= (4,50,10). Os dados foram salvos no arquivo suor.txt com primeira linha informando os nomes das varia´- veis, a saber, suor, sodio e potassio, no di- reto´rio www.im.ufrj.br/flavia/mad484. Lembrem-se antes de verificar a normalidade dos dados! 5 dados=read.table(”http://www.im.ufrj.br/flavia/mad484/ suor.txt”,header=T) A normalidade univariada e´ simples e ra´pida de ser verificada e a distribuic¸a˜o normal univariada e´ aceita´vel para as treˆs medidas isoladamente. Fac¸a xbarra=mean(dados), S=cov(dados), IS=solve(S), m0=c(4,50,10), n=20, p=3, a=0.1, T2=n*(xbarra-m0)% *%IS% *%(xbarra-m0) RC=(n-1)*p*qf(1-a,p,n-p)/(n-p) Compare T2 com RC. 6 Obteve-se T2 ' 9.738773 ' 9.74 e RC ' 8.172573 ' 8.17. Logo, ao n´ıvel de significaˆncia de 10%, rejeita- mos a hipo´tese nula. Qual e´ o p-valor deste teste? Calcule T2*(n-p)/[p*(n-1)] e obtenha a cauda superior da distribuic¸a˜o Fp,n−p associada a este valor. qpv=T2*(n-p)/((n-1)*p)' 2.904546 p-valor=1 − pf(qpv, p, n − p) ' 0.06492834 ' 6.5%. Portanto, para qualquer n´ıvel de significaˆncia menor que 6,5%, H0 na˜o seria rejeitada. 7 A estat´ıstica T2 e´ invariante sob transformac¸o˜es de escala e posic¸a˜o. Defina Y = CX+d, com X p×1, Y p×1 vetores aleato´rios, d vetor de constantes fixadas p× 1 e C matriz p × p na˜o-singular de constantes fixadas. Enta˜o, Y¯ = CX¯ + d e SY = CSXC T . Ale´m disso, µY = CµX + d. Assim, T 2Y = n(Y¯ − µY )T ( S−1Y ) (Y¯ − µY ) = = n(CX¯ − CµX)T(CSXCT)−1(CX¯ − CµX) = = n(X¯ − µX)T CT(CT)−1︸ ︷︷ ︸ Ip S−1X C −1C︸ ︷︷ ︸ Ip (X¯ − µX) = = n(X¯ − µX)TS−1X (X¯ − µX) = T 2X 8 A Estat´ıstica T2 e os Testes de Raza˜o de Veros- similhanc¸a. Uma metodologia muito usada na construc¸a˜o de testes de hipo´teses e´ conhecida como teste da raza˜o de verossimilhanc¸as (teste RV). Em linhas gerais se temos uma amostra aleato´- ria de uma distribuic¸a˜o que depende de um paraˆmetro θ, que pode ser um escalar ou um vetor, cuja densidade e´ fn(x|θ) e desejamos testar H0 : θ ∈ Θ0 versus H1 : θ 6∈ Θ0, a estat´ıstica do teste RV e´ dada por Λ(x) = maxθ∈Θ0 L(θ|x) maxθ L(θ|x) com L(θ|x) a func¸a˜o de verossimilhanc¸a. 9 Observe que a estat´ıstica Λ(x) e´ um nu´mero entre 0 e 1. Se o ma´ximo sob H0 for o ma´ximo global, te- remos Λ(x) = 1. Caso contra´rio, Λ(x) < 1 e como Λ(x) repre- senta uma raza˜o entre quantidades positivas, segue que 0 < Λ(x) ≤ 1. Assim, e´ razoa´vel dizer que a hipo´tese nula sera´ rejeitada para valores pequenos de Λ(x) tal que as regio˜es cr´ıticas nos testes RV sa˜o da forma Λ(x) ≤ c. Para obter o valor de c e´ necessa´rio conhecer a distribuic¸a˜o amostral de Λ(x). Esta distribuic¸a˜o nem sempre e´ fa´cil de ser obtida e muitas vezes sa˜o necessa´rios me´todos aproximados para ava- liar o valor de c para um dado n´ıvel de sig- nificaˆncia. 10 Distribuic¸a˜o Assinto´tica da estat´ıstica Λ −2lnΛ a∼ χ2ν−ν0 em que ν e´ a dimensa˜o do espac¸o de paraˆmetros e ν0 e´ a dimensa˜o do sub-espac¸o correspon- dente a` hipo´tese nula. Vamos calcular a estat´ıstica Λ(x) no contexto do teste das hipo´teses H0 : µ = µ0 versus H1 : µ 6= µ0, quando se tem uma amostra aleato´ria da distribuic¸a˜o normal multivariada. 11 Ja´ vimos que o ma´ximo global da func¸a˜o de verossimilhanc¸a e´ obtido quando µˆ = X¯ e Σˆ = n−1n S e e´ dado por L(µˆ, Σˆ) = (2pi)−np/2|Σˆ|−n/2e−np/2. Portanto, ja´ temos o denominador da estat´ıstica Λ(x), neste caso. Para obter o numerador, observe que sob H0 ha´ apenas um valor poss´ıvel para µ dado por µ0. Neste caso, usando os resultados apre- sentados na sec¸a˜o de estimac¸a˜o de maxima- verossimilhanc¸a, e´ fa´cil ver que a matriz que maximiza a verossimilhanc¸a sob H0 e´ dada por Σˆ0 = 1 n ∑n i=1(Xi − µ0)(Xi − µ0)T . 12 Assim, o numerador de Λ(x) e´ L(µ0, Σˆ0) = (2pi) −np/2|Σˆ0|−n/2e−np/2 Logo, Λ = ( |Σˆ| |Σˆ0| )n/2 = ( |∑ni=1(Xi − X¯)(Xi − X¯)T | |∑ni=1(Xi − µ0)(Xi − µ0)T | )n/2 A estat´ıstica equivalente Λ2/n = |Σˆ|/|Σˆ0| e´ chamada lambda de Wilks. E´ fa´cil, por meio de artif´ıcios alge´bricos, mostrar que as estat´ısticas T2 e Λ para o teste aqui considerado satisfazem a relac¸a˜o Λ2/n = ( 1 + T2 n− 1 )−1 e, usando esta relac¸a˜o, chegamos a uma outra e´xpressa˜o para o ca´lculo da estat´ıstica T2: T2 = (n−1)|Σˆ0||Σˆ| − (n− 1). 13 Calcule a estat´ıstica do teste RV para os dados da base suor.txt. Verifique a relac¸a˜o entre as estat´ısticas T2 e Λ. Aqui sera´ necessa´rio corrigir os dados pela me´dia µ0 dada por (4,50,10). dados.m0=matrix(0,20,3) m0=matrix(0,1,3) m0[1,1]=4, m0[1,2]=50, m0[1,3]=10 for (i in 1:n) for (j in 1:p) dados.m0[i,j]=dados[i,j]-m0[1,j] S0=matrix(0,3,3) for (i in 1:n) S0=S0+dados.m0[i,]%*%t(dados.m0[i,]) S0=S0/n, Shat=(n-1)*S/n T2.b=(n-1)*(det(S0)/det(Shat)-1) T2.b' 9.738773 que e´ exatamente o mesmo valor, como esperado, obtido anteriormente. 14 Conteu´do do cap´ıtulo 5 a ser cobrado na P1: Sec¸o˜es 5.1 a 5.3. Exerc´ıcios sugeridos: 5.1 a 5.4. 15