Esta é uma pré-visualização de arquivo. Entre para ver o arquivo original
Estat´ıstica Ba´sica Profa. Daniela Paula Instituto de Matema´tica -UFRRJ 2012 Gabriel Underline Contents 1 Introduc¸a˜o 1 2 Ana´lise explorato´ria de dados - Resumo de Dados 2 2.1 Tipos de varia´veis . . . . . . . . . . . . . . . . . . . . . . . . . 2 2.2 Distribuic¸a˜o de frequeˆncias . . . . . . . . . . . . . . . . . . . . 3 2.3 Gra´ficos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 2.4 Medidas resumo - Medidas de posic¸a˜o central . . . . . . . . . 9 2.5 Me´dia geome´trica e Me´dia harmoˆnica . . . . . . . . . . . . . . 11 2.6 Medidas de dispersa˜o . . . . . . . . . . . . . . . . . . . . . . . 15 2.7 Quantis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 2.8 Box-plot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 2.9 Exerc´ıcios - lista 01 . . . . . . . . . . . . . . . . . . . . . . . . 22 2.10 Exerc´ıcios - lista 02 . . . . . . . . . . . . . . . . . . . . . . . . 23 2.11 Exerc´ıcios - lista 03 . . . . . . . . . . . . . . . . . . . . . . . . 25 3 Ana´lise bidimensional 27 3.1 Associac¸a˜o entre varia´veis qualitativas . . . . . . . . . . . . . 28 3.2 Associac¸a˜o entre varia´veis quantitativas . . . . . . . . . . . . . 32 3.3 Exerc´ıcios - lista 04 . . . . . . . . . . . . . . . . . . . . . . . . 36 3.4 Exerc´ıcios - lista de revisa˜o . . . . . . . . . . . . . . . . . . . . 39 4 Probabilidade 43 4.1 Modelo probabil´ıstico . . . . . . . . . . . . . . . . . . . . . . . 43 4.2 Probabilidade condicional e independeˆncia . . . . . . . . . . . 46 4.3 Teorema de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . 52 4.4 Exerc´ıcios - lista 05 . . . . . . . . . . . . . . . . . . . . . . . . 54 5 Varia´veis aleato´rias discretas 59 5.1 Func¸a˜o de Probabilidade . . . . . . . . . . . . . . . . . . . . . 59 5.2 Func¸a˜o de distribuic¸a˜o acumulada . . . . . . . . . . . . . . . . 61 5.3 Valor esperado e variaˆncia . . . . . . . . . . . . . . . . . . . . 64 5.4 Modelo uniforme discreto . . . . . . . . . . . . . . . . . . . . . 66 5.5 Modelo Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . 68 5.6 Modelo Binomial . . . . . . . . . . . . . . . . . . . . . . . . . 69 5.7 Modelo Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . 72 5.8 Exerc´ıcios - lista 06 . . . . . . . . . . . . . . . . . . . . . . . . 74 i 6 Varia´veis aleato´rias cont´ınuas 78 6.1 Func¸a˜o de densidade de probabilidade . . . . . . . . . . . . . . 79 6.2 Func¸a˜o de distribuic¸a˜o acumulada . . . . . . . . . . . . . . . . 81 6.3 Me´dia e variaˆncia para varia´veis aleato´rias cont´ınuas . . . . . 84 6.4 Modelo uniforme cont´ınuo . . . . . . . . . . . . . . . . . . . . 86 6.5 Modelo exponencial . . . . . . . . . . . . . . . . . . . . . . . . 88 6.6 Modelo Normal . . . . . . . . . . . . . . . . . . . . . . . . . . 90 6.7 Exerc´ıcios - lista 07 . . . . . . . . . . . . . . . . . . . . . . . . 95 7 Infereˆncia estat´ıstica 98 7.1 Populac¸a˜o e amostra . . . . . . . . . . . . . . . . . . . . . . . 98 7.2 Paraˆmetros e estimadores . . . . . . . . . . . . . . . . . . . . 99 7.3 Distribuic¸o˜es amostrais . . . . . . . . . . . . . . . . . . . . . . 101 7.4 Estimac¸a˜o por intervalo . . . . . . . . . . . . . . . . . . . . . 104 7.5 Intervalo de confianc¸a para µ para amostras grandes . . . . . . 107 7.6 Teste de hipo´tese para me´dia µ com variaˆncia conhecida . . . 108 7.7 Exerc´ıcios - lista 08 . . . . . . . . . . . . . . . . . . . . . . . . 117 ii 1 INTRODUC¸A˜O 1 1 Introduc¸a˜o Em alguma fase do seu trabalho, o pesquisador se depara com um conjunto de dados relevante ao seu objeto de estudo. Atrave´s desses dados ele buscara´ extrair informac¸o˜es a fim de tomar deciso˜es relativas ao seu cotidiano. Essa realidade, aparentemente distante de no´s, esta´ presente em grande parte das cieˆncias. Nas cieˆncias agra´rias por exemplo, o engenheiro deve trabalhar os dados do solo, rendimento e fertilizac¸a˜o para tomar deciso˜es a respeito do melhoramento do solo e da produc¸a˜o. Nas cieˆncias econoˆmicas, o administrador muitas vezes se depara com se´ries de dados com atrave´s das quais deve decidir sobre investimentos, taxas etc. Ale´m das a´reas citadas acima, existem muitas outras aplicac¸o˜es da estat´ıstica, podemos citar apenas a t´ıtulo de exemplificac¸a˜o as cieˆncias biolo´gicas e de sau´de, geografia, qu´ımica, matema´tica etc. Por isso, o domı´nio da estat´ıstica se torna essencial quando devemos trabalhar com um grande volume de dados independentemente da a´rea em estudo. Neste curso, vamos inicialmente aprender a trabalhar com os dados, ex- trair medidas importantes e representac¸o˜es gra´ficas que nos ajudara˜o a in- terpretar e resumir o conjunto de informac¸o˜es. Na segunda etapa, iremos es- tudar modelos probabil´ısticos para caracterizar os dados. O objetivo enta˜o, e´ construir modelos para os dados em questa˜o e, dessa forma, extrair in- formac¸o˜es e prever comportamentos futuros sem a necessidade de observar novos conjuntos de dados. Na etapa final do curso, veremos brevemente como verificar a adequac¸a˜o dos modelos propostos a` realidade. 2 ANA´LISE EXPLORATO´RIA DE DADOS - RESUMO DE DADOS 2 2 Ana´lise explorato´ria de dados - Resumo de Dados 2.1 Tipos de varia´veis Para introduzir as formas de resumir os dados falaremos um pouco sobre como classificar os dados. Suponha que estejamos realizando uma pesquisa e que desejamos investi- gar sala´rio, n´ıvel de instruc¸a˜o, idade e classe social de um grupo de pessoas. Algumas dessas caracter´ısticas, que chamaremos de varia´veis, apresen- tam como poss´ıveis resultados atributos ou qualidades. Outras, teˆm como resultados quantidades, nu´meros. As primeiras sa˜o chamadas varia´veis qual- itativas e as segundas varia´veis quantitativas. Qualitativas- Tem como poss´ıveis resultados qualidades ou atributos. Quantitativas- Tem como poss´ıveis resultados quantidades ou nu´meros. Podemos subdividir as qualitativas em nominais e ordinais. Ja´ as quan- titativas sa˜o subdivididas em discretas e cont´ınuas. Qualitativas Nominal −Nao existe nenhuma ordenacao nas realizacoes. Exemplo : sexo, local de nascimento. Ordinal − Existe uma ordem em seus resultados. Exemplo : classe social, nivel de instrucao. Quantitativas Discretas− V alores formam um conjunto finito ou enumeravel de valores. Resultam de uma contagem. Exemplo : idade, numero de filhos. Continuas− V alores pertencem a um intervalo de numeros reais. Resultam frequentemente de uma mensuracao. Exemplo : estatura, peso. Para cada tipo de varia´vel existem te´cnicas apropriadas para resumir informac¸o˜es. Em algumas situac¸o˜es podemos atribuir valores a`s qualidades de uma varia´vel qualitativa e proceder a ana´lise como se quantitativa fosse. Podemos citar como exemplo a varia´vel que descreve o resultado obtido em um lanc¸amento de uma moeda, ao atribuir 0 a cara e 1 a coroa podemos analisar a varia´vel como quantitativa. Veremos outros exemplos mais adiante. 2 ANA´LISE EXPLORATO´RIA DE DADOS - RESUMO DE DADOS 3 2.2 Distribuic¸a˜o de frequeˆncias Quando estudamos uma varia´vel podemos investigar seu comportamento estudando a ocorreˆncia de suas realizac¸o˜es, isso se torna mais fa´cil atrave´s da organizac¸a˜o e resumo dos dados em uma tabela que chamaremos de tabela de distribuic¸a˜o de frequeˆncias. Daremos aqui dois exemplos de tabelas de frequeˆncias, para os outros tipos de varia´veis a construc¸a˜o e´ ana´loga. Exemplo 1: Varia´vel qualitativa ordinal. Suponha que realizamos uma pesquisa com 36 funciona´rios de um setor A de uma fa´brica e estamos interessados no n´ıvel de escolaridade. Observamos 3 n´ıveis de escolaridade com as frequeˆncias descritas na tabela a seguir. Setor A Denominamos frequeˆncia ni, frequeˆncia absoluta. A proporc¸a˜o fi, chamamos de frequeˆncia relativa, ela e´ obtida fazendo fi = ni total . Atrave´s da frequeˆncia relativa podemos comparar resultados de duas pesquisas distintas. Por ex- emplo, se fizermos a mesma pesquisa com 2000 funciona´rios de um outro setor B da fa´brica e desejarmos comparar em qual dos setores existem mais funciona´rios com n´ıvel superior podemos usar a frequeˆncia relativa. Setor B Gabriel Highlight 2 ANA´LISE EXPLORATO´RIA DE DADOS - RESUMO DE DADOS 4 Neste caso podemos perceber que o setor A tem percentualmente mais empregados com n´ıvel superior que o setor B. Exemplo 2: Varia´vel quantitativa cont´ınua. Nesse caso precisamos dividir os dados em classes para construir a tabela de distribuic¸a˜o de frequeˆncias. Suponha que desejamos construir uma tabela de distribuic¸a˜o de frequeˆncias para os sala´rios dos empregados do setor A. Para isso, entrevistamos os 36 empregados e obtivemos os seguintes dados: 4; 4,2; 7,5; 4,1; 7,3; 6,6; 5,7; 5,1; 6,2; 7,7 8,1; 9,2; 9,5; 11,1; 9,3; 9,6; 8,7; 10,1; 11,2; 10,7; 9,3; 10,4 12,1; 13,2; 14,5; 15,6; 12,1; 12,2; 13,5; 14,6 19,1; 18,2; 17,5; 16,6; 19,8; 20,3 Como estamos trabalhando com uma varia´vel cont´ınua (sala´rio), vamos dividir os dados em classes. Suponha que desejamos construir uma tabela com 5 classes de amplitudes iguais. Uma poss´ıvel tabela e´ a seguinte: 2 ANA´LISE EXPLORATO´RIA DE DADOS - RESUMO DE DADOS 5 2.3 Gra´ficos Atrave´s da representac¸a˜o gra´fica tambe´m podemos resumir informac¸o˜es sobre a variabilidade dos dados. Gra´ficos para varia´veis qualitativas Existem va´rios tipos de gra´ficos usados para representar as varia´veis quali- tativas, vamos apresentar dois deles: gra´ficos em barras/ colunas e em setores. Exemplo 3: Vamos voltar ao exemplo 1. Grau de instruc¸a˜o. gra´fico em colunas gra´fico em setores Gra´ficos para varia´veis quantitativas Para as varia´veis quantitativas podemos considerar uma variedade maior de representac¸o˜es gra´ficas. Ale´m dos gra´ficos usados para as varia´veis quali- tativas, temos tambe´m o gra´fico de dispersa˜o unidimensional para as varia´veis discretas. Vamos ver um exemplo e em seguida faremos os gra´ficos poss´ıveis. 2 ANA´LISE EXPLORATO´RIA DE DADOS - RESUMO DE DADOS 6 Exemplo 4: Suponha que fizemos uma pesquisa com 20 pessoas e esta- mos interessados no nu´mero de filhos. gra´fico em barras/colunas gra´ficos de dispersa˜o Construir gra´ficos para as varia´veis quantitativas cont´ınuas requer algu- mas adaptac¸o˜es. Para utilizarmos os mesmos tipos de gra´ficos usados no caso Gabriel Highlight 2 ANA´LISE EXPLORATO´RIA DE DADOS - RESUMO DE DADOS 7 de varia´veis discretas a primeira ide´ia que surge e´ aproximar uma varia´vel aleato´ria cont´ınua por uma discreta sem perder muita informac¸a˜o. Isso pode ser feito aproximando-se os valores de uma classe pelo ponto me´dio dessa classe. Exemplo 5: Voltando ao exemplo 2, na figura 3 temos a tabela para a varia´vel sala´rio que esta´ dividida em classes. Discretizando a varia´vel pode- mos contruir o gra´fico em barras, em setores ou o diagrama de dispersa˜o. Em seguida temos o gra´fico em barras para a varia´vel sala´rio. Com o artif´ıcio utilizado acima perdemos muita informac¸a˜o. Uma alter- nativa utilizada nesses casos e´ o gra´fico connhecido como histograma. No eixos das abscissas representamos as classes e, no eixo das ordenadas pode- mos representar a frequeˆncia absoluta ni, a relativa fi ou a densidade de frequeˆncia. Ramo-e-folhas Tanto o histograma como o gra´fico em barras da˜o uma ide´ia da forma da distribuic¸a˜o dos dados. Um procedimento alternativo para resumir um conjunto de dados e dar uma ide´ia de sua distribuic¸a˜o e´ utilizar o diagrama de ramo-e-folhas. Uma vantagem desse diagrama sobre o histograma e´ que ele tem uma perda menor de informac¸a˜o. Na˜o ha´ uma regra fixa determi- nante para a construc¸a˜o de um diagrama ramo-e-folhas, geralmente sa˜o feitas Gabriel Highlight Para não perder informações, se faz interessante arredondar os valores aproximando-os dos valores de uma classe pelo ponto médio da mesma classe. Gabriel Highlight Histograma: Eixo das abscissas(parte de baixo = classes) e Eixo das Ordenadas (Parte lateral = Frequência) Gabriel Highlight 2 ANA´LISE EXPLORATO´RIA DE DADOS - RESUMO DE DADOS 8 adaptac¸o˜es para cada conjunto de dados. A ide´ia ba´sica por tra´s da estru- tura e´, em linhas gerais, a seguinte: cada nu´mero, dentre os que compo˜em o conjunto de dados a serem organizados, e´ considerado em relac¸a˜o a seus algarismos, como sendo constitu´ıdo por duas partes. Estas sa˜o separadas por uma linha vertical (trac¸ada justamente para estabelecer essa separac¸a˜o), de modo que os algarismos registrados a` esquerda da linha sa˜o chamados de ramo, os da direita, denominam-se folha. Para entender melhor vamos ver os seguintes exemplos. Exemplo 6: Os dados abaixo referem-se ao comprimento em cent´ımetros de 20 pec¸as de alumı´nio: 53 70 84 69 77 87 53 82 67 54 70 71 95 51 74 55 63 85 53 64 Se considerarmos como ramo as dezenas e como folha a unidade, o dia- grama de ramo-e-folhas fica da seguinte forma: Exemplo 7: Suponha que entrevistamos 10 pessoas em um departamento e estamos interessados no sala´rio desses empregados. Obtivemos os seguintes dados: 4,0; 4,56; 5,2; 6,6; 6,8; 7,14; 8,2; 9,13; 10,53; 11,5. Nesse caso, como existem dados com um e duas casas decimais podemos arredondar os dados ou colocar como folha as duas casas decimais de cada nu´mero, se optarmos por arredondar vamos obter o seguinte diagrama de ramo-e-folhas: 2 ANA´LISE EXPLORATO´RIA DE DADOS - RESUMO DE DADOS 9 2.4 Medidas resumo - Medidas de posic¸a˜o central Vimos que podemos resumir a informac¸a˜o atrave´s de tabelas e gra´ficos que fornecem muitas informac¸o˜es sobre o comportamento dos dados. Podemos resumir os dados usando um ou alguns valores para representar a se´rie toda. Sa˜o eles: Moda- Realizac¸a˜o mais frequente do conjunto de dados. Em alguns casos pode na˜o haver moda, dizemos enta˜o que a distribuic¸a˜o e´ amodal, ou haver mais de uma moda, nesses casos dizemos tratar-se de uma distribuic¸a˜o bimodal, trimodal etc. Exemplo 8: Para a tabela da varia´vel nu´mero de filhos do exemplo 4, temos moda igual a 2. Mediana- E´ a realizac¸a˜o que ocupa a posic¸a˜o central da se´rie de ob- servac¸o˜es, quando ordenadas em ordem crescente. Exemplo 9: Para os dados 3,7,5,8,8 a mediana sera´ 7. Para 3,7,5,8,8,9 a mediana sera´ 7,5. Media aritme´tica- E´ a soma das observac¸o˜es dividida nu´mero de ob- servac¸o˜es no conjunto. Exemplo 10: Para os dados acima 3,7,5,8,8, a me´dia sera´ 6,2. Observac¸a˜o 1: Para identificar a moda precisamos apenas da frequeˆncia absoluta, ja´ para identificar a mediana precisamos de alguma ordenac¸a˜o entre dos dados e, finalmente, para calcular a me´dia, precisamos que a varia´vel seja 2 ANA´LISE EXPLORATO´RIA DE DADOS - RESUMO DE DADOS 10 quantitativa. Observac¸a˜o 2: Para as varia´veis qualitativas nominais podemos apenas identificar a moda. Para as qualitativas ordinais podemos identificar a moda e a mediana. A me´dia so´ pode ser calculada para as varia´veis quantitativas. Resumindo: moda- Pode ser identificada para todos os tipos de varia´veis. mediana- Pode ser identificada para todas exceto qualitativas nominais. me´dia- Somente para as varia´veis quantitativas. Exemplo 11: Vamos voltar ao exemplo da varia´vel nu´mero de filhos do exemplo 4. Nesse caso temos moda 2, mediana valor10+valor11 2 = 2 e me´dia 0.4+1.5+2.7+3.3+5.1 20 = 33 20 = 1, 65. Podemos perceber que as treˆs medidas tem valores pro´ximos e representam de maneira semelhante as observac¸o˜es. Fo´rmula geral para a me´dia Se x1, x2, x3, ..., xn sa˜o n valores assumidos pela varia´vel x, dizemos que x¯ e´ a me´dia aritme´tica dos n valores assumidos pela varia´vel x. x¯ = ∑n i xi n . Agora se tivermos n observac¸o˜es para a varia´vel x das quais n1 sa˜o iguais a x1, n2 sa˜o iguais a x2, n3 sa˜o iguais a x3 ate´ nk sa˜o iguais a xk de tal forma que n1 + ...nk = n, podemos simplificar a fo´rmula anterior por: x¯ = ∑k i ni.xi n . Podemos tambe´m substituir a frequeˆncia relativa fi = ni n na fo´rmula an- terior: x¯ = ∑k i fi.xi. Fo´rmula geral para a mediana Consideremos as n observac¸o˜es x1, x2, x3, ..., xn ordenadas em ordem cres- cente. Denotemos a menor observac¸a˜o por x(1), a segunda por x(2) e assim por diante ate´ n-e´sima x(n): 2 ANA´LISE EXPLORATO´RIA DE DADOS - RESUMO DE DADOS 11 x(1) ≤ x(2) ≤ x(3) ≤ ... ≤ x(n). As observac¸o˜es ordenadas como acima sa˜o chamadas estat´ısticas de or- dem. A mediana e´ enta˜o definida por: med(x) = { x(n+1 2 ) − Se n e impar. x(n2 ) +x (n+12 ) 2 − Se n e par. Exemplo 12: Ca´lculo das medidas de posic¸a˜o para varia´veis cont´ınuas. Vamos retornar a terceira tabela da varia´vel sala´rio. Como a varia´vel sala´rio e´ uma varia´vel cont´ınua uma aproximac¸a˜o que pode ser feita e´ considerar todos os valores dentro de uma classe iguais ao ponto me´dio da classe, essa aproximac¸a˜o e´ chamada de discretizac¸a˜o. Pode- mos discretizar para encontrar os valores aproximados de me´dia, mediana e moda. Dessa forma, para a varia´vel sala´rio S temos: moda(S)≈ 10 mediana(S) ≈ S(18)+S(19) 2 = 10+10 2 = 10 me´dia (S) ≈ 6.10+10.12+14.8+18.5+22.1 36 = 11, 22 2.5 Me´dia geome´trica e Me´dia harmoˆnica Me´dia harmoˆnica A me´dia harmoˆnica e´ utilizada quando estamos tratando observac¸o˜es de grandezas inversamente proporcionais como velocidade e tempo. Por exem- plo suponha que temos va´rios valores de velocidade e, para cada valor temos a distaˆncia que percorremos desenvolvendo tal velocidade. A frequeˆncia agora 2 ANA´LISE EXPLORATO´RIA DE DADOS - RESUMO DE DADOS 12 e´ dada em termos de outra varia´vel, a distaˆncia. Como podemos calcular a velocidade me´dia enta˜o? Para que fique mais claro que tipo de me´dia deve- mos usar em cada caso vejamos alguns exemplos: Exemplo 13: Se a metade da distaˆncia de um percurso percorremos com a velocidade de 60 km/h e a outra metade com velocidade 40 km/h. Qual e´ a velocidade me´dia? isto e´, com qual velocidade podemos percorrer todo trajeto de modo a gastar o mesmo tempo? Na primeira metade gastamos o tempo de 4t1 = d60 , na segunda metade o tempo de 4t2 = d40 enta˜o nesse caso a velocidade me´dia para percorrer todo o percurso de modo a gastar o mesmo tempo e´: vmedia = 2d d 60 + d 40 = 48. Nesse caso, se usa´ssemos a velocidade de 50 km/h para percorrer todo o percurso gastar´ıamos o tempo d 25 < d 24 . Portanto na˜o podemos usar a me´dia aritme´tica, devemos usar a me´dia harmoˆnica. A velocidade me´dia calculada acima podia ter sido encontrada usando a fo´rmula da me´dia harmoˆnica dada a seguir. Definic¸a˜o: A me´dia harmoˆnica de n valores reais x1, x2, x3, ..., xn e´ dada por: mh = n 1 x1 + 1 x2 +...+ 1 xn Exemplo 14: Custo me´dio de ac¸o˜es. Suponha que compramos ac¸o˜es por 3 meses com um montante sempre de 1000 reais. No primeiro meˆs compramos ac¸o˜es no valor de 8 reais, no segundo meˆs no valor de 9 e, no terceiro de 10. Qual o custo me´dio das ac¸o˜es? Sabendo que a relac¸a˜o entre custo e montante e´ dada por custo = montante num.acoes e que nesse caso temos os valores de custo e, associados a eles, o montante empregado, qual me´dia devemos usar? aritme´tica ou harmoˆnica? Para re- sponder devemos olhar a varia´vel na˜o citada no problema, o nu´mero de ac¸o˜es. Essa varia´vel esta´ se relacionando com o custo de maneira inversamente pro- porcional ( veja a fo´rmula), da mesma maneira, t´ınhamos no exemplo anterior a velocidade e o tempo. Portanto, devemos usar a me´dia harmoˆnica. mh = 3000 1000 8 + 1000 9 + 1000 10 = 8, 92 Repare que se tive´ssemos comprado 1000 ac¸o˜es no valor de 8, 1000 no valor 2 ANA´LISE EXPLORATO´RIA DE DADOS - RESUMO DE DADOS 13 de 9 e 1000 no valor de 10. Para saber o custo me´dio das ac¸o˜es usar´ıamos a me´dia aritme´tica: mari = 1000.8+1000.9+1000.10 3000 = 9 2 ANA´LISE EXPLORATO´RIA DE DADOS - RESUMO DE DADOS 14 Me´dia geome´trica Usamos a me´dia geome´trica quando os dados esta˜o relacionados de maneira multiplicativa e o objetivo e´ conhecer uma taxa me´dia de crescimento ou de- crescimento dos dados. Definic¸a˜o: A me´dia geome´trica de n valores reais x1, x2, x3, ..., xn e´ dada por: mg = n √ x1.x2.x3...xn Exemplo 15: Se um investimento rende 10 por cento no primeiro ano e 20 por cento no segundo ano a juros compostos, qual e´ o rendimento me´dio do investimento? Se comec¸armos com um montante X ao final do primeiro ano teremos 1,1X e ao final do segundo ano teremos 1,2.(1,1X)=1,32X. Queremos encontrar uma taxa me´dia, isto e´, uma u´nica taxa que aplicada durante dois anos a juros compostos retornara´ 1,32X. Podemos pensar que uma poss´ıvel candidata a taxa me´dia seria 15 por cento, mas quando aplicamos o montante de X a essa taxa em dois anos teremos (1, 15)2X=1,3225X que representa um pouco a mais do que obtemos quando aplicamos a 10 por cento no primeiro ano e 20 por cento no segundo. Como encontrar enta˜o a taxa me´dia? A resposta vem atrave´s do fator. A cada taxa podemos associar um fator multiplicativo, por exemplo, para a taxa de 10 por cento, multiplicamos o valor inicial por 1,1. Para essa taxa temos portanto, um fator de 1,1. Para a taxa de 20 por cento, um fator de 1,2. Para a taxa de 25 por cento, um fator de 1,25. Enta˜o o problema de encontrar a taxa u´nica e´ equivalente ao problema de encontrar um fator multiplicativo u´nico. Para o exemplo acima temos que encontrar um fator multiplicativo u´nico f, tal que f 2X = 1, 32X ou seja f e´ a me´dia geome´trica dos fatores 1,1 e 1,2. f = √ 1, 32 = √ 1, 1.1, 2 = 1, 148 Logo, podemos concluir que a me´dia e´ de 14,8 por cento. Se tive´ssemos aplicado um montante durante um pe´riodo maior, e dispuse´ssemos de va´rias taxas, para encontrar a taxa me´dia dever´ıamos proceder da mesma forma: encontrar um u´nico fator igual a` me´dia geome´trica de todos os fatores. De forma geral, a me´dia aritime´tica e´ sempre maior ou igual aos outros tipos de me´dia. Temos a seguinte relac¸a˜o entre as me´dias: 2 ANA´LISE EXPLORATO´RIA DE DADOS - RESUMO DE DADOS 15 mg ≤ mh ≤ ma 2.6 Medidas de dispersa˜o O resumo de um conjunto de dados por uma u´nica medida de posic¸a˜o cen- tral ignora toda a informac¸a˜o sobre a variabilidade dos dados. Por exemplo, suponha que desejamos analisar o comprimento de pec¸as produzidas por 3 diferentes tipos de ma´quinas. Selecionamos enta˜o grupos de pec¸as prove- nientes de cada ma´quina e registramos os comprimentos em cm: ma´quina A- 3,4,5,6,7 ma´quina B- 3,5,5,7 ma´quina C- 5,5,5,5,5,5 Podemos perceber que as me´dias dos comprimentos e´ igual para os 3 grupos. Nesse caso, perdemos a informac¸a˜o sobre a variabilidade dos dados se considerarmos apenas a me´dia como medida representativa dos dados. Num primeiro momento, podemos pensar que uma boa medida para a variabilidade dos dados nos grupos e´ a soma das diferenc¸as entre os dados e a me´dia. Por exemplo, para a ma´quina A ter´ıamos ∑5 i=1 xi−x¯, mas podemos observar que a soma dos desvios com relac¸a˜o a` me´dia e´ sempre igual a zero.∑5 i=1 xi− x¯ = ∑5 i=1 xi− ∑5 i=1 x¯ = ∑5 i=1 xi− 5x¯ = ∑5 i=1 xi− ∑5 i=1 xi = 0 Uma maneira de contornar esse problema e´ considerar as duas medidas seguintes: 2 ANA´LISE EXPLORATO´RIA DE DADOS - RESUMO DE DADOS 16 ∑5 i=1 | xi − x¯ |∑5 i=1(xi − x¯)2 Chamamos enta˜o∑n i=1 |xi−x¯| n - desvio me´dio absoluto - dm(x).∑n i=1 (xi−x¯)2 n - variaˆncia - var(x). Para a ma´quina A temos: dm(x) = ∑5 i=1 |xi−x¯| 5 = |3−5|+|4−5|+|5−5|+|6−5|+|7−5| 5 = 6 5 = 1, 2. var(x) = ∑5 i=1 (xi−x¯)2 5 = 2 Para a ma´quina B temos: dm(x) = ∑4 i=1 |xi−x¯| 4 = |3−5|+|3−5|+|5−5|+|5−7| 4 = 1. var(x) = ∑4 i=1 (xi−x¯)2 4 = 2 Podemos concluir enta˜o que segundo o desvio me´dio a ma´quina B e´ mais homogeˆnea que ma´quina A e que ambas sa˜o igualmente homogeˆneas segundo a variaˆncia. Sendo a variaˆncia uma medida de dimensa˜o igual ao quadrado da di- mensa˜o dos dados, no caso cm2, a interpretac¸a˜o da variaˆncia como medida de variac¸a˜o dos dados pode gerar alguns problemas. Costumamos usar enta˜o o desvio padra˜o que e´ definido como raiz quadrada da variaˆncia. dp(x) = √ var(x) Para o grupo A e o B temos dp(x) = √ 2. Ambas as medidas de dispersa˜o (desvio me´dio e desvio padra˜o) indicam em me´dia qual o ”erro” que cometemos ao substituirmos cada observac¸a˜o pela me´dia. No caso em que observamos n1 vezes o valor x1, n2 vezes o valor x2 e assim sucessivamente, ate´ nk vezes o valor xk, temos: dm(x) = ∑k i=1 ni|xi−x¯| n = ∑k i=1 fi | xi − x¯ | var(x) = ∑k i=1 ni(xi−x¯)2 n = ∑k i=1 fi(xi − x¯)2 dp(x) = √ var(x) 2 ANA´LISE EXPLORATO´RIA DE DADOS - RESUMO DE DADOS 17 O ca´lculo aproximado das medidas de dispersa˜o no caso das varia´veis cont´ınuas agrupadas em classes pode ser feito de modo ana´logo a`quele usado para encontrar a me´dia. Exerc´ıcio: Calcule o desvio me´dio, variaˆncia e desvio padra˜o para as varia´veis nu´mero de filhos e sala´rio dos exemplos anteriores. Coeficiente de variac¸a˜o Coeficiente de variac¸a˜o e´ uma medida que nos permite comparar a dis- persa˜o em amostras diferentes. O desvio padra˜o e´ uma medida de dispersa˜o com relac¸a˜o a` me´dia, como duas amostras podem ter me´dias diferentes na˜o conseguiremos, nesses casos, comparar a dispersa˜o dos dados usando o desvio padra˜o. Para isso usamos o coeficiente de variac¸a˜o: cv = dp(x) x¯ Exemplo: Considere uma amostra com me´dia 40 e desvio padra˜o 4 e outra com me´dia 5 e desvio padra˜o 4. Qual das amostras e´ a mais homogeˆnea? De acordo com o coeficiente de variac¸a˜o temos na amostra 1, cv= 4/40=0,1 e na amostra 2, cv=4/5=0,8. Portanto a amostra 2 tem maior grau de dispersa˜o dos dados. 2.7 Quantis A me´dia aritme´tica pode muitas vezes na˜o ser uma medida adequada pois: a) Pode ser afetada por valores extremos. b) Na˜o da´ ide´ia da distribuic¸a˜o e dispersa˜o dos dados. Exemplo 16: Para os dados 1,2,5,7,100 a me´dia aritme´tica vale 115/5 = 23, um valor muito distante da maioria dos dados. A me´dia portanto na˜o e´ uma boa medida de representac¸a˜o para esses valores. A mediana, igual a 5, representa melhor os dados nesse caso. Outra me- dida de posic¸a˜o muito utilizada e´ o quantil. Definic¸a˜o: Chamamos quantil de ordem p ou p-quantil onde p e´ uma proporc¸a˜o, 0 < p < 1, ao valor q(p) tal que 100.p por cento da amostra seja menor que q(p). 2 ANA´LISE EXPLORATO´RIA DE DADOS - RESUMO DE DADOS 18 Essa definic¸a˜o parece um pouco complicada a primeira vista, vamos ver um exemplo. Exemplo 17: Para a amostra 1,2,3,5,7,8,10, desejamos saber o valor de q(0,5) e q(0,25). Qual e´ o valor de q(0,5)? q(0,5) e´ o valor tal que 100.0,5=50 por cento da amostra esteja abaixo dele. Portanto q(0,5)= mediana. Primeiramente devemos ordenar os dados e encontrar as estat´ısticas de ordem, nesse caso os dados ja´ esta˜o ordenados: x(1) = 1;x(2) = 2;x(3) = 3...x(7) = 10 Como temos 7 dados na amostra q(0,25) e´ o valor que deixa 25 por cento dos dados abaixo dele. Como 0,25.7=1,75 na˜o e´ inteiro calculamos um valor aproximado para q(0,25). Fazemos q(0, 25) =x(2). Para q(0,5), fazemos 7.0,5=3,5. Como 3,5 na˜o e´ inteiro aproximamos o quantil para a estat´ıstica de ordem subsequente que no caso e´ x(4). O mesmo procedimento feito an- teriormente para encontrar a mediana. Como calcular os quantis? Na˜o existe apenas uma maneira de obter os quantis, geralmente obtemos valores aproximados que representam a divisa˜o da amostra. Segue abaixo uma das maneiras para descobrir os quantis. Dada uma amostra com n observac¸o˜es ordenadas de maneira crescente, uma das formas para se obter o quantil de ordem p e´ a seguinte: 1) Se n.p e´ um nu´mero inteiro enta˜o q(p) = x(n,p)+x(n,p+1) 2 . 2) Se n.p na˜o e´ um nu´mero inteiro enta˜o q(p) = x(| n.p | +1) Percentil, decil e quartil Os percentis sa˜o constru´ıdos atrave´s da divisa˜o da amostra em cem partes iguais. O primeiro percentil deixa 1 por cento dos dados abaixo dele, o se- gundo 2 por cento e assim sucessivamente ate´ o 99◦ percentil, que deixa 99 por cento dos dados abaixo dele. Ao dividirmos a amostra em 10 partes iguais podemos calcular os decis. O primeiro decil deixa 10 por cento dos dados abaixo dele, o segundo deixa 20 por cento dos dados abaixo e finalmente o nonage´simo decil deixa 90 por cento dos dados abaixo dele. Os quartis sa˜o obtidos dividindo a amostra em 4 partes iguais. O primeiro quartil deixa 25 por cento dos dados abaixo dele, o segundo quartil e´ a mediana e o ter- 2 ANA´LISE EXPLORATO´RIA DE DADOS - RESUMO DE DADOS 19 ceiro deixa 75 por cento dos dados abaixo dele. Podemos perceber a seguinte equivaleˆncia entre os percentis, quartis e decis: q(0,1)- 1◦ decil, 10◦ percentil. q(0,25)- 1◦ quartil, 25◦ percentil. q(0,5)- 5◦ decil, 2◦ quartil, 50◦ percentil. q(0,75)- 3◦ quartil, 75◦ percentil. q(0,95)- 95◦ percentil. Exemplo 18: Suponha que entrevistamos 10 pessoas e perguntamos o peso da cada uma delas. As respostas foram as seguintes: 45; 54; 48; 51; 63; 50; 74; 83; 91; 105. Qual e´ o peso ma´ximo que uma pessoa pode ter para estar entre as 25 por cento mais magras e qual e´ peso mı´nimo para estar entre as 25 por cento mais gordas? O que queremos saber e´ quem sa˜o q(0,25) e q(0,75). Primeiramente devemos ordenar os dados. 45; 48; 50; 51; 54; 63; 74; 83; 91; 105. o quantil q(0,25) e´ o valor que deixa 25 por cento dos dados abaixo que nesse caso e´ o valor que ocupa a terceira posic¸a˜o. Enta˜o q(0,25)=50. q(0,75) e´ o valor que deixa 75 por cento dos dados abaixo, aquele que ocupa a oitava posic¸a˜o, portanto q(0,75)=83. 2.8 Box-plot O box-plot nos da´ uma ide´ia da dispersa˜o de uma amostra e da existencia de dados distoantes do conjunto. Ele e´ construido da seguinte maneira: 1) Calculamos os valores dos quartis, q(0,25), q(0,5) e q(0,75) que sera˜o respectivamente a base, a linha me´dia e o topo da caixa. 2) Calculamos a diferenc¸a dq = q(0, 75)− q(0, 25). 3) Calculamos 3/2.dq, esse valor nos ajudara´ a construir os limites superior e inferior do gra´fico. Os valores da amostra na˜o contidos nesse intervalo devem ser representados como pontos isolados e por isso sa˜o denominados outliers. O box-plot e´ um gra´fico muito u´til quando queremos investigar a simetria, valores at´ıpicos e a dispersa˜o em um conjunto de valores. A representac¸a˜o gra´fica e´ a seguinte: 2 ANA´LISE EXPLORATO´RIA DE DADOS - RESUMO DE DADOS 20 Assimetria dos dados se reflete em assimetria na caixa e ou nos limites inferiores e superiores e valores at´ıpicos se refletem em outliers. Vamos ver um exemplo para que fique mais claro o processo de construc¸a˜o. Exemplo 19: Suponha que realizamos uma pesquisa com 15 pessoas e estamos interessados na varia´vel nu´mero de filhos. Obtivemos os seguintes resultados 2 pessoas na˜o teˆm filhos, 5 teˆm 1 filho, 4 teˆm 2 filhos, 3 teˆm 3 filhos e finalmente 1 pessoa tem 5 filhos. Construa o box-plot para a varia´vel nu´mero de filhos. Primeiramente vamos calcular os quartis: Primeiro quartil- 0,25.15= 3,75 que na˜o e´ inteiro portanto q(0,25)=x(4)=1. Segundo quartil- 0,5.15= 7,5 que na˜o e´ inteiro portanto q(0,5)=x(8)=2. Terceiro quartil- 0,75.15= 11,25 que na˜o e´ inteiro portanto q(0,75)=x(12)=3. Temos o seguinte box-plot: Como o menor valor observado foi 0 e o maior foi 5 os limites inferior e superior devem ser 0 e 5 respectivamente. Deixar o limite inferior como -2 e o superior como 6 significaria dizer que existem valores entre -2 e 0 e tambe´m entre 5 e 6, o que na˜o e´ verdade. Portanto devemos calcular os limites inferiores e superiores como anteriormente e depois olhar para os 2 ANA´LISE EXPLORATO´RIA DE DADOS - RESUMO DE DADOS 21 dados para saber quem e´ o menor e o maior valor observado. O boxplot enta˜o, fica melhor representado da seguinte maneira: 2 ANA´LISE EXPLORATO´RIA DE DADOS - RESUMO DE DADOS 22 2.9 Exerc´ıcios - lista 01 Questa˜o 1 Suponha que realizamos uma pesquisa com 80 pessoas cuja varia´vel de interesse era a idade. Suponha tambe´m que foram encontrados os seguintes valores: 21; 35; 49 e 16 anos, com frequeˆncias respectivamente iguais a 10; 0,3; 0,2. Encontre a frequeˆncia absoluta de 16 anos. Construa a tabela de frequeˆncias, o gra´fico em barras e em setores. Questa˜o 2 Os juros recebidos por um grupo de 12 ac¸o˜es em um per´ıodo de dois meses foram: 3,67; 1,28; 3,96; 2,93; 7,77; 2,78; 1,82; 8,14; 6,54; 2,82; 4,65; 5,54. Construa a tabela de frequeˆncias para esses dados dividindo-os em 4 classes de amplitudes iguais a 2. Construa tambe´m o histograma para as frequeˆncias relativas. Questa˜o 3 Suponha que desejamos estudar o nu´mero de erros de impressa˜o de um livro. Para isso escolhemos uma amostra com 50 pa´ginas e verificamos que das 50 pa´ginas analisadas, 25 na˜o apresentavam erros, 20 apresentavam 1 erro, 3 possuiam 2 erros e finalmente duas pa´ginas apresentavam uma 3 e outra 4 erros. a) Calcule o nu´mero me´dio de erros por pa´gina e nu´mero mediano. b) Qual e´ o desvio padra˜o? c) Fac¸a um gra´fico em barras para a distribuic¸a˜o. d) Se o livro tem 500 pa´ginas qual e´ o nu´mero total de erros esperado no livro? Gabriel Sticky Note Lembrando que frequência absoluta significa Ni 2 ANA´LISE EXPLORATO´RIA DE DADOS - RESUMO DE DADOS 23 2.10 Exerc´ıcios - lista 02 Questa˜o 1 Suponha que observamos os valores de 20, 50, 60, 40 e 20 para uma varia´vel X. • a) Calcule a me´dia harmoˆnica de X. • b) Se os valores acima fossem medidas, em km/h, da velocidade de um automo´vel observadas em distaˆncias iguais a 2km, qual a relac¸a˜o da velocidade me´dia com a resposta obtida no item anterior? • c) Se os valores se referissem a` velocidade do mesmo automo´vel medidas em intervalos iguais a` meia hora qual a relac¸a˜o da velocidade me´dia com o valor obtido em b)? Questa˜o 2 O que acontece com a me´dia, a mediana e a variaˆncia quando: • a) Somamos um valor fixo a cada observac¸a˜o? (Por exemplo, se somar- mos 10?) • b) E quando multiplicamos cada observac¸a˜o por um valor fixo? Questa˜o 3 Um objeto e´ constru´ıdo com 300g de cobre, 150g de prata e 100g de bronze. Sabendo que a densidade me´dia e´ dada por dmed = massa volume e as densidades do cobre, da prata e do bronze sa˜o respectivamente 1, 5g/cm3, 1, 2g/cm3 e 2g/cm3. Encontre a densidade me´dia do objeto. Questa˜o 4 Realizando um experimento qu´ımico repetidamente em baixas temperat- uras, obtivemos os seguintes rendimentos em porcentagem: 1; 2; 5; 3 e 1. Ao aumentar a temperatura, aumentamos o rendimento da reac¸a˜o para 40. Qual o rendimento me´dio da reac¸a˜o? Questa˜o 5 O departamento pessoal de uma empresa fez um levantamento dos sala´rios de seus funciona´rios e os dividiu em quatro classes. A primeira classe con- tinha todos os sala´rios menores do que dois e a frequeˆncia observada foi 30. A segunda classe, os sala´rios maiores ou iguais a 2 e menores que 4 com frequeˆncia 48. A terceira classe, os sala´rios maiores ou iguais a 4 e menores que 6 com frequeˆncia 24. A quarta classe, os sala´rios maiores ou iguais a 6 e menores que 10 com frequeˆncia 18. 2 ANA´LISE EXPLORATO´RIA DE DADOS - RESUMO DE DADOS 24 • a)Construa o histograma. • b) Calcule a me´dia, a variaˆncia e o desvio padra˜o. • c) Calcule o primeiro quartil, a mediana, o terceiro quartil e construa o box-plot. 2 ANA´LISE EXPLORATO´RIA DE DADOS - RESUMO DE DADOS 25 2.11 Exerc´ıcios - lista 03 Questa˜o 1 Suponha que entrevistamos 20 pessoas e estamos interessados em estudar o comportamento da varia´vel peso nesse grupo. Os dados observados foram os seguintes: 53 ; 70,2; 84,3; 69,5; 77,8; 87,5; 53,4; 82,5; 67,3; 54,1 70,5; 71,4; 95,4; 51,1; 74,4; 55,7; 48,2; 45,7; 43,2; 50,7 • a) Fac¸a o diagrama ramo-e-folhas. • b) Encontre os quartis e fac¸a o box-plot. • c) Divida os dados em 6 classes de amplitude igual a 10. Construa a tabela de frequeˆncias e o histograma. Existe alguma semelhanc¸a com o diagrama ramo-e-folhas? • d) Encontre a moda, me´dia, mediana e desvio padra˜o para a tabela do item anterior. Questa˜o 2 O departamento de atendimento ao consumidor de uma concessiona´ria de ve´ıculos recebe ligac¸o˜es de reclamac¸o˜es de clientes. Foram anotados os nu´meros de reclamac¸o˜es em 20 dias: 3; 4; 5; 4; 4; 5; 6; 9; 4; 4; 5; 6; 4; 3; 6; 7; 4; 5; 5; 7. • a) Construa a tabela de frequeˆncias e o gra´fico em barras. • b) Qual o nu´mero me´dio e o nu´mero mediano de reclamac¸o˜es por dia? • c) Em 1 meˆs qual o nu´mero total de reclamac¸o˜es esperado? • d) Se cada telefonema acarreta novos servic¸os que custam 50 reais para a concessiona´ria, qual e´ a despesa me´dia por dia da concessiona´ria oriunda do atendimento ao consumidor? Questa˜o 3 O tempo em horas para um determinado medicamento fazer efeito foi investigado em um grupo de 20 pessoas e obteve-se os seguintes tempos: 1; 2; 1; 2; 1; 2; 3; 1; 2; 2 3; 3; 2; 2; 1; 1; 4; 2; 1; 4 • a) Construa a tabela de frequeˆncias para a varia´vel. 2 ANA´LISE EXPLORATO´RIA DE DADOS - RESUMO DE DADOS 26 • b) Calcule a me´dia e a variaˆncia. • c) Quando o medicamento demora mais de 3 horas para agir, dizemos que o paciente e´ insens´ıvel ao tratamento. Se isso ocorre em 25 por cento dos casos ou mais enta˜o os pacientes devem trocar de medicac¸a˜o. Os pacientes acima devem ou na˜o trocar de medicac¸a˜o? Questa˜o 4 Realizando um cultivo de laranjas inicialmente com 100 mudas, um agricul- tor percebeu que apo´s a primeira colheita o rendimento da produc¸a˜o aumen- tava consideravelmente com relac¸a˜o a colheita anterior. As taxas de aumento de produc¸a˜o nas 5 colheitas que se seguiram foram de: 10; 15; 10; 5 e 20 por cento respectivamente. Qual a taxa me´dia de aumento de produc¸a˜o? Questa˜o 5 Alguns cientistas sociais acreditam que a opinia˜o sobre o aborto inde- pende da situac¸a˜o familiar. Foi feita uma pesquisa com 200 pessoas: • a) Qual estado civil apresenta mais pessoas favora´veis ao aborto? • b) Construa as tabelas de frequeˆncias marginais. • c) Escolhendo uma pessoa ao acaso, qual e´ a probabilidade de ser casada ou favora´vel ao aborto? • d) Construa a tabela de frequeˆncias com relac¸a˜o ao total geral. • e) De acordo com o crite´rio de frequeˆncias as varia´veis sa˜o ou na˜o independentes? 3 ANA´LISE BIDIMENSIONAL 27 3 Ana´lise bidimensional Vimos ate´ agora como organizar e resumir informac¸o˜es pertinentes a uma varia´vel. Agora vamos aprender a analisar o comportamento de duas varia´veis com o objetivo de investigar a relac¸a˜o entre elas. Podemos ter: a) Duas varia´veis qualitativas. b) Duas varia´veis quantitativas. c) Uma varia´vel qualitativa e outra quantitativa. As te´cnicas para se investigar a relac¸a˜o entre as varia´veis pode ser difer- ente para cada caso. De uma maneira geral, medimos a relac¸a˜o entre duas varia´veis atrave´s dos coeficientes de associac¸a˜o, eles expressam se as varia´veis sa˜o ou na˜o dependentes. Para as varia´veis qualitativas temos a medida qui- quadrado X 2 e para as quantitativas temos o coeficiente de correlac¸a˜o. Duas varia´veis qualitativas Suponha que queremos comparar as varia´veis grau de instruc¸a˜o e regia˜o de procedencia e investigar se existe alguma relac¸a˜o entre elas. Para isso fizemos uma pesquisa com 36 pessoas e montamos a seguinte tabela conjunta: Atrave´s dessa tabela podemos recuperar as tabelas de frequeˆncia para a regia˜o de procedeˆncia e grau de instruc¸a˜o que chamaremos de tabelas de frequeˆncia marginais. 3 ANA´LISE BIDIMENSIONAL 28 Para duas varia´veis podemos tambe´m construir a tabela de frequeˆncias relativas. Diferentemente do caso unidimensional podemos considerar a frequeˆncia relativa: a) Ao total de cada linha. b) Ao total de cada coluna. c) Ao total geral. No caso do exemplo anterior podemos obter a seguinte tabela de frequeˆncia relativa ao total de cada coluna: E com relac¸a˜o ao total geral temos: A tabela com relac¸a˜o ao total de cada linha e´ constru´ıda de maneira ana´loga a` tabela com relac¸a˜o ao total de cada coluna. Agora vamos aprender como investigar a relac¸a˜o entre duas varia´veis atrave´s das tabelas de frequeˆncias. 3.1 Associac¸a˜o entre varia´veis qualitativas Um dos objetivos de construir uma distribuic¸a˜ao conjunta de duas varia´veis e´ conhecer o grau de dependencia entre elas. No caso de duas varia´veis qual- itativas vejamos como podemos estudar a dependencia atrave´s da tabela de frequencias. Primeiramente um exemplo em que as varia´veis parecem na˜o estar associadas. 3 ANA´LISE BIDIMENSIONAL 29 Exemplo 1: Suponha que entrevistamos 200 alunos dos cursos de econo- mia e administrac¸a˜o e queremos investigar se existe alguma relac¸a˜o entre o sexo e o curso. Com as frequeˆncias absolutas fica dif´ıcil tirar alguma conclusa˜o. Vamos construir a tabela para a frequeˆncia relativa ao total de cada coluna. Nessa tabela vemos que 60 por cento dos alunos fazem economia e 40 por cento fazem administrac¸a˜o. Na˜o havendo dependeˆncia entre as varia´veis, esperar´ıamos essa mesma proporc¸a˜o para cada sexo. Como as proporc¸o˜es sa˜o pro´ximas para ambos os sexos: 61 e 58 por cento para economia e 39 e 42 por cento para administrac¸a˜o as varia´veis sexo e curso parecem na˜o estar associadas. Agora vamos ver um exemplo em que as varia´veis parecem estar associadas. Exemplo 2: Suponha agora que entrevistamos 200 alunos dos cursos de f´ısica e cieˆncias sociais e, queremos identificar se ha´ relac¸a˜o entre sexo e o curso. 3 ANA´LISE BIDIMENSIONAL 30 Nesse caso parece haver associac¸a˜o ja´ que as porcentagens dos alunos de f´ısica e de cieˆncias sociais para o sexo feminino e masculino sa˜o distantes. Veremos agora como podemos medir essa dependencia. Medida de dependeˆncia qui-quadrado Retomemos o exemplo anterior. Na pesquisa observamos as seguintes frequeˆncias: Se as varia´veis fossem independentes, os valores esperados para as frequeˆncias masculino e feminino seriam: Nesse caso a tabela dos desvios com a diferenc¸a entre os valores observados de frequeˆncia e os esperados ficaria: 3 ANA´LISE BIDIMENSIONAL 31 A medida qui-quadrado X 2 mede o quanto as varia´veis esta˜o longe da independeˆncia e leva em conta esses desvios entre a tabela das frequeˆncias observadas e a tabela que esperar´ıamos encontrar se as varia´veis fossem in- dependentes. A medida qui-quadrado X 2 e´ enta˜o definida por: X 2 = ∑ (oi−ei)2 ei onde oi sa˜o os valores observados de frequeˆncia e ei sa˜o os esperados. Logo abaixo daremos a fo´rmula da medida X 2 explicitando como obter ei sem a necessidade de construir outra tabela de valores esperados. Se a hipo´tese de na˜o associac¸a˜o for verdadeira enta˜o as frequeˆncias obser- vadas estara˜o muito pro´ximas das frequeˆncias esperadas portanto, a ”distaˆncia” entre as tabelas deve ser pequena o que implica um valor de X 2 pro´ximo de zero, um valor muito grande de X 2 indica associac¸a˜o entre as varia´veis. Vamos calcular enta˜o a medida X 2 para o exemplo acima: X 2 = (16)2 84 + (−16) 2 56 + (16) 2 56 + (−16) 2 36 + (16) 2 24 = 3, 05+4, 51+7, 02+10, 54 = 25 Como encontramos um valor grande para X 2, as varia´veis parecem estar associadas. Notac¸a˜o geral Para obter a medida X 2 para as tabelas de dupla entrada na˜o precisamos construir uma nova tabela de valores esperados e uma outra tabela de desvios. Podemos fazer o seguinte: Para X e Y, duas varia´veis assumindo os valoresA1, A2, ...Ar eB1, B2, ..., Bs respectivamente. Suponhamos que elas possuam a seguinte tabela de frequeˆncias conjunta: 3 ANA´LISE BIDIMENSIONAL 32 Enta˜o a medida X 2 e´ dada por: X 2 = ∑r i=1 ∑s j=1(nij−nij∗ )2 nij∗ onde nij∗ e´ a frequeˆncia esperada se as varia´veis fossem independentes e, e´ dada por nij∗ = ni..n.j n.. . 3.2 Associac¸a˜o entre varia´veis quantitativas Quando as varia´veis sa˜o quantitativas, para idenficar a existeˆncia de asso- ciac¸a˜o entre as varia´veis podemos usar uma medida denominada coeficiente de correlac¸a˜o linear que mede o quanto a relac¸a˜o entre as varia´veis esta´ pro´xima de uma relac¸a˜o linear e um recurso gra´fico chamado diagrama de dispersa˜o. Vamos comec¸ar pelo gra´fico de dispersa˜o. Gra´fico de dispersa˜o Para construir o gra´fico de dispersa˜o para duas varia´veis X e Y quanti- tativas plotamos os valores (X,Y) obtidos num sistema de eixos coordenados. Vamos ver um exemplo: Exemplo 3: Suponha que entrevistamos 7 agentes imobilia´rios e quer- emos investigar se existe relac¸a˜o entre os anos de servic¸o e o nu´mero de clientes. 3 ANA´LISE BIDIMENSIONAL 33 O gra´fico de dispersa˜o fica enta˜o: Pelo gra´fico de dispersa˜o podemos perceber que as varia´veis perecem estar associadas. Quanto maior o tempo de servic¸o maior parece ser o nu´mero de clientes. Vamos ver agora um gra´fico de dispersa˜o em que os dados parecem na˜o estar associados: Exemplo 4: Suponha que fizemos uma pesquisa da populac¸a˜o rural e urbana nos u´ltimos anos. O gra´fico de dispersa˜o abaixo indica que as varia´veis na˜o esta˜o relacionadas. No primeiro exemplo, podemos perceber que e´ razoa´vel aproximar os dados por uma linha reta que seja a mais pro´xima poss´ıvel dos dados e que atrave´s dela podemos identificar a relac¸a˜o existente entre os dados. A equac¸a˜o dessa reta que minimiza o erro, isto e´ a distancia entre os dados e a reta, estabelece um modelo que chamamos de modelo de regressa˜o linear. Por hora, so´ investigaremos se a relac¸a˜o existente entre os dados e´ uma relac¸a˜o pro´xima da linear e, quem nos dira´ isso sera´ o coeficiente de correlac¸a˜o linear. Coeficiente de correlac¸a˜o linear E´ uma medida do grau de associac¸a˜o linear entre duas varia´veis quan- titativas. 3 ANA´LISE BIDIMENSIONAL 34 Definic¸a˜o: Dados n pares com os valores observados para as varia´veis X e Y quantita- tivas: (x1, y1), (x2, y2), ..., (xn, yn) definimos o coeficiente de correlac¸a˜o linear entre X e Y por: corr(X, Y ) = 1 n ∑n i=1 (xi−x¯)(yi−y¯) dp(x)dp(y) A parcela ∑n i=1 (xi−x¯)(yi−y¯) n e´ denominada covariaˆncia. Outra fo´rmula equivalente para calcular o coeficiente de correlac¸a˜o e´ a seguinte: corr(X, Y ) = ∑n i=1(xiyi−nx¯y¯)√ ( ∑ x2i−nx¯2)( ∑ y2i−ny¯2) Podemos perceber que −1 ≤ corr(X, Y ) ≤ 1. O ca´lculo do coeficiente de correlac¸a˜o e´ muito custoso analiticamente, muitas vezes e´ conveniente utilizar programas estat´ısticos como o R. Para valores positivos do coeficiente de correlac¸a˜o, a nuvem de pontos do gra´fico de dispersa˜o segue uma tendeˆncia de crescimento, quanto mais pro´ximo de 1 o valor esta´, mais alinhados os pontos esta˜o. Por exemplo: Para valores negativos do coeficiente de correlac¸a˜o, a nuvem de pontos segue uma tendeˆncia de decrescimento, aqui tambe´m quanto mais pro´ximo de -1 o valor esta´, mais alinhados os pontos esta˜o. Por exemplo: 3 ANA´LISE BIDIMENSIONAL 35 E finalmente, para valores de correlac¸a˜o pro´ximos a zero, na˜o ha´ uma tendeˆncia de crescimento/decrescimento linear clara para os pontos, como abaixo podemos observar: Vamos agora encontrar o coeficiente de correlac¸a˜o linear para o exemplo 3 e verificar que o valor esta´ pro´ximo de 1, que vai ao encontro do que observamos no gra´fico de dispersa˜o. Temos n=7, para X temos dp(X)= 1.98 e para Y temos dp(Y)= 7.48, enta˜o o coeficiente de correlac¸a˜o entre as varia´veis X e Y e´ 0.81, um valor pro´ximo de 1 , como espera´vamos quando observamos o gra´fico de dispersa˜o. 3 ANA´LISE BIDIMENSIONAL 36 3.3 Exerc´ıcios - lista 04 Questa˜o 1 Suponha que realizamos uma pesquisa com 100 funciona´rios de uma empresa. Nessa pesquisa esta´vamos interessados nas varia´veis regia˜o de procedeˆncia e n´ıvel de escolaridade. Para a regia˜o de procedeˆncia observamos os valores capital, interior e outra. Para o n´ıvel de escolaridade observamos os valores fundamental, me´dio e superior. Com os dados montamos a seguinte tabela de frequeˆncias absolutas: • a) Construa a tabela de frequeˆncias relativas com relac¸a˜o ao total geral. • b) Construa a tabela de frequeˆncias marginais para cada uma das varia´veis. • c) Qual a porcentagem dos funciona´rios que possuem n´ıvel me´dio? • d) Qual a porcentagem dos funciona´rios que sa˜o da capital? • e) Escolhendo um funciona´rio ao acaso qual sera´ provavelmente seu grau de instruc¸a˜o? E a sua regia˜o de procedeˆncia? • f) As varia´veis parecem dependentes? Porque? Questa˜o 2 Uma companhia de seguros analisou a frequeˆncia com que 2000 segurados usaram o hospital, dentre eles 1000 homens e 1000 mulheres. Os resultados foram: 3 ANA´LISE BIDIMENSIONAL 37 • a) Calcule a proporc¸a˜o de homens dentre os indiv´ıduos que utilizaram o hospital. • b) Calcule a proporc¸a˜o de homens dentre os indiv´ıduos que na˜o uti- lizaram o hospital. • c) Baseado nos ca´lculos das frequeˆncias e do coeficiente X 2 voceˆ diria que o uso do hospital independe do sexo do segurado? Questa˜o 3 Lanc¸am-se simultaneamente uma moeda de um real e uma de 25 centavos. Em cada tentativa anotou-se o resultado cujos dados esta˜o resumidos na tabela abaixo: • a) Esses dados sugerem que os resultados das moedas de um real e os da moeda de 25 centavos esta˜o associados? • b) Definindo as varia´veis X1 e X2 tais que X1 = 0 quando ocorre cara e X1 = 1 quando ocorre coroa na moeda de um real. Analogamente X2 = 0 quando ocorre cara e X2 = 1 quando ocorre coroa na moeda de 25 centavos. Calcule a correlac¸a˜o entre X1 e X2. Essa medida esta´ de acordo com o que voceˆ respondeu anteriormente? Questa˜o 4 E´ esperado que a massa muscular de uma pessoa diminua com a idade. Para estudar essa relac¸a˜o, uma nutricionista selecionou 8 mulheres, com idade entre 40 e 79 anos, e observou em cada uma delas a idade (X) e a massa muscular (Y). 3 ANA´LISE BIDIMENSIONAL 38 Construa o gra´fico de dispersa˜o e calcule o coeficiente de correlac¸a˜o. A hipo´tese da nutricionista se confirma com os dados? 3 ANA´LISE BIDIMENSIONAL 39 3.4 Exerc´ıcios - lista de revisa˜o Questa˜o 1 Numa pesquisa realizada com 100 famı´lias foram observadas 17 famı´lias sem filhos, 20 com 1 filho, 28 com 2 filhos, 19 com 3 filhos, 7 com 4 filhos e 9 com 5 filhos. • a) Calcule o nu´mero me´dio, o nu´mero mediano de filhos e o desvio padra˜o. • b) Se selecionarmos 1 dessas famı´lias qual sera´ provavelmente seu nu´mero de filhos? • c) Fac¸a o gra´fico em barras e o gra´fico em setores. Questa˜o 2 Foram investigadas idades de 10 alunos do curso de po´s-graduac¸a˜o em agronomia: 22, 23, 22, 21, 22, 23, 21, 22 , 35, 40. • a) Calcule a me´dia e a mediana das idades. • b) Qual e´ a melhor medida para representar os dados. • c) Fac¸a o box-plot e observe os valores extremos. A distribuic¸a˜o parece sime´trica? Questa˜o 3 Em uma empresa A a me´dia dos salarios e´ 10.000 e o terceiro quartil e´ 5.000. Se voceˆ foi contratado e o seu sala´rio foi escolhido aleato´riamente e´ mais prova´vel que voceˆ ganhe mais ou menos que 5.000? Em outra empresa B a me´dia de sale´rios e´ 7.000 e a variaˆncia e´ praticamente zero. Em qual das empresas voceˆ preferiria trabalhar? Questa˜o 4 Os dados abaixo referem-se ao sala´rio (em sala´rios mı´nimos) de 20 fun- ciona´rios administrativos em uma indu´stria. 10.1, 7.3, 8.5, 5.0, 4.2, 3.1, 2.2, 9.0, 9.4, 6.1, 3.3, 10.7, 1.5, 8.2, 10, 4.7, 3.5, 6.5, 8.9, 6.1 • a) Construa uma tabela de frequeˆncias agrupando os dados em inter- valos de amplitude 2 a partir de 1. • b) Calcule a me´dia, a mediana e o desvio padra˜o usando a tabela con- struida em a). 3 ANA´LISE BIDIMENSIONAL 40 • c) Se classificarmos os funciona´rios com sala´rios abaixo de 5 como fun- ciona´rios de baixa renda. Entre 5 e 7 como de renda me´dia. Maior que 7 como renda alta. Construa uma tabela de frequeˆncias para o perfil de renda. • d) Escolhendo um funciona´rio, qual e´ a probabilidade de ele ser de renda me´dia? Qual sera´ provavelmente o seu perfil de renda? Questa˜o 5 Dois medicamentos para cicatrizac¸a˜o esta˜o sendo testados em um ex- perimento feito para estudar o tempo (em dias) necessa´rio para o completo fechamento de cortes. Uma amostra com 30 cobaias foi analisada, sendo metade tratada com o medicamento A e a outra metade com o B, e forneceu os seguintes valores: A - 15, 17, 16, 15, 17, 14, 17, 16, 16, 17, 15, 18, 14, 17, 15 B - 14, 15, 16, 17, 18, 18, 17, 15, 16, 14, 18, 18, 16, 15, 14 • a) Construa uma tabela de frequeˆncias para o tempo do medicamento A e outra para o B. • b) Para o medicamento A qual a porcentagem das observac¸o˜es esta˜o abaixo dos 16 dias? E para o B? • c) Os medicamentos precem ter o mesmo efeito? Questa˜o 6 Suponha que o pa´ıs A receba de volta uma parte de seu territo´rio T, que por certo tempo esteve sob a administrac¸a˜o do pa´ıs B, devido a um tratado entre A e B. A populac¸a˜o de A, antes de receber T, era 1,2 bilha˜o de habitantes, e a de T era 6 milho˜es de habitantes. Se as me´dias de idade das populac¸o˜es A e T, antes de se reunirem, eram, respectivamente, 30 anos e 25 anos. Qual e´ a me´dia de idade apo´s a reunia˜o? Questa˜o 7 Numa classe com vinte alunos, as notas do exame final podiam variar de 0 a 100 e a nota mı´nima para aprovac¸a˜o era 70. Realizado o exame, verificou-se que 8 alunos foram reprovados. A me´dia aritme´tica das notas desses oito alunos foi 65, enquanto que a me´dia dos aprovados foi 77. Apo´s a divulgac¸a˜o dos resultados, o professor verificou que uma questa˜o havia sido mal formulada e decidiu atribuir 5 pontos a mais para todos os alunos. Com essa decisa˜o, a me´dia dos aprovados passou a ser 80 e a dos reprovados 68,8. • a) Calcule a me´dia aritme´tica das notas da classe toda antes da atribuic¸a˜o dos cinco pontos extras. 3 ANA´LISE BIDIMENSIONAL 41 • b) Com a atribuic¸a˜o dos cinco pontos extras, quantos alunos, inicial- mente reprovados, atingiram nota para a aprovac¸a˜o? Questa˜o 8 Suponha que a relac¸a˜o entre o tempo necessa´rio para animais adquirirem um certo peso e a quantidade de animais no rebanho pode ser descrita por: peso = racao(kg) animais A pesagem dos animais e´ feita semanalmente e o acompanhamento foi feito durante 3 semanas. • a) Na primeira semana utilizamos 500kg para alimentar o rebanho e, nesse per´ıodo houve um ganho me´dio de 2kg. Na segunda semana foram utilizados 1000kg e houve um ganho me´dio de 2,5kg. Na terceira semana utilizamos 200kg e o ganho me´dio foi de 3kg. Qual o ganho me´dio de peso nessas 3 semanas? • b) Se alimentamos 100 animais durante a primeira semana, 150 du- rante a segunda e 500 durante a terceira e os ganhos de peso foram respectivamente 2, 1.5 e 2.5. Qual e´ o ganho me´dio de peso durante essas 3 semanas? Questa˜o 9 Suponha que aplicamos um capital durante 6 meses e as taxas de retorno foram de 10,15,30,40,60,50 por cento respectivamente. Suponha tambe´m que decidimos continuar com o investimento se a taxa me´dia de retorno for de pelo menos 34 por cento. Qual e´ a decisa˜o a juros simples? E a juros compostos? Questa˜o 10 Foram entrevistados 200 alunos de treˆs cursos, obtendo a seguinte tabela: • a) Qual e´ a porcentagem de alunos do curso de f´ısica? Existem mais homens ou mulheres no curso de f´ısica? • b) Qual e´ a porcentagem de mulheres no curso de matema´tica? 3 ANA´LISE BIDIMENSIONAL 42 • c) Escolhendo um aluno ao acaso e, sabendo que o escolhido e´ mulher qual e´ a probabilidade de ela ser do curso de qu´ımica? • d) Qual o curso tem um nu´mero maior de homens f´ısica ou matema´tica? • e) De acordo com o coeficiente X 2 e com a tabela de frequeˆncias, essas varia´veis sa˜o independentes? Questa˜o 11 Um geo´logo esta´ procurando identificar a relac¸a˜o existente entre a pre- senc¸a de magne´sio e a existeˆncia de calcificac¸a˜o de um determinado tipo em um solo. Para isso, ele coletou uma amostra de solo com 5 observac¸o˜es e an- otou a quantidade de magne´sio encontrada (X) e o correspondente nu´mero de calcificac¸o˜es (Y). Fac¸a o gra´fico de dispersa˜o para as varia´veis e calcule o coeficiente de correlac¸a˜o. Qual e´ a conclusa˜o do geo´logo? 4 PROBABILIDADE 43 4 Probabilidade Ate´ agora, analisamos um conjunto de dados atrave´s de te´cnicas gra´ficas e medidas de posic¸a˜o ou dispersa˜o. A distribuic¸a˜o de frequeˆncias foi um instrumento importante para avaliar- mos o comportamento da varia´vel que estudamos, seus valores e suas variac¸o˜es observadas na amostra. As frequeˆncias relativas estudadas ate´ enta˜o, sa˜o estimativas das proba- bilidades de ocorreˆncia dos valores da varia´vel de interesse. Fazendo suposic¸o˜es adequadas e sem observarmos amostras, podemos criar um modelo teo´rico que reproduza a distribuic¸a˜o de frequeˆncias obser- vadas na populac¸a˜o. Esses modelos sa˜o chamados modelos probabil´ısticos. Uma outra interpretac¸a˜o para o conceito de probabilidade, um pouco diferente da interpretac¸a˜o frequentista que estamos acostumados ate´ agora e´ a interpretac¸a˜o cla´ssica. Nesse caso, quando cada um dos resultados (eventos elementares) tem igual chance de ocorrer definimos a probabilidade de um evento A ocorrer como a raza˜o entre o nu´mero de resultados favora´veis ao evento A e o nu´mero de resultados poss´ıveis. 4.1 Modelo probabil´ıstico Um modelo probabil´ıstico e´ constitu´ıdo por: 1)- Um espac¸o amostral Ω que consiste em todos os resultados poss´ıveis para o experimento. Ω = {w1, w2, w3, ..., wn, ...} O espac¸o amostral pode ser finito ou infinito. Qualquer subconjunto de Ω e´ denominado evento. O evento wi e´ chamado evento elementar. 2)- Uma probabilidade P(.), definida para cada evento elementar wi em Ω, de tal forma que seja poss´ıvel encontrar a probabilidade P(A) para qual- quer evento A em Ω. Exemplo 1: Modelo probabil´ıstico para o lanc¸amento de um dado. Ω = {1, 2, 3, 4, 5, 6} onde P (wi) = 1 6 , para todo wi ∈ Ω. Para o evento A: observar face ı´mpar, temos A={1, 3, 5} e P(A)=1/2. Exemplo 2: Modelo probabil´ıstico para o lanc¸amento de um dado e uma moeda. 4 PROBABILIDADE 44 Ω = {(c, 1), (c, 2), (c, 3), (c, 4), (c, 5), (c, 6), (k, 1), (k, 2), (k, 3), (k, 4), (k, 5), (k, 6)} onde P (wi) = 1 12 , para todo wi ∈ Ω. Para o evento B: observar face par e cara, temos B={(c, 2), (c, 4), (c, 6)} e P(B)=1/4. Axiomas de probabilidade A func¸a˜o de probabilidade do modelo probabil´ıstico deve satisfazer: • (1) P (Ω) = 1 • (2) 0 ≤ P (A) ≤ 1, para todo evento A ∈ Ω. • (3) P (E1 ∪ E2) = P (E1) + P (E2) para E1, E2 ∈ Ω, eventos disjuntos, isto e´ E1 ∩ E2 = ∅. A partir dos axiomas anteriores podemos definir algumas propriedades para a func¸a˜o de probabilidade: • (1) P (A ∪B) = P (A) + P (B)− P (A ∩B), para todo A,B ∈ Ω. Dem: P (A ∪B) = P (A−B) + P (A ∩B) + P (B − A) = P (A)− P (A ∩B) + P (A ∩B) + P (B)− P (A ∩B) = P (A) + P (B)− P (A ∩B) • (2) P (Ac) = 1− P (A). Dem: P (Ω) = 1 =⇒ P (A ∪ Ac) = 1 =⇒ P (A) + P (Ac) = 1. • (3) P (∅) = 0. Dem : Em sala. • (4) P (⋃ni=1 Ei) = ∑ni=1 P (Ei) . Para toda colec¸a˜o de eventos {E1, E2, ..., En} disjuntos dois a dois isto e´ Ei ∩ Ej = ∅, para todo i 6= j. Obs: Os eventos satisfazem a`s mesmas propriedades para as operac¸o˜es entre conjuntos: 4 PROBABILIDADE 45 • a) (A ∩B)c = Ac ∪Bc • b) (A ∪B)c = Ac ∩Bc • c) A ∩ ∅ = ∅ • d) A ∪ Ω = A • e) Ωc = ∅ • f) A ∩ Ac = ∅ • g) A ∪ Ac = Ω • h) A ∪ ∅ = A, A ∩ Ω = Ω Exemplo 3: Ao se retirar uma carta do baralho (com 52 cartas) qual e´ a probabilidade de se obter uma carta vermelha ou um a`s? evento A: carta e´ a`s. evento B: carta e´ vermelha. P (A∪B) = P (B) +P (A)−P (A∩B) = 26/52 + 4/52− 2/52 = 28/52 = 7/13. Exemplo 4: Lanc¸ando uma moeda e um dado, qual e´ a probabilidade de na˜o se observar o nu´mero 1? evento A: foi observada a face 1. A = {(c, 1), (k, 1)} queremos P (Ac) = 1− P (A) = 1− 2/12 = 5/6. Exerc´ıcio: Suponha que entrevistamos 100 alunos e perguntamos em quais mate´rias eles estavam inscritos. Obtivemos os seguintes valores: 47 alunos inscritos em matema´tica. 31 alunos inscritos em f´ısica. 11 alunos inscritos em estat´ıstica. 20 alunos inscritos em matema´tica e f´ısica. 7 alunos inscritos em matema´tica e estat´ıstica. 6 alunos inscritos em f´ısica e estat´ıstica. 5 alunos inscritos em matema´tica, f´ısica e estat´ıstica. a) Selecionando um aluno ao acaso, qual e´ a probabilidade de ele estar inscrito somente em matema´tica? b) Qual e´ a probabilidade de ele estar inscrito em matema´tica ou f´ısica? c) Qual e´ a probabilidade de ele estar inscrito em pelo menos 1 mate´ria? 4 PROBABILIDADE 46 Me´todos de contagem Quando estamos trabalhando com um espac¸o amostral finito e equiprova´vel Ω = {w1, w2, w3, ..., wn} isto e´, quando todos os eventos elementares wi teˆm igual probabilidade 1/n de ocorrer, podemos utilizar te´cnicas de ana´lise com- binato´ria para calcular de uma maneira mais simples a probabilidade de um evento A ocorrer. P (A) = ]A ]Ω onde ]A e´ o nu´mero de resultados favora´veis e ]Ω e´ o nu´mero de resulta- dos poss´ıveis. Exemplo 5: Suponha que num lote com 20 pec¸as existam 5 defeituosas. Escolhendo 4 pec¸as do lote, qual e´ a probabilidade de 2 pec¸as serem defeitu- osas e 2 perfeitas? A: Escolher 2 pec¸as defeituosas e 2 perfeitas. ]A = C52 .C 15 2 (nu´mero de casos favora´veis). ]Ω = C204 (nu´mero de casos poss´ıveis). Logo, P (A) = ]A ]Ω = C52 .C 15 2 C204 = 5.4 2! 15.14 2! 20.19.18.17 4! = 0, 2167 Exerc´ıcio: Lanc¸ando-se 2 dados, qual e´ a probabilidade de todos os nu´meros aparecerem 2 vezes? Exerc´ıcio: Em um grupo de 5 me´dicos e 5 enfermeiras, devemos formar uma equipe com 2 me´dicos e 2 enfermeiras. Qual e´ a probabilidade do me´dico Jose´ e a enfermeira Maria fazerem parte da mesma equipe? Exerc´ıcio: Um baralho conte´m 52 cartas das quais 4 sa˜o ases. Se 4 jogadores recebem 13 cartas cada um qual e´ a probabilidade de cada jogador receber 1 a`s? 4.2 Probabilidade condicional e independeˆncia Definic¸a˜o : Para dois eventos A e B ∈ Ω com P (B) > 0, a probabilidade condicional de A dado B e´ dada por: 4 PROBABILIDADE 47 P (A|B) = P (A∩B) P (B) Exemplo 6: Dois dados sa˜o lanc¸ados e foi observada a soma das faces ı´mpar. Qual e´ a probabilidade de que a soma seja menor do que 8? B: Sair soma ı´mpar. B = {3, 5, 7, 9, 11} A: Soma menor que 8. A = {2, 3, 4, 5, 6, 7} P (A|B) = P (A∩B) P (B) A ∩B = {3, 5, 7} = Soma 3− (1, 2); (2, 1) Soma 5− (1, 4); (4, 1); (2, 3); (3, 2) Soma 7− (1, 6); (6, 1); (2, 5); (5, 2); (3, 4); (4, 3) enta˜o P (A ∩B) = 12 36 . B = {3, 5, 7, 9, 11} = Soma 3− (1, 2); (2, 1) Soma 5− (1, 4); (4, 1); (2, 3); (3, 2) Soma 7− (1, 6); (6, 1); (2, 5); (5, 2); (3, 4); (4, 3) Soma 9− (3, 6); (6, 3); (4, 5); (5, 4) Soma 11− (5, 6); (6, 5) enta˜o P (B) = 18 36 Logo P (A|B) = 123618 36 = 12 18 = 2 3 Regra da multiplicac¸a˜o Dada a definic¸a˜o de probabilidade condicional, podemos escrever: P (A ∩B) = P (A|B)P (B) Essa regra em geral, vale para mais eventos: P (A ∩B ∩ C) = P (C|A ∩B)P (B|A)P (A) P (A1 ∩ A2 ∩ A3 ∩ ... ∩ An) = P (An|A1 ∩ ... ∩ An−1)P (An−1|A1 ∩ ... ∩ An−2)...P (A1) Exemplo 7: Em um lote com 100 laˆmpadas 20 sa˜o defeituosas. Selecionando 2 laˆmpadas ao acaso e sem reposic¸a˜o, qual e´ a probabilidade: a) De serem ambas defeituosas? 4 PROBABILIDADE 48 b) Da segunda laˆmpada ser defeituosa? a) Sejam os eventos A: 1o pec¸a e´ defeituosa. B: 2o pec¸a e´ defeituosa. P (A ∩B) = P (B|A).P (A) = 20 100 .19 99 = 38 99 b) P (B) = P (B ∩ A) + P (B ∩ Ac) = P (B|A)P (A) + P (B|Ac)P (Ac) = 20 100 .19 99 + 20 99 . 80 100 = 0, 2 c) Selecionando treˆs laˆmpadas ao acaso, qual e´ a probabilidade de reti- rarmos a 1o laˆmpada defeituosa, a 2o e a 3o perfeitas? Para o evento C: 3o pec¸a e´ defeituosa. Queremos P (A ∩Bc ∩ Cc) = P (Cc|A ∩Bc)P (Bc|A)P (A) = 79 98 80 99 20 100 Definic¸a˜o (Partic¸a˜o): Dizemos que os eventos A1, A2, A3, ..., An formam uma partic¸a˜o para Ω se: • (i) Ω = A1 ∪ A2 ∪ A3 ∪ ... ∪ An • (ii) Ai ∩ Aj = ∅, ∀i 6= j, i, j ∈ {1, 2, ..., n} Teorema: Lei da probabilidade total Seja B um evento e {A1, A2, A3, ..., An} uma partic¸a˜o do espac¸o amostral Ω, enta˜o: P (B) = Σni=1P (B|Ai)P (Ai) Demonstrac¸a˜o: P (B) = P (B ∩ Ω) = P (B ∩ (A1, A2, A3, ..., An)) = P ((B ∩ A1) ∪ (B ∩ A2) ∪ ... ∪ (B ∩ An)) = P (B ∩ A1) + P (B ∩ A2) + ...+ P (B ∩ An) = P (B|A1)P (A1) + P (B|A2)P (A2) + ...+ P (B|An)P (An) = n∑ i=1 P (B|Ai)P (Ai) 4 PROBABILIDADE 49 Podemos verificar na figura abaixo como interpretar a lei da probabilidade total. Quando o evento B pode ser formado pela unia˜o de va´rias partes sem in- tersec¸a˜o (eventos disjuntos) e, sabemos calcular a probabilidade de cada uma dessas partes, podemos calcular a probabilidade total do evento B ocorrer atrave´s da soma das probabilidades de todas as partes que unidas formam o evento B. 4 PROBABILIDADE 50 Exemplo 8: Em uma fa´brica, duas ma´quinas A e B operam em dias alternados. A ma´quina A opera em 20 por cento dos dias e a probabilidade de produzir um item defeituoso e´ 0,3, ja´ para a ma´quina B essa probabilidade e´ de 0,1. Se- lecionando dois equipamentos produzidos em um dia, qual e´ a probabilidade de serem ambos defeituosos? Pela lei da probabilidade total temos: C: Selecionar 2 equipamentos defeituosos A : Ma´quina A ativa. B : Ma´quina B ativa. P (C) = P (C|A)P (A)+P (C|B)P (B) = (0, 3)2.0, 2+(0, 1)2.0, 8= 0,018+0,008=0,026. Independeˆncia Dizemos que dois eventos A e B ∈ Ω, sa˜o independentes se P (A ∩B) = P (A).P (B) Exemplo 9: Uma urna conte´m 2 bolas brancas e 3 vermelhas. Suponha que sejam retiradas 2 bolas sem reposic¸a˜o. Nesse caso, para o evento A: retirar uma bola branca na segunda extrac¸a˜o temos A = {(v, b), (b, b)} e para o evento C: retirar uma bola branca na 1o extrac¸a˜o temos A = {(b, v), (b, b)} Os eventos A e C sa˜o independentes? Para responder, vamos descrever o espac¸o amostral e as probabilidades. Resultados Probabilidade (b,b) 2/5.1/4=2/20 (b,v) 2/5.3/4=6/20 (v,b) 3/5.2/4=6/20 (v,v) 3/5.2/4=6/20 enta˜o P (A) = P (b, b) +P (v, b) = 2/20 + 6/20 = 2/5, P (C) = P (b, b) + P (b, v) = 2/20+6/20 = 2/5 e P (A∩C) = P (b, b) = 2/20 6= P (A).P (C) = 4/25. 4 PROBABILIDADE 51 Logo os eventos A e C na˜o sa˜o independentes. Se tive´ssemos retirado duas bolas com reposic¸a˜o ter´ıamos Resultados Probabilidade (b,b) 2/5.2/5=4/25 (b,v) 2/5.3/5=6/25 (v,b) 3/5.2/5=6/25 (v,v) 3/5.3/5=6/25 P (C) = P (b, b) + P (b, v) = 4/25 + 6/25 = 10/25, P (A) = P (b, b) + P (v, b) = 4/25 + 6/25 = 10/25 enta˜o P (A ∩ C) = P (b, b) = 4/25 = P (A).P (C) = 10/25.2/5 = 4/25 Logo, nesse caso os eventos A e C sa˜o independentes. Exemplo 10: Lanc¸ando um dado e uma moeda, os eventos: obter cara e obter um nu´mero menor que 3 sa˜o independentes? A: obter cara. B: obter um nu´mero menor que 3. A={(c, 1), (c, 2), (c, 3), (c, 4), (c, 5), (c, 6)} B={(c, 1), (k, 1), (c, 2), (k, 2)} P (A ∩B) = 2/12, P (A) = 6/12 e P (B) = 4/12 Como P (A ∩ B) = 2/12 = P (A).P (B) = 1/6, temos que os eventos A e B sa˜o independentes. Obs: Se os eventos A e B sa˜o independentes enta˜o Ac e Bc tambe´m sa˜o independentes. P (Ac ∩Bc) = P ((A ∪B)c) = 1− P (A ∪B) = 1− [P (A) + P (B)− P (A ∩B)] = 1− P (A)− P (B) + P (A)P (B) = 1− P (A)− P (B)[1− P (A)] = [1− P (A)][1− P (B)] = P (Ac)P (Bc) Exemplo 11: 4 PROBABILIDADE 52 Se uma ma´quina A e uma ma´quina B operam de maneira independente e a probabilidade da ma´quina A falhar e´ de 0,4 e para a ma´quina B essa probabilidade e´ de 0,1. Qual e´ a probabilidade de ambas funcionarem corre- tamente? resp: 0,6.0,9=0,54. 4.3 Teorema de Bayes Exemplo 12: Se temos duas urnas, a urna 1 com 2 bolas brancas e 1 vermelha e a urna 2 com 1 bola branca e 1 vermelha. Se selecionamos uma bola vermelha, qual e´ a probabilidade de ela ter vindo da urna 1? C: A urna 1 e´ selecionada. V: Uma bola vermelha e´ selecionada. Queremos saber P (C|V ), mas sabemos calcular P (V |C). Como podemos usar essa informac¸a˜o? Podemos usar o fato de P (C|V ) = P (C∩V ) P (V ) = P (V |C)P (C) P (V ) e ale´m disso, pelo teorema da probabilidade total sabemos que P (V ) = P (V |C)P (C) + P (V |Cc)P (Cc) enta˜o P (C|V ) = P (V |C)P (C) P (V |C)P (C)+P (V |Cc)P (Cc) = 2 3 1 2 2 3 1 2 + 1 2 1 2 = 4 7 . Podemos generalizar a fo´rmula acima da seguinte maneira: Para {A1, A2, ..., An} uma partic¸a˜o de Ω, considere B um evento qualquer em Ω. Suponhamos conhecidas P (B|Ai) e P (Ai) enta˜o temos: Teorema de Bayes A probabilidade de ocorreˆncia do evento Ai dada a ocorreˆncia do evento B e´: P (Ai|B) = P (B|Ai)P (Ai)∑n i=1 P (B|Ai)P (Ai) 4 PROBABILIDADE 53 Podemos pensar em {A1, A2, ..., An} como um conjunto de hipo´teses. Dado que B ocorreu, a probabilidade inicial de Ai, P (Ai) e´ modificada para se obter P (Ai|B). Chamamos P (Ai)- Probabilidade a priori. P (Ai|B)- Probabilidade a posteriori. Para se obter P (Ai|B) multiplicamos P (Ai) por: P (B|Ai)∑n i=1 P (B|Ai)P (Ai) Exemplo 12: Supondo que um teste para uma certa doenc¸a pode resultar em positivo ou negativo e que a probabilidade do teste dar positivo, dado que a pessoa esta´ doente e´ 0,9 e, de dar negativo dado que a pessoa na˜o esta´ doente e´ 0,9. Sabendo ainda que a incideˆncia da doenc¸a na populac¸a˜o e´ de 1/100, se um individuo desta populac¸a˜o faz o teste e resulta positivo, qual e´ a probabili- dade de realmente ele estar doente? A: teste resultou positivo B: individuo esta´ doente P (B|A) = P (A|B)P (B) P (A|B)P (B)+P (A|Bc)P (Bc) = 0,9.0,01 0,9.0,01+0,1.0,99 = 0, 08 Antes de fazer o teste o indiv´ıduo tinha uma chance de 1 por cento de ter a doenc¸a, como o teste deu positivo, temos um aumento na probabilidade, que passou para 8 por cento. 4 PROBABILIDADE 54 4.4 Exerc´ıcios - lista 05 Probabilidade e suas propriedades Questa˜o 1 Defina um modelo probabil´ıstico para os experimentos abaixo (espac¸o amostral e probabilidades para cada elemento do espac¸o amostral): • a) Um dado e´ lanc¸ado duas vezes e a ocorreˆncia de face par ou ı´mpar e´ observada. • b) Dois dados sa˜o lanc¸ados simultaneamente e a soma e´ observada. • c) Uma urna conte´m 10 bolas azuis e 10 vermelhas, 4 bolas sa˜o sele- cionadas ao acaso e com reposic¸a˜o e as cores sa˜o anotadas. • d) Idem ao anterior mas sem reposic¸a˜o. Questa˜o 2 Para o exerc´ıcio anterior, deˆ a probabilidade para os seguintes eventos: • a) Observar pelo menos 1 face ı´mpar em 1a). • b) Observar soma mu´ltipla de 3 em 1b). • c) Observar primeira e segunda bolas azuis e terceira e quartas vermel- has em 1c). • d) Observar duas bolas azuis e duas vermelhas em 1c). • e) Observar primeira e segunda bolas azuis e terceira e quata vermelhas em 1d). • f) Observar duas bolas azuis e duas vermelhas em 1d). Questa˜o 3 Uma universidade tem 10 mil alunos dos quais 4 mil sa˜o considerados esportistas. Temos ainda que 500 alunos sa˜o do curso de biologia diurno, 700 da biologia noturno, 100 sa˜o esportistas e da biologia diurno e 200 sa˜o esportistas e da biologia noturno. Um aluno e´ escolhido ao acaso e pergunta- se a probabilidade de: • a) Ser esportista. • b) Ser esportista e aluno da biologia noturno. • c) Na˜o ser da biologia. 4 PROBABILIDADE 55 • d) Ser esportista ou aluno da biologia. • e) Na˜o ser esportista nem aluno da biologia. Questa˜o 4 Sejam A e B dois eventos em um dado espac¸o amostral, tais que P(A)=0,2, P(B)=p, P(AUB)=0,5 e P(A ⋂ B)=0,1. Determine o valor de p. Questa˜o 5 Uma fa´brica produz molas de tamanhos 1,2,3,4,5 e 6 cm. Sabendo que a probabilidade de a mola resistir a uma forc¸a empregada e´ proporcional ao comprimento e a constante de proporcionalidade e´ a mesma para cada mola, qual e´ a probabilidade da mola de 2cm resistir a` forc¸a? Questa˜o 6 Uma moeda e´ viciada de modo que a probabilidade de sair cara e´ 4 vezes a probabilidade de sair coroa. Para 2 lanc¸amentos dessa moeda determinar: • a) O espac¸o amostral. • b) A probabilidade de sair somente uma cara. • c) A probabilidade de sair pelo menos uma cara. • d) A probabilidade de dois resultados iguais. Questa˜o 7 Sorteamos ao acaso, com reposic¸a˜o, 2 nu´meros dentre 4 dos quais dois sa˜o positivos, dois sa˜o negativos e nenhum deles e´ zero. Determine a proba- bilidade de: • a) Um deles ser negativo. • b) O quociente ser negativo. • c) Os dois nu´meros terem o mesmo sinal. Questa˜o 8 Pec¸as produzidas por uma ma´quina sa˜o classificadas como defeituosas, re- cupera´veis ou perfeitas com probabilidade de 0.1,0.2 e 0.7, respectivamente. De um grande lote dessas pec¸as foram sorteamdas duas delas e sua classi- ficac¸a˜o e´ observada. Determine a probabilidade de: • a) Duas serem defeituosas. • b) Pelo menos uma ser perfeita. 4 PROBABILIDADE 56 • c) Uma ser recupera´vel e uma ser perfeita. Probabilidade condicional Questa˜o 9 Dois arma´rios guardam as bolas de voleibol e basquete. O arma´rio 1 tem 3 bolas de voleibol e 1 de basquete, enquanto o arma´rio 2 tem 3 de voleibol e 2 de basquete. Escolhendo-se ao acasoum arma´rio e, em seguida, uma de suas bolas, calcule a probabilidade dela ser: • a) De voleibol, sabendo-se que o arma´rio 1 foi escolhido. • b) De basquete, sabendo-se que o arma´rio 2 foi escolhido. • c) De basquete. Questa˜o 10 Duas caixas conte´m la´pis e canetas, a primeira conte´m 60 la´pis e 40 canetas, a segunda conte´m 10 la´pis e 20 canetas. Suponha que uma caixa e´ selecionada e um objeto e´ escolhido, qual e´ a probabilidade de escolher uma caneta? Questa˜o 11 Treˆs diferentes ma´quinas sa˜o utilizadas para produzir uma pec¸a. Sabendo que a ma´quina 1 produz 20 por cento das pec¸as das quais 1 por cento sa˜o defeituosas. A ma´quina 2 produz 30 por cento das pec¸as das quais 2 por cento sa˜o defeituosas e, a ma´quina 3 produz 50 por cento das pec¸as das quais 3 por cento sa˜o defeituosas. Selecionando 1 item ao acaso, qual e´ a probabilidade de ele ser defeituoso? Se selecionarmos 2 itens, qual e´ a probabilidade dos dois serem defeituosos? Questa˜o 12 Dois dados equilibrados sa˜o lanc¸ados, calcule a probabilidade de: • a) Obter o par (3,4), sabendo-se que ocorreu face ı´mpar no primeiro dado. • b) Ocorrer face ı´mpar no segundo dado sabendo-se que ocorreu face par no primeiro dado. Questa˜o 13 Uma companhia que fura poc¸os artesianos trabalha em uma regia˜o escol- hendo aleto´riamente o ponto de furo e na˜o encontrando a´gua sorteia outro local para a perfurac¸a˜o e assim por diante ate´ no ma´ximo 3 tentativas. Ad- mitindo que a probabilidade de encontrar a´gua em uma perfurac¸a˜o e´ 0.7, calcule a probabilidade de: 4 PROBABILIDADE 57 • a) Encontrar a´gua no segundo furo. • b) Encontrar a´gua no terceiro furo. • c) Encontrar a´gua. Questa˜o 14 Suponha que existam duas pastas de dente no mercado: A e B. Suponha que para cada escolha depois da primeira, a probabilidade que ele escolha a mesma pasta e´ 1/3 e que ele mude de pasta e´ 2/3. Se e´ igualmente prova´vel ele escolher a pasta 1 ou 2 na primeira escolha, qual e´ a probabilidade que a primeira e a segunda sejam do tipo A e as terceiras e quarta do tipo B? Independencia entre eventos Questa˜o 15 Dois estudantes A e B esa˜o matriculados em um certo curso. Se o estu- dante A frequenta 80 por cento das aulas, e o estudante B 60 por cento e as auseˆncias sa˜o independentes, qual e´ a probabilidade de: • a) Ao menos 1 dos estudantes esteja presente na aula um certo dia? • b) Dado que ao menos 1 dos estudantes esteja presente na aula um certo dia qual e´ a probabilidade que A esteja presente nesse dia? Questa˜o 16 Suponha que a probabilidade de uma part´ıcula emitida por um material radioativo atingir um campo e´ 0,01. Se 10 part´ıculas sa˜o emitidas qual e´ a probabilidade de apenas 1 delas atingir o campo? Questa˜o 17 Dois garotos lanc¸am uma bola de basquete. Suponha que a probabilidade do menino A acertar a cesta e´ 1/3 e para o menino B essa probabilidade e´ 1/4. Suponha tambe´m que o menino A inicia os lanc¸amentos e os dois va˜o se alternando. Qual e´ a probabilidade de o primeiro acerto ocorres no terceiro lanc¸amento do menino A? Questa˜o 18 Se treˆs dados sa˜o lanc¸ados, qual e´ a probabilidade que os 3 nu´meros sejam os mesmos? Teorema de Bayes Questa˜o 19 Numa certa regia˜o, a probabilidade de chuva em um dia de primavera e´ 0,1. Um meteorologista acerta sua previsa˜o em 80 por cento dos dias que chove e 90 por cento dos dias em que na˜o chove. • a) Qual e´ a probabilidade de um meteorologista acertar sua previsa˜o? 4 PROBABILIDADE 58 • b) Se houver acerto na previsa˜o, qual e´ a probabilidade de ter sido um dia de chuva? Questa˜o 20 Uma caixa conte´m 3 cartas, uma e´ vermelha em ambos os lados, outra e´ verde em ambos os lados e, a terceira e´ verde de um lado e vermelha de outro. Uma carta e´ selecionada e um de seus lados e´ observado. Se esse lado e´ verde, qual e´ a probabilidade que o outro lado seja tambe´m verde? Questa˜o 21 Acredita-se que numa certa populac¸a˜o 20 por cento de seus habitantes sa˜o considerados ale´rgicos. Sendo ale´rgico, a probabilidade de sofrer um tipo de reac¸a˜o a um certo antibio´tico e´ 0,5. Para os na˜o ale´rgicos essa probabilidade e´ 0,05. Uma pessoa e´ dessa populac¸a˜o teve reac¸a˜o ao ingerir o antibio´tico. • a) Qual e´ a probabilidade de ele ser do grupo ale´rgico? • b) E do grupo na˜o ale´rgico? Questa˜o 22 Uma caixa conte´m 2 moedas, uma tem cara em ambos os lados e a outra e´ honesta. Uma moeda e´ selecionada e lanc¸ada, se obtivemos cara qual e´ a probabilidade que a moeda seja honesta? 5 VARIA´VEIS ALEATO´RIAS DISCRETAS 59 5 Varia´veis aleato´rias discretas Ate´ agora, estudamos alguns modelos probabil´ısticos por meio de espac¸os amostrais bem simples e obtivemos algumas propriedades da func¸a˜o de prob- abilidade. Para situac¸o˜es mais gerais, precisamos de modelos que possam representar os tipos de varia´veis que estudamos, qualitativas e quantitativas. Para as varia´veis qualitativas as noc¸o˜es de probabilidade associadas a eventos definidas anteriormente adaptam-se muito bem. Ja´ para as varia´veis quantitativas discretas e cont´ınuas precisamos de alguns artif´ıcios matema´ticos. Os modelos probabil´ısticos para as varia´veis quantitativas sa˜o muito im- portantes para infereˆncia estat´ıstica e a partir deles podemos extrair con- cluso˜es sobre a populac¸a˜o. Varia´veis aleato´rias Uma quantidade X associada a cada poss´ıvel resultado do espac¸o amostral e´ denominada varia´vel aleato´ria discreta se assume valores num conjunto enumera´vel (finito ou infinito) com certa probabilidade. Por outro lado, sera´ denominada varia´vel aleato´ria cont´ınua se o conjunto de valores assumido e´ qualquer intervalo de nu´meros reais, que sa˜o conjuntos na˜o enumera´veis. Como ja´ vimos anteriormente, existem varia´veis que sa˜o naturalmente definidas como discretas ou cont´ınuas. Por exemplo, o nu´mero de filhos e´ discreta e o tempo de reac¸a˜o a um certo medicamento e´ cont´ınua. De forma geral, as definic¸o˜es de varia´veis quantitativas discretas e cont´ınuas feitas anteriormente no capitulo 1 permanecem, e a palavra aleato´ria e´ intro- duzida para indicar que a cada valor ou intervalo poss´ıvel atribu´ımos uma probabilidade de ocorreˆncia. No caso discreto, a atribuic¸a˜o e´ similar a` tabela de frequeˆncia relativa. Ja´ no caso cont´ınuo vamos utilizar uma generalizac¸a˜o do conceito de histograma. Varia´veis aleato´rias discretas Seja X uma varia´vel aleato´ria discreta e x1, x2, x3, ... seus valores poss´ıveis. A func¸a˜o que atribui a cada valor poss´ıvel de X uma probabilidade e´ chamada func¸a˜o de probabilidade. 5.1 Func¸a˜o de Probabilidade Para uma varia´vel aleato´ria discreta X assumindo valores x1, x2, x3, ... defin- imos a func¸a˜o de probabilidade de X por: 5 VARIA´VEIS ALEATO´RIAS DISCRETAS 60 P (X = xi) = p(xi) para todo i ∈ {1, 2, 3, ...} que satisfaz { (i) 0 ≤ p(xi) ≤ 1 (ii) ∑∞ i=0 p(xi) = 1 Na maioria dos casos que estudaremos, X tera´ apenas um nu´mero finito de valores poss´ıveis e assim, a verificac¸a˜o de que a soma das probabilidades e´ igual a 1 e´ feita atrave´s de uma soma finita. As varia´veis discretas sa˜o completamente caracterizadas pelas func¸o˜es de probabilidade. Exemplo 1: Uma assistente social constatou, analisando as famı´lias de um bairro, que 20 por cento na˜o tinham filhos, 30 por cento tinham 1 filho, 35 por cento dois filhos a os restantes se dividiam igualmente entre treˆs, quatro e cinco fil- hos. Construa uma func¸a˜o de probabilidade para a varia´vel nu´mero de filhos. Como X e´ uma varia´vel aleato´ria discreta e os poss´ıveis valores para X sa˜o 0,1,2,3,4,e 5 e P(X=0)=0.2, P(X=1)=0.3, P(X=2)=0.35 temos pela propriedade da func¸a˜o de probabilidade: p(0)+p(1)+p(2)+p(3)+p(4)+p(5)=1 enta˜o 0.2+0.3+0.35+p(3)+p(4)+p(5)=1 logo p(3)+p(4)+p(5)=0.15 como p(3)=p(4)=p(5) temos p(3)=p(4)=p(5)=0.05. Enta˜o a func¸a˜o de probabilidade para X e´: Exemplo 2: Considere o experimento em que cada vez que uma moeda e´ lanc¸ada ob- servamos se e´ cara ou coroa. Construa a func¸a˜o de probabilidade para a varia´vel nu´mero de caras obtido em dois lanc¸amentos. Se denotarmos por X: o nu´mero de caras em dois lanc¸amentos. X e´ uma varia´vel aleato´ria discreta com poss´ıveis valores 0 ,1 e 2. 5 VARIA´VEIS ALEATO´RIAS DISCRETAS 61 Para determinar a probabilidade de cada um dos valores, assumimos que a moeda e´ honesta isto e´, p(cara)=p(coroa)=1/2. Ale´m disso assumimos tmbe´m que os lanc¸amentos sa˜o independentes isto e´ a ocorrencia de uma face no 1o lanc¸amento na˜o interfere no 2o lanc¸amento. Como Ω = {(c, c), (c, k), (k, c), (k, k)} e cada elemento de Ω tem proba- bilidade 1/4, temos: P(X=0)=P(k,k)=1/4 P(X=1)=P(c,k)+P(k,c)=2/4=1/2 P(X=2)=P(c,c)=1/4 A func¸a˜o de probabilidade e´ dada por: Exemplo 3: Um dado equilibrado e´ lanc¸ado. Construa a func¸a˜o de probabilidade para a varia´vel face observada. Para X: face observada em um lanc¸amento de um dado, temos: 5.2 Func¸a˜o de distribuic¸a˜o acumulada Em va´rias situac¸o˜es e´ u´til calcular a probabilidade acumulada ate´ um certo valor. Para isso, usamos a func¸a˜o de distribuic¸a˜o acumulada de probabili- dade. Func¸a˜o de distribuic¸a˜o acumulada A func¸a˜o de distribuic¸a˜o acumulada para uma varia´vel discreta X e´ definida para qualquer nu´mero real x pela seguinte func¸a˜o: 5 VARIA´VEIS ALEATO´RIAS DISCRETAS 62 F (x) = P (X ≤ x) Exemplo 4: Lanc¸amento de duas moedas, observando-se o nu´mero de caras, construa F(x) e o gra´fico de F(x). Como vimos anteriormente, X e´ uma varia´vel aleato´ria discreta com func¸a˜o de probabilidade dada por: e o gra´fico para essa func¸a˜o de probabilidade enta˜o a func¸a˜o de distribuic¸a˜o acumulada e´ dada por: F (x) = 0, x < 0 P (X ≤ 0) = 1/4, 0 ≤ x < 1 P (X ≤ 1) = 3/4, 1 ≤ x < 2 P (X ≤ 2) = 1, x ≥ 2 e o gra´fico para essa func¸a˜o de distribuic¸a˜o 5 VARIA´VEIS ALEATO´RIAS DISCRETAS 63 Exemplo 5: Para o lanc¸amento de um dado, definimos a varia´vel X: face observada no lanc¸amento. Para essa varia´vel, vimos que a func¸a˜o de probabilidade e´ dada por: e o gra´fico A func¸a˜o de distribuic¸a˜o para X F (x) = 0, x < 1 1/6, 1 ≤ x < 2 2/6, 2 ≤ x < 3 3/6, 3 ≤ x < 4 4/6, 4 ≤ x < 5 5/6, 5 ≤ x < 6 1, x ≥ 6 e o gra´fico 5 VARIA´VEIS ALEATO´RIAS DISCRETAS 64 Exemplo 6: Uma varia´vel aleato´ria X tem a seguinte func¸a˜o de distribuic¸a˜o: F (x) = 0, x < 10 0, 2, 10 ≤ x < 12 0, 5, 12 ≤ x < 13 0, 9, 13 ≤ x < 25 1, x ≥ 25 Determine: a) A func¸a˜o de probilidade de x. b)P (X ≥ 12) c)P (X < 12) d)P (12 ≤ X ≥ 20) e) P (X ≥ 18) a) b)P (X ≤ 12) = 0, 5 c)P (X < 12) = 0, 2 d)P (12 ≤ X ≥ 20) = 0, 7 e) P (X ≥ 18) = 0, 1 5.3 Valor esperado e variaˆncia O valor me´dio de uma varia´vel aleato´ria discreta e´ tambe´m denominado esperanc¸a ou valor esperado e e´ definido por: 5 VARIA´VEIS ALEATO´RIAS DISCRETAS 65 Definic¸a˜o: Dada X uma varia´vel aleato´ria discreta assumindo os val- ores x1, x2, ..., xn, chamamos de valor me´dio de X ou esperanc¸a matema´tica o valor: E(X) = ∑n i=1 xip(xi) Essa fo´rmula para a me´dia na˜o e´ nova para no´s. Anteriormente, cal- cula´vamos a me´dia atrave´s da fo´rmula E(X) = ∑n i=1 xifi, com a frequeˆncia relativa no lugar da probabilidade. Podemos definir enta˜o maneiras semel- hantes para calcular variaˆncia e desvio padra˜o para as varia´veis discretas. Definic¸a˜o: Dada X uma varia´vel aleato´ria discreta assumindo os valores x1, x2, ..., xn, chamamos variaˆncia de X o valor: var(X) = ∑n i=1(xi − E(X))2p(xi) Como definimos anteriormente, o desvio padra˜o e´ dado por: dp(X) = √ var(X). Exemplo 7: Para X a varia´vel aleato´ria que descreve o nu´mero de caras obtidas em dois lanc¸amentos temos: E(X) = ∑3 i=1 xip(xi) = 1.1/2 + 0.1/4 + 2.1/4 = 1 var(X) = ∑3 i=1(xi − E(X))2p(xi) = (1 − 1)2.1/2 + (0 − 1)2.1/4 + (2− 1)2.1/4 = 0 + 1/4 + 1/4 = 1/2 dp(X) = √ 1/2 Exemplo 8: Para X a varia´vel aleato´ria que descreve a face obtida em um lanc¸amento de um dado, vamos calcular a E(X) e a var(X). E(X) = ∑6 i=1 xip(xi) = 1.1/6 + 2.1/6 + 3.1/6 + 4.1/6 + 5.1/6 + 6.1/6 = 7/2 var(X) = ∑6 i=1(xi−E(X))2p(xi) = (−5/2)2.1/6+(−3/2)2.1/6+ (−1/2)2.1/6 + (5/2)2.1/6 + (3/2)2.1/6 + (1/2)2.1/6 = 35/12 5 VARIA´VEIS ALEATO´RIAS DISCRETAS 66 dp(X) = √ 35/12 Propriedades da esperanc¸a e variaˆncia 1) E(aX) = aE(X) 2) E(X + c) = E(X) + c 3) var(aX) = a2var(X) 4) var(X + c) = var(X) 5) var(X) = E(X2)− [E(X)]2 Vale ressaltar que para uma varia´vel aleato´ria discreta X com func¸a˜o de probabilidade p(xi), se quisermos a esperanc¸a da varia´vel Z = h(X) fazemos E(Z) = E(h(x)) = ∑n i=1 h(xi)p(xi). Exemplo 9: Para X a varia´vel aleato´ria que descreve a face obtida em um lanc¸amento de um dado, poder´ıamos ter calculado a var(X) atrave´s da fo´rmula E(X2)− [E(X)]2. E(X2) = 1.1/6 + 4.1/6 + 9.1/6 + 16.1/6 + 25.1/6 + 36.1/6 = 7/2 Portanto E(X2)− [E(X)]2 = 91/6− 49/4 = 35/12. Alguns tipos de varia´veis aparecem com mais frequeˆncia e por isso re- querem um estudo mais aprofundado. Vamos ver agora os principais modelos de varia´veis aleato´rias discretas. Alguns modelos para varia´veis aleato´rias discretas 5.4 Modelo uniforme discreto Seja X uma varia´vel aleato´ria discreta cujos poss´ıveis valores sa˜o represen- tados por x1, x2, ..., xk. Dizemos que X segue o modelo uniforme discreto com paraˆmetro k, se atribui a mesma probabilidade 1/k a cada um de seus k valores. Isto e´, se sua func¸a˜o de probabilidade e´ dada por: P (X = xi) = 1 k para todo i=1,2,3,...,k. Obs: No modelo uniforme a probabilidade esta´ uniformemente distribuida entre os valores que a varia´vel assume. 5 VARIA´VEIS ALEATO´RIAS DISCRETAS 67 Exemplo 10: Uma rifa tem 10 bilhetes numerados de 1 a 10. Supondo que todos os bilhetes teˆm iguais probabilidades de serem sorteados, definimos X: nu´mero do bilhete sorteado. Um modelo para X e´ o modelo uniforme com k=10. A func¸a˜o de probabilidade se X e´: Func¸a˜o de distribuic¸a˜o acumulada de uma varia´vel aleato´ria uniforme Como a func¸a˜o de probabilidade e´ dada por P (xi) = 1/k para todo i=1,2,...,k temos que a func¸a˜o de distribuic¸a˜o e´ dada por: F (x) = ∑ xi≤x 1/k Esperanc¸a e variaˆncia Se X segue o modelo uniforme com paraˆmetro k enta˜o: E(X) = ∑k i=1 xi.1/k var(X) = E(X2)−[E(X)]2 = (∑ki=1 x2i ).1/k−(∑ki=1 xi)2.1/k2 Exemplo 11: Usando o exemplo anterior temos a seguinte func¸a˜o de distribuic¸a˜o: F (x) = ∑ x≤k 1/10 = 0, x < 1 1/10, 1 ≤ x < 2 2/10, 2 ≤ x < 3 3/10, 3 ≤ x < 4 4/10, 4 ≤ x < 5 . . . 1, x ≥ 10 5 VARIA´VEIS ALEATO´RIAS DISCRETAS 68 A esperanc¸a e variaˆncia de X sa˜o dadas por: E(X) = ∑10 i=1 xi.1/10 = 55/10 = 5, 5 var(X) = E(X2) − [E(X)]2 = (∑10i=1 x2i ).1/10 − (5, 5)2 = 38, 5− 30, 25 = 8, 25 5.5 Modelo Bernoulli Quando em um experimento temos resultados do tipo sucesso ou fracasso, defeituoso ou na˜o defeituoso, resultados que chamamos de dicotoˆmicos, isto e´, quando estamos observando se uma determinada caracter´ıstica foi ou na˜o observada no experimento, podemos usar o modelo Bernoulli. Por exemplo: . Lanc¸amento de uma moeda, observamos a ocorreˆncia de cara. . Selecionamos uma pec¸a de um lote com pec¸as defeituosas e perfeitas e observamos se a pec¸a e´ perfeita. . Um dado e´ lanc¸ado e observamos se saiu face 5. . Uma pessoa e´ selecionada de um grupo com 100 pessoas sauda´vei e doentes e e´ observado se a pessoa esta´ sauda´vel. A esses experimentos damos o nome de ensaios de Bernoulli. Modelo Bernoulli Dizemos que uma varia´vel X segue o modelo Bernoulli com paraˆmetro p, se assume apenas os valores 0 ou 1 (associados respectivamente a` ocorrencia de sucesso ou fracasso) e sua func¸a˜o de probabilidade e´ dada por: P(X=1) = p P(X=0) = 1-p ou de modo resumido 5 VARIA´VEIS ALEATO´RIAS DISCRETAS 69 P (X = x) = px(1− p)1−x x=0,1. Notac¸a˜o : X ∼ Bernoulli(p), onde p e´ o paraˆmetro, que e´ a probabili- dade de sucesso. Se X ∼ Bernoulli(p) enta˜o: E(X) = ∑ x=0,1 x.p(x) = 0(1− p) + 1.p = p var(X) = E(X2)− [E(X)]2 = 02(1− p) + 12p− p2 = p(1− p) A func¸a˜o de distribuic¸a˜o e´ dada por: F (x) = 0, x < 0 1− p, 0 ≤ x < 1 1, x ≥ 1 Exemplo 12: Lanc¸ando uma moeda, observamos a ocorreˆncia de cara. Definindo sucesso como a ocorreˆncia de cara e fracasso como a ocorreˆncia de coroa temos: X = { 0, se cara 1, se coroa enta˜o P (X = x) = px(1− p)1−x com p = 1/2 temos P (x) = { 1/2, x = 0 1/2, x = 1 5.6 Modelo Binomial Agora imaginamos que repetimos um ensaio de Bernoulli n vezes de maneira independente enta˜o a varia´vel aleato´ria X que conta o nu´mero de sucessos nesses n ensaios Bernoulli e´ uma varia´vel aleato´ria que segue o modelo Bino- mial. Antes de definir a func¸a˜o de probabilidade para o modelo, vamos ver um exemplo: Exemplo 13: Sabe-se que a eficieˆncia de uma vacina e´ de 80 por cento. Se um grupo de 3 indiv´ıduos e´ sorteado dentre a populac¸a˜o vacinada, qual e´ a func¸a˜o de probabilidade da varia´vel que descreve o nu´mero de indiv´ıduos imunizados neste grupo? Se a imunizac¸a˜o em cada um dos indiv´ıduos e´ independente dos outros indiv´ıduos da populac¸a˜o, enta˜o para cada um dos 3 indiv´ıduos escolhidos 5 VARIA´VEIS ALEATO´RIAS DISCRETAS 70 temos a probabilidade de 0,8 de estar imunizado e 0,2 de na˜o estar imunizado. Para cada indiv´ıduo temos um ensaio Bernoulli com paraˆmetro 0,8. Para X a varia´vel que descreve o nu´mero de indiv´ıduos imunizados temos os valores poss´ıveis: X=0,1,2,3. A probabilidade de X=0, 1,2 ou 3 e´ igual a probabilidade de selecionar 0,1,2 ou 3 indiv´ıduos imunizados. As selec¸o˜es poss´ıveis sa˜o: selecao X P(X=k) III 3 0, 83 IINI 2 0, 82.0, 2 INII 2 0, 82.0, 2 ININI 1 0, 8.0, 22 NIII 2 0, 82.0, 2 NIINI 1 0, 8.0, 22 NINII 1 0, 8.0, 22 NININI 0 0, 23 Enta˜o a func¸a˜o de probabilidade e´ dada por: Podemos resumir a func¸a˜o de probabilidade para X por: P (X = k) = C3k(0, 8) k(0, 2)3−k k = 0, 1, 2, 3 Definic¸a˜o do modelo Binomial 5 VARIA´VEIS ALEATO´RIAS DISCRETAS 71 Considere a repetic¸a˜o de n ensaios Bernoulli, independentes e todos com a mesma probabilidade de sucesso p. A varia´vel aleato´ria que conta o nu´mero total de sucessos segue o modelo binomial com paraˆmetros n e p e, sua func¸a˜o de probabilidade e´ dada por: P (X = k) = Cnk p k(1− p)n−k k = 0, 1, 2, ..., n. ja´ que Cnk e´ o nu´mero de sequeˆncias diferentes com k sucessos e n-k fra- cassos e pk(1− p)n−k e´ a probabilidade de cada sequeˆncia. Notac¸a˜o: X ∼ B(n, p) O nome da distribuic¸a˜o e´ derivado da expansa˜o binomial: (a+ b)n = ∑n k=0 C n k a kbn−k Representando X = X1 + X2 + X3 + ... + Xn onde Xi representa cada ensaio Bernoulli e X a varia´vel aleato´ria Binomial. Podemos verificar que: E(X) = E(X1) + E(X2) + E(X3) + ...+ E(Xn) = np var(X) = var(X1) + var(X2) + var(X3) + ...+ var(Xn) = np(1− p) Exemplo 14: A taxa de imunizac¸a˜o de uma vacina e´ de 80 por cento. Se um grupo de 20 pessoas foram vacinadas. Queremos saber qual e´ o nu´mero esperado de pessoas imunizadas. Se definirmos X = nu´mero de pessoas imunizadas no grupo. Temos que X segue o modelo binomial com paraˆmetros 20 e 0,8. Portanto E(X)=20.0,8=16. Exemplo 15: Suponha que selecionamos uma amostra com 10 pec¸as de um lote em que a probabilidade de cada pec¸a ser defeituosa e´ de 0,2. Defina um modelo para o nu´mero de pec¸as defeituosas na amostra e deˆ o nu´mero esperado de pec¸as defeituosas. O modelo para X=nu´mero de pec¸as defeituosas na amostra e´X ∼ B(10, 0.2). A func¸a˜o de probabilidade para X: P (X = k) = C10k (0.2) k(0.8)10−k, k = 0, 1, 2, 3, ..., 10 E(X)=n.p=10.0,2=2. 5 VARIA´VEIS ALEATO´RIAS DISCRETAS 72 5.7 Modelo Poisson Dizemos que uma varia´vel aleato´ria X tem distribuic¸a˜o Poisson com paraˆmetro λ, λ > 0 se sua func¸a˜o de probabilidade for a seguinte: P (X = k) = { e−λλk k! , k = 0, 1, 2, ... 0, caso contrario Notac¸a˜o:X Poisson(λ) Podemos calcular E(X) e var(X). E(X) = ∑∞ k=0 kP (X = k) = ∑∞ k=1 ke−λλk k! = λ ∑∞ k=1 ke−λλk−1 (k−1)! = λ ∑∞ y=0 ke−λλy y! = λ Para calcular var(X) vamos primeiramente calcular primeiramente E(X(X − 1)) = ∑∞k=2 k(k−1)e−λλkk! = ∑∞k=2 e−λλk(k−2)! = λ2∑∞y=0 e−λλyy! = λ2 Portanto E(X2)− E(X) = λ2 ⇒ E(X2) = λ2 + λ ⇒ var(X) = E(X2)− (E(X))2 = λ2 + λ− λ2 = λ Exemplo 16: O nu´mero de mensagens recebidas por minuto por um provedor em hora´rio comercial foi modelado por uma varia´vel Poisson com taxa 15. Deˆ a func¸a˜o de probabilidade e o nu´mero esperado de mensagens recebidas. P (X = k) = { e−1515k k! , k = 0, 1, 2, 3, ... 0, caso contrario E(X) = 15 O modelo Poisson e´ muito utilizado quando desejamos contar o nu´mero de eventos de certo tipo que ocorrem num determinado intervalo de tempo. Por exemplo: 1) O nu´mero de chamadas telefonicas recebidas em 5 minutos. 2) O nu´mero de falhas em um computador em 1 dia. 3) O nu´mero de relato´rios de acidentes em 1 dia de trabalho. Exemplo 17: Se o nu´mero de chamadas telefoˆnicas recebidas por uma central telefoˆnica pode ser modelada por uma varia´vel aleato´ria Poisson com me´dia 5, qual e´ 5 VARIA´VEIS ALEATO´RIAS DISCRETAS 73 a probabilidade de que a central na˜o receba ligac¸o˜es em 1 minuto? P (N = 0) = 5 0e−5 0! = e−5 Qual e´ a me´dia (nu´mero esperado de ligac¸o˜es recebidas) em 4 minutos? Qual e´ a probabilidade de a central na˜o receber ligac¸o˜es em 4 minutos? Para Y; Nu´mero de ligac¸o˜es recebidas em 4 minutos temos: E(Y ) = 20 P (Y = 0) = 20 0e−20 0! = e−20 5 VARIA´VEIS ALEATO´RIAS DISCRETAS 74 5.8 Exerc´ıcios - lista 06 Questa˜o 1 Para uma determinada moeda, a probabilidade de se obter cara e´ treˆs vezes maior que a de se obter coroa. Lanc¸amos essa moeda 3 vezes e o nu´mero de caras e´ observado. Para X, a varia´vel aleato´ria que descreve o nu´mero de caras, estabelec¸a a func¸a˜o de probabilidade e de distribuic¸a˜o e construa os gra´ficos correspondentes. Questa˜o 2 Extra´ımos duas bolas sem reposic¸a˜o de uma urna contendo duas bolas brancas e treˆs vermelhas. Definimos X, a varia´vel aleato´ria que descreve o nu´mero de bolas vermelhas obtidas nas duas extrac¸o˜es. Construa a func¸a˜o de probabilidade e de distribuic¸a˜o para X e os respectivos gra´ficos. Questa˜o 3 Para a varia´vel aleato´ria X com a func¸a˜o de probabilidade abaixo. • a) Calcule P(X=-2). • b) Para a varia´vel Y = X2 encontre a func¸a˜o de probabilidade e a func¸a˜o de distribuic¸a˜o de Y. Questa˜o 4 Encontre a me´dia e variaˆncia para as varia´veis das questo˜es 1 e 2 acima. Questa˜o 5 Suponha que uma varia´vel aleato´ria tem a seguinte func¸a˜o de probabili- dade: 5 VARIA´VEIS ALEATO´RIAS DISCRETAS 75 Encontre a esperanc¸a e a variaˆncia de X. Questa˜o 6 A func¸a˜o de distribuic¸a˜o para uma varia´vel aleato´ria X e´ dada por: • a) Qual e´ a func¸a˜o de probabilidade de X? • b) Calcule P(−5 ≤ X < 15). • b) Calcule P(X > 10). Questa˜o 7 Um caminho para se chegar a uma festa pode ser dividido em treˆs etapas. Se na˜o houver enganos o trajeto e´ feito em 1 hora. Se enganos acontecem na primeira etapa demoramos 10 minutos a mais para chegar a` festa. Para a segunda etapa o acre´scimo e´ de 20 minutos e para a terceira e´ de 30 minutos. Admita que a probabilidade de se cometer engano na primeira etapa e´ 0,1. Na segunda etapa e´ 0,2 e, na terceira etapa e´ 0,3. Admita tambe´m que os enganos podem acontecer em uma etapa ou mais. Determine: • a) A func¸a˜o de probabilidade para o tempo de atraso. • b) O tempo me´dio de atraso. • b) A probabilidade do atraso ser de ate´ 40 minutos. Questa˜o 8 Seja X uma varia´vel seguindo o modelo uniforme discreto com valores no conjunto {1, 2, 3, ..., 10}. Determine: • a) P(X ≥ 7). • b) P(X < 2 ou X ≥ 8). • b) P(X > 3 e X < 6). 5 VARIA´VEIS ALEATO´RIAS DISCRETAS 76 • d) P(X ≤ 9 | X ≥ 6). Questa˜o 9 Um fabricante de pec¸as de automo´veis garante que uma caixa de suas pec¸as contera´ no ma´ximo duas pec¸as defeitusos. Se o processo de fabricac¸a˜o produz 5 por cento das pec¸as defeituosas e, se cada caixa conte´m 18 pec¸as, qual e´ a probabilidade de que a uma caixa satisfac¸a a garantia? Questa˜o 10 Um curso de treinamento aumenta a produtividade em 80 por cento dos casos. Para um grupo de 10 funciona´rios que participaram desse curso en- contre a probabilidade: • a) De sete funcione´rios aumentarem a produtividade. • b) Pelo menos dois funciona´rios terem aumentado a produtividade. • c) Qual e´ a me´dia do nu´mero de funciona´rios que aumentam a produ- tividade? Questa˜o 11 Uma varia´vel aleato´ria Y segue o modelo Poisson com paraˆmetro λ = 2. Calcule: • a) P(Y=1). • b) P(Y<2). • b) P(Y>0). Questa˜o 12 Numa central telefoˆnica, o nu´mero de chamadas chega segundo uma dis- tribuic¸a˜o Poisson com me´dia de 8 chamadas por minuto. Calcule a probabil- idade de a central: • a) Na˜o receber ligac¸o˜es em 1 minuto. • b) Na˜o receber ligac¸o˜es em 5 minutos. • c) Receber no ma´ximo 2 chamadas em 5 minutos. • d) Qual o nu´mero me´dio de chamadas recebidas em 15 minutos. Questa˜o 13 A chegada de avio˜es a um aeroporto se da´ segundo um modelo poisson com taxa 1 por minuto. 5 VARIA´VEIS ALEATO´RIAS DISCRETAS 77 • a) Determine a probabilidade de chegarem 3 avio˜es em um minuto. • b) Se o aeroporto pode atender 2 avio˜es por minuto, qual e´ a probabil- idade de haver avio˜es sem atendimento imediato? • c) As previso˜es para os pro´ximos anos indicam que o tra´fego deve dobrar nesse aeroporto, enquanto que a capacidade de atendimento pode ser ampliada em no ma´ximo 50 por cento. Como ficara´ a probabilidade de espera por atendimento? 6 VARIA´VEIS ALEATO´RIAS CONTI´NUAS 78 6 Varia´veis aleato´rias cont´ınuas Agora iremos estudar modelos probabil´ısticos para varia´veis aleato´rias cont´ınuas ou seja varia´veis para as quais os valores poss´ıveis pertencem a um intervalo de nu´meros reais. Por exemplo, renda, sala´rio, tempo de durac¸a˜o de um experimento, a´rea atingida por uma praga agr´ıcola, sa˜o quantidades que podem ser modeladas por varia´veis aleato´rias cont´ınuas. De forma semelhante a`quela desenvolvida para varia´veis aleato´rias disc- retas precisamos estabelecer probabilidades para as varia´veis cont´ınuas. No entanto, agora as varia´veis podem assumir um nu´mero infinito de valores diferentes. Vamos ver um exemplo de como podemos atribuir probabilidades para uma varia´vel cont´ınua. Exemplo 1: Suponha que em uma determinada regia˜o, e´ conhecida a existeˆncia de um grande lenc¸ol de a´gua no subsolo. No entanto, sua profundidade e´ descon- hecida sabendo-se apenas que se situa entre 20 e 100 metros. Denotando por X a profundidade em que o lenc¸ol esta´ situado, temos que X pode ser qualquer nu´mero entre 20 e 100. Assim consideramos que todos os pontos entre 20 e 100 sa˜o igualmente prova´veis, mas se utilizarmos a mesma ide´ia das varia´veis discretas de atribuir a cada valor poss´ıvel uma probabilidade teremos uma dificuldade extra pois existem infinitos valores poss´ıveis. Desta forma, se a cada um dos valores poss´ıveis atribuirmos uma probabilidade, a soma das probabilidades sera´ infinita e na˜o 1, como deve satisfazer a func¸a˜o de probabilidade. Em situac¸o˜es como essas, na˜o e´ de interesse considerar apenas 1 valor para a varia´vel aleato´ria mas, intervalos de valores na atribuic¸a˜o de probabilidades. Nesse caso, sabemos que o espac¸o amostral corresponde ao intervalo [20,100] e as profundidades sa˜o igualmente prova´veis. Suponha que dividimos o intervalo em 8 partes de comprimento 10 enta˜o, e´ razoa´vel atribuir a cada uma dessas partes uma probabilidade de 1/8 ja´ que devemos distribuir a probabilidade 1 da mesma maneira para cada um dos intervalos. Se dividirmos o intervalo em 80 partes de comprimento igual a 1 enta˜o devemos atribuir a cada uma dessas partes uma probabilidade de 1/80. Dessa maneira podemos atribuir probabilidades a` qualquer subconjunto de [20,100]. Assim como a densidade de massa nos diz como distribuir massa em cada unidade do volume considerado, a densidade de probabilidade nos diz como e´ poss´ıvel distribuir o total de probabilidade 1, em cada unidade do intervalo 6 VARIA´VEIS ALEATO´RIAS CONTI´NUAS 79 considerado como espac¸o amostral. No exemplo acima, a densidade de probabilidade e´ 1/80. Podemos cal- cular por exemplo, a probabilidade de encontrar a´gua entre 20 e 40 metros multiplicando 20 por 1/80, analogamente entre 35 e 50 metros temos a prob- abilidade de 15/80. De forma geral, podemos calcular a probabilidade de encontrar a´gua em qualquer trecho atrave´s da a´rea sobre a de densidade: Agora podemos caracterizar a atribuic¸a˜o de probabilidades no caso cont´ınuo. Ela sera´ definida pela a´rea abaixo de uma func¸a˜o positiva denominada func¸a˜o de densidade de probabilidade. A func¸a˜o de densidade em si na˜o e´ uma prob- abilidade mas nos auxilia no ca´lculo das probabilidades. Para a varia´vel do exemplo anterior, X representando a profundidade do lenc¸ol de a´gua, temos a seguinte func¸a˜o de densidade de probabilidade: f(x) = { 1/80, 20 ≤ X ≤ 100 0, caso contrario Dessa forma podemos calcular a probabilidade do lenc¸ol estar localizado em um dado intervalo de profundidade. Por exemplo P (25 ≤ X ≤ 30) = 5/80. 6.1 Func¸a˜o de densidade de probabilidade Podemos formalizar as ide´ias anteriores atrave´s da seguinte definic¸a˜o: Definic¸a˜o: func¸a˜o de densidade de probabilidade Dizemos que f(x) e´ uma func¸a˜o de densidade de densidade de probabili- dade para uma varia´vel aleato´ria X cont´ınua se satisfaz: • (i) f(x) ≥ 0 para x ∈ (−∞,∞) • (ii) A a´rea definida por f(x) e´ igual a 1. Podemos caracterizar a condic¸a˜o (ii) por ∫∞ −∞ f(x)dx = 1. 6 VARIA´VEIS ALEATO´RIAS CONTI´NUAS 80 Da mesma forma, para calcular probabilidades temos para a ≤ b: P (a ≤ X ≤ B) = ∫ b a f(x)dx A integral acima indica a a´rea sob a func¸a˜o de densidade f(x) no intervalo [a,b]. Pela forma como atribu´ımos as probabilidades temos P (X = k) = 0 ja´ que temos a´rea zero sobre qualquer valor individual de X, portanto, a prob- abilidade de ocorreˆncia de um valor Exemplo 2: Se uma reac¸a˜o qu´ımica tem o tempo T modelado por uma func¸a˜o cont´ınua com func¸a˜o de densidade: f(t) = { 2t, 0 ≤ t ≤ 1 0, caso contrario Calcule a P (0 ≤ T ≤ 1/2) P (0 ≤ T ≤ 1/2) = ∫ 1/2 0 2tdt = t2 |1/20 = 1/4. Exemplo 3: A a´rea atingida por uma praga e´ uma varia´vel aleato´ria cont´ınua com func¸a˜o de densidade de probabilidade dada por: f(x) = 1/4, 0 ≤ x < 2 1/8, 2 ≤ x ≤ 6 0, caso contrario Determine: 6 VARIA´VEIS ALEATO´RIAS CONTI´NUAS 81 • a) P (X > 3) • b) P (1 < X ≤ 4) • c) P (X < 3|X > 1) • a) P (X > 3) = ∫ 6 3 1/8dx = 3/8 • b) P (1 < X ≤ 4) = ∫ 2 1 1/4dx+ ∫ 4 2 1/8dx = 1/4 + 2/8 = 1/2 • c) P (X < 3|X > 1) = P (1≤X<3) P (X≥1) = ∫ 2 1 1/4dx+ ∫ 3 2 1/8dx∫ 2 1 1/4dx+ ∫ 6 2 1/8dx = 3/8 6/8 = 1/2 Exemplo 4: Determine c tal que f(x) seja uma func¸a˜o de densidade: f(x) = 0, x < 0 cx, 0 ≤ x < 1/2 c(1− x), 1/2 ≤ x < 1 0, x ≥ 1 Para que f(x) seja uma func¸a˜o de densidade devemos ter: • (i) f(x) ≥ 0 • (ii) ∫∞−∞ f(x)dx = 1 Para c ≥ 0 (i) vale. Para que (ii) acontec¸a devemos ter: ∫ 1/2 0 cxdx + ∫ 1 1/2 c(1 − x)dx = 1 ⇒ cx2 2 |1/20 +c[x− x 2 2 ] |11/2= 1 ⇒ c/8 + c/8 = 1 ⇒ c = 4 6.2 Func¸a˜o de distribuic¸a˜o acumulada Dada uma varia´vel aleato´ria X com func¸a˜o de densidade de probabi lidade f(x), podemos definir a func¸a˜o de distribuic¸a˜o F(x) de maneira ana´loga a que fizemos para as varia´veis discretas: F (x) = ∫ x −∞ f(t)dt, −∞ < x <∞ Portanto, F (x) = ∫ x −∞ f(t)dt, para todo x real. 6 VARIA´VEIS ALEATO´RIAS CONTI´NUAS 82 Exemplo 5: Para a varia´vel com func¸a˜o de densidade estudada no exemplo 2, f(t) = { 2t, 0 ≤ t ≤ 1 0, caso contrario temos a seguinte func¸a˜o de distribuic¸a˜o F (t) = 0, t < 0∫ t 0 2xdx, 0 ≤ t ≤ 1∫ 1 0 2xdx+ ∫ t 0 0dx, t > 1 enta˜o F (t) = 0, t < 0 t2, 0 ≤ t ≤ 1 1, t > 1 Exemplo 6: Para a func¸a˜o de densidade definida no exemplo 3: f(x) = 1/4, 0 ≤ x < 2 1/8, 2 ≤ x ≤ 6 0, caso contrario temos a seguinte func¸a˜o de distribuic¸a˜o: F (x) = 0, x < 0∫ x 0 1/4dt = x/4, 0 ≤ x < 2∫ 2 0 1/4dt+ ∫ x 0 1/8dt = 1/4 + x/8, 2 ≤ x ≤ 6 1, x ≤ 6 6 VARIA´VEIS ALEATO´RIAS CONTI´NUAS 83 Propriedades da func¸a˜o acumulada • (i) 0 ≤ F (x) ≤ 1 • (ii) limx→−∞F (x) = 0 • (iii) limx→∞F (x) = 1 Proposic¸a˜o: Para os valores de x para os quais F(x) e´ deriva´vel temos: F ′(x) = dF (x) dx = f(x) Exemplo 7: Suponha que X seja uma varia´vel aleato´ria cont´ınua com a seguin te func¸a˜o de distribuic¸a˜o acumulada: F (x) = { 0, x < 0 1− e−x, se x ≥ 0 Construa a func¸a˜o de densidade para a varia´vel X. De acordo com a proposic¸a˜o acima temos: f(x) = { 0, x < 0 e−x, se x > 0 Exemplo 8: Seja X uma varia´vel aleato´ria cont´ınua com func¸a˜o de distribuic¸a˜o dada por: 6 VARIA´VEIS ALEATO´RIAS CONTI´NUAS 84 F (x) = 0, x < 0 x2, 0 ≤ x < 1/2 3x/2− 1/2, 1/2 ≤ x < 1 1, se x ≥ 1 Construa a func¸a˜o de densidade. Temos f(x) = { 2x, 0 ≤ x < 1/2 3/2, 1/2 ≤ x ≤ 10, caso contrario 6.3 Me´dia e variaˆncia para varia´veis aleato´rias cont´ınuas Quando X era uma varia´vel aleato´ria discreta, calcula´vamos E(X) = ∑n i=1 xip(xi). Agora, para X uma varia´vel cont´ınua vamos usar uma generalizac¸a˜o desta definic¸a˜o. Suponha que X seja uma varia´vel cont´ınua definida no intervalo [a,b] como na figura abaixo. Vamos discretizar a varia´vel X e calcular a esperanc¸a atrave´s de um processo de limite. 6 VARIA´VEIS ALEATO´RIAS CONTI´NUAS 85 Denotemos por Y uma varia´vel aleato´ria discreta que assume os valores x1, x2,..., xn com probabilidades aproximadamente hf(x1), hf(x2),..., hf(xn). Pela definic¸a˜o de esperanc¸a de varia´vel discreta temos: E(Y ) = ∑n i=1 xihf(xi) que sera´ uma aproximac¸a˜o para a esperanc¸a de X. Para melhorar essa aproximac¸a˜o, aumentamos o nu´mero de parcelas diminuindo a amplitude h. No limite teremos: E(x) = limn⇒∞E(Y ) = limn⇒∞ ∑n i=1 xif(xi)h = ∫ b a xf(x)dx. Notac¸a˜o: E(X) = µ = ∫∞ −∞ xf(x)dx Variaˆncia Para X uma varia´vel aleato´ria cont´ınua com densidade de probabilidade f(x), a variaˆncia e´ definida por: σ2 = ∫∞ −∞(x− µ)2f(x)dx Como no caso discreto, a variaˆncia e´ a medida de dispersa˜o mais utilizada na pra´tica. Aqui tambe´m podemos utilizar a expressa˜o que utilizamos com as varia´veis discretas: σ2 = E(X2)− µ2 onde E(X2) = ∫∞ −∞ x 2f(x)dx. O desvio padra˜o tambe´m e´ calculado da mesma forma dp(X) = √ var(X) = σ. Exemplo 9: Vamos calcular a esperanc¸a e variaˆncia para a varia´vel X dada no exemplo 2. A func¸a˜o de densidade de X era: f(x) = { 2x, 0 ≤ x < 1 0, caso contrario Portanto a esperanc¸a e´ dada por E(X) = ∫ 1 0 x2xdx = 2x 3 3 |10= 2/3. E a variaˆncia var(X) = E(X2) − E(X)2 = E(X2) − 4/9 mas E(X2) =∫ 1 0 x22xdx = 2x 4 4 |10= 2/4 enta˜o 6 VARIA´VEIS ALEATO´RIAS CONTI´NUAS 86 var(X) = 1/2− 4/9 = 1/18 e dp(X) = √1/18. Exemplo 10: No exemplo 3, a varia´vel X cont´ınua tinha a seguinte func¸a˜o de densidade: f(x) = 1/4, 0 ≤ x < 2 1/8, 2 ≤ x ≤ 6 0, caso contrario A esperanc¸a e´ dada por: E(X) = ∫ 2 0 x1/4dx+ ∫ 6 2 x1/8dx = x 3 12 |20 +x 3 24 |62= 812 + 20824 = 22424 E a variaˆncia e o desvio padra˜o var(X) = E(X2) − E(X)2 = 224/24 − 25/4 = 74/24, dp(X) = √ 37/12. Alguns modelos para varia´veis aleato´rias cont´ınuas Alguns exemplos de varia´veis aleato´rias cont´ınuas esta˜o relacionados a` algum processo de mensurac¸a˜o, por exemplo: peso, altura, tempo de vida de uma laˆmpada, erros de medidas em experimentos. Em muitos casos podemos usar modelos espec´ıficos para modelar as varia´veis em estudo. Agora vamos estudar os modelos mais frequentes para as varia´veis aleato´rias cont´ınuas. Para cada um deles, estaremos interessados em determi- nar a func¸a˜o de densidade, a func¸a˜o de distribuic¸a˜o, a esperanc¸a e a variaˆncia. 6.4 Modelo uniforme cont´ınuo O modelo uniforme e´ o modelo mais simples para as varia´veis cont´ınuas, ele e´ uma generalizac¸a˜o do modelo uniforme que estuda mos para varia´veis disc- retas. Definic¸a˜o: Uma varia´vel aleato´ria X segue o modelo uniforme cont´ınuo no intervalo [a,b] se sua func¸a˜o de densidade de probabilidade e´ dada por: f(x) = { 1/(b− a), a ≤ x ≤ b 0, caso contrario Notac¸a˜o: X ∼ U [a, b]. Na˜o ha´ restric¸o˜es para a, b ∈ R exceto o fato de a < b. 6 VARIA´VEIS ALEATO´RIAS CONTI´NUAS 87 O modelo uniforme pressupo˜e que a probabilidade da varia´vel pertencer a intervalos de mesmo comprimento e´ igual. O valor esperado e a variaˆncia sa˜o dados por: E(X) = ∫∞ −∞ xf(x)dx = ∫ b a x 1 (b−a)dx = 1 (b−a) ∫ b a xdx = 1 (b−a) x2 2 |ba= b 2−a2 2(b−a) = b+a 2 var(X) = E(X2)− E(X)2 = E(X2)− ( b+a 2 )2 Vamos calcular E(X2). E(X2) = ∫ b a x2 1 (b−a)dx = x3 3(b−a) |ba= b 3−a3 3(b−a) = (b−a)(b2+ab+a2) 3(b−a) = b2+ab+a2 3 Portanto, var(X) = b 2+ab+a2 3 − (b2+2ab+a2) 4 = 4b 2+4ab+4a2 12 − (3b2+6ab+3a2) 12 = (b2−2ab+a2) 12 = (b−a) 2 12 . A func¸a˜o de distribuic¸a˜o e´ dada por: F (x) = P (X ≤ x) = ∫ x−∞ f(x)dx = 0, x < a (x− a)/(b− a), a ≤ x < b 1, x ≥ b Exemplo 1: Suponha que estamos interessados em inspecionar a resisteˆncia de um tubo de PVC a` pressa˜o de a`gua. O tubo tem 6 metros e a probabilidade de ocorrer vazamento em um determinado ponto e´ a mesma para todos os pontos do tubo. Fixemos uma extremidade do tubo e denotemos por X a distaˆncia do primeiro furo a` essa extremidade. Enta˜o X pode ser modelada por uma uniforme no intervalo [0,6]. 6 VARIA´VEIS ALEATO´RIAS CONTI´NUAS 88 X ∼ U [0, 6] f(x) = { 1/6, 0 ≤ x ≤ 6 0, caso contrario A distaˆncia esperada para a ocorreˆncia do primeiro furo e´ E(X) = (b+a) 2 = 6/2 = 3. e a variaˆncia e´ var(X) = (b−a) 2 12 = 36 12 = 3 A func¸a˜o de distribuic¸a˜o e´ dada por: F (x) = 0, x < 0 x/6, 0 ≤ x < 6 1, x ≥ 6 Podemos atrave´s da func¸a˜o de distribuic¸a˜o, calcular a probabilidade do furo acontecer a uma distaˆncia menor que dois metros ou maior que 4 metros. Queremos P (X < 2 ∪ X > 4) = P (X < 2) + P (X > 4) = P (X < 2) + (1− P (X ≤ 4)) = 1/3 + 1− 2/3 = 2/3. 6.5 Modelo exponencial Uma varia´vel aleato´ria cont´ınua, assumindo valores na˜o negativos segue o modelo exponencial com paraˆmetro α > 0 se sua densidade e´ dada por: f(x) = { αe−αx, x ≤ 0 0, caso contrario Notac¸a˜o: X ∼ exp(α) 6 VARIA´VEIS ALEATO´RIAS CONTI´NUAS 89 A func¸a˜o de distribuic¸a˜o para X e´ dada por: F (x) = { 0, x < 0∫ x 0 αe−αtdt = −e−αt |x0= (1− e−αx), x ≥ 0 A esperanc¸a e a variaˆncia sa˜o calculadas atrave´s de uma te´cnica de inte- grac¸a˜o conhacida como integrac¸a˜o por partes e resultam em: E(X) = 1 α var(X) = 1 α2 O modelo exponencial e´ muito utilizado em experimentos nos quais o ob- jetivo e´ calcular a vida u´til de equipamentos, tempos de falha, tempos de sobreviveˆncia etc. Exemplo 2: Uma indu´stria fabrica laˆmpadas que ficam em operac¸a˜o continuamente e oferece a seus clientes a garantia de reposic¸a˜o se elas durarem menos que 50 horas. Sabendo que a vida u´til dessas laˆmpadas e´ modelada por uma expo- nencial com paraˆmetro (1/8000). Determine a probabilidade de um laˆmpada ser trocada e o tempo esperado de durac¸a˜o de uma laˆmpada. Se X ∼ exp(1/8000) enta˜o sua func¸a˜o de densidade a´ dada por: f(x) = { 1/8000e−x/8000, x ≤ 0 0, caso contrario Para uma laˆmpada ser trocada ele deve durar menos de 50 horas. Enta˜o a probabilidade de haver troca e´: P (X < 50) = ∫ 50 0 1/8000e−x/8000dx = −e−x/8000 |500 = 1− e−5/800 = 1− e−1/160 E o tempo esperado de durac¸a˜o e´: E(X) = 8000 horas. 6 VARIA´VEIS ALEATO´RIAS CONTI´NUAS 90 Uma propriedade importante da exponencial e´ a falta de memo´ria. Isso quer dizer que se quisermos calcular a probabilidade de uma laˆmpada durar um tempo maior ou igual a 7 horas sabendo que ela durou pelo menos 5 horas podemos calcular a probabilidade da laˆmpada durar pelo menos 2 horas. Isso equivale a fazer uma translac¸a˜o no tempo e assumir que a origem do tempo e´ 5. Vamos fazer as contas e verificar que P (X ≥ 2) = P (X ≥ 7 | X ≥ 5). P (X ≥ 2) = ∫∞ 2 1/8000e−x/8000dx = −e−x/8000 |∞2 = e−2/8000 P (X ≥ 7 | X ≥ 5) = P (X≥7∪X≥5) P (X≥5) = ∫∞ 7 1/8000e −x/8000dx∫∞ 5 1/8000e −x/8000dx = e−7/8000 e−5/8000 = e−2/8000 De uma forma geral se X ∼ exp(α) temos: P (X ≥ t + s | X ≥ s) = P (X≥t+s∪X≥s) P (X≥s) = ∫∞ t+s αe αdx∫∞ s αe −αdx = e−α(t+s) e−αs = e −αt = P (X ≥ t) Podemos fazer a seguinte interpretac¸a˜o para a falta de memo´ria: Supondo que X representa o tempo de vida (em anos) de um equipamento e X ∼ exp(α), a probabilidade do equipamento durar pelo menos t+s anos sabendo que ele ja´ durou s anos e´ igual a probabi lidade de um equipamento novo durar pelo menos t anos. Isso significa que podemos ”esquecer” a idade do equipamento, o que importa para o ca´lculo das probabilidades sa˜o quantos anos queremos que ele dure. 6.6 Modelo Normal Dizemos que uma varia´vel aleato´ria cont´ınua X segue o modelo normal com paraˆmetros µ e σ2 se sua func¸a˜o de densidade e´ dada por: f(x) = 1√ 2piσ2 e −(x−µ)2 2σ2 , −∞ < x <∞ Notac¸a˜o: X ∼ N(µ, σ2) 6 VARIA´VEIS ALEATO´RIAS CONTI´NUAS 91 Podemos observar as seguintes propriedades: • (i) f(x) e´ sime´trica com relac¸a˜o a µ. • (ii) f(x)→ 0 quando x→+− ∞. • (iii) O valor ma´ximo de f(x) ocorre para x = µ. Quando µ = 0 e σ2 = 1, dizemos que X e´ normal padra˜o. Os paraˆmetros µ e σ2 descrevem o perfil da curva da normal, µ e´ o ponto de simetria e σ2 nos diz o quanto achatada e´ a curva, um valor maior de σ2 nos da´ uma curva mais achatada, com ”caudas” mais grossas. Atrave´s de algumas manipulac¸o˜es utilizando a te´cnica de integrac¸a˜o con- hecida por integral por partes, podemos calcular a esperanc¸a e a variaˆncia de uma varia´vel aleato´ria com X distribuic¸a˜o normal com paraˆmetros µ e σ2: E(X) = µ var(X) = σ2 Para construir a func¸a˜o de distribuic¸a˜o e calcular as probabilidades pre- cisamos calcular integrais: P (a ≤ X ≤ b) = ∫ b a 1√ 2piσ2 e −(x−µ)2 2σ2 dx Mas a integral acima na˜o pode ser calculada analiticamente, apenas por me´todos nume´ricos, por essa raza˜o, as probabilidades da normal sa˜o calcu- ladas atrave´s de uma tabela. Para evitar a construc¸a˜o de va´rias tabelas, uma para cada valor de µ e σ2, utilizamos uma transformac¸a˜o que sempre nos leva ao ca´lculo de probabilidades em uma normal com µ = 0 e σ2 = 1. A esse procedimento damos o nome de padronizac¸a˜o. Vamos descrever esse procedimento: Considere X ∼ N(µ, σ2), definimos uma nova varia´vel Z = X−µ σ , vamos verificar que Z ∼ N(0, 1). E(Z) = E(x−µ σ ) = E(x σ − µ σ ) = 1 σ E(X)− µ σ = µ σ − µ σ = 0 var(Z) = var(x−µ σ ) = var(x σ − µ σ ) = 1 σ2 var(X) = σ 2 σ2 = 1 Ale´m disso, podemos verificar que essa transformac¸a˜o na˜o afeta a nor- malidade. Dessa forma: Z ∼ N(0, 1) 6 VARIA´VEIS ALEATO´RIAS CONTI´NUAS 92 Dizemos que Z tem distribuic¸a˜o normal padra˜o e podemos calcular P (Z ≤ z) = Φ(z) atrave´s da tabela. Enta˜o, para uma varia´vel X ∼ N(µ, σ2), podemos calcular probabi lidades P (a ≤ X ≤ b) fazendo uma transformac¸a˜o X → Z para usar a tabela da normal padra˜o. O procedimento e´ o seguinte: P (a ≤ X ≤ b) = P (a−µ σ ≤ X−µ σ ≤ b−µ σ ) = P (a−µ σ ≤ Z ≤ b−µ σ ) Exemplo 3: Calcule P (2 < X < 5) para X ∼ N(2, 9). Se X ∼ N(2, 9) devemos padronizar X para calcular a probabilidade de- sejada atrave´s da tabela da normal padra˜o. P (2 < X < 5) = P (2−2 3 < X−2 3 < 5−2 3 ) = P (0 < Z < 1) = 0, 8413−0, 5 = 0, 3413 Atrave´s da padronizac¸a˜o transformamos a variavel X na varia´vel Z nor- mal padra˜o. Ao fazer isso identificamos o intervalo correspon dente ao (2,5) na normal padra˜o, isto e´, calcular a probabilidade de X pertencer ao inter- valo (2,5) onde X ∼ N(2, 9) e´ equivalente a calcular a probabilidade de Z pertencer ao intervalo (0,1), onde Z ∼ N(0, 1). Vamos calcular P (0 ≤ X < 2). P (0 ≤ X < 2) = P (0−2 3 ≤ X−2 3 < 2−2 3 ) = P (−2 3 ≤ Z < 0) = P (0 ≤ Z < 2 3 ) = 0, 7486− 0, 5 = 0, 2486 Podemos ainda calcular a probabilidade em intervalos com extremos neg- ativos na normal padra˜o utilizando os correspondentes intervalos da parte positiva, pela simetria da distribuic¸a˜o normal. Segue da simetria da normal padra˜o que a probabilidade de ocorrer valores acima ou abaixo de zero e´ 0,5. Um outro recurso importante no uso da tabela e´ a utilizac¸a˜o do comple- mentar. Para X definida no exemplo acima vamos calcular P (X > 3). 6 VARIA´VEIS ALEATO´RIAS CONTI´NUAS 93 P (X > 3) = P (X−2 3 > 3−2 3 ) = P (Z > 1 3 ) = 1−P (Z ≤ 1 3 ) = 1− 0, 6293 = 0, 3707 A tabela da normal padra˜o pode tambe´m ser utilizada no sentido inverso, isto e´, podemos dar uma probabilidade e descobrir qual o valor que a origi- nou. Por exemplo, para Z ∼ N(0, 1), desejamos saber qual e´ o valor c tal que: P (0 < Z < c) = 0, 4 Procurando na tabela, vemos que o valor que mais se aproxima de c e´ 1,28. Um outro exemplo neste sentido: Suponha que desejamos descobrir o valor de d tal que P (Z > d) = 0, 8 Primeiramente verificamos que d tem que ser negativo pois a probabili- dade deixada a direita de d e´ maior que 1/2. Pela simetria da normal, basta encontrar k tal que P (0 < Z < k) = 0, 3 e fazer d=-k. Pela tabela k=0,84. Portanto d=-0,84. Exemplo 4: Doentes sofrendo uma certa mole´stia sa˜o submetidos a um tratamento e o tempo de cura e´ uma varia´vel aleato´ria normal com me´dia 15 e desvio padra˜o 2 (em dias). Determine: • a) Qual a proporc¸a˜o desses pacientes que demora mais de 17 dias para se curar? • b) Qual e´ a probabilidade de que um paciente escolhido ao acaso apre- sente o tempo de cura inferio a 2 semanas? • c) Qual e´ o tempo de cura necessa´rio para recuperar 25 por cento dos pacientes? • d) Se 100 pacientes forem escolhidos ao acaso, qual seria o nu´mero esperado de doentes curados em menos de 11 dias? a) Pelas informac¸o˜es do problema temos X ∼ N(15, 4). Queremos P (X > 17). P (X > 17) = P (X−15 2 > 17−15 2 ) = P (Z > 1) = 1 − P (Z ≤ 1) = 1− 0, 8413 = 0, 1587 b) P (X < 14) = P (X−15 2 < 14−15 2 ) = P (Z < −1 2 ) = P (Z > 1 2 ) = 1− P (Z ≤ 1 2 ) = 1− 0, 6915 = 0, 3085 6 VARIA´VEIS ALEATO´RIAS CONTI´NUAS 94 c) Essa pergunta pode ser reescrita como: Qual e´ o tempo mı´nimo necessa´rio para que a probabilidade de uma pessoa se curar seja de 25 por cento? Assim a proporc¸a˜o para o grupo de pacientes pode ser interpretada como a probabilidade para um u´nico paciente genericamente escolhido. Precisamos enta˜o obter t tal que P (X < t) = 0, 25. P (X < t) = 0, 25⇒ P (X−15 2 < t− 152) = 0, 25⇒ P (Z < t−15 2 ) = 0, 25 Pela tabela temos t−15 2 = −0, 67 enta˜o t = 13, 66. Aproximadamente 14 dias. d) Obteremos a probabilidade de um paciente gene´rico ser curado em menos de 11 dias. Essa probabilidade pode ser interpretada como a proporc¸a˜o de pacientes que se curaram em menos de 11 dias. Essa probabilidade pode ser interpretada como a proporc¸a˜o de pacientes que se curaram em menos de 11 dias. P (X < 11) = P (X−15 2 < 11− 152) = P (Z < −4 2 ) = P (Z < −2) = 0, 0227 Enta˜o, a proporc¸a˜o de pessoas curadas nesse grupo de 100 pessoas e´ 0,0227. Portanto 0, 0227 = N 100 ⇒ N = 2, 27. Aproximadamente 2 pacientes. Uma propriedade muito importante do modelo normal, que na˜o demostraremos aqui e´ que qualquer combinac¸a˜o linear de varia´veis normais independentes tera´ distribuic¸a˜o normal. Em outras palavras, se X1, X2, ..., Xn sa˜o varia´veis aleato´rias normais independetes tais que Xi ∼ N(µi, σ2i ), a varia´vel aleato´ria definida por W = ∑n i=1 αiXi tera´ distribuic¸a˜o normal com me´dia e variaˆncia dadas por: E(W ) = E( ∑n i=1 αiXi) = ∑n i=1 αiE(Xi) = ∑n i=1 αiµi V ar(W ) = V ar( ∑n i=1 αiXi) = ∑n i=1 α 2 iV ar(Xi) = ∑n i=1 α 2 iσ 2 i logo, Z ∼ N(∑ni=1 αiµi,∑ni=1 α2iσ2i ). Este fato sera´ muito utilizado em testes de hipo´teses, juntamente com o teorema central do limite e os modelos X 2 e t-student. 6 VARIA´VEIS ALEATO´RIAS CONTI´NUAS 95 6.7 Exerc´ıcios - lista 07 Questa˜o 1 O tempo em minutos de digitac¸a˜o de um texto pode ser considerado uma varia´vel aleato´ria cont´ınua com a seguinte func¸a˜o de densidade: f(x) = 1/4, se 0 ≤ x < 2 1/8, se 2 ≤ x < 6 0, caso contrario Determine: • a) P(X>3). • b) P(1<X≤4). • c) A func¸a˜o de distribuic¸a˜o de probabilidade para a varia´vel x. • d) Um nu´mero b tal que P(X> b)=0,6. • e) O valor esperado e a variaˆncia de X. Questa˜o 2 A quantia gasta anualmente em milho˜es de reais na manutenc¸a˜o do asfalto em uma cidade e´ representada pela varia´vel Y com densidade dada por: f(y) = 8y/9− 4/9, se 0, 5 ≤ y < 2 0, caso contrario Obtenha: • a) P(Y<0,8). • b) P(Y> 1, 5 | Y ≥ 1). • c) O valor esperado e a variaˆncia de Y. Questa˜o 3 O gra´fico abaixo representa a func¸a˜o de densidade de uma varia´vel aleato´ria X. 6 VARIA´VEIS ALEATO´RIAS CONTI´NUAS 96 • a) Obtenha o valor a. • b) Determine P(X> 0 | X < 3). • c) Construa a func¸a˜o de distribuic¸a˜o de X. Questa˜o 4 A demanda dia´ria de arroz num supermecado, em centenas de quilos, e´ uma varia´vel aleato´ria com func¸a˜o de densidade dada por: f(x) = 2x/3, se 0 ≤ x < 1 1− x/3, se 1 ≤ x < 3 0, caso contrario • a) Qual e´ a probabilidade de se vender mais de 150 Kg em um dia escolhido ao acaso? • b) Construa a func¸a˜o de distribuic¸a˜o de probabilidade para x. • c) Em 30 dias quanto o supermercado espera vender? • d) Qual e´ a quantidade de arroz que deve ser deixada estocada para que na˜o falte arroz em 95 por cento dos dias? Questa˜o 5 O tempo necessa´rio para um medicamento contra dor fazer efeito foi modelado de acordo com a densidade uniforme no intervalo de 5 a 15 min- utos tendo por base experimentos em animais. Um paciente que esteja sofrendo dor recebe o reme´dio e, supondo va´lido o modelo mencionado acima, pergunta-se: • a) Qual e´ a probabilidade de a dor cessar em ate´ 10 minutos? • b) E de Demorar pelo menos 12 minutos? • c) Qual o tempo esperado para o medicamento fazer efeito? Questa˜o 6 Uma viga de ferro e´ soldada em toda a sua extensa˜o. Falhas na soldagem podem ocorrer com probabilidade 0,1 ou na˜o ocorrer com probabilidade 0,9. Se a falha ocorre enta˜o o ponto em que ocorre e´ modelada por uma varia´vel uniforme cont´ınua. Se a viga tem 6 metros de extensa˜o, determine a proba- bilidade: • a) Sabendo-se que uma falha ocorreu, ela ser distante das extremidades de no ma´ximo 1 metro. 6 VARIA´VEIS ALEATO´RIAS CONTI´NUAS 97 • b) Ocorrer uma falha de solda nos dois metros centrais da viga. Questa˜o 7 O tempo em minutos de utilizac¸a˜o de um caixa eletroˆnico por clientes de um certo banco, foi modelado por uma varia´vel T com densidade exponencial com paraˆmetro 3. Determine: • a) P(T < 1). • b) P(T > 1 | T ≤ 2). • b) Um nu´mero a tal que P(T < a)=0,4. Questa˜o 8 O tempo necessa´rio para eliminar o perigo de contaminac¸a˜o de certo pes- ticida apo´s aplicac¸a˜o em um pomar e´ uma varia´vel aleato´ria exponencial de paraˆmetro 2 (em meses). Tendo em vista esse comportamento as autoridades sanita´rias recomendam que o consumo das frutas seja evitado algum tempo apo´s a pulverizac¸a˜o. Calcule a probabilidade de a fruta estar ainda contami- nada 1 meˆs apo´s a pulverizac¸a˜o. Qual e´ a probabilidade de a fruta poder ser consumida com seguranc¸a 2 meses apo´s a pulverizac¸a˜o? Questa˜o 9 Uma cl´ınica de emagrecimento recebe adultos com pesos seguindo uma distribuic¸a˜o Normal com me´dia 130 Kg e desvio padra˜o 20 Kg. Para deter- minar um tratamento adequado os 25 por cento pacientes de menor peso sa˜o classificados como de baixo risco enquanto os 25 por cento de maior peso sa˜o classificados como de alto risco. Determine os valores que delimitam as classificac¸o˜es de baixo e alto risco. Questa˜o 10 Um teste de aptida˜o feito por pilotos de aeronaves em treinamento requer que uma se´rie de testes. O tempo necessa´rio para completar os testes segue uma distribuic¸a˜o normal com me´dia 90 e desvio padra˜o 20 minutos. • a) Qual e´ a probabilidade de o candidato ser aprovado se para passar no teste ele deve completa´-lo em menos de 80 minutos. Se 60 candidatos fazem o teste, quantos candidatos sa˜o esperados passar no teste. • b) Se os 5 por cento melhores candidatos sera˜o alocados para aeronaves maiores, qual deve ser o tempodo candidato para obter essa posic¸a˜o. 7 INFEREˆNCIA ESTATI´STICA 98 7 Infereˆncia estat´ıstica A infereˆncia estat´ıstica baseia-se no processo de a partir de uma amostra, obter informac¸o˜es a respeito de toda populac¸a˜o. E´ a amostra que conte´m os elementos que podem ser observados e e´ onde podemos medir as quantidades de interesse. A infereˆncia trata de dois problemas ba´sicos que abordaremos ao longo deste cap´ıtulo: estimac¸a˜o e testes de hipo´teses. Primeiramente, vamos estudar como podemos estimar os paraˆmetros de- sconhecidos da populac¸a˜o atrave´s dos valores obtidos na amostra. Em seguida, vamos estudar como esses estimadores se comportam e quais sera˜o suas dis- tribuic¸o˜es amostrais. Finalmente falaremos um pouco sobre estimac¸a˜o por intervalo e testes de hipo´teses para a me´dia populacional com base na dis- tribuic¸a˜o amostral da me´dia. 7.1 Populac¸a˜o e amostra Aprendemos anteriormente sobre alguns modelos probabil´ısticos que nos auxiliam no estudo e caracterizac¸a˜o de determinados experimentos e fenoˆmenos de interesse. Na pra´tica, o pesquisador frequentemente tem alguma ide´ia sobre a forma da distribuic¸a˜o que pode ser utilizada para modelar o fenoˆmeno mas na˜o tem os valores exatos dos paraˆmetros que a especificam. Por exemplo, suponha que desejamos criar um modelo para as alturas dos alunos de uma universidade. Se atrave´s das informac¸o˜es sobre os dados, gra´ficos, histogramas, box-plot, for razoa´vel supor que a distribuic¸a˜o pode ser representada por um modelo normal, precisar´ıamos enta˜o conhecer os paraˆmetros (me´dia e variaˆncia) para determinar o modelo. Se pude´ssemos medir a altura de todos os alunos, poder´ıamos obter a distribuic¸a˜o exata. Na pra´tica, e´ invia´vel obter a informac¸a˜o de toda a pop- ulac¸a˜o, geralmente coletamos dados de uma amostra (subconjunto da pop- ulac¸a˜o) e atrave´s dessa amostra estimamos os paraˆmetros de interesse, que neste caso sa˜o me´dia e variaˆncia. A primeira questa˜o que surge e´ como podemos selecionar um subconjunto de uma populac¸a˜o, isto e´, como podemos selecionar uma amostra que possa representar, de maneira mais veross´ımel poss´ıvel, a populac¸a˜o. A segunda questa˜o e´ como podemos utilizar a informac¸a˜o obtida na amostra para encontrar valores para a me´dia e variaˆcia do modelo. Vamos responder a primeira questa˜o e, na pro´xima sec¸a˜o, falaremos um pouco sobre estimac¸a˜o. Existem va´rias maneiras de obter uma amostra para estimar os paraˆmetros, uma delas e´ a amostragem aleato´ria simples. 7 INFEREˆNCIA ESTATI´STICA 99 A amostragem aleato´ria simples consiste em um sorteio de uma determi- nada quantidade de elementos da populac¸a˜o. Por exemplo, se a populac¸a˜o e´ constituida de N elementos e desejamos obter uma amostra com n elementos n ≤ N sorteamos n elementos dentre os N da populac¸a˜o. Quando a pop- ulac¸a˜o e´ muito grande geralmente usamos softwares para gerar a amostra. Este processo e´ um dos mais simples para se obter uma amostra, ale´m dele existem muitas outras maneiras de selecionar uma amostra mas na˜o falare- mos aqui. 7.2 Paraˆmetros e estimadores As quantidades da populac¸a˜o sobre as quais temos interesse e, que em geral sa˜o desconhecidas, sa˜o denominadas paraˆmetros. Representamos usualmente por letras gregas como θ, µ, σ entre outras. Os estimadores sa˜o func¸o˜es da amostra coletada que nos fornecem in- formac¸o˜es sobre os valores dos paraˆmetros que estamos interessados em de- scobrir para especificar o modelo. Na maioria dos casos estaremos interessados em estimar a me´dia e a variaˆncia da populac¸a˜o, paraˆmetros µ e σ2 respectivamente. Para isso, us- aremos a informac¸a˜o obtida na amostra para construir os estimadores para os paraˆmetros. Vamos voltar a` questa˜o deixada na sec¸a˜o anterior. Exemplo 1: Suponha que estamos interessados em criar um modelo para a altura de jovens em uma universidade para isso, coletamos uma amostra com 10 jovens. Admitindo que o modelo normal seja proposto, os paraˆmetros de interesse para no´s sa˜o a me´dia e a variaˆncia. Se conhecemos apenas parte da populac¸a˜o, a amostra X1, X2, ..., X10, como podemos usar essa informac¸a˜o para estimar a me´dia e a variaˆncia da populac¸a˜o, µ e σ2 ? Precisamos de func¸o˜es de X1, X2, ..., X10 que nos digam algo sobre µ e σ 2, isto e´ precisamos de estimadores. Para estimar a me´dia µ podemos usar qualquer func¸a˜o dos dados. Por exemplo, podemos dizer que um estimador para µ e´ µˆ = X1 ou µˆ = X1+X2 2 , ou qualquer outra func¸a˜o. A mais utilizada e´ a me´dia da amostra: µˆ = ∑n i=1Xi n = x¯ Para a variaˆncia, o estimador mais utilizado e´ a variaˆncia amostral: 7 INFEREˆNCIA ESTATI´STICA 100 σˆ2 = ∑n i=1(xi−x¯)2 n−1 Geralmente usamos µˆ = x¯ e σˆ2 = ∑n i=1(xi−x¯)2 n−1 porque eles sa˜o estimadores que possuem boas propriedades como veremos mais adiante. Enta˜o se tive´ssemos os 10 valores seguintes de alturas na amostra: 1.6, 1.7, 1.75, 1.8, 1.9, 1.58, 1.6, 1.68, 1.84, 1.72 poder´ıamos dizer que um estimador para µ e´ µˆ = ∑10 i=1 xi 10 = 1.717 e para σ2: σˆ2 = ∑10 i=1(xi−x¯)2 9 = 0.0116 e usar esses valores como paraˆmetros do modelo normal. Mas podemos nos perguntar: E se selecionarmos outra amostra, os val- ores dos estimadores provavelmente sera˜o diferentes, sera´ que esses valores escolhidos como paraˆmetros sa˜o confia´veis? Para testar os valores escolhidos como paraˆmetros usamos os testes de hipo´teses que falaremos mais adiante. Exemplo 2: Suponha que entrevistamos 400 pessoas em va´rias capitais para saber sobre o apoio a um projeto governamental de reforma agra´ria. A nossa amostra consiste em 400 respostas (sim ou na˜o). Se estamos interessados em medir o apoio ao projeto, enta˜o queremos saber qual a prob- abilidade de uma pessoa ser favora´vel. Um modelo razoa´vel a ser utilizado neste caso e´ o modelo bernoulli. A amostra pode ser pensada como um vetor de varia´veis X1, X2, ..., X400, cada uma delas assumindo o valor 1 para sucesso (resposta sim) e 0 para fracasso (resposta na˜o). Enta˜o estamos interessados no paraˆmetro p do modelo, probabilidade de uma pessoa ser favora´vel ao projeto ou probabilidade de sucesso. Um esti- mador razoa´vel para p e´ a proporc¸a˜o de pessoas favora´veis que encontramos na amostra. Assim, um estimador para p e´: pˆ = numero de entrevistados favoraveis 400 = ∑400 i=1Xi 400 Podemos resumir o que estudamos ate´ agora da seguinte forma: 7 INFEREˆNCIA ESTATI´STICA 101 Para uma amostra de tamanho n representada pelas varia´veis aleato´rias (X1, X2, ..., Xn) denote os paraˆmetros me´dia, variaˆncia e proporc¸a˜o da pop- ulac¸a˜o da qual foi extra´ıda a amostra por µ, σ2 e p respectivamente. Os estimadores mais utilizados para esses paraˆmetros sa˜o as correspondentes me´dia, variaˆncia e proporc¸a˜o calculadas na amostra. Representamos por µˆ, σˆ2 e pˆ. Exemplo 3: Suponha que para uma amostra de 10 jovens obtivemos os seguintes n´ıveis de colesterol: 180, 190, 170, 180, 170, 160, 170, 180, 190, 170 E que a partir desses dados queremos estimar o n´ıvel me´dio de colesterol na populac¸a˜o jovem. Como na˜o temos acesso a` populac¸a˜o jovem toda, vamos estimar a me´dia µ pela me´dia observada na amostra. µˆ = X¯ = 176 Enta˜o o n´ıvel de colesterol estimado para a populac¸a˜o jovem com base nessa amostra e´ 176. Se quise´ssemos estimar a proporc¸a˜o de jovens na populac¸ao com taxa de colesterol acima de 180 usar´ıamos a proporc¸a˜o observada na amostra. pˆ = 2 10 = 0, 2 7.3 Distribuic¸o˜es amostrais Vimos que estimadores sa˜o func¸o˜es de varia´veis aleato´rias e portanto sa˜o tambe´m varia´veis aleato´rias. Agora vamos estudar a distribuic¸a˜o de prob- abilidades de alguns estimadores mais utilizados, particularmente, estamos interessados na distribuic¸a˜o de X¯ porque atrave´s dessa distribuic¸a˜o poder- emos construir intervalos de confianc¸a e testes de hipo´teses para a me´dia populacional µ. Exemplo 4: Suponha que uma varia´vel X pode assumir dois valores -1 e 1 com iguais probabilidades. Para uma amostra de tamanho 2 determine a func¸a˜o de probabilidade de X¯. Como X¯ = X1+X2 2 temos 7 INFEREˆNCIA ESTATI´STICA 102 (X1, X2) X¯ prob (-1,-1) -1 1/4 (-1,1) 0 1/4 (1,-1) 0 1/4 (1,1) 1 1/4 Portanto temos a seguinte func¸a˜o de probabilidade para X¯: Nem sempre e´ fa´cil encontrar a distribuic¸a˜o de estimadores. Por exemplo, se X fosse uma varia´vel cont´ınua uniforme entre -1 e 1, ter´ıamos X1 e X2 tambe´m com distribuic¸a˜o uniforme em [-1,1] mas, a natureza cont´ınua das varia´veis na˜o nos possibilitaria enumerar todas as amostras poss´ıveis como fizemos no exemplo anterior. Como fazer enta˜o para encontrar a distribuic¸a˜o de X¯ nesse caso? Vamos estudar mais a frente o teorema central do limite que nos ajudara´ a estudar o comportamento de X¯ para uma amostra muito grande, independente da natureza de X¯. Antes de falar do teorema central do limite, vamos ver um exemplo de distribuic¸a˜o de X¯ quando as varia´veis na amostra tem distribuic¸a˜o normal. Exemplo 5: Consideremos a varia´vel X que descreve o peso em crianc¸as de um determinado cole´gio. Suponha que X tem distribuic¸a˜o normal com me´dia 32 e variaˆncia 36. Selecionamos um grupo com 100 crianc¸as de maneira independente e queremos saber a probabilidade do peso me´dio no grupo ser maior que 33 kg. Queremos saber P (X¯ > 33). Para calcular essa probabilidade, precisamos saber qual e´ a distribuic¸a˜o de X¯. Vimos no cap´ıtulo anterior que qualquer combinac¸a˜o linear de normais tambe´m segue o modelo normal. Como X¯ = ∑100 i=1Xi 100 , X¯ tambe´m segue o modelo normal, resta descobrir a me´dia e a variaˆncia. E(X¯) = E( ∑100 i=1Xi 100 ) = 1 100 E( ∑100 i=1Xi) = 1 100 [E(X1) + E(X2) + ... + E(X100)] = 1 100 [100.32] = 32 7 INFEREˆNCIA ESTATI´STICA 103 var(X¯) = var( ∑100 i=1Xi 100 ) = 1 (100)2 var( ∑100 i=1Xi) = 1 (100)2 [var(X1)+var(X2)+ ...+ var(X100)] = 1 (100)2 [100.36] = 36 100 Enta˜o X¯ ∼ N(32, 36 100 ). Agora podemos calcular P (X¯ > 33) = P ( X¯−32 6/10 > 33−32 6/10 ) ≈ 0.0475. De uma forma geral para uma populac¸a˜o normal com me´dia µ e variaˆncia σ2, se selecionarmos uma amostra de tamanho n, (X1, ..., Xn), X¯ tera´ dis- tribuic¸a˜o normal com me´dia µ e variaˆncia σ 2 n . Discutimos acima dois exemplos muito particulares de amostras retiradas de uma populac¸a˜o com distribuic¸o˜es de probabilidades bem conhecidas e por isso, constru´ımos de maneira bem simples a distribuic¸a˜o de X¯. Na pra´tica, na˜o temos informac¸o˜es sobre a distribuic¸a˜o das varia´veis que constituem a amostra e trabalhamos com amostras muito grandes o que dificulta a con- struc¸a˜o da distribuic¸a˜o de X¯. Felizmente, satisfeitas certas condic¸o˜es, podemos demonstrar que para uma amostra sufucientemente grande, a distribuic¸a˜o da me´dia amostral pode ser aproximada por uma distribuic¸a˜o normal. Esse e´ um dos teoremas mais importantes da probabilidade, denominado teorema central do limite. Teorema central do limite Para uma amostra aleato´ria simples (X1, X2, ..., Xn) de tamanho n re- tirada de uma populac¸a˜o com me´dia µ e variaˆncia σ2 finita temos: X¯−µ σ√ n → Z quando n→∞ onde Z ∼ N(0, 1). O TCL nos diz que para n suficientemente grande a distribuic¸a˜o amostral da me´dia aproxima-se de uma distribuic¸a˜o normal com me´dia igual a me´dia da populac¸a˜o e variaˆncia igual a variaˆncia da populac¸a˜o dividida por n. Re- pare que a distribuic¸a˜o da populac¸a˜o na˜o e´ especificada. A velocidade de convergeˆncia depende da populac¸a˜o da qual a amostra foi retirada, para populac¸o˜es com distribuic¸a˜o sime´trica a convergeˆncia e´ mais ra´pida, ou seja precisamos de uma amostra menor para garantir uma boa aproximac¸a˜o pela distribuic¸a˜o normal. Estudos envolvendo simulac¸o˜es mostram que para n ao redor de 30 a aproximac¸a˜o pode ser considerada boa para aplicac¸o˜es pra´ticas. 7 INFEREˆNCIA ESTATI´STICA 104 Exemplo 6: Suponha que a aceitac¸a˜o em um lote de 10000 sacos de ac¸u´car ocorre apenas se o peso me´dio de uma amostra aleato´ria com 100 sacos retirados do lote estiver entre 498 e 502 gramas. Sabe-se que o peso dos sacos e´ uma varia´vel aleato´ria com me´dia 500 e variaˆncia 100. Qual e´ a probabilidade de aceitarmos o lote? Se definirmos Xi como o peso do i-e´simo saco retirado do lote para i=1,2,...,100. temos pelo TCL que a me´dia dos pesos da amostra repre- sentada por X¯ tera´ distribuic¸a˜o aproximadamente normal com me´dia 500 e desvio padra˜o 1. Logo a probabilidade de aceitarmos o lote e´: P (498 ≤ X¯ ≤ 502) = P (498−500 1 ≤ X¯−500 1 ≤ 502−500 1 ) = P (−2 ≤ Z ≤ 2) ≈ 0, 95 Portanto, dificilmente o lote seria rejeitado. Exemplo 7: Suponha que a proporc¸a˜o de pec¸as fora de especificac¸a˜o em um lote e´ de 40 por cento. Tomada uma amostra de tamanho 30, qual e´ a proba bilidade de que a proporc¸a˜o das pec¸as defeituosas seja menor que 0,5? Queremos calcular P (pˆ < 0, 5). Sabemos que a proporc¸a˜o de pec¸as de- feituosas pode ser vista como a me´dia amostral se considerarmos a populac¸a˜o modelada por uma bernoulli com probabilidade de sucesso 0,4. Para a amostra X1, ..., X30 tal que Xi ∼ bernoulli(0, 4) temos pelo TCL que pˆ = X¯ tera´ distribuic¸a˜o aproximadamente normal com me´dia 0,4 e variaˆncia (0, 4.0, 6)/30 = 0, 24/30 = 0, 008. Portanto P (pˆ < 0, 5) = P ( pˆ−0,4√ 0,008 < 0,5−0,4√ 0,008 ) = P (Z < 1, 12) ≈ 0, 868. 7.4 Estimac¸a˜o por intervalo Estudamos ate´ agora alguns estimadores pontuais para a me´dia, variaˆncia e proporc¸a˜o populacionais. Como falamos anteriormente, quando selecionamos uma amostra e a partir dela um estimador para o paraˆmetro populacional na˜o temos a dimensa˜o do erro que estamos cometendo quando dizemos que o valor calculado na amostra pode ser extrapolado para toda a populac¸a˜o. O intervalo de confianc¸a e os testes de hipo´teses nos dizem um pouco sobre a dimensa˜o desse erro. 7 INFEREˆNCIA ESTATI´STICA 105 Vamos construir agora intervalos de confianc¸a para a me´dia populacional que fornecera˜o estimativas pontuais e informac¸o˜es sobre a variac¸a˜o do paraˆmetro. Os intervalos de confianc¸a sa˜o constru´ıdos atrave´s da distribuic¸a˜o amostral do estimador. Vamos comec¸ar com uma populac¸a˜o normal com me´dia µ desconhecida e variaˆncia σ2 conhecida, depois contru´ıremos intervalos para µ para pop- ulac¸o˜es com distribuic¸o˜es desconhecidas usando o TCL. No exemplo 5 vimos que para uma amostra aleato´ria de tamanho n, (X1, ..., Xn), retirada de uma populac¸a˜o normal com me´dia µ e variaˆncia σ2, X¯ tem distribuic¸a˜o normal com me´dia µ e variaˆncia σ 2 n . Suponha que apo´s selecionarmos a amostra, queremos obter um intervalo que contenha o paraˆmetro µ com uma probabilidade α. Enta˜o queremos encontrar a e b tais que P (a ≤ µ ≤ b) = α. Como X¯ tem distribuic¸a˜o normal com me´dia µ e variaˆncia σ 2 n . Z = X¯−µσ√ n ∼ N(0, 1) Enta˜o fixando uma probabilidade 0 < α < 1, podemos encontrar um valor zα/2 na tabela tal que: α = P (| Z |≤ zα/2) = P (−zα/2 ≤ Z ≤ zα/2) Graficamente, queremos encontrar zα/2 tal que: Dividimos α por 2 pois os intervalos sime´tricos sa˜o os intervalos de menor comprimento, assim nos da´ maior precisa˜o para o paraˆmetro µ. Poder´ıamos ter dividido de maneira diferente encontrando outros intervalos, mas os com- primentos seriam maiores. O valor zα/2 pode ser obtido na tabela da normal padra˜o da seguinte maneira: primeiro localizamos a probabilidade α/2 no corpo da tabela e depois identificamos zα/2 nas margens correspondentes. 7 INFEREˆNCIA ESTATI´STICA 106 Conhecendo zα/2 podemos encontrar a e b: α = P (| Z |≤ zα/2) = P (−zα/2 ≤ Z ≤ zα/2) = P (−zα/2 ≤ X¯−µσ√ n ≤ zα/2) = P (X¯ − zα/2 σ√n ≤ µ ≤ X¯ + zα/2 σ√n) Enta˜o a = X¯ − zα/2 σ√n e b = X¯ + zα/2 σ√n . Assim o intervalo de confianc¸a para µ com probabilidade α e´: IC(µ, α) = [X¯ − zα/2 σ√n ; X¯ + zα/2 σ√n ] Dizemos enta˜o que a probabilidade do intervalo conter o valor verdadeiro de µ e´ α. A amplitude do intervalo e´ dada pela diferenc¸a entre os extremos do intervalo, 2zα/2 σ√ n , e e´ uma medida da precisa˜o da estimac¸a˜o. O erro ao estimar µ com X¯, E =| X¯ − µ | e´ no ma´ximo zα/2 σ√n com probabilidade α. Podemos observar tambe´m que para mesmos tamanho de amostra e valor de σ quanto maior a confianc¸a, maior sera´ o tamanho do intervalo e portanto menor sera´ sua precisa˜o. Podemos construir intervalos mais precisos para um determinado n´ıvel de confianc¸a escolhendo amostras maiores. Exemplo 8: Suponha que estamos testando a energia de impacto de ma- teriais meta´licos a uma determinada temperatura. Dez medidas de energia de impacto em Joules foram coletadas: 64.1, 64.7, 64.5, 64.6, 64.5, 64.3, 64.6, 64.8, 64.2, 64.3 Assumindo que a energia de impacto tem distribuic¸a˜o normal com desvio padra˜o 1. Construa um intervalo de confianc¸a 95 por cento para µ. 7 INFEREˆNCIA ESTATI´STICA 107 Pela tabela da normal vemos que z0.475 = 1.96, ale´m disso, X¯ = 64.46. O IC 95 por cento para µ e´ dado por: IC(µ, 0.95) = [X¯ − z0.475 σ√n ; X¯ + z0.475 σ√n ] = [64.46 − 1.96 1√10 ; 64.46 + 1.96 1√ 10 ] = [63.84; 65.08] Enta˜o temos 95 por cento de confianc¸a para o intervalo [63.84; 65.08] con- ter o verdadeiro valor de µ. 7.5 Intervalo de confianc¸a para µ para amostras grandes A aplicac¸a˜o do teorema central do limite permite a obtenc¸a˜o de intervalos de confianc¸a para µ mesmo quando a distribuic¸a˜o das varia´veis aleato´rias que constituem a amostra na˜o e´ dada por um modelo Normal. Neste caso, o intervalo de confianc¸a tera´ um coeficiente de confianc¸a aproximadamente igual a α, e a aproximac¸a˜o sera´ tanto melhor quanto maior for a amostra. Vimos anteriormente que para n=30 a aproximac¸a˜o pela normal pode ser considerada boa. Exemplo 9: Um provedor de acesso a internet esta´ monitorando a du- ranc¸a˜o do tempo das conexa˜o de seus clientes. Suponha que a distribuic¸a˜o dos tempos de durac¸a˜o e´ desconhecida, assim como a me´dia, sendo con- hecido apenas o desvio padra˜o √ 50 minutos. Uma amostra com durac¸a˜o de 500 conexo˜es foi observada e o valor me´dio foi calculado, resultando em 25 minutos. Construa um IC 92 por cento para a me´dia. Apesar de na˜o sabermos se a distribuic¸a˜o da durac¸a˜o dos tempos e´ nor- mal, podemos usar o TCL pois a amostra e´ grande. Neste sentido, um IC 92 por cento para a me´dia sera´ dado por: IC(µ, 0.92) = [X¯−z0.46 σ√n ; X¯+z0.46 σ√n ] = [25−1.75 50√100 ; 25+1.75 50√100 ] = [24.45; 25.55] Enta˜o, esse intervalo conte´m a me´dia com probabilidade 92 por cento. Vimos acima que para n ≥ 30 podemos construir um IC para a me´dia µ de uma populac¸a˜o com variaˆncia σ2 conhecida, mesmo quando desconhecemos a distribuic¸a˜o usando a aproximac¸a˜o pela normal dada pelo TCL. Ale´m disso, quando a variaˆncia da populac¸a˜o e´ desconhecida e n e´ grande, 7 INFEREˆNCIA ESTATI´STICA 108 podemos ainda construir IC para a me´dia trocando σ por S, o desvio padra˜o amostral. O IC fica da seguinte maneira: IC(µ, α) = [X¯ − zα/2 S√n ; X¯ + zα/2 S√n ] Para usar esse resultado e´ aconselha´vel ter n ≥ 40. O TCL gealmente vale para n ≥ 30 mas um tamanho maior de amostra e´ aconselha´vel porque tracando σ por S estamos adicionando mais variabilidade. 7.6 Teste de hipo´tese para me´dia µ com variaˆncia con- hecida Vamos estudar agora um dos principais to´picos de infereˆncia estat´ıstica conhecido como teste de hipo´teses. Feita determinada afirmac¸a˜o sobre uma populac¸a˜o (usualmente sobre um paraˆmetro desta), desejamos saber se os resultados provenientes de uma amostra contrariam ou na˜o tal afirmac¸a˜o. O objetivo do teste estat´ıstico de hipo´teses e´ fornecer uma metodologia que nos permita verificar se os dados amostrais trazem evideˆncias que apo´iam ou na˜o uma hipo´tese (estat´ıstica) formulada. O procedimento ba´sico de um teste de hipo´teses sobre um paraˆmetro de uma populac¸a˜o e´ supor verdadeira a hipo´tese em questa˜o e verificar se a amostra observada e´ ”veross´ımil” nessas condic¸o˜es. Vamos comec¸ar com um exemplo para mostrar a utilidade e os tipos de questo˜es que um teste de hipo´teses procura responder. Suponha que para pessoas sadias o n´ıvel de uma substaˆncia no sangue e´ modelado por uma distribuic¸a˜o normal com me´dia 14 uni/ml e desvio padra˜o 6 uni/ml. Pessoas sofrendo uma determinada doenc¸a teˆm a concen- trac¸a˜o dessa substaˆncia alterada com a me´dia aumentando para 18 uni/ml. Admitimos que a distribuic¸a˜o normal com desvio padra˜o 6 uni/ml ainda modela bem o comportamento da substaˆncia em pessoas com a doenc¸a. Suponha que desejamos testar se um tratamento para essa doenc¸a e´ eficaz. Para isso, selecionamos um grupo de 30 pessoas que receberam esse trama- mento. O n´ıvel da substaˆncia para cada uma dessas pessoas e´ denotado por X1, X2, ..., X30 baseado no valor me´dio observado no grupo, X¯ decidiremos se o tratamento e´ eficaz ou na˜o. Se o valor da me´dia encontrado for pro´ximo de 18, teremos evideˆncias de que o tratamento na˜o e´ eficaz. Por outro lado, se esse valor for pro´ximo de 14 enta˜o seria´mos levados a acreditar na efica´cia do tratamento. O qua˜o ”pro´ximo” o valor deve estar para decidirmos de- pende da variabilidade da populac¸a˜o. O teste de hipo´teses respondera´ a essa 7 INFEREˆNCIA ESTATI´STICA 109 e outras perguntas. Principais Conceitos A construc¸a˜o de um teste de hipo´teses inicia-se com a determinac¸a˜o de duas hipo´teses, as quais chamaremos de hipo´tese nula (denotada por H0) e hipo´tese alternativa (denotada por H1). A hipo´tese nula e´ a hipo´tese que estamos colocando a` prova. Portanto, o teste nos fara´ verificar, atrave´s da amostra obtida, se rejeitamos H0 ou na˜o rejeitamos H0, isto e´, verificar se os resultados provenientes da amostra contrariam ou na˜o a hipo´tese nula. A hipo´tese alternativa contempla todos os valores que sa˜o considerados aceita´veis caso rejeitemos H0. Exemplo 10: Queremos testar a me´dia de horas de sono dos alunos da UFRRJ. Acredita-se que µ, a me´dia de horas de sono de todos os alunos, gire em torno de 6 horas. Com base em uma amostra de 49 alunos, obtivemos me´dia amostral X = 5,6 horas (ou seja, 5 horas e 36 minutos). Portanto, sejam as hipo´teses H0 : µ = 6, H1 : µ 6= 6. Neste caso, X = 5, 6 e´ o que chamaremos de estat´ıstica de teste, isto e´, o valor que o estimador para o paraˆmetro de interesse (neste caso, µ) assume. Para decidir se na˜o rejeitamos H0 ou rejeitamos H0, precisamos definir a chamada regia˜o cr´ıtica (ou regia˜o de rejeic¸a˜o), que denotaremos por RC, de forma que: Se X ∈ RC, enta˜o optaremos por rejeitar H0; e se X /∈ RC, optaremos por na˜o rejeitar H0. Isto e´ o que chamamos de uma regra de decisa˜o. Por exemplo, se deter- mina´ssemos RC = (−∞ ; 5, 5) ∪ (6, 5 ; ∞), enta˜o essa amostra nos levaria a na˜o rejeitar H0 : µ = 6. Ja´ se determina´ssemos RC = (−∞ ; 5, 8)∪(6, 2 ; ∞), enta˜o essa amostra nos levaria a rejeitar H0 : µ = 6. Mas como determinar a regia˜o cr´ıtica de maneira mais coer- ente, isto e´, na˜o ta˜o ”arbitra´ria”? Primeiramente note que, em uma regra de decisa˜o, podemos tanto fazer uma escolha certa como uma escolha errada. Quanto a`s escolhas erradas, 7 INFEREˆNCIA ESTATI´STICA 110 podemos: (i) decidir rejeitar H0 quando H0 e´, na realidade, verdadeira; ou (ii) decidir na˜o rejeitar H0 quando H0 e´, na realidade, falsa. Tecnicamente, estes erros sa˜o chamados respectivamente de erro de tipo I e erro de tipo II. O ideal seria enta˜o determinar uma regra de decisa˜o que minimizasse a probabilidade de ambos os erros. Entretanto, o que fazemos em geral (e o que faremos neste curso!) e´ fixar um valor para α = P (cometer erro do tipo I), e obter a regia˜o de rejeic¸a˜o (RC) baseada neste valor. Chamaremos α de n´ıvel de significaˆncia do teste. OBS.: Chamamos de γ = 1 − α o n´ıvel de confianc¸a do teste, cuja in- terpretac¸a˜o e´ a mesma de n´ıvel de confianc¸a para intervalos de confianc¸a. Como ja´ estamos acostumados a trabalhar com γ, vamos continuar trabal- hando com ele ao inve´s de trabalhar com α, pois uma vez fixado um valor para α, enta˜o γ tambe´m estara´ fixado. A regia˜o cr´ıtica e´ constru´ıda de forma que, para X distribu´ıdo conforme H0, P (X ∈ RC) = 1− γ (ou, equivalentemente,P (X ∈ RC) = α), P (X /∈ RC) = γ (ou, equivalentemente,P (X /∈ RC) = 1− α). Passos para a Construc¸a˜o de um Teste de Hipo´teses Passo 1: Fixar qual a hipo´tese H0 a ser testada e qual a hipo´tese alternativa H1. Passo 2: Decidir qual estimador (estat´ıstica de teste) sera´ usado para testar H0. Passo 3: Fixar o valor de γ e, da´ı, construir a regia˜o cr´ıtica conforme vimos acima. Passo 4: Usar as observac¸o˜es da amostra para calcular o valor da estat´ıstica de teste na amostra. Passo 5: Se o valor que a estat´ıstica de teste assume na˜o pertencer a regia˜o cr´ıtica, na˜o rejeitar H0; caso contra´rio, rejeitar H0. Teste de Hipo´teses (bilateral) para a me´dia populacional µ quando a variaˆncia populacional σ2 e´ conhecida 7 INFEREˆNCIA ESTATI´STICA 111 Usado quando queremos testar se a me´dia populacional µ e´ igual a um valor µ0 contra µ ser diferente de µ0. Passo 1: H0 : µ = µ0, H1 : µ 6= µ0. Passo 2: Estat´ıstica de teste: X Passo 3: γ fixado ⇒ RC = ( −∞ ; µ0 − z 1+γ 2 σ√ n ] ∪ [ µ0 + z 1+γ 2 σ√ n ; ∞ ) Passo 4: Obter x, isto e´, a me´dia na amostra. Passo 5: Se x /∈ RC, na˜o rejeite H0; se x ∈ RC, rejeite H0. Exemplo 11: Queremos testar (ao n´ıvel γ = 0, 95 de confianc¸a) a afirmac¸a˜o de que a me´dia de horas de sono dos alunos da UFRRJ e´ 6 horas, onde sabemos que σ2 = 1. De uma amostra de 49 alunos, obtivemos me´dia amostral X = 5,6 horas. Portanto, Passo 1: H0 : µ = 6, H1 : µ 6= 6. Passo 2: Estat´ıstica de teste: X Passo 3: γ = 0, 95⇒ RC = ( −∞ ; 6− 1, 96× √ 1√ 49 ] ∪ [ 6 + 1, 96× √ 1√ 49 ; ∞ ) = (−∞ ; 5, 72] ∪ [6, 28 ; ∞) Passo 4: x = 5, 6 (este problema ja´ nos da´ o valor de X na amostra). Passo 5: x = 5, 6 ∈ (−∞ ; 5, 72] ∪ [6, 28 ; ∞)⇒ rejeito H0. Conclusa˜o: Ao n´ıvel de 95% de confianc¸a, a amostra obtida fornece evideˆncias para rejeitarmos a hipo´tese de que a me´dia de sono dos alunos da UFRRJ e´ de 6 horas. 7 INFEREˆNCIA ESTATI´STICA 112 EXERCI´CIO: Se coleta´ssemos uma nova amostra (tambe´m de 49 alunos) que retornasse X = 5,8 horas, qual seria a decisa˜o do teste acima ainda ao n´ıvel de 95% de confianc¸a? E ao n´ıvel 99% de confianc¸a? Teste de Hipo´teses (unilateral a` direita) para a me´dia pop- ulacional quando a variaˆncia populacional σ2 e´ conhecida Usado quando queremos testar se a me´dia populacional µ e´ igual a um valor µ0 contra µ ser maior que µ0. Passo 1: H0 : µ = µ0, H1 : µ > µ0. Passo 2: Estat´ıstica de teste: X Passo 3: γ fixado ⇒ RC = [ µ0 + zγ σ√ n ; ∞ ) Passo 4: Obter x, isto e´, a me´dia na amostra. Passo 5: Se x /∈ RC, na˜o rejeite H0; se x ∈ RC, rejeite H0. 7 INFEREˆNCIA ESTATI´STICA 113 Exemplo 12: Queremos testar (ao n´ıvel γ = 0, 95 de confianc¸a) se os alunos da UFRRJ tem dormido mais de 6 horas, onde sabemos que σ2 = 1. De uma amostra de 25 alunos, obtivemos me´dia amostral X = 6,2 horas. Portanto, Passo 1: H0 : µ = 6, H1 : µ > 6. Passo 2: Estat´ıstica de teste: X Passo 3: γ = 0, 95⇒ RC = [ 6 + 1, 65× √ 1√ 25 , ; ∞ ) = [6, 33 ; ∞) Passo 4: x = 6, 2 (este problema ja´ nos da´ o valor de X na amostra). Passo 5: x = 6, 2 /∈ [6, 33 ; ∞)⇒ na˜o rejeito H0. Conclusa˜o: Ao n´ıvel de 95% de confianc¸a, a amostra obtida na˜o fornece evideˆncias suficientes para rejeitarmos a hipo´tese de que a me´dia de sono dos alunos da UFRRJ e´ de 6 horas. EXERCI´CIO: Se coleta´ssemos uma nova amostra (tambe´m de 25 alunos) que retornasse X = 6,4 horas, qual seria a decisa˜o do teste acima ainda ao 7 INFEREˆNCIA ESTATI´STICA 114 n´ıvel de 95% de confianc¸a? E ao n´ıvel 99% de confianc¸a? Teste de Hipo´teses (unilateral a` esquerda) para a me´dia pop- ulacional quando a variaˆncia populacional σ2 e´ conhecida Usado quando queremos testar se a me´dia populacional µ e´ igual a um valor µ0 contra µ ser menor que µ0. Passo 1: H0 : µ = µ0, H1 : µ < µ0. Passo 2: Estat´ıstica de teste: X Passo 3: γ fixado ⇒ RC = ( −∞ ; µ0 − zγ σ√n ] Passo 4: Obter x, isto e´, a me´dia na amostra. Passo 5: Se x /∈ RC, na˜o rejeite H0; se x ∈ RC, rejeite H0. 7 INFEREˆNCIA ESTATI´STICA 115 Exemplo 13: Queremos testar (ao n´ıvel γ = 0, 95 de confianc¸a) se os alunos da UFRRJ tem dormido menos de 6 horas, onde sabemos que σ2 = 1. De uma (outra!) amostra de 25 alunos, obtivemos me´dia amostral X = 5,5 horas. Portanto, Passo 1: H0 : µ = 6, H1 : µ < 6. Passo 2: Estat´ıstica de teste: X Passo 3: γ = 0, 95⇒ RC = ( −∞ ; 6− 1, 65× √ 1√ 25 ] = (−∞ ; 5, 67] Passo 4: x = 5, 5 (este problema ja´ nos da´ o valor de X na amostra). Passo 5: x = 5, 5 ∈ (−∞ ; 5, 67]⇒ rejeito H0. Conclusa˜o: Ao n´ıvel de 95% de confianc¸a, a amostra obtida fornece evideˆncias para rejeitarmos a hipo´tese de que a me´dia de sono dos alunos da UFRRJ e´ de 6 horas. EXERCI´CIO: Se coleta´ssemos uma nova amostra (tambe´m de 25 alunos) que retornasse X = 5,8 horas, qual seria a decisa˜o do teste acima ainda ao 7 INFEREˆNCIA ESTATI´STICA 116 n´ıvel de 95% de confianc¸a? E ao n´ıvel 99% de confianc¸a? 7 INFEREˆNCIA ESTATI´STICA 117 OBS: Como fizemos anteriormente para os intervalos de confianc¸a, aqui tambe´m podemos construir testes de hipo´teses para a me´dia quando a variaˆncia e´ conhecida mesmo que distribuic¸a˜o na˜o seja normal. Para isso, tambe´m pre- cisamos que n ≥ 30 para usar o TCL. Quando a variaˆncia e´ desconhecida precisamos que n ≥ 40 para substituir σ por S. As regio˜es cr´ıticas sa˜o as mesmas que as constru´ıdas acima, exceto quando desconhecemos σ e temos uma amostra suficientemente grande para podermos substituir σ por seu estimador S. 7.7 Exerc´ıcios - lista 08 Questa˜o 1 Um fabricante deseja estudar a durac¸a˜o de baterias que sa˜o utilizadas na fabricac¸a˜o em relo´gios de pulso. Uma amostra de va´rios lotes fabricados por uma mesma companhia foi submetida a testes e produziram os seguintes tempos de durac¸a˜o em anos: 2; 2; 3; 1; 4; 5; 3; 4; 5; 6; 5; 3; 4; 3; 4; 2; 4; 3; 5; 2. Determine os valores dos estimadores para a me´dia e a variaˆncia. Questa˜o 2 Uma amostra com dois elementos de uma varia´vel X, que segue o modelo Bernoulli com probabilidade de sucesso p, e´ selecionada. Determine a func¸a˜o de probabilidade da me´dia amostral. Questa˜o 3 O consumo mensal de a´gua por resideˆncia em um certo bairro e´ assumido ter distribuic¸a˜o Normal com me´dia 10 e desvio padra˜o 2 (em m3). Para uma amostra de 25 resideˆncias, qual e´ a probabilidade da me´dia amostral na˜o se afastar da verdadeira me´dia por mais de 1 m3? Questa˜o 4 A durac¸a˜o de um ”tonner” de uma ma´quina de fotoco´pias pode ser mod- elado como normal com me´dia 15 e desvio padra˜o 2 (em milhres de co´pias). Para uma amostra de 12 ma´quinas a durac¸a˜o do ”tonner” e´ observada. Qual e´ a probabilidade de em me´dia, durar: • a)Menos que 16 mil co´pias? • b)Mais de 13 mil co´pias? • c) Entre 13 e 14 mil co´pias? Questa˜o 5 Um fabricante afirma que sua vacina contra gripe imuniza em 80 por cento dos casos. Uma amostra de 25 indiv´ıduos que tomaram essa vacina foi 7 INFEREˆNCIA ESTATI´STICA 118 escolhida e testes foram feitos para verificar a imunizac¸a˜o desses indiv´ıduos. Se o fabricante estiver correto, qual e´ a probabilidade da proporc¸a˜o dos imu- nizados na amostra ser inferior a` 0,75? e superior a` 0,85? Questa˜o 6 Uma amostra em 100 cidades brasileiras indicou que o valor me´dio da hora aula para professores de escolas pu´blicas e´ 2,5 reais. Obtenha um intervalo de confianc¸a 95 por cento para o valor me´dio da hora aula baseado no fato de que o desvio padra˜o em estudos anteriores foi 1,1. Questa˜o 7 O tempo de durac¸a˜o de um certo tipo de laˆmpada pode ser modelada por uma normal com desvio padra˜o σ = 25 horas. Uma amostra com 20 laˆmpadas foi selecionada e observamos a me´dia de X¯ = 1014 horas. Construa um IC 95 % para a me´dia. Questa˜o 8 Uma indu´stria produz ane´is de ac¸o que integram equipamentos automo- tivos. O diaˆmetro desses ane´is e´ uma varia´vel com desvio padra˜o σ = 0, 001. Uma amostra com 36 ane´is e´ selecionada e o diametro me´dio encontrado foi X¯ = 74, 03. Construa os IC 99% e 95 % para a me´dia. Questa˜o 9 Um agroˆnomo esta´ interessado em estimar o n´ıvel de ca´lcio em uma plantac¸a˜o. Para isso, coletou uma amostra com 49 unidades e encontrou a me´dia de ca´lcio em mg igual a X¯ = 68, 3 e o desvio padra˜o amostral foi de S = 5, 87. Construa IC 92% e 99% para a me´dia de ca´lcio da plantac¸a˜o. Questa˜o 10 Considere um experimento qu´ımico cujo rendimento pode ser modelado por uma normal com desvio padra˜o σ = 3. Esse experimento foi repetido 5 vezes e os rendimentos foram anotados: 91.6, 88.75, 90.8, 89.95, 91.3 Para o n´ıvel de significancia α = 0.05, queremos testar se o rendimento da reac¸a˜o e´ de 90 %. Qual conclusa˜o chegamos com a amostra acima? Questa˜o 11 O tempo para um medicamento fazer efeito pode ser modelado por uma normal com desvio padra˜o σ = 1.25. Uma amostra aleato´ria com 10 tempos de efeito para 10 pacientes foi coletada e resultou me´dia de X¯ = 40.5 horas. Existe evideˆncia de que o tempo necessa´rio para o medicamento fazer efeito e´ maior que 40 horas? (use α = 0.05) Questa˜o 12 Um engenheiro estuda a tensa˜o suportada por vigas de alumı´nio. Sabe- se que a tensa˜o nas vigas segue um modelo normal com desvio padra˜o de 7 INFEREˆNCIA ESTATI´STICA 119 σ = 60. Uma amostra aleato´ria com a tensa˜o de 12 vigas foi analisada e resultou em uma tensa˜o me´dia de X¯ = 3250. Para α = 0.01 aceitar´ıamos ou rejeitar´ıamos a me´dia de tensa˜o de 3500? 7 INFEREˆNCIA ESTATI´STICA 120 Refereˆncias Bussab, Morettin. Estat´ıstica ba´sica. Editora Saraiva. Magalha˜es. Noc¸o˜es de probabilidade e estat´ıstica. Montgomery. Applied statistics and probability for engineers Triola. Estat´ıstica ba´sica