Esta é uma pré-visualização de arquivo. Entre para ver o arquivo original
Universidade Federal de Pernambuco Departamento de F´ısica – CCEN F´ısica Experimental 1 Apostila 2: Incerteza e estat´ıstica Resumo Damos continuidade a` familiarizac¸a˜o com o conceito de erro experimental. Discutimos os tipos de erro que podem influenciar um experimento, em especial erros sistema´ticos e aleato´rios. Introduzimos gra´ficos tipo histograma como forma de analisar distribuic¸o˜es associadas a medidas repetitivas. Fazemos a conexa˜o entre incerteza e distribuic¸o˜es estat´ısticas gaussianas. Suma´rio 1 Acura´cia e precisa˜o 2 2 Tipos de erros experimentais 3 3 Ana´lise estat´ıstica de um conjunto de medidas 5 3.1 Me´dia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 3.2 Desvio padra˜o . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 3.3 Histograma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 4 Distribuic¸a˜o Gaussiana 10 5 Associando paraˆmetros da gaussiana a grandezas f´ısicas 13 5.1 Valor mais confia´vel e incerteza estat´ıstica de uma grandeza . . . . . . . . . . . . . . 13 5.2 Incerteza nos paraˆmetros de um histograma . . . . . . . . . . . . . . . . . . . . . . . 15 6 Ana´lise estat´ıstica na presenc¸a de diversas fontes de erro 16 7 Dicas para confecc¸a˜o de gra´ficos e histogramas 17 F´ısica Experimental 1 1 Acura´cia e precisa˜o A f´ısica cla´ssica pressupo˜e a existeˆncia de um valor verdadeiro para toda grandeza f´ısica, inde- pendente de observac¸a˜o. A medida e´ uma forma de extrair essa informac¸a˜o dispon´ıvel no objeto. O objetivo da medida e´ ser o mais fiel poss´ıvel na determinac¸a˜o desse valor. No entanto, di- versas fontes de incerteza inexoravelmente afetam o resultado de medida. Fazemos aqui um estudo sistema´tico das formas como isso pode ocorrer. A figura 1 ilustra o que se busca obter com uma medida. Imagine, seguindo a figura, um alvo simbolizando o valor verdadeiro da grandeza que se quer determinar, e medidas, representadas pelos c´ırculos vermelhos da figura, como dardos a mirar o centro do alvo. Figura 1: Ilustrac¸a˜o de diversos cena´rios de medidas com incerteza. (A) Baixas precisa˜o e acura´cia. (B) Baixa precisa˜o e alta acura´cia. (C) Alta precisa˜o e baixa acura´cia. (D) Altas precisa˜o e acura´cia. E´ poss´ıvel descrever cada conjunto de medidas dos quadros acima segundo dois crite´rios. • A precisa˜o da medida diz respeito a` dispersa˜o do conjunto. Alta precisa˜o significa que medidas independentes retornam valores similares se repetidas va´rias vezes. • A acura´cia se refere ao quanto as medidas, tomadas como conjunto ou na˜o, se aproximam do valor verdadeiro da grandeza. Quatro cena´rios diferentes podem emergir nesse caso, ilustrados na Fig. 1. Em (A), o conjunto de medidas retorna valores bem diferentes (baixa precisa˜o) e, quando consi- derada sua me´dia (c´ırculo mais escuro), obtemos como resultado algo que ainda se desvia substanci- almente do valor verdadeiro (baixa acura´cia). No outro extremo, o cena´rio (D) mostra uma se´rie de medidas que concordam bem entre si (alta precisa˜o) e com o valor verdadeiro (alta acura´cia). Dois outros cena´rios podem ocorrer ainda. Em (C), as medidas concordam bem entre si (alta precisa˜o), mas divergem consideravelmente do valor verdadeiro (baixa acura´cia). Em (B), o oposto 2 Apostila 2: Incerteza e estat´ıstica ocorre, i.e. medidas com dispersa˜o maior (baixa precisa˜o), pore´m em me´dia bem pro´ximas do valor verdadeiro buscado (alta acura´cia). A precisa˜o de uma medida e´, portanto, algo relativamente simples de ser verificado, bastando repetir a medida va´rias vezes. A acura´cia, pelo contra´rio, na˜o e´ simples de se determinar, pois o valor verdadeiro da grandeza e´ em geral desconhecido. A forma mais comum de se determinar a acura´cia de um instrumento ou procedimento e´ utiliza´- lo para medir algo conhecido de antema˜o, numa espe´cie de calibrac¸a˜o. Outra forma consiste em comparar os resultados de va´rios me´todos diferentes e, assumindo que como conjunto resultam numa medida acurada, estimar a acura´cia de cada me´todo. 2 Tipos de erros experimentais Diversas fontes de erro influenciam a incerteza de medida. Na Apostila 1, focamos na incerteza instrumental. E embora va´rias dessas fontes possam ser previstas de antema˜o por bons experimen- tadores, a quantificac¸a˜o de sua influeˆncia no resultado de medida so´ pode ser determinada pelo experimento em si. Erros experimentais podem ser classificados em treˆs categorias gerais: grosseiros, sistema´ticos e aleato´rios. Erros grosseiros sa˜o decorrentes de falhas humanas, como leitura errada de um instrumento de medida, erros de ca´lculo, utilizac¸a˜o de equipamento desligado (muito comum!) e ate´ mesmo total falta de noc¸a˜o sobre o experimento. Esse tipo de erro vem muitas vezes acompanhado de vergonha e embarac¸o por parte do experimen- tador, sendo por isso facilmente reconhec´ıvel! E´ aceita´vel que ocorra no in´ıcio do experimento, mas se ocorrer tambe´m em outras etapas pode representar um pe´ssimo sinal acerca de sua compreensa˜o das coisas. Os erros grosseiros podem ser corrigidos repetindo-se o experimento com modificac¸o˜es adequa- das (como ligar o equipamento na tomada...). Em casos recalcitrantes, e´ recomendada a troca do experimentador. Bazinga. Erros sistema´ticos sa˜o os mais frequ¨entes e requerem um estudo cuidadoso das condic¸o˜es ex- perimentais, para que possam ser caracterizados e corrigidos. Eles teˆm esse nome porque esta˜o sistematicamente associados a um determinado instrumento ou te´cnica de medida, ou seja, ficam embutidos no pro´prio procedimento de medida, de forma que na˜o podem ser reconhecidos pela simples repetic¸a˜o do experimento. Erros sistema´ticos causam inacura´cia, erodindo a confianc¸a nos resultados de medida. Por isso, erros sistema´ticos podem afetar de forma grave as concluso˜es do experimento. Alguns erros sis- 3 F´ısica Experimental 1 tema´ticos sa˜o muito comuns, sendo praxe adotarem-se alguns procedimentos anteriores ao in´ıcio do experimento para evita´-los. Por exemplo, um erro na calibrac¸a˜o da marcac¸a˜o do zero do instrumento levara´ a erro sistema´tico, algo comum de se ocorrer no uso do microˆmetro: nesse caso, todas as medidas subestimara˜o ou superestimara˜o por um mesmo valor constante as grandezas medidas. Para evita´-lo, basta checar o aparato antes da medida, recalibrando a marcac¸a˜o do zero do instrumento. Outro erro sistema´tico comum ocorre pela ma´ calibrac¸a˜o da escala do instrumento de medida, tal como um termoˆmetro que indicasse as temperaturas 0oC na transic¸a˜o de fases so´lida-l´ıquida para a´gua, e 110oC na transic¸a˜o l´ıquida-gasosa (supondo CNTP). Se utilizado para medir outras temperaturas, esse termoˆmetro apresentaria valores que variariam sistematicamente de uma forma linear com a temperatura em Celsius (em primeira aproximac¸a˜o). A u´nica maneira de eliminar esse erro e´ recalibrar o instrumento. Os erros sistema´ticos ocorrem frequentemente em experimentos. Na˜o ha´ um princ´ıpio geral de como evita´-los. Somente a verificac¸a˜o criteriosa do procedimento e interpretac¸a˜o cuidadosa dos resultados podem aponta´-los. A boa not´ıcia e´ que, por na˜o variarem no tempo, podem muitas vezes ser removidos se bem caracterizados, mesmo a posteriori. Erros aleato´rios sa˜o produzidos por variac¸o˜es imprevis´ıveis na situac¸a˜o experimental, regidas pelo acaso. Essas podem ser causadas pelo pro´prio experimentador, e.g. ao introduzir erro varia´vel na leitura ou manipulac¸a˜o do instrumento de medida, ou por causas externas, como vibrac¸o˜es mecaˆnicas, variac¸o˜es da tensa˜o da rede ele´trica etc. Contrariamente ao que ocorre com os erros sistema´ticos, os erros aleato´rios na˜o sa˜o reprodut´ıveis, apresentando por definic¸a˜o igual probabilidade de aumentar ou reduzir o valor da grandeza f´ısica medida1. Erros aleato´rios tendem a modificar a dispersa˜o das medidas como conjunto e, com isso, afetar a precisa˜o da medida. Se perfeitamente aleato´rios, observa-se que esses erros se distribuem segundo uma func¸a˜o univer- sal, a distribuic¸a˜o gaussiana, tornando-se desse modo poss´ıvel o uso de me´todos estat´ısticos para trata´-los e minimizar sua influeˆncia sobre os resultados de medida. Um exemplo simples de erro aleato´rio pode decorrer do tempo humano de reflexo. Considere um experimentador que busque medir o per´ıodo de oscilac¸a˜o de um peˆndulo simples observando seu movimento perio´dico. O experimentador aciona o cronoˆmetro a cada vez que o peˆndulo atinge um determinado ponto da oscilac¸a˜o. Se o movimento do peˆndulo for muito ra´pido (quanto comparado ao tempo t´ıpico de reac¸a˜o do ser humano), o experimentador ira´ ora subestimar, ora superestimar, o instante de acionamento do cronoˆmetro, introduzindo fonte de erro aleato´rio na medida. Erros aleato´rios na˜o alteram de forma sistema´tica o valor me´dio do conjunto de medidas. Com isso, obtemos uma forma estat´ıstica de reduzir seus efeitos tanto quanto queiramos : observando propriedades de um conjunto de medidas e associando-as a`s grandezas de interesse. 1Caso na˜o seja assim, e o erro possua portanto vie´s num sentido, ele tambe´m possui componente sistema´tica. 4 Apostila 2: Incerteza e estat´ıstica 3 Ana´lise estat´ıstica de um conjunto de medidas A ana´lise estat´ıstica de dados se torna interessante quando o valor medido sofre erro aleato´rio. Nesse caso, uma u´nica medida passa a ter um grau de confianc¸a claramente menor que apenas instrumental. Imagine voceˆ tentando medir o comprimento de uma mesa com uma trena ao mesmo tempo em que algue´m a chacoalha! Como aumentar o grau de confianc¸a dessa medida? A resposta e´ buscar diminuir a influeˆncia de fontes de erros aleato´rios pela repetic¸a˜o de medidas. Em vez de confiarmos no resultado de uma u´nica medida, passamos a pensar diferente e a querer entender se existe algum comportamento geral em um conjunto de medidas. Portanto, em vez de buscar medir o valor mais confia´vel diretamente, vamos tentar levantar a distribuic¸a˜o estat´ıstica a que medidas repetitivas obedecem. Se a fonte de incerteza for verdadeira- mente aleato´ria, esses valores seguem uma distribuic¸a˜o de probabilidade universal com caracter´ısticas bem amiga´veis: a distribuic¸a˜o gaussiana. Nesse caso, a missa˜o do(a) experimentador(a) passa a ser determinar com maior precisa˜o poss´ıvel essa distribuic¸a˜o. Claro que nunca conseguiremos determina´-la perfeitamente: essa distribuic¸a˜o cont´ınua so´ existe como um limite para um nu´mero infinito de medidas. Mas podemos chegar ta˜o pro´ximos da distribuic¸a˜o verdadeira quanto necessa´rio, aumentando o nu´mero de medidas. O passo final e crucial e´ associar quantidades dessa func¸a˜o aos objetos que queremos determinar: valor mais confia´vel e incerteza. O valor mais confia´vel da grandeza passa a ser fornecido por alguma propriedade da distribuic¸a˜o estat´ıstica, tal como a me´dia do conjunto ou o valor mais prova´vel da distribuic¸a˜o. Sua incerteza esta´ associada a` dispersa˜o do conjunto das medidas, conforme veremos de forma mais rigorosa a seguir. O tratamento estat´ıstico traz uma nova forma de interpretar resultados de medida em geral, que passam a ser entendidos em termos de distribuic¸o˜es de probabilidade. 3.1 Me´dia Considere um conjunto de valores mk (k = 1, 2, . . . , N) obtidos a partir de N medidas indepen- dentes. Uma forma de estimar o valor mais confia´vel M da grandeza e´ utilizar todas as medidas realizadas, atribuindo-lhe a me´dia simples das mesmas, M = m1 +m2 + · · ·+mN N = 1 N N∑ k=1 mk = 〈m〉, (1) em que a notac¸a˜o 〈m〉 denota a me´dia das medidas mk. Tambe´m e´ comum utilizar a notac¸a˜o m = 〈m〉. Se o nu´mero de medidas se torna muito grande (N → ∞), M converge ao valor verdadeiro da grandeza se apenas erros aleato´rios estiverem presentes. 5 F´ısica Experimental 1 3.2 Desvio padra˜o A dispersa˜o do conjunto de medidas esta´ relacionada ao desvio δmk de cada ponto com relac¸a˜o a` me´dia, dado por δmk = mk − 〈m〉. (2) Definir a dispersa˜o como a me´dia dos desvios na˜o funcionaria, pois 〈δmk〉 = 0 por construc¸a˜o, uma vez que 〈δm〉 = 1 N N∑ k=1 (mk − 〈m〉) = 1 N N∑ k=1 mk − 〈m〉 1 N N∑ k=1 1 = 〈m〉 − 〈m〉 1 N ·N = 0, (3) em que tiramos constantes como 〈m〉 de dentro do somato´rio e usamos tanto a igualdade∑Nk=1 1 = N quanto a Eq. (1) para definic¸a˜o da me´dia. Uma forma de evitar esse problema e´ tomar os quadrados dos desvios, obtendo apenas nu´meros positivos, e somente apo´s esse passo tomar a me´dia. Com isso, obtemos a variaˆncia σ2 do conjunto como um quantificador da dispersa˜o, σ2 = 〈δm2〉 = 1 N N∑ k=1 (mk − 〈m〉)2 . (4) A fim de comparar esse quantificador com a me´dia, devemos tomar sua raiz quadrada, ate´ mesmo por motivos de compatibilizar unidades de medida. Definimos assim o desvio quadra´tico me´dio ou desvio padra˜o σ do conjunto de valores mk. A variaˆncia e´, portanto, igual ao quadrado do desvio padra˜o. A expressa˜o para a variaˆncia pode ainda ser escrita de outra forma. Calculando explicitamente o quadrado que aparece no segundo membro da Eq. (4), obtemos σ2 = 1 N N∑ k=1 ( m2k − 2〈m〉mk + 〈m〉2 ) = 1 N N∑ k=1 m2k − 2〈m〉 1 N N∑ k=1 mk + 〈m〉2 1 N N∑ k=1 1 = 〈m2〉 − 2〈m〉〈m〉+ 〈m〉2, (5) Obtemos finalmente σ2 = 〈m2〉 − 〈m〉2. (6) Essa forma de expressar a variaˆncia mostra que ela pode ser calculada como a diferenc¸a entre a me´dia dos quadrados das medidas individuais e o quadrado da me´dia. Para conjuntos com me´dia nula, como e´ o caso dos desvios δmk, a variaˆncia e´ simplesmente a me´dia dos quadrados, σ 2 = 〈(δm)2〉, conforme dado pela Eq. (4). 6 Apostila 2: Incerteza e estat´ıstica Para conjuntos de medidas compostos por alguns poucos valores, portanto muito distantes da idealizac¸a˜o estat´ıstica do limite N → ∞, e´ conveniente estimar a dispersa˜o pelo desvio padra˜o amostral σA, definido atrave´s da variaˆncia amostral σ 2 A como σ2A = 1 N − 1 N∑ k=1 (mk − 〈m〉)2 . (7) A u´nica diferenc¸a com relac¸a˜o ao desvio padra˜o ‘normal’ e´ a subtrac¸a˜o de 1 no denominador, de forma a quantificar mais adequadamente a dispersa˜o de amostras pequenas. Ambas as expresso˜es fornecem o mesmo resultado para um conjunto com grande nu´mero de amostras (N →∞). Daqui em diante nos referiremos a σA e σ de forma indistinta como provendo a dispersa˜o do conjunto de medidas, ficando a seu crite´rio utilizar a definic¸a˜o mais apropriada a` sua situac¸a˜o expe- rimental. 3.3 Histograma O gra´fico em histograma e´ uma forma de representar a frequeˆncia de medidas com valores simi- lares a fim de extrair significado estat´ıstico do conjunto. O histograma e´ uma ferramenta de visualizac¸a˜o. Seu objetivo e´ desvendar o perfil da distribuic¸a˜o aleato´ria de valores medidos. Nesse tipo de gra´fico, representamos no eixo x intervalos compat´ıveis com valores do conjunto de medidas, e no eixo y a frequeˆncia com que aparecem. O procedimento para a confecc¸a˜o de um histograma segue os seguintes passos: • Escolhemos um intervalo do eixo x capaz de conter todos os valores medidos e o dividimos em n intervalos menores de igual tamanho, chamados “caixas” (ou “ce´lulas” ou “bins”). • O nu´mero n e´ tipicamente escolhido como ‘algumas vezes menor’ que o nu´mero N de medidas no conjunto. A ideia e´ que cada caixa contenha um nu´mero aprecia´vel de medidas, evitando a ocorreˆncia de caixas vazias no meio do intervalo. • Organizamos o conjunto de dados contabilizando quantos eventos do conjunto se enquadram em cada caixa. Esse nu´mero f e´ a chamada frequeˆncia absoluta de ocorreˆncia associada a cada intervalo, denotada no eixo y do histograma. Assim, o histograma e´ um gra´fico composto por retaˆngulos justapostos em que a base de cada um corresponde a` caixa e a altura, a` frequeˆncia (Fig. 2). O histograma e´ um importante indicador da distribuic¸a˜o de dados. Tomemos um exemplo. Consideremos uma classe com N = 21 estudantes da qual se queira inferir algo sobre o n´ıvel de entendimento da turma sobre a mate´ria dada, e que uma prova com nota ma´xima igual a 3 seja aplicada para ‘medir’ isso. 7 F´ısica Experimental 1 Suponhamos que muitas varia´veis fora de nosso controle afetem o desempenho dessa turma to- talmente hipote´tica, e que portanto o medidor de compreensa˜o da classe possua grande dispersa˜o. Ao final da prova, o conjunto de notas da Tab. 1 e´ obtido. 2,65 2,55 1,70 1,70 1,75 1,45 0,45 2,30 1,08 1,39 2,30 1,70 1,38 2,13 1,73 1,23 2,00 2,13 1,53 1,40 1,70 Tabela 1: Conjunto de notas dos 21 estudantes da turma. Podemos esperar uma distribuic¸a˜o de notas com va´rios estudantes concentrados em torno de uma nota t´ıpica e alguns poucos sobressaindo-se (tanto no sentido negativo quanto positivo). Para representar essa distribuic¸a˜o em forma de histograma, buscamos discretizar intervalos com o obje- tivo de tornar bem evidente o formato global da distribuic¸a˜o. Isso certamente na˜o sera´ verdade se escolhermos caixas muito pequenas, caso em que havera´ apenas uma nota por caixa; o mesmo vale para caixas muito grandes, pois enta˜o todos os estudantes pertencera˜o a` mesma caixa. Intervalo Valor mediano xj Frequeˆncia absoluta fj Probabilidade pj = fj/N [0,05; 0,45[ 0,25 0 0,00 [0,45; 0,85[ 0,65 1 0,05 [0,85; 1,25[ 1,05 2 0,10 [1,25; 1,65[ 1,45 5 0,24 [1,65; 2,05[ 1,85 7 0,33 [2,05; 2,45[ 2,25 4 0,19 [2,45; 2,85[ 2,65 2 0,10 [2,85; 3,25[ 3,05 0 0,00 Tabela 2: Notas da tabela 1 organizadas para construc¸a˜o do histograma da figura 2. Para encontrar o melhor tamanho de caixa, consideremos primeiramente tanto a maior quanto a menor nota do conjunto, e escolhamos valores nessas proximidades. Por exemplo, tomemos xmin = 0,45 e xmax = 2,85 como intervalo total de existeˆncia do histograma. O passo mais delicado consiste na escolha do tamanho de cada caixa ou, equivalentemente, do nu´mero n de caixas. Tomemos como base o nu´mero total de dados N = 21, que nos fornece grosseiramente um limite superior para o nu´mero de caixas, para escolher o nu´mero me´dio de entradas por caixa em torno da unidade. Escolhendo o nu´mero de caixas como n = 8, de forma a termos algo como 2 entradas por caixa em me´dia. Nesse caso, o intervalo ∆x ocupado por cada caixa deve ser ∆x = (xmax − xmin)/n = 0,4. 8 Apostila 2: Incerteza e estat´ıstica E´ interessante escolher ∆x como um nu´mero de fa´cil memorizac¸a˜o, para facilitar a compreensa˜o visual do histograma: ele e´ uma ferramenta voltada a humanos! A tabela 2 mostra em sua primeira coluna os intervalos resultantes dessas escolhas. O primeiro intervalo, por exemplo, e´ [0,05; 0,45[, em que a notac¸a˜o indica ser o intervalo fechado a` esquerda e aberto a` direita (i.e. medida com valor no extremo inferior e´ contada dentro do intervalo, enquanto no valor extremo superior, na˜o). A contagem do nu´mero de entradas da tabela 1 dentro de cada intervalo nos fornece as frequeˆncias absolutas fj (j = 1, 2, . . . , n) denotadas na Tab. 2. O histograma resultante e´ mostrado na figura 2. Vemos que o intervalo de notas com maior frequeˆncia, entre 1,65 e 2,05, conte´m 7 estudantes. Ale´m disso, apenas 2 estudantes obtiveram nota entre 2,45 e 2,85, e nenhum obteve nota superior a 2,85 (sim, de fato uma situac¸a˜o vergonhosa para a turma). A representac¸a˜o gra´fica em histograma nos permite visualizar propriedades estat´ısticas gerais do conjunto de medidas, como me´dia e dispersa˜o, e tambe´m analisar seu perfil, se compat´ıvel ou na˜o com uma distribuic¸a˜o gaussiana. Figura 2: Histograma de notas constru´ıdo a partir do conjunto da tabela 1. Podemos utilizar os valores do histograma tambe´m para facilitar ca´lculos de me´dia e variaˆncia de forma ponderada. Definimos para isso a frac¸a˜o de medidas que recai em cada intervalo, i.e. a frequeˆncia relativa ou probabilidade pj = fj/N . Note que 0 ≤ pj ≤ 1. Os valores pj do exemplo acima aparecem na u´ltima coluna da Tab. 2. Note que ∑ j pj = 1 dentro da precisa˜o permitida pelo nu´mero de pontos. Para representar o valor aproximado de cada intervalo em ca´lculos estat´ısticos, utilizamos o valor mediano xj, representado na segunda coluna da tabela. Realizamos por fim os ca´lculos utilizando pj como pesos para ponderac¸a˜o. 9 F´ısica Experimental 1 A me´dia ponderada calculada da forma como voceˆ deve conhecer, 〈x〉 = f1 · x1 + f2 · x2 + · · ·+ fn · xn N = 1 N n∑ j=1 fj · xj. (8) tambe´m pode ser calculada diretamente pelas probabilidades, 〈x〉 = p1 · x1 + p2 · x2 + · · ·+ pn · xn = n∑ j=1 pj · xj. (9) O ca´lculo da variaˆncia segue a mesma lo´gica. Utilizando a Eq. (9), pore´m com x2j no lugar de xj, uma vez que queremos determinar 〈x2〉, obtemos 〈x2〉 = 1 N n∑ j=1 fj · x2j = n∑ j=1 fj N · x2j = n∑ j=1 pj · x2j . (10) O desvio padra˜o, dado pela Eq. (6), e´ calculado como σ = √ 〈x2〉 − 〈x〉2. Para a me´dia de qualquer func¸a˜o f(x), as expresso˜es acima se generalizam como 〈f(x)〉 = p1 · f(x1) + p2 · f(x2) + · · ·+ pn · f(xn) = n∑ j=1 pj · f(xj). (11) Para o ca´lculo de 〈x〉, tomamos f(x) = x; para o ca´lculo de σ2, f(x) = (x−〈x〉)2, e assim por diante. Para o exemplo da tabela 2, obtemos 〈x〉 = 1,73 e σ = 0, 53. Esses valores sa˜o denotados graficamente no histograma da Fig. 2. A posic¸a˜o do valor me´dio no histograma, demarcada pela linha vertical, fornece seu ‘centro de gravidade’. A regia˜o denotada por setas e delimitada por linhas verticais representa a frac¸a˜o das notas que distam menos de 1 desvio padra˜o da me´dia, i.e. notas xj tais que 〈x〉 − σ < xj < 〈x〉 + σ. Aproxi- madamente 70% dos estudantes da turma se encontram nessa regia˜o. Vejamos o porqueˆ. 4 Distribuic¸a˜o Gaussiana A ta´tica de repetir medidas para diminuir a influeˆncia de erros aleato´rios pode ser levada ao extremo. Consideramos agora o que ocorreria se o nu´mero de medidas aumentasse enormemente, tendendo ao limite matema´tico do infinito. Nesse limite, o tamanho da caixa do histograma pode tender a zero sem o risco de ficar va- zia, tornando-se cont´ınua a distribuic¸a˜o de frequeˆncias. A func¸a˜o assim obtida recebe o nome de densidade de probabilidade, e fornece a frac¸a˜o de medidas que resulta dentro de um intervalo infinitesimal de valores. 10 Apostila 2: Incerteza e estat´ıstica O objetivo de tomar um conjunto de medidas e´ obter uma boa aproximac¸a˜o discreta (histograma) dessa func¸a˜o cont´ınua, para dela extrair informac¸a˜o sobre as grandezas f´ısicas de interesse. Feliz- mente, essa func¸a˜o na˜o possui um formato qualquer; se assim fosse, a possibilidade de determina´-la com um nu´mero finito de medidas seria bem baixa. Um importante teorema matema´tico, chamado ‘teorema central do limite’, nos garante que, para processos totalmente aleato´rios e independentes, a func¸a˜o densidade de probabilidade do processo tendera´ sempre a uma distribuic¸a˜o gaussiana para N →∞. Figura 3: Distribuic¸a˜o gaussiana G(x), com a´reas abarcadas por mu´ltiplos de σ realc¸adas. Voceˆ talvez ja´ tenha visto a func¸a˜o gaussiana aparecer em outros contextos da f´ısica ou da matema´tica. No contexto de uma distribuic¸a˜o de probabilidade, sua expressa˜o e´ G(x) = 1√ 2piσ2 exp ( −(x− 〈x〉) 2 2σ2 ) . (12) Nesse caso, G(x)dx fornece a probabilidade de se obter como resultado de uma medida um valor entre x e x+ dx. O nome ‘densidade de probabilidade’ adve´m do fato de que essa func¸a˜o precisa ser multiplicada por dx para fornecer uma probabilidade leg´ıtima. Assim, a probabilidade infinitesimal dP (x) de se obter um valor entre x e x+ dx se escreve como dP (x) = G(x)dx. Para intervalos na˜o infinitesimais, a probabilidade P (x1, x2) de se obter um valor entre x1 e x2 se calcula somando os dP (x) a partir da integral, P (x1, x2) = ∫ x2 x1 dP (x) = ∫ x2 x1 G(x) dx, (13) expressa˜o que na maioria das vezes so´ pode ser resolvida numericamente. Em especial, como todas as medidas sa˜o obrigadas a fornecer valores no intervalo de −∞ a ∞, a distribuic¸a˜o de probabilidade obedece a` condic¸a˜o∫ ∞ −∞ G(x)dx = 1. (14) 11 F´ısica Experimental 1 A normalizac¸a˜o escolhida na Eq. (12) garante a validade dessa expressa˜o (verifique!). Ale´m da normalizac¸a˜o correta, a forma da Eq. (12) conte´m tambe´m a me´dia e a variaˆncia da distribuic¸a˜o denotadas explicitamente. Para ver isso, generalizamos primeiro o ca´lculo de me´dias, dado pela Eq. (11), para distribuic¸o˜es cont´ınuas. No lugar dos pesos pj do caso discreto, utilizamos agora as probabilidades dP (x) como peso para cada valor x poss´ıvel de medida. Por exemplo, a me´dia de x ponderada pelo ‘peso’ dP (x) fica 〈f(x)〉 = ∫ ∞ −∞ x dP (x) = ∫ ∞ −∞ xG(x) dx. (15) Com isso, podemos mostrar usando a Eq. (12) as relac¸o˜es 〈x〉 = ∫ ∞ −∞ xG(x) dx, (16) σ2 = ∫ ∞ −∞ (x− 〈x〉)2G(x) dx. (17) Os paraˆmetros 〈x〉 e σ sa˜o, na verdade, os u´nicos necessa´rios para determinar a distribuic¸a˜o gaussiana. Momentos de mais alta ordem (e.g. 〈x4〉), sa˜o func¸o˜es destes (demonstre!). O desvio padra˜o σ da gaussiana determina a regia˜o no entorno da me´dia na qual ≈ 68% da a´rea da gaussiana se encontra. Isso significa que a probabilidade de uma medida fornecer valor no intervalo de 1σ em torno da me´dia e´ ≈ 68%. De forma matema´tica, isso se expressa como P (〈x〉 − σ, 〈x〉+ σ) = ∫ 〈x〉+σ 〈x〉−σ G(x)dx ≈ 0,68. (18) Para o intervalo de 2σ em torno da me´dia, a probabilidade aumenta para 95%. Ja´ para 3σ, a chance de estar no interior da regia˜o e´ de 99,7%. Assim, para conjuntos pequenos (N ≤ 100) espera-se a totalidade das medidas dentro de 3σ. Essa nomenclatura em termos de ‘distaˆncias σ’ e´ muito utilizada no contexto de f´ısica experimental de part´ıculas e altas energias. A descoberta de uma nova part´ıcula num acelerador de part´ıculas so´ ocorre por definic¸a˜o se a incerteza estat´ıstica no resultado ultrapassar a marca de 5σ, i.e. a probabilidade de ser um evento real deve ser maior do que 99,99994% (ou 0,00006% de chance de ser um evento ao acaso). Outro contexto em que ela e´ utilizada e´ no controle de qualidade de componentes industriais. Por exemplo, chips eletroˆnicos vitais para a seguranc¸a de um automo´vel precisam ser confia´veis dentro de 6σ, i.e. funcionar perfeitamente em mais do que 99,9999998% das vezes; assim, a toleraˆncia ma´xima de falha e´ de 1 em 500 milho˜es de componentes. A func¸a˜o gaussiana e´ portanto bem localizada em torno de seu valor me´dio. O motivo disso e´ seu decre´scimo de forma exponencial a partir desse valor. Outra caracter´ıstica importante da gaussiana e´ o fato de que seu valor me´dio coincide com seu valor mais prova´vel, i.e. o ma´ximo de G(x) ocorre no ponto xmax = 〈x〉 (demonstre!). 12 Apostila 2: Incerteza e estat´ıstica 5 Associando paraˆmetros da gaussiana a grandezas f´ısicas Vimos que na presenc¸a de erros aleato´rios, a ta´tica do bom experimentador muda: em vez de acreditar que cada medida lhe fornec¸a o valor mais confia´vel da grandeza de interesse, ele passa a buscar determinar a forma da curva que lhe da´ a probabilidade de obter certo valor de medida. Nessa forma de pensar, um histograma e´ apenas uma aproximac¸a˜o da distribuic¸a˜o gaussiana subjacente ao processo aleato´rio. A expectativa ta´cita e´: repetindo-se a mesma medida de forma independente e por um nu´mero suficiente de vezes, pode-se sempre determinar essa gaussiana com precisa˜o arbitra´ria. Determinar a gaussiana significa obter seus paraˆmetros (me´dia e desvio padra˜o) a partir do conjunto de valores medidos. Vamos agora atribuir interpretac¸a˜o f´ısica a esses paraˆmetros para relaciona´-los a` grandeza f´ısica de interesse e sua incerteza. 5.1 Valor mais confia´vel e incerteza estat´ıstica de uma grandeza Lembremos: o valor mais confia´vel de uma grandeza e´ aquele com maior probabilidade de ser igual ao valor verdadeiro. Existem va´rias formas de se estimar o valor mais confia´vel a partir de medidas apresentando erro aleato´rio. Vejamos duas formas mais comuns. Utilizac¸a˜o do conjunto completo de dados Se a ideia e´ utilizar toda a informac¸a˜o do conjunto de dados, podemos interpretar suas propriedades estat´ısticas, em especial a me´dia e o desvio padra˜o, como estimadores da gaussiana ideal subjacente ao processo aleato´rio, e dela estimar a grandeza de interesse e sua incerteza. Por serem propriedades do conjunto, e na˜o de medidas individuais, essas quantidades devem atingir maior grau de precisa˜o. Da´ı a vantagem em utilizar a ana´lise estat´ıstica. Para distribuic¸o˜es gaussianas, existe a simplificac¸a˜o de que o valor mais prova´vel da distribuic¸a˜o e´ igual a seu valor me´dio. Por isso, podemos diretamente adotar a me´dia dos valores medidos como o valor mais confia´vel da grandeza de interesse. Nesse caso, a incerteza da grandeza sera´ igual a` incerteza do pro´prio valor me´dio. Escrevemos: x = 〈x〉 ± σ〈x〉, (19) em que X = 〈x〉 e´ o valor mais confia´vel da grandeza x e σ〈x〉, a incerteza da me´dia do conjunto. Lembremos que a distribuic¸a˜o gaussiana associada a um conjunto de medidas com erros aleato´rios pode ser determinada de forma perfeita no limite ideal de infinitas medidas. Isso significa que a incerteza em seus paraˆmetros (me´dia e desvio padra˜o) deve depender do nu´mero N de medidas no conjunto, e tender a zero para N →∞. 13 F´ısica Experimental 1 Para estimar a incerteza do valor me´dio 〈x〉, utilizamos o mesmo tipo de racioc´ınio estat´ıstico. Consideramos um conjunto de distribuic¸o˜es gaussianas obtidas pela repetic¸a˜o de conjuntos indepen- dentes de medidas e buscamos determinar a dispersa˜o de seus paraˆmetros (me´dia e desvio padra˜o). A resposta encontrada apo´s ca´lculos formais e´ que os pro´prios paraˆmetros da gaussiana obedecem a distribuic¸o˜es gaussianas (consequeˆncia do ‘teorema central do limite’). A dispersa˜o t´ıpica σ〈x〉 dessas distribuic¸o˜es depende do nu´mero N de medidas de cada conjunto da seguinte forma: σ〈x〉 = σ√ N , (20) ou seja, a dispersa˜o da me´dia dos valores no conjunto e´ menor que a dispersa˜o σ esperada para cada valor por um fator √ N . Vemos que a dispersa˜o na me´dia tende a zero no limite N → ∞, conforme espera´vamos. Ale´m disso, ela depende diretamente da dispersa˜o σ do conjunto de valores medidos. Quanto menor a dispersa˜o da distribuic¸a˜o, proporcionalmente menor a dispersa˜o σ〈x〉 em sua me´dia. Utilizac¸a˜o de uma u´nica medida Existe outra forma de se estimar o valor mais confia´vel da grandeza de interesse, utilizando uma u´nica medida. Como vimos, a ideia de incerteza de umamedida individual xi e´ apontar a magnitude do desvio t´ıpico entre o valor obtido e o valor verdadeiro. Para um conjunto de medidas, esse desvio ja´ e´ o pro´prio desvio padra˜o σ, pois nos fornece o valor t´ıpico de dispersa˜o de cada medida. Escrevemos nesse caso: x = xi ± σ. (21) em que X = xi e´ o valor mais confia´vel obtido a partir de uma u´nica medida e σ, o desvio padra˜o do conjunto. Ainda que utilizemos apenas 1 medida, e´ sempre necessa´rio levantar a distribuic¸a˜o estat´ıstica associada ao erro aleato´rio, para determinarmos σ. Pode parecer um contra-senso se dar ao trabalho de medir todo um conjunto de medidas para, ao final, utilizar apenas 1 delas para estimar o valor mais confia´vel da grandeza. Na verdade, essa situac¸a˜o pode ocorrer quando queremos estudar a dependeˆncia da grandeza com algum paraˆmetro controla´vel que na˜o influencie o erro estat´ıstico. Por exemplo, suponha que uma experimentadora queira estudar a relac¸a˜o entre o per´ıodo de um peˆndulo e seu comprimento. Se o erro estat´ıstico depende simplesmente de seu tempo de reac¸a˜o no momento de ligar e desligar o cronoˆmetro, e´ de se esperar que ele na˜o dependa do per´ıodo em si. A experimentadora separa enta˜o o problema em duas partes: na primeira, ela repete va´rias medidas de per´ıodo (para um comprimento qualquer do peˆndulo) a fim de determinar a dispersa˜o t´ıpica do conjunto, e com isso o valor de σ. Na segunda parte, ela varia o comprimento do peˆndulo 14 Apostila 2: Incerteza e estat´ıstica e realiza apenas 1 medida de per´ıodo por valor de comprimento, e lhe atribui incerteza σ. Com isso, a experimentadora evita a repetic¸a˜o de um grande conjunto de medidas para cada comprimento do peˆndulo, simplificando o processo de medida. Erro estat´ıstico e desvio padra˜o Tomar o desvio padra˜o como exatamente igual ao erro e´, no fundo, mera convenc¸a˜o. Devemos sempre nos ater ao sentido do que se quer comunicar. Ao se escolher σ como igual ao erro estat´ıstico, estamos implicitamente sugerindo um processo gaussiano com as propriedades discutidas. E´ poss´ıvel ainda escolher crite´rio diferente para quantificar o erro estat´ıstico, se igual a 2σ, 3σ etc. Em certas aplicac¸o˜es, pode ser conveniente adotar margem de confianc¸a altamente conservadora, aumentando a definic¸a˜o de erro para 5σ ou mesmo 6σ. O mais comum na literatura e´ toma´-la como 1σ ou 3σ. Devemos lembrar, no entanto, que sempre havera´ alguma chance de erro, ainda que infinitesimal. De fato, argumentos estat´ısticos podem ser invocados para defender que um macaco-prego batendo teclas ao acaso poderia ser o verdadeiro autor de grandes obras da literatura brasileira como “Dom Casmurro” ou “Brejal dos Guajas”. Voceˆ saberia estimar essas probabilidades? Voceˆ vera´ que sa˜o quase sempre desprez´ıveis, embora na˜o-nulas. No final, fica a crite´rio do leitor decidir. 5.2 Incerteza nos paraˆmetros de um histograma O histograma e´ constru´ıdo com nu´mero finito de medidas, e, por isso, esperamos que as pro´prias frequeˆncias de cada caixa apresentem flutuac¸o˜es aleato´rias. Em outras palavras, repetir o conjunto de medidas deve fornecer novo histograma ligeiramente diferente do primeiro. Qua˜o diferente? Como vimos acima, flutuac¸o˜es estat´ısticas em quantidades coletivas de um conjunto de medidas tendem a ser √ N menores do que flutuac¸o˜es a afetar apenas uma u´nica medida. Utilizamos esse princ´ıpio para estimar a flutuac¸a˜o da frequeˆncia de cada caixa. Por exemplo, vimos que para N →∞ esperamos que um nu´mero ≈ 0,68N de pontos se encontre dentro do intervalo 1σ no entorno da me´dia. O nu´mero ≈ 68% representa o valor mais prova´vel da frac¸a˜o de medidas que deve pertencer a esse intervalo caso construamos muitos histogramas a partir de va´rios conjuntos independentes de medidas. Para apenas 1 histograma, podemos esperar um desvio t´ıpico de ≈ √0,68N desse valor. Ou seja, para N medidas, teremos tipicamente ≈ 0,68N ± √0,68N valores nesse intervalo. Para N = 100, isso daria 68 medidas tipicamente, sendo facilmente tolera´vel que algo entre 60 e 74 medidas tenham na verdade sido a´ı observadas, pois √ 68 ≈ 8. Esse racioc´ınio vale para qualquer intervalo. Portanto, o nu´mero de medidas Ni observadas em uma caixa do histograma deve ser entendido como algo do tipo ≈ Ni± √ Ni. Por exemplo, se apenas 15 F´ısica Experimental 1 Ni = 10 medidas sa˜o observadas numa caixa, isso significa que esse valor poderia ser facilmente algo entre 7 e 13 se repet´ıssemos o conjunto de medidas, pois √ 10 ≈ 3. Note que a incerteza relativa no nu´mero de medidas em determinado intervalo decresce com N , pois √ N/N = 1/ √ N . Para N →∞, cada caixa do histograma (quando normalizado), tornada cada vez mais estreita, deve tender ao valor prescrito pela gaussiana. 6 Ana´lise estat´ıstica na presenc¸a de diversas fontes de erro Na maioria das situac¸o˜es experimentais, fontes aleato´rias de erro se combinam ao erro instrumental para formar a incerteza total da medida. Veremos nessa sec¸a˜o como compor essas duas fontes de incerteza. Analisemos primeiramente o que esperar de casos extremos. Quando uma fonte de erro for muito mais importante em magnitude que a outra, vimos anteriormente que a incerteza total deve provir essencialmente da mesma, seja ela instrumental ou estat´ıstica. A diferenc¸a principal entre esses tipos de erro e´ que o erro estat´ıstico pode ser tornado ta˜o pequeno quanto se queira. O mesmo na˜o vale para o erro instrumental, por conta de seu significado: o instrumento e´ incapaz de medir com maior precisa˜o do que sua construc¸a˜o permite. Seu erro e´ herdado por toda medida tomada com ele. Tomemos um exemplo. Queremos medir a espessura de uma placa usando uma re´gua milimetrada, com incerteza instrumental σinstr = 0,5 mm. A medida e´ tomada por N = 5 vezes em pontos diferentes, e a cada vez encontra-se o mesmo valor L = 12,7 ± 0, 5 mm. Podemos dizer que a incerteza na me´dia do conjunto e´ σ = σinstr/ √ N = 0,5/ √ 5? Na˜o! Essa regra so´ vale para incertezas de origem estat´ıstica! Como podemos ver, o conjunto de medidas possui desvio padra˜o nulo, ou seja, incerteza de origem estat´ıstica igual a zero. Como o erro aleato´rio de medida na˜o esta´ presente, na˜o e´ poss´ıvel diminuir a incerteza experimen- tal por repetic¸a˜o da medida. Cada medida possui incerteza dada apenas pela precisa˜o do instrumento, assim como o conjunto como um todo. A forma correta de interpretar o conjunto de medidas acima e´ notar que o erro instrumental e´ ta˜o grande que na˜o permite verificar a existeˆncia de qualquer fonte de erro estat´ıstico σest. Se ela existir, seu desvio padra˜o deve ser muito menor que a precisa˜o instrumental, e por isso aparece como nulo a esse instrumento grosseiro. A incerteza total da medida deve ser nesse caso igual a` instrumental, sendo o erro estat´ıstico desprovido de contribuic¸a˜o para a incerteza total: a espessura da placa parece perfeitamente uniforme se medida com uma re´gua. Utilizemos agora um paqu´ımetro na medida, com incerteza instrumental σinstr = 0,05 mm. Nesse 16 Apostila 2: Incerteza e estat´ıstica caso, variac¸o˜es entre medidas diferentes passam a ser observadas. Apo´s 5 medidas, chega-se a um conjunto com me´dia L = 12,75 mm e desvio padra˜o σ = 0,16 mm. A incerteza na me´dia estat´ıstica e´ nesse caso σL = σ/ √ 5 = 0,07 cm. Devemos enta˜o incluir a incerteza instrumental a essa fonte aleato´ria de incerteza, pois afeta todos os dados. Para tanto, podemos escrever o resultado de medida como L = 12,75 ± 0,05 ± 0,07 mm, em que as fontes independentes de erro sa˜o colocadas de forma expl´ıcita. Alternativamente, podemos usar a regra de propagac¸a˜o de incertezas independentes para escrever um u´nico erro total σtot no valor mais confia´vel, composto pelos erros intrumental σinst e estat´ıstico σest pela regra ja´ conhecida σtot = √ σ2 inst + σ2est, (22) com o que obtemos L = 12,75± 0,09 mm. A Eq. (22) implica que o erro total na˜o pode ser menor do que o erro instrumental, uma vez que apenas a parte aleato´ria do erro pode ser anulada pela repetic¸a˜o de medidas. O motivo para a impossibilidade de eliminac¸a˜o do erro instrumental e´ o fato de que esse tipo de incerteza afeta a distribuic¸a˜o estat´ıstica encontrada como um todo com erro de origem desconhecida, podendo ser inclusive sistema´tica: a precisa˜o e a acura´cia do instrumento limitam em u´ltima instaˆncia a confianc¸a em qualquer paraˆmetro obtido numa medida ou em seu conjunto. 7 Dicas para confecc¸a˜o de gra´ficos e histogramas O objetivo do gra´fico e´ transmitir informac¸a˜o de forma simples e direta, tambe´m para outras pessoas, auxiliando a ana´lise do conjunto de dados. Seguem abaixo algumas regras ba´sicas para aumentar a clareza de gra´ficos experimentais. • Em um espac¸o livre, na parte superior da folha, escreva o t´ıtulo do gra´fico. • Escreva o nome ou letra a denotar a grandeza em cada eixo. Coloque entre pareˆnteses a unidade correspondente. • Deve-se tentar distribuir bem os pontos experimentais dentro do espac¸o dispon´ıvel para o gra´fico, mediante escolha de uma escala adequada. Evite amontoar todos os pontos num espac¸o pequeno de dif´ıcil leitura. • A escala deve ser simples e de fa´cil leitura. Procure adotar mu´ltiplos de nu´meros inteiros que sejam bons divisores. Exemplos de escalas deseja´veis sa˜o 0,1; 0,2; 0,5; 1; 2; 5; 10 ; 20 ; 50 etc. Evite a utilizac¸a˜o de nu´meros primos como 3, 7, 11 etc. • Ao trabalhar com nu´meros muito grandes ou pequenos, use notac¸a˜o cient´ıfica. Denote poteˆncias de 10 juntamente com as unidades entre pareˆnteses. 17 F´ısica Experimental 1 • O intervalo dos eixos pode ser escolhido tambe´m por razo˜es teo´ricas. Por exemplo, se os dados experimentais precisam ser comparados com um modelo que preveˆ um valor de grande importaˆncia (por exemplo, o ponto triplo da a´gua), o gra´fico deve apresentar esse ponto mesmo que os dados experimentais na˜o cubram essa regia˜o. • Os pontos experimentais devem ser marcados no gra´fico usando s´ımbolos de fa´cil visua- lizac¸a˜o. Nada de corac¸o˜ezinhos ou smileys. • Apo´s a colocac¸a˜o dos pontos no gra´fico, na˜o escreva nos eixos os valores relativos a cada ponto. Isso afeta a clareza do gra´fico ao tumultuar sua leitura. • Para ajustar visualmente uma curva aos pontos experimentais, tente fazeˆ-la de forma suave e cont´ınua. A curva de ajuste na˜o precisa tocar nenhum ponto experimental espec´ıfico, bastando ajustar bem o conjunto inteiro. • Na˜o una pontos do gra´fico por linhas sem significado! Cada detalhe do que se apresenta num gra´fico deve possuir significado claro ao leitor. • Geralmente, uma folha de papel milimetrado tem tamanho de 280 mm por 180 mm, sendo que podemos usa´-la na posic¸a˜o ‘retrato’ ou ‘paisagem’. A escolha deve ter como objetivo otimizar a visualizac¸a˜o do gra´fico. • Para quaisquer du´vidas que possam surgir na apresentac¸a˜o do gra´fico, lembre-se do objetivo do gra´fico: servir como s´ıntese visual dos resultados experimentais. Questo˜es sobre o material dida´tico devem ser enderec¸adas no momento ao Prof. Alessandro S. Villar, no e-mail villar@df.ufpe.br. 18