Esta é uma pré-visualização de arquivo. Entre para ver o arquivo original
ESTATÍSTICA PARA CURSOS DE
ENGENHARIA E INFORMÁTICA
1. A ESTATÍSTICA
Em nosso dia a dia, estamos sempre
fazendo observações de fenômenos ou gerando
dados. Os engenheiros estão frequentemente
analisando dados de propriedades dos materiais; os
profissionais da informática estão avaliando dados
de desempenho de novos sistemas computacionais;
e todos nós, ao lermos jornais e revistas, estamos
vendo resulta dos estatísticos provenientes do
censo demográfico, de pesquisas eleitorais etc.
Os dados podem provir de estudos
observacionais ou de experimentos planejados.
Ao acompanhar o desempenho de um processo
produtivo em sua for ma natural, estamos fazendo
um estudo observacional; ao alterar de forma
proposital as variáveis do processo para verificar
seus efeitos nos resultados, estamos realizando um
experimento.
A estatística envolve técnicas para coletar,
organizar, descrever, analisar e interpretar dados,
ou provenientes de experimentos, ou vindos de
estudos observacionais.
A análise estatística de dados geralmente
tem por objetivo tomadas de decisões, resoluções
de problemas ou produção de conhecimento. Mas
novos conhecimentos normalmente geram novos
problemas de pesquisa, resultando em um processo
iterativo (veja a Figura 1.1).
Estudaremos técnicas de amostragens e de
planejamento de experimentos, as quais permitem
que tenhamos observações — ou da dos — capazes
de responder a um problema. Mas as informações
relevantes, que devem estar contidas nos dados,
normalmente precisam ser realçadas para que
possamos enxergá-las. Isso pode ser feito através
da análise exploratória de dados.
As observações de um experimento
costumam vir acompanhadas de erro experimental,
ou seja, variações aleatórias devidas a uma
infinidade de fatores não controláveis. E a tarefa de
verificar se alguma variação é real (devida a algum
fator em estudo) ou meramente resultado de
flutuações aleatórias não é fácil. É por isso que
estudaremos a probabilidade, parte da matemática
preocupada em modelar fenômenos aleatórios.
Inferências estatísticas, ou seja,
generalizações de amostras para populações de
onde elas foram extraídas, são fundamentais na
resolução de problemas de engenharia e nos
processos de tomada de decisões. E através de
inferências estatísticas que podemos chegar à
conclusão de que um material é mais resistente do
que outro, que um sistema computacional gera
resultados mais precisos do que outro ou, ainda,
que um candidato tem intenção de voto no
intervalo 30% ± 2%, com nível de confiança de
95%.
A essência de uma análise estatística é tirar
conclusões sobre uma população, ou universo,
com base em uma amostra de observações.
2 - PESQUISAS, DADOS, VARIABILIDADE E
ESTATÍSTICA
As pessoas normalmente associam o termo
estatística a números, tabelas e gráficos, mas a
importância da estatística fica melhor representada
por dois ingredientes comuns em nosso dia a dia:
dados e variabilidade.
Para o engenheiro conhecer as propriedades
físicas de um novo material, ele pode medir
algumas de suas características, tais como a dureza,
a flexibilidade, a densidade, a porosidade etc. Mas
se ele medir a dureza em vários corpos de prova do
mesmo material com um instrumento de alta
precisão, encontrará valores diferentes. Subestimar
a presença da variabilidade pode pôr a casa a
pique!
Da mesma forma, observações do tempo
demandado para transmitir da dos através da rede
mundial de computadores, ou do número de bytes
que passam por um servidor, variam uma
enormidade ao longo do tempo. O conhecimento
desses dados e de sua variabilidade torna-se
imprescindível para se projetar um sistema de
transmissão de dados, ou mesmo para usar o
sistema existente com eficiência.
Em geral, a busca por melhorias na
qualidade de um processo produtivo implica a
redução da variabilidade. O que você como
consumidor pensa quando vê refrigerantes de certa
marca com grandes variações de conteúdo nas
garrafas? E quando você resolve medir o peso de
2
pacotes de café de 500 g e verifica que alguns têm
mais de 520 g e outros têm menos que 480 g? A
variabilidade pode ser reduzida com investimentos
em pessoal, máquinas e tecnologia, mas muitas
vezes ela pode ser acomodada com o conhecimento
de relações entre fatores do processo e
características funcionais do produto, o que
envolve conhecimentos de engenharia, pesquisas,
dados e análises estatísticas.
Com a alta competitividade de hoje, para
que uma empresa sobreviva, ela tem o desafio de
adequar o produto ao cliente. Por exemplo, a
demanda exige que certo material tenha um valor
específico de dureza. Mas como obter este valor de
dureza, com a menor variabilidade possível,
alterando fatores do processo, tais como:
temperatura do forno, temperatura de têmpera,
meio de têmpera, alterações nos componentes do
material etc.? A resposta pode ser um es tudo
experimental, em que os fatores do processo são
manipulados dentro de uma região operacional de
forma planejada. Observações são obtidas e,
através de uma análise estatística dos dados,
podemos chegar à combinação ideal dos fatores do
processo.
Por outro lado, adequar o produto ao cliente
envolve saber o que o consumidor deseja. Mas os
consumidores têm preferências diferentes, o que
exige a realização de pesquisas observacionais (ou
de levantamento) com os consumidores. Essas
pesquisas envolvem planejamento, técnicas de
amostragem, construção de questionários,
organização dos dados, análises estatísticas e
interpretação prática dos resultados.
3 - A ESTATÍSTICA NA ENGENHARIA
Logo após a Revolução Industrial, métodos
estatísticos foram incorporados nos processos
industriais para garantir a qualidade dos produtos.
Amostras de itens produzidos eram avaliadas
sistematicamente para inferir se o processo es tava
sob controle. Mais recentemente, a avaliação da
qualidade passou a ser feita ao longo de todo o
processo produtivo como forma de corrigir
eventuais falhas no sistema assim que elas
aparecessem. Isso levou a um aumento da
qualidade do produto final e redução de custos,
pois se reduziram drasticamente as perdas por
defeitos.
Além do acompanhamento estatístico da
qualidade, as indústrias costumam fazer
experimentos estatisticamente planejados para
encontrar a combinação dos níveis dos fatores do
processo que levem a melhor qualidade possível.
Na outra ponta, as empresas levantam dados de
amostras de consumidores para realizar pesquisas
de marketing direcionadas ou para adequar os
produtos aos clientes. O planejamento dessas
amostras e a análise dos dados necessitam de
técnicas estatísticas.
Muitas vezes, a relação entre estatística e
engenharia é ainda mais estreita. Os próprios
métodos de engenharia costumam incorporar
intrinsecamente procedimentos probabilísticos ou
estatísticos. Assim, para que um aluno possa
entender certos métodos de engenharia, é
necessário que tenha conhecimentos de
probabilidade e estatística.
4 - A ESTATÍSTICA E A INFORMÁTICA
Enquanto a Informática é a ciência que trata
da informação através de meios eletrônicos, a
Estatística procura obter informações relevantes de
massas de dados e, nos dias de hoje, isso costuma
ser feito com auxílio do computador.
A variabilidade está onipresente nos
sistemas computacionais atuais. Você pode
observar diferentes tempos de resposta ao carregar
um aplicativo num sistema compartilhado, ao
transmitir uma mensagem no correio eletrônico etc.
Portanto, a análise do desempenho desses sistemas
computacionais exige trata mento estatístico.
É comum construir sistemas para simular
certas situações reais. Mas, como no mundo real os
acontecimentos nem sempre são
previsíveis, torna-
se necessário incluir no modelo de simulação
alguma aleatoriedade, que pode ser feita com base
em modelos de probabilidade. Por exemplo, pode
ser razoável supor que em uma fila cheguem, em
média, cinco indivíduos por minuto, mas o número
exato de indivíduos que vão chegar no próximo
minuto não é totalmente previsível.
Outra relação importante é o uso conjunto
de banco de dados, estatística e inteligência
artificial para extrair informações relevantes e não
triviais de grandes arquivos de dados, armazenados
sob diferentes formatos e em diferentes locais. Por
exemplo, as empresas telefônicas têm dados das
ligações telefônicas de seus milhares ou até
milhões de clientes. Mas é um grande desafio
encontrar, com base nesses dados, possíveis
fraudes, tais como as clonagens de telefones
celulares. Este é um caso típico da necessidade de
3
usar de forma conjunta técnicas estatísticas e
informática.
5 - MODELOS
Os modelos podem ser considerados como
alguma representação da realidade em estudo,
destacando aspectos relevantes e desprezando
detalhes insignificantes. Em geral, eles servem para
simplificar, descrever e facilitar a interpretação
daquilo que se está estudando.
Na engenharia, o estudante costuma
defrontar com os chamados modelos
determinísticos, isto é, conhecidas as entradas x1,
x2, x3, ..., xk, o modelo permite chegar ao resultado
y, usando uma função y = f(x1, x2, x3, ..., xk). É o
que acontece, por exemplo, com a Lei de Ohm, em
que, dadas a tensão (x1) e a resistência (x2) de um
circuito simples, podemos calcular o fluxo da
corrente elétrica (y) por:
Muitas vezes, porém, as condições do
experimento não permitem deduzir qual o
resultado, mas somente a chance (ou a
probabilidade) de possíveis resultados. É o caso da
observação da face voltada para cima no
lançamento imparcial de uma moeda perfeitamente
equilibrada. Antes da realização do experimento
não se tem como dizer o resultado, mas é razoável
atribuir probabilidade 0,5 para cara e 0,5 para
coroa. E um exemplo de modelo probabilístico ou
estocástico.
Um exemplo menos trivial de modelo
probabilístico é a descrição do número de
indivíduos que chegam a uma fila, ou do número
de pacotes de dados que chegam a um servidor por
segundo. Sob certas condições e admitindo que a
taxa média de chegadas por segundo é λ(um valor
positivo fixo), a probabilidade de chegar
exatamente k pacotes num dado segundo é de,
aproximadamente:
Esse tipo de modelo pode auxiliar o projetista a
planejar a capacidade de um sistema
computacional.
Todo estudante já deve ter-se defrontado
com os modelos mecanísticos, caracterizados por
serem totalmente deduzidos do conhecimento
sobre o fenômeno físico em questão — a Lei de
Ohm é um exemplo. De outro lado estão os
chamados modelos empíricos, que são construídos
com base em observações reais sobre o problema
em estudo. Por exemplo, podemos ter interesse em
conhecer a relação entre a resistência à compressão
de um concreto e seu tempo de hidratação. Para
isso, podemos realizar um experimento, que resulta
em observações dessas duas variáveis. A Figura
1.2 apresenta os resultados da resistência (MPa) de
11 corpos de prova, com tempos de hidratação
entre 10 e 20 dias.
A Figura 1.2 mostra que não se tem uma
função matemática simples para explicar
exatamente a relação entre as duas variáveis em
questão. Contudo, o gráfico expõe os pontos em
torno de uma reta. Ou seja, podemos admitir que a
resistência esperada do concreto se relaciona
linearmente com o tempo de hidratação; e o fato de
os pontos observados não estarem exatamente
sobre uma reta é porque existem inúmeros fatores
não controláveis que agem sobre o processo — o
erro experimental.
Uma função matemática que explica
aproximadamente o relacionamento entre duas ou
mais variáveis, construída com base em dados
observados, pode ser considerada um modelo de
regressão, um tipo especial de modelo empírico.
Dado um problema, o conhecimento de engenharia
é fundamental para escolher adequadamente as
variáveis e, às vezes, a forma funcional (uma reta,
uma parábola etc.), mas a construção completa do
modelo é feita através dos dados.
No exemplo em questão, a Figura 1.2
sugere que uma reta (y = α + βx) descreve
aproximadamente o relacionamento. As 11
observações da resistência (y) para diferentes
4
tempos de hidratação (x) são usadas para obter
valores de α e β adequados, conforme
estudaremos. A Figura 1.3 mostra a equação de
regressão analítica e graficamente. O chapéu sobre
y é para diferenciar o modelo (a reta) dos valores
efetivamente observados (os pontos).
6 - CONCEITOS BÁSICOS
Apresentaremos alguns conceitos que
facilitarão a leitura deste livro. Esses conceitos
serão retomados nos capítulos seguintes com
definições mais precisas. O exemplo seguinte será
usado para ilustrar os principais conceitos.
Exemplo 1.1 Considere uma indústria
processadora de suco de frutas. Ao receber um
carregamento de laranjas, os técnicos fazem
inspeção da qualidade nas frutas. Examinam uma
amostra de cinco caixas, tomadas de forma
aleatória dentre toda a população de caixas do
carregamento.
Algumas características (ou variáveis)
podem ser observadas nas cinco caixas de laranjas
amostradas, tais como:
População: conjunto de elementos que formam o
universo de nosso estudo que são passíveis de ser
observados, sob as mesmas condições.
Amostra: parte dos elementos de uma população.
Amostragem: processo de seleção da amostra.
Amostragem aleatória simples: o processo de
seleção dos elementos é feito por sorteios, fazendo
com que todos os elementos da população tenham
a mesma chance de ser escolhidos e, além disso,
todo subconjunto de n elementos tenha a mesma
chance de fazer parte da amostra.
a) uma classificação por um técnico especializado
(ótima, boa, regular, ruim ou péssima);
b) número de laranjas não aproveitáveis por caixa;
c) peso de cada caixa de laranja etc.
O nível de mensuração de uma variável
pode ser qualitativo, como no caso (a), em que o
resultado é uma qualidade ou atributo; ou
quantitativo, como nos demais casos, em que o
resultado é um valor numa dada escala de medidas.
As variáveis mensuradas ao nível qualitativo serão
chamadas de variáveis qualitativas, e as
mensuradas ao nível quantitativo, de variáveis
quantitativas.
Ao selecionar uma caixa de laranja do
carregamento, podemos contar o número de
laranjas não aproveitáveis e medir o peso da caixa.
Gomo o resulta do de cada variável depende do
processo aleatório de seleção da caixa de laranja,
preferimos usar a denominação variável aleatória.
Uma variável aleatória pode ser entendida como
uma variável quantitativa, cujo resultado depende
de fatores aleatórios.
Ao realizar as observações de certa variável
aleatória X, estamos observando uma amostra de n
elementos, {x1, x2, x3, ..., xn}da variável aleatória
X. Por exemplo, ao contar o número de laranjas
não aproveitáveis em cada uma das cinco caixas
amostradas, temos um conjunto de cinco valores,
digamos {4, 6, 2, 3, 0}, que corresponde à amostra
efetivamente observada da variável aleatória
X = número de laranjas não aproveitáveis por
caixa.’
Dada uma amostra, é comum calcular
medidas descritivas das observações. Em nosso
exemplo, podemos dizer que o número médio de
laranjas não aproveitáveis por caixa é (4 + 6 + 2 +
3 + 0)/5 = 3. Esse valor descreve o que se observou
na amostra, mas também pode ser interpretado
como uma estimativa do número médio de laranjas
não aproveitáveis por caixa, no carregamento todo.
Parâmetro: uma medida que descreve certa
característica dos elementos da população.
Estatística: uma medida que descreve
certa
característica dos elementos da amostra.
Estimativa: valor resultante do cálculo de uma
estatística, quando usado para se ter uma idéia do
parâmetro de interesse.
Exemplos de parâmetros podem ser:
• média do número de laranjas não aproveitáveis
por caixa;
• proporção do número de caixas classificadas
como ótima etc.
Uma média ou proporção, quando referente a uma
amostra e não a toda a população, é chamada de
estatística. Note que as definições de parâmetro e
estatística são muito parecidas, só que parâmetro
refere-se à população e estatística, à amostra. Por
sua vez, o termo estimativa refere-se a um
resultado numérico, referente à amostra
efetivamente observada.
(BARBETTA, P. A. Estatística: para cursos de engenharia e informática. 3. ed. São Paulo : Atlas, 2010.)