











Estude fácil! Tem muito documento disponível na Docsity
Ganhe pontos ajudando outros esrudantes ou compre um plano Premium
Prepare-se para as provas
Estude fácil! Tem muito documento disponível na Docsity
Prepare-se para as provas com trabalhos de outros alunos como você, aqui na Docsity
Os melhores documentos à venda: Trabalhos de alunos formados
Prepare-se com as videoaulas e exercícios resolvidos criados a partir da grade da sua Universidade
Responda perguntas de provas passadas e avalie sua preparação.
Ganhe pontos para baixar
Ganhe pontos ajudando outros esrudantes ou compre um plano Premium
Comunidade
Peça ajuda à comunidade e tire suas dúvidas relacionadas ao estudo
Descubra as melhores universidades em seu país de acordo com os usuários da Docsity
Guias grátis
Baixe gratuitamente nossos guias de estudo, métodos para diminuir a ansiedade, dicas de TCC preparadas pelos professores da Docsity
13.1 Introdução: o que é estatística e para que serve? 13.2 A estatística no dia-a-dia ... 13.4.1 Medidas de tendência central: média, mediana e moda.
Tipologia: Notas de estudo
1 / 19
Esta página não é visível na pré-visualização
Não perca as partes importantes!
13.1 Introdução: o que é estatística e para que serve? 13.2 A estatística no dia-a-dia 13.3 Exatidão, precisão, erros e incertezas 13.4 Valor verdadeiro e medidas numéricas da melhor estimativa e da dispersão 13.4.1 Medidas de tendência central: média, mediana e moda 13.4.1.1 Média aritmética 13.4.1.2 Média ponderada 13.4.1.2.1 Cálculo da média com histogramas 13.4.1.3 Mediana 13.4.1.4 Moda 13.4.1.4.1 Relação entre média, mediana e moda 13.4.1.5 Média geométrica 13.4.1.6 Média quadrática: valor-rms 13.5 Medidas de dispersão: variância e desvio-padrão 13.5.1 Amplitude de variação total: faixa de valores 13.5.2 Desvio médio (absoluto) 13.5.3 Variância 13.5.4 Desvio padrão
Sérgio Ricardo Muniz
INTRODUÇÃO À ANÁLISE
Fundamentos da Matemática II
Fundamentos da Matemática II
Licenciatura em Ciências · USP/Univesp · Módulo 2
14.1 Introdução: o que é estatística e para que serve?
A maioria das pessoas tem uma ideia, ainda que não a mais precisa ou correta, do que seja estatística. Essa palavra é usada coloquialmente em vários contextos, mas geralmente está associada à ideia de números, previsões e comparações entre conjuntos de dados numéricos ou medidas. Assim, de uma forma bem simplificada, podemos pensar na estatística como um conjunto de métodos matemáticos que nos permite organizar e analisar dados e informações. Curiosamente, muitos têm a tendência de achar os métodos estatísticos um pouco confusos e difíceis de entender.Talvez isso seja consequência da forma um pouco abstrata como, às vezes, ela é apresentada. A razão dessa abstração, muitas vezes, é permitir uma maior precisão e gene- ralidade na definição dos conceitos matemáticos relevantes, que são bastante gerais e aplicáveis nas mais diversas áreas. Neste texto, porém, seguiremos um caminho um pouco diferente, conduzindo a discussão de uma forma mais prática e aplicada. Sempre que possível, usaremos exemplos concretos de utilização dessas ferramentas em condições típicas, que poderiam ser tanto de um laboratório de pesquisa quanto do seu dia a dia. O objetivo é aproveitar ao máximo os conceitos intuitivos já existentes, ganhos através da experiência cotidiana, e uni-los aos conhecimentos adquiridos neste curso, para construir e refinar os novos conceitos necessários para responder às perguntas que iremos propor.
14.2 A estatística no dia a dia
Atualmente, até mesmo graças à mídia, diversos conceitos estatísticos passaram a fazer parte do nosso vocabulário cotidiano. Conceitos como valor médio, desvio estatístico, incerteza, pro- jeções e probabilidade, além de diversas formas de representação gráfica, são frequentemente vistos na imprensa e na literatura técnica. São usados, por exemplo, como formas de apresentar relatórios de produtividade ou desempenho de parâmetros da economia e do mercado finan- ceiro, ou nas projeções de votação de eleições e até mesmo nas análises esportivas. São números assim que indicam, por exemplo, as chances de sucesso de um tratamento médico, ou o risco de expansão de uma nova epidemia mundial. Enfim, estamos cercados por dados estatísticos por
Fundamentos da Matemática II
Licenciatura em Ciências · USP/Univesp · Módulo 2
Exemplos Para entender melhor, vamos considerar um exemplo prático. Suponhamos que dois estudantes tenham acabado de fazer uma prática de laboratório, onde medi- ram o período de oscilação de um pêndulo. Cada um fez, cuidadosamente, o seu próprio conjunto de medidas usando os mesmos instrumentos. Em princípio, parece razoável imaginar que ambos deveriam encontrar os mesmos resultados. Mas será que isso é mesmo razoável? Se ambos os estudantes usaram o mesmo método de medida, o mesmo pêndulo e cronômetros idênticos, a expectativa é, de fato, a de que encontrem valores parecidos. Mas será que esses valores serão exatamente os mesmos? Para piorar a situação, apesar dos cuidados que ambos afirmam terem tido, os resultados apresentados por eles não são iguais. Um deles reportou o período como 1,4 s enquanto o outro afirma que o período do pêndulo é 1,56 s. Qual desses valores está correto? Em quem devemos acreditar? Pelo que aprendemos até agora, sobre algarismos significativos, somos tentados a dar crédito ao segundo aluno, que parece ser mais preciso, representando suas medidas com duas casas decimais. Mas a questão importante aqui é se os algarismos usados são, de fato, significativos. Na verdade, a forma como o resultado foi apresentado ainda não nos permite chegar a uma con- clusão. Pode ser que o primeiro tenha sido displicente ao não carregar o terceiro dígito, ou talvez ele já tenha feito uma análise e percebido que suas medidas não permitiam expressar o valor com um dígito extra. Por outro lado, o segundo estudante pode mesmo ter sido mais cuidadoso nas suas medidas, ou pode apenas estar querendo impressionar, adicionando um dígito, sem ter certeza dele. Como, então, avaliar a melhor medida? Em quem devemos confiar? Se quisermos ser objetivos, a melhor alternativa é pedir aos alunos que mostrem seus resultados medidos, já que uma única medida não nos permite avaliar completamente a incerteza associada a ela.
Como veremos adiante, são necessários, pelo menos, dois números (parâmetros) para caracterizar um conjunto de medidas que torne possível fazer um julgamento objetivo da confiabilidade da medida.
Tabela 14. Medidas A: 1,41 s 1,52 s 1,28 s 1,61 s 1,39 s Medidas B: 1,53 s 1,56 s 1,55 s 1,58 s 1,56 s
Os resultados obtidos pelos estudantes são mostrados na Tabela 14.1. Nela percebemos imediatamente que, embora ambas tenham três dígitos, as medidas B parecem ser, de fato, mais precisas, pois a faixa de variação dos valores é menor do que a dos observados nas medidas A. Essas observações intuitivas (baseadas apenas no senso comum) estão corretas, mas como expressar isso de forma quantitativa? Veremos isso mais adiante.
14 Introdução à análise estatística de medidas
Licenciatura em Ciências · USP/Univesp · Módulo 2 Neste momento, queremos entender melhor a relação entre essas medidas e os conceitos de exatidão e precisão. Para isso faremos uso das ferramentas de visualização (gráficos), vistos no texto Representação gráfica , que nos ajudarão a perceber isso de forma mais clara.
Figura 14.1: Diferentes maneiras de representar graficamente um conjunto de medidas experimentais, úteis para mostrar a variação e dispersão dos dados. Os gráficos (A) e (B) representam um histograma com a distribuição (frequência) com que os valores são observados numa certa faixa. Os gráficos (C) e (D) mostram os valores medidos em cada realização do experimento. A linha tracejada indica o valor médio de cada conjunto de medidas. A distribuição (distância) dos pontos em torno do valor médio dá uma ideia da dispersão (variação) da medida. Podemos observar claramente, pelos gráficos da Figura 14.1 , aquilo que a tabela já nos havia indicado. Graficamente, porém, fica mais fácil perceber que o conjunto de medidas B tem uma “dispersão” muito menor, em torno de um valor central. Notamos, por exemplo, que no gráfico (d) , os valores medidos se distribuem numa região bem menor em torno da reta pontilhada, que indica o valor médio daquele conjunto de medidas. Quando alguém diz que o valor médio de certa grandeza é X , é mais ou menos comum o entendimento de que esse valor é aquele que melhor representa (“na média”) certo conjunto
A
C
B
D
14 Introdução à análise estatística de medidas
Licenciatura em Ciências · USP/Univesp · Módulo 2
ocorre em (a) , onde há precisão (pouca dispersão) e acurácia (exatidão = próximo do valor correto), enquanto a pior situação é (d) , onde há pouca precisão e pouca acurácia.
Resumindo, precisão não é tudo. Por exemplo, você pode ser muito preciso ao jogar o papel no lixo, mas ainda assim errar sempre no mesmo lugar (fora do cesto), similar à Figura 14.2b. Isso não conta pontos a seu favor. Por outro lado, alguém menos preciso, embora acerte cada hora num lugar diferente ( Figura 14.2c ), pode eventualmente acertar uma vez ou outra dentro do cesto, e ainda assim conseguir um resultado, na média, melhor que o seu. No caso das medidas, em relação aos tipos de erros, a acurácia (exatidão) é mais afetada pelos erros sistemáticos enquanto a precisão está ligada ao desvio estatístico dos erros aleatórios. Enquanto o segundo sempre pode ser melhorado com um número maior de medidas, o primeiro não pode. Na prática, porém, a determinação da acurácia, e por consequência dos erros sistemáticos, não é tão simples como indicado na Figura 14.2 , pois, ao fazer uma medida, em geral, não se conhece o seu valor verdadeiro (não há alvo). Esse valor só pode ser “inferido” a partir do valor mais provável das medidas. É aí que entram os métodos estatísticos, como veremos a seguir.
14.4 Valor verdadeiro e medidas numéricas da
melhor estimativa e da dispersão
No texto Representações gráficas , nós aprendemos como usar representações gráficas para facilitar a visualização e dar sentido aos dados num conjunto numérico. Outra forma de fazer isso é através de medidas numéricas representativas desse conjunto de dados. Dois tipos importantes de medidas numéricas obtidas através dos métodos estatísticos são: as medidas de tendência (lo- calização) central e as medidas de variação ou dispersão de valores em torno do valor central. Cada uma delas pode fornecer informações importantes sobre todo o conjunto de dados.
Figura 14.2: Diagrama comparativo ilustrando os conceitos de precisão e exatidão. Os pontos indicam os tiros num alvo. (a) Representa um conjunto preciso e exato, enquanto (b) é preciso, mas pouco exato, pois a dispersão é pequena, mas está longe do centro do alvo. (c) Representa uma situação menos precisa, porém, cujo valor médio é razoavelmente exato (próximo do centro do alvo). Finalmente, (d) representa a situação onde há imprecisão e pouca exatidão.
a b c d
Fundamentos da Matemática II
Licenciatura em Ciências · USP/Univesp · Módulo 2
As medidas de tendência central fornecem um valor numérico representativo do valor médio (central) de uma distribuição de valores. Existem diferentes tipos de médias, e cada uma delas tem suas vantagens e desvantagens, que só vão depender dos dados e dos fins desejados. Os tipos mais comuns de medidas de tendência central são: a média aritmética (ou, simplesmente, média ou valor médio), a mediana , a moda , a média geométrica e a média quadrática.
14.4.1.1 Média aritmética
A média aritmética ou média de um conjunto de N valores X: { X 1 , X 2 , X 3 , ..., Xn }, usual- mente representado por X , é definida por:
Exemplos
- E xEmplo 1 A média dos números {3, 2, 5, 7, 10} é:
X = 3 +^2 +^5 +^7 +^10 = = 5
27 5 5 4,
14.4.1.2 Média ponderada
Quando os valores X 1 , X 2 ,...XK , têm associados a eles certos fatores de peso, ou ponderação, w 1 , w 2 , ..., wK , que os distinguem em importância relativa dentro de um conjunto de valores, a média ponderada é definida por:
N i i X
N i i
=
∑ (^1 2 3 1) ∑ 1
X w X^ w X^ w X^ w X w w w w
w X w
K K K
i i^ i
K
i i
=
∑ ∑
1 1 2 2 3 3 1 2 3
1 1
Fundamentos da Matemática II
Licenciatura em Ciências · USP/Univesp · Módulo 2 Na prática, para determinar esse valor, observa-se que, quando o número de elementos for ímpar, a mediana será o elemento do meio da sequência ordenada. Quando o número de elementos for par, a mediana será a média aritmética dos dois valores centrais.
- ExEmplo 4: No conjunto de números {1, 2, 3, 4, 5, 6, 7} a mediana é 4. - ExEmplo 5: No conjunto de números {1, 2, 3, 4, 6, 6, 7, 8} a mediana é 5.
14.4.1.4 Moda
A moda de um conjunto é o elemento que ocorre com maior frequência, isto é, o elemento mais comum. A moda pode não existir (quando todos ocorrem com a mesma frequência) e, mesmo que exista, pode não ser única (quando há mais de um elemento com frequência máxima).
- ExEmplo 6 No conjunto de números {2, 2, 3, 5, 5, 5, 8, 9} a moda é 5. - ExEmplo 7 O conjunto {2, 3, 5, 7, 15, 8, 9} não tem moda. - ExEmplo 8 No conjunto de números {1, 2, 2, 5, 7, 7, 3} as modas são 2 e 7. Este tipo de conjunto (ou distri- buição) é chamado bimodal.
Num histograma de frequência, a moda será sempre o valor (ou valores) que ocorre(m) com maior frequência. Distribuições com um único pico (valor máximo) são ditas unimodais.
14 Introdução à análise estatística de medidas
Licenciatura em Ciências · USP/Univesp · Módulo 2
14.4.1.4.1 Relação entre média, mediana e moda
No caso de uma distribuição unimodal simétrica as três medidas de tendência central terão valores bem próximos, e no caso perfeitamente simétrico elas irão sempre coincidir. Isso não ocorre se a distribuição for assimétrica ou multimodal. Para curvas de frequência (histograma) unimodal moderadamente assimétricas, seja com viés positivo ou negativo, existe uma relação empírica que relaciona os valores dessas três medidas:
A Figura 14.3 apresenta uma ilustração aproximada das posições relativas dessas três medi- das de tendência central para diferentes distribuições.
Comentamos, anteriormente, que cada uma dessas medidas tem suas vantagens e desvanta- gens, dependendo do conjunto de dados e do propósito da medida.Vamos agora discutir melhor alguns desses casos, para que você entenda a significância deles e evite ser vítima do uso errado e/ou distorcido de informações estatísticas, com respeito às medidas de tendência central. Como será discutido depois, no limite onde N → ∞ (números grandes de amostra), a média será, em geral, a melhor estimativa do valor verdadeiro (ou aceito como verdadeiro) de uma medida física onde só existem erros estatísticos ou aleatórios. Mas, no limite em que N → 0 (números pequenos), que é o mais próximo da realidade prática (onde temos uma amostra limitada de uma população ou universo de possibilidades), usar a média como medida de localização central não é isento de problemas.
Média − Moda = 3 (Média − Mediana)
a b c Figura 14.3: comparação das posições das medidas de tendência central em diferentes distribuições. (a) Distribuição perfeitamente simétrica: todas as medidas coincidem. (b) e (c) Distribuições assimétricas, enviesadas à esquerda e direita, respectivamente: as posições da média, mediana e moda são diferentes e seguem aproximadamente a relação empírica apresentada acima.
14 Introdução à análise estatística de medidas
Licenciatura em Ciências · USP/Univesp · Módulo 2
14.4.1.6 Média quadrática: valor-rms
A média quadrática de um conjunto { X 1 , X 2 , X 3 , ..., XN } é definida como a raiz quadrada da média dos valores ao quadrado:
- E xEmplo 11 A média quadrática dos números 2, 4 e 8 é:
X = 2 +^4 +^8 = ≅ 3
84 3 5 29
2 2 2 ,
Um exemplo prático disso é a tensão elétrica da sua casa, que oscila periodicamente de forma senoidal, e na média (simples) tem valor nulo, mas não é isso que você vai sentir se puser os dedos diretamente na tomada. Para expressar o valor efetivo da tensão elétrica alternada, por exemplo, utiliza-se o chamado valor quadrático médio, ou valor-rms (que vem do inglês: “ root mean square ”). Esse tipo de medida estatística é usado também em outras áreas da física e da engenharia.
14.5 Medidas de dispersão: variância e
desvio-padrão
Como foi visto, embora o valor médio seja uma medida importante, ele sozinho não for- nece toda a informação relevante sobre um conjunto de medidas.Vimos um exemplo disso na Figura 14.1 , onde as medidas A e B têm características bem diferentes com relação à média.
i i
N = = 2 ∑= 1 (^ )^2
Fundamentos da Matemática II
Licenciatura em Ciências · USP/Univesp · Módulo 2
Também mencionamos que a precisão estava relacionada ao desvio estatístico das medidas. Vamos agora esclarecer o que isso significa. Apresentaremos agora as chamadas medidas de dispersão ou variação de um conjunto de valores. Essas medidas servem para informar o grau em que os dados numéricos tendem a se dispersar (variar) em torno do valor médio. Fornecem, portanto, uma medida da significância e/ou confiabilidade do valor médio de um conjunto de números. Assim como no caso das medidas de tendência (localização) central, existem várias medidas de dispersão. Algumas das mais comuns são: amplitude total , desvio médio , variância e o desvio-padrão.
A amplitude total de um conjunto de valores { X 1 , X 2 , X 3 , ..., XN } é a diferença entre os valores mais altos e os mais baixos do conjunto.
- ExEmplo 12 Na discussão sobre a Tabela 14.1 , as amplitudes totais das medidas A e B são dadas a seguir:
O conceito de desvio em estatística está diretamente ligado ao conceito de erro de medidas ou variabilidade (nos casos em que as diferenças decorrem de razões naturais). Vimos que, em geral, ao fazer uma medida, não se conhece o seu “valor verdadeiro”. A estimativa desse valor é dada pela média das medidas. Em termos estatísticos, o desvio é definido como a diferença entre o valor de uma medida e o valor médio do conjunto de medidas onde ela se inclui.
Fundamentos da Matemática II
Licenciatura em Ciências · USP/Univesp · Módulo 2 É possível demonstrar que a definição 14.10 é equivalente à forma alternativa indicada abaixo, que frequentemente é mais conveniente, de expressar a variância:
isto é, a variância é a diferença entre a média quadrática e o quadrado da média. A vantagem dessa forma alternativa é uma ligeira facilidade nos cálculos, que se tornam um pouco menos trabalhosos. Ambos os resultados são idênticos.
- ExEmplo 14 Determinar a variância do conjunto {3, 4, 5, 6, 7}:
X
X
= +^ +^ +^ +^ = =
3 4 5 6 7 5
25 5
5
Var^3 5 2 4 5 2 5 5 2 6 5 27 2 2 2 2 2
5 2 1 0 1 2 5
4 1 0 1 4 5
10 5
Embora seja muito útil, e resolva a questão dos valores absolutos (positivos) dos desvios, a variância tem a inconveniência de não ter a mesma unidade das medidas e dificultar a com- paração direta entre essa medida e o conjunto de dados originais. Para solucionar isso, utiliza-se o desvio-padrão.
O desvio-padrão é simplesmente a raiz quadrada da variância. Assim, para o conjunto de N valores { x 1 , x 2 , x 3 , ..., xN }, o desvio-padrão é definido por:
Var X N
X (^) i X X X X X i
N ( ) = − ( ) = − ( ) = − ( ) =
∑
1
2 2 2 2
σ (^) x δ i i
N i i
N N N
= = ∑ ∑
1
2 1
2 2 2 2
14 Introdução à análise estatística de medidas
Licenciatura em Ciências · USP/Univesp · Módulo 2 Segundo essa definição, o desvio padrão é o valor-rms dos desvios.
- ExEmplo 15 Determinar o desvio-padrão do conjunto {12, 11, 9, 6, 7}:
X
X
= +^ +^ +^ +^ = =
12 11 9 6 7 5
45 5 9
σ^12 9 2 11 9 2 9 9 2 6 9 27 2 2 2 2 2
5 3 2 0 3 2 5
9 4 0 9 4 5
23 5
O desvio padrão é uma medida muito útil da dispersão de um conjunto de dados (amostra, ou população), caracterizando a confiabilidade de um conjunto de medidas. De fato, se as fontes de incerteza são pequenas e aleatórias, num conjunto de muitas medidas, os valores estarão distribuídos em torno do valor médio, seguindo uma distribuição normal (gaussiana). Nesse caso, aproximadamente de 68% dos resultados estão dentro de uma distância σ x do valor médio, e 95% dentro de 2s x. É isso que nos permite, na prática, adotar o desvio padrão como uma boa estimativa do erro ou incerteza de um conjunto de medidas.
Amostra versus População: diferentes definições do desvio-padrão Um ponto que costuma causar muita confusão com relação ao cálculo do desvio- padrão é a existência de uma segunda definição para o desvio-padrão de uma amostra pequena, isto é, quando N não é um número grande. Nesses casos, define-se o desvio-padrão de uma amostra como:
Essa distinção surge no contexto da chamada inferência estatística , cujo objetivo é fazer a melhor estimativa de uma população grande, a partir de uma amostragem de dados bem menor. Existem argumentos teóricos em favor das vantagens da definição 14.13 , que se aplica a uma amostra limitada, em vez da 14.12 , que repre- senta o desvio-padrão, σ x , de uma população (quando N → ∞ ).
s N N x i x^ x i
N i i
−
= = ∑ ∑
2 1
2 1
δ
14 Introdução à análise estatística de medidas
Licenciatura em Ciências · USP/Univesp · Módulo 2 Resumo do texto Nome Médias Nome Desvios
Média aritmética x (^) N xi i
1 1
Desvio médio ( valor absoluto ) DM^ N (^) i x^ i x
N = −
1 1
Média ponderada x^ w x w
i i^ i
K
i i
1 1
Variância
Var x (^) N x x x x
x (^) i i
N
x
σ σ
2 2 1 2 2 2
1
Média geométrica G^ x =^ Nx x x 1 2^ 3 ^ xN Desvio padrão ( população )
σ σ
x (^) i i N
x
N x x x x
1 2 1 2 2
Média quadrática (^) x x N
i i
N
2 1 Desvio padrão ( amostra ) s x (^) N (^) i xi^ x
N = (^) − ( − )
1 1
2 1
Referências
Barford, N.C. Experimental Measurements: precision, error and truth. Addison- Wesley Publishing Company, Inc., 1967. magalhãEs, m. N.; lima, a. C. P. de. Noções de Probabilidade e Estatística. 4. ed. São Paulo: Edusp, 2002. spiEgEl, M. R. Estatística. São Paulo: McGraw-Hill do Brasil, 1985. Taylor, J. R. An introduction to error analysis. 2. ed. University Science Books, 1997.
Agora é a sua vez... Continue explorando os recursos de aprendizagem disponíveis no Ambiente Virtual de Aprendizagem e realize a(s) atividade(s) proposta(s).