




























































































Estude fácil! Tem muito documento disponível na Docsity
Ganhe pontos ajudando outros esrudantes ou compre um plano Premium
Prepare-se para as provas
Estude fácil! Tem muito documento disponível na Docsity
Prepare-se para as provas com trabalhos de outros alunos como você, aqui na Docsity
Os melhores documentos à venda: Trabalhos de alunos formados
Prepare-se com as videoaulas e exercícios resolvidos criados a partir da grade da sua Universidade
Responda perguntas de provas passadas e avalie sua preparação.
Ganhe pontos para baixar
Ganhe pontos ajudando outros esrudantes ou compre um plano Premium
Comunidade
Peça ajuda à comunidade e tire suas dúvidas relacionadas ao estudo
Descubra as melhores universidades em seu país de acordo com os usuários da Docsity
Guias grátis
Baixe gratuitamente nossos guias de estudo, métodos para diminuir a ansiedade, dicas de TCC preparadas pelos professores da Docsity
Introdução à Inferência Estatística
Tipologia: Notas de aula
1 / 262
Esta página não é visível na pré-visualização
Não perca as partes importantes!
Apostila de Estatística II
A análise de um conjunto de dados por meio de técnicas descritivas (numéricas e gráficas) proporciona uma boa ideia da distribuição desses. Em particular, a distribuição de frequências é um instrumento bastante importante para avaliarmos a variabilidade das observações de um fenômeno aleatório. A partir dessas frequências, podemos calcular medidas de posição e variabilidade como, por exemplo, média, mediana, moda, desvio padrão etc. Tais frequências e medidas calculadas a partir dos dados são, em geral, estimativas de quantidades desconhecidas, associadas a populações das quais os dados foram extraídos na forma de amostras. As frequências relativas, por exemplo, são estimativas de probabilidades de ocorrência de certos eventos de interesse.
Quando realizamos uma análise de dados, é bastante razoável buscarmos alguma forma de regularidade/padrão (ou um modelo) presente nas observações. Com suposições adequadas, e sem observarmos diretamente o fenômeno aleatório de interesse, podemos criar modelos (matemáticos) teóricos capazes de reproduzir, de maneira satisfatória, a distribuição de frequências associada a um fenômeno aleatório diretamente observado. Tais modelos teóricos são chamados modelos probabilísticos e são objeto de estudo nas disciplinas de Teoria das Probabilidades.
Os modelos probabilísticos são, então, utilizados para medir a variabilidade de fenômenos aleatórios de acordo com as suas distribuições de probabilidades, que podem ser referentes a variáveis aleatórias discretas ou contínuas. Na prática, é comum o pesquisador ter alguma ideia sobre a forma da distribuição, mas não dos valores exatos dos parâmetros que a especificam. Surge, assim, a necessidade de descobrirmos (ou estimarmos) os parâmetros da distribuição para a sua posterior utilização.
EXEMPLO 1.1 Altura de adultos
Em um estudo antropométrico em nível nacional, uma amostra de 5000 adultos é selecionada dentre os adultos brasileiros e um dos objetivos é estimar a altura média dos adultos brasileiros.
- Neste exemplo, a população é o conjunto de todos os brasileiros adultos. No entanto, o interesse (um deles, pelo menos) está na altura dos brasileiros. Assim, nesse estudo, a cada sujeito da população associamos um número correspondente à sua altura. Como vimos, essa é a definição de variável aleatória: uma função que associa a cada ponto do espaço amostral (conjunto de todos os brasileiros) um número real. Dessa forma, a nossa população pode ser representada pela variável aleatória X = “altura do adulto brasileiro”. Como essa é uma variável aleatória contínua, a ela está associada uma função densidade de probabilidade f e da literatura, sabemos que é razoável supor
que essa seja a densidade normal. Assim, nossa população, nesse caso, é representada por uma variável aleatória X ∼ N
μ ; σ^2
. Conhecendo os valores de μ e σ teremos informações completas sobre a nossa população. - Uma forma de obtermos os valores de μ e σ é medindo as alturas de todos os brasileiros adultos. Mas esse seria um procedimento caro e demorado. Uma solução, então, é retirar uma amostra (subconjunto) da população e estudar essa amostra. Suponhamos que essa amostra seja retirada com reposição e que os sorteios sejam feitos de forma independente, isto é, o resultado de cada extração não altera o resultado das demais extrações. Ao sortearmos o primeiro elemento, estamos realizando um experimento que dá origem à variável aleatória X 1 =“altura do primeiro elemento”; o segundo elemento dá origem à variável aleatória X 2 =“altura do segundo elemento” e assim por diante. Como as extrações são feitas com reposição, todas as variáveis aleatórias X 1 ; X 2 ; : : : têm a mesma distribuição, que reflete a distribuição da altura de todos os brasileiros adultos. Para uma amostra específica, temos os valores observados x 1 ; x 2 ; : : : dessas variáveis aleatórias.
Consideremos, agora, uma pesquisa eleitoral, em que estamos interessados no resultado do segundo turno de uma eleição presidencial brasileira. O interesse final é saber a proporção de votos em um e outro candidato (vamos simplificar a situação ignorando votos nulos, indecisos etc.).
- Mais uma vez, nossos sujeitos de pesquisa são pessoas com 16 anos ou mais, aptas a votar. O interesse final é saber a proporção de votos em cada um dos candidatos. Então, cada sujeito de pesquisa dá origem a uma variável aleatória binária, isto é, uma variável aleatória que assume apenas dois valores. Como visto, podemos representar esses valores por 1 (candidato A) e 0 (candidato B), o que define uma variável aleatória de Bernoulli, ou seja, essa população pode ser representada pela variável aleatória X ∼ Bern ( p ) : O parâmetro p representa a probabilidade de um sujeito dessa população votar no candidato A. Uma outra interpretação é que p representa a proporção populacional de votantes no candidato A. - Como não é viável entrevistar todos os eleitores, utiliza-se uma amostra de eleitores para se obter informação sobre p e cada sujeito de pesquisa indica o candidato em que vai votar (A ou B). Como antes, vamos supor que essa amostra seja retirada com reposição. Ao sortearmos o primeiro elemento, estamos realizando um experimento que dá origem à variável aleatória X 1 = “voto do primeiro elemento”; o segundo elemento dá origem à variável aleatória X 2 = “voto do segundo elemento” e assim por diante. Como as extrações são feitas com reposição, todas as variáveis aleatórias X 1 ; X 2 ; : : : têm a mesma distribuição de Bernoulli populacional, isto é, Xi ∼ Bern ( p ) ; i = 1 ; 2 ; : : : e são independentes.
EXEMPLO 1.3 Duração de lâmpadas
Suponha que estejamos interessados em estudar o tempo de vida, medido em horas, das lâmpadas produzidas por uma determinada empresa. Para esse tipo de teste, é necessário deixar as lâmpadas acesas até que se queimem.
- Neste exemplo, a população alvo é formada por todas as lâmpadas fabricadas ou que venham a ser fabricadas pela empresa, o que caracteriza uma população teoricamente infinita. Um modelo teórico (probabilístico) possível para a distribuição da variável populacional “tempo de vida” é a distribuição exponencial com parâmetro λ.
Uma forma de se obter uma amostra aleatória simples é escrever os números ou nomes dos elementos da população em cartões iguais, colocar estes cartões em uma urna misturando-os bem e fazer os sorteios necessários, tendo o cuidado de colocar cada cartão sorteado na urna antes do próximo sorteio. Na prática, em geral são usados programas de computador, uma vez que as populações tendem a ser muito grandes.
Agora vamos formalizar o processo de seleção de uma amostra aleatória simples, de forma a relacioná-lo com os problemas de inferência estatística que iremos estudar.
Seja uma população representada por uma variável aleatória X : De tal população será sorteada uma amostra aleatória simples com reposição de tamanho n. Como visto nos exemplos anteriores, cada sorteio dá origem a uma variável aleatória Xi e, como os sorteios são com reposição, todas essas variáveis são independentes e têm a mesma distribuição de X : Isso nos leva à seguinte definição.
DEFINIÇÃO Amostra aleatória simples
Uma amostra aleatória simples (aas) de tamanho n de uma variável aleatória X (população) com distribuição de probabilidade f é um conjunto de n variáveis aleatórias X 1 ; X 2 ; :::; Xn independentes e identicamente distribuídas (iid) com Xi ∼ f.
É interessante notar a convenção usual: o valor observado de uma variável aleatória X é representado pela letra minúscula correspondente. Assim, depois do sorteio de uma amostra aleatória simples de tamanho n , temos valores observados x 1 ; x 2 ; : : : ; xn das respectivas variáveis aleatórias.
Obtida uma amostra aleatória simples, é possível calcular diversas características desta amostra, como, por exemplo, a média, a mediana, a variância etc. Qualquer uma destas características é uma função de X 1 ; X 2 ; :::; Xn e, portanto, é também uma variável aleatória (o seu valor depende da amostra sorteada). Por exemplo, a média amostral é a variável aleatória definida por
X 1 + X 2 + · · · + Xn n
Temos, então, a seguinte definição:
DEFINIÇÃO Estatística amostral
Uma estatística amostral (ou simplesmente estatística) T é qualquer função da amostra X 1 ; X 2 ; :::; Xn que não dependa de parâmetros desconhecidos, isto é,
T = g ( X 1 ; X 2 ; :::; Xn )
em que g é uma função qualquer que não depende de parâmetros desconhecidos.
Algumas estatísticas amostrais são
- média amostral X =
X 1 + X 2 + · · · + Xn n
- variância amostral
n − 1
∑^ n
i =
( Xi − X )^2 (1.2)
- mínimo amostral Y (1) = min {X 1 ; X 2 ; : : : ; Xn} - máximo amostral Y ( n ) = max {X 1 ; X 2 ; : : : ; Xn} - amplitude amostral W = Y ( n ) − Y (1)
Note que nenhuma das funções acima depende de qualquer parâmetro desconhecido. Por exemplo,
a função Z = X − μ σ /
n
não é uma estatística, pois depende dos parâmetros desconhecidos μ e σ.
É comum usar o termo estimador no lugar de estatística. Note que, sendo as estatísticas variáveis aleatórias, elas são representadas por letras maiúsculas: X , Y , Z etc. Para uma amostra específica, o valor obtido para o estimador será denominado estimativa e será representada por letras minúsculas. Por exemplo, temos as seguintes notações correspondentes à média e à variância amostrais:
- Estimadores: X e S^2 - Estimativas: x e s^2
De forma análoga, temos as características de interesse da população. No entanto, para diferenciar entre as duas situações (população e amostra), atribuímos nomes diferentes.
DEFINIÇÃO Parâmetro
Um parâmetro é uma característica da população.
Assim, se a população é representada pela variável aleatória X , alguns parâmetros são a esperança E( X ) (média) e a variância Var( X ) de X.
Com relação às características mais usuais, vamos usar a seguinte notação:
Característica Parâmetro Estatística (população) (amostra)
Média μ X Variância σ^2 S^2 Número de elementos N n
Tabela 1.1 – Distribuição amostral da média amostral
Amostra Probabilidade Média amostral x (1 ; 1) (1 / 4) × (1 / 4) = 1 / 16 (1 + 1) / 2 = 1 (1 ; 3) (1 / 4) × (1 / 4) = 1 / 16 (1 + 3) / 2 = 2 (1 ; 4) (1 / 4) × (1 / 4) = 1 / 16 (1 + 4) / 2 = 2 ; 5 (1 ; 8) (1 / 4) × (1 / 4) = 1 / 16 (1 + 8) / 2 = 4 ; 5 (3 ; 1) (1 / 4) × (1 / 4) = 1 / 16 (3 + 1) / 2 = 2 (3 ; 3) (1 / 4) × (1 / 4) = 1 / 16 (3 + 3) / 2 = 3 (3 ; 4) (1 / 4) × (1 / 4) = 1 / 16 (3 + 4) / 2 = 3 ; 5 (3 ; 8) (1 / 4) × (1 / 4) = 1 / 16 (3 + 8) / 2 = 5 ; 5 (4 ; 1) (1 / 4) × (1 / 4) = 1 / 16 (4 + 1) / 2 = 2 ; 5 (4 ; 3) (1 / 4) × (1 / 4) = 1 / 16 (4 + 3) / 2 = 3 ; 5 (4 ; 4) (1 / 4) × (1 / 4) = 1 / 16 (4 + 4) / 2 = 4 (4 ; 8) (1 / 4) × (1 / 4) = 1 / 16 (4 + 8) / 2 = 6 (8 ; 1) (1 / 4) × (1 / 4) = 1 / 16 (8 + 1) / 2 = 4 ; 5 (8 ; 3) (1 / 4) × (1 / 4) = 1 / 16 (8 + 3) / 2 = 5 ; 5 (8 ; 4) (1 / 4) × (1 / 4) = 1 / 16 (8 + 4) / 2 = 6 (8 ; 8) (1 / 4) × (1 / 4) = 1 / 16 (8 + 8) / 2 = 8
Analisando esta tabela, podemos ver que os possíveis valores de X são 1; 2; 2,5; 3; 3,5; 4; 4,5; 5,5; 6; 8 e podemos construir a sua função de de probabilidade, notando, por exemplo, que o valor 2 pode ser obtido através de duas amostras: (1,3) ou (3,1). Como essas amostras correspondem a eventos mutuamente exclusivos, a probabilidade de se obter uma média amostral igual a 2 é
Com o mesmo raciocínio, obtemos a seguinte função de probabilidade para X :
x 1 2 2 ; 5 3 3 ; 5 4 4 ; 5 5 ; 5 6 8 P( X = x ) 1 / 16 2 / 16 2 / 16 1 / 16 2 / 16 1 / 16 2 / 16 2 / 16 2 / 16 1 / 16
Note que a variável aleatória de interesse aqui é X! Daí segue que
= 4 ; 0 = μ
2 ) = 12 ×
Var( X ) = 19 ; 25 − 42 = 3 ; 25 =
σ^2 2
σ^2 n
Neste exemplo podemos ver que E( X ) = μ e Var( X ) = σ^2 / 2 , onde 2 é o tamanho da amostra. Esses resultados estão nos dizendo que, em média (esperança), a estatística X é igual à média da população e que sua variância é igual à variância da população dividida pelo tamanho da amostra. Nas Figuras 1.
e 1.2 temos os gráficos da função de probabilidade de X (população) e de X (amostra), respectivamente. Podemos ver que a distribuição de X tem menor dispersão em torno da média μ = 4. Note que essa média e essa variância são calculadas ao longo de todas as possíveis amostras aleatórias simples de tamanho 2.
Figura 1.1 – Distribuição de probabilidade de X (população)
Figura 1.2 – Distribuição de probabilidade de X – ( n = 2)
Consideremos, agora, a mesma situação, só que, em vez de estudarmos a média amostral, uma medida de posição, vamos estudar a dispersão. Como visto, a variância populacional é Var( X ) = 6 ; 5. Para a amostra, vamos trabalhar com dois estimadores. Um deles será S^2 ; definido na Equação (1.2) e o outro,
σ ̂^2 =
n
∑^ n
i =
Xi − X
Da mesma forma que fizemos para a média amostral, vamos calcular o valor dessas estatísticas para cada uma das amostras. Na Tabela 1.2 temos os resultados parciais e globais de interesse.
Tabela 1.2 – Distribuição amostral de 2 estimadores da variância
Amostra x ( x 1 − x )^2 ( x 2 − x )^2
i =
( xi − x )^2 S^2 σ ̂^2
(1 ; 1) 1 (1 − 1)^2 (1 − 1)^2 0 0 (1 ; 3) 2 (1 − 2)^2 (3 − 2)^2 2 2 (1 ; 4) 2 ; 5 (1 − 2 ; 5)^2 (4 − 2 ; 5)^2 4 ; 5 4 ; 5 2 ; 25 (1 ; 8) 4 ; 5 (1 − 4 ; 5)^2 (8 − 4 ; 5)^2 24 ; 5 24 ; 5 12 ; 25 (3 ; 1) 2 (3 − 2)^2 (1 − 2)^2 2 2 (3 ; 3) 3 (3 − 3)^2 (3 − 3)^2 0 0 (3 ; 4) 3 ; 5 (3 − 3 ; 5)^2 (4 − 3 ; 5)^2 0 ; 5 0 ; 5 0 ; 25 (3 ; 8) 5 ; 5 (3 − 5 ; 5)^2 (8 − 5 ; 5)^2 12 ; 5 12 ; 5 6 ; 25 (4 ; 1) 2 ; 5 (4 − 2 ; 5)^2 (1 − 2 ; 5)^2 4 ; 5 4 ; 5 2 ; 25 (4 ; 3) 3 ; 5 (4 − 3 ; 5)^2 (3 − 3 ; 5)^2 0 ; 5 0 ; 5 0 ; 25 (4 ; 4) 4 (4 − 4)^2 (4 − 4)^2 0 0 (4 ; 8) 6 (4 − 6)^2 (8 − 6)^2 8 8 (8 ; 1) 4 ; 5 (8 − 4 ; 5)^2 (1 − 4 ; 5)^2 24 ; 5 24 ; 5 12 ; 25 (8 ; 3) 5 ; 5 (8 − 5 ; 5)^2 (3 − 5 ; 5)^2 12 ; 5 12 ; 5 6 ; 25 (8 ; 4) 6 (8 − 6)^2 (4 − 6)^2 8 8 (8 ; 8) 8 (8 − 8)^2 (8 − 8)^2 0 0
Podemos ver que a função de probabilidade de S^2 é
s^2 0 0 ; 5 2 4 ; 5 8 12 ; 5 24 ; 5 P( S^2 = s^2 ) 4 / 16 2 / 16 2 / 16 2 / 16 2 / 16 2 / 16 2 / 16
(a) (b)
(c) (d)
Figura 1.3 – Propriedades de estimadores
em torno do alvo, isto é, têm menor dispersão. Isso refletiria uma pontaria mais certeira do atirador em (b). Analogamente, nas partes (c) e (d), embora ambos os atiradores estejam com a mira deslocada, os tiros do atirador (d) estão mais concentrados em torno de um alvo; o deslocamento poderia até ser resultado de um desalinhamento da arma. Já o atirador (c), além de estar com o alvo deslocado, ele tem os tiros mais espalhados, o que reflete menor precisão.
- Nas partes (a) e (b), temos dois estimadores que fornecem estimativas centradas em torno do verdadeiro valor do parâmetro, ou seja, as diferentes amostras fornecem valores distribuídos em torno do verdadeiro valor do parâmetro. A diferença é que em (a) esses valores estão mais dispersos e, assim, temos mais chance de obter uma amostra “infeliz”, ou seja, uma amostra que forneça um resultado muito afastado do valor do parâmetro. Essas duas propriedades estão associadas à esperança e à variância do estimador, que são medidas de centro e dispersão, respectivamente. - Nas partes (c) e (d), as estimativas estão centradas em torno de um valor diferente do parâmetro de interesse e, na parte (c), a dispersão é maior.
Temos, assim, ilustrados os seguintes conceitos.
DEFINIÇÃO Viés de um estimador
Seja X 1 ; X 2 ; · · · ; Xn uma amostra aleatória simples de uma população X , cuja lei de probabilidade depende de um parâmetro θ. Se T é um estimador de θ , definimos seu viés ou vício como
B( T ) = E( T ) − θ (1.4) Se B( T ) = 0 então E( T ) = θ e dizemos que T é um estimador não-viesado de θ.
Como nos exemplos vistos, a esperança E( T ) é calculada ao longo de todas as possíveis amostras, ou seja, é a esperança da distribuição amostral de T. Nas partes (a) e (b) da Figura 1.3 os estimadores são não-viesados e nas partes (c) e (d), os estimadores são viesados.
Com relação aos estimadores X ; S^2 e ̂ σ^2 ; provaremos, no próximo capítulo, que os dois primeiros são não-viesados para estimar a média e a variância populacionais, respectivamente, enquanto ̂ σ^2 é viesado para estimar a variância populacional.
DEFINIÇÃO Eficiência de um estimador
Se T 1 e T 2 são dois estimadores não-viesados do parâmetro θ; diz-se que T 1 é mais eficiente que T 2 ; se Var( T 1 ) < Var( T 2 ) :
Na Figura 1.3, o estimador da parte (b) é mais eficiente que o estimador da parte (a).
É interessante observar que o conceito de eficiência, que envolve a variabilidade de um estimador, está associado a estimadores não-viesados. Para analisar estimadores viesados, podemos usar o erro quadrático médio, definido a seguir.
DEFINIÇÃO Erro quadrático médio
Seja X 1 ; X 2 ; · · · ; Xn uma amostra aleatória simples de uma população X , cuja lei de probabilidade depende de um parâmetro θ. Se T é um estimador de θ , definimos seu erro quadrático médio como
EQM( T ) = E ( T − θ )^2 (1.5)