Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad

Inferencia Estadística, Guías, Proyectos, Investigaciones de Estadística Matemática

Conceptos básico de inferencia estadística matemáticas y aplicaciones con R

Tipo: Guías, Proyectos, Investigaciones

2018/2019

Subido el 21/11/2019

jose-benito-hernandez-chaudary
jose-benito-hernandez-chaudary 🇲🇽

4.8

(8)

7 documentos

1 / 68

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
1
José Benito Hernández C.
Guía de Estadística con R
Tema 2
Inferencia Estadística
Las preguntas que trata de contestar la Estadística, corresponden a dos tipos. El primer tipo lo
constituyen aquellas que sólo tratan de obtener una descripción de un grupo de individuos que
están siendo observados. Los datos obtenidos de esos individuos son reducidos a ciertos coeficientes
como la media, desviación estándar, percentiles, etc., que sirven para describir a ese particular
grupo que ha sido observado, pero esos resultados no son utilizados para formalizar una teoría
general aplicable a otros individuos similares a los anteriores, y que no han sido observados.
El segundo tipo de problemas que conciernen a la Estadística es más amplio. En estos problemas
se trata de buscar conclusiones más generales. Se trata de inferir, partiendo de resultados particulares
obtenidos mediante la observación de un grupo, conclusiones generales válidas para un conjunto
más amplio, del cual el grupo observado es sólo una parte. Por eso, la parte de la Estadística que se
ocupa de estos problemas se conoce como Inferencia Estadística.
Un ejemplo ayudará a clarificar la diferencia,
2.1
Si queremos conocer el salario medio de los obreros de una industria, podemos proceder de 2
formas: observando el salario de todos y cada uno de los obreros de la industria, y calculando
a partir de los datos, la media de esos salarios. En en esta caso estamos simplemente descri-
biendo una característica de un grupo en el cual hemos observado todos sus componentes.
Pero podríamos solamente analizar una parte, no todos los obreros de la industria, y a partir
de los datos de ese grupo escogido según determinada técnica, inferir el salario medio para
toda la industria.
La forma de llegar a esas conclusiones generales es el campo de estudio de la Inferencia Estadística.
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f
pf30
pf31
pf32
pf33
pf34
pf35
pf36
pf37
pf38
pf39
pf3a
pf3b
pf3c
pf3d
pf3e
pf3f
pf40
pf41
pf42
pf43
pf44

Vista previa parcial del texto

¡Descarga Inferencia Estadística y más Guías, Proyectos, Investigaciones en PDF de Estadística Matemática solo en Docsity!

José Benito Hernández C.

Guía de Estadística con R

Tema 2

Inferencia Estadística

Las preguntas que trata de contestar la Estadística, corresponden a dos tipos. El primer tipo lo constituyen aquellas que sólo tratan de obtener una descripción de un grupo de individuos que están siendo observados. Los datos obtenidos de esos individuos son reducidos a ciertos coeficientes como la media, desviación estándar, percentiles, etc., que sirven para describir a ese particular grupo que ha sido observado, pero esos resultados no son utilizados para formalizar una teoría general aplicable a otros individuos similares a los anteriores, y que no han sido observados.

El segundo tipo de problemas que conciernen a la Estadística es más amplio. En estos problemas se trata de buscar conclusiones más generales. Se trata de inferir, partiendo de resultados particulares obtenidos mediante la observación de un grupo, conclusiones generales válidas para un conjunto más amplio, del cual el grupo observado es sólo una parte. Por eso, la parte de la Estadística que se ocupa de estos problemas se conoce como Inferencia Estadística.

Un ejemplo ayudará a clarificar la diferencia,

Si queremos conocer el salario medio de los obreros de una industria, podemos proceder de 2 formas: observando el salario de todos y cada uno de los obreros de la industria, y calculando a partir de los datos, la media de esos salarios. En en esta caso estamos simplemente descri- biendo una característica de un grupo en el cual hemos observado todos sus componentes. Pero podríamos solamente analizar una parte, no todos los obreros de la industria, y a partir de los datos de ese grupo escogido según determinada técnica, inferir el salario medio para toda la industria.

La forma de llegar a esas conclusiones generales es el campo de estudio de la Inferencia Estadística.

La estadística inferencial es una parte de la estadística que comprende los métodos y proce- dimientos que por medio de la inducción determina propiedades de una población estadística, a partir de una parte de esta. Su objetivo es obtener conclusiones útiles para hacer deducciones sobre una totalidad, basándose en la información numérica de la muestra.

En este capítulo estudiaremos las distribuciones de probabilidad de varios estadísticos muestra- les tales como la media muestral y la varianza muestral e ilustraremos su utilidad.

De Moivre (1667-1754) fue un matemático francés conocido por su trabajo en la teoría de la distribución normal y la probabilidad. Es famoso por la fórmula de De Moivre, que vincula los números complejos y la trigonometría. Huyó de Francia y fue a Inglaterra para escapar de la persecución de los protestantes. En Inglaterra escribió un libro sobre la teoría de la probabilidad, titulado “The Doctrine of Chances” (“La Doctrina de las Posibilidades”). Este libro fue muy popular entre los jugadores. La distribución normal fue introducida por primera vez por De Moivre en un artículo en 1733 en el contexto de la aproximación de ciertas distribuciones binomiales para n grandes, y este resultado de la aproximación ahora se llama teorema de De Moivre-Laplace.

2.1 Preliminares

Antes de entrar en materia de la Inferencia Estadística recordemos algunas definiciones de probabilidad así como variables aleatorias y sus distribuciones

Definición 2. Sea (Ω , F , P ) un espacio de probabilidad, una función

X : Ω → R ωX ( ω )

es una variable aleatoria real o simplemente una variable aleatoria si para cualquier inter- valo I ⊆ R, el conjunto X −^1 ( I ) = [ XI ] = { ω ∈ Ω : X ( ω ) ∈ I } ∈ F , es decir, es un evento.

Definición 2. Sea (Ω , F , P ) un espacio de probabilidad, X : Ω → R una variable aleatoria. Llamaremos rango de X al conjunto de valores que ella toma, es decir,

R ( X ) = { x ∈ R : existe ω ∈ Ω tal que X ( ω ) = x } (2.1)

Si el rango de X es finito o numerable, diremos que la variable aleatoria es discreta.

Definición 2. Sea (Ω , F , P ) un espacio de probabilidad, X : Ω → R una variable aleatoria. Si x ∈ R (no necesariamente en el rango de X ), el conjunto

[ Xx ] = { ω ∈ Ω : X ( ω ) ≤ x } = X −^1 (−∞ , x ] (2.2)

Definición 2. Si X es una variable aleatoria discreta, definimos la varianza de X como la esperanza de ( X − E( X ))^2 (si existe), denotamos esta cantidad como

V ( X ) = E(( X − E( X ))^2 ) =

xR ( X )

( x − E( X ))^2_._ (2.7)

Si X tiene función de densidad f definimos la varianza de X como

V ( X ) = E( X − E( X ))^2 =

−∞

( x − E( x ))^2 f ( x ) dx (2.8)

2.1.1 Variables Aleatorias Discretas

Definición 2. Sea (Ω , F , P ) un espacio de probabilidad, X : Ω → R una variable aleatoria. Diremos que X es una Variable Aleatoria Discreta si su rango es finito o numerable. Esto equivale a pedir que exista un conjunto finito o numerable de valores { xn } tal que

n

P ([ X = xn ]) = 1_._ (2.9)

Distribución Binomial. La distribución de una variable aleatoria binomial de parámetros n y p está dada por

GB ( k ; n, p ) = P ([ X = k ]) =

n k

pk^ (1 − p ) nk^ , k = 0 , 1 , 2 ,... , n (2.10)

La media (o valor esperado) y varianza vienen dadas por E( X ) = np y V ( X ) = np (1 − p ) = npq con q = 1 − p. Instrucciones en R

Distribución binomial

n= dbin <-matrix(c(dbinom(c(1:n),n,0.2) , dbinom(c(1:n),n,0.5) , dbinom(c(1:n),n,0.75) , dbinom(c(1:n),n,0.9)) , nrow=n,ncol =4)

Distribución de probabilidad binomial (acumulada)

pbin <-matrix(c(pbinom(c(1:n),n,0.2) , pbinom(c(1:n),n,0.5) , pbinom(c(1:n),n,0.75) , pbinom(c(1:n),n,0.9)) , nrow=n,ncol =4)

Gráfico de la distribución binomial

plot(dbin[,1],type="p",xlab="Valores de x",ylab = "Prob.",

2.1 Preliminares 5

pch=19,col="blue") lines(dbin[,2],type="p",pch=19,col="red") lines(dbin[,3],type="p",pch=19,col="green") lines(dbin[,4],type="p",pch=19,col="orange") legend("bottomright",c("p=0.n","p=0.50","p=0.75","p=0.90"), cex =0.8,lty =1:1,col=c("blue","red","green","orange"))

Gráfico de la distribución binomial acumulada

plot(pbin[,1],type="p",xlab="Valores de x",ylab = "Prob.", pch=19,col="blue") lines(pbin[,2],type="p",pch=19,col="red") lines(pbin[,3],type="p",pch=19,col="green") lines(pbin[,4],type="p",pch=19,col="orange") legend("topleft",c("p=0.20","p=0.50","p=0.75","p=0.90"), cex =0.8,lty =1:1,col=c("blue","red","green","orange"))

Figura 2.1: Función de probabilidad binomial (superior) y función de distribución binomial (inferior) para distintos valores de p y tamaño de muestra n = 30.

2.1 Preliminares 7

Figura 2.2: Función de probabilidad geométrica (superior) y función de distribución geométrica (inferior) para distintos valores de p y tamaño de muestra n = 30.

Distribución Hipergeométrica. Si realizamos un muestreo al azar, de tamaño k , sin reemplazo, elegidos en una población que contiene n objetos, de los cuales r son del tipo I (por ejemplo, defectuosos) y nr son del tipo II (por ejemplo, en buen estado), la variable aleatoria X el ”número de objetos tipo I en la muestra”, tiene la siguiente función de probabilidad

P ( X = j ) =

r j

nr kj

n k

con j = 0 , 1 , 2 ,... , m´ın( k, r ), la media y la varianza están dadas por E( X ) = krn y V ( X ) = k

( (^) r n

) ( (^) nr n

) ( (^) nk n − 1

Instrucciones en R

Distribución Hipergeométrica

Matriz para la función de distribución

dhyp=matrix(numeric (60), nrow = 20,ncol = 3)

Matriz para la función de distribución acumulada

phyp=matrix(numeric (60), nrow = 20,ncol = 3) N=100 # tamaño de la población

Llenado de las matrices

r=20;k=10 # Tamaño de la primera muestra for(j in 1:20){ dhyp[j ,1]= dhyper(j,r,N-r,k) phyp[j ,1]= phyper(j,r,N-r,k) } r=30;k=15 # Tamaño de la segunda muestra for(j in 1:20){ dhyp[j ,2]= dhyper(j,r,N-r,k) phyp[j ,2]= phyper(j,r,N-r,k) } r=40;k=20 # Tamaño de la tercera muestra for(j in 1:20){ dhyp[j ,3]= dhyper(j,r,N-r,k) phyp[j ,3]= phyper(j,r,N-r,k) }

Gráfico de la distribución hipergeométrica

plot(dhyp[,1],type="p",xlab = "Valores de X",ylab = "Prob", pch=19,col="blue") lines(dhyp[,2],type="p",pch=19,col="red") lines(dhyp[,3],type="p",pch=19,col="green") legend("topright",c("r=20,k=10","r=30,k=15","r=40,k=20"), cex=0.8,lty =1:1,col=c("blue","red","green"))

Gráfico de la distribución acumulada

plot(phyp[,1],type="p",xlab = "Valores de X",ylab = "Prob", pch=19,col="blue") lines(phyp[,2],type="p",pch=19,col="red") lines(phyp[,3],type="p",pch=19,col="green") legend("topright",c("r=20,k=10","r=30,k=15","r=40,k=20"), cex=0.8,lty =1:1,col=c("blue","red","green"))

lines(dpoi[,2],type="p",pch=19,col="red") lines(dpoi[,3],type="p",pch=19,col="green") lines(dpoi[,4],type="p",pch=19,col="orange") legend("topright", c("lambda =0.5","lambda =1","lambda =2","lambda =5"), cex =0.8,lty =1:1,col=c("blue","red","green","orange"))

Gráfico de la distribución acumulada

plot(ppoi[,1],type = "p",xlab = "Valores de X",ylab = "Prob", pch=19,col="blue") lines(ppoi[,2],type="p",pch=19,col="red") lines(ppoi[,3],type="p",pch=19,col="green") lines(ppoi[,4],type="p",pch=19,col="orange") legend("bottomright", c("lambda =0.5","lambda =1","lambda =2","lambda =5"), cex =0.8,lty =1:1,col=c("blue","red","green","orange"))

Figura 2.4: Función de probabilidad Poisson (superior) y función de distribución Poisson (inferior) para distintos valores de λ y tamaño poblacional n = 20.

2.1 Preliminares 11

2.1.2 Variables Aleatorias Continuas

Definición 2. Diremos que una variable aleatoria X es continua, si su función de distribución

F ( x ) = P ([ Xx ])

es continua, lo cual equivale a decir que todos sus saltos son nulos, esto es

P ([ X = x ]) = 0 , x ∈ R

Distribución Uniforme. Sea X una variable aleatoria, decimos que X tiene distribución Uniforme si su función de densidad f es

f ( x ) =

0 , si x < a 1 ba ,^ si^ a^ ≤^ x^ ≤^ b 0 , si x > b

El valor esperado y varianza están dadas por E( X ) = a + 2 b y V ( X ) = ( ba )

2 12 Instrucciones en R

x.uni=seq ( -2 ,2 ,0.01)

Función de densidad

duni=dunif(x.uni ,-1,1)

Función de distribución acumulada

puni=punif(x.uni ,-1,1)

Gráfico de la densidad

plot(x.uni ,duni ,type="l",col="blue",xlab="x",ylab="f(x)")

Gráfico de la función de distribución acumulada

plot(x.uni ,puni ,type="l",col="blue",xlab="x",ylab="F(x)")

Figura 2.5: Función de densidad uniforme (izquierda) y función de distribución uniforme (derecha) en el intervalo [− 2 , 2].

2.1 Preliminares 13

Figura 2.6: Función de densidad exponencial (superior) y función de distribución exponencial (inferior) para distintos valores de λ.

Distribución Normal. Sea X una variable aleatoria continua, decimos que X tiene distribución normal o distribución Gaussiana de parámetros μ y σ , si su función de densidad es de la forma

f ( x ) = Fn ( x ; μ, σ ) = (^) √^1 2 πσ

e −^

( xμ )^2 2 σ^2 , x ∈ R_._ (2.16)

La media y la varianza están dadas por E( X ) = μ y V ( X ) = σ^2.

Instrucciones en R

x.nor <-seq ( -5 ,5 ,0.01)

Función de densidad

dnor=matrix(c(dnorm(x.nor ,0,1), dnorm(x.nor ,0,2), dnorm(x.nor ,0,3)), nrow = length(x.nor),ncol = 3) plot(x.nor ,dnor[,1],type="l",col="blue", xlab = "Valores de x",ylab = "f(x)") lines(x.nor ,dnor[,2],col="red") lines(x.nor ,dnor[,3],col="green")

legend("topright", c("mu=0,sigma =1","mu=0,sigma =2","mu=0,sigma =3"), cex =0.8,lty =1:1,col=c("blue","red","green"))

Función de distribución acumulada

pnor=matrix(c(pnorm(x.nor ,0,1), pnorm(x.nor ,0,2), pnorm(x.nor ,0,3)), nrow = length(x.nor),ncol = 3) plot(x.nor ,pnor[,1],type="l",col="blue", xlab = "Valores de x",ylab = "F(x)") lines(x.nor ,pnor[,2],col="red") lines(x.nor ,pnor[,3],col="green") legend("bottomright", c("mu=0,sigma =1","mu=0,sigma =2","mu=0,sigma =3"), cex =0.8,lty =1:1,col=c("blue","red","green"))

Figura 2.7: Función de densidad gaussiana (superior) y función de distribución gaussiana (inferior) para μ = 0 y distintos valores de σ.

Figura 2.8: Función de densidad Gamma (superior) y función de distribución Gamma (inferior) para α = 2 y distintos valores de β.

Distribución Beta. Diremos que una variable aleatoria X tiene distribución Beta de parámetros q > 0 , p > 0 si su función de densidad viene dada por

fB ( x ; p, q ) =

β ( p, q ) x

p − (^1) (1 − x ) q − (^1) , 0 ≤ x ≤ 1 , (2.20)

donde β ( p, q ) es la función Beta , definida por

β ( p, q ) =

0

tp −^1 (1 − t ) q −^1 dt =

Γ ( p )Γ ( q ) Γ ( p + q )

La media y la varianza son E( X ) = (^) pp + q y V ( X ) = (^) ( p + q +1)( p + qp + q ) 2.

2.1 Preliminares 17

Instrucciones en R

x.bet <-seq (0 ,1 ,0.01)

Función de densidad

dbet=matrix(c(dbeta(x.bet ,2,2), dbeta(x.bet ,2,3), dbeta(x.bet ,2,4)), nrow = length(x.bet),ncol = 3) plot(x.bet ,dbet[,1],type="l",col="blue", xlab = "Valores de x",ylab = "f(x)",ylim = c(0 ,2.2)) lines(x.bet ,dbet[,2],col="red") lines(x.bet ,dbet[,3],col="green") legend("topright", c("p=2,q=2","p=2,q=3","p=2,q=4"), lty=1:1, cex =0.8,col=c("blue","red","green"))

Función de distribución acumulada

pbet=matrix(c(pbeta(x.bet ,2,2), pbeta(x.bet ,2,3), pbeta(x.bet ,2,4)), nrow = length(x.bet),ncol = 3) plot(x.bet ,pbet[,1],type="l",col="blue", xlab = "Valores de x",ylab = "F(x)") lines(x.bet ,pbet[,2],col="red") lines(x.bet ,pbet[,3],col="green") legend("bottomright", c("p=2,q=2","p=2,q=3","p=2,q=4"), lty=1:1, cex =0.8,col=c("blue","red","green"))

Figura 2.9: Función de densidad Beta para distintos valores de p y q.

2.1 Preliminares 19

pchi=matrix(c(pchisq(x.chi ,5), pchisq(x.chi ,10), pchisq(x.chi ,15)) , nrow = length(x.chi),ncol = 3) plot(x.chi ,pchi[,1],type="l",col="blue", xlab = "Valores de x",ylab = "F(x)") lines(x.chi ,pchi[,2],col="red") lines(x.chi ,pchi[,3],col="green") legend("bottomright", c("g.l=5","g.l=10","g.l=15"), lty=1:1, cex =0.8,col=c("blue","red","green"))

Figura 2.11: Función de densidad Chi-cuadrado (superior) y función de distribución Chi-cuadrado (inferior) para distintos grados de libertad.

Distribución t -de Student. Sea X una variable aleatoria distribuida normalmente con media μ y varianza σ^2. Sea χ^2 una variable aleatoria con distribución chi-cuadrado con n grados de libertad independiente de X. Entonces la variable aleatoria Tn definida por

Tn =

( Xμ ) χ^2 /n

se dice que tiene distribución t-de Student con n grados de libertad cuya función de densidad está dada por

fS ( t ) =

Γ ( n +1 2 ) √ Γ ( n 2 )

1 + t n^2

) n +1 2^ ,^ t^ ∈^ R_._^ (2.25)

La esperanza y varianza de una variable aleatoria T con distribución t -de Student con n grados de libertad es E( T ) = 0, si n > 1 y V ( T ) = (^) nn 2 si n > 2.

Instrucciones en R

x.tst <-seq ( -5 ,5 ,0.01)

Función de densidad

dtst <-matrix(c(dt(x.tst ,2),dt(x.tst ,10),dt(x.tst ,100)) , nrow=length(x.tst),ncol = 3)

Gráficos de las densidades

plot(x.tst ,dtst[,1],type = "l", xlab = "Valores de x", ylab = "f(x)",col="blue",ylim = c(0 ,0.5)) lines(x.tst ,dtst[,2],col="red") lines(x.tst ,dtst[,3],col="green") legend("topright", c("g.l=2","g.l=10","g.l=100"), lty=1:1, cex =0.8,col=c("blue","red","green"))

Función de distribucion acumulada

ptst <-matrix(c(pt(x.tst ,2),pt(x.tst ,10),pt(x.tst ,100)) , nrow=length(x.tst),ncol = 3)

Gráficos de las distribuciones acumuladas

plot(x.tst ,ptst[,1],type = "l", xlab = "Valores de x", ylab = "f(x)",col="blue") lines(x.tst ,ptst[,2],col="red") lines(x.tst ,ptst[,3],col="green") legend("bottomright", c("g.l=2","g.l=10","g.l=100"), lty=1:1, cex =0.8,col=c("blue","red","green"))