




























































Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Prepara tus exámenes
Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Prepara tus exámenes con los documentos que comparten otros estudiantes como tú en Docsity
Los mejores documentos en venta realizados por estudiantes que han terminado sus estudios
Estudia con lecciones y exámenes resueltos basados en los programas académicos de las mejores universidades
Responde a preguntas de exámenes reales y pon a prueba tu preparación
Consigue puntos base para descargar
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Comunidad
Pide ayuda a la comunidad y resuelve tus dudas de estudio
Descubre las mejores universidades de tu país según los usuarios de Docsity
Ebooks gratuitos
Descarga nuestras guías gratuitas sobre técnicas de estudio, métodos para controlar la ansiedad y consejos para la tesis preparadas por los tutores de Docsity
Conceptos básico de inferencia estadística matemáticas y aplicaciones con R
Tipo: Guías, Proyectos, Investigaciones
1 / 68
Esta página no es visible en la vista previa
¡No te pierdas las partes importantes!
Las preguntas que trata de contestar la Estadística, corresponden a dos tipos. El primer tipo lo constituyen aquellas que sólo tratan de obtener una descripción de un grupo de individuos que están siendo observados. Los datos obtenidos de esos individuos son reducidos a ciertos coeficientes como la media, desviación estándar, percentiles, etc., que sirven para describir a ese particular grupo que ha sido observado, pero esos resultados no son utilizados para formalizar una teoría general aplicable a otros individuos similares a los anteriores, y que no han sido observados.
El segundo tipo de problemas que conciernen a la Estadística es más amplio. En estos problemas se trata de buscar conclusiones más generales. Se trata de inferir, partiendo de resultados particulares obtenidos mediante la observación de un grupo, conclusiones generales válidas para un conjunto más amplio, del cual el grupo observado es sólo una parte. Por eso, la parte de la Estadística que se ocupa de estos problemas se conoce como Inferencia Estadística.
Un ejemplo ayudará a clarificar la diferencia,
Si queremos conocer el salario medio de los obreros de una industria, podemos proceder de 2 formas: observando el salario de todos y cada uno de los obreros de la industria, y calculando a partir de los datos, la media de esos salarios. En en esta caso estamos simplemente descri- biendo una característica de un grupo en el cual hemos observado todos sus componentes. Pero podríamos solamente analizar una parte, no todos los obreros de la industria, y a partir de los datos de ese grupo escogido según determinada técnica, inferir el salario medio para toda la industria.
La forma de llegar a esas conclusiones generales es el campo de estudio de la Inferencia Estadística.
La estadística inferencial es una parte de la estadística que comprende los métodos y proce- dimientos que por medio de la inducción determina propiedades de una población estadística, a partir de una parte de esta. Su objetivo es obtener conclusiones útiles para hacer deducciones sobre una totalidad, basándose en la información numérica de la muestra.
En este capítulo estudiaremos las distribuciones de probabilidad de varios estadísticos muestra- les tales como la media muestral y la varianza muestral e ilustraremos su utilidad.
De Moivre (1667-1754) fue un matemático francés conocido por su trabajo en la teoría de la distribución normal y la probabilidad. Es famoso por la fórmula de De Moivre, que vincula los números complejos y la trigonometría. Huyó de Francia y fue a Inglaterra para escapar de la persecución de los protestantes. En Inglaterra escribió un libro sobre la teoría de la probabilidad, titulado “The Doctrine of Chances” (“La Doctrina de las Posibilidades”). Este libro fue muy popular entre los jugadores. La distribución normal fue introducida por primera vez por De Moivre en un artículo en 1733 en el contexto de la aproximación de ciertas distribuciones binomiales para n grandes, y este resultado de la aproximación ahora se llama teorema de De Moivre-Laplace.
Antes de entrar en materia de la Inferencia Estadística recordemos algunas definiciones de probabilidad así como variables aleatorias y sus distribuciones
Definición 2. Sea (Ω , F , P ) un espacio de probabilidad, una función
X : Ω → R ω → X ( ω )
es una variable aleatoria real o simplemente una variable aleatoria si para cualquier inter- valo I ⊆ R, el conjunto X −^1 ( I ) = [ X ∈ I ] = { ω ∈ Ω : X ( ω ) ∈ I } ∈ F , es decir, es un evento.
Definición 2. Sea (Ω , F , P ) un espacio de probabilidad, X : Ω → R una variable aleatoria. Llamaremos rango de X al conjunto de valores que ella toma, es decir,
R ( X ) = { x ∈ R : existe ω ∈ Ω tal que X ( ω ) = x } (2.1)
Si el rango de X es finito o numerable, diremos que la variable aleatoria es discreta.
Definición 2. Sea (Ω , F , P ) un espacio de probabilidad, X : Ω → R una variable aleatoria. Si x ∈ R (no necesariamente en el rango de X ), el conjunto
[ X ≤ x ] = { ω ∈ Ω : X ( ω ) ≤ x } = X −^1 (−∞ , x ] (2.2)
Definición 2. Si X es una variable aleatoria discreta, definimos la varianza de X como la esperanza de ( X − E( X ))^2 (si existe), denotamos esta cantidad como
x ∈ R ( X )
( x − E( X ))^2_._ (2.7)
Si X tiene función de densidad f definimos la varianza de X como
−∞
( x − E( x ))^2 f ( x ) dx (2.8)
2.1.1 Variables Aleatorias Discretas
Definición 2. Sea (Ω , F , P ) un espacio de probabilidad, X : Ω → R una variable aleatoria. Diremos que X es una Variable Aleatoria Discreta si su rango es finito o numerable. Esto equivale a pedir que exista un conjunto finito o numerable de valores { xn } tal que
∑
n
P ([ X = xn ]) = 1_._ (2.9)
Distribución Binomial. La distribución de una variable aleatoria binomial de parámetros n y p está dada por
GB ( k ; n, p ) = P ([ X = k ]) =
n k
pk^ (1 − p ) n − k^ , k = 0 , 1 , 2 ,... , n (2.10)
La media (o valor esperado) y varianza vienen dadas por E( X ) = np y V ( X ) = np (1 − p ) = npq con q = 1 − p. Instrucciones en R
n= dbin <-matrix(c(dbinom(c(1:n),n,0.2) , dbinom(c(1:n),n,0.5) , dbinom(c(1:n),n,0.75) , dbinom(c(1:n),n,0.9)) , nrow=n,ncol =4)
pbin <-matrix(c(pbinom(c(1:n),n,0.2) , pbinom(c(1:n),n,0.5) , pbinom(c(1:n),n,0.75) , pbinom(c(1:n),n,0.9)) , nrow=n,ncol =4)
plot(dbin[,1],type="p",xlab="Valores de x",ylab = "Prob.",
2.1 Preliminares 5
pch=19,col="blue") lines(dbin[,2],type="p",pch=19,col="red") lines(dbin[,3],type="p",pch=19,col="green") lines(dbin[,4],type="p",pch=19,col="orange") legend("bottomright",c("p=0.n","p=0.50","p=0.75","p=0.90"), cex =0.8,lty =1:1,col=c("blue","red","green","orange"))
plot(pbin[,1],type="p",xlab="Valores de x",ylab = "Prob.", pch=19,col="blue") lines(pbin[,2],type="p",pch=19,col="red") lines(pbin[,3],type="p",pch=19,col="green") lines(pbin[,4],type="p",pch=19,col="orange") legend("topleft",c("p=0.20","p=0.50","p=0.75","p=0.90"), cex =0.8,lty =1:1,col=c("blue","red","green","orange"))
Figura 2.1: Función de probabilidad binomial (superior) y función de distribución binomial (inferior) para distintos valores de p y tamaño de muestra n = 30.
2.1 Preliminares 7
Figura 2.2: Función de probabilidad geométrica (superior) y función de distribución geométrica (inferior) para distintos valores de p y tamaño de muestra n = 30.
Distribución Hipergeométrica. Si realizamos un muestreo al azar, de tamaño k , sin reemplazo, elegidos en una población que contiene n objetos, de los cuales r son del tipo I (por ejemplo, defectuosos) y n − r son del tipo II (por ejemplo, en buen estado), la variable aleatoria X el ”número de objetos tipo I en la muestra”, tiene la siguiente función de probabilidad
P ( X = j ) =
r j
n − r k − j
n k
con j = 0 , 1 , 2 ,... , m´ın( k, r ), la media y la varianza están dadas por E( X ) = krn y V ( X ) = k
( (^) r n
) ( (^) n − r n
) ( (^) n − k n − 1
Instrucciones en R
dhyp=matrix(numeric (60), nrow = 20,ncol = 3)
phyp=matrix(numeric (60), nrow = 20,ncol = 3) N=100 # tamaño de la población
r=20;k=10 # Tamaño de la primera muestra for(j in 1:20){ dhyp[j ,1]= dhyper(j,r,N-r,k) phyp[j ,1]= phyper(j,r,N-r,k) } r=30;k=15 # Tamaño de la segunda muestra for(j in 1:20){ dhyp[j ,2]= dhyper(j,r,N-r,k) phyp[j ,2]= phyper(j,r,N-r,k) } r=40;k=20 # Tamaño de la tercera muestra for(j in 1:20){ dhyp[j ,3]= dhyper(j,r,N-r,k) phyp[j ,3]= phyper(j,r,N-r,k) }
plot(dhyp[,1],type="p",xlab = "Valores de X",ylab = "Prob", pch=19,col="blue") lines(dhyp[,2],type="p",pch=19,col="red") lines(dhyp[,3],type="p",pch=19,col="green") legend("topright",c("r=20,k=10","r=30,k=15","r=40,k=20"), cex=0.8,lty =1:1,col=c("blue","red","green"))
plot(phyp[,1],type="p",xlab = "Valores de X",ylab = "Prob", pch=19,col="blue") lines(phyp[,2],type="p",pch=19,col="red") lines(phyp[,3],type="p",pch=19,col="green") legend("topright",c("r=20,k=10","r=30,k=15","r=40,k=20"), cex=0.8,lty =1:1,col=c("blue","red","green"))
lines(dpoi[,2],type="p",pch=19,col="red") lines(dpoi[,3],type="p",pch=19,col="green") lines(dpoi[,4],type="p",pch=19,col="orange") legend("topright", c("lambda =0.5","lambda =1","lambda =2","lambda =5"), cex =0.8,lty =1:1,col=c("blue","red","green","orange"))
plot(ppoi[,1],type = "p",xlab = "Valores de X",ylab = "Prob", pch=19,col="blue") lines(ppoi[,2],type="p",pch=19,col="red") lines(ppoi[,3],type="p",pch=19,col="green") lines(ppoi[,4],type="p",pch=19,col="orange") legend("bottomright", c("lambda =0.5","lambda =1","lambda =2","lambda =5"), cex =0.8,lty =1:1,col=c("blue","red","green","orange"))
Figura 2.4: Función de probabilidad Poisson (superior) y función de distribución Poisson (inferior) para distintos valores de λ y tamaño poblacional n = 20.
2.1 Preliminares 11
2.1.2 Variables Aleatorias Continuas
Definición 2. Diremos que una variable aleatoria X es continua, si su función de distribución
F ( x ) = P ([ X ≤ x ])
es continua, lo cual equivale a decir que todos sus saltos son nulos, esto es
P ([ X = x ]) = 0 , x ∈ R
Distribución Uniforme. Sea X una variable aleatoria, decimos que X tiene distribución Uniforme si su función de densidad f es
f ( x ) =
0 , si x < a 1 b − a ,^ si^ a^ ≤^ x^ ≤^ b 0 , si x > b
El valor esperado y varianza están dadas por E( X ) = a + 2 b y V ( X ) = ( b − a )
2 12 Instrucciones en R
x.uni=seq ( -2 ,2 ,0.01)
duni=dunif(x.uni ,-1,1)
puni=punif(x.uni ,-1,1)
plot(x.uni ,duni ,type="l",col="blue",xlab="x",ylab="f(x)")
plot(x.uni ,puni ,type="l",col="blue",xlab="x",ylab="F(x)")
Figura 2.5: Función de densidad uniforme (izquierda) y función de distribución uniforme (derecha) en el intervalo [− 2 , 2].
2.1 Preliminares 13
Figura 2.6: Función de densidad exponencial (superior) y función de distribución exponencial (inferior) para distintos valores de λ.
Distribución Normal. Sea X una variable aleatoria continua, decimos que X tiene distribución normal o distribución Gaussiana de parámetros μ y σ , si su función de densidad es de la forma
f ( x ) = Fn ( x ; μ, σ ) = (^) √^1 2 πσ
e −^
( x − μ )^2 2 σ^2 , x ∈ R_._ (2.16)
La media y la varianza están dadas por E( X ) = μ y V ( X ) = σ^2.
Instrucciones en R
x.nor <-seq ( -5 ,5 ,0.01)
dnor=matrix(c(dnorm(x.nor ,0,1), dnorm(x.nor ,0,2), dnorm(x.nor ,0,3)), nrow = length(x.nor),ncol = 3) plot(x.nor ,dnor[,1],type="l",col="blue", xlab = "Valores de x",ylab = "f(x)") lines(x.nor ,dnor[,2],col="red") lines(x.nor ,dnor[,3],col="green")
legend("topright", c("mu=0,sigma =1","mu=0,sigma =2","mu=0,sigma =3"), cex =0.8,lty =1:1,col=c("blue","red","green"))
pnor=matrix(c(pnorm(x.nor ,0,1), pnorm(x.nor ,0,2), pnorm(x.nor ,0,3)), nrow = length(x.nor),ncol = 3) plot(x.nor ,pnor[,1],type="l",col="blue", xlab = "Valores de x",ylab = "F(x)") lines(x.nor ,pnor[,2],col="red") lines(x.nor ,pnor[,3],col="green") legend("bottomright", c("mu=0,sigma =1","mu=0,sigma =2","mu=0,sigma =3"), cex =0.8,lty =1:1,col=c("blue","red","green"))
Figura 2.7: Función de densidad gaussiana (superior) y función de distribución gaussiana (inferior) para μ = 0 y distintos valores de σ.
Figura 2.8: Función de densidad Gamma (superior) y función de distribución Gamma (inferior) para α = 2 y distintos valores de β.
Distribución Beta. Diremos que una variable aleatoria X tiene distribución Beta de parámetros q > 0 , p > 0 si su función de densidad viene dada por
fB ( x ; p, q ) =
β ( p, q ) x
p − (^1) (1 − x ) q − (^1) , 0 ≤ x ≤ 1 , (2.20)
donde β ( p, q ) es la función Beta , definida por
β ( p, q ) =
0
tp −^1 (1 − t ) q −^1 dt =
Γ ( p )Γ ( q ) Γ ( p + q )
La media y la varianza son E( X ) = (^) pp + q y V ( X ) = (^) ( p + q +1)( p + qp + q ) 2.
2.1 Preliminares 17
Instrucciones en R
x.bet <-seq (0 ,1 ,0.01)
dbet=matrix(c(dbeta(x.bet ,2,2), dbeta(x.bet ,2,3), dbeta(x.bet ,2,4)), nrow = length(x.bet),ncol = 3) plot(x.bet ,dbet[,1],type="l",col="blue", xlab = "Valores de x",ylab = "f(x)",ylim = c(0 ,2.2)) lines(x.bet ,dbet[,2],col="red") lines(x.bet ,dbet[,3],col="green") legend("topright", c("p=2,q=2","p=2,q=3","p=2,q=4"), lty=1:1, cex =0.8,col=c("blue","red","green"))
pbet=matrix(c(pbeta(x.bet ,2,2), pbeta(x.bet ,2,3), pbeta(x.bet ,2,4)), nrow = length(x.bet),ncol = 3) plot(x.bet ,pbet[,1],type="l",col="blue", xlab = "Valores de x",ylab = "F(x)") lines(x.bet ,pbet[,2],col="red") lines(x.bet ,pbet[,3],col="green") legend("bottomright", c("p=2,q=2","p=2,q=3","p=2,q=4"), lty=1:1, cex =0.8,col=c("blue","red","green"))
Figura 2.9: Función de densidad Beta para distintos valores de p y q.
2.1 Preliminares 19
pchi=matrix(c(pchisq(x.chi ,5), pchisq(x.chi ,10), pchisq(x.chi ,15)) , nrow = length(x.chi),ncol = 3) plot(x.chi ,pchi[,1],type="l",col="blue", xlab = "Valores de x",ylab = "F(x)") lines(x.chi ,pchi[,2],col="red") lines(x.chi ,pchi[,3],col="green") legend("bottomright", c("g.l=5","g.l=10","g.l=15"), lty=1:1, cex =0.8,col=c("blue","red","green"))
Figura 2.11: Función de densidad Chi-cuadrado (superior) y función de distribución Chi-cuadrado (inferior) para distintos grados de libertad.
Distribución t -de Student. Sea X una variable aleatoria distribuida normalmente con media μ y varianza σ^2. Sea χ^2 una variable aleatoria con distribución chi-cuadrado con n grados de libertad independiente de X. Entonces la variable aleatoria Tn definida por
Tn =
( X − μ ) /σ √ χ^2 /n
se dice que tiene distribución t-de Student con n grados de libertad cuya función de densidad está dada por
fS ( t ) =
Γ ( n +1 2 ) √ nπ Γ ( n 2 )
1 + t n^2
) n +1 2^ ,^ t^ ∈^ R_._^ (2.25)
La esperanza y varianza de una variable aleatoria T con distribución t -de Student con n grados de libertad es E( T ) = 0, si n > 1 y V ( T ) = (^) n − n 2 si n > 2.
Instrucciones en R
x.tst <-seq ( -5 ,5 ,0.01)
dtst <-matrix(c(dt(x.tst ,2),dt(x.tst ,10),dt(x.tst ,100)) , nrow=length(x.tst),ncol = 3)
plot(x.tst ,dtst[,1],type = "l", xlab = "Valores de x", ylab = "f(x)",col="blue",ylim = c(0 ,0.5)) lines(x.tst ,dtst[,2],col="red") lines(x.tst ,dtst[,3],col="green") legend("topright", c("g.l=2","g.l=10","g.l=100"), lty=1:1, cex =0.8,col=c("blue","red","green"))
ptst <-matrix(c(pt(x.tst ,2),pt(x.tst ,10),pt(x.tst ,100)) , nrow=length(x.tst),ncol = 3)
plot(x.tst ,ptst[,1],type = "l", xlab = "Valores de x", ylab = "f(x)",col="blue") lines(x.tst ,ptst[,2],col="red") lines(x.tst ,ptst[,3],col="green") legend("bottomright", c("g.l=2","g.l=10","g.l=100"), lty=1:1, cex =0.8,col=c("blue","red","green"))