






















Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Prepara tus exámenes
Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Prepara tus exámenes con los documentos que comparten otros estudiantes como tú en Docsity
Los mejores documentos en venta realizados por estudiantes que han terminado sus estudios
Estudia con lecciones y exámenes resueltos basados en los programas académicos de las mejores universidades
Responde a preguntas de exámenes reales y pon a prueba tu preparación
Consigue puntos base para descargar
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Comunidad
Pide ayuda a la comunidad y resuelve tus dudas de estudio
Descubre las mejores universidades de tu país según los usuarios de Docsity
Ebooks gratuitos
Descarga nuestras guías gratuitas sobre técnicas de estudio, métodos para controlar la ansiedad y consejos para la tesis preparadas por los tutores de Docsity
Conceptos y ejemplos de intervalos de confianza con aplicaciones en R
Tipo: Guías, Proyectos, Investigaciones
1 / 30
Esta página no es visible en la vista previa
¡No te pierdas las partes importantes!
3.1 Introducción 1
En el tema anterior se trató de la estimación puntual de los parámetros, en este tema veremos la
estimación por intervalos. La idea de la estimación por intervalos es complementar la estimación
puntual, de manera de tener alguna idea sobre la precisión de los estimadores puntuales usados.
Como ya vimos, un buen estimador puntual es aquel cuyo valor está cercano al valor del parámetro
que se desea estimar. Recuerde que los estimadores son estadísticos muestrales, y por lo tanto son
variables aleatorias.
Al tomar una muestra de una población, el valor del estimador obtenido a través de esa muestra,
es un número; pero la muestra concreta que se ha obtenido, es una de las muchas posibles muestras
que se podrían haber obtenido. Si obtenemos otra muestra, y estimamos el valor del parámetro a
partir esa nueva muestra, el valor estimado posiblemente sea un poco distinto; en consecuencia, no
podemos ser tan optimistas como para pensar que el valor estimado a partir de una cierta muestra,
es exactamente igual al valor real del parámetro de la población. Por lo tanto necesitamos una cierta
medida del error que se comete al usar un estimador puntual del parámetro.
Ahora, discutiremos otro tipo de estimación, llamada estimación por intervalo. Aunque los
estimadores puntuales son útiles, los estimadores por intervalos proporcionan más información
sobre los datos de lo que se utilizan para obtener la estimación puntual. El propósito de usar una
estimación por intervalos es tener cierto grado de confianza para asegurar el parámetro verdadero.
Para un estimador por intervalos de un solo parámetro θ , usaremos la muestra aleatoria para
encontrar dos cantidades L y U de tal manera que L < θ < U con alguna probabilidad. Debido a que
L y U dependen de los valores de la muestra, serán aleatorios. Este intervalo ( L, U ) debe tener dos
propiedades:
Esto nos lleva a la primera definición.
Definición 3.
Dada una muestra aleatoria x 1
, x 2
,... , x n
de tamaño n de una población con función de
densidad f ( x ), un intervalo de confianza del 100(1 − α ) % para el parámetro desconocido θ ,
es un intervalo determinado por dos números L =
θ − δ 1
y U =
θ + δ 2
, calculados con base en
los datos de la muestra, tales que, la probabilidad de que el intervalo contenga el verdadero
valor del parámetro es igual a 1 − α , esto es
P ( L ≤ θ ≤ U ) = P (
θ − δ 1
≤ θ ≤
θ + δ 2
) = 1 − α. (3.1)
El valor 100(1 − α ) % se conoce como coeficiente de confianza.
Observe que los límites del intervalo son variables aleatorias, pues son funciones del estimador
θ , y por supuesto varían de una muestra a otra.
Supongamos que la demanda diaria de un cierto bien es una variable aleatoria con distribu-
ción normal de media μ desconocida y varianza σ
2 = 16. Para estimar la demanda media se
toma una muestra de 25 días y se quiere obtener un intervalo de confianza del 95 %.
Solución
Como la demanda diaria se distribuye normalmente, sabemos que x ¯ ∼ N ( μ, σ
2 /n ), de donde
( ¯ x − μ )
n
σ
La probabilidad de que Z esté entre − φ α/ 2
y φ α/ 2
, es 1 − α luego
P (− φ α/ 2
≤ Z ≤ φ α/ 2
− φ α/ 2
( ¯ x − μ )
n
σ
≤ φ α/ 2
= 1 − α
− φ 0 , 025
( ¯ x − μ )
≤ φ 0 , 025
( ¯ x − μ )
P ( ¯ x − 1 , 568 ≤ μ ≤ x ¯ + 1 , 568) = 0 , 95
Se tiene que los límites del intervalo son ¯ x − 1 , 568 y ¯ x + 1 , 568, esto es
I = ( ¯ x − 1 , 568; ¯ x + 1 , 568).
Supongamos que calculamos la media muestral y ésta dio x ¯ = 25. Los límites del intervalo
para esta muestra en particular son (23 , 432; 26 , 568). Entonces se puede afirmar que la
demanda media diaria μ está entre 23 , 432 y 26 , 568 con un 95 % de confianza.
Para n = 200, el error estándar es 4 , 2 /
200 = 0 , 297. Por lo tanto, un intervalo de confianza
del 95 % es 13 , 8 ± (1 , 96)(0 , 297), lo que resulta en el intervalo (13 , 22; 14 , 38). Por lo tanto,
cuantos más valores de muestra (es decir, más información) tengamos, más estrecho (menor
ancho) será el intervalo.
El ejemplo anterior se basó en nuestro conocimiento de la distribución de muestreo de la media
de la muestra. ¿Qué sucede si la distribución del muestreo del estadístico que nos interesa no
está fácilmente disponible? De manera más general, nuestro éxito en la creación de intervalos de
confianza para la estimación de un parámetro depende de la identificación de una cantidad conocida
como el pivote. A continuación se describe este método.
Si el tamaño de la muestra es grande, entonces, según el Teorema Central del Límite, se puede
suponer que ciertas distribuciones de muestreo son aproximadamente normales. Es decir, si θ es
un parámetro desconocido (como μ, p, ( μ 1
− μ 2
) , ( p 1
− p 2
)), entonces para muestras grandes, por el
Teorema Central del Límite, la transformación z
z =
θ − θ
σ ˆ θ
posee una distribución aproximadamente normal estándar, donde
θ es el estimador de máxima
verosimilitud de θ y σ ˆ θ
es su desviación estándar. Entonces, como en el ejemplo 3.2, se puede
utilizar el método del pivote para obtener el intervalo de confianza para el parámetro θ. Para θ = μ ,
n ≥ 30 se considerará una muestra grande; para el parámetro binomial p , n se considera grande
si np , y n (1 − p ) son ambos mayores que 5. Tenga en cuenta que estos números son sólo una regla
general.
Procedimiento de cálculo del intervalo de confianza de muestra grande para θ
θ.
de
θ.
θ − θ ) /σ (^) ˆ θ
. Entonces z tiene distribución aproximadamente
normal.
y z α/ 2
θ − z α/ 2
σ θ ˆ
θ + z α/ 2
σ θ ˆ
esto es,
θ − z α/ 2
σ ˆ θ
≤ θ ≤
θ + z α/ 2
σ ˆ θ
= 1 − α.
en el intervalo (
θ − z α/ 2
σ (^) ˆ θ
θ + z α/ 2
σ (^) ˆ θ
3.4.1 Poblaciones con varianza conocida
Sabemos que la media muestral de una muestra aleatoria es una variable con distribución exacta
o aproximadamente normal. Exactamente si la población es normal; si la población no es normal el
Teorema Central del Límite nos asegura que para n grande se aproxima a una normal; es decir que a
3.4 Intervalos de confianza para la media de una población 5
partir de una población con media μ y varianza finita σ
2 , se tiene que
x ¯ ∼ N
μ,
σ
2
n
Esta cantidad x ¯ no puede ser nuestra cantidad pivotal porque depende de μ , sin embargo si
estandarizamos la variable, se tiene
( ¯ x − μ )
n
σ
la cual no depende de μ , por lo que ahora necesitamos escoger a y b tal que P ( a ≤ p ( θ,
θ ) ≤ b ) = P ( a ≤
p ( μ, x ¯) ≤ b ) = 1 − α. Una de tales elecciones, es hallando un valor a tal que P (− a ≤ Z ≤ a ) = 1 − α. De
donde se tiene
− φ α/ 2
( ¯ x − μ )
n
σ
≤ φ α/ 2
= 1 − α
x^ ¯ − φ α/ 2
σ
n
≤ μ ≤ x ¯ + φ α/ 2
σ
n
= 1 − α.
Por consiguiente, un intervalo de confianza del 100(1 − α ) % para la media de una población con
varianza conocida será
x ¯ − φ α/ 2
σ
n
, x ¯ + φ α/ 2
σ
n
Calcular un intervalo de confianza del 80 % para la media de una población normal, sabiendo
que σ
2 = 4, a partir de una muestra de n = 8 elementos con los siguientes resultados: 9, 14,
10, 12, 7, 13, 11 y 12.
Solución
Se tiene 1 = α = 0 , 80 de donde α/ 2 = 0 , 10, luego φ α/ 2
= φ 0 , 10
= 1 , 28. La media de la muestra
es
x ¯ =
8 ∑
i =
x i
Por lo tanto usando la expresión (3.2) se tiene
x ¯ ∓ φ α/ 2
σ
n
Un intervalo de confianza del 80 % para la media de la población μ será
3.4 Intervalos de confianza para la media de una población 7
En R podemos usar la función ’t.test’ y la opción ’$conf.int’ para calcular los intervalos de
confianza para la media de una población normal con varianza desconocida.
Instrucciones en R
x=c(9 ,14 ,10 ,12 ,7 ,13 ,11 ,12)
t.test(x, conf.level = 0.8)$conf.int [1:2]
3.4.3 Poblaciones finitas con varianza conocida
En el caso de poblaciones finitas y muestreo sin reemplazo, las variables aleatorias de la muestra
no siguen siendo independientes; y por lo tanto no podemos aplicar el Teorema Central del Límite
para afirmar que x ¯ se distribuye normalmente; sin embargo, bajo ciertas condiciones, generalmente
dadas en la práctica, la aproximación normal es válida.
Por otro lado, cuando el muestreo es con reemplazo, el número total de diferentes muestras
es V N ,n
n , con N el tamaño de la población y n el tamaño de la muestra; si el muestreo es sin
reemplazo es
N ,n
= N ( N − 1) · · · ( N − n + 1) =
( N − n )!
El efecto práctico de este hecho es que la varianza de la media muestral se modifica y se convierte en
σ
2
x ¯
= V ( ¯ x ) =
σ
2
n
N − n
Siguiendo el método del pivote, tenemos
− φ α/ 2
( ¯ x − μ )
σ √
n
N − n
N − 1
≤ φ α/ 2
= 1 − α
x ¯ − φ α/ 2
σ
n
N − n
≤ μ ≤ x ¯ + φ α/ 2
σ
n
N − n
= 1 − α.
Luego, un intervalo de confianza del 100(1 − α ) % para la media poblacional será
x ¯ − φ α/ 2
σ
n
N − n
, x ¯ + φ α/ 2
σ
n
N − n
Calcular un intervalo de confianza del 95 % para el peso medio de los sacos de harina
envasados en un día según un determinado mecanismo. Suponga que la producción del día
fue de 20 sacos y tomamos una muestra de 4 sacos. Suponga además que σ
2 = 4 y ¯ x = 50.
Solución
Tenemos los siguientes datos
x ¯ = 50; σ = 2; n = 4; N = 20; α/ 2 = 0 , 025; φ 0 , 025
Luego usando (3.5), se tiene
x ¯ ∓ φ α/ 2
σ
n
N − n
Así, un intervalo de confianza del 95 % para la media será
El peso medio de los sacos está entre 48 , 3493 Kgs. y 51 , 6507 Kgs. con una confianza del
3.4.4 Poblaciones finitas con varianza desconocida
Cuando la varianza es desconocida usamos la distribución t -de Student para calcular los in-
tervalos de confianza. Estos serán similares a los dados en (3.3) y (3.4), con la diferencia de que
sustituimos σ x ¯
por
σ √
n − 1
N − n
N − 1
Así, un intervalo de confianza del 100(1− α ) % para la media de una población finita con varianza
desconocida será:
Si n ≤ 31 , x ¯ ∓ t α/ 2
s
n − 1
N − n
Si n > 31 , x ¯ ∓ φ α/ 2
s
n − 1
N − n
Se trata de estimar el tiempo medio que 1.000 lámparas fluorescentes producidas por una
cierta empresa, se mantienen encendidas antes de echarse a perder. Para ello se toma una
muestra de 101 y se dejan encendidas hasta que se apagan. El resultado de la muestra dio
una duración media de 1.500 horas con una desviación estándar de 120 horas. Calcular un
intervalo de confianza del 98 % para la verdadera duración media.
Solución
Se tiene
x ¯ = 1500; s = 120; N = 1000; n = 101; α/ 2 = 0 , 01; φ 0 , 01
Luego usando (3.7), se tiene
La desigualdad
| p ˆ − p |
n
p (1 − p )
≤ φ α/ 2
equivale a
( ˆ p − p )
2 n
p (1 − p )
≤ ( φ α/ 2
2 (3.9)
Luego
( ˆ p
2 − 2 ˆ pp + p
2 ) n ≤ ( φ α/ 2
2 p (1 − p )
p ˆ
2
n − 2 n pp ˆ + p
2
n − ( φ α/ 2
2
p + ( φ α/ 2
2
p
2
≤ 0
p
2
n + ( φ α/ 2
2
− p
2 n p ˆ + ( φ α/ 2
2
2 ≤ 0 (3.10)
Si se cumple (3.10), se cumple (3.9) y en consecuencia se cumple (3.8). Hallemos los valores de p
para los cuales (3.10) es cero, es decir las raíces del polinomio en p de segundo grado anterior, esto
es
p
2
n + ( φ α/ 2
2
− p
2 n p ˆ + ( φ α/ 2
2
2 = 0
p =
2 n p ˆ + ( φ α/ 2
2 ±
[2 n p ˆ + ( φ α/ 2
2 ]
2 − 4[ n + ( φ α/ 2
2 ] n p ˆ
2
2[ n + ( φ α/ 2
2 ]
luego, las dos raíces serán
p 1
2 n p ˆ + ( φ α/ 2
2 −
[2 n p ˆ + ( φ α/ 2
2 ]
2 − 4[ n + ( φ α/ 2
2 ] n p ˆ
2
2[ n + ( φ α/ 2
2 ]
p 2
2 n p ˆ + ( φ α/ 2
2
[2 n p ˆ + ( φ α/ 2
2 ]
2 − 4[ n + ( φ α/ 2
2 ] n p ˆ
2
2[ n + ( φ α/ 2
2 ]
Operando y simplificando en (3.11) se obtiene
p 1
2 n p ˆ + ( φ α/ 2
2 −
[2 n p ˆ + ( φ α/ 2
2 ]
2 − 4[ n + ( φ α/ 2
2 ] n p ˆ
2
2[ n + ( φ α/ 2
2 ]
2 n p ˆ + ( φ α/ 2
2 −
4 n p ˆ( φ α/ 2
2 [1 − p ˆ] + ( φ α/ 2
4
2[ n + ( φ α/ 2
2 ]
2 n p ˆ + ( φ α/ 2
2 −
( φ α/ 2
2
4 n p ˆ(1 − p ˆ) + ( φ α/ 2
2
2[ n + ( φ α/ 2
2 ]
2 n p ˆ + ( φ α/ 2
2 − φ α/ 2
4 n p ˆ(1 − p ˆ) + ( φ α/ 2
2
2[ n + ( φ α/ 2
2 ]
Dividiendo numerador y denominador por 2 n , nos queda
p 1
p ˆ +
( φα/ 2 )
2
2 n
− φ α/ 2
p ˆ(1− p ˆ)
n
( φα/ 2 )
2
4 n
2
( φ α/ 2
)
2
n
De manera análoga, procedemos para p 2
, quedando
p 2
p ˆ +
( φ α/ 2
)
2
2 n
p ˆ(1− p ˆ)
n
( φ α/ 2
)
2
4 n
2
( φα/ 2 )
2
n
3.5 Intervalos de confianza para la proporción de una población 11
Luego un intervalo de confianza del 100(1 − α ) % para la proporción muestral será
I = ( p 1
, p 2
Donde p 1
y p 2
están dados por (3.13) y (3.14). Si n es grande, los términos con
φα/ 2
n
se desprecian
y queda
p 1
= ˆ p − φ α/ 2
p ˆ(1 − p ˆ)
n
p 2
= ˆ p + φ α/ 2
p ˆ(1 − p ˆ)
n
O sea, los límites del intervalo aproximadamente son:
p ˆ ∓ φ α/ 2
p ˆ(1 − p ˆ)
n
Una pregunta natural es: “¿Cómo determinamos que el tamaño de la muestra que tenemos es
suficiente para la aproximación normal que se usa en las fórmulas anteriores?”. Existen varias
reglas generales que se utilizan para determinar la idoneidad del tamaño de la muestra para
una aproximación normal. Algunas de las reglas populares son que np y n (1 − p ) deberían
ser mayores de 10, o que p ˆ ± 2
p ˆ(1 − p ˆ) /n debería estar contenido en el intervalo (0 , 1), o
np (1 − p ) ≥ 10, etc. Todas estas reglas funcionan mal cuando p está más cerca de 0 o 1.
Se desea estimar la proporción de personas en una población, que gasta más del 30 % de sus
ingresos en alimentación. A tal efecto se escoge una muestra aleatoria de 1.000 personas,
siendo el 20 % la proporción muestral que gasta más del 30 % en alimentos. Calcular un
intervalo de confianza del 95 % para la verdadera proporción,
Solución
Tenemos ˆ p = 0 , 2; 1 − α = 0 , 95 ⇒ α/ 2 = 0 , 025; φ 0 , 025
= 1 , 96 y n = 1000
y p 2
son:
p 1
(1 , 96)
2
2000
0 , 2 × 0 , 8
1000
(1 , 96)
2
4(1000)
2
(1 , 96)
2
1000
p 2
(1 , 96)
2
2000
0 , 2 × 0 , 8
1000
(1 , 96)
2
4(1000)
2
(1 , 96)
2
1000
3.5 Intervalos de confianza para la proporción de una población 13
p 1
= ˆ p − φ α/ 2
p ˆ(1 − p ˆ)
n
N − n
p 2
= ˆ p + φ α/ 2
p ˆ(1 − p ˆ)
n
N − n
o sea, un intervalo de confianza para p será de la forma
p ˆ ∓ φ α/ 2
p ˆ(1 − p ˆ)
n
N − n
En una población de 2000 personas se desea estimar la proporción de personas que fuman,
mediante una muestra de 200 personas. Si el 40 % de las personas de la muestra fuma, calcular
un intervalo de confianza del 95 % para la verdadera proporción de fumadores.
Solución
Tenemos
p ˆ = 0 , 4; 1 − α = 0 , 95; α/ 2 = 0 , 025; N = 2000 y n = 200
Luego
de donde
o sea, la proporción de fumadores de la población está entre 33 , 56 % y 46 , 44 % con una
confianza del 95 %.
3.5.3 Margen de error y tamaño de la muestra
En los problemas del mundo real, las estimaciones de la proporción p suelen ir acompañadas
de un margen de error, en lugar de un intervalo de confianza. Por ejemplo, en los medios de
comunicación, especialmente antes de la hora de las elecciones, escuchamos declaraciones como
“La encuesta de la CNN/USA Today/Gallup de 818 votantes inscritos, realizada el 27 y 30 de junio,
mostró que si las elecciones se celebraran ahora, el presidente derrotaría a su contendiente 52 % a
40 %, con una tasa de participación del 40 %. 8 % indeciso. La encuesta tenía un margen de error
de más o menos cuatro puntos porcentuales.” ¿Qué es este “margen de error”? Según la American
Statistical Association , el margen de error es un resumen común del error de muestreo que cuantifica
la incertidumbre sobre el resultado de una encuesta. Por lo tanto, el margen de error no es más
que un intervalo de confianza. El número citado en la declaración anterior es la mitad del ancho
máximo de un intervalo de confianza del 95 %, expresado como porcentaje.
Sea b el ancho de un intervalo de confianza del 95 % para la proporción verdadera, p. Sea p ˆ = x/n
una estimación para p donde x es el número de éxitos en n ensayos. Entonces
b =
x
n
( x/n )(1 − ( x/n ))
n
x
n
( x/n )(1 − ( x/n ))
n
( x/n )(1 − ( x/n ))
n
4 n
dado que ( x/n )(1 − ( x/n )) + p ˆ(1 − p ˆ) ≤
1
4
. Entonces, el margen de error asociado a p ˆ = x/n es 100 d %,
donde
d =
m´ax b
1
4 n
n
De la derivación anterior, es claro que podemos calcular el margen de error para cualquier valor de
α reemplazando 1.96 por el valor correspondiente de φ α/ 2
Una mirada rápida a la fórmula del intervalo de confianza para las proporciones revela que una
muestra más grande produciría un intervalo más corto (suponiendo que otras cosas sean iguales) y
por lo tanto una estimación más precisa de p. La muestra más grande es más costosa en términos de
tiempo, recursos y dinero, mientras que las muestras que son demasiado pequeñas pueden resultar
en inferencias inexactas. Entonces, resulta beneficioso determinar el tamaño mínimo de la muestra
requerido (por lo tanto, menos costoso) para lograr el grado de precisión prescrito (normalmente, el
grado mínimo de precisión aceptable). Hemos visto que el intervalo de confianza del 100(1 − α ) %
para p de una muestra grande es
p ˆ − z α/ 2
p ˆ(1 − p ˆ)
n
< p < p ˆ + z α/ 2
p ˆ(1 − p ˆ)
n
Reescribiendo, tenemos
| p ˆ − p | ≤ z α/ 2
p ˆ(1 − p ˆ)
n
z α/ 2
√
n
p ˆ(1 − p ˆ)
lo cual muestra que, con probabilidad (1 − α ), la estimación de p ˆ está dentro de z α/ 2
p ˆ(1 − p ˆ) /n
unidades de p. Dado que p ˆ(1 − p ˆ) ≤
1
4
, para todo valor de p ˆ, podemos escribir la desigualdad anterior
como
| p ˆ − p | ≤
z α/ 2
√
n
z α/ 2
n
Si deseamos estimar p a nivel (1− α ) dentro de d unidades de su verdadero valor, esto es | p ˆ− p | ≤ d ,
el tamaño de la muestra debe satisfacer la condición ( z α/ 2
n )) ≤ d , o
n ≥
z
2
α/ 2
4 d
2
Por lo tanto, para estimar p en el nivel (1 − α ) dentro de d unidades de su valor verdadero,
tomamos el tamaño mínimo de la muestra como n = z
2
α/ 2
/ 4 d
2 , y si no se trata de un número entero,
redondeamos al siguiente número entero.
A veces, podemos tener una estimación inicial p ˜ del parámetro p de un proceso similar o de un
estudio piloto o una simulación. En este caso, podemos usar la siguiente fórmula para calcular el
tamaño mínimo requerido de la muestra para estimar p , en el nivel (1 − α ), dentro de d unidades
usando la fórmula
n =
z
2
α/ 2
p ˜(1 − p ˜)
d
2
n =
z
2
α/ 2
p ˜(1 − p ˜)
d
2
2 (0 , 70)(0 , 30)
2
Por lo tanto, la estación de televisión debe entrevistar al menos a 897 personas.
En la práctica, deberíamos darnos cuenta de que uno de los factores clave de un buen diseño
no es el tamaño de la muestra por sí mismo, sino la obtención de muestras representativas.
Incluso si tenemos un tamaño de muestra muy grande, si la muestra no es representativa
de nuestra población objetivo, entonces el tamaño de la muestra no significa nada. Por lo
tanto, siempre que sea posible, debemos utilizar procedimientos de muestreo aleatorio (u
otros procedimientos de muestreo apropiados) para asegurar que nuestra población objetivo
esté adecuadamente representada.
3.6.1 Población normal
Dada una población normal con media μ y varianza σ
2 , sabemos que la variable
ns
2
σ
2
tiene
distribución χ
2 con n − 1 grados de libertad. Para calcular un intervalo de confianza del 100(1 − α ) %
para σ
2 , se tienen que encontrar dos valores a y b tales que
a ≤
ns
2
σ
2
≤ b
= 1 − α
a
ns
2
σ
2
b
ns
2
= 1 − α
ns
2
a
≥ σ
2 ≥
ns
2
b
= 1 − α
ns
2
b
≤ σ
2 ≤
ns
2
a
= 1 − α
Queremos a y b tal que la amplitud del intervalo sea mínima. Como χ
2 no es simétrica no podemos
aplicar el criterio utilizado anteriormente con las distribuciones φ y t. Además, la distribución χ
2
es válida solo para valores positivos y por lo tanto no la podemos usar para variables aleatorias
que tomen valores negativos. Un intervalo aproximadamente mínimo para n no muy pequeña, se
consigue escogiendo a y b tales que
ns
2
σ
2
≥ b
= α/ 2 y P
ns
2
σ
2
≤ a
= α/ 2
De la figura 3.1 se observa que b = χ
2
α/ 2
y a = χ
2
1 − α/ 2
, luego un intervalo de confianza del
100(1 − α ) % para la varianza de una variable normalmente distribuida está dado por
ns
2
χ
2
α/ 2
ns
2
χ
2
1 − α/ 2
3.6 Intervalos de confianza para la varianza 17
Figura 3.1: Distribución χ
2
n − 1
con áreas iguales a ambos lados del intervalo de confianza (1 − α )
Equivalentemente, un intervalo de confianza para la desviación estándar será
ns
2
χ
2
α/ 2
ns
2
χ
2
1 − α/ 2
Se desea estimar la varianza de una población normal mediante una muestra de 20 elementos
que dio una varianza muestral de 15. Calcular un intervalo de confianza para σ
2 del 95 %.
Solución
Tenemos
n = 20; s
2
= 15; 1 − α = 0 , 95 ⇒ α/ 2 = 0 , 025
De donde se tiene
χ
2
α/ 2
( n − 1) = χ
2
0 , 025
(19) = 32 , 9 y χ
2
1 − α/ 2
( n − 1) = χ
2
0 , 975
Luego, los límites de un intervalo de confianza serán
ns
2
χ
2
α/ 2
ns
2
χ
2
1 − α/ 2
de donde un intervalo de confianza del 95 % para σ
2 será
3.7 Intervalos de confianza relativos a parámetros para dos poblaciones 19
Instrucciones en R
ic.var <- function(x, conf.level =0.95) {
alfa <- 1 - conf.level
n <- length(x)
l1 <- (n - 1)
var(x) / qchisq (1 - alfa / 2,n - 1)
l2 <- (n - 1)
var(x) / qchisq(alfa / 2,n - 1)
ic <- c(l1 ,l2)
return(ic)
Usaremos el conjunto de datos iris propio de R, para probar la función creada anteriormente.
Este famoso conjunto de datos iris (de Fisher o de Anderson) da las medidas en centímetros de
las variables longitud y anchura del sépalo y longitud y anchura del pétalo, respectivamente,
para 50 flores de cada una de las 3 especies de iris. Las especies son Iris setosa, versicolor y
virginica.
Instrucciones en R
data(iris)
ic.var(iris$Sepal.Length)
sapply(iris [,1:4],ic.var)
Sepal.Length Sepal.Width Petal.Length Petal.Width
En las secciones anteriores estudiamos los intervalos de confianza de los parámetros verdaderos
de muestras de poblaciones individuales. Ahora, consideramos la estimación del intervalo basada
en muestras de dos poblaciones. Nuestro interés es obtener un intervalo de confianza para los
parámetros de interés basado en dos muestras independientes tomadas de estas dos poblaciones.
3.7.1 Intervalos de confianza para la diferencia de medias
Poblaciones con varianza conocidas
Dadas dos poblaciones con medias desconocidas μ x
y μ y
y varianzas conocidas σ
2
x
y σ
2
y
respecti-
vamente. Si x ¯ e y ¯ son las medias muestrales de ambas poblaciones, sabemos que x ¯ e y ¯ se distribuyen
normalmente. Además
x ¯ − y ¯ ∼ N
μ x
− μ y
σ
2
x
n x
σ
2
y
n y
de donde
( ¯ x − y ¯) − ( μ x
− μ y
σ
2 x
n x
σ
2
y
n y
luego
− φ α/ 2
( ¯ x − y ¯) − ( μ x
− μ y
σ
2
x
n x
σ
2 y
n y
≤ φ α/ 2
= 1 − α
( ¯ x − y ¯) − φ α/ 2
σ
2
x
n x
σ
2
y
n y
< μ x
− μ y
< ( ¯ x − y ¯) + φ α/ 2
σ
2
x
n x
σ
2
y
n y
= 1 − α
Luego, un intervalo de confianza del 100(1 − α ) % para la diferencia de las medias μ x
− μ y
será de la
forma
( ¯ x − y ¯) ∓ φ α/ 2
σ
2
x
n x
σ
2
y
n y
Un Banco de Caracas tiene un sucursal en el Centro y otra en el Este. Se desea estimar la
diferencia de depósitos medios mensuales por cliente entre ambas sucursales. Suponga que
la varianza en los depósitos por cliente en el centro sea 100, y en el este 110. Una muestra de
100 clientes en el centro dio una media de Bs. 2000. Una muestra de 120 clientes en el este
dio una media de Bs. 1800. Calcular un intervalo de confianza del 95 % para la diferencia de
depósitos medios por cliente.
Solución
Tenemos
x ¯ = 2000; y ¯ = 1800; σ
2
x
= 100; σ
2
y
= 100; n x
= 100; n y
Luego
( ¯ x − y ¯) ∓ φ α/ 2
σ
2
x
n x
σ
2
y
n y
de donde un intervalo de confianza del 95 % para la diferencia de medias es