Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad

Intervalos de Confianza para la Media, Proporción y Varianza de una Población, Guías, Proyectos, Investigaciones de Estadística Matemática

Conceptos y ejemplos de intervalos de confianza con aplicaciones en R

Tipo: Guías, Proyectos, Investigaciones

2018/2019

Subido el 21/11/2019

jose-benito-hernandez-chaudary
jose-benito-hernandez-chaudary 🇲🇽

4.8

(8)

7 documentos

1 / 30

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
3.1 Introducción 1
José Benito Hernández C.
Guía de Estadística con R
Tema 3
Intervalos de Confianza
3.1 Introducción
En el tema anterior se trató de la estimación puntual de los parámetros, en este tema veremos la
estimación por intervalos. La idea de la estimación por intervalos es complementar la estimación
puntual, de manera de tener alguna idea sobre la precisión de los estimadores puntuales usados.
Como ya vimos, un buen estimador puntual es aquel cuyo valor está cercano al valor del parámetro
que se desea estimar. Recuerde que los estimadores son estadísticos muestrales, y por lo tanto son
variables aleatorias.
Al tomar una muestra de una población, el valor del estimador obtenido a través de esa muestra,
es un número; pero la muestra concreta que se ha obtenido, es una de las muchas posibles muestras
que se podrían haber obtenido. Si obtenemos otra muestra, y estimamos el valor del parámetro a
partir esa nueva muestra, el valor estimado posiblemente sea un poco distinto; en consecuencia, no
podemos ser tan optimistas como para pensar que el valor estimado a partir de una cierta muestra,
es exactamente igual al valor real del parámetro de la población. Por lo tanto necesitamos una cierta
medida del error que se comete al usar un estimador puntual del parámetro.
3.2 Estimación por intervalo
Ahora, discutiremos otro tipo de estimación, llamada
estimación por intervalo
. Aunque los
estimadores puntuales son útiles, los estimadores por intervalos proporcionan más información
sobre los datos de lo que se utilizan para obtener la estimación puntual. El propósito de usar una
estimación por intervalos es tener cierto grado de confianza para asegurar el parámetro verdadero.
Para un estimador por intervalos de un solo parámetro
θ
, usaremos la muestra aleatoria para
encontrar dos cantidades
L
y
U
de tal manera que
L<θ<U
con alguna probabilidad. Debido a que
L
y
U
dependen de los valores de la muestra, serán aleatorios. Este intervalo (
L,U
) debe tener dos
propiedades:
1. P
(
L<θ<U
) es alta, es decir, el parámetro verdadero
θ
está en (
L,U
) con alta probabilidad, y
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e

Vista previa parcial del texto

¡Descarga Intervalos de Confianza para la Media, Proporción y Varianza de una Población y más Guías, Proyectos, Investigaciones en PDF de Estadística Matemática solo en Docsity!

3.1 Introducción 1

José Benito Hernández C.

Guía de Estadística con R

Tema 3

Intervalos de Confianza

3.1 Introducción

En el tema anterior se trató de la estimación puntual de los parámetros, en este tema veremos la

estimación por intervalos. La idea de la estimación por intervalos es complementar la estimación

puntual, de manera de tener alguna idea sobre la precisión de los estimadores puntuales usados.

Como ya vimos, un buen estimador puntual es aquel cuyo valor está cercano al valor del parámetro

que se desea estimar. Recuerde que los estimadores son estadísticos muestrales, y por lo tanto son

variables aleatorias.

Al tomar una muestra de una población, el valor del estimador obtenido a través de esa muestra,

es un número; pero la muestra concreta que se ha obtenido, es una de las muchas posibles muestras

que se podrían haber obtenido. Si obtenemos otra muestra, y estimamos el valor del parámetro a

partir esa nueva muestra, el valor estimado posiblemente sea un poco distinto; en consecuencia, no

podemos ser tan optimistas como para pensar que el valor estimado a partir de una cierta muestra,

es exactamente igual al valor real del parámetro de la población. Por lo tanto necesitamos una cierta

medida del error que se comete al usar un estimador puntual del parámetro.

3.2 Estimación por intervalo

Ahora, discutiremos otro tipo de estimación, llamada estimación por intervalo. Aunque los

estimadores puntuales son útiles, los estimadores por intervalos proporcionan más información

sobre los datos de lo que se utilizan para obtener la estimación puntual. El propósito de usar una

estimación por intervalos es tener cierto grado de confianza para asegurar el parámetro verdadero.

Para un estimador por intervalos de un solo parámetro θ , usaremos la muestra aleatoria para

encontrar dos cantidades L y U de tal manera que L < θ < U con alguna probabilidad. Debido a que

L y U dependen de los valores de la muestra, serán aleatorios. Este intervalo ( L, U ) debe tener dos

propiedades:

  1. P ( L < θ < U ) es alta, es decir, el parámetro verdadero θ está en ( L, U ) con alta probabilidad, y
  1. la longitud del intervalo ( L, U ) debe ser relativamente estrecha en promedio.

Esto nos lleva a la primera definición.

Definición 3.

Dada una muestra aleatoria x 1

, x 2

,... , x n

de tamaño n de una población con función de

densidad f ( x ), un intervalo de confianza del 100(1 − α ) % para el parámetro desconocido θ ,

es un intervalo determinado por dos números L =

θδ 1

y U =

θ + δ 2

, calculados con base en

los datos de la muestra, tales que, la probabilidad de que el intervalo contenga el verdadero

valor del parámetro es igual a 1 − α , esto es

P ( LθU ) = P (

θδ 1

θ

θ + δ 2

) = 1 − α. (3.1)

El valor 100(1 − α ) % se conoce como coeficiente de confianza.

Observe que los límites del intervalo son variables aleatorias, pues son funciones del estimador

θ , y por supuesto varían de una muestra a otra.

Supongamos que la demanda diaria de un cierto bien es una variable aleatoria con distribu-

ción normal de media μ desconocida y varianza σ

2 = 16. Para estimar la demanda media se

toma una muestra de 25 días y se quiere obtener un intervalo de confianza del 95 %.

Solución

Como la demanda diaria se distribuye normalmente, sabemos que x ¯ ∼ N ( μ, σ

2 /n ), de donde

Z =

( ¯ xμ )

n

σ

∼ N (0 , 1)

La probabilidad de que Z esté entre − φ α/ 2

y φ α/ 2

, es 1 − α luego

P (− φ α/ 2

Zφ α/ 2

) = P

φ α/ 2

( ¯ xμ )

n

σ

φ α/ 2

= 1 − α

⇒ P

φ 0 , 025

( ¯ xμ )

φ 0 , 025

P

( ¯ xμ )

P ( ¯ x − 1 , 568 ≤ μx ¯ + 1 , 568) = 0 , 95

Se tiene que los límites del intervalo son ¯ x − 1 , 568 y ¯ x + 1 , 568, esto es

I = ( ¯ x − 1 , 568; ¯ x + 1 , 568).

Supongamos que calculamos la media muestral y ésta dio x ¯ = 25. Los límites del intervalo

para esta muestra en particular son (23 , 432; 26 , 568). Entonces se puede afirmar que la

demanda media diaria μ está entre 23 , 432 y 26 , 568 con un 95 % de confianza.

Para n = 200, el error estándar es 4 , 2 /

200 = 0 , 297. Por lo tanto, un intervalo de confianza

del 95 % es 13 , 8 ± (1 , 96)(0 , 297), lo que resulta en el intervalo (13 , 22; 14 , 38). Por lo tanto,

cuantos más valores de muestra (es decir, más información) tengamos, más estrecho (menor

ancho) será el intervalo.

El ejemplo anterior se basó en nuestro conocimiento de la distribución de muestreo de la media

de la muestra. ¿Qué sucede si la distribución del muestreo del estadístico que nos interesa no

está fácilmente disponible? De manera más general, nuestro éxito en la creación de intervalos de

confianza para la estimación de un parámetro depende de la identificación de una cantidad conocida

como el pivote. A continuación se describe este método.

3.3 Intervalos de confianza para muestras grandes

Si el tamaño de la muestra es grande, entonces, según el Teorema Central del Límite, se puede

suponer que ciertas distribuciones de muestreo son aproximadamente normales. Es decir, si θ es

un parámetro desconocido (como μ, p, ( μ 1

μ 2

) , ( p 1

p 2

)), entonces para muestras grandes, por el

Teorema Central del Límite, la transformación z

z =

θθ

σ ˆ θ

posee una distribución aproximadamente normal estándar, donde

θ es el estimador de máxima

verosimilitud de θ y σ ˆ θ

es su desviación estándar. Entonces, como en el ejemplo 3.2, se puede

utilizar el método del pivote para obtener el intervalo de confianza para el parámetro θ. Para θ = μ ,

n ≥ 30 se considerará una muestra grande; para el parámetro binomial p , n se considera grande

si np , y n (1 − p ) son ambos mayores que 5. Tenga en cuenta que estos números son sólo una regla

general.

Procedimiento de cálculo del intervalo de confianza de muestra grande para θ

  1. Halle un estimador (como EMV) de θ , digamos

θ.

  1. Obtenga el error estándar σ (^) ˆ θ

de

θ.

  1. Halle la transformación z = (

θθ ) (^) ˆ θ

. Entonces z tiene distribución aproximadamente

normal.

  1. Usando la tabla de la distribución normal, halle los dos valores de cola − z α/ 2

y z α/ 2

  1. Un intervalo de confianza aproximado del 100(1− α ) % para θ es (

θz α/ 2

σ θ ˆ

θ + z α/ 2

σ θ ˆ

esto es,

P

θz α/ 2

σ ˆ θ

θ

θ + z α/ 2

σ ˆ θ

= 1 − α.

  1. Conclusión: Tenemos un 100(1 − α ) % de confianza que el valor real del parámetro yace

en el intervalo (

θz α/ 2

σ (^) ˆ θ

θ + z α/ 2

σ (^) ˆ θ

3.4 Intervalos de confianza para la media de una población

3.4.1 Poblaciones con varianza conocida

Sabemos que la media muestral de una muestra aleatoria es una variable con distribución exacta

o aproximadamente normal. Exactamente si la población es normal; si la población no es normal el

Teorema Central del Límite nos asegura que para n grande se aproxima a una normal; es decir que a

3.4 Intervalos de confianza para la media de una población 5

partir de una población con media μ y varianza finita σ

2 , se tiene que

x ¯ ∼ N

μ,

σ

2

n

Esta cantidad x ¯ no puede ser nuestra cantidad pivotal porque depende de μ , sin embargo si

estandarizamos la variable, se tiene

Z =

( ¯ xμ )

n

σ

∼ N (0 , 1) ,

la cual no depende de μ , por lo que ahora necesitamos escoger a y b tal que P ( ap ( θ,

θ ) ≤ b ) = P ( a

p ( μ, x ¯) ≤ b ) = 1 − α. Una de tales elecciones, es hallando un valor a tal que P (− aZa ) = 1 − α. De

donde se tiene

P

φ α/ 2

( ¯ xμ )

n

σ

φ α/ 2

= 1 − α

P

x^ ¯ − φ α/ 2

σ

n

μx ¯ + φ α/ 2

σ

n

= 1 − α.

Por consiguiente, un intervalo de confianza del 100(1 − α ) % para la media de una población con

varianza conocida será

I =

x ¯ − φ α/ 2

σ

n

, x ¯ + φ α/ 2

σ

n

Calcular un intervalo de confianza del 80 % para la media de una población normal, sabiendo

que σ

2 = 4, a partir de una muestra de n = 8 elementos con los siguientes resultados: 9, 14,

10, 12, 7, 13, 11 y 12.

Solución

Se tiene 1 = α = 0 , 80 de donde α/ 2 = 0 , 10, luego φ α/ 2

= φ 0 , 10

= 1 , 28. La media de la muestra

es

x ¯ =

8 ∑

i =

x i

Por lo tanto usando la expresión (3.2) se tiene

x ¯ ∓ φ α/ 2

σ

n

Un intervalo de confianza del 80 % para la media de la población μ será

I = (10 , 0935; 11 , 9065)

3.4 Intervalos de confianza para la media de una población 7

En R podemos usar la función ’t.test’ y la opción ’$conf.int’ para calcular los intervalos de

confianza para la media de una población normal con varianza desconocida.

Instrucciones en R

Intevalo de confianza para la media

x=c(9 ,14 ,10 ,12 ,7 ,13 ,11 ,12)

t.test(x, conf.level = 0.8)$conf.int [1:2]

3.4.3 Poblaciones finitas con varianza conocida

En el caso de poblaciones finitas y muestreo sin reemplazo, las variables aleatorias de la muestra

no siguen siendo independientes; y por lo tanto no podemos aplicar el Teorema Central del Límite

para afirmar que x ¯ se distribuye normalmente; sin embargo, bajo ciertas condiciones, generalmente

dadas en la práctica, la aproximación normal es válida.

Por otro lado, cuando el muestreo es con reemplazo, el número total de diferentes muestras

es V N ,n

= N

n , con N el tamaño de la población y n el tamaño de la muestra; si el muestreo es sin

reemplazo es

V

N ,n

= N ( N − 1) · · · ( Nn + 1) =

N!

( Nn )!

El efecto práctico de este hecho es que la varianza de la media muestral se modifica y se convierte en

σ

2

x ¯

= V ( ¯ x ) =

σ

2

n

Nn

N − 1

Siguiendo el método del pivote, tenemos

P

φ α/ 2

( ¯ xμ )

σ

n

Nn

N − 1

φ α/ 2

= 1 − α

P

x ¯ − φ α/ 2

σ

n

Nn

N − 1

μx ¯ + φ α/ 2

σ

n

Nn

N − 1

= 1 − α.

Luego, un intervalo de confianza del 100(1 − α ) % para la media poblacional será

I =

x ¯ − φ α/ 2

σ

n

Nn

N − 1

, x ¯ + φ α/ 2

σ

n

Nn

N − 1

Calcular un intervalo de confianza del 95 % para el peso medio de los sacos de harina

envasados en un día según un determinado mecanismo. Suponga que la producción del día

fue de 20 sacos y tomamos una muestra de 4 sacos. Suponga además que σ

2 = 4 y ¯ x = 50.

Solución

Tenemos los siguientes datos

x ¯ = 50; σ = 2; n = 4; N = 20; α/ 2 = 0 , 025; φ 0 , 025

Luego usando (3.5), se tiene

x ¯ ∓ φ α/ 2

σ

n

Nn

N − 1

Así, un intervalo de confianza del 95 % para la media será

I = (48 , 3493; 51 , 6507)

El peso medio de los sacos está entre 48 , 3493 Kgs. y 51 , 6507 Kgs. con una confianza del

3.4.4 Poblaciones finitas con varianza desconocida

Cuando la varianza es desconocida usamos la distribución t -de Student para calcular los in-

tervalos de confianza. Estos serán similares a los dados en (3.3) y (3.4), con la diferencia de que

sustituimos σ x ¯

por

σ

n − 1

Nn

N − 1

Así, un intervalo de confianza del 100(1− α ) % para la media de una población finita con varianza

desconocida será:

Si n ≤ 31 , x ¯ ∓ t α/ 2

s

n − 1

Nn

N − 1

Si n > 31 , x ¯ ∓ φ α/ 2

s

n − 1

Nn

N − 1

Se trata de estimar el tiempo medio que 1.000 lámparas fluorescentes producidas por una

cierta empresa, se mantienen encendidas antes de echarse a perder. Para ello se toma una

muestra de 101 y se dejan encendidas hasta que se apagan. El resultado de la muestra dio

una duración media de 1.500 horas con una desviación estándar de 120 horas. Calcular un

intervalo de confianza del 98 % para la verdadera duración media.

Solución

Se tiene

x ¯ = 1500; s = 120; N = 1000; n = 101; α/ 2 = 0 , 01; φ 0 , 01

Luego usando (3.7), se tiene

La desigualdad

| p ˆ − p |

n

p (1 − p )

φ α/ 2

equivale a

( ˆ pp )

2 n

p (1 − p )

≤ ( φ α/ 2

2 (3.9)

Luego

( ˆ p

2 − 2 ˆ pp + p

2 ) n ≤ ( φ α/ 2

2 p (1 − p )

p ˆ

2

n − 2 n pp ˆ + p

2

n − ( φ α/ 2

2

p + ( φ α/ 2

2

p

2

≤ 0

p

2

[

n + ( φ α/ 2

2

]

p

[

2 n p ˆ + ( φ α/ 2

2

]

  • n p ˆ

2 ≤ 0 (3.10)

Si se cumple (3.10), se cumple (3.9) y en consecuencia se cumple (3.8). Hallemos los valores de p

para los cuales (3.10) es cero, es decir las raíces del polinomio en p de segundo grado anterior, esto

es

p

2

[

n + ( φ α/ 2

2

]

p

[

2 n p ˆ + ( φ α/ 2

2

]

  • n p ˆ

2 = 0

p =

2 n p ˆ + ( φ α/ 2

2 ±

[2 n p ˆ + ( φ α/ 2

2 ]

2 − 4[ n + ( φ α/ 2

2 ] n p ˆ

2

2[ n + ( φ α/ 2

2 ]

luego, las dos raíces serán

p 1

2 n p ˆ + ( φ α/ 2

2 −

[2 n p ˆ + ( φ α/ 2

2 ]

2 − 4[ n + ( φ α/ 2

2 ] n p ˆ

2

2[ n + ( φ α/ 2

2 ]

p 2

2 n p ˆ + ( φ α/ 2

2

[2 n p ˆ + ( φ α/ 2

2 ]

2 − 4[ n + ( φ α/ 2

2 ] n p ˆ

2

2[ n + ( φ α/ 2

2 ]

Operando y simplificando en (3.11) se obtiene

p 1

2 n p ˆ + ( φ α/ 2

2 −

[2 n p ˆ + ( φ α/ 2

2 ]

2 − 4[ n + ( φ α/ 2

2 ] n p ˆ

2

2[ n + ( φ α/ 2

2 ]

2 n p ˆ + ( φ α/ 2

2 −

4 n p ˆ( φ α/ 2

2 [1 − p ˆ] + ( φ α/ 2

4

2[ n + ( φ α/ 2

2 ]

2 n p ˆ + ( φ α/ 2

2 −

( φ α/ 2

2

[

4 n p ˆ(1 − p ˆ) + ( φ α/ 2

2

]

2[ n + ( φ α/ 2

2 ]

2 n p ˆ + ( φ α/ 2

2 − φ α/ 2

4 n p ˆ(1 − p ˆ) + ( φ α/ 2

2

2[ n + ( φ α/ 2

2 ]

Dividiendo numerador y denominador por 2 n , nos queda

p 1

p ˆ +

( φα/ 2 )

2

2 n

φ α/ 2

p ˆ(1− p ˆ)

n

( φα/ 2 )

2

4 n

2

[

( φ α/ 2

)

2

n

] (3.13)

De manera análoga, procedemos para p 2

, quedando

p 2

p ˆ +

( φ α/ 2

)

2

2 n

  • φ α/ 2

p ˆ(1− p ˆ)

n

( φ α/ 2

)

2

4 n

2

[

( φα/ 2 )

2

n

] (3.14)

3.5 Intervalos de confianza para la proporción de una población 11

Luego un intervalo de confianza del 100(1 − α ) % para la proporción muestral será

I = ( p 1

, p 2

Donde p 1

y p 2

están dados por (3.13) y (3.14). Si n es grande, los términos con

φα/ 2

n

se desprecian

y queda

p 1

= ˆ pφ α/ 2

p ˆ(1 − p ˆ)

n

p 2

= ˆ p + φ α/ 2

p ˆ(1 − p ˆ)

n

O sea, los límites del intervalo aproximadamente son:

p ˆ ∓ φ α/ 2

p ˆ(1 − p ˆ)

n

Una pregunta natural es: “¿Cómo determinamos que el tamaño de la muestra que tenemos es

suficiente para la aproximación normal que se usa en las fórmulas anteriores?”. Existen varias

reglas generales que se utilizan para determinar la idoneidad del tamaño de la muestra para

una aproximación normal. Algunas de las reglas populares son que np y n (1 − p ) deberían

ser mayores de 10, o que p ˆ ± 2

p ˆ(1 − p ˆ) /n debería estar contenido en el intervalo (0 , 1), o

np (1 − p ) ≥ 10, etc. Todas estas reglas funcionan mal cuando p está más cerca de 0 o 1.

Se desea estimar la proporción de personas en una población, que gasta más del 30 % de sus

ingresos en alimentación. A tal efecto se escoge una muestra aleatoria de 1.000 personas,

siendo el 20 % la proporción muestral que gasta más del 30 % en alimentos. Calcular un

intervalo de confianza del 95 % para la verdadera proporción,

  1. usando el intervalo dado por (3.15)
  2. usando el intervalo aproximado dado en (3.18).

Solución

Tenemos ˆ p = 0 , 2; 1 − α = 0 , 95 ⇒ α/ 2 = 0 , 025; φ 0 , 025

= 1 , 96 y n = 1000

  1. Usando (3.15), los límites p 1

y p 2

son:

p 1

(1 , 96)

2

2000

0 , 2 × 0 , 8

1000

(1 , 96)

2

4(1000)

2

(1 , 96)

2

1000

p 2

(1 , 96)

2

2000

0 , 2 × 0 , 8

1000

(1 , 96)

2

4(1000)

2

(1 , 96)

2

1000

3.5 Intervalos de confianza para la proporción de una población 13

p 1

= ˆ pφ α/ 2

p ˆ(1 − p ˆ)

n

Nn

N − 1

p 2

= ˆ p + φ α/ 2

p ˆ(1 − p ˆ)

n

Nn

N − 1

o sea, un intervalo de confianza para p será de la forma

p ˆ ∓ φ α/ 2

p ˆ(1 − p ˆ)

n

Nn

N − 1

En una población de 2000 personas se desea estimar la proporción de personas que fuman,

mediante una muestra de 200 personas. Si el 40 % de las personas de la muestra fuma, calcular

un intervalo de confianza del 95 % para la verdadera proporción de fumadores.

Solución

Tenemos

p ˆ = 0 , 4; 1 − α = 0 , 95; α/ 2 = 0 , 025; N = 2000 y n = 200

Luego

0 , 4 × 0 , 6

de donde

I = (0 , 3356; 0 , 4644)

o sea, la proporción de fumadores de la población está entre 33 , 56 % y 46 , 44 % con una

confianza del 95 %.

3.5.3 Margen de error y tamaño de la muestra

En los problemas del mundo real, las estimaciones de la proporción p suelen ir acompañadas

de un margen de error, en lugar de un intervalo de confianza. Por ejemplo, en los medios de

comunicación, especialmente antes de la hora de las elecciones, escuchamos declaraciones como

“La encuesta de la CNN/USA Today/Gallup de 818 votantes inscritos, realizada el 27 y 30 de junio,

mostró que si las elecciones se celebraran ahora, el presidente derrotaría a su contendiente 52 % a

40 %, con una tasa de participación del 40 %. 8 % indeciso. La encuesta tenía un margen de error

de más o menos cuatro puntos porcentuales.” ¿Qué es este “margen de error”? Según la American

Statistical Association , el margen de error es un resumen común del error de muestreo que cuantifica

la incertidumbre sobre el resultado de una encuesta. Por lo tanto, el margen de error no es más

que un intervalo de confianza. El número citado en la declaración anterior es la mitad del ancho

máximo de un intervalo de confianza del 95 %, expresado como porcentaje.

Sea b el ancho de un intervalo de confianza del 95 % para la proporción verdadera, p. Sea p ˆ = x/n

una estimación para p donde x es el número de éxitos en n ensayos. Entonces

b =

x

n

( x/n )(1 − ( x/n ))

n

x

n

( x/n )(1 − ( x/n ))

n

( x/n )(1 − ( x/n ))

n

4 n

dado que ( x/n )(1 − ( x/n )) + p ˆ(1 − p ˆ) ≤

1

4

. Entonces, el margen de error asociado a p ˆ = x/n es 100 d %,

donde

d =

m´ax b

1

4 n

n

De la derivación anterior, es claro que podemos calcular el margen de error para cualquier valor de

α reemplazando 1.96 por el valor correspondiente de φ α/ 2

Una mirada rápida a la fórmula del intervalo de confianza para las proporciones revela que una

muestra más grande produciría un intervalo más corto (suponiendo que otras cosas sean iguales) y

por lo tanto una estimación más precisa de p. La muestra más grande es más costosa en términos de

tiempo, recursos y dinero, mientras que las muestras que son demasiado pequeñas pueden resultar

en inferencias inexactas. Entonces, resulta beneficioso determinar el tamaño mínimo de la muestra

requerido (por lo tanto, menos costoso) para lograr el grado de precisión prescrito (normalmente, el

grado mínimo de precisión aceptable). Hemos visto que el intervalo de confianza del 100(1 − α ) %

para p de una muestra grande es

p ˆ − z α/ 2

p ˆ(1 − p ˆ)

n

< p < p ˆ + z α/ 2

p ˆ(1 − p ˆ)

n

Reescribiendo, tenemos

| p ˆ − p | ≤ z α/ 2

p ˆ(1 − p ˆ)

n

z α/ 2

n

p ˆ(1 − p ˆ)

lo cual muestra que, con probabilidad (1 − α ), la estimación de p ˆ está dentro de z α/ 2

p ˆ(1 − p ˆ) /n

unidades de p. Dado que p ˆ(1 − p ˆ) ≤

1

4

, para todo valor de p ˆ, podemos escribir la desigualdad anterior

como

| p ˆ − p | ≤

z α/ 2

n

z α/ 2

n

Si deseamos estimar p a nivel (1− α ) dentro de d unidades de su verdadero valor, esto es | p ˆ− p | ≤ d ,

el tamaño de la muestra debe satisfacer la condición ( z α/ 2

n )) ≤ d , o

n

z

2

α/ 2

4 d

2

Por lo tanto, para estimar p en el nivel (1 − α ) dentro de d unidades de su valor verdadero,

tomamos el tamaño mínimo de la muestra como n = z

2

α/ 2

/ 4 d

2 , y si no se trata de un número entero,

redondeamos al siguiente número entero.

A veces, podemos tener una estimación inicial p ˜ del parámetro p de un proceso similar o de un

estudio piloto o una simulación. En este caso, podemos usar la siguiente fórmula para calcular el

tamaño mínimo requerido de la muestra para estimar p , en el nivel (1 − α ), dentro de d unidades

usando la fórmula

n =

z

2

α/ 2

p ˜(1 − p ˜)

d

2

  1. Debido a que ˜ p = 0 , 7, el tamaño de muestra requerido se calcula a partir de

n =

z

2

α/ 2

p ˜(1 − p ˜)

d

2

2 (0 , 70)(0 , 30)

2

Por lo tanto, la estación de televisión debe entrevistar al menos a 897 personas.

En la práctica, deberíamos darnos cuenta de que uno de los factores clave de un buen diseño

no es el tamaño de la muestra por sí mismo, sino la obtención de muestras representativas.

Incluso si tenemos un tamaño de muestra muy grande, si la muestra no es representativa

de nuestra población objetivo, entonces el tamaño de la muestra no significa nada. Por lo

tanto, siempre que sea posible, debemos utilizar procedimientos de muestreo aleatorio (u

otros procedimientos de muestreo apropiados) para asegurar que nuestra población objetivo

esté adecuadamente representada.

3.6 Intervalos de confianza para la varianza

3.6.1 Población normal

Dada una población normal con media μ y varianza σ

2 , sabemos que la variable

ns

2

σ

2

tiene

distribución χ

2 con n − 1 grados de libertad. Para calcular un intervalo de confianza del 100(1 − α ) %

para σ

2 , se tienen que encontrar dos valores a y b tales que

P

a

ns

2

σ

2

b

= 1 − α

P

a

ns

2

σ

2

b

ns

2

= 1 − α

P

ns

2

a

σ

2 ≥

ns

2

b

= 1 − α

P

ns

2

b

σ

2 ≤

ns

2

a

= 1 − α

Queremos a y b tal que la amplitud del intervalo sea mínima. Como χ

2 no es simétrica no podemos

aplicar el criterio utilizado anteriormente con las distribuciones φ y t. Además, la distribución χ

2

es válida solo para valores positivos y por lo tanto no la podemos usar para variables aleatorias

que tomen valores negativos. Un intervalo aproximadamente mínimo para n no muy pequeña, se

consigue escogiendo a y b tales que

P

ns

2

σ

2

b

= α/ 2 y P

ns

2

σ

2

a

= α/ 2

De la figura 3.1 se observa que b = χ

2

α/ 2

y a = χ

2

1 − α/ 2

, luego un intervalo de confianza del

100(1 − α ) % para la varianza de una variable normalmente distribuida está dado por

I =

ns

2

χ

2

α/ 2

ns

2

χ

2

1 − α/ 2

3.6 Intervalos de confianza para la varianza 17

Figura 3.1: Distribución χ

2

n − 1

con áreas iguales a ambos lados del intervalo de confianza (1 − α )

Equivalentemente, un intervalo de confianza para la desviación estándar será

I =

ns

2

χ

2

α/ 2

ns

2

χ

2

1 − α/ 2

Se desea estimar la varianza de una población normal mediante una muestra de 20 elementos

que dio una varianza muestral de 15. Calcular un intervalo de confianza para σ

2 del 95 %.

Solución

Tenemos

n = 20; s

2

= 15; 1 − α = 0 , 95 ⇒ α/ 2 = 0 , 025

De donde se tiene

χ

2

α/ 2

( n − 1) = χ

2

0 , 025

(19) = 32 , 9 y χ

2

1 − α/ 2

( n − 1) = χ

2

0 , 975

Luego, los límites de un intervalo de confianza serán

ns

2

χ

2

α/ 2

20 × 15

ns

2

χ

2

1 − α/ 2

20 × 15

de donde un intervalo de confianza del 95 % para σ

2 será

I = (9 , 1185; 33 , 67)

3.7 Intervalos de confianza relativos a parámetros para dos poblaciones 19

Instrucciones en R

Intervalo de confianza para la varianza

ic.var <- function(x, conf.level =0.95) {

alfa <- 1 - conf.level

n <- length(x)

l1 <- (n - 1)

var(x) / qchisq (1 - alfa / 2,n - 1)

l2 <- (n - 1)

var(x) / qchisq(alfa / 2,n - 1)

ic <- c(l1 ,l2)

return(ic)

Usaremos el conjunto de datos iris propio de R, para probar la función creada anteriormente.

Este famoso conjunto de datos iris (de Fisher o de Anderson) da las medidas en centímetros de

las variables longitud y anchura del sépalo y longitud y anchura del pétalo, respectivamente,

para 50 flores de cada una de las 3 especies de iris. Las especies son Iris setosa, versicolor y

virginica.

Instrucciones en R

Cálculo del IC de la varianza de Sepal.Length de Iris

data(iris)

ic.var(iris$Sepal.Length)

[1] 0.5531973 0.

Cálculo del IC de la varianza de todas las variables numéricas

de Iris usando sapply

sapply(iris [,1:4],ic.var)

Sepal.Length Sepal.Width Petal.Length Petal.Width

[1,] 0.5531973 0.1532698 2.514121 0.

[2,] 0.8725029 0.2417372 3.965272 0.

3.7 Intervalos de confianza relativos a parámetros para dos poblaciones

En las secciones anteriores estudiamos los intervalos de confianza de los parámetros verdaderos

de muestras de poblaciones individuales. Ahora, consideramos la estimación del intervalo basada

en muestras de dos poblaciones. Nuestro interés es obtener un intervalo de confianza para los

parámetros de interés basado en dos muestras independientes tomadas de estas dos poblaciones.

3.7.1 Intervalos de confianza para la diferencia de medias

Poblaciones con varianza conocidas

Dadas dos poblaciones con medias desconocidas μ x

y μ y

y varianzas conocidas σ

2

x

y σ

2

y

respecti-

vamente. Si x ¯ e y ¯ son las medias muestrales de ambas poblaciones, sabemos que x ¯ e y ¯ se distribuyen

normalmente. Además

x ¯ − y ¯ ∼ N

μ x

μ y

σ

2

x

n x

σ

2

y

n y

de donde

( ¯ xy ¯) − ( μ x

μ y

σ

2 x

n x

σ

2

y

n y

∼ N (0 , 1)

luego

P

φ α/ 2

( ¯ xy ¯) − ( μ x

μ y

σ

2

x

n x

σ

2 y

n y

φ α/ 2

= 1 − α

P

( ¯ xy ¯) − φ α/ 2

σ

2

x

n x

σ

2

y

n y

< μ x

μ y

< ( ¯ xy ¯) + φ α/ 2

σ

2

x

n x

σ

2

y

n y

= 1 − α

Luego, un intervalo de confianza del 100(1 − α ) % para la diferencia de las medias μ x

μ y

será de la

forma

( ¯ xy ¯) ∓ φ α/ 2

σ

2

x

n x

σ

2

y

n y

Un Banco de Caracas tiene un sucursal en el Centro y otra en el Este. Se desea estimar la

diferencia de depósitos medios mensuales por cliente entre ambas sucursales. Suponga que

la varianza en los depósitos por cliente en el centro sea 100, y en el este 110. Una muestra de

100 clientes en el centro dio una media de Bs. 2000. Una muestra de 120 clientes en el este

dio una media de Bs. 1800. Calcular un intervalo de confianza del 95 % para la diferencia de

depósitos medios por cliente.

Solución

Tenemos

x ¯ = 2000; y ¯ = 1800; σ

2

x

= 100; σ

2

y

= 100; n x

= 100; n y

Luego

( ¯ xy ¯) ∓ φ α/ 2

σ

2

x

n x

σ

2

y

n y

de donde un intervalo de confianza del 95 % para la diferencia de medias es