Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad

Prueba χ2 de Bondad del Ajuste y Contraste de Independencia: Ejercicios Resueltos, Guías, Proyectos, Investigaciones de Estadística Matemática

Descripción de distintas pruebas de bondad de ajuste para distribuciones estadísticas con aplicaciones en R

Tipo: Guías, Proyectos, Investigaciones

2018/2019

Subido el 21/11/2019

jose-benito-hernandez-chaudary
jose-benito-hernandez-chaudary 🇲🇽

4.8

(8)

7 documentos

1 / 46

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
5.1 Introducción 1
José Benito Hernández C.
Guía de Estadística con R
Tema 5
Pruebas de Bondad de Ajustes y
Análisis de Varianza
5.1 Introducción
En este capítulo, estudiaremos varios métodos de prueba de bondad de ajuste, para determinar si
un conjunto dado de datos sigue una distribución de probabilidad particular. Además, realizaremos
análisis paramétricos utilizando datos reales de economía, medio ambiente y ciencias de la salud.
Karl Pearson (1857-1936) es considerado el fundador de la ciencia estadística del siglo XX. Pearson
ha contribuido en varios campos diferentes como la antropología, biometría, genética, métodos
científicos y teoría estadística. Aplicó la estadística a los problemas biológicos de la herencia y la
evolución. En 1911, fundó el primer departamento de estadística universitaria del mundo en el
University College London. Es autor de La gramática de la ciencia, los tres volúmenes de La vida, las
letras y las labores de Francis Galton, y La ética del libre pensamiento. Pearson fue el fundador de la
revista estadística Biometrika. En 1900, publicó un artículo sobre la prueba de bondad de ajuste
chi-cuadrado que estudiaremos en este capítulo. Esta es una de las contribuciones más significativas
de Pearson a las estadísticas. En 1893, Pearson acuñó el término “desviación estándar”.
Al estudiar varios fenómenos del mundo real, comenzamos con una muestra aleatoria de datos
X1,...,Xn
que representa valores de algún tipo de tema de interés. Estas mediciones podrían
representar la cantidad de dióxido de carbono, CO2, en la atmósfera diariamente, el tamaño de los
tumores cancerosos del seno, el promedio mensual de precipitaciones en el Estado de la Florida, la
tasa de desempleo mensual promedio en los Estados Unidos, las fuerzas del viento por hora de un
huracán, etc. Con el fin de que podamos probabilísticamente entender el comportamiento de estos
fenómenos, necesitamos identificar la probabilidad que sigue o de la que se extraen los datos dados.
Por ejemplo, en un momento dado decimos que estos datos siguen o provienen de la distribución de
probabilidad normal o exponencial. Una de las preguntas importantes es si los datos observados son
representativos o si siguen una distribución de probabilidad particular. De hecho, no hay nada que
podamos hacer paramétrica o estadísticamente a menos que mediante pruebas de bondad de ajuste
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e

Vista previa parcial del texto

¡Descarga Prueba χ2 de Bondad del Ajuste y Contraste de Independencia: Ejercicios Resueltos y más Guías, Proyectos, Investigaciones en PDF de Estadística Matemática solo en Docsity!

5.1 Introducción 1

José Benito Hernández C.

Guía de Estadística con R

Tema 5

Pruebas de Bondad de Ajustes y

Análisis de Varianza

5.1 Introducción

En este capítulo, estudiaremos varios métodos de prueba de bondad de ajuste, para determinar si un conjunto dado de datos sigue una distribución de probabilidad particular. Además, realizaremos análisis paramétricos utilizando datos reales de economía, medio ambiente y ciencias de la salud. Karl Pearson (1857-1936) es considerado el fundador de la ciencia estadística del siglo XX. Pearson ha contribuido en varios campos diferentes como la antropología, biometría, genética, métodos científicos y teoría estadística. Aplicó la estadística a los problemas biológicos de la herencia y la evolución. En 1911, fundó el primer departamento de estadística universitaria del mundo en el University College London. Es autor de La gramática de la ciencia , los tres volúmenes de La vida, las letras y las labores de Francis Galton , y La ética del libre pensamiento. Pearson fue el fundador de la revista estadística Biometrika. En 1900, publicó un artículo sobre la prueba de bondad de ajuste chi-cuadrado que estudiaremos en este capítulo. Esta es una de las contribuciones más significativas de Pearson a las estadísticas. En 1893, Pearson acuñó el término “desviación estándar”. Al estudiar varios fenómenos del mundo real, comenzamos con una muestra aleatoria de datos X 1 ,... , Xn que representa valores de algún tipo de tema de interés. Estas mediciones podrían representar la cantidad de dióxido de carbono, CO2, en la atmósfera diariamente, el tamaño de los tumores cancerosos del seno, el promedio mensual de precipitaciones en el Estado de la Florida, la tasa de desempleo mensual promedio en los Estados Unidos, las fuerzas del viento por hora de un huracán, etc. Con el fin de que podamos probabilísticamente entender el comportamiento de estos fenómenos, necesitamos identificar la probabilidad que sigue o de la que se extraen los datos dados. Por ejemplo, en un momento dado decimos que estos datos siguen o provienen de la distribución de probabilidad normal o exponencial. Una de las preguntas importantes es si los datos observados son representativos o si siguen una distribución de probabilidad particular. De hecho, no hay nada que podamos hacer paramétrica o estadísticamente a menos que mediante pruebas de bondad de ajuste

identifiquemos las funciones de densidad de probabilidad que caractericen probabilísticamente el comportamiento de los datos dados, para el fenómeno de nuestro interés. Para lograr este objetivo de identificar la distribución de probabilidad subyacente, discutiremos cuatro pruebas estadísticas (métodos), que podemos usar para determinar cuán buenos son los datos para una distribución de probabilidad en particular. Estas cuatro pruebas son las siguientes:

  1. Prueba χ^2 de Bondad del Ajuste.
  2. Prueba de Kolmogorov-Smirnov.
  3. Prueba de Anderson-Darling.
  4. Prueba de Shapiro-Wilk.

Se supone que la demanda de un cierto bien es una variable aleatoria exponencial con media igual a 25 unidades. Una muestra aleatoria de 100 elementos dio los siguientes resultados:

Demanda 0-10 10-20 20-30 30-40 40-50 50-60 60- Frecuencia 20 30 25 10 5 3 7

En la gráfica 5.1 se pueden ver los resultados de la muestra en un histograma de frecuencias relativas junto con la curva de la densidad exponencial de media μ = 25.

Figura 5.1: Comparación del histograma de frecuencias relativas de la demanda del bien con la curva exponen- cial con θ = 25

Las frecuencias muestrales son fi : 23 , 35 , 27 , 40 , 15 , 40 Las frecuencias teóricas son f (^) i^0 : 30 , 30 , 30 , 30 , 30 , 30 El tamaño de la muestra es n = 180, y el estadístico de prueba es

Q^2 =

∑^ r

i =

( fif (^) i^0 )^2 f (^) i^0

∑^6

i =

( fif (^) i^0 )^2 f (^) i^0

=

(23 − 30)^2

(35 − 30)^2

(27 − 30)^2

(40 − 30)^2

(15 − 30)^2

(40 − 30)^2

El valor de χ^2 α ( r − 1) es χ^2 α ( r − 1) = χ^20 , 05 (5) = 11 , 07

Se tiene así que Q^2 = 16 , 9 > 11 , 07 = χ α^2 ( r − 1), por lo que se rechaza H 0 , es decir, el dado no está bien balanceado.

La demanda diaria de un determinado artículo es una variable aleatoria con media igual a 4. Una muestra aleatoria de 400 días dio los siguientes resultados: x 0 1 2 3 4 5 6 7 8 9 o más fi 10 25 45 52 65 70 60 35 23 15

Se desea saber si los datos se ajustan bien a una distribución de Poisson. Use α = 0 , 05.

Solución

Las hipótesis que planteamos de la descripción del problema son: H 0 : X ∼ Poisson( λ = 4) Ha : X no tiene distribución de Poisson Calculemos las frecuencias esperadas suponiendo cierta la hipótesis nula, para ello nos valemos de la función de probabilidad de Poisson con λ = 4, esto es

fi = P ( X = xi ) =

λxi^ eλ xi!

luego

x 0 1 2 3 4 5 6 7 8 9 o más fi 7,32 29,32 58,60 78,16 78,16 62,52 41,68 23,80 11,92 8,

El estadístico de prueba es

Q^2 =

∑^ r

i =

( fif (^) i^0 )^2 f (^) i^0

∑^10

i =

( fif (^) i^0 )^2 f (^) i^0

= (10^ −^7 , 32)

2 7 , 32

+ (25^ −^29 , 32)

2 29 , 32

+ · · · + (15^ −^8 , 52)

2 8 , 52 = 45 , 214

5.2 Prueba χ^2 de Bondad del Ajuste 5

Ahora, para α = 0 , 05, se tiene χ^20 , 05 (9) = 16 , 92, de donde Q^2 = 45 , 214 > 16 , 92 = χ^2 α , por lo tanto se rechaza la hipótesis nula, es decir, los datos no se ajustan a una distribución de Poisson.

Dada una muestra aleatoria de tamaño n = 30 observaciones de un experimento de un cierto fenómeno de interés, esto es 1.79 2.62 7.92 9.77 12.13 15.04 16.14 20.74 22.73 23. 24.97 26.12 27.06 29.60 32.47 36.32 42.18 45.06 45.64 48. 48.87 64.99 66.28 68.00 68.60 75.34 99.32 162.48 164.38 235.

Se cree que estos datos siguen una distribución exponencial. Haga la prueba con un valor α = 0 , 05.

Solución Necesitamos probar la hipótesis H 0 : Los datos dados siguen una distribución exponencial versus Ha : Los datos dados no siguen una distribución exponencial Usaremos la prueba χ^2 de bondad de ajuste para probar nuestra afirmación. Usaremos el siguiente código en R para ello. El p -valor dado por R es 2 , 201 × 10 −^10 , por lo tanto rechazamos la hipótesis nula y concluimos que los datos dados no siguen una distribución exponencial.

Instrucciones en R

x=c(1.79 ,2.62 ,7.92 ,9.77 ,12.13 ,15.04 ,16.14 ,20.74 ,22.73 ,23.29 , 24.97 ,26.12 ,27.06 ,29.60 ,32.47 ,36.32 ,42.18 ,45.06 ,45.64 ,48.34 , 48.87 ,64.99 ,66.28 ,68.00 ,68.60 ,75.34 ,99.32 ,162.48 ,164.38 ,235.95) chisq.test(cbind(x,dexp(x)))

5.2.2 Para poblaciones continuas

Para usar la prueba χ^2 de bondad de ajuste en poblaciones continuas se presenta la dificultad de que las probabilidades de que la variable tome un determinado valor son cero; por eso las suposiciones básicas para aplicar esta prueba son:

  1. Las frecuencias observadas en las r clases son independientes

r i =1 fi^ =^

r i =1 f^

0 i =^ n

  1. La frecuencia total, n , debe ser aproximadamente mayor a 50.
  2. La frecuencia esperada de cada clase debe ser al menos 5. A continuación presentamos un resumen de un procedimiento paso a paso para la aplicación de esta prueba al caso continuo.

5.2 Prueba χ^2 de Bondad del Ajuste 7

Para calcular el estadístico de prueba necesitamos las frecuencias teóricas, usando el proce- dimiento descrito anteriormente construimos la tabla siguiente: x fi p^0 i f (^) i^0 = p^0 i n < 30 4 0,0228 2, 30-33 5 0,0580 5, 33-36 10 0,1311 13, 36-39 22 0,2088 20, 39-42 18 0,2347 23, 42-45 24 0,1859 18, 45-48 12 0,1039 10, > 48 5 0,0548 5,

Para el cálculo de las p^0 i hemos utilizado la distribución normal N (40 , 5). Como los dos primeros intervalos tiene frecuencia teórica menor a 5, los unimos y nos quedan 7 intervalos de frecuencia. Ahora, el estadístico de prueba es

Q^2 =

∑^7

i =

( fif (^) i^0 )^2 f (^) i^0

(9 − 8 , 08)^2

(5 − 5 , 48)^2

El valor de α es 0,05, de donde χ^20 , 05 (6) = 12 , 59, luego Q^2 = 4 < 12 , 59 = χ^2 α , por lo que aceptamos la hipótesis de que la distribución del contenido de la bombonas es normal con media μ = 40 y desviación estándar σ = 5.

5.2.3 Poblaciones con parámetros desconocidos

El contraste χ^2 es aplicable también cuando los parámetros son desconocidos, si se sustituyen estos por los valores de sus estimadores de máxima verosimilitud obtenidos a partir de la muestra. En estos casos la comparación se hace contra una χ^2 con r − 1 − k grados de libertad, donde k es el número de parámetros estimados con los datos de la muestra.

Los datos siguientes corresponden al número de personas que han acudido a la caja de un Banco en un período de 60 horas escogidas al azar. ¿Se ajustan los datos a una distribución de Poisson? Use α = 0 , 05. 8 1 2 4 5 6 5 8 4 5 7 9 6 8 9 6 8 11 7 6 3 6 3 4 3 5 10 8 11 9 7 2 5 6 2 4 5 10 6 7 8 2 7 12 7 8 9 9 4 10 5 3 10 7 4 5 4 6 6 5

Solución Tenemos el tamaño de la muestra n = 60, la hipótesis que nos planteamos son: H 0 : X tiene distribución de Poisson Ha : X no tiene distribución de Poisson

El estimador de máxima verosimilitud de λ es ¯ x , luego

x ¯ = 1 60

∑^60

i =

xi =^372 60

Las frecuencias muestrales y teóricas se dan en la siguiente tabla

Clase 0 1 2 3 4 5 6 7 8 fi 0 1 4 4 7 9 9 7 7 f (^) i^0 0,120 0,756 2,340 4,836 7,494 9,294 9,606 8,508 6, Clase 9 10 11 ≥ 12 fi 5 4 2 1 f (^) i^0 4,542 2,814 1,590 1,

Como las primeras cuatro clases y las últimas cuatro clases tienen frecuencias teóricas menores a 5 las unimos y nos quedan 7 clases como sigue

Clase ≤ 3 4 5 6 7 8 ≥ 9 fi 9 7 9 9 7 7 12 f (^) i^0 8,052 7,494 9,294 9,606 8,508 6,594 10,

El estadístico de prueba es

Q^2 =

∑^7

i =

( fif (^) i^0 )^2 f (^) i^0

= (9^ −^8 , 052)

2 8 , 052

+ (7^ −^7 , 494)

2 7 , 494

+ (9^ −^9 , 294)

2 9 , 294

+ (9^ −^9 , 606)

2 9 , 606

+ (7^ −^8 , 508)

2 8 , 508

(7 − 6 , 594)^2

(12 − 10 , 452)^2

Para α = 0 , 05, como hemos estimado un solo parámetro, se tiene k = 1, luego

χ^2 α ( r − 1 − k ) = χ^20 , 05 (5) = 11 , 07

Se tiene que Q^2 = 0 , 729 < 11 , 07 = χ^20 , 05 Por lo que aceptamos la hipótesis nula de que los datos se ajustan bien a una distribución de Poisson. Se deja como ejercicio calcular el p -valor para esta prueba.

Proposición 5.3.1.

PF ( Dd ) es la misma para cada distribución continua F.

Demostración

PF ( Dd ) = PF

x ax

yix n

F ( x )

∣ ≥^ d

= PF

x ax

F ( yi ) ≤ F ( x ) n

F ( x )

∣ ≥^ d

= PF

x ax

UiF ( x ) n −^ F ( x )

∣ ≥^ d

donde U 1 ,... , Un son variables aleatorias uniformes en (0 , 1) independientes; la primera igualdad se sigue porque F es una función creciente, y así yx es equivalente a F ( y ) ≤ F ( x ); la segunda resulta que si Y tiene distribución continua F , entonces la variable aleatoria F ( Y ) es uniforme en (0 , 1). Ahora bien, haciendo y = F ( x ) y notando que x ∈ (−∞ , ∞), entonces F ( x ) tiene rango (0 , 1), luego PF ( Dd ) = P

0 m´≤ y ax≤ 1

Uiy n −^ y

∣ ≥^ d

lo cual muestra que la distribución de D , cuando H 0 es cierta, no depende de la distribución de F.

Usar el contraste Kolmogorov-Smirnov para resolver el ejemplo 5.5. Siendo H 0 : F ( x ) tiene distribución normal N (40 , 25); use α = 0 , 05.

Solución

La hipótesis para este problema son: H 0 : F ( x ) tiene distribución normal N (40 , 25) Ha : F ( x ) no tiene distribución normal.

Tenemos la siguiente tabla con los valores

x Fn ( x ) F 0 ( x ) | Fn ( x ) − F 0 ( x )| 30 0,04 0,0228 0, 33 0,09 0,0808 0, 36 0,19 0,2119 0, 39 0,41 0,4207 0, 42 0,59 0,6554 0, 45 0,83 0,8413 0, 48 0,95 0,9452 0, 51 1,00 0,9861 0,

5.3 Contraste de Kolmogorov-Smirnov 11

De la tabla se tiene Dn = m´ax | Fn ( x ) − F 0 ( x )| = 0 , 0654 , por otra parte, Dn,α = D 100;0 , 05 = 0 , 14, se tiene así que Dn = 0 , 0654 < 0 , 14 = Dn,α , por lo tanto se acepta H 0 , esto es, la distribución del contenido de las bombonas es N (40 , 25).

Considere los datos del ejemplo 5.1. ¿Se justifica la hipótesis de que la distribución es exponencial? Usar el contraste Kolmogorov-Smirnov con un nivel de significancia del 10 %.

Solución

Las hipótesis son: H 0 : F ( x ) es exponencial con media 25 Ha : F ( x ) no es exponencial con media 25 Construimos la tabla con los valores de la distribución x Fn ( x ) F 0 ( x ) | Fn ( x ) − F 0 ( x )| 10 0,20 0,3297 0, 20 0,50 0,5507 0, 30 0,75 0,6939 0, 40 0,85 0,7931 0, 50 0,90 0,8647 0, 60 0,93 0,9043 0, 70 1,00 0,9392 0,

De la tabla se tiene que Dn = m´ax | Fn ( x ) − F 0 ( x )| = 0 , 1297_._ Además, Dn,α = D 100;0 , 10 = 1 √ ,^22 n = √^1100 ,^22 = 0 , 122, se tiene así que Dn = 0 , 1297 > 0 , 122 = Dn,α , por lo que rechazamos H 0 , es decir, la demanda del bien no tiene distribución exponencial de media 25.

De una clase grande de estadística, se tomó una muestra aleatoria de n = 55 estudiantes y se registraron sus edades. Los resultados son los siguientes: 27 25 24 24 22 20 21 22 21 25 24 26 25 24 23 22 20 21 19 21 25 24 26 25 22 23 22 22 21 19 21 23 21 26 24 22 23 22 22 20 19 21 23 21 26 24 22 23 21 19 20 18 20 20 18

Se cree que estos datos siguen una distribución normal y deseamos usar la prueba de Kolmogorov-Smirnov para comprobar dicha afirmación.

Fila Edad Fn ( x ) F 0 ( x ) | Fn ( x ) − F 0 ( x )|

  • 5.3 Contraste de Kolmogorov-Smirnov
    • 14 21 0.286 0.255 0.
    • 15 21 0.286 0.273 0.
    • 16 21 0.286 0.291 0.
    • 17 21 0.286 0.309 0.
    • 18 21 0.286 0.327 0.
    • 19 21 0.286 0.345 0.
    • 20 21 0.286 0.364 0.
    • 21 21 0.286 0.382 0.
    • 22 21 0.286 0.400 0.
    • 23 22 0.454 0.418 0.
    • 24 22 0.454 0.436 0.
    • 25 22 0.454 0.455 0.
    • 26 22 0.454 0.473 0.
    • 27 22 0.454 0.491 0.
    • 28 22 0.454 0.509 0.
    • 29 22 0.454 0.527 0.
    • 30 22 0.454 0.545 0.
    • 31 22 0.454 0.564 0.
    • 32 22 0.454 0.582 0.
    • 33 23 0.631 0.600 0.
    • 34 23 0.631 0.618 0.
    • 35 23 0.631 0.636 0.
    • 36 23 0.631 0.655 0.
    • 37 23 0.631 0.673 0.
    • 38 23 0.631 0.691 0.
    • 39 24 0.784 0.709 0.
    • 40 24 0.784 0.727 0.
    • 41 24 0.784 0.745 0.
    • 42 24 0.784 0.764 0.
    • 43 24 0.784 0.782 0.
    • 44 24 0.784 0.800 0.
    • 45 24 0.784 0.818 0.
    • 46 25 0.892 0.836 0.
    • 47 25 0.892 0.855 0.
    • 48 25 0.892 0.873 0.
    • 49 25 0.892 0.891 0.
    • 50 25 0.892 0.909 0.
    • 51 26 0.954 0.927 0.
    • 52 26 0.954 0.945 0.
    • 53 26 0.954 0.964 0.
    • 54 26 0.954 0.982 0.
    • 55 27 0.984 1.000 0.

De la tabla se tiene que el estadístico es Dn = 0 , 127, y el valor crítico usando α = 0 , 05 es Dn,α = 0 , 183. Se tiene así que Dn = 0 , 127 < Dn, 0 , 05 = 0 , 183 por lo que aceptamos la hipótesis nula de que las edades de los estudiantes del curso de estadística siguen una distribución normal. Podemos usar R para realizar el test de manera rápida.

Instrucciones en R

Datos

x=c(27 ,25 ,24 ,24 ,22 ,20 ,21 ,22 ,21 ,25 ,24 , 26 ,25,24 ,23 ,22,20 ,21 ,19 ,21 ,25,24 , 26 ,25,22 ,23 ,22,22 ,21 ,19 ,21 ,23,21 , 26 ,24,22 ,23 ,22,22 ,20 ,19 ,21 ,23,21 , 26 ,24 ,22 ,23 ,21 ,19 ,20 ,18 ,20 ,20 ,18)

Histograma de frecuencias

hist(x, breaks=c(17 ,18 ,19 ,20 ,21 ,22 ,23 ,24 ,25 ,26 ,27) , col="lightblue", xlab="Edades", ylab="Frecuencia", main = "Histograma de las edades")

Prueba de Kolmogorov -Smirnov

ks.test(x,pnorm ,mean(x),sd(x))

5.4 Contraste de Anderson-Darling

La prueba de bondad de ajuste de Anderson-Darling se usa también para determinar si un conjunto de datos de una cierta población sigue una distribución de probabilidad específica. Sea X 1 , X 2 ,... , Xn una muestra aleatoria de observaciones y sea Y 1 , Y 2 ,... , Yn los correspondientes órdenes de acuerdo a su tamaño. La hipótesis que deseamos probar es

H 0 : los datos dados siguen una distribución de probabilidad específica versus

Ha : los datos dados no siguen la distribución de probabilidad específica. El estadístico de prueba de Anderson-Darling esta dado por

A^2 = − ns (5.3)

donde s =

∑^ n

i =

(2 i − 1) n

[ln F ( Yi ) + ln(1 − F ( Yn +1− i ))] ,

n es el tamaño muestral, Yi los datos ordenados y F la función de distribución especificada que queremos probar. Para un nivel de significancia α dado, la hipótesis se rechaza si el valor del estadístico A es mayor que el valor crítico , esto es, si

A > Aα. El valor de se obtiene de la tabla de Anderson-Darling para el α dado. El siguiente ejemplo ilustra como aplicar dicha prueba.

Use la prueba de Shapiro-Wilk para probar si los datos de ejemplo 5.9 siguen una distribución normal. Use α = 0 , 05.

Solución Haremos la prueba directamente con R, el comando es shapiro.test(). En este caso al igual que con la prueba de Anderson-Darling, aceptamos la hipótesis nula de normalidad de la población. El p -valor en este caso es 0.1551.

Instrucciones en R

shapiro.test(x)

5.6 Gráficos P-P-Plots y Q-Q-Plots

Comúnmente utilizamos una interpretación visual de gráficos (diagramas) para determinar si una muestra aleatoria dada de datos sigue o se extrae de una distribución de probabilidad bien conocida. Estas gráficas son las gráficas de probabilidad, (P.P-plots) y las gráficas de cuantiles (Q.Q- plots). El gráfico P.P es una herramienta gráfica utilizada para determinar qué tan bien encaja un conjunto de datos dado con una probabilidad específica que estamos probando. Este gráfico compara las funciones de distribución acumulada empíricas de los datos dados con los de las funciones asumidas de distribución de probabilidad acumulativa real. Si el gráfico de estas dos distribuciones es aproximadamente lineal, indica que el pdf verdadero asumido da un ajuste razonablemente bueno a los datos dados que buscamos para encontrar su función de distribución verdadero. Sea F ( x ) la función de distribución acumulada de la variable aleatoria X con muestra aleatoria ordenada x (1) , x (2) ,... , x ( n ) con probabilidad asociada C ˆ( i ) = (^) n +1 i , el diagrama de dispersion P.P-plot es el gráfico de C ˆ( i ) versus C ( i ) = F [ X = x ( i )] de la posible función de distribución acumulada que estamos probando. Procedimiento paso a paso para el P.P-plot Paso 1. Dada una muestra aleatoria x 1 , x 2_... , xn_ , ordenamos los datos en forma creciente,

x (1) , x (2) ,... , x ( n ).

Paso 2. Asociamos con cada valor ordenado x ( i ) una probabilidad acumulada

C ˆ( i ) = i n + 1_._ Paso 3. Determinamos la probabilidad hipotética asociada con la distribución de probabilidad que estamos probando

C ( i ) = F [ X = x ( i )] F ( x ) = P [ Xx ] ,

donde F ( x ) es la función de distribución acumulada.

5.6 Gráficos P-P-Plots y Q-Q-Plots 17

Paso 4. Construimos el gráfico de C ˆ( i ) versus C ( i ) = F [ X = x ( i )] Paso 5. Interpretamos el gráfico, si el patrón general sigue aproximadamente una línea recta, entonces los datos siguen la distribución de probabilidad asumida, y si el patrón general tiene curvatura o picos, entonces los datos tienen un comportamiento sesgado y por lo tanto no siguen la distribución asumida.

Usando los datos del ejemplo 5.9, obtenga el P.P-plot usando R.

Instrucciones en R

qqplot(x,rnorm (55, mean(x),sd(x)), xlab = "Valores observados", ylab = "Valores esperados", main="Gráfico P.P-plot")

Figura 5.2: P.P-plot de las edades

El gráfico de cuantiles (Q.Q-plot) es otro método gráfico que se utiliza comúnmente para obtener una indicación gráfica de la función de distribución verdadera de la que provienen los datos dados. Este método es un gráfico de los cuantiles de la distribución empírica de los datos dados frente a los cuantiles de la función de distribución verdadera supuesto que estamos probando. Si el gráfico resultante de estas dos distribuciones sigue un patrón lineal, indica que el función de distribución asumida se ajusta razonablemente bien a los datos dados.

5.7 Contraste de independencia: Tablas de contingencia 19

Figura 5.3: Q.Q-plot de las edades

Criterio de clasificación B B 1 B 2 · · · Bc Totales filas Criterio de clasi- ficación A

A 1 n 11 n 12 · · · n 1 c n 1 · A 2 n 21 n 22 · · · n 2 c n 2 · .. .

Ah nh 1 nh 2 · · · nhc nh · Totales columnas n · 1 n · 2 · · · n · c n

Estas tablas se conocen como tablas de contingencia de doble entrada, ya que se trata de dos criterios de clasificación, ( h filas y c columnas). Se tiene así h × c categorías mutuamente excluyentes. Los elementos de la última columna corresponden a las sumas de los valores de las filas, esto es ni · =

c j =1 nij^ , y los de la última fila corresponden a la suma de los valores de las respectivas columnas, es decir n · j =

h i =1 nij^. Se quiere contrastar la independencia o no relación de las variables aleatorias o criterios de clasificación A y B. Sabemos de probabilidades que si A y B son independientes

P ( AiBj ) = P ( Ai ) P ( Bj ) ∀ i, j.

Designemos como pi · la probabilidad de que un elemento pertenezca a la categoría Ai , como p · j la probabilidad de que pertenezca a Bj y como pij la probabilidad de que pertenezca simultáneamente a Ai y Bj. Con esta notación, la hipótesis nula será

H 0 : pij = pi · p · j

contra la hipótesis alternativa Ha : pij , pi · p · j

Las probabilidades marginales no se conocen, pero pueden ser estimadas a partir de los datos muestrales. Los estimadores de máxima verosimilitud de pi · y p · j son

p ˆ i · =

ni · n

y p ˆ· j =

n · j n

Si la hipótesis nula H 0 es verdadera, las probabilidades conjuntas pij se pueden estimar por el producto de las probabilidades marginales ˆ pi · y ˆ p · j , esto es

p ˆ ij = ˆ pi · p ˆ· j

Una vez estimadas las probabilidades conjuntas, se puede calcular la frecuencias esperada en cada celda o casilla de la tabla de contingencia, esto es

fij = n p ˆ ij

Comparando estas frecuencias esperadas con las frecuencias muestrales nij se puede contrastar la hipótesis nula H 0. El estadístico a utilizar es el siguiente

χ^2 =

∑^ h

i =

∑^ c

j =

( nijfij )^2 fij^ (5.5)

que tiende a distribuirse como una variable χ^2 con [( h − 1)( c − 1)] grados de libertad. Luego si χ^2 > χ α^2 ;[( h −1)( c −1)] se rechaza H 0 si χ^2 < χ α^2 ;[( h −1)( c −1)] se acepta H 0

Se está interesado en determinar si existe relación entre el grado de educación y el nivel de rendimiento de la mano de obra en una industria. A tal efecto se clasificaron 400 obreros tomados aleatoriamente, con los siguiente resultados: PP PPP PPP PPP PP

Nivel de rendimiento

Grado de Educación (^) Ninguna Primaria Secundaria Técnica Total

Bajo 40 80 10 10 140 Medio 10 40 10 70 130 Alto 10 20 20 80 130 Total 60 140 40 160 400

Solución

Las hipótesis que se plantean son las siguientes: H 0 : pij = pi · p · j Ha : pij , pi · p · j , con i = 1 , 2 , 3, j = 1 , 2 , 3 , 4; n = 400