Prepara tus exámenes
Consigue puntos
Orientación Universidad

Vende en Docsity

Inicia sesión Regístrate

Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity

Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium

Orientación Universidad

Vende en Docsity

Inicia sesión Regístrate

Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity

Busca documentos

Prepara tus exámenes con los documentos que comparten otros estudiantes como tú en Docsity

Busca documentos en el Store

Los mejores documentos en venta realizados por estudiantes que han terminado sus estudios

Estudia con lecciones y exámenes resueltos basados en los programas académicos de las mejores universidades

Responde a preguntas de exámenes reales y pon a prueba tu preparación

Busca entre todos los recursos para el estudio

Resume tus documentos, hazles preguntas, conviértelos en quiz y mapas conceptuales

Despeja tus dudas leyendo las respuestas a las preguntas que realizaron otros estudiantes como tú

Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium

Compartir documentos

Por cada documento subido

Responde a las preguntas

por cada respuesta dada (máx. 1 al día)

Todos los modos para conseguir puntos gratis

Consigue puntos de inmediato

Elige un plan Premium con todos los puntos que necesitas.

Oportunidades de estudio

Elige tu próximo programa de estudio

Ponte en contacto inmediatamente con las mejores universidades del mundo. Busca entre miles de universidades en todo el mundo. Busca entre miles de universidades partner oficiales

Comunidad

Pregúntale a la comunidad

Pide ayuda a la comunidad y resuelve tus dudas de estudio

Ranking de las universidades

Descubre las mejores universidades de tu país según los usuarios de Docsity

Ebooks gratuitos

¡Nuestros e-books salva-estudiantes!

Descarga nuestras guías gratuitas sobre técnicas de estudio, métodos para controlar la ansiedad y consejos para la tesis preparadas por los tutores de Docsity

Del blog

Prueba χ2 de Bondad del Ajuste y Contraste de Independencia: Ejercicios Resueltos, Guías, Proyectos, Investigaciones de Estadística Matemática

Centro de Investigación en Matemáticas (CIMAT) (Guanajuato)Estadística Matemática

Descripción de distintas pruebas de bondad de ajuste para distribuciones estadísticas con aplicaciones en R

Tipo: Guías, Proyectos, Investigaciones

2018/2019

Subido el 21/11/2019

jose-benito-hernandez-chaudary 🇲🇽

4.8

(8)

7 documentos

1 / 46

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1

5.1 Introducción 1

José Benito Hernández C.

Guía de Estadística con R

Tema 5

Pruebas de Bondad de Ajustes y

Análisis de Varianza

5.1 Introducción

En este capítulo, estudiaremos varios métodos de prueba de bondad de ajuste, para determinar si

un conjunto dado de datos sigue una distribución de probabilidad particular. Además, realizaremos

análisis paramétricos utilizando datos reales de economía, medio ambiente y ciencias de la salud.

Karl Pearson (1857-1936) es considerado el fundador de la ciencia estadística del siglo XX. Pearson

ha contribuido en varios campos diferentes como la antropología, biometría, genética, métodos

científicos y teoría estadística. Aplicó la estadística a los problemas biológicos de la herencia y la

evolución. En 1911, fundó el primer departamento de estadística universitaria del mundo en el

University College London. Es autor de La gramática de la ciencia, los tres volúmenes de La vida, las

letras y las labores de Francis Galton, y La ética del libre pensamiento. Pearson fue el fundador de la

revista estadística Biometrika. En 1900, publicó un artículo sobre la prueba de bondad de ajuste

chi-cuadrado que estudiaremos en este capítulo. Esta es una de las contribuciones más significativas

de Pearson a las estadísticas. En 1893, Pearson acuñó el término “desviación estándar”.

Al estudiar varios fenómenos del mundo real, comenzamos con una muestra aleatoria de datos

X1,...,Xn

que representa valores de algún tipo de tema de interés. Estas mediciones podrían

representar la cantidad de dióxido de carbono, CO2, en la atmósfera diariamente, el tamaño de los

tumores cancerosos del seno, el promedio mensual de precipitaciones en el Estado de la Florida, la

tasa de desempleo mensual promedio en los Estados Unidos, las fuerzas del viento por hora de un

huracán, etc. Con el fin de que podamos probabilísticamente entender el comportamiento de estos

fenómenos, necesitamos identificar la probabilidad que sigue o de la que se extraen los datos dados.

Por ejemplo, en un momento dado decimos que estos datos siguen o provienen de la distribución de

probabilidad normal o exponencial. Una de las preguntas importantes es si los datos observados son

representativos o si siguen una distribución de probabilidad particular. De hecho, no hay nada que

podamos hacer paramétrica o estadísticamente a menos que mediante pruebas de bondad de ajuste

pf3

pf4

pf5

pf8

pf9

pfa

pfd

pfe

pff

pf12

pf13

pf14

pf15

pf16

pf17

pf18

pf19

pf1a

pf1b

pf1c

pf1d

pf1e

pf1f

pf20

pf21

pf22

pf23

pf24

pf25

pf26

pf27

pf28

pf29

pf2a

pf2b

pf2c

pf2d

pf2e

Documentos relacionados

Bondad de ajuste y independencia de variables categóricas

Contrastes de Hipotesis No Paramétricas: Homogeneidad, Bondad Ajuste y Independencia

(2)

Análisis de Contrastes: Bondad de Ajuste y Tablas de Contingencia

Contraste de Hipótesis: Esquema General y Pruebas de Bondad de Ajuste

(2)

Contrastes no paramétricos: Normalidad e independencia de observaciones

EJERCICIOS PRUEBA DE BONDAD DE AJUSTE 1

Prueba Chi-Cuadrado de Independencia y Bondad de Ajuste - Prof. Ruiz Santos

Pruebas de bondad de ajuste y de independencia usando la distribución chi-cuadrado - Prof.

Contraste bondad de ajuste Chi cuadrado

Contraste de hipótesis para la bondad de ajuste de una variable categórica o cuantitativa

Contrastes de Hipótesis No Paramétricos: Ajuste y Independencia - Prof. Núñez

Ejercicios de Estadística: Pruebas de Hipótesis y Bondad de Ajuste

Vista previa parcial del texto

¡Descarga Prueba χ2 de Bondad del Ajuste y Contraste de Independencia: Ejercicios Resueltos y más Guías, Proyectos, Investigaciones en PDF de Estadística Matemática solo en Docsity!

5.1 Introducción 1

José Benito Hernández C.

Guía de Estadística con R

Tema 5

Pruebas de Bondad de Ajustes y

Análisis de Varianza

5.1 Introducción

En este capítulo, estudiaremos varios métodos de prueba de bondad de ajuste, para determinar si un conjunto dado de datos sigue una distribución de probabilidad particular. Además, realizaremos análisis paramétricos utilizando datos reales de economía, medio ambiente y ciencias de la salud. Karl Pearson (1857-1936) es considerado el fundador de la ciencia estadística del siglo XX. Pearson ha contribuido en varios campos diferentes como la antropología, biometría, genética, métodos científicos y teoría estadística. Aplicó la estadística a los problemas biológicos de la herencia y la evolución. En 1911, fundó el primer departamento de estadística universitaria del mundo en el University College London. Es autor de La gramática de la ciencia , los tres volúmenes de La vida, las letras y las labores de Francis Galton , y La ética del libre pensamiento. Pearson fue el fundador de la revista estadística Biometrika. En 1900, publicó un artículo sobre la prueba de bondad de ajuste chi-cuadrado que estudiaremos en este capítulo. Esta es una de las contribuciones más significativas de Pearson a las estadísticas. En 1893, Pearson acuñó el término “desviación estándar”. Al estudiar varios fenómenos del mundo real, comenzamos con una muestra aleatoria de datos X 1 ,... , Xn que representa valores de algún tipo de tema de interés. Estas mediciones podrían representar la cantidad de dióxido de carbono, CO2, en la atmósfera diariamente, el tamaño de los tumores cancerosos del seno, el promedio mensual de precipitaciones en el Estado de la Florida, la tasa de desempleo mensual promedio en los Estados Unidos, las fuerzas del viento por hora de un huracán, etc. Con el fin de que podamos probabilísticamente entender el comportamiento de estos fenómenos, necesitamos identificar la probabilidad que sigue o de la que se extraen los datos dados. Por ejemplo, en un momento dado decimos que estos datos siguen o provienen de la distribución de probabilidad normal o exponencial. Una de las preguntas importantes es si los datos observados son representativos o si siguen una distribución de probabilidad particular. De hecho, no hay nada que podamos hacer paramétrica o estadísticamente a menos que mediante pruebas de bondad de ajuste

identifiquemos las funciones de densidad de probabilidad que caractericen probabilísticamente el comportamiento de los datos dados, para el fenómeno de nuestro interés. Para lograr este objetivo de identificar la distribución de probabilidad subyacente, discutiremos cuatro pruebas estadísticas (métodos), que podemos usar para determinar cuán buenos son los datos para una distribución de probabilidad en particular. Estas cuatro pruebas son las siguientes:

Prueba χ^2 de Bondad del Ajuste.
Prueba de Kolmogorov-Smirnov.
Prueba de Anderson-Darling.
Prueba de Shapiro-Wilk.

Se supone que la demanda de un cierto bien es una variable aleatoria exponencial con media igual a 25 unidades. Una muestra aleatoria de 100 elementos dio los siguientes resultados:

Demanda 0-10 10-20 20-30 30-40 40-50 50-60 60- Frecuencia 20 30 25 10 5 3 7

En la gráfica 5.1 se pueden ver los resultados de la muestra en un histograma de frecuencias relativas junto con la curva de la densidad exponencial de media μ = 25.

Figura 5.1: Comparación del histograma de frecuencias relativas de la demanda del bien con la curva exponen- cial con θ = 25

Las frecuencias muestrales son fi : 23 , 35 , 27 , 40 , 15 , 40 Las frecuencias teóricas son f (^) i^0 : 30 , 30 , 30 , 30 , 30 , 30 El tamaño de la muestra es n = 180, y el estadístico de prueba es

Q^2 =

∑^ r

i =

( fi − f (^) i^0 )^2 f (^) i^0

∑^6

i =

( fi − f (^) i^0 )^2 f (^) i^0

=

(23 − 30)^2

(35 − 30)^2

(27 − 30)^2

(40 − 30)^2

(15 − 30)^2

(40 − 30)^2

El valor de χ^2 α ( r − 1) es χ^2 α ( r − 1) = χ^20 , 05 (5) = 11 , 07

Se tiene así que Q^2 = 16 , 9 > 11 , 07 = χ α^2 ( r − 1), por lo que se rechaza H 0 , es decir, el dado no está bien balanceado.

La demanda diaria de un determinado artículo es una variable aleatoria con media igual a 4. Una muestra aleatoria de 400 días dio los siguientes resultados: x 0 1 2 3 4 5 6 7 8 9 o más fi 10 25 45 52 65 70 60 35 23 15

Se desea saber si los datos se ajustan bien a una distribución de Poisson. Use α = 0 , 05.

Solución

Las hipótesis que planteamos de la descripción del problema son: H 0 : X ∼ Poisson( λ = 4) Ha : X no tiene distribución de Poisson Calculemos las frecuencias esperadas suponiendo cierta la hipótesis nula, para ello nos valemos de la función de probabilidad de Poisson con λ = 4, esto es

fi = P ( X = xi ) =

λxi^ e − λ xi!

luego

x 0 1 2 3 4 5 6 7 8 9 o más fi 7,32 29,32 58,60 78,16 78,16 62,52 41,68 23,80 11,92 8,

El estadístico de prueba es

Q^2 =

∑^ r

i =

( fi − f (^) i^0 )^2 f (^) i^0

∑^10

i =

( fi − f (^) i^0 )^2 f (^) i^0

= (10^ −^7 , 32)

2 7 , 32

+ (25^ −^29 , 32)

2 29 , 32

+ · · · + (15^ −^8 , 52)

2 8 , 52 = 45 , 214

5.2 Prueba χ^2 de Bondad del Ajuste 5

Ahora, para α = 0 , 05, se tiene χ^20 , 05 (9) = 16 , 92, de donde Q^2 = 45 , 214 > 16 , 92 = χ^2 α , por lo tanto se rechaza la hipótesis nula, es decir, los datos no se ajustan a una distribución de Poisson.

Dada una muestra aleatoria de tamaño n = 30 observaciones de un experimento de un cierto fenómeno de interés, esto es 1.79 2.62 7.92 9.77 12.13 15.04 16.14 20.74 22.73 23. 24.97 26.12 27.06 29.60 32.47 36.32 42.18 45.06 45.64 48. 48.87 64.99 66.28 68.00 68.60 75.34 99.32 162.48 164.38 235.

Se cree que estos datos siguen una distribución exponencial. Haga la prueba con un valor α = 0 , 05.

Solución Necesitamos probar la hipótesis H 0 : Los datos dados siguen una distribución exponencial versus Ha : Los datos dados no siguen una distribución exponencial Usaremos la prueba χ^2 de bondad de ajuste para probar nuestra afirmación. Usaremos el siguiente código en R para ello. El p -valor dado por R es 2 , 201 × 10 −^10 , por lo tanto rechazamos la hipótesis nula y concluimos que los datos dados no siguen una distribución exponencial.

Instrucciones en R

x=c(1.79 ,2.62 ,7.92 ,9.77 ,12.13 ,15.04 ,16.14 ,20.74 ,22.73 ,23.29 , 24.97 ,26.12 ,27.06 ,29.60 ,32.47 ,36.32 ,42.18 ,45.06 ,45.64 ,48.34 , 48.87 ,64.99 ,66.28 ,68.00 ,68.60 ,75.34 ,99.32 ,162.48 ,164.38 ,235.95) chisq.test(cbind(x,dexp(x)))

5.2.2 Para poblaciones continuas

Para usar la prueba χ^2 de bondad de ajuste en poblaciones continuas se presenta la dificultad de que las probabilidades de que la variable tome un determinado valor son cero; por eso las suposiciones básicas para aplicar esta prueba son:

Las frecuencias observadas en las r clases son independientes

∑ r i =1 fi^ =^

∑ r i =1 f^

0 i =^ n

La frecuencia total, n , debe ser aproximadamente mayor a 50.
La frecuencia esperada de cada clase debe ser al menos 5. A continuación presentamos un resumen de un procedimiento paso a paso para la aplicación de esta prueba al caso continuo.

5.2 Prueba χ^2 de Bondad del Ajuste 7

Para calcular el estadístico de prueba necesitamos las frecuencias teóricas, usando el proce- dimiento descrito anteriormente construimos la tabla siguiente: x fi p^0 i f (^) i^0 = p^0 i n < 30 4 0,0228 2, 30-33 5 0,0580 5, 33-36 10 0,1311 13, 36-39 22 0,2088 20, 39-42 18 0,2347 23, 42-45 24 0,1859 18, 45-48 12 0,1039 10, > 48 5 0,0548 5,

Para el cálculo de las p^0 i hemos utilizado la distribución normal N (40 , 5). Como los dos primeros intervalos tiene frecuencia teórica menor a 5, los unimos y nos quedan 7 intervalos de frecuencia. Ahora, el estadístico de prueba es

Q^2 =

∑^7

i =

( fi − f (^) i^0 )^2 f (^) i^0

(9 − 8 , 08)^2

(5 − 5 , 48)^2

El valor de α es 0,05, de donde χ^20 , 05 (6) = 12 , 59, luego Q^2 = 4 < 12 , 59 = χ^2 α , por lo que aceptamos la hipótesis de que la distribución del contenido de la bombonas es normal con media μ = 40 y desviación estándar σ = 5.

5.2.3 Poblaciones con parámetros desconocidos

El contraste χ^2 es aplicable también cuando los parámetros son desconocidos, si se sustituyen estos por los valores de sus estimadores de máxima verosimilitud obtenidos a partir de la muestra. En estos casos la comparación se hace contra una χ^2 con r − 1 − k grados de libertad, donde k es el número de parámetros estimados con los datos de la muestra.

Los datos siguientes corresponden al número de personas que han acudido a la caja de un Banco en un período de 60 horas escogidas al azar. ¿Se ajustan los datos a una distribución de Poisson? Use α = 0 , 05. 8 1 2 4 5 6 5 8 4 5 7 9 6 8 9 6 8 11 7 6 3 6 3 4 3 5 10 8 11 9 7 2 5 6 2 4 5 10 6 7 8 2 7 12 7 8 9 9 4 10 5 3 10 7 4 5 4 6 6 5

Solución Tenemos el tamaño de la muestra n = 60, la hipótesis que nos planteamos son: H 0 : X tiene distribución de Poisson Ha : X no tiene distribución de Poisson

El estimador de máxima verosimilitud de λ es ¯ x , luego

x ¯ = 1 60

∑^60

i =

xi =^372 60

Las frecuencias muestrales y teóricas se dan en la siguiente tabla

Clase 0 1 2 3 4 5 6 7 8 fi 0 1 4 4 7 9 9 7 7 f (^) i^0 0,120 0,756 2,340 4,836 7,494 9,294 9,606 8,508 6, Clase 9 10 11 ≥ 12 fi 5 4 2 1 f (^) i^0 4,542 2,814 1,590 1,

Como las primeras cuatro clases y las últimas cuatro clases tienen frecuencias teóricas menores a 5 las unimos y nos quedan 7 clases como sigue

Clase ≤ 3 4 5 6 7 8 ≥ 9 fi 9 7 9 9 7 7 12 f (^) i^0 8,052 7,494 9,294 9,606 8,508 6,594 10,

El estadístico de prueba es

Q^2 =

∑^7

i =

( fi − f (^) i^0 )^2 f (^) i^0

= (9^ −^8 , 052)

2 8 , 052

+ (7^ −^7 , 494)

2 7 , 494

+ (9^ −^9 , 294)

2 9 , 294

+ (9^ −^9 , 606)

2 9 , 606

+ (7^ −^8 , 508)

2 8 , 508

(7 − 6 , 594)^2

(12 − 10 , 452)^2

Para α = 0 , 05, como hemos estimado un solo parámetro, se tiene k = 1, luego

χ^2 α ( r − 1 − k ) = χ^20 , 05 (5) = 11 , 07

Se tiene que Q^2 = 0 , 729 < 11 , 07 = χ^20 , 05 Por lo que aceptamos la hipótesis nula de que los datos se ajustan bien a una distribución de Poisson. Se deja como ejercicio calcular el p -valor para esta prueba.

Proposición 5.3.1.

PF ( D ≥ d ) es la misma para cada distribución continua F.

Demostración

PF ( D ≥ d ) = PF

m´ x ax

yi ≤ x n

− F ( x )

∣ ≥^ d

= PF

m´ x ax

F ( yi ) ≤ F ( x ) n

− F ( x )

∣ ≥^ d

= PF

m´ x ax

Ui ≤ F ( x ) n −^ F ( x )

∣ ≥^ d

donde U 1 ,... , Un son variables aleatorias uniformes en (0 , 1) independientes; la primera igualdad se sigue porque F es una función creciente, y así y ≤ x es equivalente a F ( y ) ≤ F ( x ); la segunda resulta que si Y tiene distribución continua F , entonces la variable aleatoria F ( Y ) es uniforme en (0 , 1). Ahora bien, haciendo y = F ( x ) y notando que x ∈ (−∞ , ∞), entonces F ( x ) tiene rango (0 , 1), luego PF ( D ≥ d ) = P

0 m´≤ y ax≤ 1

Ui ≤ y n −^ y

∣ ≥^ d

lo cual muestra que la distribución de D , cuando H 0 es cierta, no depende de la distribución de F.

Usar el contraste Kolmogorov-Smirnov para resolver el ejemplo 5.5. Siendo H 0 : F ( x ) tiene distribución normal N (40 , 25); use α = 0 , 05.

Solución

La hipótesis para este problema son: H 0 : F ( x ) tiene distribución normal N (40 , 25) Ha : F ( x ) no tiene distribución normal.

Tenemos la siguiente tabla con los valores

x Fn ( x ) F 0 ( x ) | Fn ( x ) − F 0 ( x )| 30 0,04 0,0228 0, 33 0,09 0,0808 0, 36 0,19 0,2119 0, 39 0,41 0,4207 0, 42 0,59 0,6554 0, 45 0,83 0,8413 0, 48 0,95 0,9452 0, 51 1,00 0,9861 0,

5.3 Contraste de Kolmogorov-Smirnov 11

De la tabla se tiene Dn = m´ax | Fn ( x ) − F 0 ( x )| = 0 , 0654 , por otra parte, Dn,α = D 100;0 , 05 = 0 , 14, se tiene así que Dn = 0 , 0654 < 0 , 14 = Dn,α , por lo tanto se acepta H 0 , esto es, la distribución del contenido de las bombonas es N (40 , 25).

Considere los datos del ejemplo 5.1. ¿Se justifica la hipótesis de que la distribución es exponencial? Usar el contraste Kolmogorov-Smirnov con un nivel de significancia del 10 %.

Solución

Las hipótesis son: H 0 : F ( x ) es exponencial con media 25 Ha : F ( x ) no es exponencial con media 25 Construimos la tabla con los valores de la distribución x Fn ( x ) F 0 ( x ) | Fn ( x ) − F 0 ( x )| 10 0,20 0,3297 0, 20 0,50 0,5507 0, 30 0,75 0,6939 0, 40 0,85 0,7931 0, 50 0,90 0,8647 0, 60 0,93 0,9043 0, 70 1,00 0,9392 0,

De la tabla se tiene que Dn = m´ax | Fn ( x ) − F 0 ( x )| = 0 , 1297_._ Además, Dn,α = D 100;0 , 10 = 1 √ ,^22 n = √^1100 ,^22 = 0 , 122, se tiene así que Dn = 0 , 1297 > 0 , 122 = Dn,α , por lo que rechazamos H 0 , es decir, la demanda del bien no tiene distribución exponencial de media 25.

De una clase grande de estadística, se tomó una muestra aleatoria de n = 55 estudiantes y se registraron sus edades. Los resultados son los siguientes: 27 25 24 24 22 20 21 22 21 25 24 26 25 24 23 22 20 21 19 21 25 24 26 25 22 23 22 22 21 19 21 23 21 26 24 22 23 22 22 20 19 21 23 21 26 24 22 23 21 19 20 18 20 20 18

Se cree que estos datos siguen una distribución normal y deseamos usar la prueba de Kolmogorov-Smirnov para comprobar dicha afirmación.

Fila Edad Fn ( x ) F 0 ( x ) | Fn ( x ) − F 0 ( x )|

5.3 Contraste de Kolmogorov-Smirnov
- 14 21 0.286 0.255 0.
- 15 21 0.286 0.273 0.
- 16 21 0.286 0.291 0.
- 17 21 0.286 0.309 0.
- 18 21 0.286 0.327 0.
- 19 21 0.286 0.345 0.
- 20 21 0.286 0.364 0.
- 21 21 0.286 0.382 0.
- 22 21 0.286 0.400 0.
- 23 22 0.454 0.418 0.
- 24 22 0.454 0.436 0.
- 25 22 0.454 0.455 0.
- 26 22 0.454 0.473 0.
- 27 22 0.454 0.491 0.
- 28 22 0.454 0.509 0.
- 29 22 0.454 0.527 0.
- 30 22 0.454 0.545 0.
- 31 22 0.454 0.564 0.
- 32 22 0.454 0.582 0.
- 33 23 0.631 0.600 0.
- 34 23 0.631 0.618 0.
- 35 23 0.631 0.636 0.
- 36 23 0.631 0.655 0.
- 37 23 0.631 0.673 0.
- 38 23 0.631 0.691 0.
- 39 24 0.784 0.709 0.
- 40 24 0.784 0.727 0.
- 41 24 0.784 0.745 0.
- 42 24 0.784 0.764 0.
- 43 24 0.784 0.782 0.
- 44 24 0.784 0.800 0.
- 45 24 0.784 0.818 0.
- 46 25 0.892 0.836 0.
- 47 25 0.892 0.855 0.
- 48 25 0.892 0.873 0.
- 49 25 0.892 0.891 0.
- 50 25 0.892 0.909 0.
- 51 26 0.954 0.927 0.
- 52 26 0.954 0.945 0.
- 53 26 0.954 0.964 0.
- 54 26 0.954 0.982 0.
- 55 27 0.984 1.000 0.

De la tabla se tiene que el estadístico es Dn = 0 , 127, y el valor crítico usando α = 0 , 05 es Dn,α = 0 , 183. Se tiene así que Dn = 0 , 127 < Dn, 0 , 05 = 0 , 183 por lo que aceptamos la hipótesis nula de que las edades de los estudiantes del curso de estadística siguen una distribución normal. Podemos usar R para realizar el test de manera rápida.

Instrucciones en R

Datos

x=c(27 ,25 ,24 ,24 ,22 ,20 ,21 ,22 ,21 ,25 ,24 , 26 ,25,24 ,23 ,22,20 ,21 ,19 ,21 ,25,24 , 26 ,25,22 ,23 ,22,22 ,21 ,19 ,21 ,23,21 , 26 ,24,22 ,23 ,22,22 ,20 ,19 ,21 ,23,21 , 26 ,24 ,22 ,23 ,21 ,19 ,20 ,18 ,20 ,20 ,18)

Histograma de frecuencias

hist(x, breaks=c(17 ,18 ,19 ,20 ,21 ,22 ,23 ,24 ,25 ,26 ,27) , col="lightblue", xlab="Edades", ylab="Frecuencia", main = "Histograma de las edades")

Prueba de Kolmogorov -Smirnov

ks.test(x,pnorm ,mean(x),sd(x))

5.4 Contraste de Anderson-Darling

La prueba de bondad de ajuste de Anderson-Darling se usa también para determinar si un conjunto de datos de una cierta población sigue una distribución de probabilidad específica. Sea X 1 , X 2 ,... , Xn una muestra aleatoria de observaciones y sea Y 1 , Y 2 ,... , Yn los correspondientes órdenes de acuerdo a su tamaño. La hipótesis que deseamos probar es

H 0 : los datos dados siguen una distribución de probabilidad específica versus

Ha : los datos dados no siguen la distribución de probabilidad específica. El estadístico de prueba de Anderson-Darling esta dado por

A^2 = − n − s (5.3)

donde s =

∑^ n

i =

(2 i − 1) n

[ln F ( Yi ) + ln(1 − F ( Yn +1− i ))] ,

n es el tamaño muestral, Yi los datos ordenados y F la función de distribución especificada que queremos probar. Para un nivel de significancia α dado, la hipótesis se rechaza si el valor del estadístico A es mayor que el valor crítico Aα , esto es, si

A > Aα. El valor de Aα se obtiene de la tabla de Anderson-Darling para el α dado. El siguiente ejemplo ilustra como aplicar dicha prueba.

Use la prueba de Shapiro-Wilk para probar si los datos de ejemplo 5.9 siguen una distribución normal. Use α = 0 , 05.

Solución Haremos la prueba directamente con R, el comando es shapiro.test(). En este caso al igual que con la prueba de Anderson-Darling, aceptamos la hipótesis nula de normalidad de la población. El p -valor en este caso es 0.1551.

Instrucciones en R

shapiro.test(x)

5.6 Gráficos P-P-Plots y Q-Q-Plots

Comúnmente utilizamos una interpretación visual de gráficos (diagramas) para determinar si una muestra aleatoria dada de datos sigue o se extrae de una distribución de probabilidad bien conocida. Estas gráficas son las gráficas de probabilidad, (P.P-plots) y las gráficas de cuantiles (Q.Q- plots). El gráfico P.P es una herramienta gráfica utilizada para determinar qué tan bien encaja un conjunto de datos dado con una probabilidad específica que estamos probando. Este gráfico compara las funciones de distribución acumulada empíricas de los datos dados con los de las funciones asumidas de distribución de probabilidad acumulativa real. Si el gráfico de estas dos distribuciones es aproximadamente lineal, indica que el pdf verdadero asumido da un ajuste razonablemente bueno a los datos dados que buscamos para encontrar su función de distribución verdadero. Sea F ( x ) la función de distribución acumulada de la variable aleatoria X con muestra aleatoria ordenada x (1) , x (2) ,... , x ( n ) con probabilidad asociada C ˆ( i ) = (^) n +1 i , el diagrama de dispersion P.P-plot es el gráfico de C ˆ( i ) versus C ( i ) = F [ X = x ( i )] de la posible función de distribución acumulada que estamos probando. Procedimiento paso a paso para el P.P-plot Paso 1. Dada una muestra aleatoria x 1 , x 2_... , xn_ , ordenamos los datos en forma creciente,

x (1) , x (2) ,... , x ( n ).

Paso 2. Asociamos con cada valor ordenado x ( i ) una probabilidad acumulada

C ˆ( i ) = i n + 1_._ Paso 3. Determinamos la probabilidad hipotética asociada con la distribución de probabilidad que estamos probando

C ( i ) = F [ X = x ( i )] F ( x ) = P [ X ≤ x ] ,

donde F ( x ) es la función de distribución acumulada.

5.6 Gráficos P-P-Plots y Q-Q-Plots 17

Paso 4. Construimos el gráfico de C ˆ( i ) versus C ( i ) = F [ X = x ( i )] Paso 5. Interpretamos el gráfico, si el patrón general sigue aproximadamente una línea recta, entonces los datos siguen la distribución de probabilidad asumida, y si el patrón general tiene curvatura o picos, entonces los datos tienen un comportamiento sesgado y por lo tanto no siguen la distribución asumida.

Usando los datos del ejemplo 5.9, obtenga el P.P-plot usando R.

Instrucciones en R

qqplot(x,rnorm (55, mean(x),sd(x)), xlab = "Valores observados", ylab = "Valores esperados", main="Gráfico P.P-plot")

Figura 5.2: P.P-plot de las edades

El gráfico de cuantiles (Q.Q-plot) es otro método gráfico que se utiliza comúnmente para obtener una indicación gráfica de la función de distribución verdadera de la que provienen los datos dados. Este método es un gráfico de los cuantiles de la distribución empírica de los datos dados frente a los cuantiles de la función de distribución verdadera supuesto que estamos probando. Si el gráfico resultante de estas dos distribuciones sigue un patrón lineal, indica que el función de distribución asumida se ajusta razonablemente bien a los datos dados.

5.7 Contraste de independencia: Tablas de contingencia 19

Figura 5.3: Q.Q-plot de las edades

Criterio de clasificación B B 1 B 2 · · · Bc Totales filas Criterio de clasi- ficación A

A 1 n 11 n 12 · · · n 1 c n 1 · A 2 n 21 n 22 · · · n 2 c n 2 · .. .

Ah nh 1 nh 2 · · · nhc nh · Totales columnas n · 1 n · 2 · · · n · c n

Estas tablas se conocen como tablas de contingencia de doble entrada, ya que se trata de dos criterios de clasificación, ( h filas y c columnas). Se tiene así h × c categorías mutuamente excluyentes. Los elementos de la última columna corresponden a las sumas de los valores de las filas, esto es ni · =

∑ c j =1 nij^ , y los de la última fila corresponden a la suma de los valores de las respectivas columnas, es decir n · j =

∑ h i =1 nij^. Se quiere contrastar la independencia o no relación de las variables aleatorias o criterios de clasificación A y B. Sabemos de probabilidades que si A y B son independientes

P ( Ai ∩ Bj ) = P ( Ai ) P ( Bj ) ∀ i, j.

Designemos como pi · la probabilidad de que un elemento pertenezca a la categoría Ai , como p · j la probabilidad de que pertenezca a Bj y como pij la probabilidad de que pertenezca simultáneamente a Ai y Bj. Con esta notación, la hipótesis nula será

H 0 : pij = pi · p · j

contra la hipótesis alternativa Ha : pij , pi · p · j

Las probabilidades marginales no se conocen, pero pueden ser estimadas a partir de los datos muestrales. Los estimadores de máxima verosimilitud de pi · y p · j son

p ˆ i · =

ni · n

y p ˆ· j =

n · j n

Si la hipótesis nula H 0 es verdadera, las probabilidades conjuntas pij se pueden estimar por el producto de las probabilidades marginales ˆ pi · y ˆ p · j , esto es

p ˆ ij = ˆ pi · p ˆ· j

Una vez estimadas las probabilidades conjuntas, se puede calcular la frecuencias esperada en cada celda o casilla de la tabla de contingencia, esto es

fij = n p ˆ ij

Comparando estas frecuencias esperadas con las frecuencias muestrales nij se puede contrastar la hipótesis nula H 0. El estadístico a utilizar es el siguiente

χ^2 =

∑^ h

i =

∑^ c

j =

( nij − fij )^2 fij^ (5.5)

que tiende a distribuirse como una variable χ^2 con [( h − 1)( c − 1)] grados de libertad. Luego si χ^2 > χ α^2 ;[( h −1)( c −1)] se rechaza H 0 si χ^2 < χ α^2 ;[( h −1)( c −1)] se acepta H 0

Se está interesado en determinar si existe relación entre el grado de educación y el nivel de rendimiento de la mano de obra en una industria. A tal efecto se clasificaron 400 obreros tomados aleatoriamente, con los siguiente resultados: PP PPP PPP PPP PP

Nivel de rendimiento

Grado de Educación (^) Ninguna Primaria Secundaria Técnica Total

Bajo 40 80 10 10 140 Medio 10 40 10 70 130 Alto 10 20 20 80 130 Total 60 140 40 160 400

Solución

Las hipótesis que se plantean son las siguientes: H 0 : pij = pi · p · j Ha : pij , pi · p · j , con i = 1 , 2 , 3, j = 1 , 2 , 3 , 4; n = 400