











Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Prepara tus exámenes
Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Prepara tus exámenes con los documentos que comparten otros estudiantes como tú en Docsity
Los mejores documentos en venta realizados por estudiantes que han terminado sus estudios
Estudia con lecciones y exámenes resueltos basados en los programas académicos de las mejores universidades
Responde a preguntas de exámenes reales y pon a prueba tu preparación
Consigue puntos base para descargar
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Comunidad
Pide ayuda a la comunidad y resuelve tus dudas de estudio
Descubre las mejores universidades de tu país según los usuarios de Docsity
Ebooks gratuitos
Descarga nuestras guías gratuitas sobre técnicas de estudio, métodos para controlar la ansiedad y consejos para la tesis preparadas por los tutores de Docsity
Modelos de regresión lineal con aplicaciones en R
Tipo: Guías, Proyectos, Investigaciones
1 / 19
Esta página no es visible en la vista previa
¡No te pierdas las partes importantes!
6.1 Introducción 1
En este capítulo estudiaremos las relaciones lineales en los datos de la muestra y utilizaremos el método de los mínimos cuadrados para estimar los parámetros necesarios. El científico inglés Sir Francis Galton (1822-1911), primo de Charles Darwin, hizo importantes contribuciones a la genética y la psicología. Es el inventor de la regresión y un pionero en la aplicación de la estadística a la biología. Uno de los conjuntos de datos que él consideraba consistía en las alturas de los padres y de los primeros hijos. Mirando los diagramas de dispersión de estas alturas, Galton vio que la tendencia era lineal y creciente. Después de ajustar una línea a estos datos (usando las técnicas descritas en este capítulo), observó que para los padres cuyas alturas eran más altas que el promedio, la línea de regresión predijo que los padres más altos tendían a tener hijos más bajos y los padres más bajos tendían a tener hijos más altos. Hay una regresión hacia la media. Así es como el método de este capítulo recibió su nombre: regresión lineal. En capítulos anteriores, nos preocupaban principalmente las inferencias sobre los parámetros de la población. En este capítulo, examinamos la relación entre una o más variables y crearemos un modelo que puede ser utilizado con fines predictivos. Por ejemplo, consideremos la pregunta “¿Existe evidencia estadística para concluir que los países con los niveles más altos de colesterol en sangre tienen la mayor incidencia de enfermedades cardíacas?” Es importante responder a esto si queremos tomar decisiones médicas y de estilo de vida apropiadas. Estudiaremos la relación entre las variables mediante el análisis de regresión. Nuestro objetivo es crear un modelo y estudiar los procedimientos inferenciales cuando están presentes una variable dependiente y varias variables independientes. Denotamos por Y la variable aleatoria a predecir, también llamada variable dependiente (o variable de respuesta) y por xi las variables independientes (o predictoras) utilizadas para modelar (o predecir) Y. Por ejemplo, denotemos por ( x, y ) la altura y el peso de un varón adulto. Nuestro interés puede ser encontrar la relación entre la altura y el peso de una muestra de n individuos. El proceso de encontrar una ecuación matemática que mejor se ajuste a los datos ruidosos se conoce como análisis de regresión.
En su libro Natural Inheritance , Sir Francis Galton introdujo la palabra regresión en 1889 para describir ciertas relaciones genéticas. La técnica de regresión es una de las herramientas estadísticas más populares para estudiar la dependencia de una variable con respecto a otra. Existen diferentes formas de regresión: lineal simple, no lineal, múltiple y otras. El uso principal de un modelo de regresión es la predicción. Cuando se usa un modelo para predecir Y para un conjunto particular de valores de x 1 ,... , xk , uno puede querer saber qué tan grande puede ser el error de la predicción. El análisis de regresión, en general después de recolectar los datos de la muestra, implica los siguientes pasos. Procedimiento para el modelado de regresión
En las explicaciones anteriores acerca de la inferencia estadística supusimos que las variables aleatorias X 1 , X 2 ,... , Xn eran independientes e idénticamente distribuidas. Una de las implicaciones de esta suposición es que el valor esperado de Xi es constante (si existe). Es decir, E( Xi ) = μ no depende del valor de cualquier otra variable. Obviamente este supuesto no es válido en muchos problemas de inferencia. En este tema estudiaremos los procedimientos de inferencia que pueden utilizarse cuando una variable aleatoria Y , denominada variable dependiente , tiene una media que es una función de una o más variables no aleatorias x 1 , x 2 ,... , xk , conocidas como variables independientes. Algunos posibles modelos son:
E( Y ) = β 0 + β 1 x + ε E( Y ) = β 0 + β 1 x 1 + · · · + βk xk + ε E( Y ) = β 0 + β 1 x + β 2 x^2 + ε.
Podemos utilizar muchos tipos de funciones matemáticas para representar el modelo de una respuesta que sea función de una o más variables independientes. Es posible clasificar estos modelos en dos categorías, los modelos determinísticos y los probabilísticos. Aunque hay un sinfín de funciones diferentes que se pueden utilizar como modelo del valor medio de la variable respuesta Y como función de una o más variables independientes, nos con- centraremos en el conjunto de modelos denominados modelos estadísticos lineales. Si el modelo expresa a E( Y ) como función lineal sólo de β 0 y β 1 , el modelo se denomina modelo de regresión lineal simple. Si hay más de una variable independiente, supongamos x 1 , x 2 ,... , xk , y si el modelo de E( Y ) es de la forma E( Y ) = β 0 + β 1 x 1 + · · · + βk xk el modelo se conoce como modelo de regresión lineal múltiple.
Definición 6. Un modelo estadístico lineal que relaciona una respuesta aleatoria Y con un conjunto de variables independientes x 1 , x 2 ,... , xk tiene forma
Y = β 0 + β 1 x 1 + · · · + βk xk + ε
y la suma de cuadrados de las desviaciones ( SSE ) que debe minimizarse es
∑^ n
i =
( yi − y ˆ i )^2 =
∑^ n
i =
yi − ( ˆ β 0 + ˆ β 1 xi )
Figura 6.2: Ajuste de una línea recta a través de un conjunto de puntos dado.
La cantidad SSE también se llama suma de cuadrados de los errores. Si SSE tiene mínimo, éste ocurrirá para los valores de β 0 y β 1 que satisfagan las ecuaciones ∂SSE∂ β ˆ 0
= 0 y ∂SSE∂ β ˆ 1
= 0. Derivando parcialmente SSE con respecto a ˆ β 0 y ˆ β 1 e igualando a cero, se obtiene
∂ β ˆ 0
n i =
yi − ( ˆ β 0 + ˆ β 1 xi )
∂ β ˆ 0
= − 2
∑^ n
i =
yi − n β ˆ 0 − β ˆ 1
∑^ n
i =
xi
∂ β ˆ 1
n i =
yi − ( ˆ β 0 + ˆ β 1 xi )
∂ β ˆ 1
= − 2
∑^ n
i =
xi yi − β ˆ 0
∑^ n
i =
xi − β ˆ 1
∑^ n
i =
x^2 i
De donde se tiene el siguiente sistema de ecuaciones:
(∑ n i =1 yi^ −^ n^ β ˆ^0 −^ β ˆ^1
∑ n i =1 xi
(∑ n i =1 xi^ yi^ −^ β ˆ^0
∑ n i =1 xi^ −^ β ˆ^1
∑ n i =1 x
2 i
6.2 Método de mínimos cuadrados 5
Resolviendo el sistema de ecuaciones anterior, se tiene
β ˆ 1 =
∑ n i =1 ∑( xi^ −^ x ¯)( yi^ −^ y ¯) n i =1( xi^ −^ x ¯)^2
∑ n i =1 xi^ yi^ −^
1 n
∑ n i =1 xi
∑ n ∑ i =1^ yi n i =1 x
2 i −^
1 n (
∑ n i =1 xi^ )^2 β^ ˆ 0 = y ¯ − β ˆ 1 x. ¯
La expresión
∑ n i =1( xi^ −^ x ¯)( yi^ −^ y ¯) la denotaremos^ Sxy^ y la expresión^
∑ n i =1( xi^ −^ x ¯)
(^2) por Sxx , de donde, en resumen se tiene:
Estimadores de mínimos cuadrados para el modelo de regresión lineal simple
∑ n i =1( xi^ −^ x ¯)( yi^ −^ y ¯) y^ Sxx^ =^
∑ n i =1( xi^ −^ x ¯)^2
El ejemplo siguiente ilustra la aplicación del método de mínimos cuadrados.
Ajuste una recta de regresión simple a los siguientes datos x -2 -1 0 1 2 y 0 0 1 1 3
Solución
Para calcular los estimadores de β ˆ 0 y β ˆ 1 , en la siguiente tabla hacemos los cálculos necesarios xi yi xi yi x^2 i -2 0 0 4 -1 0 0 1 0 1 0 0 1 1 1 1 ∑^2 3 6 n i =1 xi^ = 0^
∑ n i =1 yi^ = 5^
∑ n i =1 xi^ yi^ = 7^
∑ n i =1 x
2 i = 10 De la tabla se tiene
β ˆ 1 =
∑ n i =1 xi^ yi^ −^
1 n
∑ n i =1 xi
∑ n ∑ i =1^ yi n i =1 x
2 i −^
1 n (
∑ n i =1 xi^ )^2
β ˆ 0 = y ¯ − β ˆ 1 x ¯ =^5 5
y la recta ajustada es y ˆ = 1 + 0 , 7 x.
Instrucciones en R
x<-c(-2,-1,0,1,2) y<-c(0,0,1,1,3)
6.4 Propiedades de los estimadores de mínimos cuadrados: regresión lineal simple 7
Figura 6.4: Gráficos de residuales vs xi en un modelo de regresión lineal
Syy − SSE Syy^ = 1^ −
∑ n ∑ i =1( yi^ −^ y ˆ i^ )^2 n i =1( yi^ −^ y ¯)^2
Este valor estará entre 0 y 1; valores cerca de 1 significan un mejor ajuste. Por ejemplo, si el valor de R^2 es 0,85, la regresión captura el 85 % de la variación en la variable dependiente. Esto se considera generalmente una buena regresión.
Con el fin de emplear estimadores de mínimos cuadrados para hacer inferencias estadísticas necesitamos determinar sus propiedades estadísticas. A continuación presentamos las propiedades de los mismos.
Propiedades de los estimadores de mínimos cuadrados
∑ n i =1 x^2 i nSxx.
∑ n i =1( yi^ − y ¯)^2. Si, además, los valores de εi , para i = 1 , 2 ,... , n tienen distribución normal
2 σ^2 tiene distribución^ χ
(^2) con n − 2 grados de libertad.
Determine las varianzas de los estimadores ˆ β 0 y ˆ β 1 del Ejemplo 6.1.
Solución
Del Ejemplo 6.1, tenemos los siguientes datos: n = 5 ,
xi = 0 ,
x i^2 = 10 y Sxx = 10, luego x ¯ = 0. Usando las propiedades 2 y 3, se tiene
V ar ( ˆ β 0 ) = c 00 σ^2 =
σ^2
∑ n i =1 x
2 i nSxx
σ^2 (10) 5(10)
σ^2 5
V ar ( ˆ β 1 ) = c 11 σ^2 =
σ^2 Sxx
σ^2 10
Estime σ^2 a partir de los datos del Ejemplo 6.1.
Solución
Nuevamente, se tiene n = 5, además
yi = 5 , Sxy = 7 y β ˆ 1 = 0 , 7. Para usar el estimador dado por la propiedad 5, necesitamos calcular Syy. Tenemos que ¯ y = 1 y
y i^2 = 11, luego
Syy =
∑^ n
i =
( yi − y ¯)^2 =
i =
y i^2 − 5( ¯ y )^2 = 11 − 5(1)^2 = 6
SSE = Syy − β ˆ 1 Sxy = 6 − (0 , 7)(7) = 1 , 1
de donde S^2 =
n − 2 =^
Como en general no conocemos σ^2 , podemos estimar σ a partir de los datos experimentales usando la propiedad 5, esto es usando S =
SSE n − 2 y sustituir^ σ^ por su estimador en el estadístico^ Z. Se tiene así que el estadístico resultante es
β ˆ i − βi 0 S √ cii
el cual tiene distribución t de Student con n − 2 grados de libertad. En resumen, se tiene
Prueba de hipótesis para βi H 0 : βi = βi 0
Ha :
βi > βi 0 , prueba unilateral derecha βi < βi 0 , prueba unilateral izquierda βi , βi 0 , prueba bilateral Estadístico de prueba: T =
β ˆ i − βi 0 S √ cii Región de rechazo:
T > tα T < − tα | T | > tα/ 2 donde c 00 =
x^2 i nSxx
y c 11 =
Sxx y t tiene n − 2 grados de libertad.
¿Presentan los datos del Ejemplo 6.1 suficiente evidencia para indicar que la pendiente difiere de 0? Haga la prueba con α = 0 , 05 y establezca los límites para el nivel de significancia alcanzado.
Solución
Las hipótesis para este problema son: H 0 : β 1 = 0 Ha : β 1 , 0 Del Ejemplo 6.1 tenemos que β ˆ 1 = 0 , 7 y Sxx = 10. Del Ejemplo 6.3 se tiene S^2 = 0 , 367, de donde S =
Como nos interesa el parámetro β 1 , necesitamos calcular el valor c 11 , siendo este
c 11 =
Sxx^ =^
6.5 Prueba de hipótesis para los parámetros βi 11
Se tiene así T = β ˆ 1 − β 10 S √ c 11
Para α = 0 , 05 se tiene tα/ 2 ( n − 2) = t 0 , 025 (3) = 3 , 182, luego
| T | = 3 , 652 > 3 , 182 = tα/ 2
por lo que se rechaza H 0 , esto es, la pendiente de la recta de regresión difiere de cero. Ahora, dado que la prueba es bilateral, el p -valor = P (| T | > Tobs ) = 2 P ( T > Tobs ). De la tabla de la distribución t se tiene que 0 , 01 < P ( T > 3 , 65) < 0 , 025. Por lo tanto, concluimos que 0 , 02 < p -valor < 0 , 05. Podemos observar que la conclusión a la que llegamos concuerda con el p -valor.
Con la misma función summary() podemos obtener los estadísticos de prueba para los coeficien- tes ˆ βi y sus respectivos p −valores. Instrucciones en R
summary(recta)
Con base en el estadístico T dado por (6.3) podemos seguir los procedimientos del tema de Intervalos de confianza para demostrar que un intervalo de confianza para βi con un coeficiente de confianza de (1 − α )100 % está dado por:
β ˆ i ± tα/ 2 S √ cii (6.4)
donde c 00 =
x^2 i nSxx
y c 11 =
Sxx y t tiene n − 2 grados de libertad.
Calcule un intervalo de confianza del 95 % para el parámetro β 1 del Ejemplo 6.4.
Solución
Tenemos 1 − α = 0 , 95, de donde α/ 2 = 0 , 025. El valor de tα/ 2 ( n − 2) = t 0 , 025 (3) = 3 , 182. Entonces, el intervalo de confianza del 95 % para β 1 es
β ˆ 1 ± tα/ 2 S √ c 11
Sustituyendo, se obtiene
0 , 7 ± (3 , 182)(0 , 606)
Se tiene así que un intervalo de confianza del 95 % para β 1 es
I = (0 , 09; 1 , 31).
6.6 Inferencia referente a funciones lineales de los parámetros del modelo de regresión lineal 13
Prueba de hipótesis para θ = a 0 β 0 + a 1 β 1 H 0 : θ = θ 0
Ha :
θ > θ 0 , prueba unilateral derecha θ < θ 0 , prueba unilateral izquierda θ , θ 0 , prueba bilateral Estadístico de prueba:
T =
θ ˆ − θ 0
S
a 0
∑ (^) x 2 n^ i + a^21 −^2 a^0 a^1 x ¯ Sxx
Región de rechazo:
T > tα T < − tα | T | > tα/ 2_._
Si un estimador θ ˆ es una combinación lineal de las observaciones de la muestra y tiene una varianza que es menor o igual a la de cualquier otro estimador que también es una combinación lineal de las observaciones de la muestra, entonces se dice que θ ˆ es el mejor estimador lineal insesgado para θ. El siguiente resultado establece que entre todos los estimadores insesgados para β 0 y β 1 que son lineales en Yi , los estimadores de mínimos cuadrados tienen la varianza menor.
Teorema 6.6.1 – Teorema de Gauss-Markov.
Sea Y = β 0 + β 1 x + ε un modelo de regresión simple tal que para cada xi fijo, cada Yi es una observación de una variable aleatoria y cada ε = εi , i = 1 , 2 ,... , n es una variable aleatoria no observada. También, sea la variable aleatoria εi tal que E( εi ) = 0 , V ar ( εi ) = σ^2 y Cov ( εi , εj ) = 0 si i , j. Entonces los estimadores de mínimos cuadrados de β 0 y β 1 son los mejores estimadores lineales insesgados.
Es importante señalar que incluso cuando las desviaciones de error no son constantes, toda- vía pueden existir estimadores de mínimos cuadrados insesgados, pero los estimadores de mínimos cuadrados no tendrán varianza mínima.
6.6.1 Estimación del error de varianza
Cuanto mayor sea la varianza, σ^2 , del error aleatorio ε , mayores serán los errores en la estimación de los parámetros del modelo β 0 y β 1. Podemos utilizar cantidades ya calculadas para estimar esta variabilidad de errores. Se puede demostrar que
E( SSE ) = ( n − 2) σ^2 (6.6)
Por lo tanto, un estimador insesgado del error de la varianza, σ^2 , es σ ˆ^2 = ( SSE ) / ( n − 2). Denota- remos ( SSE ) / ( n − 2) por MSE ( Mean Square Error , siglas en inglés para Error Cuadrático Medio ).
6.6.2 Intervalo de confianza de (1 − α )100 % para θ = a 0 β 0 + a 1 β 1
Un intervalo de confianza de (1 − α )100 % con una muestra grande para θ = a 0 β 0 + a 1 β 1 es de la forma θ ˆ ± zα/ 2 σ (^) θ ˆ.
Note que al igual que en el caso del estadístico Z , el intervalo de confianza, σ (^) θ ˆ =
V ar ( θ ˆ) es un múltiplo constante de σ. Si sustituimos σ por S en la expresión de Z , la expresión resultante T tiene distribución t de Student con n − 2 grados de libertad. Así, un intervalo de confianza de (1 − α )100 % para θ = a 0 β 0 + a 1 β 1 queda de la siguiente forma:
θ ˆ ± tα/ 2 S
a 0
∑ (^) x 2 n i +^ a^21 −^2 a^0 a^1 x ¯ Sxx
En el caso particular de a 0 = 1 y a 1 = x ∗^ siendo x ∗^ un valor específico de x que resulte de interés, se tiene a 0 β 0 + a 1 β 1 = β 0 + β 1 x ∗^ = E( Y ) en este caso, tenemos que un intervalo de confianza o intervalo de predicción para el valor medio de Y cuando x = x ∗^ es
( ˆ β 0 + ˆ β 1 x ∗) ± tα/ 2 S
n
∗ (^) − x ¯) 2 Sxx
Según los datos del Ejemplo 6.1, determine un intervalo de predicción del 90 % para E( Y ) cuando x = 1.
Solución La función lineal es E( Y ) = β 0 + β 1 x Para estimar E( Y ), para cualquier valor fijo x = x ∗^ se tiene Ê ( Y ) = ˆ β 0 + ˆ β 1 x ∗ Entonces β ˆ 0 + ˆ β 1 x ∗^ = 1 + 0 , 7 x ∗ Tenemos además x ∗^ = 1 , n = 5 , x ¯ = 0 y Sxx = 10, luego 1 n
( x ∗^ − x ¯)^2 Sxx
Del Ejemplo 6.3 tenemos que S^2 = 0 , 367 de donde S = 0 , 606 y el valor de t 0 , 05 (3) = 2 , 353, entonces
( ˆ β 0 + ˆ β 1 x ∗) ± tα/ 2 S
1 n +^
( x ∗− x ¯)^2 Sxx (1 + 0 , 7 × 1) ± 2 , 353 × 0 , 606
a ) Obtenga las estimaciones de β 0 y β 1. b ) ¿Presentan los datos suficiente evidencia para indicar que la pendiente β 1 difiere de cero? haga la prueba con un nivel de significancia del 5 %.
Año Mediana del precio de venta (× 1000) 1972(1) $27. 1973(2) $32. 1974(3) $35. 1975(4) $39. 1976(5) $44. 1977(6) $48. 1978(7) $55. 1979(8) $62.
a ) Ajuste el modelo Y = β 0 + β 1 x + ε. ¿Qué se puede concluir con los resultados? b ) Calcule SSE y S^2.
Producto tóxico CL50 dinámico ( y ) CL50 estático ( x ) 1 23.00 39. 2 22.30 37. 3 9.40 22. 4 9.70 17. 5 0.15 0. 6 0.28 0. 7 0.75 2. 8 0.51 2. 9 28.00 32. 10 0.39 0.
6.7 Ejercicios para la práctica 17
a ) Ajuste el modelo Y = β 0 + β 1 x + ε ¿Cómo puede interpretar los resultados? b ) Estime el valor dinámico para un producto tóxico con un valor estático de CL50 de x = 12 partes por millón. c ) Calcule el valor de SSE , S^2 , V ( ˆ β 0 ) y V ( ˆ β 1 ).
a ) Obtenga la recta de mínimos cuadrados adecuada para estos datos. b ) Calcule S^2. c ) ¿Presentan los datos evidencia suficiente para indicar que el número de errores se relaciona linealmente con el número de horas sin dormir? Use α = 0 , 05.
SSE = Syy − β ˆ 1 Sxy.
b ) Demuestre que E( SSE ) = ( n − 2) σ^2.
a ) Calcule la recta de regresión lineal para estos datos. b ) Grafique los datos y la recta de regresión lineal en el mismo gráfico (use R para ello). c ) Calcule un intervalo de confianza del 95 % para β 0 y β 1 respectivamente.
6.7 Ejercicios para la práctica 19
a ) Calcule la recta de regresión lineal para estos datos. b ) Grafique los datos y la recta de regresión lineal en el mismo gráfico (use R para ello). c ) Calcule un intervalo de confianza del 95 % para β 0 y β 1 respectivamente.
Construya un intervalo de predicción del 99 % para la altura igual a 90 pulgadas. Interprete el resultado y establezca cada suposición.
a ) Calcule la recta de regresión lineal para estos datos. b ) Grafique los datos y la recta de regresión lineal en el mismo gráfico (use R para ello). c ) Calcule un intervalo de confianza del 95 % para β 0 y β 1 respectivamente. d ) Construya un intervalo de predicción del 95 % para las emisiones del año 2013.