Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad

Introducción a la Regresión Lineal Simple: Métodos y Aplicaciones en R, Guías, Proyectos, Investigaciones de Estadística Matemática

Modelos de regresión lineal con aplicaciones en R

Tipo: Guías, Proyectos, Investigaciones

2018/2019

Subido el 21/11/2019

jose-benito-hernandez-chaudary
jose-benito-hernandez-chaudary 🇲🇽

4.8

(8)

7 documentos

1 / 19

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
6.1 Introducción 1
José Benito Hernández C.
Guía de Estadística
Tema 6
Regresión Lineal
6.1 Introducción
En este capítulo estudiaremos las relaciones lineales en los datos de la muestra y utilizaremos
el método de los mínimos cuadrados para estimar los parámetros necesarios. El científico inglés
Sir Francis Galton
(1822-1911), primo de
Charles Darwin
, hizo importantes contribuciones a la
genética y la psicología. Es el inventor de la regresión y un pionero en la aplicación de la estadística
a la biología. Uno de los conjuntos de datos que él consideraba consistía en las alturas de los padres
y de los primeros hijos. Mirando los diagramas de dispersión de estas alturas, Galton vio que la
tendencia era lineal y creciente. Después de ajustar una línea a estos datos (usando las técnicas
descritas en este capítulo), observó que para los padres cuyas alturas eran más altas que el promedio,
la línea de regresión predijo que los padres más altos tendían a tener hijos más bajos y los padres
más bajos tendían a tener hijos más altos. Hay una regresión hacia la media. Así es como el método
de este capítulo recibió su nombre: regresión lineal.
En capítulos anteriores, nos preocupaban principalmente las inferencias sobre los parámetros
de la población. En este capítulo, examinamos la relación entre una o más variables y crearemos
un modelo que puede ser utilizado con fines predictivos. Por ejemplo, consideremos la pregunta
“¿Existe evidencia estadística para concluir que los países con los niveles más altos de colesterol en
sangre tienen la mayor incidencia de enfermedades cardíacas?” Es importante responder a esto si
queremos tomar decisiones médicas y de estilo de vida apropiadas. Estudiaremos la relación entre
las variables mediante el análisis de regresión.
Nuestro objetivo es crear un modelo y estudiar los procedimientos inferenciales cuando están
presentes una variable dependiente y varias variables independientes. Denotamos por
Y
la variable
aleatoria a predecir, también llamada variable dependiente (o variable de respuesta) y por
xi
las variables independientes (o predictoras) utilizadas para modelar (o predecir)
Y
. Por ejemplo,
denotemos por (
x, y
) la altura y el peso de un varón adulto. Nuestro interés puede ser encontrar
la relación entre la altura y el peso de una muestra de
n
individuos. El proceso de encontrar una
ecuación matemática que mejor se ajuste a los datos ruidosos se conoce como análisis de regresión.
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13

Vista previa parcial del texto

¡Descarga Introducción a la Regresión Lineal Simple: Métodos y Aplicaciones en R y más Guías, Proyectos, Investigaciones en PDF de Estadística Matemática solo en Docsity!

6.1 Introducción 1

José Benito Hernández C.

Guía de Estadística

Tema 6

Regresión Lineal

6.1 Introducción

En este capítulo estudiaremos las relaciones lineales en los datos de la muestra y utilizaremos el método de los mínimos cuadrados para estimar los parámetros necesarios. El científico inglés Sir Francis Galton (1822-1911), primo de Charles Darwin, hizo importantes contribuciones a la genética y la psicología. Es el inventor de la regresión y un pionero en la aplicación de la estadística a la biología. Uno de los conjuntos de datos que él consideraba consistía en las alturas de los padres y de los primeros hijos. Mirando los diagramas de dispersión de estas alturas, Galton vio que la tendencia era lineal y creciente. Después de ajustar una línea a estos datos (usando las técnicas descritas en este capítulo), observó que para los padres cuyas alturas eran más altas que el promedio, la línea de regresión predijo que los padres más altos tendían a tener hijos más bajos y los padres más bajos tendían a tener hijos más altos. Hay una regresión hacia la media. Así es como el método de este capítulo recibió su nombre: regresión lineal. En capítulos anteriores, nos preocupaban principalmente las inferencias sobre los parámetros de la población. En este capítulo, examinamos la relación entre una o más variables y crearemos un modelo que puede ser utilizado con fines predictivos. Por ejemplo, consideremos la pregunta “¿Existe evidencia estadística para concluir que los países con los niveles más altos de colesterol en sangre tienen la mayor incidencia de enfermedades cardíacas?” Es importante responder a esto si queremos tomar decisiones médicas y de estilo de vida apropiadas. Estudiaremos la relación entre las variables mediante el análisis de regresión. Nuestro objetivo es crear un modelo y estudiar los procedimientos inferenciales cuando están presentes una variable dependiente y varias variables independientes. Denotamos por Y la variable aleatoria a predecir, también llamada variable dependiente (o variable de respuesta) y por xi las variables independientes (o predictoras) utilizadas para modelar (o predecir) Y. Por ejemplo, denotemos por ( x, y ) la altura y el peso de un varón adulto. Nuestro interés puede ser encontrar la relación entre la altura y el peso de una muestra de n individuos. El proceso de encontrar una ecuación matemática que mejor se ajuste a los datos ruidosos se conoce como análisis de regresión.

En su libro Natural Inheritance , Sir Francis Galton introdujo la palabra regresión en 1889 para describir ciertas relaciones genéticas. La técnica de regresión es una de las herramientas estadísticas más populares para estudiar la dependencia de una variable con respecto a otra. Existen diferentes formas de regresión: lineal simple, no lineal, múltiple y otras. El uso principal de un modelo de regresión es la predicción. Cuando se usa un modelo para predecir Y para un conjunto particular de valores de x 1 ,... , xk , uno puede querer saber qué tan grande puede ser el error de la predicción. El análisis de regresión, en general después de recolectar los datos de la muestra, implica los siguientes pasos. Procedimiento para el modelado de regresión

  1. Hipotéticamente la forma del modelo es Y = f ( x 1 ,... , xk ; b 0 , b 1 ,... , bk ) + ε. Aquí ε re- presenta el término de error aleatorio. Asumimos que E( ε ) = 0 pero V ar ( ε ) = s^2 es desconocido. De esto podemos obtener E( Y ) = f ( x 1 ,... , xk ; b 0 , b 1 ,... , bk ).
  2. Utilizamos los datos de la muestra para estimar los parámetros desconocidos en el modelo.
  3. Comprobamos la bondad de ajuste del modelo propuesto.
  4. Utilizamos el modelo para la predicción.

En las explicaciones anteriores acerca de la inferencia estadística supusimos que las variables aleatorias X 1 , X 2 ,... , Xn eran independientes e idénticamente distribuidas. Una de las implicaciones de esta suposición es que el valor esperado de Xi es constante (si existe). Es decir, E( Xi ) = μ no depende del valor de cualquier otra variable. Obviamente este supuesto no es válido en muchos problemas de inferencia. En este tema estudiaremos los procedimientos de inferencia que pueden utilizarse cuando una variable aleatoria Y , denominada variable dependiente , tiene una media que es una función de una o más variables no aleatorias x 1 , x 2 ,... , xk , conocidas como variables independientes. Algunos posibles modelos son:

E( Y ) = β 0 + β 1 x + ε E( Y ) = β 0 + β 1 x 1 + · · · + βk xk + ε E( Y ) = β 0 + β 1 x + β 2 x^2 + ε.

Podemos utilizar muchos tipos de funciones matemáticas para representar el modelo de una respuesta que sea función de una o más variables independientes. Es posible clasificar estos modelos en dos categorías, los modelos determinísticos y los probabilísticos. Aunque hay un sinfín de funciones diferentes que se pueden utilizar como modelo del valor medio de la variable respuesta Y como función de una o más variables independientes, nos con- centraremos en el conjunto de modelos denominados modelos estadísticos lineales. Si el modelo expresa a E( Y ) como función lineal sólo de β 0 y β 1 , el modelo se denomina modelo de regresión lineal simple. Si hay más de una variable independiente, supongamos x 1 , x 2 ,... , xk , y si el modelo de E( Y ) es de la forma E( Y ) = β 0 + β 1 x 1 + · · · + βk xk el modelo se conoce como modelo de regresión lineal múltiple.

Definición 6. Un modelo estadístico lineal que relaciona una respuesta aleatoria Y con un conjunto de variables independientes x 1 , x 2 ,... , xk tiene forma

Y = β 0 + β 1 x 1 + · · · + βk xk + ε

y la suma de cuadrados de las desviaciones ( SSE ) que debe minimizarse es

SSE =

∑^ n

i =

( yiy ˆ i )^2 =

∑^ n

i =

[

yi − ( ˆ β 0 + ˆ β 1 xi )

] 2

Figura 6.2: Ajuste de una línea recta a través de un conjunto de puntos dado.

La cantidad SSE también se llama suma de cuadrados de los errores. Si SSE tiene mínimo, éste ocurrirá para los valores de β 0 y β 1 que satisfagan las ecuaciones ∂SSE∂ β ˆ 0

= 0 y ∂SSE∂ β ˆ 1

= 0. Derivando parcialmente SSE con respecto a ˆ β 0 y ˆ β 1 e igualando a cero, se obtiene

∂SSE

∂ β ˆ 0

n i =

[

yi − ( ˆ β 0 + ˆ β 1 xi )

] 2 )

∂ β ˆ 0

= − 2

∑^ n

i =

yin β ˆ 0 − β ˆ 1

∑^ n

i =

xi

∂SSE

∂ β ˆ 1

n i =

[

yi − ( ˆ β 0 + ˆ β 1 xi )

] 2 )

∂ β ˆ 1

= − 2

∑^ n

i =

xi yiβ ˆ 0

∑^ n

i =

xiβ ˆ 1

∑^ n

i =

x^2 i

De donde se tiene el siguiente sistema de ecuaciones:   

(∑ n i =1 yi^ −^ n^ β ˆ^0 −^ β ˆ^1

n i =1 xi

(∑ n i =1 xi^ yi^ −^ β ˆ^0

n i =1 xi^ −^ β ˆ^1

n i =1 x

2 i

6.2 Método de mínimos cuadrados 5

Resolviendo el sistema de ecuaciones anterior, se tiene

β ˆ 1 =

n i =1 ∑( xi^ −^ x ¯)( yi^ −^ y ¯) n i =1( xi^ −^ x ¯)^2

n i =1 xi^ yi^ −^

1 n

n i =1 xi

ni =1^ yi n i =1 x

2 i −^

1 n (

n i =1 xi^ )^2 β^ ˆ 0 = y ¯ − β ˆ 1 x. ¯

La expresión

n i =1( xi^ −^ x ¯)( yi^ −^ y ¯) la denotaremos^ Sxy^ y la expresión^

n i =1( xi^ −^ x ¯)

(^2) por Sxx , de donde, en resumen se tiene:

Estimadores de mínimos cuadrados para el modelo de regresión lineal simple

  1. β ˆ 1 = S Sxyxx , donde Sxy =

n i =1( xi^ −^ x ¯)( yi^ −^ y ¯) y^ Sxx^ =^

n i =1( xi^ −^ x ¯)^2

  1. β ˆ 0 = ¯ yβ ˆ 1 x ¯.

El ejemplo siguiente ilustra la aplicación del método de mínimos cuadrados.

Ajuste una recta de regresión simple a los siguientes datos x -2 -1 0 1 2 y 0 0 1 1 3

Solución

Para calcular los estimadores de β ˆ 0 y β ˆ 1 , en la siguiente tabla hacemos los cálculos necesarios xi yi xi yi x^2 i -2 0 0 4 -1 0 0 1 0 1 0 0 1 1 1 1 ∑^2 3 6 n i =1 xi^ = 0^

n i =1 yi^ = 5^

n i =1 xi^ yi^ = 7^

n i =1 x

2 i = 10 De la tabla se tiene

β ˆ 1 =

n i =1 xi^ yi^ −^

1 n

n i =1 xi

ni =1^ yi n i =1 x

2 i −^

1 n (

n i =1 xi^ )^2

10 − 15 (0)^2

β ˆ 0 = y ¯ − β ˆ 1 x ¯ =^5 5

y la recta ajustada es y ˆ = 1 + 0 , 7 x.

Instrucciones en R

Creamos los vectores de datos

x<-c(-2,-1,0,1,2) y<-c(0,0,1,1,3)

6.4 Propiedades de los estimadores de mínimos cuadrados: regresión lineal simple 7

Figura 6.4: Gráficos de residuales vs xi en un modelo de regresión lineal

R^2 =

SyySSE Syy^ = 1^ −

ni =1( yi^ −^ y ˆ i^ )^2 n i =1( yi^ −^ y ¯)^2

Este valor estará entre 0 y 1; valores cerca de 1 significan un mejor ajuste. Por ejemplo, si el valor de R^2 es 0,85, la regresión captura el 85 % de la variación en la variable dependiente. Esto se considera generalmente una buena regresión.

6.4 Propiedades de los estimadores de mínimos cuadrados: regresión lineal sim-

ple

Con el fin de emplear estimadores de mínimos cuadrados para hacer inferencias estadísticas necesitamos determinar sus propiedades estadísticas. A continuación presentamos las propiedades de los mismos.

Propiedades de los estimadores de mínimos cuadrados

  1. Los estimadores ˆ β 0 y ˆ β 1 son insesgados, es decir, E( ˆ βi ) = βi con i = 0 , 1.
  2. V ar ( ˆ β 0 ) = c 00 σ^2 , donde c 00 =

n i =1 x^2 i nSxx.

  1. V ar ( ˆ β 1 ) = c 11 σ^2 , donde c 11 = (^) S^1 xx.
  2. Cov ( ˆ β 0 , β ˆ 1 ) = c 01 σ^2 , donde c 01 = (^) Sxx^ x ¯.
  3. Un estimador insesgado de σ^2 es S^2 = SSEn − 2 , donde SSE = Syyβ ˆ 1 Sxy y Syy =

n i =1( yi^ − y ¯)^2. Si, además, los valores de εi , para i = 1 , 2 ,... , n tienen distribución normal

  1. β ˆ 0 y ˆ β 1 tienen distribución normal.
  2. La variable aleatoria ( n −2) S

2 σ^2 tiene distribución^ χ

(^2) con n − 2 grados de libertad.

  1. El estadístico S^2 es independiente de ˆ β 0 y ˆ β 1.

Determine las varianzas de los estimadores ˆ β 0 y ˆ β 1 del Ejemplo 6.1.

Solución

Del Ejemplo 6.1, tenemos los siguientes datos: n = 5 ,

xi = 0 ,

x i^2 = 10 y Sxx = 10, luego x ¯ = 0. Usando las propiedades 2 y 3, se tiene

V ar ( ˆ β 0 ) = c 00 σ^2 =

σ^2

n i =1 x

2 i nSxx

σ^2 (10) 5(10)

σ^2 5

V ar ( ˆ β 1 ) = c 11 σ^2 =

σ^2 Sxx

σ^2 10

Estime σ^2 a partir de los datos del Ejemplo 6.1.

Solución

Nuevamente, se tiene n = 5, además

yi = 5 , Sxy = 7 y β ˆ 1 = 0 , 7. Para usar el estimador dado por la propiedad 5, necesitamos calcular Syy. Tenemos que ¯ y = 1 y

y i^2 = 11, luego

Syy =

∑^ n

i =

( yiy ¯)^2 =

∑^5

i =

y i^2 − 5( ¯ y )^2 = 11 − 5(1)^2 = 6

SSE = Syyβ ˆ 1 Sxy = 6 − (0 , 7)(7) = 1 , 1

de donde S^2 =

SSE

n − 2 =^

5 − 2 = 0 ,^367.

Como en general no conocemos σ^2 , podemos estimar σ a partir de los datos experimentales usando la propiedad 5, esto es usando S =

SSE n − 2 y sustituir^ σ^ por su estimador en el estadístico^ Z. Se tiene así que el estadístico resultante es

T =

β ˆ iβi 0 Scii

el cual tiene distribución t de Student con n − 2 grados de libertad. En resumen, se tiene

Prueba de hipótesis para βi H 0 : βi = βi 0

Ha :

βi > βi 0 , prueba unilateral derecha βi < βi 0 , prueba unilateral izquierda βi , βi 0 , prueba bilateral Estadístico de prueba: T =

β ˆ iβi 0 Scii Región de rechazo:

RR =

T > tα T < | T | > tα/ 2 donde c 00 =

x^2 i nSxx

y c 11 =

Sxx y t tiene n − 2 grados de libertad.

¿Presentan los datos del Ejemplo 6.1 suficiente evidencia para indicar que la pendiente difiere de 0? Haga la prueba con α = 0 , 05 y establezca los límites para el nivel de significancia alcanzado.

Solución

Las hipótesis para este problema son: H 0 : β 1 = 0 Ha : β 1 , 0 Del Ejemplo 6.1 tenemos que β ˆ 1 = 0 , 7 y Sxx = 10. Del Ejemplo 6.3 se tiene S^2 = 0 , 367, de donde S =

Como nos interesa el parámetro β 1 , necesitamos calcular el valor c 11 , siendo este

c 11 =

Sxx^ =^

10 = 0 ,^1.

6.5 Prueba de hipótesis para los parámetros βi 11

Se tiene así T = β ˆ 1 − β 10 Sc 11

= 0 ,^7 −^0

Para α = 0 , 05 se tiene tα/ 2 ( n − 2) = t 0 , 025 (3) = 3 , 182, luego

| T | = 3 , 652 > 3 , 182 = tα/ 2

por lo que se rechaza H 0 , esto es, la pendiente de la recta de regresión difiere de cero. Ahora, dado que la prueba es bilateral, el p -valor = P (| T | > Tobs ) = 2 P ( T > Tobs ). De la tabla de la distribución t se tiene que 0 , 01 < P ( T > 3 , 65) < 0 , 025. Por lo tanto, concluimos que 0 , 02 < p -valor < 0 , 05. Podemos observar que la conclusión a la que llegamos concuerda con el p -valor.

Con la misma función summary() podemos obtener los estadísticos de prueba para los coeficien- tes ˆ βi y sus respectivos p −valores. Instrucciones en R

summary(recta)

Con base en el estadístico T dado por (6.3) podemos seguir los procedimientos del tema de Intervalos de confianza para demostrar que un intervalo de confianza para βi con un coeficiente de confianza de (1 − α )100 % está dado por:

β ˆ i ± tα/ 2 Scii (6.4)

donde c 00 =

x^2 i nSxx

y c 11 =

Sxx y t tiene n − 2 grados de libertad.

Calcule un intervalo de confianza del 95 % para el parámetro β 1 del Ejemplo 6.4.

Solución

Tenemos 1 − α = 0 , 95, de donde α/ 2 = 0 , 025. El valor de tα/ 2 ( n − 2) = t 0 , 025 (3) = 3 , 182. Entonces, el intervalo de confianza del 95 % para β 1 es

β ˆ 1 ± tα/ 2 Sc 11

Sustituyendo, se obtiene

0 , 7 ± (3 , 182)(0 , 606)

Se tiene así que un intervalo de confianza del 95 % para β 1 es

I = (0 , 09; 1 , 31).

6.6 Inferencia referente a funciones lineales de los parámetros del modelo de regresión lineal 13

Prueba de hipótesis para θ = a 0 β 0 + a 1 β 1 H 0 : θ = θ 0

Ha :

θ > θ 0 , prueba unilateral derecha θ < θ 0 , prueba unilateral izquierda θ , θ 0 , prueba bilateral Estadístico de prueba:

T =

θ ˆ − θ 0

S

a 0

∑ (^) x 2 n^ i + a^21 −^2 a^0 a^1 x ¯ Sxx

Región de rechazo:

RR =

T > tα T < | T | > tα/ 2_._

Si un estimador θ ˆ es una combinación lineal de las observaciones de la muestra y tiene una varianza que es menor o igual a la de cualquier otro estimador que también es una combinación lineal de las observaciones de la muestra, entonces se dice que θ ˆ es el mejor estimador lineal insesgado para θ. El siguiente resultado establece que entre todos los estimadores insesgados para β 0 y β 1 que son lineales en Yi , los estimadores de mínimos cuadrados tienen la varianza menor.

Teorema 6.6.1 – Teorema de Gauss-Markov.

Sea Y = β 0 + β 1 x + ε un modelo de regresión simple tal que para cada xi fijo, cada Yi es una observación de una variable aleatoria y cada ε = εi , i = 1 , 2 ,... , n es una variable aleatoria no observada. También, sea la variable aleatoria εi tal que E( εi ) = 0 , V ar ( εi ) = σ^2 y Cov ( εi , εj ) = 0 si i , j. Entonces los estimadores de mínimos cuadrados de β 0 y β 1 son los mejores estimadores lineales insesgados.

Es importante señalar que incluso cuando las desviaciones de error no son constantes, toda- vía pueden existir estimadores de mínimos cuadrados insesgados, pero los estimadores de mínimos cuadrados no tendrán varianza mínima.

6.6.1 Estimación del error de varianza

Cuanto mayor sea la varianza, σ^2 , del error aleatorio ε , mayores serán los errores en la estimación de los parámetros del modelo β 0 y β 1. Podemos utilizar cantidades ya calculadas para estimar esta variabilidad de errores. Se puede demostrar que

E( SSE ) = ( n − 2) σ^2 (6.6)

Por lo tanto, un estimador insesgado del error de la varianza, σ^2 , es σ ˆ^2 = ( SSE ) / ( n − 2). Denota- remos ( SSE ) / ( n − 2) por MSE ( Mean Square Error , siglas en inglés para Error Cuadrático Medio ).

6.6.2 Intervalo de confianza de (1 − α )100 % para θ = a 0 β 0 + a 1 β 1

Un intervalo de confianza de (1 − α )100 % con una muestra grande para θ = a 0 β 0 + a 1 β 1 es de la forma θ ˆ ± zα/ 2 σ (^) θ ˆ.

Note que al igual que en el caso del estadístico Z , el intervalo de confianza, σ (^) θ ˆ =

V ar ( θ ˆ) es un múltiplo constante de σ. Si sustituimos σ por S en la expresión de Z , la expresión resultante T tiene distribución t de Student con n − 2 grados de libertad. Así, un intervalo de confianza de (1 − α )100 % para θ = a 0 β 0 + a 1 β 1 queda de la siguiente forma:

θ ˆ ± tα/ 2 S

a 0

∑ (^) x 2 n i +^ a^21 −^2 a^0 a^1 x ¯ Sxx

En el caso particular de a 0 = 1 y a 1 = x ∗^ siendo x ∗^ un valor específico de x que resulte de interés, se tiene a 0 β 0 + a 1 β 1 = β 0 + β 1 x ∗^ = E( Y ) en este caso, tenemos que un intervalo de confianza o intervalo de predicción para el valor medio de Y cuando x = x ∗^ es

( ˆ β 0 + ˆ β 1 x ∗) ± tα/ 2 S

n

  • ( x

∗ (^) − x ¯) 2 Sxx

Según los datos del Ejemplo 6.1, determine un intervalo de predicción del 90 % para E( Y ) cuando x = 1.

Solución La función lineal es E( Y ) = β 0 + β 1 x Para estimar E( Y ), para cualquier valor fijo x = x ∗^ se tiene Ê ( Y ) = ˆ β 0 + ˆ β 1 x ∗ Entonces β ˆ 0 + ˆ β 1 x ∗^ = 1 + 0 , 7 x ∗ Tenemos además x ∗^ = 1 , n = 5 , x ¯ = 0 y Sxx = 10, luego 1 n

( x ∗^ − x ¯)^2 Sxx

(1 − 0)^2

Del Ejemplo 6.3 tenemos que S^2 = 0 , 367 de donde S = 0 , 606 y el valor de t 0 , 05 (3) = 2 , 353, entonces

( ˆ β 0 + ˆ β 1 x ∗) ± tα/ 2 S

1 n +^

( x ∗− x ¯)^2 Sxx (1 + 0 , 7 × 1) ± 2 , 353 × 0 , 606

6.7 Ejercicios para la práctica

  1. Ajuste una recta a los cinco datos siguientes: x -2 -1 0 1 2 y 3 2 1 1 0.

a ) Obtenga las estimaciones de β 0 y β 1. b ) ¿Presentan los datos suficiente evidencia para indicar que la pendiente β 1 difiere de cero? haga la prueba con un nivel de significancia del 5 %.

  1. Las medianas de los precios de venta de casa nuevas para una sola familia durante un período de ocho años se indican en la tabla siguiente. Sea Y la mediana de los precios de venta y x el año (representado por los números enteros, 1 , 2 ,... , 8),

Año Mediana del precio de venta (× 1000) 1972(1) $27. 1973(2) $32. 1974(3) $35. 1975(4) $39. 1976(5) $44. 1977(6) $48. 1978(7) $55. 1979(8) $62.

a ) Ajuste el modelo Y = β 0 + β 1 x + ε. ¿Qué se puede concluir con los resultados? b ) Calcule SSE y S^2.

  1. Los experimentos de laboratorio diseñados para medir valores de CL50 en la investigación de los efectos de cierto producto tóxico en peces se efectúan de acuerdo con dos métodos. En uno de ellos, el agua fluye continuamente a través de los tanques del laboratorio y, en el otro, el agua está en reposo. A fin de establecer los criterios para sustancias tóxicas, la Agencia para la Protección Ambiental de Estados Unidos (EPA) pretende ajustar los resultados a la condición dinámica. Por consiguiente, se requiere de un modelo que relacione los dos tipos de condición dinámica. Las observaciones acerca de ciertos productos tóxicos analizados en ambas condiciones, estática y dinámica, dieron los resultados que contiene la siguiente tabla (las mediciones se expresan en partes por millón).

Producto tóxico CL50 dinámico ( y ) CL50 estático ( x ) 1 23.00 39. 2 22.30 37. 3 9.40 22. 4 9.70 17. 5 0.15 0. 6 0.28 0. 7 0.75 2. 8 0.51 2. 9 28.00 32. 10 0.39 0.

6.7 Ejercicios para la práctica 17

a ) Ajuste el modelo Y = β 0 + β 1 x + ε ¿Cómo puede interpretar los resultados? b ) Estime el valor dinámico para un producto tóxico con un valor estático de CL50 de x = 12 partes por millón. c ) Calcule el valor de SSE , S^2 , V ( ˆ β 0 ) y V ( ˆ β 1 ).

  1. La siguiente tabla proporciona los datos de la pesca de anchoas peruanas (en millones de toneladas métricas) y los precios de la carne de pescado (en dólares por tonelada) en los años de 1965 a 1978. Variable 1965 1966 1967 1968 1969 1970 1971 Precio de la carne de pescado ( y ) 190 160 134 129 172 197 167 Pesca de anchoas ( x ) 7.23 8.53 9.82 10.26 8.96 12.27 10. Variable 1972 1973 1974 1975 1976 1977 1978 Precio de la carne de pescado ( y ) 239 542 372 245 376 454 410 Pesca de anchoas ( x ) 4.45 1.78 4.0 3.3 4.3 0.8 0. a ) Obtenga la recta de mínimos cuadrados adecuada para estos datos. b ) Localice los puntos en una gráfica y trace la recta para verificar sus cálculos. c ) ¿Presentan los datos evidencia suficiente para indicar que el tamaño de la cantidad de anchoas capturadas x contribuye a la información que permite predecir los precios y de la carne de pescado? Use α = 0 , 10.
  2. Se llevó a cabo un estudio para determinar cómo afecta la privación del sueño la habilidad de los individuos para resolver problemas sencillos. La cantidad de horas sin dormir variaba entre 8, 12, 16, 20 y 24 horas. Diez individuos participaron en el estudio, dos por cada nivel de privación de sueño. Después del período de privación de sueño se asignó a cada individuo un conjunto de problemas sencillos en los que había que sumar y se registró el número de errores. La siguiente tabla contiene los resultados obtenidos. Número de errores ( y ) 8, 6 6, 10 8, 14 14, 12 16, 12 Número de horas sin dormir ( x ) 8 12 16 20 24

a ) Obtenga la recta de mínimos cuadrados adecuada para estos datos. b ) Calcule S^2. c ) ¿Presentan los datos evidencia suficiente para indicar que el número de errores se relaciona linealmente con el número de horas sin dormir? Use α = 0 , 05.

  1. Para una muestra aleatoria de tamaño n a ) Demuestre que la suma de errores cuadrados se puede expresar como

SSE = Syyβ ˆ 1 Sxy.

b ) Demuestre que E( SSE ) = ( n − 2) σ^2.

  1. Los siguientes son datos de exámenes parciales y finales para 10 estudiantes de una clase de cálculo, donde x denota la nota del examen parcial e y denota la nota del examen final para cada estudiante x 68 87 75 91 82 77 86 82 75 79 y 74 79 80 93 88 79 97 95 89 92

a ) Calcule la recta de regresión lineal para estos datos. b ) Grafique los datos y la recta de regresión lineal en el mismo gráfico (use R para ello). c ) Calcule un intervalo de confianza del 95 % para β 0 y β 1 respectivamente.

  1. Los siguientes datos dan los ingresos anuales (en miles de dólares) y los montos (en miles de dólares) de las pólizas de seguro de vida para ocho personas.

6.7 Ejercicios para la práctica 19

a ) Calcule la recta de regresión lineal para estos datos. b ) Grafique los datos y la recta de regresión lineal en el mismo gráfico (use R para ello). c ) Calcule un intervalo de confianza del 95 % para β 0 y β 1 respectivamente.

  1. Para los siguientes datos, construya un intervalo de predicción del 95 % para x = 12. x 1 3 5 7 9 11 y 16 36 43 65 80 88
  2. Los datos siguientes son de una muestra aleatoria de alturas (en pulgadas) y pesos (en libras) de siete jugadores de basquetbol Altura 73 83 77 80 85 71 80 Peso 186 234 208 237 265 190 220

Construya un intervalo de predicción del 99 % para la altura igual a 90 pulgadas. Interprete el resultado y establezca cada suposición.

  1. Los siguientes datos representan la emisión total de CO 2 por vehículo (en toneladas métrica por vehículo) Año 2007 2008 2009 2010 2011 2012 Total 1.01 1.09 1.07 1.01 0.91 0.

a ) Calcule la recta de regresión lineal para estos datos. b ) Grafique los datos y la recta de regresión lineal en el mismo gráfico (use R para ello). c ) Calcule un intervalo de confianza del 95 % para β 0 y β 1 respectivamente. d ) Construya un intervalo de predicción del 95 % para las emisiones del año 2013.