Vista previa parcial del texto
¡Descarga Regresión lineal y su correlación y más Esquemas y mapas conceptuales en PDF de Estadística solo en Docsity!
Regresión Lineal Simple Regresión lineal simple » Etapa exploratoria: gráficos de dispersión = Análisis de correlación En algunos casos, de acuerdo a la naturaleza de las variables y la información disponible, puede suponerse una relación funcional entre dos o más variables, que puede expresarse mediante una expresión matemática. Considerando dos variables, si denominamos Y a la variable que se supone DEPENDIENTE, y X a la variable que se postula INDEPENDIENTE, resulta familiar utilizar el concepto de función: “Y es función de X” indica que pueden predecirse los valores que tomará Y de acuerdo a los valores asignados a X. Dicho de otra manera, s puede conocer el comportamiento de Y a través de un modelo dd) relacione la variación de Y con la variación de X. Regresión lineal simple Análisis de regresión: Modelo Ordenada al origen Pendiente S ES Error AP AS e Observación de la variable dependiente Y i-ésimo valor de la bajo el i-ésimo valor de X variable independiente X » ff, esla ORDENADA AL ORIGEN; indica el valor de Y cuando x;=0 = ff, es la PENDIENTE de la recta; indica cuánto cambia Y por cada incremento unitario en X. - B,>0 > crecimiento de Y por cada incremento unitario en X - B,<0 => disminución de Y por cada incremento unitario en X Regresión lineal simple Ha Sn A 5% y) q Variabilidad no explicada Variabilidad total Variabilidad explicada por el modelo Y 0 AE X 0 1 2 X; A ORDENADA AL ORIGEN PENDIENTE Ss E Error e o Y, = Po + PX, + €, o Regresión lineal simple Definición de variables En un cultivo de trigo se desea cuantificar la relación que hay entre la disponibilidad de N (cantidad de nitrógeno en el suelo en ppm) y la cantidad de nitrógeno en la planta en ppm, relación que se supone lineal. Biológicamente, se espera que la cantidad de N en las plantas sea explicada, al menos parcialmente, por la cantidad de N en suelo. Es por ello que se define como variable dependiente Y la cantidad de N en la planta y como variable independiente X el contenido de N del suelo. Los datos corresponden a 12 parcelas, en las que se registró el contenido de N en el suelo (X) y los valores promedio de N por planta (Y), este último O calculado como promedio sobre todas las plantas de la parcela. Regresión lineal simple Gráfico de dispersión ze ¿ Una vez identificadas pr >? la variable dependiente E 7 o Y: Nitrógeno por planta La A % (ppm), y la variable a e independiente a X: Nitrógeno en el suelo 3 ! (ppm), se graficaron los Y datos obtenidos en un os diagrama de dispersión. o 0 Ed 4 6 8 Nitrógeno en el suelo (ppm) Regresión lineal simple Estimación de parámetros Se denominan coeficientes de regresión muestral a las estimaciones de f, y f,, denotadas b, y b, respectivamente. Si no hubiese errores aleatorios, cualquier par de puntos (x , y) podría usarse para encontrar los valores de b, y b, . De este modo todas las estimaciones serían idénticas, independiente del par de valores utilizado. La presencia de errores hace necesaria la aplicación de un método para la estimación, que permita combinar toda la información disponible en la muestra. El método de estimación que aplicaremos utiliza el término de error aleatorio presente en el modelo, y se denomina MÉTODO DE MÍNIMOS CUADRADOS. Recordemos que el error aleatorio e, se define como la distancia del valor observado respecto a la recta, medida sobre el eje de las ordenadas. t Nitrógeno por planta (ppm) 1.5 0.5 Considerando que la sumatoria de los errores o=() aleatorios asociados a los valores originales es cero, este método utiliza la sumatoria de dichos errores elevados al cuadrado. Error aleatorio €, : distancias de los $ valores observados respecto a la $ recta, medidas sobre el eje de las 4 ordenadas rn de - > Ej =mín i=] La recta de «mejor ajuste» se define como aquella que posibilita que la sumatoria de los cuadrados de los errores sea lo más pequeña posible. e 3 4 6 8 10 Nitrógeno en el suelo (ppm) Regresión lineal simple Contrastes de hipótesis sobre los parámetros Se presenta aquí la ecuación de la recta construida con las estimaciones de los parámetros: Los contrastes de hipótesis, tanto para ff, como para $, se ponen a prueba mediante un test T. A continuación se presentan las hipótesis nulas y alternativas, así como los estadísticos de las pruebas T, para Cada uno de los parámetros estimados. Y = 0,76 + 0,16 X Nitrógeno por planta (ppm) 25 15 05 a e S o : = Nitrógeno en el suelo (ppm) Regresión lineal simple Contrastes de hipótesis sobre los parámetros H.:B,=0 T= bo o] Hy: Pp%0 La a 1 s E NN A Hp: P,¡=0 cta a E o 0 0 Evaluación de la o regresión Evaluación de la regresión Para evaluar el valor predictivo del modelo se calcula el coeficiente de determinación, R?. Se analizarán también los residuos obtenidos durante el análisis con el objetivo de corroborar el cumplimiento de los supuestos del modelo. El resultado del análisis de regresión puede expresarse mediante una tabla de ANAVA (Análisis de la Varianza). Se observa que la variación total en Y (SCT) puede descomponerse en la variación de los datos explicada por la regresión (SCP) más la variación no explicada o residual (SCR). Si la variación explicada es sustancialmente mayor que la variación no explicada, el modelo propuesto será bueno para fines predictivos. Grados de Cuadrado Fuente de Variación Suma de Cuadrados ber | Medio F CMB Debida a licad SC 1 EM == B (explicada) B B CMR Residual (NO explicada) SCR n-2 CMR Total SET n-1 Evaluación de la regresión Coeficiente de determinación R? Una medida de la capacidad predictiva del modelo es el coeficiente de determinación R?, que relaciona la variación explicada por el modelo (sCf) con la variación total (SCT). Este coeficiente se calcula entonces como IS SCf: suma de cuadrados de la regresión, representa 2 SsCB la variabilidad explicada por el modelo. SES SCT = 0,95 SCT: suma de cuadrados total, representa la variabilidad total. Este coeficiente es a su vez el estimador muestral del parámetro p?. El contraste de hipótesis para evaluar la bondad de ajuste del modelo se resuelve mediante un estadístico de distribución F, ya que se trata de un cociente entre dos varianzas (las que a su vez tienen distribución x?). 15 p?= 0 Fops= 194,32 Fobs > Etapa > Rechazo Hy > p? > 0 . F = 4 84 Esto indica que una gran proporción (95%) de la D HA; . p” > 0 Habla ? variabilidad total es explicada por el modelo. Evaluación de la regresión Análisis de los residuos Es necesario tener en cuenta que las pruebas de bondad de ajuste sólo son válidas si se cumplen los supuestos del modelo de regresión: - La esperanza de la distribución de los errores es cero - La varianza de la distribución de los errores es constante - Los errores son variables aleatorias normales e independientes Recordemos el modelo Estos supuestos, referidos al término de error €; , Pueden resumirse de la siguiente forma: Para comprobarlos es necesario estudiar los residuos obtenidos al realizar el O análisis de regresión, una vez ajustada la recta a los datos observados.