


















































Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Prepara tus exámenes
Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Prepara tus exámenes con los documentos que comparten otros estudiantes como tú en Docsity
Los mejores documentos en venta realizados por estudiantes que han terminado sus estudios
Estudia con lecciones y exámenes resueltos basados en los programas académicos de las mejores universidades
Responde a preguntas de exámenes reales y pon a prueba tu preparación
Consigue puntos base para descargar
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Comunidad
Pide ayuda a la comunidad y resuelve tus dudas de estudio
Descubre las mejores universidades de tu país según los usuarios de Docsity
Ebooks gratuitos
Descarga nuestras guías gratuitas sobre técnicas de estudio, métodos para controlar la ansiedad y consejos para la tesis preparadas por los tutores de Docsity
Notas de clases de estadística descriptiva y estadística matemática con aplicaciones en R
Tipo: Guías, Proyectos, Investigaciones
1 / 58
Esta página no es visible en la vista previa
¡No te pierdas las partes importantes!
1.1 Introducción 1
1.1.1 La ciencia estadística
El concepto de estadística originalmente significó la simple recolección de información econó- mica y de población que era necesaria para el Estado. En este sentido fue utilizada por primera vez la palabra en el Siglo XVIII y fue definida como la “ciencia que nos enseña la situación política de los Estados Modernos del mundo conocido”. Zimmerman la definió como “una rama del conocimiento político que tiene por objeto estudiar la potencia real y relativa de los distintos estados modernos, la capacidad derivada de sus condiciones naturales, la industria y civilización de sus habitantes y la sabiduría de sus gobernantes”. De este modesto comienzo la estadística se ha desarrollado hasta llegar a ser un método científico de análisis que es aplicable en prácticamente todas las ciencias. La estadística ha pasado a ser la ciencia de recoger, presentar, analizar e interpretar datos numéricos y constituye la rama del saber humano que tiene como objeto el estudio de ciertos métodos inductivos aplicables a fenómenos susceptibles de expresión cuantitativa. El uso de la estadística ha llegado a ser, en parte gracias al desarrollo de las computadoras electrónicas, esencial en el desarrollo de prácticamente todas las disciplinas: física, economía, sociología, administración de empresas, ingeniería, psicología, etc., y los profesionales de estas ramas recogen e interpretan la información estadística para llevar a cabo sus actividades más eficientemente.
1.1.2 Estadística descriptiva y estadística estimada
La mayoría de las personas ven la Estadística en relación al uso de datos, promedios, gráficos o cuadros que tratan de describir una determinada situación.
La totalidad de las transacciones realizadas en la Bolsa de Valores en una semana no pueden ser presentadas eficientemente una a una debido a su elevado número; en lugar de ello se describe la situación informando el número de transacciones, los precios más altos y más bajo, los precios al momento de apertura y de cierre y el precio promedio alcanzado.
Este tipo de información y los métodos para implementarla corresponden al estudio de la Estadística Descriptiva. La Estadística Descriptiva comprende los métodos de agrupamiento de datos numéricos y cálculo de ciertas magnitudes a partir de ellos con objeto de describir al grupo. La Estadística Estimada o Inferencia Estadística, no se conforma con una pura descripción sino que trata de inferir características generales de una población a partir del examen de un subconjunto de esa población. La importancia de la Inferencia Estadística se debe al papel que juega en la verificación de generalizaciones estadísticas, entendiendo por tales aquellas que implican que habrá excepciones a lo que la generalización afirma. La afirmación “el sector campesino vota por un determinado partido” es una generalización estadística y el que existan uno o más campesinos que voten por otro partido no hace falsa la afirmación.
En los procesos de producción es importante controlar la calidad de las mercancías producidas. Supongamos que se trata de la producción de cauchos y que, para efectos de garantía, es deseable que el 90 % por lo menos de los cauchos producidos duren más de 20.000Km. Es evidente que una forma de conocer la verdadera proporción de cauchos producidos que cumplen el requisito es someter a prueba todas las unidades producidas, pero también es evidente que esto, además de consumir demasiado tiempo que haría impracticable cualquier cambio en el proceso de producción, tiene la indeseable característica de que no quedarán cauchos para vender. En lugar de eso, se decide que cada 50 cauchos producidos en un día se toma uno y se somete a prueba; el porcentaje de los cauchos examinados que duran más de 20.000Km. puede ser usado para estimar el porcentaje de todos los cauchos producidos que duran más de 20.000Km.; al hacer esto, estamos garantizando los resultados de un subgrupo para sacar conclusiones de todo el grupo.
Se ha propuesto a una industria un nuevo proceso de producción, que según el oferente hará aumentar la producción diaria. Para decidir la instalación o no del nuevo proceso se pone éste a prueba durante un período de 60 días y con base en la comparación de la producción media del período y la producción media conocida del proceso anterior se toma una decisión.
Los dos ejemplos anteriores son típicos de la aplicación de la Inferencia Estadística. En cada caso, podemos preguntarnos hasta que punto los resultados obtenidos en el examen de una parte de la población son representativos de las características generales de la población. Para estar seguros de nuestras decisiones deberíamos examinar todos los elementos de la población, pero si las muestras han sido elegidas adecuadamente podemos tener la confianza de que los resultados muestrales estarán cercanos a las poblaciones con cierto margen de error. Las preguntas cruciales
Definición 1. Sea X una variable aleatoria asociada a cierto experimento. Si realizamos n veces el experimen- to, de manera independiente y bajo las mismas condiciones, obtenemos n valores numéricos, en caso de variables cuantitativas: x 1 , x 2 ,... , xn correspondientes a la variable aleatoria X. A estos resultados obtenidos se les llama muestra observada. Cuando esta muestra no se somete a ninguna ordenación especial, se le denomina muestra bruta.
De la definición anterior podemos decir que uno de los primeros problemas que los estadístas deben enfrentar es la recolección de los datos. Las inferencias que puedan hacerse dependen críticamente de los datos que se han recolectados. La recolección de datos envuelve los siguientes pasos importantes:
Procedimiento general para la recolección de datos:
Los datos se pueden clasificar en diferentes formas. Daremos dos diferentes clasificaciones, una basada en si los datos se pueden medir numéricamente o no, y la otra en si los datos son recolectados en el mismo período de tiempo o en diferentes períodos de tiempo.
Definición 1. Los datos cuantitativos son observaciones medidas en una escala numérica que pude ser discreta o continua. Datos no numéricos que solo se pueden clasificar en grupos de categorías se dicen que son cualitativos o datos categóricos.
Los datos sobre la respuesta a una terapia en particular podrían clasificarse como no mejora, mejora parcial o mejora completa. Estos son datos cualitativos. El número de propietarios de negocios en el estado de Florida, USA es cuantitativo. El estado civil de cada persona en una clase de estadísticas como casados o no casados es datos cualitativos o categóricos. El número de accidentes automovilísticos en diferentes ciudades de Venezuela es cuantitativo. El grupo sanguíneo de cada persona en una comunidad como O, A, B, AB son datos cualitativos.
Los datos categóricos podrían clasificarse además como datos nominales y datos ordinales. Los datos caracterizados como nominales tienen grupos de datos que no tienen un orden específico. Un ejemplo de esto podría ser nombres de estado, o nombres de los individuos, o cursos por nombre. Estos no necesitan ser colocados en ningún orden. Los datos caracterizados como ordinal tienen grupos que deben ser listados en un orden específico. El orden puede ser creciente o decreciente. Un ejemplo serían los niveles de ingresos. Los datos pueden tener valores numéricos como 1, 2, 3 o valores como alto, medio o bajo.
1.2 Descripción de los conjuntos de datos 5
Definición 1. Los datos transversales son datos recogidos sobre diferentes elementos o variables en el mismo punto en el tiempo o por el mismo período de tiempo.
La Tabla 1.2 representa el aporte federal de USA para las Ciencias Matemáticas en 1996, en millones de dólares (fuente: AMS Notices). Este es un ejemplo de datos transversales, ya que son datos recolectados en un período de tiempo, el año 1996.
Agencia Federal Aporte (millones $) National Science Foundation 91. DMS 85. Others MPS 4. Department of Defense 77. AFOSR 16. ARO 15. DARPA 22. NSA 2. ONR 20. Department of Energy 16. University Support 5. National Laboratories 10. Total, todas las agencias 185.
Cuadro 1.1: Apoyo Federal para las Ciencias Matemáticas, 1996, en millones de dólares, USA
Definición 1. Datos de series de tiempo son datos recolectados sobre el mismo elemento o la misma variable en diferentes puntos de tiempo o para diferentes periodos de tiempo.
La Tabla 1.2 representa el aporte federal de USA para las Ciencias Matemáticas durante los años 1995-1997, en millones de dólares (fuente: AMS Notices). Este es un ejemplo de datos de series de tiempo, ya que son datos recolectados en diferentes períodos de tiempo, del año 1995 al año 1997.
1.3 Representación gráfica de los datos 7
De la definición 1.7 se tiene que la frecuencia relativa de un valor de los datos es la proporción de los datos que tienen ese valor. La frecuencia relativa se puede representar gráficamente por un gráfico de líneas o un gráfico de barras. En efecto, estos gráficos de frecuencias relativas lucen igual que los correspondientes gráficos de frecuencias absolutas excepto que las etiquetas del eje vertical son ahora las frecuencias absolutas divididas entre el total de datos.
Definición 1. Un gráfico de lineas o gráfico de lineas verticales es una gráfica que muestra datos vi- sualmente utilizando lineas verticales que van de arriba hacia abajo, cuyas longitudes son proporcionales a las cantidades que representan. Puede utilizarse cuando un eje no puede tener una escala numérica.
La Tabla 1.3 es una tabla de frecuencia absolutas para el conjunto de datos que consiste de los salarios anuales iniciales (en miles de dólares) de 42 estudiantes recien graduados en ingeniería eléctrica. La Tabla 1.3 nos muestra, entre otras cosas, que el salario más bajo es $47.000 recibido por 4 de los graduados, mientras que el mayor salario es de $60.000 recibido por un solo graduado. El salario anual inicial más común es de $52.000 y es recibido por 10 de los graduados.
Inicial 47 48 49 50 51 52 53 54 56 57 60 Frecuencia 4 1 3 5 8 10 0 5 2 3 1
Cuadro 1.3: Salarios anuales iniciales
La Tabla del ejemplo 1.8 la podemos ampliar para seguir el procedimiento dado arriba para construir tablas de frecuencias. La Tabla 1.3 muestra la tabla de frecuencias ampliadas según el procedimiento anterior; allí podemos observar en la primera columna los salarios iniciales, en la segunda columna las frecuencias absolutas, en la tercera columna las frecuencias absolutas acumuladas, note que para el último valor la frecuencia acumulada debe ser el total de todas las observaciones, en la cuarta columna se muestran las frecuencias relativas y en la quinta columna las frecuencias relativas acumuladas, nuevamente note que para el último valor la frecuencia relativa acumulada debe ser igual a 1.
Salario inicial Frec. abs Frec. abs. acum Frec. rel. Frec. rel. acum 47 4 4 4/42=0.0952 0. 48 1 5 1/42=0.0238 0. 49 3 8 3/42=0.0714 0. 50 5 13 5/42=0.1190 0. 51 8 21 8/42=0.1904 0. 52 10 31 10/42=0.2380 0. 53 0 31 0/42=0.0000 0. 54 5 36 5/42=0.1190 0. 56 2 38 2/42=0.0476 0. 57 3 41 3/42=0.0714 0. 60 1 42 1/42=0.0238 1.
Cuadro 1.4: Tabla de frecuencias absolutas y relativas para los salarios anuales iniciales
El gráfico de línea correspondiente a los datos del ejemplo 1.8 se muestra en la Figura 1.1. Los comandos en R para trazar dicho gráfico son los siguientes:
Instrucciones en R
salarios <-read.table("salarios.txt",header=TRUE)
plot(salarios [,1], salarios [,2], type="h", col="darkred", xlab="Salarios anuales iniciales", ylab = "Frecuencia")
Figura 1.1: Gráfico de líneas verticales para los salarios anuales iniciales del ejemplo 1.8.
Cuando las líneas en un gráfico de líneas se les añade un espesor o grosor, el gráfico se llama gráfico de barras.
Definición 1. Un gráfico de barras también conocido como diagrama de barras o diagrama de columnas, es una forma de representar gráficamente un conjunto de datos o valores, y está conforma- do por barras rectangulares de longitudes proporcionales a los valores representados. Los gráficos de barras son usados para comparar dos o más valores. Las barras pueden orien- tarse horizontal o verticalmente. Puede utilizarse cuando un eje no puede tener una escala numérica.
Realice un gráfico de barras de frecuencias absolutas y otro de frecuencias relativas para los datos del ejemplo 1.8.
barplot(salarios [,2]/42,names=c(salarios [,1]),col="blue", ylim = c(0 ,0.25) , xlab="Salarios anuales iniciales", ylab = "Frecuencias relativas")
Utilice los datos de la tabla 1.2 para realizar un gráfico de barras de los aportes de la Agencias Federales de USA a las ciencias matemáticas.
Solución
Vamos a utilizar diferentes parámetros del comando en R para los gráficos de barras siguien- tes de manera de observar las diferencias en los gráficos
1.3 Representación gráfica de los datos 11
Instrucciones en R
agencia <-c("National Science Foundation", "DMS", "Others MPS", "Department of Defense", "AFOSR", "ARO", "DARPA", "NSA", "ONR", "Department of Energy", "University Support", "National Laboratories")
a1995 <-c(87.69 ,85.29 ,2.40 ,77.40 ,17.40 ,15.00 ,21.00 ,2.50 ,21.40 , 15.70 ,6.20 ,9.50) a1996 <-c(91.70 ,87.70 ,4.00 ,77.30 ,16.70 ,15.00 ,22.90 ,2.50 ,20.20 , 16.00 ,5.50 ,10.50) a1997 <-c(98.22 ,93.22 ,5.00 ,67.80 ,17.10 ,13.00 ,19.50 ,2.10 ,16.10 , 16.00 ,5.00 ,11.00)
Aporte.Federal <-data.frame(agencia ,a1995 ,a1996 ,a1997)
par(mfrow=c(1 ,3)) barplot(a1995 ,names=agencia ,col="blue", main="Año 1995", xlab = "Agencia Federal", ylab = "Monto (MM $)") barplot(a1996 ,names=agencia ,col="blue", main="Año 1996", xlab = "Agencia Federal", ylab = "Monto (MM $)") barplot(a1997 ,names=agencia ,col="blue", main="Año 1997",
1.3 Representación gráfica de los datos 13
Cuadro 1.5: Apoyo Federal para las Ciencias Matemáticas, 1995, en millones de dólares, USA. Datos ordenados de mayor a menor
Las instrucciones en R para ordenar los datos y realizar el gráfico de Pareto son las siguientes:
Instrucciones en R
x<-Aporte.Federal[order(-Aporte.Federal [,2], Aporte.Federal [,4]),]
barplot(x[,2],names=x[,1],col="blue",xlab = "Agencia Federal", ylab = "Monto (MM $)")
Definición 1. Un círculo dividido en sectores que representan los porcentajes de una población o una muestra que pertenece a diferentes categorías se denomina gráfico circular.
El gráfico circular se usa por lo general para indicar las frecuencias relativas cuando los datos son de naturaleza no numérica. Se construye un círculo y entonces se divide en diferentes sectores, uno para cada tipo distinto de dato. La frecuencia relativa de cada valor de dato indica el área del sector correspondiente.
El conjunto de datos de la Tabla 1.3 relaciona diferentes tipos de cáncer que ha afectado recientemente a 200 pacientes que han ingresado a una clínica especializada en tratamiento de cáncer. Los datos se representan en los gráficos circulares de la Figura ??. Para realizar el gráfico circular en 3D es necesario cargar la librería “plotrix”.
Tipo de cáncer Número de casos nuevos Frecuencia relativa Pulmón 42 0. Máma 50 0. Cólon 32 0. Próstata 55 0. Melanoma 9 0. Vejiga 12 0.
Cuadro 1.6: Distintos tipos de cáncer
Las instrucciones en R para los gráficos de torta y torta3D son las siguientes:
Instrucciones en R
cancer <-read.table("cancer.txt",header = TRUE)
etiquetas <-c("Pulmón","Mama","Colon","Próstata","Melanoma","Vejiga")
pie(cancer [,2], labels = etiquetas ,col=rainbow(length(etiquetas )))
library(plotrix)
pie3D(cancer [,2], labels=etiquetas ,explode =0.1, col=rainbow(length(etiquetas )), main="Gráfico circular 3D, tipos de cancer")
Como hemos visto, el uso de gráficos de linea o de barras para graficar las frecuencias de los datos observados resulta útil para obtener una visión del conjunto de datos. Sin embargo, para algunos conjuntos de datos el número de distintas valores es muy grande para utilizar esta aproximación. En tales casos, resulta útil dividir los valores en grupos o intervalos de clases y entonces graficar los datos usando los histogramas de frecuencias.
Definición 1. Un histograma es una representación gráfica de una variable en forma de barras, donde la superficie de cada barra es proporcional a la frecuencia de los valores representados. En el eje vertical se representan las frecuencias o frecuencias relativas, y en el eje horizontal los valores de las variables o intervalos de clase.
Guía para construir tablas de frecuencias e histogramas
La Tabla 1.7 presenta el tiempo de vida de 200 lámparas incandescentes. Agrupe los datos en una tabla de frecuencias divida en intervalos de clases y trace el histograma correspondiente.
1.3 Representación gráfica de los datos 17
Cuadro 1.7: Tiempo de vida en horas de 200 lámparas incandescentes
Solución
En la Tabla 1.8 se presentan los intervalos de clases y sus respectivas frecuencias. Los intervalos de clases son de longitud 100, con la primera clases empezando en 500.
Intervalos de clases Frecuencia 500-600 2 600-700 5 700-800 12 800-900 25 900-1000 58 1000-1100 41 1100-1200 43 1200-1300 7 1300-1400 6 1400-1500 1
Cuadro 1.8: Tabla de frecuencia de Intervalos de clases
Para realizar el histograma de frecuencias correspondiente en R nos valemos de la función hist().
ciudades de los Estados Unidos. a Cuadro 1.9: Temperatura diaria mínima en ciudades seleccionadas. En grados Fahrenheit, 1961 a 1990. El promedio anual de temperaturas mínimas de la tabla 1.9 se representa en el siguiente
Tallo Hojas The decimal point is 1 digit(s) to the right of the | 2 9 3 034 3 56699 4 0001244 4 55567899 5 112 5 677899 6 6 9 7 0 a Fuente: U.S. National Oceanic and Atmospheric Administration, Climatography of the United States, No. 81.
Instrucciones en R
temperaturas <-read.table("temperaturas.txt",header=TRUE)
stem(temperaturas [ ,15])
Los experimentos hoy en día a menudo cuentan con conjuntos enormes de datos. Por ejemplo, en un intento por aprender sobre las consecuencias en la salud de ciertas prácticas comunes, en 1951 los médicos estadistas R. Doll y A.B. Hill enviaron cuestionarios a todos los doctores en el Reino Unido y recibieron aproximadamente 40.000 respuestas. Las preguntas trataban sobre la edad, hábitos alimenticios y de fumar. Se les hizo seguimiento a los encuestados durante los siguientes 10 años y se monitorearon las causas de muerte para las personas que murieron durante ese tiempo. Para obtener una idea de tan grande cantidad de datos, se hace necesario resumir estos con algunas medidas adecuadas. En esta sección presentaremos algunos estadísticos de resumen , donde un estadístico es una cantidad numérica cuyo valor será determinado por los datos. Empezaremos introduciendo algunos estadísticos que son usados para describir el centro de un conjunto de datos. Supongamos que tenemos un conjunto de datos que consiste de n valores numéricos x 1 , x 2 ,... , xn.
Definición 1. La media muestral, designada por ¯ x , se define por
x ¯ =
∑^ n
i =
xi n =
n
∑^ n
i =
xi. (1.1)
El cálculo de la media muestral a menudo se puede simplificar observando que si para las