













Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Prepara tus exámenes
Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Prepara tus exámenes con los documentos que comparten otros estudiantes como tú en Docsity
Los mejores documentos en venta realizados por estudiantes que han terminado sus estudios
Estudia con lecciones y exámenes resueltos basados en los programas académicos de las mejores universidades
Responde a preguntas de exámenes reales y pon a prueba tu preparación
Consigue puntos base para descargar
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Comunidad
Pide ayuda a la comunidad y resuelve tus dudas de estudio
Descubre las mejores universidades de tu país según los usuarios de Docsity
Ebooks gratuitos
Descarga nuestras guías gratuitas sobre técnicas de estudio, métodos para controlar la ansiedad y consejos para la tesis preparadas por los tutores de Docsity
Este manual proporciona una guía completa sobre el uso de rstudio para el análisis de datos en ciencias sociales. Abarca desde la configuración del entorno de trabajo hasta la creación de gráficos y la realización de análisis de regresión. El manual está diseñado para estudiantes y profesionales que buscan dominar las herramientas esenciales de rstudio para el análisis de datos.
Tipo: Resúmenes
1 / 21
Esta página no es visible en la vista previa
¡No te pierdas las partes importantes!
Set Working Directory
Setear working directory setwd("/")
Ver working directory getwd()
O puedo hacer Session Set Working Directory Choose Directory
Console Window
Código en azul → comando correctamente ejecutado. Signo | con la barra parpadeando, indica que R está listo para procesar nuevas instrucciones.
Objetos
Una base de datos Un subset de esa base de datos Un número Un texto string Una función
Cargar base de datos
nombre <- read.csv("archivo.csv")
nombre <- load("archivo.RData")
objeto[1:3,]
Toda la variable objeto[,"variable2"]
Uso $ para acceder a variables de un data frame
head(base$variable)
Sintaxis general
Creación de objetos
Titulos #---- Comentario simple
objeto <- valor
Ejemplo: x <- 10 x
Si luego de asignar valor un objeto con nombre X uso el mismo nombre para asignarle otro valor, este objeto cambia/se reemplaza.
vector <- c(n1, n2, n3) vector <- c(1:3)
Es una colección ordenada de números. Uso función concatenate → c() Puede tener un número arbitrario de vectores como argumento Indexing: para acceder a elementos específicos usamos []
vector[3]
Puedo realizar operaciones matemáticas con los vectores
vector * 1000
Puedo multiplicar, sumas, dividir, etcétera, elemento de cada vector por el elemento del otro vector
Creo los vectores vec1<-c(1,2,3) vec2<-c(3,3,3)
Suma vec1 + vec
Multiplicación vec1 * vec
División vec1 / vec
summary(objeto) summary(base$variable)
Puedo usar funciones summarise(mean_var1 = mean(var1), mean_var2 = mean(var2))
Puedo saber qué tipo de variable tengo Numeric (no string) Caracter (string) Logic True/False)
class(obj) class(base$variable)
Me responde verdadero/falso a lo que le ponga que es la variable
is.character(obj) is.numeric(obj)
Permite hacer cambio de tipo de variable
Numerico string a numerico no string objnum_nostring <- as.numeric(obj_string)
Numerico a caracter objcarac <- as.characterr(objnum)
Ver todas las observaciones base[,"variable2"] base[,2]
Ver primeras 5 observaciones base$variable[1:5]
funcion(base$var_prom[base$var_cond == "condicion"])
Ejemplo: media de llamados si la raza es negra mean(resume$call [resume$race == “black ”])
Subsetting Para extraer pedazos de dataframe uso → [] Si quiero extraer por variables uso $
Creo data frames de la data original donde selecciona la/s características que quiero dejar
Selecciono variables obj <- subset(base, select = c("var1", "var2", "var3"), sub
Todas las variables obj <- subset(base, subset = (var_cond == "condicion"))
Más de una condición obj <- subset(base, subset = (var_cond1 == "condicion1" & v
barplot(tabla, names.arg= c("Nombre1","Nombre2","Nombre3"), main="Titulo del gráfico", xlab="Nombre ejex", ylab="Nombre ejey", ylim= c(lim1, lim2))
Ejemplo: barplot(ISAF.ptable, names.arg=c("Noharm","Harm","Nonresponse"), main="Civilianvictimizationby theISAF", xlab="Responsecategory", ylab="Proportionoftherespondents", ylim= c(0,0.7))
Boxplot
Para comparaciones por grupo Me conviene no tener demasiados grupos (hago agregaciones)
boxplot(variable ~ grupo, data = base, main = “nombre del grafico”, xlab = “etiqueta eje x” ylab = “etiqueta eje y”)
Ejemplo: boxplot(educ.years~province, data=afghan, main="EducationbyProvince", xlab="Province", ylab="Years ofEducation")
Scatterplot
Relaciona dos variables
Lineplot
plot(base$vary ~ base$varx, type = "l", col = “color”, xlim=c(min, max), ylim=c(min, max), xlab = “nombre eje x” ylab = “nombre eje y” main = “titulo del grafico”)
Ejemplo: plot(county_characteristics$rent_twobed
∼county_characteristics$popdensity2010, type = “l”, col = “blue”, xlim = c(0,4000), ylim = c(0,2000), xlab = “Densidad Poblacional (Habitantes x m2)”, ylab = “Costo Alquiler (Dpto 3 amb)”, main = “Densidad poblacional vs costo del alquiler”)
Histograma
hist(base$variable, freq = FALSE , → frecuencia o densida ylim = c(0, 0.4 ), xlab = “nombre ejex”, Ylab = “nombre ejey”, main = “nombre del grafico”), breaks = seq(from 0, to 10, by 1)) → bin size
Ejemplo: hist(afghan$age,freq=FALSE, ylim = c(0,0.04), breaks = seq(from –0,5, to 18.5, by 1), xlab="Age",
reg <- lm(variabledepy~variableindx, data=base) summary(reg)
Ejemplo: reg1 <- lm(rent_twobed2015∼popdensity2010, data=county_characteristics)
summary(reg1)
Agregar linea de regresión al gráfico (lo debo tener previa abline(lm(vary∼varx, data=base), col = “color”, lwd = 3)
Coefficients Estimate Std. Edad es (pendiente) → promedio en el que aumenta/disminuye Y Intercept) es (ordenada) P|t| Nos indica que tanto están relacionadas las variables (nivel de confianza) Tenemos nivel de confianza en estrellitas 3 estrellas es alto)
Si es un valor menor a 0.5 indica más confianza P0.5 significa que las variables se relacionan Si es un valor mayor a 0.5 me da menos confianza P0. significa que la pendiente sea cero y las variables no estén relacionadas. R-squared Nos indica que tanto la variable está explicada por la/s. Nos da indicios de que tan completo es mi modelo → depende lo que quiera mirar si me interesa este valor. Me interesa para forecasting, predicciones. No me interesa para efectos causales. Cuantas más variables agregue, mejor será la predicción (más alto el número) Valor e en R Me indica cuantas unidades debo comer la coma e+02 corro la coma 2 veces a la derecha. e-01 corro la coma 1 vez a la izquierda.
Si cambio por una unidad, cambia por (pendiente) En este ejemplo: Si la antigüedad laboral aumenta en 1 año, en promedio el salario por hora aumenta en 0.18 dólares Podemos usar los parámetros para hacer cálculos, por ejemplo, si quiero saber cuál será el salario predicho para alguien con 5 años de antigüedad laboral: _Coef. tenure 0.18 Coef. cons 6.68 * 5
Regresión múltiple
reg_mult <- lm(vary ~ varx1 + varx2, data=base)
Instalar paquete install.packages("name_paquete")
Cargar paquete library(name_paquete)
Ejemplo: library(dplyr)
En el paquete dplyr, el símbolo %% se interpreta como un “y luegoˮ.
Crear o agregar variables
mutate(variable = variable_div/1000)
Renombra a una variable
rename(nom_variable = newnom_variable)
Deja a las observaciones que cumplen cierto criterio()
obj <- variable %>% filter(variable == "Criterio") *reemplaza a la variable por la variable con filtro
Remueve observaciones duplicadas Puedo ver las observaciones que tiene cada variable
obj <- variable %>% distinct(variable)
Me quedo con ciertas variables de una base
obj <- base %$% select("var1", "var2", "var3")
Me quedo con variables y creo nuevas
obj <- base %$% transmute( var1 = var1, var2_div = var2/1000, var3_div = var3/1000)
Ejemplo: salary_median_thous<-salary%>% transmute(name=name, salary_start_thous=salary_start_median/1000, salary_midcareer_thous=salary_midcareer_median/1000)
Ordena a las observaciones
Orden ascendente obj <- base %$% arrange(variable)
Orden descendiente obj <- base %$% arrange(desc(variable))
Data Wrangling
La base1 debe ser la que tiene más observaciones (al mergear, las observaciones que no tengan datos de la base2 quedaran como missing values)