Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad

Introducción a RStudio: Manual de Uso para Análisis de Datos en Ciencias Sociales - Prof. , Resúmenes de Análisis de Datos y Métodos Estadísticos

Este manual proporciona una guía completa sobre el uso de rstudio para el análisis de datos en ciencias sociales. Abarca desde la configuración del entorno de trabajo hasta la creación de gráficos y la realización de análisis de regresión. El manual está diseñado para estudiantes y profesionales que buscan dominar las herramientas esenciales de rstudio para el análisis de datos.

Tipo: Resúmenes

2023/2024

A la venta desde 11/11/2024

malena-academico
malena-academico 🇦🇷

47 documentos

1 / 21

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
Intro a RStudio Farias Malena
1
Intro a RStudio - Farias Malena
Manual de uso para RStudio realizado por Malena Farias
para el curso “Análisis de Datos para Ciencias Socialesˮ en
la Universidad Torcuato Di Tella, dictada por Camila Navajas
Ahumada.
Introducción
Interfaz
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15

Vista previa parcial del texto

¡Descarga Introducción a RStudio: Manual de Uso para Análisis de Datos en Ciencias Sociales - Prof. y más Resúmenes en PDF de Análisis de Datos y Métodos Estadísticos solo en Docsity!

Intro a RStudio - Farias Malena

Manual de uso para RStudio realizado por Malena Farias

para el curso “Análisis de Datos para Ciencias Socialesˮ en

la Universidad Torcuato Di Tella, dictada por Camila Navajas

Ahumada.

Introducción

Interfaz

Set Working Directory

Setear working directory setwd("/")

Ver working directory getwd()

O puedo hacer Session  Set Working Directory  Choose Directory

Console Window

Código en azul → comando correctamente ejecutado. Signo | con la barra parpadeando, indica que R está listo para procesar nuevas instrucciones.

Objetos

Una base de datos Un subset de esa base de datos Un número Un texto string Una función

Cargar base de datos

CSV

nombre <- read.csv("archivo.csv")

RData

nombre <- load("archivo.RData")

DTA

objeto[1:3,]

Toda la variable objeto[,"variable2"]

Uso $ para acceder a variables de un data frame

head(base$variable)

Sintaxis general

Creación de objetos

Comentarios

Titulos #---- Comentario simple

Asignar valor a un objeto

objeto <- valor

Ejemplo: x <- 10 x

[1] 10

Si luego de asignar valor un objeto con nombre X uso el mismo nombre para asignarle otro valor, este objeto cambia/se reemplaza.

Vectores numéricos

vector <- c(n1, n2, n3) vector <- c(1:3)

Es una colección ordenada de números. Uso función concatenate → c() Puede tener un número arbitrario de vectores como argumento Indexing: para acceder a elementos específicos usamos []

vector[3]

[1] n

Puedo realizar operaciones matemáticas con los vectores

vector * 1000

[1] n11000 n21000 n3*

Operaciones con vectores por elementos

Puedo multiplicar, sumas, dividir, etcétera, elemento de cada vector por el elemento del otro vector

Creo los vectores vec1<-c(1,2,3) vec2<-c(3,3,3)

Suma vec1 + vec

Multiplicación vec1 * vec

División vec1 / vec

Listas y secuencias

summary(objeto) summary(base$variable)

Puedo usar funciones summarise(mean_var1 = mean(var1), mean_var2 = mean(var2))

class

Puedo saber qué tipo de variable tengo Numeric (no string) Caracter (string) Logic True/False)

class(obj) class(base$variable)

is

Me responde verdadero/falso a lo que le ponga que es la variable

is.character(obj) is.numeric(obj)

as

Permite hacer cambio de tipo de variable

Numerico string a numerico no string objnum_nostring <- as.numeric(obj_string)

Numerico a caracter objcarac <- as.characterr(objnum)

Ver observaciones

Ver todas las observaciones base[,"variable2"] base[,2]

Ver primeras 5 observaciones base$variable[1:5]

If / cálculos por variable con condiciones

funcion(base$var_prom[base$var_cond == "condicion"])

Ejemplo: media de llamados si la raza es negra mean(resume$call [resume$race == “black ”])

Subsetting Para extraer pedazos de dataframe uso → [] Si quiero extraer por variables uso  $

subset

Creo data frames de la data original donde selecciona la/s características que quiero dejar

Selecciono variables obj <- subset(base, select = c("var1", "var2", "var3"), sub

Todas las variables obj <- subset(base, subset = (var_cond == "condicion"))

Más de una condición obj <- subset(base, subset = (var_cond1 == "condicion1" & v

barplot(tabla, names.arg= c("Nombre1","Nombre2","Nombre3"), main="Titulo del gráfico", xlab="Nombre ejex", ylab="Nombre ejey", ylim= c(lim1, lim2))

Ejemplo: barplot(ISAF.ptable, names.arg=c("Noharm","Harm","Nonresponse"), main="Civilianvictimizationby theISAF", xlab="Responsecategory", ylab="Proportionoftherespondents", ylim= c(0,0.7))

Boxplot

Para comparaciones por grupo Me conviene no tener demasiados grupos (hago agregaciones)

boxplot(variable ~ grupo, data = base, main = “nombre del grafico”, xlab = “etiqueta eje x” ylab = “etiqueta eje y”)

Ejemplo: boxplot(educ.years~province, data=afghan, main="EducationbyProvince", xlab="Province", ylab="Years ofEducation")

Scatterplot

Relaciona dos variables

Lineplot

plot(base$vary ~ base$varx, type = "l", col = “color”, xlim=c(min, max), ylim=c(min, max), xlab = “nombre eje x” ylab = “nombre eje y” main = “titulo del grafico”)

Ejemplo: plot(county_characteristics$rent_twobed

∼county_characteristics$popdensity2010, type = “l”, col = “blue”, xlim = c(0,4000), ylim = c(0,2000), xlab = “Densidad Poblacional (Habitantes x m2)”, ylab = “Costo Alquiler (Dpto 3 amb)”, main = “Densidad poblacional vs costo del alquiler”)

Histograma

hist(base$variable, freq = FALSE , → frecuencia o densida ylim = c(0, 0.4 ), xlab = “nombre ejex”, Ylab = “nombre ejey”, main = “nombre del grafico”), breaks = seq(from 0, to 10, by 1)) → bin size

Ejemplo: hist(afghan$age,freq=FALSE, ylim = c(0,0.04), breaks = seq(from –0,5, to 18.5, by 1), xlab="Age",

reg <- lm(variabledepy~variableindx, data=base) summary(reg)

Ejemplo: reg1 <- lm(rent_twobed2015∼popdensity2010, data=county_characteristics)

summary(reg1)

Agregar linea de regresión al gráfico (lo debo tener previa abline(lm(vary∼varx, data=base), col = “color”, lwd = 3)

Tabla de regresión

Componentes de la tabla

Coefficients  Estimate Std. Edad es (pendiente) → promedio en el que aumenta/disminuye Y Intercept) es (ordenada) P|t| Nos indica que tanto están relacionadas las variables (nivel de confianza) Tenemos nivel de confianza en estrellitas 3 estrellas es alto)

β ^ 1

β ^ 0

Si es un valor menor a 0.5 indica más confianza  P0.5 significa que las variables se relacionan Si es un valor mayor a 0.5 me da menos confianza  P0. significa que la pendiente sea cero y las variables no estén relacionadas. R-squared Nos indica que tanto la variable está explicada por la/s. Nos da indicios de que tan completo es mi modelo → depende lo que quiera mirar si me interesa este valor. Me interesa para forecasting, predicciones. No me interesa para efectos causales. Cuantas más variables agregue, mejor será la predicción (más alto el número) Valor e en R Me indica cuantas unidades debo comer la coma e+02  corro la coma 2 veces a la derecha. e-01  corro la coma 1 vez a la izquierda.

Intuición de la regresión

Si cambio por una unidad, cambia por (pendiente) En este ejemplo: Si la antigüedad laboral aumenta en 1 año, en promedio el salario por hora aumenta en 0.18 dólares Podemos usar los parámetros para hacer cálculos, por ejemplo, si quiero saber cuál será el salario predicho para alguien con 5 años de antigüedad laboral: _Coef. tenure 0.18  Coef. cons 6.68 * 5

Regresión múltiple

reg_mult <- lm(vary ~ varx1 + varx2, data=base)

Y X

X

X Y β ^ 1

( X )

( Y ) ( β ^ 1 )

Instalar paquete install.packages("name_paquete")

Cargar paquete library(name_paquete)

Ejemplo: library(dplyr)

En el paquete dplyr, el símbolo %% se interpreta como un “y luegoˮ.

mutate

Crear o agregar variables

mutate(variable = variable_div/1000)

rename

Renombra a una variable

rename(nom_variable = newnom_variable)

filter

Deja a las observaciones que cumplen cierto criterio()

obj <- variable %>% filter(variable == "Criterio") *reemplaza a la variable por la variable con filtro

distinct

Remueve observaciones duplicadas Puedo ver las observaciones que tiene cada variable

obj <- variable %>% distinct(variable)

select

Me quedo con ciertas variables de una base

obj <- base %$% select("var1", "var2", "var3")

transmute

Me quedo con variables y creo nuevas

obj <- base %$% transmute( var1 = var1, var2_div = var2/1000, var3_div = var3/1000)

Ejemplo: salary_median_thous<-salary%>% transmute(name=name, salary_start_thous=salary_start_median/1000, salary_midcareer_thous=salary_midcareer_median/1000)

arrange

Ordena a las observaciones

Orden ascendente obj <- base %$% arrange(variable)

Orden descendiente obj <- base %$% arrange(desc(variable))

Data Wrangling

Unir bases de datos con identificador común (left_join)

La base1 debe ser la que tiene más observaciones (al mergear, las observaciones que no tengan datos de la base2 quedaran como missing values)