












Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Prepara tus exámenes
Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Prepara tus exámenes con los documentos que comparten otros estudiantes como tú en Docsity
Los mejores documentos en venta realizados por estudiantes que han terminado sus estudios
Estudia con lecciones y exámenes resueltos basados en los programas académicos de las mejores universidades
Responde a preguntas de exámenes reales y pon a prueba tu preparación
Consigue puntos base para descargar
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Comunidad
Pide ayuda a la comunidad y resuelve tus dudas de estudio
Descubre las mejores universidades de tu país según los usuarios de Docsity
Ebooks gratuitos
Descarga nuestras guías gratuitas sobre técnicas de estudio, métodos para controlar la ansiedad y consejos para la tesis preparadas por los tutores de Docsity
Este manual proporciona una guía práctica para el uso del software estadístico stata, diseñado para estudiantes de ciencias sociales. El documento abarca desde la interfaz básica hasta la ejecución de comandos, la importación y exportación de datos, la creación y manipulación de variables, la realización de análisis descriptivos y la construcción de gráficos. Se incluyen ejemplos concretos y explicaciones detalladas para facilitar la comprensión y aplicación de las herramientas de stata.
Tipo: Resúmenes
1 / 20
Esta página no es visible en la vista previa
¡No te pierdas las partes importantes!
Command Window: donde uno escribe comandos (interactivo) Results Window: donde se muestra el output Variables Window: donde se muestran las variables que existen en la base de datos; También la etiqueta de las variables Review Window: Donde se muestra la historia de los comandos Properties: Donde se muestra las propiedades de las variables y la base de datos
Donde se escriben los comandos
Archivo .do Al comenzar un do-file, limpio todo lo previo y seteo mi working directory
clear all cd "link_workingdirectory"
3 formas de comentarlo
// /* */
Archivos (importar/exportar)
Abrir/importar bases de datos Importar base de datos de Excel (.xls)
import excel filename.xls, firstrow
Importar base de datos en formato Stata (.dta)
use filename.dta
Tenemos otra base de datos abierta use filename.dta , clear La base de datos se encuentra en una subcarpeta del directorio asignado use “nombre subcarpeta\archivo.dtaˮ , clear La base de datos se encuentra en otro directorio distinto al asignado use “directorio donde se encuentra la base de datos distinta al asignado\archivo.dtaˮ , clear
destring variable, replace
Necesito tener variables string Cambio variable, luego hago destring
Ejemplo generación de variable, reemplazo y destring
gen crew="yes" replace crew="no" if class==
replace crew="0" if crew=="no" replace crew="1" if crew=="yes"
destring crew, replace
Funciones de Stata
Sintaxis general
comando [varlist] [if] [in] [weight] [, options]
comando: nombre del comando varlist: lista de variables con las cuales vamos a trabajar if: posibilidad de trabajar con condicionales usando el if o el in. weight: podemos trabajar con observaciones ponderadas (debemos explicitar la variable ponderadora weight) options: presenta distintas opciones que pueden ser especificadas
log using filename.log, replace log close
Registra lo que aparece en la Results Window (comandos y resultados) Si hay error en el logfile, correr únicamente log close. Se guarda en el current directory pwd: saber current directory cd: cambiar/setear working directory
help commandname
Nos ayuda a saber la sintaxis y uso del resto de comandos
br
Nos permite ver la base de datos
set more off
Útil cuando hay un output demasiado largo Puedo hacerlo permanente set more off, permanent
Descripción de bases de datos
tab varlist *//o de forma cruzada tab varlist1 varlist
Determina frecuencia con la que una variable toma cada valor en términos porcentuales Nos da una tabla de frecuencia, en porcentaje y porcentaje acumulado. Para variables categóricas, numéricas y lógicas.
Generación de variables
gen varlist=exp gen varlist="." gen varlist=
Nota
= asigna valores a una variable (al crearla)
== testea si una variable toma ciertos valores (un test lógico o condición)
replace oldvar = exp
Ejemplo
gen hombre=. replace hombre=1 if mujer== replace hombre=0 if mujer==1.
rename old varname new varname
label variable varname "label"
Agrega una etiqueta a las variables
egen varname=exp egen varname="." egen varname=
Genera una función entre observaciones (por columnas, verticalmente). Puedo hacer cálculos por grupos (por ejemplo, promedios) Puedo crear variables que contengan información sobre patrones y cálculos dentro de subgrupos o a través de columnas
abs → valor absoluto
Ordena la data de menor a mayor si la variable es numérica o alfabéticamente si es string.
Ejemplo: quiero calcular promedio de sobrevivientes por clase.
egen mean survive = mean(survive) sort class by class: egen mean survive class = mean(survive)
*/Si quiero ver promedio de sobrevivientes tab mean_survive_class
*/Para observaciones keep in 10/2000 (deja observaciones de 10 a 2000)
*/Para variables keep in var1 var
Especifica las variables u observaciones que deseo conservar.
*/Para observaciones drop in 10/2000 (deja observaciones de 10 a 2000)
*/Para variables drop in var1 var
Especifica las variables u observaciones que deseo eliminar. Para guardar estos cambios permanentemente en la base, uso save name.dta
Funciones con If Statements
igual a: == distinto a:! mayor: > mayor o igual: >= para string variables usar “ ˮ para non-string variables NO usar “ˮ
Gráficos
Line / Scatter
graph twoway line y1 [y2] [y3] ... x, [options] graph twoway scatter y1 [y2] [y3] ... x, [options]
Miro cambio de una variable a través del tiempo. Scatter para dos variables no ordenadas Line para variables ordenadas.
Ejemplo con line/scatter
Ejemplo con histogram
twoway (hist hour if dui==0, title("Histogram No DUI") color( legend(label(1 "No DUI") label(2 "DUI"))
Bar Plots
graph bar (function) x1 [x2]..., [over(varname)]
function: pongo la función que necesito (mean, median, sum, count, percent) x1 data sobre la que cuenta varname: data categórica Sirve para variables categóricas Previamente, debo tener la tabla de frecuencias
bar(1, color(color1, bar(2, color(color2
Ejemplo con bar plots
graph bar (mean) tempjan tempjul, over(region) /// legend(order(1 "January"2 "July")) /// bar(1, color(green)) bar(2, color(purple))
Box Plots
graph box x1 [x2]..., [over(varname)]
Muestran ciertas propiedades estadísticas de los datos Normalmente, se usa para comparar entre distintos grupos Calcula porcentaje según cada categoríagen
Ejemplo con bax plot
graph box tempjan tempjul, over(region) /// legend(order(1 "January"2 "July")) /// box(1, color(green)) box(2, color(purple))
→ tenure o antiguedad laboral en años → salario por hora en dolares Coef. tenure (.18 es (pendiente) → promedio en el que aumenta/disminuye Y Y aumenta en 0.18 dolares por hora) _cons 6.68 es (ordenada) P|t| Nos indica que tanto estan relacionadas las variables (nivel de confianza) Si es un valor menor a 0.5 indica mas confianza P0.5 significa que las variables se relacionan Si es un valor mayor a 0.5 me da menos confianza P0. significa que la pendiente sea cero y las variables no esten relacionadas. R-squared Nos indica que tanto la variable está explicada por la/s. Nos da indicios de que tan completo es mi modelo → depende lo que quiera mirar si me interesa este valor. Me interesa para forecasting, predicciones. No me interesa para efectos causales. Cuantas más variables agregue, mejor será la predicción (más alto el número)
Si cambio por una unidad, cambia por En este ejemplo: Si la antiguedad laboral aumenta en 1 año, en promedio el salario por hora aumenta en 0.18 dolares Podemos usar los parametros para hacer calculos, por ejemplo, si quiero saber cual sera el salario predicho para alguien con 5 años de antiguedad laboral: _Coef. tenure 0.18 Coef. cons 6.68 * 5
predict newvar
Nos permite calcular predicciones del modelo luego de una regresión lineal. Crea una nueva variable “newvarˮ con los valores predichos por el modelo Resuelve automáticamente la ecuación Para ver los residuos podemos usar
predict varname, residuals */Otra opción predict residuals, resid
summarize residuals
graph twoway lfit yvar xvar
Grafica la línea de regresión estimada Podemos dibujarla sobre otro gráfico:
graph twoway (lfit yvar xvar) (scatter yvar xvar)
merge m:1 varcomun using archivo.dta
Combina bases con distintas unidades de análisis (pero con identificador) Abro la base más especifica y debo mergear la más agregada.
collapse (function) var1 var2 var3, by(varunidanalis)
Colapse la base de datos a una unidad de analisis mas agregada. En var1 var2 var2 debo especificar qué variables quiero conservar en mi base de datos Para dar un rango de variables que quiero conservar puedo utilizar un guión medio
var1 - var 8
Ejemplo con collapse
collapse (mean) gpa pop, by(school)
reshape wide varcambiar, i(newvar_unidanalisis1) j(newvar_unid reshape long varcambiar, i(newvar_unidanalisis1) j(newvar_unid
Cambia el tamaño/concentración en la que están los datos. i(newvar1 j(newvar2 indica que variables quedaran como unidad de analisis en la tabla nueva (newvar1-newvar2 Puedo usar long y wide para ir atrás (se revierten)