Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad

Manual de Uso de Stata para Análisis de Datos en Ciencias Sociales - Prof. Navajas Ahumada, Resúmenes de Análisis de Datos y Métodos Estadísticos

Este manual proporciona una guía práctica para el uso del software estadístico stata, diseñado para estudiantes de ciencias sociales. El documento abarca desde la interfaz básica hasta la ejecución de comandos, la importación y exportación de datos, la creación y manipulación de variables, la realización de análisis descriptivos y la construcción de gráficos. Se incluyen ejemplos concretos y explicaciones detalladas para facilitar la comprensión y aplicación de las herramientas de stata.

Tipo: Resúmenes

2023/2024

A la venta desde 11/11/2024

malena-academico
malena-academico 🇦🇷

47 documentos

1 / 20

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
Stata Farias, Malena
1
Stata - Farias, Malena
Manual de uso para Stata realizado por Malena Farias para
el curso “Análisis de Datos para Ciencias Socialesˮ en la
Universidad Torcuato Di Tella, dictada por Camila Navajas
Ahumada.
Interfaz
Command Window: donde uno escribe comandos (interactivo)
Results Window: donde se muestra el output
Variables Window: donde se muestran las variables que existen en la base
de datos; También la etiqueta de las variables
Review Window: Donde se muestra la historia de los comandos
Properties: Donde se muestra las propiedades de las variables y la base de
datos
Do-file
Donde se escriben los comandos
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14

Vista previa parcial del texto

¡Descarga Manual de Uso de Stata para Análisis de Datos en Ciencias Sociales - Prof. Navajas Ahumada y más Resúmenes en PDF de Análisis de Datos y Métodos Estadísticos solo en Docsity!

Stata - Farias, Malena

Manual de uso para Stata realizado por Malena Farias para

el curso “Análisis de Datos para Ciencias Socialesˮ en la

Universidad Torcuato Di Tella, dictada por Camila Navajas

Ahumada.

Interfaz

Command Window: donde uno escribe comandos (interactivo) Results Window: donde se muestra el output Variables Window: donde se muestran las variables que existen en la base de datos; También la etiqueta de las variables Review Window: Donde se muestra la historia de los comandos Properties: Donde se muestra las propiedades de las variables y la base de datos

Do-file

Donde se escriben los comandos

Archivo .do Al comenzar un do-file, limpio todo lo previo y seteo mi working directory

clear all cd "link_workingdirectory"

3 formas de comentarlo

// /* */

Archivos (importar/exportar)

Abrir/importar bases de datos Importar base de datos de Excel (.xls)

import excel filename.xls, firstrow

Importar base de datos en formato Stata (.dta)

use filename.dta

Problemas que pueden surgir

 Tenemos otra base de datos abierta use filename.dta , clear  La base de datos se encuentra en una subcarpeta del directorio asignado use “nombre subcarpeta\archivo.dtaˮ , clear  La base de datos se encuentra en otro directorio distinto al asignado use “directorio donde se encuentra la base de datos distinta al asignado\archivo.dtaˮ , clear

destring

destring variable, replace

Necesito tener variables string Cambio variable, luego hago destring

Ejemplo generación de variable, reemplazo y destring

gen crew="yes" replace crew="no" if class==

replace crew="0" if crew=="no" replace crew="1" if crew=="yes"

destring crew, replace

Funciones de Stata

Sintaxis general

comando [varlist] [if] [in] [weight] [, options]

comando: nombre del comando varlist: lista de variables con las cuales vamos a trabajar if: posibilidad de trabajar con condicionales usando el if o el in. weight: podemos trabajar con observaciones ponderadas (debemos explicitar la variable ponderadora weight) options: presenta distintas opciones que pueden ser especificadas

logfile

log using filename.log, replace log close

Registra lo que aparece en la Results Window (comandos y resultados) Si hay error en el logfile, correr únicamente log close. Se guarda en el current directory pwd: saber current directory cd: cambiar/setear working directory

help

help commandname

Nos ayuda a saber la sintaxis y uso del resto de comandos

browse

br

Nos permite ver la base de datos

set more off

set more off

Útil cuando hay un output demasiado largo Puedo hacerlo permanente set more off, permanent

Descripción de bases de datos

summarize

tabulate

tab varlist *//o de forma cruzada tab varlist1 varlist

Determina frecuencia con la que una variable toma cada valor en términos porcentuales Nos da una tabla de frecuencia, en porcentaje y porcentaje acumulado. Para variables categóricas, numéricas y lógicas.

Generación de variables

generate

gen varlist=exp gen varlist="." gen varlist=

Nota

= asigna valores a una variable (al crearla)

== testea si una variable toma ciertos valores (un test lógico o condición)

replace

replace oldvar = exp

Ejemplo

gen hombre=. replace hombre=1 if mujer== replace hombre=0 if mujer==1.

rename

rename old varname new varname

label variable

label variable varname "label"

Agrega una etiqueta a las variables

egen

egen varname=exp egen varname="." egen varname=

Genera una función entre observaciones (por columnas, verticalmente). Puedo hacer cálculos por grupos (por ejemplo, promedios) Puedo crear variables que contengan información sobre patrones y cálculos dentro de subgrupos o a través de columnas

Lista de posibles opciones para egen/funciones matemáticas

abs → valor absoluto

Ordena la data de menor a mayor si la variable es numérica o alfabéticamente si es string.

Variables por grupo

Ejemplo: quiero calcular promedio de sobrevivientes por clase.

egen mean survive = mean(survive) sort class by class: egen mean survive class = mean(survive)

*/Si quiero ver promedio de sobrevivientes tab mean_survive_class

keep

*/Para observaciones keep in 10/2000 (deja observaciones de 10 a 2000)

*/Para variables keep in var1 var

Especifica las variables u observaciones que deseo conservar.

drop

*/Para observaciones drop in 10/2000 (deja observaciones de 10 a 2000)

*/Para variables drop in var1 var

Especifica las variables u observaciones que deseo eliminar. Para guardar estos cambios permanentemente en la base, uso save name.dta

Funciones con If Statements

AND &

OR |

igual a: == distinto a:!  mayor: > mayor o igual: >= para string variables usar “ ˮ para non-string variables NO usar “ˮ

Gráficos

Line / Scatter

graph twoway line y1 [y2] [y3] ... x, [options] graph twoway scatter y1 [y2] [y3] ... x, [options]

Miro cambio de una variable a través del tiempo. Scatter para dos variables no ordenadas Line para variables ordenadas.

Ejemplo con line/scatter

Ejemplo con histogram

twoway (hist hour if dui==0, title("Histogram No DUI") color( legend(label(1 "No DUI") label(2 "DUI"))

Bar Plots

graph bar (function) x1 [x2]..., [over(varname)]

function: pongo la función que necesito (mean, median, sum, count, percent) x1 data sobre la que cuenta varname: data categórica Sirve para variables categóricas Previamente, debo tener la tabla de frecuencias

Opciones de bar plots

bar(1, color(color1, bar(2, color(color2

Ejemplo con bar plots

graph bar (mean) tempjan tempjul, over(region) /// legend(order(1 "January"2 "July")) /// bar(1, color(green)) bar(2, color(purple))

Box Plots

graph box x1 [x2]..., [over(varname)]

Muestran ciertas propiedades estadísticas de los datos Normalmente, se usa para comparar entre distintos grupos Calcula porcentaje según cada categoríagen

Ejemplo con bax plot

graph box tempjan tempjul, over(region) /// legend(order(1 "January"2 "July")) /// box(1, color(green)) box(2, color(purple))

Interpretación de la tabla

→ tenure o antiguedad laboral en años → salario por hora en dolares Coef. tenure (.18 es (pendiente) → promedio en el que aumenta/disminuye Y Y aumenta en 0.18 dolares por hora) _cons 6.68 es (ordenada) P|t| Nos indica que tanto estan relacionadas las variables (nivel de confianza) Si es un valor menor a 0.5 indica mas confianza  P0.5 significa que las variables se relacionan Si es un valor mayor a 0.5 me da menos confianza  P0. significa que la pendiente sea cero y las variables no esten relacionadas. R-squared Nos indica que tanto la variable está explicada por la/s. Nos da indicios de que tan completo es mi modelo → depende lo que quiera mirar si me interesa este valor. Me interesa para forecasting, predicciones. No me interesa para efectos causales. Cuantas más variables agregue, mejor será la predicción (más alto el número)

X

Y

β ^ 1

β ^ 0

Y X

X

Interpretación de la regresión lineal

Si cambio por una unidad, cambia por En este ejemplo: Si la antiguedad laboral aumenta en 1 año, en promedio el salario por hora aumenta en 0.18 dolares Podemos usar los parametros para hacer calculos, por ejemplo, si quiero saber cual sera el salario predicho para alguien con 5 años de antiguedad laboral: _Coef. tenure 0.18  Coef. cons 6.68 * 5

predict

predict newvar

Nos permite calcular predicciones del modelo luego de una regresión lineal. Crea una nueva variable “newvarˮ con los valores predichos por el modelo Resuelve automáticamente la ecuación Para ver los residuos podemos usar

predict varname, residuals */Otra opción predict residuals, resid

summarize residuals

lfit

graph twoway lfit yvar xvar

Grafica la línea de regresión estimada Podemos dibujarla sobre otro gráfico:

graph twoway (lfit yvar xvar) (scatter yvar xvar)

X Y β ^ 1

( X )

( Y ) ( β ^ 1 )

Y i = β 0 + β 1 X i + ϵi

merge m:

merge m:1 varcomun using archivo.dta

Combina bases con distintas unidades de análisis (pero con identificador) Abro la base más especifica y debo mergear la más agregada.

collapse

collapse (function) var1 var2 var3, by(varunidanalis)

Colapse la base de datos a una unidad de analisis mas agregada. En var1 var2 var2 debo especificar qué variables quiero conservar en mi base de datos Para dar un rango de variables que quiero conservar puedo utilizar un guión medio

var1 - var 8

Ejemplo con collapse

collapse (mean) gpa pop, by(school)

reshape

reshape wide varcambiar, i(newvar_unidanalisis1) j(newvar_unid reshape long varcambiar, i(newvar_unidanalisis1) j(newvar_unid

Cambia el tamaño/concentración en la que están los datos. i(newvar1 j(newvar2 indica que variables quedaran como unidad de analisis en la tabla nueva (newvar1-newvar2 Puedo usar long y wide para ir atrás (se revierten)