



Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Prepara tus exámenes
Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Prepara tus exámenes con los documentos que comparten otros estudiantes como tú en Docsity
Los mejores documentos en venta realizados por estudiantes que han terminado sus estudios
Estudia con lecciones y exámenes resueltos basados en los programas académicos de las mejores universidades
Responde a preguntas de exámenes reales y pon a prueba tu preparación
Consigue puntos base para descargar
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Comunidad
Pide ayuda a la comunidad y resuelve tus dudas de estudio
Descubre las mejores universidades de tu país según los usuarios de Docsity
Ebooks gratuitos
Descarga nuestras guías gratuitas sobre técnicas de estudio, métodos para controlar la ansiedad y consejos para la tesis preparadas por los tutores de Docsity
Parte 5 curso de python en estadistica
Tipo: Ejercicios
1 / 6
Esta página no es visible en la vista previa
¡No te pierdas las partes importantes!
In [ ]:
"Pandas"
In [1]:
import import pandaspandas asas pdpd import import numpynumpy asas npnp import import matplotlib.pyplotmatplotlib.pyplot asas pltplt import import statsmodels.apistatsmodels.api asas smsm
url = 'https://raw.githubusercontent.com/lorey/list-of-countries/master/csv/countries.csv' df = pd.read_csv(url, sep=";") print(df.head( 5 ))
In [2]:
print('Cantidad de Filas y columnas:',df.shape) print('Nombre columnas:',df.columns)
In [3]:
df.info()
alpha_2 alpha_3 area capital continent currency_code
0 AD AND 468.0 Andorra la Vella EU EUR 1 AE ARE 82880.0 Abu Dhabi AS AED 2 AF AFG 647500.0 Kabul AS AFN 3 AG ATG 443.0 St. John's NaN XCD 4 AI AIA 102.0 The Valley NaN XCD
currency_name eqivalent_fips_code fips geoname_id languages
0 Euro NaN AN 3041565 ca 1 Dirham NaN AE 290557 ar-AE,fa,en,hi,ur 2 Afghani NaN AF 1149361 fa-AF,ps,uz-AF,tk 3 Dollar NaN AC 3576396 en-AG 4 Dollar NaN AV 3573511 en-AI
name neighbours numeric phone population
0 Andorra ES,FR 20 376 84000 1 United Arab Emirates SA,OM 784 971 4975593 2 Afghanistan TM,CN,IR,TJ,PK,UZ 4 93 29121286 3 Antigua and Barbuda NaN 28 +1-268 86754 4 Anguilla NaN 660 +1-264 13254
postal_code_format postal_code_regex tld 0 AD### ^(?:AD)*(\d{3})$ .ad 1 NaN NaN .ae 2 NaN NaN .af 3 NaN NaN .ag 4 NaN NaN .ai
Cantidad de Filas y columnas: (252, 19) Nombre columnas: Index(['alpha_2', 'alpha_3', 'area', 'capital', 'continent', 'currency_code ', 'currency_name', 'eqivalent_fips_code', 'fips', 'geoname_id', 'languages', 'name', 'neighbours', 'numeric', 'phone', 'population', 'postal_code_format', 'postal_code_regex', 'tld'], dtype='object')
<class 'pandas.core.frame.DataFrame'> RangeIndex: 252 entries, 0 to 251 Data columns (total 19 columns):
In [4]:
df.describe()
In [ ]:
"Correlación de los datos"
In [5]:
corr = df.set_index('alpha_3').corr() sm.graphics.plot_corr(corr, xnames=list(corr.columns)) plt.show()
0 alpha_2 251 non-null object 1 alpha_3 252 non-null object 2 area 252 non-null float 3 capital 246 non-null object 4 continent 210 non-null object 5 currency_code 251 non-null object 6 currency_name 251 non-null object 7 eqivalent_fips_code 1 non-null object 8 fips 249 non-null object 9 geoname_id 252 non-null int 10 languages 249 non-null object 11 name 252 non-null object 12 neighbours 165 non-null object 13 numeric 252 non-null int 14 phone 247 non-null object 15 population 252 non-null int 16 postal_code_format 154 non-null object 17 postal_code_regex 152 non-null object 18 tld 250 non-null object dtypes: float64(1), int64(3), object(15) memory usage: 37.5+ KB
Out[4]:
areaarea geoname_idgeoname_id numericnumeric populationpopulation
countcount 2.520000e+02 2.520000e+02 252.000000 2.520000e+
mean mean 5.952879e+05 2.427870e+06 434.309524 2.727679e+ std std 1.904818e+06 1.632093e+06 254.663139 1.164127e+ minmin 0.000000e+00 4.951800e+04 0.000000 0.000000e+
25%25% 1.098000e+03 1.163774e+06 217.000000 1.879528e+ 50%50% 6.489450e+04 2.367967e+06 436.000000 4.268583e+
75%75% 3.622245e+05 3.478296e+06 652.500000 1.536688e+ maxmax 1.710000e+07 8.505033e+06 894.000000 1.330044e+
In [8]:
df_espanol = df.replace(np.nan, '', regex=TrueTrue) df_espanol = df_espanol[ df_espanol['languages'].str.contains('es') ] df_espanol
Out[8]:
alpha_2alpha_2 alpha_3alpha_3 areaarea capitalcapital continentcontinent currency_codecurrency_code currency_namecurrency_name eqivalent_fips_codeeqivalent_fips_code fipsfips geoname_idgeoname_id
99 AR ARG 2766890. Buenos Aires SA^ ARS^ Peso^ AR^3865483 AR,en,i 1313 AW ABW 193.0 Oranjestad AWG Guilder AA 3577279 nl-
2828 BO BOL 1098580.0 Sucre SA BOB Boliviano BL 3923057 es- 3030 BR BRA 8511965.0 Brasilia SA BRL Real BR 3469034 pt-BR
3636 BZ BLZ 22966.0 Belmopan BZD Dollar BH 3582678 4545 CL CHL 756950.0 Santiago SA CLP Peso CI 3895114
4848 CO COL 1138910.0 Bogota SA COP Peso CO 3686110 4949 CR CRI 51100.0 San Jose CRC Colon CS 3624060 5050 CU CUB 110860.0 Havana CUP Peso CU 3562981
6060 DO DOM 48730.0 (^) DomingoSanto DOP Peso DR 3508796
6262 EC ECU 283560.0 Quito SA USD Dollar EC 3658394
6767 ES ESP 504782.0 Madrid EU EUR Euro SP 2510769 ES,ca 8282 GI GIB 6.5 Gibraltar EU GIP Pound GI 2411586 en-G
8787 GQ GNQ 28051.0 Malabo AF XAF Franc EK 2309096
9090 GT GTM 108890.0 Guatemala City GTQ Quetzal GT 3595528
9696 HN HND 112090.0 Tegucigalpa HNL Lempira HO 3608932 157157 MX MEX 1972550.0 Mexico City MXN Peso MX 3996063
165165 NI NIC 129494.0 Managua NIO Cordoba NU 3617476
173173 PA PAN 78200. Panama City PAB^ Balboa^ PM^3703430 174174 PE PER 1285220.0 Lima SA PEN Sol PE 3932488 es-
In [9]:
df_espanol.set_index('alpha_3')[['population','area']].plot(kind='bar',rot= 65 ,figsize=( 20 , 1 0 ))
In [11]:
anomalies = []
def def find_anomalies(data):
data_std = data.std() data_mean = data.mean() anomaly_cut_off = data_std * 2
182182 PR PRI 9104.0 San Juan USD Dollar RQ 4566966 en-P
186186 PY PRY 406750.0 Asuncion SA PYG Guarani PA 3437598 187187 QA QAT 11437.0 Doha AS QAR Rial QA 289688
210210 SV SLV 21040.0 (^) SalvadorSan USD Dollar ES 3585968
226226 TT TTO 5128.0 Port of Spain TTD Dollar TD 3573591 TT,hn
233233 US USA 9629091.0 Washington USD Dollar US 6252001
234234 UY URY 176220.0 Montevideo SA UYU Peso UY 3439705
238238 VE VEN 912050.0 Caracas SA VEF Bolivar VE 3625428
251251 AN ANT 960.0 Willemstad ANG Guilder NT 8505032 nl-
alpha_2alpha_2 alpha_3alpha_3 areaarea capitalcapital continentcontinent currency_codecurrency_code currency_namecurrency_name eqivalent_fips_codeeqivalent_fips_code fipsfips geoname_idgeoname_id
Out[9]:
<AxesSubplot:xlabel='alpha_3'>