






Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Prepara tus exámenes
Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Prepara tus exámenes con los documentos que comparten otros estudiantes como tú en Docsity
Los mejores documentos en venta realizados por estudiantes que han terminado sus estudios
Estudia con lecciones y exámenes resueltos basados en los programas académicos de las mejores universidades
Responde a preguntas de exámenes reales y pon a prueba tu preparación
Consigue puntos base para descargar
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Comunidad
Pide ayuda a la comunidad y resuelve tus dudas de estudio
Descubre las mejores universidades de tu país según los usuarios de Docsity
Ebooks gratuitos
Descarga nuestras guías gratuitas sobre técnicas de estudio, métodos para controlar la ansiedad y consejos para la tesis preparadas por los tutores de Docsity
Ejemplos de cómo trabajar con arreglos distribuidos (rdd) en pyspark, una librería de python para procesamiento de datos a gran escala utilizando apache spark. Se muestran operaciones básicas como crear rdds, filtrar, mapear, reducir y realizar transformaciones sobre los datos. También se incluyen ejemplos de cómo trabajar con números aleatorios, muestreo y operaciones de conjuntos como unión y distinción de elementos. El documento proporciona una introducción práctica a las capacidades de pyspark para el manejo eficiente de grandes volúmenes de datos de manera distribuida y paralela.
Tipo: Tesis
1 / 11
Esta página no es visible en la vista previa
¡No te pierdas las partes importantes!
%pyspark import numpy as np rdd2 = sc.parallelize(np.array(range(10))) print(rdd2.collect())
%pyspark import numpy as np datos = np.arange(1,100) rdd5 = sc.parallelize(datos) print(rdd5.collect()) print(datos[10:]) print(datos[:50]) print(rdd5.count())
%pyspark import numpy as np def paridad(x): if x%2 == 0: return x rdd6 = sc.parallelize(np.arange(1,50)) rdd7 = rdd6.map(paridad) print(rdd6.collect()) print(rdd7.collect())
%pyspark import numpy as np def paridad(x): if x%2 == 0: return x rdd6 = sc.parallelize(np.arange(1,50),10) rdd7 = rdd6.map(paridad) print(rdd6.collect()) print(rdd7.collect()) print(rdd7.take(10)) print(rdd7.getNumPartitions())
%pyspark
numeros= sc.parallelize([1,5,3,9,4,0,2]) numeros.count() ==================================================== %pyspark
rdd4 = sc.parallelize([8,4,2,9,3,1,10,5,6,7]).cache() print("4 elementos más grandes: {0}".format(rdd4.top(4))) print("4 elementos más pequeños:{0}".format(rdd4.takeOrdered(4))) ======================================================== %pyspark
rdd3 = sc.parallelize(list("abracadabra")).cache() t= rdd3.take(4) print(t) s = rdd3.takeSample(False,4) print(s) INICO DEL TRABAJO 02 %pyspark
import random r= random.sample(range(30), 30) rdr = sc.parallelize(r,4) print"numeros aleatorios: ",(rdr.glom().collect()) print "10 primeros numeros: ",rdr.take(10) #rdr.takeOrdered(30)
def par(rdr): return(rdr%2 == 0) rdd7 = rdr.filter(par) rddMultiplicar = rdd7.map(lambda x: x*10) par=rdd7.collect() print"numeos pares : ",(par) print"numeros multiplicados por 10: ",rddMultiplicar.collect() %pyspark
def par(rdr): return(rdr%2 == 1) rdd7 = rdr.filter(par) rddMultiplicar = rdd7.map(lambda x: x/2)
SEMANA 03 %pyspark
import numpy as np rdd= sc.parallelize(np.array(range(4))) print(rdd.collect()) rdd2 = rdd.filter(lambda x: x>2) print(rdd2.collect()) rdd3 = rdd.filter(lambda x: x+2) print(rdd3.collect()) Aserciones %pyspark
from test_helper import Test Test.assertEquals(rdd2.collect(),[3])
%pyspark
import sys rdd4 = sc.parallelize(xrange(-3,3)) print(rdd4.collect()) rdd5= rdd4.filter(lambda x:x<-2 or x>1) print(rdd5.collect()) rdd6= rdd4.filter(lambda x:x<-2 or x>1 and x==-3) print(rdd6.collect()) %pyspark def f01(x): return x+15*x rdd7 = sc.parallelize(xrange(-10,10)) rdd8 = (rdd7.map(f01) .filter(lambda x:x>10)) print(rdd8.collect()) rdd9 = (rdd8.map(f01)
%pyspark rdd15 = sc.parallelize(xrange(0,501)) rdd16 = rdd15.sample(False, 0.5)#probabilidad que no se repita y sean unicos print(rdd16.collect()) print(rdd16.count()) print("========================================================") rdd17 = rdd15.sample(True, 0.5)#probabilidad que se repita print(rdd17.collect()) print(rdd17.count()) print("========================================================") rdd18 = rdd15.sample(False, 1) print(rdd18.collect()) print(rdd18.count()) print("========================================================") rdd19 = rdd15.sample(True, 1) print(rdd19.collect()) print(rdd19.count()) tarea 3
%pyspark import random r= random.sample(range(100), 50) rdr = sc.parallelize(r,1) print"50 numeros aleatorios: ",(rdr.glom().collect()) print"==============================================================" print"Numeros entre 10 y 25" rdr2 = rdr.filter(lambda x : x>10 and x<25) print(rdr2.collect()) print"==============================================================" rdr3 = rdr.distinct() rdr3.collect() ================================= %pyspark rdr3.reduce(lambda x,y: x+y)