Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad

Manipulación de Arreglos Distribuidos en PySpark, Tesis de Derecho

Ejemplos de cómo trabajar con arreglos distribuidos (rdd) en pyspark, una librería de python para procesamiento de datos a gran escala utilizando apache spark. Se muestran operaciones básicas como crear rdds, filtrar, mapear, reducir y realizar transformaciones sobre los datos. También se incluyen ejemplos de cómo trabajar con números aleatorios, muestreo y operaciones de conjuntos como unión y distinción de elementos. El documento proporciona una introducción práctica a las capacidades de pyspark para el manejo eficiente de grandes volúmenes de datos de manera distribuida y paralela.

Tipo: Tesis

2022/2023

Subido el 11/09/2023

bitabit
bitabit 🇵🇪

2 documentos

1 / 11

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
1
01
#arreglo distribuido en core
%pyspark
rdd =sc.parallelize([2,2,4,5,6],2)
print(rdd.glom().collect())
02
#crea un arreglo con 10 valores
%pyspark
import numpy as np
rdd2 = sc.parallelize(np.array(range(10)))
print(rdd2.collect())
03
#crea unarreglo con valores de 1 – 100 y muestra [ print(datos[10:])]
numeros despues del 10
%pyspark
import numpy as np
datos = np.arange(1,100)
rdd5 = sc.parallelize(datos)
print(rdd5.collect())
print(datos[10:])
print(datos[:50])
print(rdd5.count())
pf3
pf4
pf5
pf8
pf9
pfa

Vista previa parcial del texto

¡Descarga Manipulación de Arreglos Distribuidos en PySpark y más Tesis en PDF de Derecho solo en Docsity!

#arreglo distribuido en core

%pyspark

rdd =sc.parallelize([2,2,4,5,6],2)

print(rdd.glom().collect())

#crea un arreglo con 10 valores

%pyspark import numpy as np rdd2 = sc.parallelize(np.array(range(10))) print(rdd2.collect())

#crea unarreglo con valores de 1 – 100 y muestra [ print(datos[10:])]

numeros despues del 10

%pyspark import numpy as np datos = np.arange(1,100) rdd5 = sc.parallelize(datos) print(rdd5.collect()) print(datos[10:]) print(datos[:50]) print(rdd5.count())

#crea un arreglo con 50 valores y muestra los numeros pares

%pyspark import numpy as np def paridad(x): if x%2 == 0: return x rdd6 = sc.parallelize(np.arange(1,50)) rdd7 = rdd6.map(paridad) print(rdd6.collect()) print(rdd7.collect())

#crea un arreglo con 50 valores y muestra los numeros pares, los 10

primeros numeros y el numero de particiones

%pyspark import numpy as np def paridad(x): if x%2 == 0: return x rdd6 = sc.parallelize(np.arange(1,50),10) rdd7 = rdd6.map(paridad) print(rdd6.collect()) print(rdd7.collect()) print(rdd7.take(10)) print(rdd7.getNumPartitions())

%pyspark

#cuenta el numero de elementos

numeros= sc.parallelize([1,5,3,9,4,0,2]) numeros.count() ==================================================== %pyspark

#muestra los 4 numeros mas grandes y los 4 numeros mas pequeños

rdd4 = sc.parallelize([8,4,2,9,3,1,10,5,6,7]).cache() print("4 elementos más grandes: {0}".format(rdd4.top(4))) print("4 elementos más pequeños:{0}".format(rdd4.takeOrdered(4))) ======================================================== %pyspark

#muestra las 4 primeras letras

rdd3 = sc.parallelize(list("abracadabra")).cache() t= rdd3.take(4) print(t) s = rdd3.takeSample(False,4) print(s) INICO DEL TRABAJO 02 %pyspark

#crea 30 numeros aleatorios en 4 particiones y muestra los 10 primeros

numeros

import random r= random.sample(range(30), 30) rdr = sc.parallelize(r,4) print"numeros aleatorios: ",(rdr.glom().collect()) print "10 primeros numeros: ",rdr.take(10) #rdr.takeOrdered(30)

#muestra números pares y los multiplica por 10

def par(rdr): return(rdr%2 == 0) rdd7 = rdr.filter(par) rddMultiplicar = rdd7.map(lambda x: x*10) par=rdd7.collect() print"numeos pares : ",(par) print"numeros multiplicados por 10: ",rddMultiplicar.collect() %pyspark

#muestra números impares

def par(rdr): return(rdr%2 == 1) rdd7 = rdr.filter(par) rddMultiplicar = rdd7.map(lambda x: x/2)

SEMANA 03 %pyspark

#crear un arreglo con 4 valores y muestra los números mayores que dos

import numpy as np rdd= sc.parallelize(np.array(range(4))) print(rdd.collect()) rdd2 = rdd.filter(lambda x: x>2) print(rdd2.collect()) rdd3 = rdd.filter(lambda x: x+2) print(rdd3.collect()) Aserciones %pyspark

#test para ver si el arreglo tiene 3 valores

from test_helper import Test Test.assertEquals(rdd2.collect(),[3])

%pyspark

#crear un arreglo entre -3 y 3 , filtra valores menores a -2 y mayores a 1

import sys rdd4 = sc.parallelize(xrange(-3,3)) print(rdd4.collect()) rdd5= rdd4.filter(lambda x:x<-2 or x>1) print(rdd5.collect()) rdd6= rdd4.filter(lambda x:x<-2 or x>1 and x==-3) print(rdd6.collect()) %pyspark def f01(x): return x+15*x rdd7 = sc.parallelize(xrange(-10,10)) rdd8 = (rdd7.map(f01) .filter(lambda x:x>10)) print(rdd8.collect()) rdd9 = (rdd8.map(f01)

%pyspark rdd15 = sc.parallelize(xrange(0,501)) rdd16 = rdd15.sample(False, 0.5)#probabilidad que no se repita y sean unicos print(rdd16.collect()) print(rdd16.count()) print("========================================================") rdd17 = rdd15.sample(True, 0.5)#probabilidad que se repita print(rdd17.collect()) print(rdd17.count()) print("========================================================") rdd18 = rdd15.sample(False, 1) print(rdd18.collect()) print(rdd18.count()) print("========================================================") rdd19 = rdd15.sample(True, 1) print(rdd19.collect()) print(rdd19.count()) tarea 3

%pyspark import random r= random.sample(range(100), 50) rdr = sc.parallelize(r,1) print"50 numeros aleatorios: ",(rdr.glom().collect()) print"==============================================================" print"Numeros entre 10 y 25" rdr2 = rdr.filter(lambda x : x>10 and x<25) print(rdr2.collect()) print"==============================================================" rdr3 = rdr.distinct() rdr3.collect() ================================= %pyspark rdr3.reduce(lambda x,y: x+y)