Prepara tus exámenes
Consigue puntos
Orientación Universidad

Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity

Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium

Orientación Universidad

Vende en Docsity

Inicia sesión Regístrate

Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity

Busca documentos

Prepara tus exámenes con los documentos que comparten otros estudiantes como tú en Docsity

Busca documentos en el Store

Los mejores documentos en venta realizados por estudiantes que han terminado sus estudios

Video Cursos

Estudia con lecciones y exámenes resueltos basados en los programas académicos de las mejores universidades

Quiz

Responde a preguntas de exámenes reales y pon a prueba tu preparación

Busca entre todos los recursos para el estudio

Docsity AINEW

Resume tus documentos, hazles preguntas, conviértelos en quiz y mapas conceptuales

Ver preguntas

Despeja tus dudas leyendo las respuestas a las preguntas que realizaron otros estudiantes como tú

Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium

Compartir documentos

20 Puntos

Por cada documento subido

Responde a las preguntas

5 Puntos

por cada respuesta dada (máx. 1 al día)

Todos los modos para conseguir puntos gratis

Consigue puntos de inmediato

Elige un plan Premium con todos los puntos que necesitas.

Oportunidades de estudio

Elige tu próximo programa de estudio

Ponte en contacto inmediatamente con las mejores universidades del mundo. Busca entre miles de universidades en todo el mundo. Busca entre miles de universidades partner oficiales

Comunidad

Pregúntale a la comunidad

Pide ayuda a la comunidad y resuelve tus dudas de estudio

Ranking de las universidades

Descubre las mejores universidades de tu país según los usuarios de Docsity

Ebooks gratuitos

¡Nuestros e-books salva-estudiantes!

Descarga nuestras guías gratuitas sobre técnicas de estudio, métodos para controlar la ansiedad y consejos para la tesis preparadas por los tutores de Docsity

Del blog

Actualidad

Becas y ayuda

Ve al blog

Manipulación de Arreglos Distribuidos en PySpark, Tesis de Derecho

Professional Air Escuela de Pilotos y Aviación Comercial - Magdalena Derecho

Ejemplos de cómo trabajar con arreglos distribuidos (rdd) en pyspark, una librería de python para procesamiento de datos a gran escala utilizando apache spark. Se muestran operaciones básicas como crear rdds, filtrar, mapear, reducir y realizar transformaciones sobre los datos. También se incluyen ejemplos de cómo trabajar con números aleatorios, muestreo y operaciones de conjuntos como unión y distinción de elementos. El documento proporciona una introducción práctica a las capacidades de pyspark para el manejo eficiente de grandes volúmenes de datos de manera distribuida y paralela.

Tipo: Tesis

2022/2023

Subido el 11/09/2023

bitabit 🇵🇪

2 documentos

1 / 11

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

#arreglo distribuido en core

%pyspark

rdd =sc.parallelize([2,2,4,5,6],2)

print(rdd.glom().collect())

#crea un arreglo con 10 valores

%pyspark

import numpy as np

rdd2 = sc.parallelize(np.array(range(10)))

print(rdd2.collect())

#crea unarreglo con valores de 1 – 100 y muestra [ print(datos[10:])]

numeros despues del 10

%pyspark

import numpy as np

datos = np.arange(1,100)

rdd5 = sc.parallelize(datos)

print(rdd5.collect())

print(datos[10:])

print(datos[:50])

print(rdd5.count())

Documentos relacionados

Arreglos: Tipo de Datos y Manipulación

Apuntes sobre Arreglos

Arreglos Unidimensionales: Concepto, Propiedades y Ejemplos

Ejercicios sobre arreglos unidimensionales y matrices en C

Tipos de datos en C: Estructuras, punteros y arreglos

Fundamentos de Programación: Manipulación de cadenas de caracteres en C

Programación I - Taller 14: Arreglos en Visual C++

Ejercicios de Estructuras de Datos: Arreglos Unidimensionales y Bidimensionales

Asignación de Objetos y Manipulación de Datos con Clases en Java

Ejercicios Lenguaje de Programación I - Manejo de Arreglos y Colecciones

Fundamentos de Algoritmos Semestre 2022-2: Ejercicios de Arreglos

Estructuras de datos: Arreglos unidimensionales y multidimensionales

Vista previa parcial del texto

¡Descarga Manipulación de Arreglos Distribuidos en PySpark y más Tesis en PDF de Derecho solo en Docsity!

#arreglo distribuido en core

%pyspark

rdd =sc.parallelize([2,2,4,5,6],2)

print(rdd.glom().collect())

#crea un arreglo con 10 valores

%pyspark import numpy as np rdd2 = sc.parallelize(np.array(range(10))) print(rdd2.collect())

#crea unarreglo con valores de 1 – 100 y muestra [ print(datos[10:])]

numeros despues del 10

%pyspark import numpy as np datos = np.arange(1,100) rdd5 = sc.parallelize(datos) print(rdd5.collect()) print(datos[10:]) print(datos[:50]) print(rdd5.count())

#crea un arreglo con 50 valores y muestra los numeros pares

%pyspark import numpy as np def paridad(x): if x%2 == 0: return x rdd6 = sc.parallelize(np.arange(1,50)) rdd7 = rdd6.map(paridad) print(rdd6.collect()) print(rdd7.collect())

#crea un arreglo con 50 valores y muestra los numeros pares, los 10

primeros numeros y el numero de particiones

%pyspark import numpy as np def paridad(x): if x%2 == 0: return x rdd6 = sc.parallelize(np.arange(1,50),10) rdd7 = rdd6.map(paridad) print(rdd6.collect()) print(rdd7.collect()) print(rdd7.take(10)) print(rdd7.getNumPartitions())

%pyspark

#cuenta el numero de elementos

numeros= sc.parallelize([1,5,3,9,4,0,2]) numeros.count() ==================================================== %pyspark

#muestra los 4 numeros mas grandes y los 4 numeros mas pequeños

rdd4 = sc.parallelize([8,4,2,9,3,1,10,5,6,7]).cache() print("4 elementos más grandes: {0}".format(rdd4.top(4))) print("4 elementos más pequeños:{0}".format(rdd4.takeOrdered(4))) ======================================================== %pyspark

#muestra las 4 primeras letras

rdd3 = sc.parallelize(list("abracadabra")).cache() t= rdd3.take(4) print(t) s = rdd3.takeSample(False,4) print(s) INICO DEL TRABAJO 02 %pyspark

#crea 30 numeros aleatorios en 4 particiones y muestra los 10 primeros

numeros

import random r= random.sample(range(30), 30) rdr = sc.parallelize(r,4) print"numeros aleatorios: ",(rdr.glom().collect()) print "10 primeros numeros: ",rdr.take(10) #rdr.takeOrdered(30)

#muestra números pares y los multiplica por 10

def par(rdr): return(rdr%2 == 0) rdd7 = rdr.filter(par) rddMultiplicar = rdd7.map(lambda x: x*10) par=rdd7.collect() print"numeos pares : ",(par) print"numeros multiplicados por 10: ",rddMultiplicar.collect() %pyspark

#muestra números impares

def par(rdr): return(rdr%2 == 1) rdd7 = rdr.filter(par) rddMultiplicar = rdd7.map(lambda x: x/2)

SEMANA 03 %pyspark

#crear un arreglo con 4 valores y muestra los números mayores que dos

import numpy as np rdd= sc.parallelize(np.array(range(4))) print(rdd.collect()) rdd2 = rdd.filter(lambda x: x>2) print(rdd2.collect()) rdd3 = rdd.filter(lambda x: x+2) print(rdd3.collect()) Aserciones %pyspark

#test para ver si el arreglo tiene 3 valores

from test_helper import Test Test.assertEquals(rdd2.collect(),[3])

%pyspark

#crear un arreglo entre -3 y 3 , filtra valores menores a -2 y mayores a 1

import sys rdd4 = sc.parallelize(xrange(-3,3)) print(rdd4.collect()) rdd5= rdd4.filter(lambda x:x<-2 or x>1) print(rdd5.collect()) rdd6= rdd4.filter(lambda x:x<-2 or x>1 and x==-3) print(rdd6.collect()) %pyspark def f01(x): return x+15*x rdd7 = sc.parallelize(xrange(-10,10)) rdd8 = (rdd7.map(f01) .filter(lambda x:x>10)) print(rdd8.collect()) rdd9 = (rdd8.map(f01)

%pyspark rdd15 = sc.parallelize(xrange(0,501)) rdd16 = rdd15.sample(False, 0.5)#probabilidad que no se repita y sean unicos print(rdd16.collect()) print(rdd16.count()) print("========================================================") rdd17 = rdd15.sample(True, 0.5)#probabilidad que se repita print(rdd17.collect()) print(rdd17.count()) print("========================================================") rdd18 = rdd15.sample(False, 1) print(rdd18.collect()) print(rdd18.count()) print("========================================================") rdd19 = rdd15.sample(True, 1) print(rdd19.collect()) print(rdd19.count()) tarea 3

%pyspark import random r= random.sample(range(100), 50) rdr = sc.parallelize(r,1) print"50 numeros aleatorios: ",(rdr.glom().collect()) print"==============================================================" print"Numeros entre 10 y 25" rdr2 = rdr.filter(lambda x : x>10 and x<25) print(rdr2.collect()) print"==============================================================" rdr3 = rdr.distinct() rdr3.collect() ================================= %pyspark rdr3.reduce(lambda x,y: x+y)