Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad

Origen Moderno de Big Data: Tipos, Fuentes y Tecnologías, Esquemas y mapas conceptuales de Metodología de Investigación

El documento ofrece una introducción al concepto de Big Data, sus tipos, fuentes y tecnologías asociadas. Se abordan datos empresariales, generados por máquinas y sensores, y sociales. Se incluye una breve introducción a la Inteligencia Artificial y sus subcampos, como Machine Learning y aprendizaje supervisado y no supervisado.

Tipo: Esquemas y mapas conceptuales

2020/2021

Subido el 15/11/2022

Leylan241218
Leylan241218 🇲🇽

2 documentos

1 / 10

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
El origen moderno del Big Data.
EL ORIGEN MODERNO DE BIG DATA El término “Big data” suele aplicarse a
conjuntos de datos que superan la capacidad del software habitual para ser
capturados, gestionados y procesados en un tiempo razonable y por los medios
habituales de procesamiento de la información.
Este término suele referirse a los siguientes tipos de datos:
Datos de la empresa tradicional: incluye información de los clientes en sistemas de
CRM, datos transaccionales ERP, las transacciones de tienda web, los datos
contables, etcétera.
Machine-generated /sensor data: incluye registros de detalles de llamadas (“Cali
Detail Records, CDR”), los weblogs, los medidores inteligentes, los sensores de
fabricación, registros de equipos, datos de sistemas comerciales, etc.
Datos de medios sociales: Incluye datos sobre blogs, Twiter, plataformas de Social
Media como Facebook, etc.
Grandes bases de datos: con información multidimensional, relacional y no
relacional.
Grandes conjuntos de datos no estructurados con mezcla de fuentes de origen y
tipos de datos: numéricos, textuales, gráficos, etc.
Tipos de fuentes del Big Data
Las fuentes de datos origen de los Big Data pueden ser clasificadas en diferentes
categorías, cada una de las cuales contiene a su vez un buen número de fuentes
diversas que recolectan, almacenan, procesan y analizan. Recurriremos a una
clasificación muy referenciada en la documentación (Soares, 2012),
Web y social media
Incluye contenido Web e información que es obtenida de los medios sociales
como Facebook, Twitter, LinkedIn, Foursquare, Tuenti; blogs como
Technorati, de periódicos y televisiones; wikis como MediaWiki, Wikipedia;
marcadores sociales como Del.icio.us, Stumbleupon; agregadores de
contenidos como Digg, Meneame.
Los datos de la Web y de los medios sociales se analizan con herramientas
de analítica Web y analítica social mediante el uso de métricas y de
indicadores KPI. (KPI son las siglas de Key Performance Indicators, que
puede traducirse al castellano como “Indicadores Clave de Desempeño”.
Estos indicadores se componen de variables, factores o unidades de medida
que sirven para generar estrategias dentro de los departamentos de una
empresa.)
pf3
pf4
pf5
pf8
pf9
pfa

Vista previa parcial del texto

¡Descarga Origen Moderno de Big Data: Tipos, Fuentes y Tecnologías y más Esquemas y mapas conceptuales en PDF de Metodología de Investigación solo en Docsity!

El origen moderno del Big Data. EL ORIGEN MODERNO DE BIG DATA El término “Big data” suele aplicarse a conjuntos de datos que superan la capacidad del software habitual para ser capturados, gestionados y procesados en un tiempo razonable y por los medios habituales de procesamiento de la información. Este término suele referirse a los siguientes tipos de datos: Datos de la empresa tradicional: incluye información de los clientes en sistemas de CRM, datos transaccionales ERP, las transacciones de tienda web, los datos contables, etcétera. Machine-generated /sensor data: incluye registros de detalles de llamadas (“Cali Detail Records, CDR”), los weblogs, los medidores inteligentes, los sensores de fabricación, registros de equipos, datos de sistemas comerciales, etc. Datos de medios sociales: Incluye datos sobre blogs, Twiter, plataformas de Social Media como Facebook, etc. Grandes bases de datos: con información multidimensional, relacional  y no relacional. Grandes conjuntos de datos no estructurados con mezcla de fuentes de origen y tipos de datos: numéricos, textuales, gráficos, etc. Tipos de fuentes del Big Data Las fuentes de datos origen de los Big Data pueden ser clasificadas en diferentes categorías, cada una de las cuales contiene a su vez un buen número de fuentes diversas que recolectan, almacenan, procesan y analizan. Recurriremos a una clasificación muy referenciada en la documentación (Soares, 2012),

  • Web y social media Incluye contenido Web e información que es obtenida de los medios sociales como Facebook, Twitter, LinkedIn, Foursquare, Tuenti; blogs como Technorati, de periódicos y televisiones; wikis como MediaWiki, Wikipedia; marcadores sociales como Del.icio.us, Stumbleupon; agregadores de contenidos como Digg, Meneame. Los datos de la Web y de los medios sociales se analizan con herramientas de analítica Web y analítica social mediante el uso de métricas y de indicadores KPI. (KPI son las siglas de Key Performance Indicators, que puede traducirse al castellano como “Indicadores Clave de Desempeño”. Estos indicadores se componen de variables, factores o unidades de medida que sirven para generar estrategias dentro de los departamentos de una empresa.)
  • Máquina-a-Máquina (M2M)/ Internet de las cosas M2M se refiere a las tecnologías que permiten conectarse a otros diferentes dispositivos entre sí. M2M utiliza dispositivos como sensores o medidores que capturan algún evento en particular (humedad, velocidad, temperatura, presión, variables meteorológicas, variables químicas como la salinidad), los cuales transmiten a través de redes cableadas, inalámbricas y móviles a otras aplicaciones, que traducen estos eventos en información significativa.
  • Transacciones de grandes datos Son los grandes datos transaccionales procedentes de operaciones normales de transacciones de todo tipo. Incluye registros de facturación, en telecomunicaciones y registros detallados de las llamadas (CDR), entre otros
  • Biometría La biometría o reconocimiento biométrico3 se refiere a la identificación automática de una persona basada en sus características anatómicas o trazos personales. Los datos anatómicos se crean a partir del aspecto físico de una persona, incluyendo huellas digitales, iris, escaneo de la retina, reconocimiento facial, genética, ADN, reconocimiento de voz, incluso olor corporal. Los datos de comportamiento incluyen análisis de pulsaciones y escritura a mano.
  • Datos generados por las personas Las personas generan enormes y diversas cantidades de datos como la información que guarda un centro de llamadas telefónicas (call center) al establecer una llamada telefónica, notas de voz, correos electrónicos, documentos electrónicos, estudios y registros médicos electrónicos, recetas médicas, documentos papel, faxes.
  • Definición de Inteligencia artificial Según, según (Gutiérrez, 2006, p.11) la inteligencia artificial es una de las áreas más fascinantes y con más retos de las ciencias de la Computación ya que ha tomado a la inteligencia como la característica universalmente aceptada para diferenciar a los humanos de otras criaturas ya sean vivas o inanimadas, para construir programas o computadoras inteligentes. (Bourcier, 2003, p.56) dice que la inteligencia artificial es una rama de la informática que intenta reproducir las funciones cognitivas humanas como el razonamiento, la memoria, el juicio o la decisión y, después, confiar una parte de esas facultades, que se consideramos signos de inteligencia, a los ordenadores. En general se puede decir que la inteligencia artificial es aquella disciplina que tiene como objetivo el estudio de la conducta humana, mediante el análisis del comportamiento inteligente del ser humano, mismo que se puede

significativa, sin la referencia de variables de salida conocidas, y mediante la exploración de la estructura de dichos datos sin etiquetar. Hay dos categorías principales: agrupamiento y reducción dimensional o Agrupamiento ó Clustering: El agrupamiento es una técnica exploratoria de análisis de datos, que se usa para organizar información en grupos con significado sin tener conocimiento previo de su estructura. Cada grupo es un conjunto de objetos similares que se diferencia de los objetos de otros grupos. El objetivo es obtener un numero de grupos de características similares. Un ejemplo de aplicación de este tipo de algoritmos puede ser para establecer tipos de consumidores en función de sus hábitos de compra, para poder realizar técnicas de marketing efectivas y “personalizadas”. o Reducción dimensional: Es común trabajar con datos en los que cada observación se presenta con alto número de características, en otras palabras, que tienen alta dimensionalidad. Este hecho es un reto para la capacidad de procesamiento y el rendimiento computacional de los algoritmos de Machine Learning. La reducción dimensional es una de las técnicas usadas para mitigar este efecto. La reducción dimensional funciona encontrando correlaciones entre las características, lo que implica que existe información redundante, ya que alguna característica puede explicarse parcialmente con otras (por ejemplo, puede existir dependencia lineal). Estas técnicas eliminan “ruido” de los datos (que puede también empeorar el comportamiento del modelo), y comprimen los datos en un sub-espacio más reducido, al tiempo que retienen la mayoría de la información relevante.

  • Deep Learning El aprendizaje profundo ó Deep Learning, es un subcampo de Machine Learning, que usa una estructura jerárquica de redes neuronales artificiales, que se construyen de una forma similar a la estructura neuronal del cerebro humano, con los nodos de neuronas conectadas como una tela de araña. Esta arquitectura permite abordar el análisis de datos de forma no lineal. La primera capa de la red neuronal toma datos en bruto como entrada, los procesa, extrae información y la transfiere a la siguiente capa como salida. Este proceso se repite en las siguientes capas, cada capa procesa la información proporcionada por la capa anterior, y así sucesivamente hasta que los datos llegan a la capa final, que es donde se obtiene la predicción. Esta predicción se compara con el resultado conocido, y así por análisis inverso el modelo es capaz de aprender los factores que conducen a salidas adecuadas

Aprendizaje reforzado El aprendizaje reforzado es una de las ramas más importantes del aprendizaje profundo. El objetivo es construir un modelo con un agente que mejora su rendimiento, basándose en la recompensa obtenida del entorno con cada interacción que se realiza. La recompensa es una medida de lo correcta que ha sido una acción para obtener un objetivo determinado. El agente utiliza esta recompensa para ajustar su comportamiento futuro, con el objetivo de obtener la recompensa máxima. Un ejemplo común es una máquina de ajedrez, donde el agente decide entre una serie de posibles acciones, dependiendo de la disposición del tablero (que es el estado del entorno) y la recompensa se recibe según el resultado de la partida. Preprocesamiento: Este es uno de los pasos más importantes en cualquier aplicación de Machine Learning. Usualmente los datos se presentan en formatos no óptimos (o incluso inadecuados) para ser procesados por el modelo. En estos casos el preprocesamiento de datos es una tarea que se debe realizar de manera obligatoria Muchos algoritmos requieren que las características estén en la misma escala (por ejemplo, en el rango [0,1]) para optimizar su rendimiento, lo que se realiza frecuentemente aplicando técnicas de normalización o estandarización en los datos. Entrenando y seleccionando un modelo Es esencial comparar los diferentes algoritmos de un grupo para entrenar y seleccionar el de mejor rendimiento. Para realizar esto, es necesario seleccionar una métrica para medir el rendimiento del modelo.

1.2. Tipos de aplicaciones de IA y big data.

Tipos de inteligencia artificial. El funcionamiento de la Inteligencia Artificial depende en gran medida de los algoritmos y proceso empleados para desarrollarla o de los objetivos que se persiguen con ella, por ello podemos hablar de diferentes tipos de IA. Una primera diferencia la podemos hacer entre los sistemas de IA débil e IA fuerte. Los primeros, también conocidos como IA estrecha, son sistemas diseñados y entrenados para realizar una única tarea. Mientras que los segundos, también llamados como inteligencia general artificial, son sistemas que cuentan con

Aplicaciones de la inteligencia artificial. La Inteligencia Artificial se emplea en muchos ámbitos actuales y sin duda son muchas las aplicaciones de la misma que pueden aprovechar las empresas para mejorar sus procesos de ventas, reclutamiento o en sus servicios de atención al cliente. Marketing y ventas En un mercado cada vez más competitivo, donde se hace necesario ofrecer productos o servicios con un valor añadido para poder diferenciarse de la competencia, el análisis de datos y la elaboración de perfiles de consumidores son clave y es aquí donde entra la Inteligencia Artificial aplicada al marketing y las ventas, puesto que permite automatizar procesos como la minería y análisis de la información extraída. La IA aplicada al marketing permite predecir futuras necesidades a través del empleo de herramientas capaces de analizar conductas y elaborar patrones de comportamiento en base a la huella que los usuarios dejan en Internet. Así, pueden elaborar perfiles de usuarios, segmentar la audiencia y poder así ofrecerles productos según sus necesidades y deseos. Ejemplos:

  • Publicidad Programática
  • Creación de contenido
  • Curación de Contenido
  • Email Marketing Atención al cliente Los departamentos de atención al cliente también pueden beneficiarse del empleo de sistemas de Inteligencia Artificial, puesto que pueden delegar algunas tareas en asistentes virtuales. Pero no solo eso, como en el caso del marketing, pueden analizar el comportamiento de los usuarios y poder ofrecerles la ayuda que buscan prácticamente en tiempo real. Recursos humanos Los departamentos de recursos humanos también pueden servirse de los sistemas de Inteligencia Virtual para llevar a cabo los procesos de selección y reclutamiento de trabajadores o llevar a cabo otras tareas relacionadas con el análisis y la gestión de los datos de la empresa, de manera que la IA agrupe estos datos y proporcione diferentes resultados respecto a diferentes áreas, como la evolución del talento, la productividad o los conflictos.

Ventajas y desventajas de la inteligencia artificial

  • Aumenta la eficacia de los procesos y los lleva a cabo de forma más rápida.
  • Permite automatizar procesos repetitivos.
  • Al estar basada en procedimientos computacionales, no comete errores humanos.  Es incansable, puede trabajar todos los días a todas horas.
  • Puede facilitar el día a día de las personas con herramientas como los asistentes virtuales.
  • Es capaz de analizar enormes cantidades de datos, extraer información relevante y crear perfiles o modelos predictivos en muchos ámbitos (medicina, comportamiento social, medioambiente, etc.).

• Puede realizar tareas que para los humanos serían peligrosas o imposibles.

desventajas o peligros que puede entrañar la IA encontramos

  • Cuanto más sofisticados y complejos se vuelven los sistemas de Inteligencia Artificial, más probable se hace que puedan sustituir a los trabajadores humanos, impactando negativamente en el mercado laboral.
  • Puesto que aún carecen de creatividad y capacidad de improvisación, sus soluciones y respuestas están basadas en algoritmos y análisis de información preexistente, lo que limita su capacidad de tomar decisiones más allá de los datos.
  • Su carencia de empatía o sentimientos la hace «inútil» para desempeñar tareas en las que el factor humano es fundamental.
  • Se puede emplear con fines ilegales, como la creación y distribución de malware o la suplantación de identidad.
  • Plantea dudas éticas en cuanto a su evolución hacia IA autoconscientes. Aplicaciones del machine learning
  • Detección de rostro
  • Gmail
  • Anti-virus detectando softwares maliciosos.
  • Importante en la Genética para la clasificación de secuencias de ADN.
  • Comprensión de textos
  • Vehículos autónomos y robots:
  • Análisis de imágenes de alta calidad
  • Diagnósticos médicos basado en síntomas del paciente
  • Detectar fraudes en transacciones
  • Predecir fallos de maquinaria.
  • En el área de los Recursos Humanos para saber si un trabajador será rentable el año que viene.

7. Algoritmos de Aprendizaje Profundo Los algoritmos de aprendizaje profundo ejecutan datos a través de varias capas de algoritmos de redes neuronales, las cuales pasan a una representación simplificada de los datos a la siguiente capa

1.4. Análisis y procesamiento de datos.

Los elementos típicos de cualquier lenguaje son los siguientes:

  • Identificadores.
  • Tipos de datos.
  • Palabras reservadas.
  • Sentencias.
  • Bloques de código.
  • Comentarios.
  • Expresiones.
  • Operadores