Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad

Bodegas de Datos (Unidad 4), Guías, Proyectos, Investigaciones de Programación de Bases de Datos

Una bodega de datos o data warehouse es un conjunto de datos integrados orientados a una materia, que varían con tiempo y que no so transitorios, los cuales soportan el peso de toma de decisiones de la administración.

Tipo: Guías, Proyectos, Investigaciones

2018/2019

A la venta desde 18/08/2021

JorgeMBP
JorgeMBP 🇲🇽

3 documentos

1 / 12

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
TECNOLÓGICO NACIONAL DE MÉXICO
INSTITUTO TECNOLÓGICO SUPERIOR PÚRHÉPECHA
INSTITUTO TECNOLÓGICO SUPERIOR
PÚRHÉPECHA
Alumno: Barriga Pahuamba Jorge Moisés
Barajas Heredia Brayan Ulises
Nucí Quiroz Leonardo Daniel
No. De control: 1803002
1806008
1806040
Grupo: F3
Materia: Base de Datos
Unidad 4: Bodegas de Datos
Actividad 1: Investigación
Profesora: Mtra. Guillen Rodríguez Brenda Liliana
25/octubre/2019
pf3
pf4
pf5
pf8
pf9
pfa

Vista previa parcial del texto

¡Descarga Bodegas de Datos (Unidad 4) y más Guías, Proyectos, Investigaciones en PDF de Programación de Bases de Datos solo en Docsity!

TECNOLÓGICO NACIONAL DE MÉXICO

INSTITUTO TECNOLÓGICO SUPERIOR PÚRHÉPECHA

INSTITUTO TECNOLÓGICO SUPERIOR

PÚRHÉPECHA

Alumno: Barriga Pahuamba Jorge Moisés

Barajas Heredia Brayan Ulises

Nucí Quiroz Leonardo Daniel

No. De control: 1803002

Grupo: F

Materia: Base de Datos

Unidad 4: Bodegas de Datos

Actividad 1: Investigación

Profesora: Mtra. Guillen Rodríguez Brenda Liliana

25/octubre/

Tabla de contenido Introducción Desarrollo ¿Qué es una bodega de datos? Una bodega de datos o data warehouse es un conjunto de datos integrados orientados a una materia, que varían con tiempo y que no so transitorios, los cuales soportan el peso de toma de decisiones de la administración. Está orientado al manejo de grandes volúmenes de datos, provenientes de varias fuentes, y de diversos tipos. Estos datos cubren grandes periodos de tiempo, lo que trae consigo que tengan diferentes esquemas de la base de datos fuentes. La concentración de esta información está orientada a su análisis para apoyar la toma de decisiones oportuna y fundamentada. El objetivo de una bodega de datos Soportar la toma de decisiones en un negocio y centralizar una gran variedad de datos e información, interpretar dicha información y darle un valor agregado para beneficio del negocio. Características de una bodega de datos

  • INTEGRADAS: La base de datos contiene los datos de todos los sistemas operacionales de la organización y dichos datos deben ser consistentes.
  • ORIENTADAS A UN TEMA PARTICULAR: Ya que los datos que contienen, están organizados por temas, totalizados y optimizados para dar respuestas a preguntas de diversas áreas funcionales de la organización.
  • VARIANTES EN EL TIEMPO: Porque contrario a las Bases de Datos Operacionales que se centran en los datos actuales, las Bodegas de Datos representan el flujo de información a través del tiempo.

Diferencias entre las bases de datos transaccionales y bases de datos de soporte a la toma de decisiones Generalmente, la información que se quiere investigar sobre un cierto dominio de la organización se encuentra en bases de datos y otras fuentes muy diversas, tanto internas como externas. Muchas de estas fuentes son las que se utilizan para el trabajo transaccional diario conocido como OLTP (On-Line Transactional Processing). Sobre estas mismas bases de datos de trabajo ya se puede extraer conocimiento (visión tradicional). Problemas para realizar el análisis en este sistema (OLTP): La información se encuentra en varias y heterogéneas bases de datos y, en consecuencia, no se puede explotar en conjunto. Solo es posible el análisis de los datos actuales, no mantiene valores históricos para tratar evolutivos. Se obstaculiza el trabajo transaccional diario de los sistemas de información originales, no permite el análisis on- line. La base de datos está diseñada para el trabajo transaccional, no para el análisis de los datos.

Para las bases de datos del tipo OLAP, permite extraer conocimiento de la información histórica almacenada en la organización. Es un almacén de datos para el análisis y toma de decisiones. Este permite realizar análisis on-line, por lo que aumenta el poder de toma de decisiones por parte de los responsables en cuestión. También unifica información dispersa de diversos sistemas operacionales. Contiene la información relevante de la organización. Diseños orientados a conceptos de negocio manejados por el usuario Sistema OLAP (On-Line Analitical Processing) Operacional (OLTP) Datawarehouse (OLAP) Almacén de datos actuales Almacén de datos históricos Almacena datos al detalle Almacena datos al detalle y datos agregados a distintos niveles Bases de datos medianas Bases de datos grandes Los datos son actuales Los datos son estáticos Los procesos son repetitivos Los procesos no son previsibles Tiempo de respuesta corto Tiempo de respuesta variable Soporta decisiones diarias Soporta decisiones estratégicas Arquitectura Propiedades Para poder definir la arquitectura de una bodega de datos, debemos analizar unas propiedades esenciales representadas en:

  • Separación: Los procesos de análisis y transacciones deberían ser guardados en lo posible de forma independiente.
  • Escalabilidad: Las arquitecturas de Hardware y Software deben ser fáciles de mejorar conforme al volumen de los datos, definidas para fácil administración y manejo de procesos, estimadas por el número de requerimientos de usuarios que determinan incrementos progresivamente.
  • Extensibilidad: La arquitectura debe estar en capacidad de recibir nuevas aplicaciones y tecnologías sin rediseñar el sistema.

el middleware los interpreta. En este sentido, las consultas afectan la carga de trabajo de las transacciones regulares. Adicionalmente, aunque esta arquitectura puede reunir los requerimientos para integración y exactitud de los datos, este no puede registrar más datos que los provenientes de las fuentes básicas. Por esta razón, un enfoque virtual para almacenamiento de datos sólo puede tener éxito si las necesidades de análisis son particularmente restringidas y el volumen de datos a analizar es muy grande. ARQUITECTURA DE DOS CAPAS El concepto de separación es la esencia en la definición de la arquitectura típica para un sistema de almacenamiento de datos pensado en dos capas. Se denomina arquitectura de dos capas a la separación física entre las fuentes de datos disponibles y lo dispuesto en la bodega de datos, que consta de cuatro etapas posteriores de flujo de datos enunciadas a continuación: 1- Capa Fuente Un sistema de almacenamiento de datos utiliza fuentes heterogéneas de datos. Esos datos se almacenan originalmente en la base de datos relacional o bases de datos legadas, o puede provenir de sistemas de información externos a la empresa.

2- Extracción de Datos Los datos almacenados en las fuentes deben ser extraídos y limpiados para remover inconsistencias y llenar espacios vacíos, integrando fuentes de datos heterogéneos a partir de esquemas comunes. Las llamadas herramientas ETL (Extraction, Transformation and Loading) pueden mezclar esquemas heterogéneos, extraer, transformar, limpiar, validar, filtrar, y cargar fuentes de datos dentro de una bodega de datos. En sí, esta etapa se ocupa de los problemas que son típicos de los sistemas de información distribuidos, tales como la gestión de datos inconsistentes y estructuras de datos incompatibles. 3- Capa de Data Warehouse La información es almacenada en un repositorio centralizado denominado data warehouse o bodega de datos. El data warehouse puede ser accedido directamente, pero este también puede ser usado como fuente para creación de data marts, los cuales parcialmente replican contenidos de los data warehouse y son diseñados por necesidades de dependencias específicas en una empresa. Los repositorios que contienen la meta data almacenan información como fuentes, procedimientos de acceso, extracción de datos, usuarios, esquemas de data mart, etc. 4- Análisis En esta capa, la integración de datos es eficiente y de acceso flexible para generar informes, analizar la información de forma dinámica y simular escenarios hipotéticos de negocio. Esta capa debe funcionar con navegadores de datos agregados, optimizadores de consultas complejas, y con interfaces gráficas de usuario de fácil manejo. Es necesario estudiar a fondo la diferencia arquitectónica entre los almacenes de datos y los data marts. Los componentes señalados como un data warehouse son frecuentemente llamados data warehouse primario o data warehouse corporativo que actúan como un sistema de almacenamiento centralizado para todos los datos que se resumen. Los Data marts pueden ser vistos como pequeños almacenes de datos replicando la parte de un almacén de datos principal requerido en el dominio de una aplicación específica. A continuación se enuncian algunos beneficios de una arquitectura de dos capas:

En esta arquitectura, la tercera capa es la capa de datos reconciliados o almacén de datos operativos. En esta capa se materializan los datos operativos obtenidos después de la integración y la limpieza de datos desde el origen. Como resultado, los datos son integrados, coherentes, actuales y detallados. La figura muestra una bodega de datos que no es poblada de sus fuentes de forma directa, pero si a partir de datos reconciliados. La principal ventaja de la capa de reconciliación de datos es que esta crea un modelo de referencia de datos común para una empresa en su conjunto. De igual forma, se separan los problemas de extracción de datos de las fuentes y la integración de datos para poblar la bodega de datos. En algunos casos, la capa de reconciliación es usada para llevar a cabo tareas más operativas, tales como la elaboración de informes diarios que no pueden ser adecuadamente preparados con las aplicaciones corporativas, o generando los flujos de datos para alimentar procesos externos periódicamente con el fin hacer integración y limpieza. Sin embargo, los datos conciliados conducen a una mayor redundancia de datos de origen operativo. Tenga presente que se puede suponer que incluso las arquitecturas de dos capas pueden tener una capa de reconciliación que no está específicamente materializada, pero si se puede presentar en una forma virtual dado que se define como una vista que brinda coherencia de los datos fuentes integrados. Data Marts Un data mart es un subconjunto o una agregación de los datos almacenados en un almacén de datos principal. Se incluye un conjunto de piezas de información relativa a áreas específicas de negocio, un departamento de la empresa o categorías de usuarios. Los data marts generados a partir de una bodega de datos primaria son llamados frecuentemente dependientes. Pese a que los data marts no son estrictamente necesarios, son muy útiles para los sistemas de bodegas de datos en medianas y grandes empresas debido a que:

  • Son usados como bloques de construcción mientras se incrementa el desarrollo de las bodegas de datos.
  • Exponen la información requerida por un grupo específico de usuarios para solucionar consultas específicas.
  • Pueden ofrecer un mejor rendimiento, ya que son más pequeños que las bodegas de datos primarias.
  • En ocasiones, principalmente por políticas y organización, debe utilizar una arquitectura diferente en el que las fuentes se utilizan para poblar los data marts. Si no hay una bodega de datos principal, esto simplifica el proceso de diseño, pero conlleva el riesgo de inconsistencias entre los data marts. Para evitar estos problemas, se puede crear una bodega de datos principal y seguir teniendo los data marts independientes. En comparación con el estándar de la arquitectura de dos capas, las funciones de los data marts y la bodega de datos están invertidas. En este caso la bodega de datos se llena de a través de los data marts y puede ser consultada directamente para generar los patrones de acceso tan fácil como sea posible. Arquitectura lógica Conclusiones personales Glosario