






Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Prepara tus exámenes
Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Prepara tus exámenes con los documentos que comparten otros estudiantes como tú en Docsity
Los mejores documentos en venta realizados por estudiantes que han terminado sus estudios
Estudia con lecciones y exámenes resueltos basados en los programas académicos de las mejores universidades
Responde a preguntas de exámenes reales y pon a prueba tu preparación
Consigue puntos base para descargar
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Comunidad
Pide ayuda a la comunidad y resuelve tus dudas de estudio
Descubre las mejores universidades de tu país según los usuarios de Docsity
Ebooks gratuitos
Descarga nuestras guías gratuitas sobre técnicas de estudio, métodos para controlar la ansiedad y consejos para la tesis preparadas por los tutores de Docsity
Una bodega de datos o data warehouse es un conjunto de datos integrados orientados a una materia, que varían con tiempo y que no so transitorios, los cuales soportan el peso de toma de decisiones de la administración.
Tipo: Guías, Proyectos, Investigaciones
1 / 12
Esta página no es visible en la vista previa
¡No te pierdas las partes importantes!
INSTITUTO TECNOLÓGICO SUPERIOR PÚRHÉPECHA
Tabla de contenido Introducción Desarrollo ¿Qué es una bodega de datos? Una bodega de datos o data warehouse es un conjunto de datos integrados orientados a una materia, que varían con tiempo y que no so transitorios, los cuales soportan el peso de toma de decisiones de la administración. Está orientado al manejo de grandes volúmenes de datos, provenientes de varias fuentes, y de diversos tipos. Estos datos cubren grandes periodos de tiempo, lo que trae consigo que tengan diferentes esquemas de la base de datos fuentes. La concentración de esta información está orientada a su análisis para apoyar la toma de decisiones oportuna y fundamentada. El objetivo de una bodega de datos Soportar la toma de decisiones en un negocio y centralizar una gran variedad de datos e información, interpretar dicha información y darle un valor agregado para beneficio del negocio. Características de una bodega de datos
Diferencias entre las bases de datos transaccionales y bases de datos de soporte a la toma de decisiones Generalmente, la información que se quiere investigar sobre un cierto dominio de la organización se encuentra en bases de datos y otras fuentes muy diversas, tanto internas como externas. Muchas de estas fuentes son las que se utilizan para el trabajo transaccional diario conocido como OLTP (On-Line Transactional Processing). Sobre estas mismas bases de datos de trabajo ya se puede extraer conocimiento (visión tradicional). Problemas para realizar el análisis en este sistema (OLTP): La información se encuentra en varias y heterogéneas bases de datos y, en consecuencia, no se puede explotar en conjunto. Solo es posible el análisis de los datos actuales, no mantiene valores históricos para tratar evolutivos. Se obstaculiza el trabajo transaccional diario de los sistemas de información originales, no permite el análisis on- line. La base de datos está diseñada para el trabajo transaccional, no para el análisis de los datos.
Para las bases de datos del tipo OLAP, permite extraer conocimiento de la información histórica almacenada en la organización. Es un almacén de datos para el análisis y toma de decisiones. Este permite realizar análisis on-line, por lo que aumenta el poder de toma de decisiones por parte de los responsables en cuestión. También unifica información dispersa de diversos sistemas operacionales. Contiene la información relevante de la organización. Diseños orientados a conceptos de negocio manejados por el usuario Sistema OLAP (On-Line Analitical Processing) Operacional (OLTP) Datawarehouse (OLAP) Almacén de datos actuales Almacén de datos históricos Almacena datos al detalle Almacena datos al detalle y datos agregados a distintos niveles Bases de datos medianas Bases de datos grandes Los datos son actuales Los datos son estáticos Los procesos son repetitivos Los procesos no son previsibles Tiempo de respuesta corto Tiempo de respuesta variable Soporta decisiones diarias Soporta decisiones estratégicas Arquitectura Propiedades Para poder definir la arquitectura de una bodega de datos, debemos analizar unas propiedades esenciales representadas en:
el middleware los interpreta. En este sentido, las consultas afectan la carga de trabajo de las transacciones regulares. Adicionalmente, aunque esta arquitectura puede reunir los requerimientos para integración y exactitud de los datos, este no puede registrar más datos que los provenientes de las fuentes básicas. Por esta razón, un enfoque virtual para almacenamiento de datos sólo puede tener éxito si las necesidades de análisis son particularmente restringidas y el volumen de datos a analizar es muy grande. ARQUITECTURA DE DOS CAPAS El concepto de separación es la esencia en la definición de la arquitectura típica para un sistema de almacenamiento de datos pensado en dos capas. Se denomina arquitectura de dos capas a la separación física entre las fuentes de datos disponibles y lo dispuesto en la bodega de datos, que consta de cuatro etapas posteriores de flujo de datos enunciadas a continuación: 1- Capa Fuente Un sistema de almacenamiento de datos utiliza fuentes heterogéneas de datos. Esos datos se almacenan originalmente en la base de datos relacional o bases de datos legadas, o puede provenir de sistemas de información externos a la empresa.
2- Extracción de Datos Los datos almacenados en las fuentes deben ser extraídos y limpiados para remover inconsistencias y llenar espacios vacíos, integrando fuentes de datos heterogéneos a partir de esquemas comunes. Las llamadas herramientas ETL (Extraction, Transformation and Loading) pueden mezclar esquemas heterogéneos, extraer, transformar, limpiar, validar, filtrar, y cargar fuentes de datos dentro de una bodega de datos. En sí, esta etapa se ocupa de los problemas que son típicos de los sistemas de información distribuidos, tales como la gestión de datos inconsistentes y estructuras de datos incompatibles. 3- Capa de Data Warehouse La información es almacenada en un repositorio centralizado denominado data warehouse o bodega de datos. El data warehouse puede ser accedido directamente, pero este también puede ser usado como fuente para creación de data marts, los cuales parcialmente replican contenidos de los data warehouse y son diseñados por necesidades de dependencias específicas en una empresa. Los repositorios que contienen la meta data almacenan información como fuentes, procedimientos de acceso, extracción de datos, usuarios, esquemas de data mart, etc. 4- Análisis En esta capa, la integración de datos es eficiente y de acceso flexible para generar informes, analizar la información de forma dinámica y simular escenarios hipotéticos de negocio. Esta capa debe funcionar con navegadores de datos agregados, optimizadores de consultas complejas, y con interfaces gráficas de usuario de fácil manejo. Es necesario estudiar a fondo la diferencia arquitectónica entre los almacenes de datos y los data marts. Los componentes señalados como un data warehouse son frecuentemente llamados data warehouse primario o data warehouse corporativo que actúan como un sistema de almacenamiento centralizado para todos los datos que se resumen. Los Data marts pueden ser vistos como pequeños almacenes de datos replicando la parte de un almacén de datos principal requerido en el dominio de una aplicación específica. A continuación se enuncian algunos beneficios de una arquitectura de dos capas:
En esta arquitectura, la tercera capa es la capa de datos reconciliados o almacén de datos operativos. En esta capa se materializan los datos operativos obtenidos después de la integración y la limpieza de datos desde el origen. Como resultado, los datos son integrados, coherentes, actuales y detallados. La figura muestra una bodega de datos que no es poblada de sus fuentes de forma directa, pero si a partir de datos reconciliados. La principal ventaja de la capa de reconciliación de datos es que esta crea un modelo de referencia de datos común para una empresa en su conjunto. De igual forma, se separan los problemas de extracción de datos de las fuentes y la integración de datos para poblar la bodega de datos. En algunos casos, la capa de reconciliación es usada para llevar a cabo tareas más operativas, tales como la elaboración de informes diarios que no pueden ser adecuadamente preparados con las aplicaciones corporativas, o generando los flujos de datos para alimentar procesos externos periódicamente con el fin hacer integración y limpieza. Sin embargo, los datos conciliados conducen a una mayor redundancia de datos de origen operativo. Tenga presente que se puede suponer que incluso las arquitecturas de dos capas pueden tener una capa de reconciliación que no está específicamente materializada, pero si se puede presentar en una forma virtual dado que se define como una vista que brinda coherencia de los datos fuentes integrados. Data Marts Un data mart es un subconjunto o una agregación de los datos almacenados en un almacén de datos principal. Se incluye un conjunto de piezas de información relativa a áreas específicas de negocio, un departamento de la empresa o categorías de usuarios. Los data marts generados a partir de una bodega de datos primaria son llamados frecuentemente dependientes. Pese a que los data marts no son estrictamente necesarios, son muy útiles para los sistemas de bodegas de datos en medianas y grandes empresas debido a que: