¿Tienen futuro los Data Warehouse?

P_20180930_201743El proceso de digitalización generó en las organizaciones una cantidad de datos antes impensable. Han proliferado los sistemas de información, y con ellos los silos independientes de datos, con un análisis limitado de los mismos, y uso centrado en los aspectos puramente operacionales, no generando el valor que pudieran producir. Un caso paradigmático en este sentido en el sector sanitario, ha sido la historia clínica electrónica.

Con la finalidad de tener acceso a los datos de forma rápida, sin duplicidades y sin inconsistencias, surgieron hace casi tres décadas los almacenes corporativos de datos centralizados (Data Warehouse, DW).

Para muchas organizaciones, disponer de un Data Warehouse corporativo sigue siendo una quimera, pues a pesar de las expectativas, los procesos de extracción, transformación y carga de datos (ETL) desde los sistemas operacionales son caros, complejos y lentos, eternizándose los proyectos; incluso en caso de finalizarlos, hay que rehacerlos al cambiar la disponibilidad y necesidades de datos.

Aun así, son sistemas de reporting robustos y estables, que mediante tablas predefinidas, responden a preguntas conocidas y repetitivas, hechas a datos conocidos, bien estructurados y consolidados periódicamente. Los usuarios básicos se cuentan por miles en las organizaciones grandes, son usuarios ocasionales que no requieren conocimientos especiales de análisis de datos; los usuarios avanzados, en pequeño número, tienen mayores posibilidades de tratamiento de datos y suministran datos a otros usuarios, pero los análisis en profundidad deben hacerse desde fuera del sistema; en definitiva, no son ni han pretendido ser nunca una herramienta avanzada de análisis de datos.

Las organizaciones necesitan hoy en día responder a preguntas no previstas con anterioridad, sobre datos estructurados y no estructurados (texto, imagen, video, audio y sensores), sobre nuevos datos no incorporados en el DW, con una latencia mínima entre la producción del dato y su uso, y con gran capacidad analítica sobre grandes volúmenes de datos.

Los DW no pueden dar respuesta a estas necesidades, hay quien piensa que ha llegado su fin, y que incluso no han cubierto nunca sus expectativas. Otros consideran que su futuro está en formar parte de un amplio ecosistema de gestión de datos, en el que disminuirá su importancia relativa, constituido por: DW en tiempo real, DW tradicional y Data lake (lago de datos).

DW 1

El DW en tiempo real, combina la estabilidad y robusted de los sistemas de reporting de los DW (de los que forman parte) con tecnologías de obtención de un limitado conjunto de datos en tiempo real (o casi real) de los sistemas operacionales. Permiten la monitorización de los datos esenciales del funcionamiento de la organización y establecer alertas así como incorporar algoritmos de ayuda a toma de decisiones; pocas operaciones de una organización suelen necesitar este tipo de herramientas y tienen que ver con los servicios críticos o esenciales. Sus usuarios son más de consulta que de análisis, y no requieren capacidades analíticas especiales.

El Data Lake, lago de datos, es el entorno en el que los datos a incorporar son desconocidos a priori, como también lo son las preguntas que nos podemos hacer. El proceso ETL se modifica para ser ELT (extracción, carga y transformación), siendo la clave el acceso al dato en su formato original en los sistemas operacionales, e intentan superar los problemas tradicionales en la transformación de datos. Es un repositorio de almacenamiento que contienen una gran cantidad de datos en bruto y que se mantienen allí hasta que sea necesario. A diferencia de un data warehouse jerárquico que almacena datos en ficheros o carpetas, un data lake utiliza una arquitectura plana para almacenar los datos. Es el ámbito del big data, entornos No SQL, búsqueda de nuevos significados e innovación, perfiles de ingenieros y científicos de datos, y funciones de análisis avanzado y modelado de datos.

A cada elemento de un data lake se le asigna un identificador único y se etiqueta con un conjunto de etiquetas de metadatos. Cuando surge una consulta, se solicita al data lake los datos que estén relacionados con esa consulta, obteniendo los datos precisos e imprescindibles para ese análisis en concreto. El término se asocia cada vez con más frecuencia a la descripción de  cualquier gran conjunto de datos en el que el esquema y los requisitos de datos no se definen hasta que los datos son consultados.

Además del modelo arriba indicado, existen otros posibles enfoques, en las relaciones entre el DW y el data lake, algunos de los cuales se consideran elementos independientes.

DW 2

En otros, los elementos van en paralelo.


DW 3

Mientras que otros consideran el DW como parte del Data Lake

DW 4

…..y hay otras múltiples forma de relación

Muchas actividades en las organizaciones dependen de los DW, tienen muchos usuarios y se ha invertido muchos recurso en ellos, por lo que es posible que seguirán teniendo un papel importante en el almacenamiento de datos. Sin embargo, necesitarán modernizarse para superar sus limitaciones y además, coexistir con otros elementos que cubran aspectos relacionados con la inmediated en la disponibilidad del datos (DW en tiempo real) y las capacidades de análisis en el ámbito del big data (data lake).

P_20180724_120443

Anuncios

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión /  Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión /  Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión /  Cambiar )

Conectando a %s