Informática

Diseño de un “data warehouse”: explicación de los errores de Kimball mediante ejemplos. (Parte I)

12 junio, 2012

En esta serie de artículos vamos a analizar los errores más comunes a la hora de diseñar un Data Warehouse o almacén de datos. Realizar este proceso de forma métodica y siguiendo estos consejos nos evitará tremendos quebraderos de cabeza de cara a implementar un sistema de BI (Business Intelligence) en la empresa.

Ralph Kimball, gurú de la inteligencia de negocio, definió los doce errores más comunes. Estos errores se explican aquí mediante sencillos ejemplos siguiendo el orden descendente utilizado por el gurú de la BI.

Cualquier persona que desee seguir esta serie deberá conocer los siguientes conceptos en el ámbito de la BI:

  • Tabla de hechos: será la tabla de la base de datos donde se almacenen todos los eventos que queremos almacenar.
  • Dimensión: cada uno de los conceptos que se asociarán a los campos de la tabla de hechos.
  • Operacional: referencia a la base de datos del sistema de producción que será el origen de los hechos a plasmar.
  • Granularidad: Nivel de detalle de una dimensión.
  • Semilla: Hecho con el mayor detalle en el sistema.

“Error 12: Incluir atributos de texto en una tabla de hechos, si se hace con la intención de filtrar o agrupar.”

Este error provoca que las tablas de hechos sean más pesadas y las operaciones de filtrado más lentas.

Por ejemplo, dada la siguiente tabla de hechos:

 Tabla

Se ha añadido, a la tabla de hechos de ventas, la descripción de la categoría para realizar un filtrado por categoría cuando, en su lugar, se debería haber generado una clave primaria para las categorías (distinta de category ya que es una dimensión lentamente cambiante) y propagado a esta tabla.

“Error 11: Abreviar las descripciones en las tablas de dimensión con la intención de reducir el espacio requerido.”

El espacio que consumen las tablas de dimensión es, normalmente, infinitamente inferior al que ocupan las tablas de hechos, por lo tanto, no supone un gran cambio el realizar abreviaturas de las descripciones. Por otro lado, esas abreviaturas, complican la usabilidad de los datos a los usuarios y pueden hacer que no se entiendan los conceptos representados.

Por ejemplo, dada la siguiente tabla de dimensión:

 

Supongamos que se elimina el campo Categoryname.

 

Comó he comentado con anterioridad las categorías son una dimensión lentamente cambiante, por lo que al modificarlas solo tendríamos las claves de referencia del operacional y del data warehouse. Supongamos que la empresa decide suprimir una de las categorías en el operacional por su poca comercialización. En el data warehouse, no quedaría ninguna referencia semántica al significado de ese índice, por lo que no serían distinguibles de forma sencilla los productos que se vendieron pertenecientes a esa categoría. El problema aumentaría conforme el número de categorías eliminadas aumentase.

Post publicado por:  Juan José Hernández

Puedes compartir este artículo en:
    Deja un comentario

    Información básica acerca de cómo protegemos tus datos conforme al Reglamento General de Protección de Datos (Reglamento UE 2016/679) y en la Ley Orgánica 3/2018, de 5 de diciembre, de Protección de Datos Personales y garantía de los derechos digitales

    De conformidad con lo establecido en el Reglamento General de Protección de Datos, te informamos de:

    - Quien es el responsable del tratamiento: SEAS, Estudios Superiores Abiertos S.A.U con NIF A-50973098, dirección en C/ Violeta Parra nº 9 – 50015 Zaragoza y teléfono 976.700.660.

    - Cuál es el fin del tratamiento: Gestión y control de los comentarios del blog de SEAS. 

    - En que basamos la legitimación: En tu consentimiento.

    - La comunicación de los datos: No se comunicarán tus datos a terceros.

    - Los criterios de conservación de los datos: Se conservarán mientras exista interés mutuo para mantener el fin del tratamiento o por obligación legal. Cuando dejen de ser necesarios, procederemos a su destrucción.

    - Los derechos que te asisten: (i) Derecho de acceso, rectificación, portabilidad y supresión de sus datos y a la limitación u oposición al tratamiento, (ii) derecho a retirar el consentimiento en cualquier momento y (iii) derecho a presentar una reclamación ante la autoridad de control (AEPD).

    - Los datos de contacto para ejercer tus derechos: SEAS, Estudios Superiores Abiertos S.A.U. C/ Violeta Parra nº 9 –
    50015 Zaragoza (España) o través de correo electrónico a lopd@estudiosabiertos.com

    - También puedes ponerte en contacto con nuestro Delegado de Protección de Datos en dpd@estudiosabiertos.com

    Información adicional: Puedes consultar la información adicional y detallada sobre nuestra política de privacidad