En esta serie de artículos vamos a analizar los errores más comunes a la hora de diseñar un Data Warehouse o almacén de datos. Realizar este proceso de forma métodica y siguiendo estos consejos nos evitará tremendos quebraderos de cabeza de cara a implementar un sistema de BI (Business Intelligence) en la empresa.
Ralph Kimball, gurú de la inteligencia de negocio, definió los doce errores más comunes. Estos errores se explican aquí mediante sencillos ejemplos siguiendo el orden descendente utilizado por el gurú de la BI.
Cualquier persona que desee seguir esta serie deberá conocer los siguientes conceptos en el ámbito de la BI:
- Tabla de hechos: será la tabla de la base de datos donde se almacenen todos los eventos que queremos almacenar.
- Dimensión: cada uno de los conceptos que se asociarán a los campos de la tabla de hechos.
- Operacional: referencia a la base de datos del sistema de producción que será el origen de los hechos a plasmar.
- Granularidad: Nivel de detalle de una dimensión.
- Semilla: Hecho con el mayor detalle en el sistema.
“Error 12: Incluir atributos de texto en una tabla de hechos, si se hace con la intención de filtrar o agrupar.”
Este error provoca que las tablas de hechos sean más pesadas y las operaciones de filtrado más lentas.
Por ejemplo, dada la siguiente tabla de hechos:
Se ha añadido, a la tabla de hechos de ventas, la descripción de la categoría para realizar un filtrado por categoría cuando, en su lugar, se debería haber generado una clave primaria para las categorías (distinta de category ya que es una dimensión lentamente cambiante) y propagado a esta tabla.
“Error 11: Abreviar las descripciones en las tablas de dimensión con la intención de reducir el espacio requerido.”
El espacio que consumen las tablas de dimensión es, normalmente, infinitamente inferior al que ocupan las tablas de hechos, por lo tanto, no supone un gran cambio el realizar abreviaturas de las descripciones. Por otro lado, esas abreviaturas, complican la usabilidad de los datos a los usuarios y pueden hacer que no se entiendan los conceptos representados.
Por ejemplo, dada la siguiente tabla de dimensión:
Supongamos que se elimina el campo Categoryname.
Comó he comentado con anterioridad las categorías son una dimensión lentamente cambiante, por lo que al modificarlas solo tendríamos las claves de referencia del operacional y del data warehouse. Supongamos que la empresa decide suprimir una de las categorías en el operacional por su poca comercialización. En el data warehouse, no quedaría ninguna referencia semántica al significado de ese índice, por lo que no serían distinguibles de forma sencilla los productos que se vendieron pertenecientes a esa categoría. El problema aumentaría conforme el número de categorías eliminadas aumentase.
Post publicado por: Juan José Hernández
SEAS es el centro de formación online del Grupo San Valero, especializado en el ámbito técnico, industrial y de empresa. Visita www.seas.es para consultar nuestra oferta formativa de cursos y másteres. Formación profesional para el empleo de calidad y accesible para todos.