Un Data warehouse es una base
de datos corporativa que se caracteriza por integrar y depurar información de
una o más fuentes distintas, para luego procesarla permitiendo su análisis
desde infinidad de perspectivas y con grandes velocidades de respuesta.
La ventaja principal de este tipo de
bases de datos radica en las estructuras en las que se almacena la información
(modelos de tablas en estrella, en copo de nieve, cubos relacionales... etc).
Este tipo de persistencia de la información es homogénea y fiable, y permite la
consulta y el tratamiento jerarquizado de la misma (siempre en un entorno
diferente a los sistemas operacionales).
El término Data warehouse fue acuñado
por primera vez por Bill Inmon, y se traduce literalmente como almacén de
datos. No obstante, y como cabe suponer, es mucho más que eso. Según definió el
propio Bill Inmon, un data warehouse se caracteriza por ser:
Integrado: los datos almacenados en el data warehouse deben
integrarse en una estructura consistente, por lo que las inconsistencias
existentes entre los diversos sistemas operacionales deben ser eliminadas. La
información suele estructurarse también en distintos niveles de detalle para
adecuarse a las distintas necesidades de los usuarios.
Temático: sólo los datos necesarios para el proceso de
generación del conocimiento del negocio se integran desde el entorno
operacional. Los datos se organizan por temas para facilitar su acceso y
entendimiento por parte de los usuarios finales. Por ejemplo, todos los datos
sobre clientes pueden ser consolidados en una única tabla del data warehouse. De
esta forma, las peticiones de información sobre clientes serán más fáciles de
responder dado que toda la información reside en el mismo lugar.
Histórico: el tiempo
es parte implícita de la información contenida en un data warehouse. En los
sistemas operacionales, los datos siempre reflejan el estado de la actividad
del negocio en el momento presente. Por el contrario, la información almacenada
en el data warehouse sirve, entre otras cosas, para realizar análisis de
tendencias. Por lo tanto, el data warehouse se carga con los distintos valores
que toma una variable en el tiempo para permitir comparaciones.
No volátil: el almacén de información de un data warehouse
existe para ser leído, pero no modificado. La información es por tanto
permanente, significando la actualización del data warehouse la incorporación de
los últimos valores que tomaron las distintas variables contenidas en él sin
ningún tipo de acción sobre lo que ya existía.