Independientemente de las elecciones de almacenamiento que haga, es importante estar atento a los silos de datos de su organización. Vienen en muchas formas, y deben ser tomados en serio, ya que pueden realmente obstaculizar la productividad de su organización.
Las formas comunes de silos de datos incluyen bases de datos relacionales autónomas, almacenamiento en bloque como discos persistentes y almacenes de datos que contienen datos semiestructurados.
Puede que tenga los mismos datos almacenados en múltiples lugares, lo que significa que no tiene una única fuente de verdad. También puede terminar actualizando una ubicación de almacenamiento con frecuencia pero no actualizando otra.
Hay dos enfoques para resolver los silos de datos: la integración o los lagos de datos.
Integración
Si quieres dejar que tus silos existan, puedes conectar los diferentes bits de datos usando ETL o extraer las tuberías de carga de transformación. Esto te permite reunir importantes bits de datos para su visualización o análisis.
Lagos de datos
Azure, AWS y otros proveedores de nubes tienen sus propias soluciones de lago de datos que puedes usar. Los lagos de datos le permiten tener una única fuente de verdad, y son estupendos si usted va con un enfoque de nube-primero donde usted planea hacer una migración única a la nube. Contienen datos en bruto en todos los formatos -datos estructurados, no estructurados y semiestructurados- y suelen estar construidos en torno al almacenamiento de blob como los cubos S3, el almacenamiento de blob Azure o los cubos de almacenamiento de la nube de Google.