Gobierno de Datos y Modelado
Estrategias técnicas para asegurar confianza, calidad y escalabilidad en los datos. El foco deja de ser solo "mover datos" para pasar a "gestionar datos como producto".
Arquitecturas de Modelado de Datos
| Patrón | Contexto |
|---|---|
| Kimball (Star Schema) | El gold standard para la capa de presentación y data marts con alto rendimiento BI. |
| Medallion Architecture | El estándar de capas Bronze/Silver/Gold. Simple, efectivo y ampliamente entendido en entornos Lakehouse. |
| Patrón | Contexto |
|---|---|
| Semantic / Metrics Layer | Unificar métricas de negocio en una capa reutilizable para reducir metric drift entre herramientas. |
| Patrón | Contexto |
|---|---|
| Anchor Modeling | Alternativa más liviana a Data Vault para auditabilidad e historización con menos sobrecarga. |
| Data Vault | Metodología de Dan Linstedt para hubs empresariales complejos donde auditar y preservar histórico es crítico, pese a su complejidad. |
| Dimensional vs. 3NF | Guía explícita para decidir cuándo no usar Kimball y cuándo un modelo 3NF normalizado es más adecuado. |
| Event Modeling | Útil al diseñar pipelines orientados a eventos para mantener explícitos los flujos de comportamiento. |
Calidad y Validación
| Herramienta | Contexto |
|---|---|
| Great Expectations | Framework robusto para testear datos en la ingesta y forzar quality gates estrictos antes del procesamiento. |
| Herramienta | Contexto |
|---|---|
| Data Contracts | Definir interfaces de datos como código para evitar que cambios rompan pipelines downstream. |
| Soda | Monitoreo liviano y SQL-native de calidad de datos para detectar anomalías en el warehouse. |
| Herramienta | Contexto |
|---|---|
| Amundsen | Catálogo de datos open source centrado en discovery, ownership y búsqueda de metadata. |
| Datahub | Plataforma open source de metadata para lineage y discovery end-to-end. |
| OpenLineage | Estándar abierto para lineage entre orquestación, procesamiento y observabilidad. |
| SQLMesh | Lo observo como posible sucesor de dbt para gestión de entornos más robusta y mejor entendimiento semántico. |
Patrones de Gobernanza y Lakehouse
| Patrón | Contexto |
|---|---|
| Write-Audit-Publish (WAP) | Patrón para escribir datos en una rama aislada, ejecutar pruebas de validación (auditoría) y unirlos a producción (publicación) si están limpios. |
| Patrón | Contexto |
|---|---|
| Data Mesh descentralizado | Marco estratégico y de arquitectura para gestionar datos como productos propiedad de dominios específicos, independiente de su implementación en la nube. |