Cloud Data
Repositorio: landerox/cloud-landerox-data
cloud-landerox-data es el baseline público de arquitectura e ingeniería
para mi plataforma personal de datos sobre GCP.
Documenta patrones, contratos, estándares de calidad y blueprints de implementación, manteniendo cuando hace falta los pipelines runtime sensibles de producción en repositorios privados.
Estado actual
- Rol del repo público: documentación base, templates, estándares compartidos y tests.
- Existen carpetas runtime como placeholders (
functions/ydataflow/). - Utilidades compartidas de infraestructura implementadas en
shared/common. - La postura arquitectónica es híbrida: warehouse + lakehouse, batch + streaming, Kappa selectivo.
Qué cubre
- Decisiones de arquitectura (ADRs) y matriz de decisión.
- Patrones de plataforma de datos: contratos, DLQ/replay, idempotencia, quality gates, observabilidad y gobierno.
- Blueprints de referencia y templates para el primer alcance runtime, junto con checklists de implementación privada.
Foco tecnológico
- Toolchains modernos de Python (
uv,pydantic,pytest) - Cloud Functions, Pub/Sub y Dataflow
- BigQuery, BigLake y GCS
- Formatos abiertos: JSON/Avro/Parquet
- Interoperabilidad opcional con Databricks/Delta cuando aplica
Relación con Infra
Este proyecto complementa Cloud Infra, que provisiona el baseline Terraform y la base de seguridad.