Saltar a contenido

Cloud Data

Repositorio: landerox/cloud-landerox-data

cloud-landerox-data es el baseline público de arquitectura e ingeniería para mi plataforma personal de datos sobre GCP.

Documenta patrones, contratos, estándares de calidad y blueprints de implementación, manteniendo cuando hace falta los pipelines runtime sensibles de producción en repositorios privados.

Estado actual

  • Rol del repo público: documentación base, templates, estándares compartidos y tests.
  • Existen carpetas runtime como placeholders (functions/ y dataflow/).
  • Utilidades compartidas de infraestructura implementadas en shared/common.
  • La postura arquitectónica es híbrida: warehouse + lakehouse, batch + streaming, Kappa selectivo.

Qué cubre

  1. Decisiones de arquitectura (ADRs) y matriz de decisión.
  2. Patrones de plataforma de datos: contratos, DLQ/replay, idempotencia, quality gates, observabilidad y gobierno.
  3. Blueprints de referencia y templates para el primer alcance runtime, junto con checklists de implementación privada.

Foco tecnológico

  • Toolchains modernos de Python (uv, pydantic, pytest)
  • Cloud Functions, Pub/Sub y Dataflow
  • BigQuery, BigLake y GCS
  • Formatos abiertos: JSON/Avro/Parquet
  • Interoperabilidad opcional con Databricks/Delta cuando aplica

Relación con Infra

Este proyecto complementa Cloud Infra, que provisiona el baseline Terraform y la base de seguridad.

Ver en GitHub