Saltar a contenido

Ingeniería de Datos Moderna

Evaluación de herramientas de transformación, orquestación y formatos de almacenamiento de alto rendimiento para lakehouses de datos modernos.

Orquestación, Transformación y Patrones

Herramienta Valor
Airbyte El estándar open source para pipelines EL (Extract-Load).
Apache Airflow Estándar de la industria para orquestación DAG compleja y enterprise-grade.
dbt Estándar para transformaciones SQL modulares, versionadas y testeadas.
Herramienta Valor
Dagster Orquestación basada en assets con foco en data assets definidos por software.
dlt (data load tool) Librería de Python ligera que simplifica la carga de datos desde APIs, bases de datos o archivos hacia data warehouses/lakes.
Kappa Architecture Arquitectura stream-first que trata todos los datos como eventos y simplifica el stack al eliminar redundancia batch.

Motores de Cómputo

Motor Motivo
Apache Spark (Dataproc) El motor clásico para batch masivo y migración de workloads Hadoop on-prem a GCP.
DuckDB Base OLAP embebida para analítica local rápida y profiling de datos.
Google BigQuery Data warehouse enterprise totalmente gestionado y serverless. Mi motor principal para analítica a escala.
Motor Motivo
ClickHouse Base columnar de alto rendimiento para consultas analíticas en tiempo real y dashboards orientados al usuario.
Neo4j Base de grafos especializada para análisis de relaciones complejas y modelado de redes.
Motor Motivo
Apache Flink Lo evalúo para stream processing complejo con estado y requisitos de latencia sub-segundo.
Databricks Plataforma analítica unificada. La evalúo para workloads específicos intensivos en Spark y Delta Lake.

Bases de Datos y Motores de Almacenamiento

Base de datos Motivo
PostgreSQL La base relacional open source más avanzada. Mi opción por defecto para datos estructurados.
Redis Data store en memoria de alto rendimiento. Esencial para caching y capacidades en tiempo real.
Snowflake Data warehouse cloud-native con excelente separación entre cómputo y almacenamiento.
Base de datos Motivo
MongoDB Base NoSQL orientada a documentos. La evalúo para casos concretos con esquemas flexibles.

Mensajería y Streaming

Herramienta Contexto
Apache Kafka Plataforma distribuida de event streaming para pipelines de datos en tiempo real.
Google Cloud Pub/Sub Servicio de mensajería en tiempo real totalmente gestionado que permite enviar y recibir mensajes entre aplicaciones independientes.
RabbitMQ Message broker confiable y versátil para enrutamiento complejo y tareas asíncronas.
Herramienta Contexto
Redpanda Plataforma de event streaming moderna y compatible con Kafka, escrita en C++ y sin dependencia de JVM.

Formatos de Datos y Tablas

Formato Motivo
Apache Avro Formato orientado a filas. El gold standard para serialización de datos en streaming.
Apache Iceberg El formato de tabla abierto dominante para lakehouses cloud-native.
Apache Parquet El formato columnar universal para analítica de alto rendimiento.

Patrones de Diseño en Ingeniería de Datos

Patrón Contexto
Patrones de Idempotencia y Backfill Principios de diseño que garantizan que volver a ejecutar un pipeline sobre datos históricos produzca resultados idénticos sin generar duplicados ni efectos secundarios.
Arquitectura de Medallón Patrón de diseño de datos que organiza los datos de forma lógica en capas Bronce (crudo), Plata (limpio/homologado) y Oro (nivel de negocio/agregado).
Patrón Contexto
Patrones de Evolución de Esquemas Gestión de cambios en los esquemas de datos a lo largo del tiempo garantizando la compatibilidad hacia atrás y hacia adelante mediante registros de esquemas.