Ingeniería de Datos Moderna
Evaluación de herramientas de transformación, orquestación y formatos de almacenamiento de alto rendimiento para lakehouses de datos modernos.
Orquestación, Transformación y Patrones
| Herramienta | Valor |
|---|---|
| Airbyte | El estándar open source para pipelines EL (Extract-Load). |
| Apache Airflow | Estándar de la industria para orquestación DAG compleja y enterprise-grade. |
| dbt | Estándar para transformaciones SQL modulares, versionadas y testeadas. |
| Herramienta | Valor |
|---|---|
| Dagster | Orquestación basada en assets con foco en data assets definidos por software. |
| dlt (data load tool) | Librería de Python ligera que simplifica la carga de datos desde APIs, bases de datos o archivos hacia data warehouses/lakes. |
| Kappa Architecture | Arquitectura stream-first que trata todos los datos como eventos y simplifica el stack al eliminar redundancia batch. |
Motores de Cómputo
| Motor | Motivo |
|---|---|
| Apache Spark (Dataproc) | El motor clásico para batch masivo y migración de workloads Hadoop on-prem a GCP. |
| DuckDB | Base OLAP embebida para analítica local rápida y profiling de datos. |
| Google BigQuery | Data warehouse enterprise totalmente gestionado y serverless. Mi motor principal para analítica a escala. |
| Motor | Motivo |
|---|---|
| ClickHouse | Base columnar de alto rendimiento para consultas analíticas en tiempo real y dashboards orientados al usuario. |
| Neo4j | Base de grafos especializada para análisis de relaciones complejas y modelado de redes. |
| Motor | Motivo |
|---|---|
| Apache Flink | Lo evalúo para stream processing complejo con estado y requisitos de latencia sub-segundo. |
| Databricks | Plataforma analítica unificada. La evalúo para workloads específicos intensivos en Spark y Delta Lake. |
Bases de Datos y Motores de Almacenamiento
| Base de datos | Motivo |
|---|---|
| PostgreSQL | La base relacional open source más avanzada. Mi opción por defecto para datos estructurados. |
| Redis | Data store en memoria de alto rendimiento. Esencial para caching y capacidades en tiempo real. |
| Snowflake | Data warehouse cloud-native con excelente separación entre cómputo y almacenamiento. |
| Base de datos | Motivo |
|---|---|
| MongoDB | Base NoSQL orientada a documentos. La evalúo para casos concretos con esquemas flexibles. |
Mensajería y Streaming
| Herramienta | Contexto |
|---|---|
| Apache Kafka | Plataforma distribuida de event streaming para pipelines de datos en tiempo real. |
| Google Cloud Pub/Sub | Servicio de mensajería en tiempo real totalmente gestionado que permite enviar y recibir mensajes entre aplicaciones independientes. |
| RabbitMQ | Message broker confiable y versátil para enrutamiento complejo y tareas asíncronas. |
| Herramienta | Contexto |
|---|---|
| Redpanda | Plataforma de event streaming moderna y compatible con Kafka, escrita en C++ y sin dependencia de JVM. |
Formatos de Datos y Tablas
| Formato | Motivo |
|---|---|
| Apache Avro | Formato orientado a filas. El gold standard para serialización de datos en streaming. |
| Apache Iceberg | El formato de tabla abierto dominante para lakehouses cloud-native. |
| Apache Parquet | El formato columnar universal para analítica de alto rendimiento. |
Patrones de Diseño en Ingeniería de Datos
| Patrón | Contexto |
|---|---|
| Patrones de Idempotencia y Backfill | Principios de diseño que garantizan que volver a ejecutar un pipeline sobre datos históricos produzca resultados idénticos sin generar duplicados ni efectos secundarios. |
| Arquitectura de Medallón | Patrón de diseño de datos que organiza los datos de forma lógica en capas Bronce (crudo), Plata (limpio/homologado) y Oro (nivel de negocio/agregado). |
| Patrón | Contexto |
|---|---|
| Patrones de Evolución de Esquemas | Gestión de cambios en los esquemas de datos a lo largo del tiempo garantizando la compatibilidad hacia atrás y hacia adelante mediante registros de esquemas. |