Saltar a contenido

Ingeniería de Datos Moderna

Evaluación de herramientas de transformación, orquestación y formatos de almacenamiento de alto rendimiento para lakehouses de datos modernos.

Orquestación, Transformación y Patrones

Herramienta Estado Valor
Apache Airflow ADOPT Estándar de la industria para orquestación DAG compleja y enterprise-grade.
dbt ADOPT Estándar para transformaciones SQL modulares, versionadas y testeadas.
Dagster TRIAL Orquestación basada en assets con foco en data assets definidos por software.
Airbyte ADOPT El estándar open source para pipelines EL (Extract-Load).
Kappa Architecture TRIAL Arquitectura stream-first que trata todos los datos como eventos y simplifica el stack al eliminar redundancia batch.

Procesamiento y Dataframes

Herramienta Estado Valor
Polars ADOPT DataFrames de alto rendimiento impulsados por Rust para procesamiento local eficiente.
Pandas ADOPT El estándar para manipulación y análisis de datos en Python.

Motores de Cómputo y Bases Analíticas

Motor Estado Motivo
Google BigQuery ADOPT Data warehouse enterprise totalmente gestionado y serverless. Mi motor principal para analítica a escala.
Databricks ASSESS Plataforma analítica unificada. La evalúo para workloads específicos intensivos en Spark y Delta Lake.
DuckDB ADOPT Base OLAP embebida para analítica local rápida y profiling de datos.
Apache Flink ASSESS Lo evalúo para stream processing complejo con estado y requisitos de latencia sub-segundo.
Apache Spark (Dataproc) ADOPT El motor clásico para batch masivo y migración de workloads Hadoop on-prem a GCP.
ClickHouse ASSESS Base columnar de alto rendimiento para consultas analíticas en tiempo real y dashboards orientados al usuario.
Neo4j TRIAL Base de grafos especializada para análisis de relaciones complejas y modelado de redes.

Bases de Datos Operacionales y Cloud

Base de datos Estado Motivo
PostgreSQL ADOPT La base relacional open source más avanzada. Mi opción por defecto para datos estructurados.
Snowflake ADOPT Data warehouse cloud-native con excelente separación entre cómputo y almacenamiento.
Redis ADOPT Data store en memoria de alto rendimiento. Esencial para caching y capacidades en tiempo real.
MongoDB TRIAL Base NoSQL orientada a documentos. La evalúo para casos concretos con esquemas flexibles.
SQLAlchemy ADOPT Toolkit SQL y ORM definitivo para Python.

Formatos de Datos y Tablas

Formato Estado Motivo
Apache Iceberg ADOPT El formato de tabla abierto dominante para lakehouses cloud-native.
Apache Parquet ADOPT El formato columnar universal para analítica de alto rendimiento.
Apache Avro ADOPT Formato orientado a filas. El gold standard para serialización de datos en streaming.