Ingeniería de Datos Moderna
Evaluación de herramientas de transformación, orquestación y formatos de
almacenamiento de alto rendimiento para lakehouses de datos modernos.
| Herramienta |
Estado |
Valor |
| Apache Airflow |
ADOPT |
Estándar de la industria para orquestación DAG compleja y enterprise-grade. |
| dbt |
ADOPT |
Estándar para transformaciones SQL modulares, versionadas y testeadas. |
| Dagster |
TRIAL |
Orquestación basada en assets con foco en data assets definidos por software. |
| Airbyte |
ADOPT |
El estándar open source para pipelines EL (Extract-Load). |
| Kappa Architecture |
TRIAL |
Arquitectura stream-first que trata todos los datos como eventos y simplifica el stack al eliminar redundancia batch. |
Procesamiento y Dataframes
| Herramienta |
Estado |
Valor |
| Polars |
ADOPT |
DataFrames de alto rendimiento impulsados por Rust para procesamiento local eficiente. |
| Pandas |
ADOPT |
El estándar para manipulación y análisis de datos en Python. |
Motores de Cómputo y Bases Analíticas
| Motor |
Estado |
Motivo |
| Google BigQuery |
ADOPT |
Data warehouse enterprise totalmente gestionado y serverless. Mi motor principal para analítica a escala. |
| Databricks |
ASSESS |
Plataforma analítica unificada. La evalúo para workloads específicos intensivos en Spark y Delta Lake. |
| DuckDB |
ADOPT |
Base OLAP embebida para analítica local rápida y profiling de datos. |
| Apache Flink |
ASSESS |
Lo evalúo para stream processing complejo con estado y requisitos de latencia sub-segundo. |
| Apache Spark (Dataproc) |
ADOPT |
El motor clásico para batch masivo y migración de workloads Hadoop on-prem a GCP. |
| ClickHouse |
ASSESS |
Base columnar de alto rendimiento para consultas analíticas en tiempo real y dashboards orientados al usuario. |
| Neo4j |
TRIAL |
Base de grafos especializada para análisis de relaciones complejas y modelado de redes. |
Bases de Datos Operacionales y Cloud
| Base de datos |
Estado |
Motivo |
| PostgreSQL |
ADOPT |
La base relacional open source más avanzada. Mi opción por defecto para datos estructurados. |
| Snowflake |
ADOPT |
Data warehouse cloud-native con excelente separación entre cómputo y almacenamiento. |
| Redis |
ADOPT |
Data store en memoria de alto rendimiento. Esencial para caching y capacidades en tiempo real. |
| MongoDB |
TRIAL |
Base NoSQL orientada a documentos. La evalúo para casos concretos con esquemas flexibles. |
| SQLAlchemy |
ADOPT |
Toolkit SQL y ORM definitivo para Python. |
| Formato |
Estado |
Motivo |
| Apache Iceberg |
ADOPT |
El formato de tabla abierto dominante para lakehouses cloud-native. |
| Apache Parquet |
ADOPT |
El formato columnar universal para analítica de alto rendimiento. |
| Apache Avro |
ADOPT |
Formato orientado a filas. El gold standard para serialización de datos en streaming. |