- Coordinar y operar los entornos de datos (dev/qa/prod), asegurando estabilidad, monitoreo y correcto funcionamiento de los pipelines.
- Extraer, transformar y cargar datos seg煤n las necesidades del negocio, aplicando arquitectura por capas (Bronze/Silver/Gold).
- Construir integraciones eficientes entre sistemas, APIs y fuentes internas/externas, garantizando integridad y disponibilidad.
- Implementar flujos CI/CD para despliegue seguro de pipelines y validaci贸n automatizada de datos y c贸digo.
- Mentorizar a ingenieros junior en buenas pr谩cticas, est谩ndares de calidad y dise帽o escalable.
- Proponer e implementar mejoras tecnol贸gicas que optimicen performance, costos y gobernanza de datos.
Somos una corporaci贸n multinacional de bebidas y alimentos fundada en 1885 con operaciones en m谩s 14 pa铆ses, con m谩s de 15,000 colaboradores. Tenemos el portafolio de bebidas m谩s grande de la regi贸n, y contamos con socios estrat茅gicos como PepsiCo y AB InBev. El 煤ltimo a帽o hemos tenido una expansi贸n a nivel global que nos ha llevado a dividirnos en 4 unidades de negocio: apex (transformaci贸n), cbc (distribuci贸n), beliv (innovaci贸n en bebidas) y bia (alimentos); y como parte de nuestra estrategia din谩mica de expansi贸n y crecimiento requerimos talentos para unirse a nuestra corporaci贸n.
1. Dise帽ar e implementar soluciones de ingenier铆a de datos escalables, eficientes y mantenibles utilizando tecnolog铆as de Google Cloud, tales como:
- Cloud Dataflow / Apache Beam (procesamiento distribuido ETL/ELT)
- BigQuery (almacenamiento, warehouse y motor anal铆tico)
- Cloud Storage (Data Lake)
- Dataproc (Spark administrado, cuando aplique)
- BigQuery / Data Catalog (gobernanza y catalogaci贸n)
2. Aplicar modelos de arquitectura por capas (Bronze / Silver / Gold) en un Lakehouse basado en Google Cloud
- Implementaci贸n de un Data Lake en Cloud Storage.
- Transformaciones intermedias y normalizaci贸n en Dataflow / Dataproc para capa silver.
- Exposici贸n de capas refinadas en BigQuery para capa gold orientada a anal铆tica, BI y ML.
- Definici贸n de est谩ndares de naming, particionamiento, clustering y particionado por tiempo.
3. Automatizar ETL/ELT con enfoques modernos de data engineering
- Orquestaci贸n modular y escalable con Cloud Composer (Airflow).
- Pipelines idempotentes, reproducibles y versionados.
- Implementaci贸n de validaciones de calidad de datos (DQ) usando:
- BigQuery Assertions
- Great Expectations (si aplica)
- Cloud Composer operators
- Manejo de Slowly Changing Dimensions (SCD1/SCD2) mediante SQL en BigQuery o Dataflow.
- Integraci贸n CI/CD para despliegue de DAGs, jobs y transformaciones.
4. Garantizar datos confiables, gobernados y optimizados en costos y performance
- Optimizaci贸n de costos en BigQuery mediante clustering, particionado y control de consultas.
- Optimizaci贸n de Dataflow (autoscaling, tuning, fusi贸n de etapas, ventanas y triggers).
- Seguridad y gobernanza con Dataplex, IAM y Data Catalog.
- Documentaci贸n robusta del linaje, arquitectura y flujos de datos.
- Aplicaci贸n de est谩ndares de ingenier铆a:
- PEP8 para Python
- Buenas pr谩cticas de SQL
- Gesti贸n de c贸digo con Git / GitFlow
- Testing y validaci贸n automatizada
- Integrar diversas fuentes de datos y asegurar su consistencia.
- Dise帽ar y mantener un Lakehouse escalable (Bronze/Silver/Gold).
- Optimizar performance y costos en BigQuery y procesos de ingesta.
- Orquestar y monitorear flujos complejos de datos de extremo a extremo.
- Garantizar calidad, linaje y gobernanza en todos los datasets.
- Habilitar datos confiables para anal铆tica, BI y productos digitales.
- Escalar y evolucionar la arquitectura conforme crezcan los casos de uso.