No solo buscamos talento, buscamos mentes curiosas que disfruten aprender y transformar el futuro. Somos tech, somos exigentes y sí, vamos rápido. Pero nadie compite solo. Trabajamos en equipo y si buscas retos que te saquen de la zona cómoda (porque ahí no crece nadie), estás en el lugar correcto. Aquí aprenderás con expertos, participarás en proyectos de alto impacto y estarás siempre un paso adelante en tecnología. Objetivo Responsable del diseño, desarrollo y optimización de pipelines de datos distribuidos y arquitecturas de Big Data dentro del Data Lake del banco. su objetivo principal será habilitar el procesamiento de datos a gran escala —tanto en lotes (Batch) como en tiempo real (Streaming)— garantizando la disponibilidad de la información para los equipos de Ciencia de Datos, Analítica Avanzada y modelos de prevención de fraudes o riesgo crediticio. Responsabilidades Clave Desarrollo de Pipelines Distribuidos: Diseñar e implementar procesos de transformación de datos eficientes utilizando Apache Spark (Core, SQL, DataFrames) empleando Scala, Python (PySpark) o Java. Procesamiento en Tiempo Real: Desarrollar, mantener y monitorear arquitecturas de streaming basadas en eventos utilizando Apache Kafka para la ingesta y consumo inmediato de datos transaccionales o notificaciones de la app bancaria. Orquestación de Flujos: Construir, calendarizar y monitorear flujos de trabajo (DAGs) complejos mediante Apache Airflow , asegurando que las dependencias entre procesos de datos se ejecuten sin errores. Estructuración en el Data Lake: Diseñar y consultar estructuras de datos optimizadas en el Data Lake utilizando Apache Hive, Apache Impala o formatos modernos como Apache Iceberg , definiendo estrategias correctas de particionamiento para reducir costos y tiempos de consulta. Optimización de Rendimiento (Tuning): Monitorear la ejecución de jobs en entornos distribuidos, ajustar la asignación de memoria/recursos en Apache Hadoop YARN (o Kubernetes) y reescribir código para eliminar cuellos de botella (como la fragmentación de archivos pequeños). Calidad y Seguridad: Aplicar reglas de calidad de datos y políticas de enmascaramiento/seguridad perimetral (ej. con Apache Ranger/Atlas) para proteger la información confidencial de los clientes del banco. Requisitos y Perfil Técnico Educación: Licenciatura o Ingeniería en Sistemas, Ciencias de la Computación, Informática o carrera afín. Experiencia: Mínimo 3 años de experiencia comprobable desarrollando soluciones sobre el ecosistema Hadoop/Big Data de Apache en sectores de alta transaccionalidad (Banca, Telecomunicaciones o E-commerce). Hard Skills Esenciales: Experiencia fuerte con Apache Spark (idealmente con PySpark o Scala). Manejo sólido de Apache Kafka (conceptos de tópicos, particiones, productores y consumidores). Experiencia en la creación de pipelines y orquestación con Apache Airflow . Dominio de SQL avanzado enfocado a motores distribuidos (Hive / Impala / Spark SQL). Experiencia intermedia en sistemas operativos Linux/Unix y desarrollo de scripts en Python o Shell. Hard Skills Deseables (Plus): Experiencia integrando tecnologías Apache con nubes públicas (AWS EMR, Azure HDInsight / Databricks o GCP Dataproc) Conocimiento en arquitectura data analytics, datalake, lakehouse. ¿Qué tenemos para ti? Apoyamos tu crecimiento personal y profesional con planes de desarrollo individual, donde tu eres dueñ@ de tu carrera y hasta dónde quieres llegar. Días de descanso superiores a los de la ley: No es necesario esperar un año para disfrutar de tus días de vacaiones, además de días adicionales por tipos de eventos especiales y festividades. Beneficios económicos adicionales a tu salario: Vales de despensa, fondo de ahorro, bolsa de capacitación, bono de bienestar, convenios y descuentos. Apoyo emocional, queremos tu estabilidad en salud fisica y mental, por ello tenemos diversos beneficios que cubren aspectos de equilibrio personal para ti y salud para tu familia. ¡Queremos cuidar de ti y los tuyos! Aquí hay espacio para gente buena… como tú, ¡Queremos conocerte! #J-18808-Ljbffr

Apache Data Engineer

BLUETAB, AN IBM COMPANY

Empleos similares

Finance Specialist

BECKERS GROUP

Director Of Sales Operations (Call Center)

AVANTIVE SOLUTIONS

Enfermera Titulada

ALDORA SENIOR CENTER

Becario Administrativo

COVESTRO

Ingeniero Lean Sr

STARKEY HEARING

Jefe De Analítica Comercial

GRUPO DEACERO

Ingeniero De Calidad

EMPRESA CONFIDENCIAL

Recibe empleos similares por e-mail