No solo buscamos talento, buscamos mentes curiosas que disfruten aprender y transformar el futuro. Somos tech, somos exigentes y sí, vamos rápido. Pero nadie compite solo. Trabajamos en equipo y si buscas retos que te saquen de la zona cómoda (porque ahí no crece nadie), estás en el lugar correcto. Aquí aprenderás con expertos, participarás en proyectos de alto impacto y estarás siempre un paso adelante en tecnología. Objetivo Responsable del diseño, desarrollo y optimización de pipelines de datos distribuidos y arquitecturas de Big Data dentro del Data Lake del banco. su objetivo principal será habilitar el procesamiento de datos a gran escala —tanto en lotes (Batch) como en tiempo real (Streaming)— garantizando la disponibilidad de la información para los equipos de Ciencia de Datos, Analítica Avanzada y modelos de prevención de fraudes o riesgo crediticio. Responsabilidades Clave Desarrollo de Pipelines Distribuidos: Diseñar e implementar procesos de transformación de datos eficientes utilizando Apache Spark (Core, SQL, DataFrames) empleando Scala, Python (PySpark) o Java. Procesamiento en Tiempo Real: Desarrollar, mantener y monitorear arquitecturas de streaming basadas en eventos utilizando Apache Kafka para la ingesta y consumo inmediato de datos transaccionales o notificaciones de la app bancaria. Orquestación de Flujos: Construir, calendarizar y monitorear flujos de trabajo (DAGs) complejos mediante Apache Airflow , asegurando que las dependencias entre procesos de datos se ejecuten sin errores. Estructuración en el Data Lake: Diseñar y consultar estructuras de datos optimizadas en el Data Lake utilizando Apache Hive, Apache Impala o formatos modernos como Apache Iceberg , definiendo estrategias correctas de particionamiento para reducir costos y tiempos de consulta. Optimización de Rendimiento (Tuning): Monitorear la ejecución de jobs en entornos distribuidos, ajustar la asignación de memoria/recursos en Apache Hadoop YARN (o Kubernetes) y reescribir código para eliminar cuellos de botella (como la fragmentación de archivos pequeños). Calidad y Seguridad: Aplicar reglas de calidad de datos y políticas de enmascaramiento/seguridad perimetral (ej. con Apache Ranger/Atlas) para proteger la información confidencial de los clientes del banco. Requisitos y Perfil Técnico Educación: Licenciatura o Ingeniería en Sistemas, Ciencias de la Computación, Informática o carrera afín. Experiencia: Mínimo 3 años de experiencia comprobable desarrollando soluciones sobre el ecosistema Hadoop/Big Data de Apache en sectores de alta transaccionalidad (Banca, Telecomunicaciones o E-commerce). Hard Skills Esenciales: Experiencia fuerte con Apache Spark (idealmente con PySpark o Scala). Manejo sólido de Apache Kafka (conceptos de tópicos, particiones, productores y consumidores). Experiencia en la creación de pipelines y orquestación con Apache Airflow . Dominio de SQL avanzado enfocado a motores distribuidos (Hive / Impala / Spark SQL). Experiencia intermedia en sistemas operativos Linux/Unix y desarrollo de scripts en Python o Shell. Hard Skills Deseables (Plus): Experiencia integrando tecnologías Apache con nubes públicas (AWS EMR, Azure HDInsight / Databricks o GCP Dataproc) Conocimiento en arquitectura data analytics, datalake, lakehouse. ¿Qué tenemos para ti? Apoyamos tu crecimiento personal y profesional con planes de desarrollo individual, donde tu eres dueñ@ de tu carrera y hasta dónde quieres llegar. Días de descanso superiores a los de la ley: No es necesario esperar un año para disfrutar de tus días de vacaiones, además de días adicionales por tipos de eventos especiales y festividades. Beneficios económicos adicionales a tu salario: Vales de despensa, fondo de ahorro, bolsa de capacitación, bono de bienestar, convenios y descuentos. Apoyo emocional, queremos tu estabilidad en salud fisica y mental, por ello tenemos diversos beneficios que cubren aspectos de equilibrio personal para ti y salud para tu familia. ¡Queremos cuidar de ti y los tuyos! Aquí hay espacio para gente buena… como tú, ¡Queremos conocerte! #J-18808-Ljbffr
Apache Data Engineer
BLUETAB, AN IBM COMPANY
distrito federal, distrito federal
Publicado hace 7 días
Denunciar empleo