Objetivo del puesto: Ingeniero de operaciones de IA/ML en AWS enfocado en construir una plataforma de datos robusta y pipelines para análisis avanzados. Desarrollará herramientas de plataforma, implementará modelos de ciencia de datos en producción (batch y en tiempo real), ajustará hiperparámetros a escala y monitoreará el rendimiento. Apoyará proyectos de aprendizaje automático de principio a fin y desarrollará herramientas para el equipo de ciencia de datos. Será responsable de la velocidad de las implementaciones, validación del código y control de versiones de datos, modelos e infraestructura. Responsabilidades principales: Implementar y mantener infraestructura (ej. Sagemaker Notebooks) para facilitar el desarrollo de modelos y CI/CD, integrándose con el ecosistema de datos. Crear y mantener pipelines de entrada/salida y generación de features para entrenamiento e inferencia. Implementar y mantener infraestructura para servicios de modelos en batch y en tiempo real, asegurando alto rendimiento y baja latencia. Desarrollar y mantener herramientas de control, monitoreo y alertas para el rendimiento de los modelos. Gestionar infraestructura para tareas de procesamiento intensivo, como ajuste de hiperparámetros y explicabilidad. Colaborar con equipos de producto y arquitectura para definir soluciones escalables y de alto rendimiento. Aprovechar la experiencia técnica para diseñar soluciones escalables y capacitar a equipos. Garantizar cumplimiento de estándares, SLA y objetivos comerciales, anticipándose a dependencias y necesidades del equipo. Identificar y mitigar problemas en tareas y escalabilidad. Fomentar altos estándares de excelencia operativa y el desarrollo de métodos tecnológicos en el equipo. Requisitos y conocimientos: +6 años en diseño y mantenimiento de ML pipelines con herramientas como AWS Step Functions, Apache Airflow o Kuberflow. +5 años en plataformas en la nube (AWS, GCP, Azure), con experiencia en servicios de aprendizaje de máquina, almacenamiento y procesamiento (ej. AWS Sagemaker, Google AI Platform, Azure ML). +3 años en tecnologías de contenerización y orquestación (Docker, Kubernetes), enfocándose en escalabilidad de cargas de trabajo de ML. +3 años en implementación y mantenimiento de modelos en producción usando TensorFlow Serving, TorchServe o APIs. +3 años en CI/CD para modelos de ML con Jenkins, GitLab CI/CD o CircleCI. +3 años en versionamiento de datos y herramientas como DVC o MLflow para trazabilidad y reproducibilidad. #J-18808-Ljbffr
Sr Lead Machine Learning Ops
OPENBANK MÉXICO
Ciudad De México, Ciudad De México
Publicado hace 4 días
Denunciar empleo