El Científico de Datos especializado en modelos tipo Transformers de texto e imagen será responsable de diseñar, desarrollar, entrenar y optimizar modelos, orientados a resolver problemas de relación e identificación de similitudes entre distintas entidades de texto e imagen, dentro de grandes volúmenes de datos. El rol demanda una comprensión avanzada de técnicas de machine learning y deep learning aplicadas a problemas de emparejamiento y búsqueda semántica, así como la capacidad de traducir requisitos de negocio en soluciones robustas y escalables. Responsabilidades: Diseñar, desarrollar y entrenar modelos de búsqueda semántica para resolver problemas de emparejamiento entre texto e imágenes. Realizar diagnóstico, limpieza y enriquecimiento de datasets para el correcto entrenamiento de modelos. Uso de IA generativa para ayudar en la creación de dichos datasets. Definir las mejores métricas y validaciones para evaluar el rendimiento de los modelos según los objetivos del negocio. Colaborar con equipos de ingeniería de ML para la integración y despliegue de los modelos desarrollados en los procesos productivos. Documentar todo el proceso de desarrollo e investigación para asegurar la reproducibilidad y mantenibilidad de los modelos. Identificar e investigar nuevas técnicas, algoritmos y herramientas para mejorar la precisión y eficiencia de los modelos. Requisitos: Dominio en desarrollo y entrenamiento de modelos de Deep Learning (modelos Transformers de texto e imágenes, en un contexto supervisado y seimi-supervisado). Conocimiento de técnicas de GenAI y prompt engineering son deseables. Amplia experiencia en el manejo de frameworks de machine learning y deep learning como Scikit-learn, PyTorch, XGBoost, Sentence Transformers, Hugging Face, FAISS. Experiencia en el manejo de bases de datos vectoriales (Milvus, Qdrant, Pinecone). Conocimientos sólidos en procesamiento y limpieza de datos, uso de regex y data wrangling con Pandas y Polars. Conocimiento en técnicas avanzadas de feature engineering son deseables. Experiencia práctica en evaluación de modelos supervisados. Competencia en programación en Python y SQL (indispensable) Experiencia trabajando con grandes volúmenes de datos y optimización de pipelines de modelado. Inglés avanzado
Científico De Datos
STEFANINI LATAM
méxico, méxico
Publicado hace 7 días
Denunciar empleo