Nos encontramos en búsqueda de un/a Site Reliability Engineer (SRE) , quien será responsable de garantizar la disponibilidad, estabilidad, continuidad operativa y desempeño de las plataformas tecnológicas del cliente, administrando y evolucionando el ecosistema de observabilidad y monitoreo de ambientes críticos, con foco en la detección temprana de incidentes, automatización y mejora continua de la operación. Principales responsabilidades Revisión continua del estado de plataformas: métricas, capacidad, rendimiento y latencias. Detección temprana de riesgos operativos y recomendaciones preventivas. Monitoreo y revisión de observabilidad: métricas, logs y alertas definidas por el cliente. Análisis y gestión de alertas durante el horario del servicio, proponiendo acciones de mitigación. Revisión y validación de configuraciones de alta disponibilidad, replicación y failover. Automatización de tareas críticas y repetitivas mediante scripts y procesos. Participación en análisis de incidentes críticos y elaboración de RCA (Root Cause Analysis). Construcción de dashboards, alertamiento proactivo y correlación de eventos. Análisis de desempeño end-to-end de plataformas y servicios. Tecnologías y herramientas Grafana Zabbix OpenTelemetry Wazuh AWS Linux / Red Hat Herramientas de automatización y scripting Requisitos Experiencia comprobable en implementación y operación de stacks de observabilidad en ambientes productivos. Experiencia gestionando incidentes críticos P1/P2 y elaboración de RCA. Experiencia trabajando bajo esquemas on-call y atención fuera de horario hábil. Conocimientos sólidos en alta disponibilidad, monitoreo, performance y automatización. Buscamos una persona analítica, proactiva y orientada a la mejora continua, con capacidad para actuar rápidamente ante incidentes críticos y colaborar en entornos de alta disponibilidad y operación continua. Certificaciones deseables Deseable experiencia en entornos cloud AWS y administración Linux. AWS Certified SysOps Administrator – Associate AWS Certified DevOps Engineer – Professional ITIL Foundation Red Hat Certified System Administrator (RHCSA) o RHCE Grafana Certified Associate #J-18808-Ljbffr
Site Reliability Engineer (Sre)
BC TECNOLOGÍA
distrito federal, distrito federal
Publicado hace 7 días
Denunciar empleo