Nos encontramos en búsqueda de un/a Site Reliability Engineer (SRE) , quien será responsable de garantizar la disponibilidad, estabilidad, continuidad operativa y desempeño de las plataformas tecnológicas del cliente, administrando y evolucionando el ecosistema de observabilidad y monitoreo de ambientes críticos, con foco en la detección temprana de incidentes, automatización y mejora continua de la operación. Principales responsabilidades Revisión continua del estado de plataformas: métricas, capacidad, rendimiento y latencias. Detección temprana de riesgos operativos y recomendaciones preventivas. Monitoreo y revisión de observabilidad: métricas, logs y alertas definidas por el cliente. Análisis y gestión de alertas durante el horario del servicio, proponiendo acciones de mitigación. Revisión y validación de configuraciones de alta disponibilidad, replicación y failover. Automatización de tareas críticas y repetitivas mediante scripts y procesos. Participación en análisis de incidentes críticos y elaboración de RCA (Root Cause Analysis). Construcción de dashboards, alertamiento proactivo y correlación de eventos. Análisis de desempeño end-to-end de plataformas y servicios. Tecnologías y herramientas Grafana Zabbix OpenTelemetry Wazuh AWS Linux / Red Hat Herramientas de automatización y scripting Requisitos Experiencia comprobable en implementación y operación de stacks de observabilidad en ambientes productivos. Experiencia gestionando incidentes críticos P1/P2 y elaboración de RCA. Experiencia trabajando bajo esquemas on-call y atención fuera de horario hábil. Conocimientos sólidos en alta disponibilidad, monitoreo, performance y automatización. Buscamos una persona analítica, proactiva y orientada a la mejora continua, con capacidad para actuar rápidamente ante incidentes críticos y colaborar en entornos de alta disponibilidad y operación continua. Certificaciones deseables Deseable experiencia en entornos cloud AWS y administración Linux. AWS Certified SysOps Administrator – Associate AWS Certified DevOps Engineer – Professional ITIL Foundation Red Hat Certified System Administrator (RHCSA) o RHCE Grafana Certified Associate #J-18808-Ljbffr

Site Reliability Engineer (Sre)

BC TECNOLOGÍA

Empleos similares

Finance Specialist

BECKERS GROUP

Director Of Sales Operations (Call Center)

AVANTIVE SOLUTIONS

Enfermera Titulada

ALDORA SENIOR CENTER

Becario Administrativo

COVESTRO

Ingeniero Lean Sr

STARKEY HEARING

Jefe De Analítica Comercial

GRUPO DEACERO

Ingeniero De Calidad

EMPRESA CONFIDENCIAL

Recibe empleos similares por e-mail