Voltar ao início
DevOps/Infra

Engenheiro SRE

Garante que os sistemas em produção sejam confiáveis, escaláveis e eficientes. Como um DevOps com foco profundo em confiabilidade e medição.

Analogia

SRE é como o controlador de tráfego aéreo de uma companhia aérea — não pilota os aviões (não desenvolve apps), mas garante que todos os voos (serviços) partam no horário e cheguem com segurança.

O que essa pessoa constrói?

Constrói sistemas de observabilidade (logs, métricas, traces), automatiza respostas a incidentes, define SLAs com o time de produto e cria runbooks para resolver problemas comuns.

Níveis de Senioridade

Júnior

Configura monitoramento básico, responde a alertas e documenta incidentes.

  • Prometheus e Grafana
  • Cultura de postmortem
  • SLA/SLO básico
  • Kubernetes básico

Pleno

Define SLOs, cria automações de resposta a incidentes e otimiza confiabilidade.

  • Error budgets
  • Chaos Engineering
  • Observabilidade com OpenTelemetry
  • Testes de carga

Sênior

Define cultura de confiabilidade, lidera grandes projetos de estabilidade.

  • Design de confiabilidade de plataforma
  • Disaster Recovery
  • Capacity planning
  • Treinamento de times de on-call

Tecnologias utilizadas

Responsabilidades comuns

  • Definir e monitorar SLOs dos serviços
  • Gerenciar postmortems de incidentes
  • Criar automações para reduzir trabalho manual
  • Planejar capacidade e escalabilidade
  • Garantir observabilidade de todos os sistemas

Tópicos típicos de entrevista

  • O que são SLI, SLO e SLA
  • O que é error budget e como usar
  • Blameless postmortem — por que importa
  • Toil e como reduzir trabalho manual
  • Chaos Engineering na prática

Cargos relacionados