Pular para o conteúdo principal

Site Reliability Engineer (SRE) Sênior - Observabilidade

Descrição da vaga

Se você tem paixão por inovação e busca trabalhar em um ambiente ágil, colaborativo e desafiador, esta pode ser a sua oportunidade!


O time de Cloud do Asaas está buscando uma pessoa especializada em Observabilidade para garantir visibilidade completa e proativa da nossa plataforma. Você será fundamental na construção e evolução da nossa estratégia de observabilidade, trabalhando com os três pilares: métricas, logs e traces.


Como SRE Sênior com foco em Observabilidade, você será responsável por implementar e evoluir nossas soluções de monitoramento, garantindo que nossos times tenham as informações necessárias para tomar decisões rápidas e assertivas. Sua expertise em ferramentas como Prometheus, Grafana, OpenTelemetry e práticas de SRE será essencial para garantir a confiabilidade e performance da nossa plataforma.


Qualidade e observabilidade são fundamentais para atender mais de 230 mil clientes! Se você compartilha dessa visão, junte-se ao nosso time!


Reside fora de Joinville? Sem problemas! Esta oportunidade está aberta para trabalho remoto/home office.

Responsabilidades e atribuições

  • Projetar, implementar e evoluir a plataforma de observabilidade da empresa, cobrindo os três pilares: métricas, logs e traces;
  • Implementar e manter stacks de observabilidade;
  • Definir e implementar padrões de instrumentação para aplicações e infraestrutura;
  • Criar dashboards estratégicos e operacionais que forneçam insights acionáveis para os times;
  • Definir, monitorar e gerenciar Indicadores de Nível de Serviço (SLIs) e Objetivos de Nível de Serviço (SLOs), gerenciando os orçamentos de erros (Error Budgets);
  • Implementar sistemas de alertas inteligentes, reduzindo ruído e focando em alertas acionáveis;
  • Colaborar com times de desenvolvimento para melhorar a observabilidade das aplicações, promovendo práticas de instrumentação;
  • Liderar a resposta a incidentes do ponto de vista de observabilidade, garantindo rápida identificação de root cause;
  • Realizar análises post-mortem detalhadas e propor melhorias baseadas em dados de observabilidade;
  • Promover e disseminar a cultura de observabilidade e melhores práticas de SRE na organização;
  • Planejar e executar estratégias de gerenciamento de capacidade baseadas em métricas;
  • Otimizar custos e performance das soluções de observabilidade em escala;
  • Automatizar processos de coleta, processamento e visualização de dados de observabilidade;
  • Documentar arquiteturas, runbooks e procedimentos relacionados a observabilidade.

Requisitos e qualificações

  • Experiência sólida em implementação e gestão de plataformas de observabilidade em escala;
  • Conhecimento profundo em Prometheus, incluindo PromQL, service discovery, federation e remote write;
  • Experiência avançada com Grafana para criação de dashboards, alertas e gerenciamento de data sources;
  • Conhecimento em distributed tracing (Jaeger, Tempo, X-Ray) e correlação entre métricas, logs e traces;
  • Experiência com OpenTelemetry para instrumentação de aplicações;
  • Conhecimento em soluções de logging em escala (Loki, ELK Stack, CloudWatch Logs);
  • Experiência com Cloud Computing, especialmente AWS;
  • Experiência com containers (Docker) e orquestração (Kubernetes, ECS);
  • Experiência prática com Infraestrutura como Código (IaC) (AWS CDK, Terraform);
  • Conhecimento em práticas de SRE, incluindo SLIs, SLOs, Error Budgets e Toil Reduction;
  • Proficiência em linguagens de scripting (Python, Bash) e pelo menos uma linguagem de programação (Go, Java);
  • Entendimento de sistemas Linux e suas ferramentas de diagnóstico;
  • Experiência em gerenciamento de incidentes e processos de post-mortem.

Diferenciais

  • Certificações AWS (DevOps Engineer, Solutions Architect);
  • Experiência com Grafana Mimir para métricas em escala;
  • Conhecimento em Thanos para alta disponibilidade de Prometheus;
  • Experiência com APM tools (Datadog, New Relic, Dynatrace);
  • Conhecimento em eBPF para observabilidade de baixo nível;
  • Experiência em fintechs ou ambientes regulados;
  • Conhecimento em Machine Learning aplicado a AIOps e detecção de anomalias;
  • Experiência com Chaos Engineering e testes de resiliência;
  • Conhecimento aprofundado em redes e protocolos (TCP/IP, DNS, HTTP/S);
  • Proficiência com Git, GitHub e GitFlow;
  • Vivência prática com metodologias ágeis (Scrum, Kanban);
  • Experiência com bancos de dados relacionais (PostgreSQL, MySQL) e NoSQL (MongoDB, DynamoDB, Redis).

Informações adicionais

  • Carga horária flexível de 8h por dia (segunda a sexta - não compensamos os sábados);
  • Contratação CLT.

Etapas do processo

  1. Etapa 1: Cadastro
  2. Etapa 2: Aguarde as próximas etapas!
  3. Etapa 3: Entrevista Comportamental
  4. Etapa 4: Análise Reputacional e de Conflitos
  5. Etapa 5: Entrevista Técnica + Case
  6. Etapa 6: Carta Proposta
  7. Etapa 7: Contratação

NÓS QUEREMOS MUDAR O MUNDO E COMEÇAMOS POR AQUI! VOCÊ VEM COM A GENTE?

Somos uma Fintech, Instituição de Pagamento credenciada pelo Banco Central do Brasil e temos como propósito maximizar a produtividade das empresas através da tecnologia. Oferecemos uma solução completa para gestão de cobranças, pagamentos, antecipações de recebíveis e atendemos mais de 200 mil clientes divididos entre profissionais autônomos, microempreendedores individuais (MEI) e grandes empresas.


Nosso sonho começou em 2010, em Joinville/SC e acreditamos que o céu não é o limite para o nosso crescimento. Não é à toa que atualmente nosso time está em vários cantos do Brasil! Mais de 1.000 pessoas sonham junto com o Asaas, de forma colaborativa, inovadora, eficiente, com autonomia e liberdade para voar alto.


Voos altos exigem recursos para viver e trabalhar melhor, além de liberdade para administrá-los. Por isso, acolhemos e cuidamos do nosso time oferecendo benefícios que apoiam seu crescimento pessoal e profissional:


Para saúde e bem-estar: temos assistência médica e odontológica sem coparticipação, seguro de vida, auxílio para compra de medicamentos e para realizar atividades físicas. Além disso, a Neon é nossa parceira para cuidar da saúde financeira do time e a Zenklub para a saúde física e mental (oferecemos 4 sessões mensais de terapia ou nutricionista gratuitas). Na sede, também temos quick massage. 


Para alimentação e família: nosso benefício alimentação é flexível, por meio de um cartão de crédito, bandeira Visa. O saldo pode ser usado como cada um desejar. Na sede, temos free food e, para as famílias, oferecemos auxílio creche, programa de apoio parental e licença maternidade e paternidade estendida.


Para educação e crescimento: além de um ambiente de desafios e muito desenvolvimento, temos uma plataforma de treinamentos in company e disponibilizamos auxílio educação que subsidia 70% de mensalidades de graduações e idiomas, bem como a compra de cursos e livros, para que nosso time nunca pare de aprender. 


Para o trabalho remoto de qualidade: oferecemos auxílio Home Office, equipamentos de trabalho, auxílio mobília e temos parceria com a WOBA, para os nossos colaboradores usarem coworkings em todo o Brasil quando desejarem. Conheça nossa sede, em Joinville/SC, nesse tour virtual!


Extras, porque o Dream Team merece: temos Day Off no mês do aniversário, auxílio Happy Hour, bonificação por indicação de novos colaboradores, bonificação baseada em metas anuais, plano de Stock Options e um ambiente leve, no dress code!