Lead Site Reliability Engineering (SRE)

September 5, 2025

Apply for this job

Job Description

Description

Description du poste

En tant que Lead Site Reliability Engineering (SRE) , vous jouerez un rôle stratégique dans la conception, l’optimisation et la fiabilité des environnements technologiques de l’organisation. Vous serez responsable de bâtir et de maintenir des pipelines CI/CD partagés, d’implanter des pratiques exemplaires en matière de résilience et de stabilité, ainsi que d’intégrer l’intelligence artificielle générative dans le cycle de développement. Vous guiderez les équipes techniques vers des solutions performantes, automatisées et hautement disponibles.

Responsabilités principales

Architecture, résilience et performance

  • Concevoir, déployer et maintenir des pipelines CI/CD communs à plusieurs équipes.

  • Promouvoir les meilleures pratiques de résilience et de stabilité auprès des équipes applicatives et d’infrastructure.

  • Identifier et corriger les points de défaillance uniques (single points of failure ) dans les systèmes critiques.

  • Réaliser des analyses complètes de la stabilité et recommander des améliorations de performance et de résilience.

  • Participer à la refonte de l’architecture transversale dans le domaine des systèmes transactionnels complexes.

Innovation et intégration IA

  • Introduire et intégrer le développement piloté par l’IA générative dans le cycle de développement logiciel.

  • Améliorer la documentation technique et les diagrammes d’architecture pour y inclure les aspects de résilience et de stabilité.

  • Accroître l’automatisation des processus TI afin de réduire les erreurs humaines.

Surveillance et gestion des incidents

  • Déployer et promouvoir les meilleures pratiques de surveillance et d’observabilité.

  • Collaborer à l’implantation d’indicateurs clés de résilience et de stabilité.

  • Assurer un soutien lors d’incidents majeurs impactant la disponibilité ou la performance des systèmes.

  • Participer au support applicatif selon le modèle « you build it, you run it » .

Collaboration et leadership

  • Encadrer et inspirer les architectes, développeurs et concepteurs pour favoriser l’amélioration continue.

  • Contribuer à des projets d’envergure, à forte visibilité et à fort impact.

Profil recherché

Prérequis

  • Expertise en conception logicielle de systèmes complexes à haute disponibilité, supportant des milliers d’utilisateurs simultanés.

  • Solide expérience avec GitHub Copilot et VS Code. Connaissance d’AWS Bedrock et OpenAI (atout).

  • Excellente compréhension des principes DevSecOps , de la surveillance et de l’observabilité.

  • Expérience confirmée sur AWS (développement de services, déploiement, automatisation, opérations).

  • Maîtrise des outils de surveillance (Datadog, CloudWatch, Splunk).

  • Expérience avec les API et leur intégration.

  • Expérience en leadership technique.

  • Expérience opérationnelle 24/7.

  • Expertise en tests de charge et en analyse de performance.

  • Connaissance des procédures de reprise après sinistre (Disaster Recovery).

  • Capacité à résoudre des problématiques complexes et multi-systèmes.

Atouts

  • Expérience en développement guidé par l’IA générative ou en automatisation intelligente.

  • Contribution à des projets open source ou communautaires en IA ou backend.

  • Intérêt marqué pour la vulgarisation et le transfert de connaissances en IA auprès des équipes.

#J-18808-Ljbffr

Company

Alfaconseil

Location

Montreal

Country

Canada

Salary

100.000

URL

https://en-ca.whatjobs.com/coopob__cpl___291_2638183__3337?utm_source=3337&utm_medium=feed&keyword=Lead-Site-Reliability&location=Montreal&geoID=3824