Job Description
Description
Description du poste
En tant que Lead Site Reliability Engineering (SRE) , vous jouerez un rôle stratégique dans la conception, l’optimisation et la fiabilité des environnements technologiques de l’organisation. Vous serez responsable de bâtir et de maintenir des pipelines CI/CD partagés, d’implanter des pratiques exemplaires en matière de résilience et de stabilité, ainsi que d’intégrer l’intelligence artificielle générative dans le cycle de développement. Vous guiderez les équipes techniques vers des solutions performantes, automatisées et hautement disponibles.
Responsabilités principales
Architecture, résilience et performance
-
Concevoir, déployer et maintenir des pipelines CI/CD communs à plusieurs équipes.
-
Promouvoir les meilleures pratiques de résilience et de stabilité auprès des équipes applicatives et d’infrastructure.
-
Identifier et corriger les points de défaillance uniques (single points of failure ) dans les systèmes critiques.
-
Réaliser des analyses complètes de la stabilité et recommander des améliorations de performance et de résilience.
-
Participer à la refonte de l’architecture transversale dans le domaine des systèmes transactionnels complexes.
Innovation et intégration IA
-
Introduire et intégrer le développement piloté par l’IA générative dans le cycle de développement logiciel.
-
Améliorer la documentation technique et les diagrammes d’architecture pour y inclure les aspects de résilience et de stabilité.
-
Accroître l’automatisation des processus TI afin de réduire les erreurs humaines.
Surveillance et gestion des incidents
-
Déployer et promouvoir les meilleures pratiques de surveillance et d’observabilité.
-
Collaborer à l’implantation d’indicateurs clés de résilience et de stabilité.
-
Assurer un soutien lors d’incidents majeurs impactant la disponibilité ou la performance des systèmes.
-
Participer au support applicatif selon le modèle « you build it, you run it » .
Collaboration et leadership
-
Encadrer et inspirer les architectes, développeurs et concepteurs pour favoriser l’amélioration continue.
-
Contribuer à des projets d’envergure, à forte visibilité et à fort impact.
Profil recherché
Prérequis
-
Expertise en conception logicielle de systèmes complexes à haute disponibilité, supportant des milliers d’utilisateurs simultanés.
-
Solide expérience avec GitHub Copilot et VS Code. Connaissance d’AWS Bedrock et OpenAI (atout).
-
Excellente compréhension des principes DevSecOps , de la surveillance et de l’observabilité.
-
Expérience confirmée sur AWS (développement de services, déploiement, automatisation, opérations).
-
Maîtrise des outils de surveillance (Datadog, CloudWatch, Splunk).
-
Expérience avec les API et leur intégration.
-
Expérience en leadership technique.
-
Expérience opérationnelle 24/7.
-
Expertise en tests de charge et en analyse de performance.
-
Connaissance des procédures de reprise après sinistre (Disaster Recovery).
-
Capacité à résoudre des problématiques complexes et multi-systèmes.
Atouts
-
Expérience en développement guidé par l’IA générative ou en automatisation intelligente.
-
Contribution à des projets open source ou communautaires en IA ou backend.
-
Intérêt marqué pour la vulgarisation et le transfert de connaissances en IA auprès des équipes.
#J-18808-Ljbffr
Company
Alfaconseil
Location
Montreal
Country
Canada
Salary
100.000
URL