hero

JOB BOARD

Connecting diverse data & AI talent with forward-thinking teams
companies
Jobs

Senior ML Platform Engineer

Mistplay

Mistplay

Software Engineering, Data Science
Montreal, QC, Canada
Posted on Sep 10, 2025
Mistplay is the #1 loyalty app for mobile gamers. Our community of millions of engaged mobile gamers come to Mistplay to discover new games to play and earn rewards. Gamers are rewarded for their time and money spent within the games and can redeem those rewards for gift cards. Mistplay is on a mission to be the best way to play mobile games for everyone everywhere! Download Mistplay on the Google Play Store here and follow us on Instagram, Twitter and Facebook.
English Description is Below ⬇️
Sous la responsabilité du directeur de la plateforme de données et d'apprentissage automatique, l'ingénieur sénior de la plateforme d'apprentissage automatique au sein de l'équipe de données de Mistplay jouera un rôle clé dans la recherche et le développement de solutions d'apprentissage automatique (ML) visant à résoudre des problèmes commerciaux complexes. L'ingénieur sénior de la plateforme d'apprentissage automatique travaillera en étroite collaboration avec une équipe interfonctionnelle afin d'identifier les domaines à améliorer, puis de concevoir et de mettre en œuvre des solutions évolutives. L'expérience requise peut aller du traitement d'une grande variété de problèmes d'optimisation et de classification, par exemple le filtrage/la recommandation collaborative, la détection des fraudes, la segmentation, la modélisation des propensions, la classification des textes/sentiments, etc.
Tes missions chez Mistplay :
Concevoir, créer et exploiter des pipelines standardisés de formation à la mise en service avec Airflow, couvrant la gestion des artefacts, l'approvisionnement de l'environnement, l'empaquetage, le déploiement et la restauration pour les points de terminaison SageMaker.
Maîtriser l'inférence en temps réel et par lots sur SageMaker : points de terminaison multi-modèles, inférence sans serveur lorsque cela est approprié, stratégies bleu/vert et canari, politiques d'auto-scaling et contrôles des coûts (stratégies spot, dimensionnement des instances).
Mettre en œuvre des modèles de service à très faible latence avec Redis/Valkey : mise en cache des fonctionnalités, récupération des fonctionnalités en ligne, état au niveau de la requête, mise en cache des réponses du modèle et limitation du débit/contrepression pour le trafic en rafale.
Provisionner et gérer l'infrastructure ML/données avec Terraform : points de terminaison/configurations SageMaker, ressources ECR/ECS/EKS, points de terminaison réseau/VPC, clusters ElastiCache/Valkey, piles d'observabilité, secrets et IAM.
Construire des abstractions de plate-forme et des chemins d'or : modèles Airflow DAG, CLI/SDK, référentiels cookie-cutter et pipelines CI/CD qui transfèrent les modèles des notebooks à la production de manière prévisible.
Mettre en place et gérer la gouvernance du cycle de vie des modèles : registres de modèles/fonctionnalités, workflows d'approbation, politiques de promotion, lignage et pistes d'audit intégrés aux exécutions Airflow et à l'état Terraform.
Mettre en œuvre une observabilité de bout en bout : vérifications de la fraîcheur des données/fonctionnalités, contrôles de dérive/qualité, SLO de performance/latence des modèles, tableaux de bord de santé de l'infrastructure, traçabilité et alertes, ainsi que réponse aux incidents et analyses rétrospectives.
Collaborer avec les équipes de sécurité, de SRE et d'ingénierie des données sur les réseaux privés, les politiques en tant que code, le traitement des informations personnelles identifiables, l'IAM à privilèges minimaux et les architectures rentables dans tous les environnements.
Évaluer, intégrer et rationaliser les outils de la plateforme (par exemple, registre MLflow, magasins de fonctionnalités, passerelles de service) ; diriger les migrations avec une gestion claire des changements et un temps d'arrêt minimal.
Ce que tu apporteras à Mistplay :
Plus de 5 ans d'expérience dans la création et l'exploitation de plateformes ML/de données de niveau production, axées sur le service, la fiabilité et l'expérience développeur.
Solides compétences en génie logiciel avec Python, Go ou Java ; expérience dans la création de services résilients, d'API et d'outils d'automatisation avec une couverture de test élevée.
Expérience approfondie de l'inférence AWS SageMaker : configuration des points de terminaison, conteneurisation, empaquetage de modèles, autoscaling, compromis entre serverless et temps réel, MME, A/B et canary releases.
Expertise des magasins de fonctionnalités en ligne tels que Redis/Valkey dans des contextes de service ML.
Expérience avérée de Terraform dans la gestion de bout en bout de l'infrastructure ML et des données : modules, espaces de travail, détection des dérives, révision des modifications et restaurations sécurisées ; connaissance des modèles GitOps.
Orchestration Airflow à grande échelle : modélisation des dépendances, capteurs, réessais, SLA, backfills, usines DAG et intégrations avec les registres, les magasins d'artefacts et les pipelines Terraform.
Connaissance des cadres ML (scikit-learn, XGBoost, PyTorch, TensorFlow) du point de vue de l'intégration des plateformes afin de prendre en charge divers environnements d'exécution et conteneurs.
Observabilité des flux de travail ML : métriques/journaux/traces, profilage des performances, planification des capacités, surveillance des coûts et runbooks.
Excellente communication et collaboration interfonctionnelle avec les équipes de science des données, d'ingénierie des données, de DevOps et de backend.
English Description:
Reporting to the Director of Data and Machine Learning Platform, the Senior ML Platform Engineer within Mistplay’s Data Team will play a key role in researching and developing machine learning solutions to solve complex business problems. The Senior ML Platform Engineer will work closely with a cross-functional team to identify areas for improvement and design and implement scalable solutions. Relevant experience can range from working on a wide variety of optimization and classification problems, e.g. collaborative filtering/recommendation, fraud detection, segmentation, propensity modeling, text/sentiment classification, etc.
What you’ll do
Design, build, and operate standardized training-to-serving pipelines with Airflow, covering artifact management, environment provisioning, packaging, deployment, and rollback for SageMaker endpoints.
Own real-time and batch inference on SageMaker: multi-model endpoints, serverless inference where appropriate, blue/green and canary strategies, autoscaling policies, and cost controls (spot strategies, instance right-sizing).
Implement ultra-low-latency serving patterns with Redis/Valkey: feature caching, online feature retrieval, request-scoped state, model response caching, and rate limiting/backpressure for bursty traffic.
Provision and manage ML/data infrastructure with Terraform: SageMaker endpoints/configs, ECR/ECS/EKS resources, networking/VPC endpoints, ElastiCache/Valkey clusters, observability stacks, secrets, and IAM.
Build platform abstractions and golden paths: Airflow DAG templates, CLI/SDKs, cookie-cutter repos, and CI/CD pipelines that take models from notebooks to production predictably.
Establish and run model lifecycle governance: model/feature registries, approval workflows, promotion policies, lineage, and audit trails integrated with Airflow runs and Terraform state.
Implement end-to-end observability: data/feature freshness checks, drift/quality gates, model performance/latency SLOs, infra health dashboards, tracing, and alerting—plus incident response and postmortems.
Partner with Security, SRE, and Data Engineering on private networking, policy-as-code, PII handling, least-privilege IAM, and cost-efficient architectures across environments.
Evaluate, integrate, and rationalize platform tooling (e.g., MLflow registry, feature stores, serving gateways); lead migrations with clear change management and minimal downtime.
What you’ll bring
5+ years building and operating production-grade ML/data platforms with a focus on serving, reliability, and developer experience.
Strong software engineering in Python, Go, or Java; experience building resilient services, APIs, and automation tooling with high test coverage.
Deep experience with AWS SageMaker inference: endpoint configuration, containerization, model packaging, autoscaling, serverless vs. real-time trade-offs, MME, A/B and canary releases.
Expertise with online feature stores like Redis/Valkey in ML serving contexts.
Proven Terraform experience managing ML and data infra end-to-end: modules, workspaces, drift detection, change reviews, and safe rollbacks; familiarity with GitOps patterns.
Airflow orchestration at scale: dependency modeling, sensors, retries, SLAs, backfills, DAG factories, and integrations with registries, artifact stores, and Terraform pipelines.
Familiarity with ML frameworks (scikit-learn, XGBoost, PyTorch, TensorFlow) from a platform-integration perspective to support diverse runtimes and containers.
Observability for ML Worflows: metrics/logs/traces, performance profiling, capacity planning, cost monitoring, and runbooks.
Excellent communication and cross-functional collaboration with Data Science, Data Engineering, DevOps and Backend.
Why Mistplay?
We strive to make our work environment as inviting and fun as possible! Working at Mistplay is coupled with a whole array of perks that we've adopted virtually and in-person: Team Lunches, game nights, company-wide events, and so much more. Our culture is deeply rooted in growth and upheld by a team of smart, dynamic, and enthusiastic people. We utilize data to constantly learn, improve, and adapt. We foster an environment where everyone is encouraged to share their ideas, push boundaries, take calculated risks, and witness their visions come to life.