Issu des méthodes agiles, MLOps devient le cadre méthodologique incontournable pour la création, le déploiement et l’exploitation d’outils à base de machine learning. Quels en sont les principes et les apports ? Et surtout, pourquoi l’adopter dès maintenant ?
Après s’être arrêtées pendant plusieurs années au prototypage d’outils à base de machine learning (ML), les entreprises comprennent aujourd’hui la nécessité de passer à l’étape suivante : celle du déploiement effectif de ces outils dans la « vraie vie », qu’ils aient pour objectif d’automatiser des tâches répétitives, accélérer des processus, fiabiliser la prise de décision ou prédire des comportements et des évolutions. Réussir cette nouvelle étape exige une approche structurée pour garantir que les outils créés répondent – dès leur déploiement et dans la durée – aux besoins et objectifs de ceux qui vont les utiliser au quotidien. C’est la raison d’être de MLOps (contraction de Machine Learning Operations), un cadre méthodologique conçu pour optimiser et industrialiser le cycle de vie des projets faisant intervenir des algorithmes de machine learning (ML) ou de deep learning (DL) et maximiser leur retour sur investissement.
POURQUOI UNE APPROCHE SPÉCIFIQUE ?
Les entreprises ont mis du temps à comprendre que le machine learning et l’intelligence artificielle au sens large n’ont rien de magique et, surtout, que leur valeur ajoutée dépend autant des algorithmes que de la data, c’est-à-dire les données de tous types que l’entreprise possède, produit, stocke et que les algorithmes de machine learning permettent de « mettre au travail » moyennant des opérations relevant de la data science. Ces opérations indispensables concernent : • L’analyse, le nettoyage et la structuration des données en fonction de l’objectif visé. Cette phase, dite de pré-processing, peut devoir être précédée par la mise en place de processus de collecte de données si celles-ci n’existent pas ou ne couvrent pas toutes les données requises pour le projet.
• La création du modèle, qui consiste à sélectionner l’algorithme approprié, puis à l’entraîner de manière itérative avec un jeu de données représentatif, jusqu’à l’obtention de résultats satisfaisants, typiquement un taux d’erreurs inférieur à un pourcentage donné.
• Les tests du modèle avec des données qu’il ne connaît pas, afin de vérifier sa performance avant intégration dans la chaîne de traitement, déploiement et mise en production.
MLOps fournit un cadre méthodologique pour réaliser ces étapes liées à la data de manière rigoureuse, traçable et reproductible. La traçabilité est une nécessité quand on sait qu’un modèle de machine learning est toujours entraîné pour et avec un type de données bien spécifié. Lorsque les données évoluent – et elles évoluent toujours – la performance du modèle a tendance à se dégrader. Pour retrouver et maintenir un niveau de performance satisfaisant, les data scientists et ingénieurs ML doivent périodiquement réintervenir sur le modèle, modifier ses paramètres, reconsidérer les métriques d’évaluation, etc. Dans un processus MLOps, tous les changements au niveau des données, du code, des paramètres, des métriques sont documentés et tracés, ce qui facilite non seulement les opérations correctives, mais aussi, dans une optique d’industrialisation, le réemploi des développements réalisés et des connaissances acquises dans de nouveaux projets/outils.
Pour lire l'intégralité de cet avis d'expert, téléchargez-le.