Article publié par Andrea Mogini, Data Scientist chez Keyrus & Khalil El Mahrsi, Tech Lead Machine Learning & Intelligence Artificielle
Data Science, Intelligence Artificielle & Machine Learning
Apparu pour la première fois dans un article publié en 2001[1], le terme Data Science a pris de l’élan au début des années 2010, en même temps que (et en partie grâce à) l’engouement général qui a eu lieu autour du Big Data. Pourtant, ce terme est aujourd’hui souvent utilisé comme un buzzword générique et trop vague. Décrit parfois comme "le métier le plus sexy du 21e siècle"[2], il n'existe cependant pas de commun accord ni sur les compétences qu'un data scientist doit maîtriser, ni sur les tâches qu'il doit accomplir.
La Data Science est un domaine pluridisciplinaire qui vise à valoriser les données disponibles, quels que soient leur nature et leur volume. Cela se traduit généralement par la transformation de l’information cachée dans les données vers une forme facilitant la prise de décision. En sont des exemples le développement d’indicateurs permettant d’évaluer le risque de défaillance lors de l'octroi d’un prêt, de prédire la survenance imminente d’une panne ou encore d’identifier une transaction bancaire frauduleuse. Pour y parvenir, le data scientist emploie des méthodes et des outils issus notamment des mathématiques, de la statistique et de l’informatique. En particulier, le caractère central des données dans le travail du data scientist et la nécessité d’en traiter des volumes considérables impliquent le recours aux méthodes de l’Intelligence Artificielle, avec un accent sur le Machine Learning.
Par Intelligence Artificielle, on désigne l’ensemble des méthodes permettant l’automatisation de tâches "intellectuelles" traditionnellement réalisées par des êtres humains. Dans son acception originaire, les règles à suivre pour l’accomplissement de la tâche sont programmées de manière explicite : il est donc nécessaire de les connaître à l'avance. Dans le cas du Machine Learning, ce qui est programmé explicitement sont les règles à utiliser pour déduire celles permettant d’accomplir la tâche en partant d’exemples. Le Machine Learning est donc une branche de l’Intelligence Artificielle nécessitant des données à partir desquelles les algorithmes apprennent à résoudre des problèmes. Cette approche peut donc, a priori, s’appliquer aussi à des problèmes dont on ignore la solution : ce sera à l’algorithme d’identifier le chemin à suivre.
S’il est vrai que ces méthodes peuvent être très performantes, cela suppose le recours à une approche adaptée à la tâche à traiter. Plusieurs entreprises, sous l’effet du buzz, souhaitent mettre en œuvre des algorithmes inadaptés pour résoudre des problèmes pour lesquels d’autres méthodes “classiques” ont déjà fait leurs preuves. Le rôle du data scientist est aussi celui de déterminer l’approche la plus pertinente à la problématique posée. Le choix du mauvais outil peut être fatal : de nombreuses expérimentations de Machine Learning ont été des échecs à cause de problèmes liés aux données disponibles.
Le plus grand avantage escompté par le recours à une approche de Data Science est simple : elle nous oblige à une vision quantitative. Cette considération à l’apparence triviale comporte de multiples bénéfices. Tout d’abord, cela permet de mieux définir ses objectifs. Ensuite, l’identification de nouveaux objectifs pertinents ainsi que de nouvelles opportunités devient plus facile. Enfin, cela permet de mesurer l’adéquation entre les solutions déployées et les problématiques traitées.
Par exemple, une banque qui veut se doter d’un outil pour catégoriser son risque lié à l’octroi de prêts est amenée à se pencher d’abord sur la question de définir ce risque, puis une métrique ou un score (exemple basé sur les revenus, la situation familiale, etc. du client) lui permettant de le mesurer. Cela a le mérite non seulement de permettre une meilleure compréhension du problème, mais également d’identifier de nouveaux objectifs stratégiques pragmatiques et « mesurables » (exemple : faire baisser de 10% le nombre de dossiers contentieux). Il en va de même pour un vendeur qui souhaiterait évaluer les performances de ses stratégies de vente et qui est contraint d’identifier une métrique pertinente pour mesurer le succès de ses stratégies.
Un autre avantage de taille du recours à la Data Science réside dans le fait qu’elle nous pousse à prendre des décisions ancrées dans les données et donc dans la réalité de l’entreprise. Un data scientist s’assure de l’adéquation des données exploitées au problème posé, garantissant des résultats sur mesure et de très haute qualité. De plus, il est bien souvent possible de mettre en place un système de feedback permettant de jauger et corriger les faiblesses éventuelles des modèles déployés à l’aide de nouvelles données recueillies à cette fin.
Enfin, et d’un point de vue moins abstrait, la Data Science est par construction adaptable à toute problématique, pourvu que des données pertinentes soient disponibles. Un projet de Data Science est taillé sur mesure par rapport aux données à exploiter et à la problématique posée. Il est possible de traiter du langage naturel, de faire de la reconnaissance d’images, de classifier des clients, de prédire une panne ou de quantifier un risque.
Sans grande surprise, les véritables limites de la Data Science tiennent à son inévitable dépendance des données elles-mêmes. En effet, même si un data scientist identifiera l’inadéquation des données disponibles au traitement de la problématique que l’on envisage de résoudre, allant peut-être même jusqu’à suggérer des pistes pour trouver des données plus pertinentes, la Data Science n’est pas un moyen de produire de la donnée.
De plus, essayer d’appliquer les enseignements tirés d’un ancien modèle de Data Science à une problématique nouvelle peut produire des effets non désirés. Ceci est le revers de la médaille du fait que tout projet de Data Science est, in fine, du sur-mesure. Un modèle entraîné sur des crédits immobiliers sera parfaitement performant sur des nouveaux crédits de ce type, mais pourra être moins fiable si appliqué à des crédits à la consommation. Ainsi, il est en général difficile de recycler un ancien modèle pour résoudre une problématique nouvelle, même si elle est proche de celle d’origine. Il sera souvent plus prudent de développer un nouvel algorithme, les exceptions étant limitées à de rares sujets de reconnaissance d’images.
Enfin, par sa nature même, la Data Science n’est pas déterministe, mais probabiliste. Cela veut dire qu’elle garantit de dégager des plus-values sur des échantillons suffisamment larges mais pas sur une application isolée. Cette limite pose rarement problème en pratique, mais pourrait générer des attentes irréalistes autour de l’outil en compromettant le bon déroulement du projet : il incombe au data scientist de communiquer efficacement avec les autres acteurs afin que tout le monde comprenne correctement ce que le modèle va pouvoir faire… ainsi que ce qu’il ne pourra pas faire !
[1] https://onlinelibrary.wiley.com/doi/abs/10.1111/j.1751-5823.2001.tb00477.x
[2] https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century