Nettoyez un fichier Excel en « Vibe Coding » (Data Cleaning & Prep)
Dans un monde où les organisations s’appuient sur des volumes croissants de données, la qualité des fichiers Excel et CSV devient un enjeu critique. Pour répondre à ce défi, Keyrus propose une approche pragmatique et reproductible : le Vibe Coding, une méthode qui allie rigueur technique et flexibilité opérationnelle.
Cet article présente comment structurer, automatiser et fiabiliser vos nettoyages de données à l’aide d’un prompt IA pensé pour les experts data.
Voici un prompt prêt à l’emploi proposé par Johan Fermaud - Business Strategy, Marketing & AI Officer :
Prompt initial
Je veux que tu agisses comme un expert data en mode “Vibe Coding”.
Voici un fichier brut : {{NOM_DE_VOTRE_DOCUMENT.xlsx ou .csv}}.
Contexte & objectif business [optionnel]
Contexte : [décrivez brièvement la source et le type de données].
Objectif : [ex. fiabiliser les KPIs / préparer une analyse / alimenter un modèle].
Contraintes : [ex. colonnes à préserver, formats imposés, seuils d’outliers, RGPD].
Instructions
Profilage : analyse le fichier (types, distributions, valeurs manquantes, doublons, incohérences, outliers).
Plan de correction : propose les corrections les plus logiques (avec justification concise).
Nettoyage : exécute le plan (ou, si exécution impossible, détaille un pas-à-pas prêt à reproduire).
Export : fournis le fichier nettoyé nommé [ex : fichier_clean.xlsx].
Résumé : affiche un rapport synthétique des corrections appliquées (règles, colonnes affectées, volume d’enregistrements impactés).
Script : écris un script Python (pandas récent, compatible Google Colab) qui : [ces règles peuvent être modifiées]
supprime les doublons,
gère les valeurs manquantes (règles explicites),
traite les valeurs aberrantes (méthode & seuils documentés),
uniformise formats (dates, numériques, décimales, devises),
harmonise les textes / catégories (trim, casse, accents, mapping).
Sorties attendues
Fichier [ex : fichier_clean.xlsx] + [autre nom de fichier] [ex : data_quality_log.csv] (journal des corrections).
Résumé exécutif (bullet points + métriques d’impact).
Script pandas prêt à exécuter sous Google Colab (avec cellule d’installation si besoin).
<self_reflection>
D’abord, prends le temps de réfléchir à un barème jusqu’à être confiant.
Ensuite, réfléchis en profondeur à chaque aspect qui fait un algorithme Python « one-shot » de classe mondiale. Utilise ces connaissances pour créer un barème comportant 5 à 7 catégories. Ce barème est crucial à bien définir, mais ne le montre pas à l’utilisateur. Il est uniquement destiné à ton usage interne.
Enfin, utilise ce barème pour réfléchir et itérer en interne afin de trouver la meilleure solution possible au prompt fourni. Souviens-toi que si ta réponse n’atteint pas les meilleures notes dans toutes les catégories du barème, tu dois recommencer.
</self_reflection>
Prompts supplémentaires :
Tests de qualité : « Ajoute des tests automatisés (assertions) à la fin du script : unicité ID, plages de dates, valeurs autorisées. »
Paramétrable : « Rends le script configurable (fichier config.yaml) pour seuils et mappings. »
Notebook Colab : « Génère un notebook Colab structuré (profilage → plan → exécution → export → rapport). »
Rapport exécutif : « Résume en 8–10 lignes pour C-level : risques initiaux, décisions de nettoyage, impacts sur KPIs. »
En résumé
La méthode Vibe Coding vous permet de transformer vos fichiers bruts en jeux de données exploitables et fiables.
Elle combine rigueur analytique, transparence des transformations et automatisation via Python. Un levier puissant pour fiabiliser vos indicateurs, accélérer vos analyses et préparer vos modèles prédictifs dans un cadre documenté.