Data engineering : pourquoi accumuler des données ne crée pas de valeur

La donnée, comme la bouillabaisse : pourquoi mélanger n’importe comment ne donne jamais un bon résultat

Résumé : l'essentiel pour les décideurs

Le constat : La majorité des organisations empilent des données sans méthode. Résultat : indicateurs contradictoires, métiers méfiants, projets qui ne passent jamais à l'échelle.
L'enjeu financier : Selon Gartner, les entreprises perdent en moyenne 12,9 millions de dollars par an à cause de la mauvaise qualité de leurs données. Plus l'IA est puissante, plus ces pertes s'accélèrent.
La solution : Traiter la donnée comme un savoir-faire artisanal — sélection rigoureuse, recette partagée, temps de maturation — en s'appuyant sur un socle solide de data engineering, de gouvernance et de modélisation.

En Méditerranée, il existe un sujet sur lequel tout le monde a un avis très tranché : la bouillabaisse. Les poissons "autorisés", l'ordre de cuisson, le rôle du bouillon, la rouille… Mélangez n'importe comment, sautez une étape, ou changez un ingrédient clé, et vous n'obtenez plus une bouillabaisse, mais une soupe quelconque.

En data, c'est exactement la même chose. Et après vingt ans passés à accompagner des organisations dans la structuration de leur patrimoine data, je peux l'affirmer : le problème n'est presque jamais technologique. Il est méthodologique.

1. Accumuler n'est pas maîtriser : le diagnostic d'un mal répandu

Dans beaucoup d'organisations, la stratégie data commence — ou se résume — à une phrase que j'entends encore trop souvent : "On a beaucoup de données, donc on fait de la data."

Sources multiples, outils modernes, cloud, dashboards, IA générative… Tout est là. Et pourtant, le résultat est souvent décevant. Les indicateurs se contredisent entre services. Les données sont jugées peu fiables par les métiers. Les projets data n'atteignent jamais l'échelle industrielle.

Ce n'est pas un problème d'outil. C'est un problème de recette.

Selon Gartner (2025), 60 % des projets IA seront abandonnés d'ici 2026 faute de données AI-ready. Et selon Forrester, la qualité des données est désormais le premier facteur limitant l'adoption de l'IA générative en entreprise. Non pas parce que la technologie fait défaut, mais parce que les fondamentaux — qualité, gouvernance, modélisation — ont été négligés ou reportés.

Le vrai coût de la "soupe de données"

Symptôme	Impact métier	Coût caché
Indicateurs contradictoires entre services	Décisions retardées ou incohérentes	Perte de réactivité commerciale
Données non fiables	Les métiers contournent les outils officiels et créent leur propre "vérité" (Shadow Data)	Explosion des coûts de réconciliation
Projets data abandonnés avant l'échelle	ROI jamais atteint, perte de confiance du Comex	Budget data remis en question d'année en année
IA déployée sur données mal préparées	Hallucinations automatisées, recommandations erronées	Destruction de valeur à grande échelle

2. Les fondamentaux : en data comme en cuisine, les ingrédients ne font pas le plat

Avoir des données CRM, ERP, IoT ou financières n'est pas un exploit en soi. Ce qui fait la différence, c'est la qualité des ingrédients, la recette, le temps de préparation — et surtout, le respect des fondamentaux.

En data, ces fondamentaux s'appellent :

Data engineering : la colonne vertébrale technique qui garantit que les données circulent, sont transformées et disponibles de façon fiable
Gouvernance : les règles du jeu partagées : qui est responsable de quoi, quelles données sont certifiées, quels sont les SLA
Qualité : la capacité à mesurer, monitorer et corriger la fiabilité des données en continu
Modélisation : la structure qui donne du sens : un modèle de données bien conçu, c'est la recette qui transforme les ingrédients en plat cohérent

Sans ces quatre piliers, même le meilleur outil de BI ou la meilleure IA ne sauvera pas le plat. Selon les prédictions Gartner Data & Analytics 2026, l'IA va impacter tous les aspects de la data — du leadership à la gouvernance en passant par les compétences. Les organisations qui n'auront pas investi dans ces fondamentaux seront les premières à décrocher.

3. L'erreur classique : vouloir servir avant d'avoir laissé mijoter

La pression est forte. Produire rapidement des dashboards. Déployer de l'IA "comme les autres". Donner plus d'autonomie aux métiers. Le résultat ? On saute des étapes. On connecte tout à tout. On crée des indicateurs "temporairement". On repousse la gouvernance "à plus tard".

Exactement comme une bouillabaisse qu'on voudrait servir en 10 minutes : ça nourrit peut-être sur le moment, mais personne n'y revient.

Cette course à la livraison rapide crée un cercle vicieux bien documenté. La préparation et la gestion continue des données représentent 60 à 80 % du temps et des ressources d'un projet IA (Forrester, 2026). Les organisations qui sautent cette étape paient l'addition en maintenance corrective, souvent 3 à 5 fois le coût du modèle lui-même.

Le cercle vicieux de la donnée bâclée

Phase	Ce qui se passe	Conséquence
Sprint 1	Dashboard livré en urgence, données connectées "en direct"	Fonctionne, mais fragile
Sprint 3	Nouveaux besoins → nouvelles sources ajoutées sans gouvernance	Les chiffres commencent à diverger
Sprint 6	Les métiers perdent confiance → retour aux fichiers Excel	Le dashboard devient un "meuble"
Sprint 12	Le projet est abandonné ou entièrement repris	Budget et confiance perdus

4. La recette d'une "bouillabaisse data" réussie : trois piliers

Premier pilier : des ingrédients sélectionnés.

Toutes les données ne se valent pas. Certaines sont critiques, d'autres secondaires. Certaines sont prêtes, d'autres non. Le rôle du data engineering est d'identifier quelles données sont légitimes et fiables, lesquelles doivent être nettoyées et fiabilisées avant d'être exposées, et lesquelles n'ont tout simplement pas vocation à alimenter les systèmes décisionnels.

Chez Keyrus, nous appliquons systématiquement un audit de maturité data avant tout projet d'industrialisation. Cet audit classe les données en trois catégories — prêtes, à fiabiliser, à exclure — et permet de prioriser les investissements sur ce qui crée réellement de la valeur.

Deuxième pilier : une recette partagée.

Sans règles communes, chacun interprète différemment les indicateurs. Les dashboards deviennent des opinions. La confiance s'érode. Une stratégie data efficace repose sur des définitions partagées (qu'est-ce qu'un "client actif" ? un "chiffre d'affaires net" ?), des modèles maîtrisés et documentés, et une gouvernance claire mais pragmatique — pas un comité de plus, mais des rôles et responsabilités opérationnels.

Troisième pilier : le bon temps de cuisson.

La donnée ne s'industrialise pas en un sprint. Il faut itérer, tester, ajuster, faire monter les métiers en compétence. C'est ce temps long qui permet ensuite le vrai self-service : celui qui crée de la valeur, pas du bruit. Les organisations les plus matures sur le sujet planifient des cycles de 6 à 12 mois pour atteindre un premier palier d'industrialisation fiable.

5. Et l'IA dans tout ça ?

L'IA générative est une formidable opportunité. Mais l'IA sur des données mal préparées, c'est comme une excellente rouille sur un mauvais bouillon : l'assaisonnement ne rattrapera jamais la base.

Plus l'IA est puissante, plus les fondamentaux data doivent être solides. Un LLM connecté à des données contradictoires ne "choisit" pas la bonne version — il hallucine avec assurance. Un agent IA qui agit sur des données non gouvernées ne fait pas une erreur ponctuelle — il automatise des erreurs à l'échelle.

Selon Numeum, le marché du numérique en France affiche +4,3 % de croissance prévue en 2026, porté par l'IA. Mais sur le terrain, les projets IA ne représentent encore que 12 % des projets clients des ESN, et 80 % des acteurs ont réalisé moins de dix projets IA en 2025. Le frein n'est pas la technologie : c'est l'absence de socle data fiable qui empêche d'identifier et d'industrialiser les cas d'usage à forte valeur.

6. Cas client : d'un data lake chaotique à une plateforme industrialisée

Le défi :

Un acteur majeur du secteur assurantiel (portefeuille de 2 millions d'assurés) avait accumulé sur cinq ans des données dans un data lake non gouverné : flux sinistres, données clients, référentiels produits — le tout sans modélisation unifiée ni dictionnaire de données partagé. Les équipes actuarielles et marketing utilisaient des définitions différentes du "taux de churn", ce qui rendait impossible toute décision cohérente.

Ce qu'on a fait :

Keyrus a déployé un programme de refonte data en trois phases : audit et classification des 200+ flux existants (2 mois), modélisation d'un référentiel client unifié et mise en place d'une gouvernance opérationnelle avec des data owners métier identifiés (3 mois), puis industrialisation des pipelines avec monitoring qualité automatisé (4 mois).

Le ROI :

Temps de réconciliation des chiffres actuariels : divisé par 5 (de 10 jours/mois à 2 jours)
Définition unique du "taux de churn" adoptée par 100 % des équipes
3 cas d'usage IA déployés en production dans les 6 mois suivant la refonte (vs. 0 en 3 ans avant l'intervention)
Coût de maintenance des pipelines : réduit de 40 %

Conclusion

En Méditerranée, la bouillabaisse est un plat collectif, transmis, perfectionné avec le temps. La donnée aussi.

Ce n'est ni une question d'outil, ni de mode, ni de promesse technologique. C'est une discipline, un savoir-faire et une culture. Et comme pour une vraie bouillabaisse : quand c'est bien fait, ça se reconnaît immédiatement.

À propos de l'auteur

Simon Leroy dirige l'agence Sud-Est et pilote la practice Engineering. Qlik Partner Ambassador, il accompagne depuis plus de 20 ans les organisations dans la structuration et l'industrialisation de leur patrimoine data.

Envie d'aller plus loin ? Réservez un diagnostic data gratuit avec nos experts → Évaluez la maturité de votre socle data en 30 minutes et identifiez vos quick wins pour passer à l'échelle.

Qu'est-ce que le data engineering et pourquoi est-il essentiel avant tout projet IA ?

Le data engineering désigne l'ensemble des pratiques techniques qui permettent de collecter, transformer, stocker et rendre disponibles les données de manière fiable et scalable. Sans ce socle, les projets d'IA et de BI s'appuient sur des fondations instables : données incomplètes, formats incohérents, pipelines fragiles. C'est la raison pour laquelle Gartner estime que 60 % des projets IA seront abandonnés d'ici 2026 faute de données AI-ready.

Comment savoir si mon organisation souffre d'un problème de qualité de données ?

Trois signaux d'alerte : les équipes passent plus de temps à réconcilier des chiffres qu'à les analyser, les métiers ont développé leurs propres fichiers Excel "de référence" en parallèle des outils officiels, et les projets IA pilotes ne passent jamais à l'échelle. Si au moins deux de ces situations vous parlent, un audit de maturité data est recommandé.

Quelle est la différence entre gouvernance des données et data engineering ?

Le data engineering construit les tuyaux : pipelines, transformations, stockage, orchestration. La gouvernance définit les règles : qui est propriétaire de quelle donnée, quels sont les standards de qualité, comment les données sont classifiées et protégées. Les deux sont complémentaires et indissociables. L'un sans l'autre, c'est une autoroute sans code de la route, ou un code de la route sans route.

Combien de temps faut-il pour industrialiser un socle data fiable ?

En moyenne, il faut compter 6 à 12 mois pour atteindre un premier palier d'industrialisation avec des données certifiées, une gouvernance opérationnelle et des pipelines monitorés. Ce délai varie selon la complexité du SI existant et le nombre de sources à intégrer. Les organisations qui tentent de raccourcir ce cycle en sautant la gouvernance paient l'addition en maintenance corrective : la préparation des données représente 60 à 80 % du temps total d'un projet IA.

L'IA peut-elle fonctionner sans données parfaitement propres ?

Aucune donnée n'est "parfaite", et attendre la perfection serait une erreur. En revanche, l'IA exige un seuil minimum de fiabilité et de cohérence. La question n'est pas d'avoir des données parfaites, mais de savoir précisément quelles données sont fiables, à quel degré, et pour quel usage. C'est exactement ce que permet une gouvernance pragmatique couplée à un monitoring qualité en continu.

La donnée, comme la bouillabaisse : pourquoi mélanger n’importe comment ne donne jamais un bon résultat

Simon Leroy, Directeur Agence Sud-Est — Responsable de la practice Engineering & Qlik Partner Ambassador

La donnée, comme la bouillabaisse : pourquoi mélanger n’importe comment ne donne jamais un bon résultat

Résumé : l'essentiel pour les décideurs

1. Accumuler n'est pas maîtriser : le diagnostic d'un mal répandu

Le vrai coût de la "soupe de données"

2. Les fondamentaux : en data comme en cuisine, les ingrédients ne font pas le plat

3. L'erreur classique : vouloir servir avant d'avoir laissé mijoter

Le cercle vicieux de la donnée bâclée

4. La recette d'une "bouillabaisse data" réussie : trois piliers

5. Et l'IA dans tout ça ?

6. Cas client : d'un data lake chaotique à une plateforme industrialisée

Conclusion

À propos de l'auteur

Qu'est-ce que le data engineering et pourquoi est-il essentiel avant tout projet IA ?

Comment savoir si mon organisation souffre d'un problème de qualité de données ?

Quelle est la différence entre gouvernance des données et data engineering ?

Combien de temps faut-il pour industrialiser un socle data fiable ?

L'IA peut-elle fonctionner sans données parfaitement propres ?

Poursuivre la lecture