Vous quittez notre site principal pour accéder à notre site chinois hébergé en Chine. Pour des raisons légales, aucun lien ne vous ramènera vers notre site principal.

Accéder au site chinois
Logo - Keyrus
Logo - Keyrus
  • Playbook
  • Services
  • Insights
  • Partenaires
  • Carrières
  • Qui sommes-nous ?
    Raison d'être
    Innovation & Technologies
    Keyrus s'engage
    Conformité & Règlementation
    Investisseurs
    Équipe de direction
    Marques
    Implantations

Article de blog

CloudLake : un outil pour industrialiser le déploiement d’architectures Data dans le Cloud

Article publié par Antoine Deblonde, Tech Lead Data, Barthélemy Gouby, AI/Data Engineer & Karine Aknin, Data Engineer chez Keyrus

Apparu il y a une quinzaine d’années, le terme « Cloud » est un terme générique pour désigner les grands services d’infogérance, c’est-à-dire de sous-traitance d’infrastructures et de services informatiques. Ce terme recouvre trois grands types de services :

  • l’Infrastructure as a Service : provision et gestion de machines distantes ;

  • la Platform as a Service : gestion de plates-formes de services, “serverless” ;

  • le Software as a Service : services et outils utilisables directement en ligne, en mode client/serveur.

Le marché du Cloud (IaaS, PaaS, SaaS) représente en 2018 environ 175 milliards d’euros (source Gartner), en croissance forte depuis 15 ans, avec une pénétration exponentielle dans les entreprises. La migration massive des systèmes informatiques vers ces services justifie le besoin croissant d’outils simplifiant la conception et la gestion d’architectures informatiques Cloud.

Le Cloud : une évolution des infrastructures vers l’abstraction & la flexibilité

Un des buts premiers de l’infogérance informatique est de permettre de traiter l’infrastructure d’un système d’information comme une charge d’exploitation (OPEX), c’est-à-dire comme une ressource courante pour laquelle l’utilisateur paie à l’usage, plutôt que comme une immobilisation de capital (CAPEX). Les grands services de Cloud qui se sont développés depuis une quinzaine d’années ont apporté des nouveautés par rapport aux services d’infogérance historiques.

La première force du Cloud est la capacité à fournir de l’infrastructure à la demande, quasi instantanément, et avec une grande finesse de granularité dans les infrastructures fournies. Cela permet de concevoir des systèmes dont la taille des ressources peut évoluer de manière permanente pour répondre au plus près au besoin de ce système : il s’agit du concept de scalabilité, à savoir la capacité d’un système à s’adapter à une augmentation ou une diminution de la charge à laquelle il est soumis. Le Cloud est également extrêmement modulaire : il permet d’ajouter des services plus facilement, de modifier l’architecture d’un système d’information sans avoir à faire de grands investissements et peut s'ajouter à l’existant (Cloud ou On-Premise).

Les Cloud providers majeurs offrent enfin de nombreux services dit « managés » qui répondent à de nombreuses problématiques. Ces services peuvent servir de briques pour construire plus facilement et plus rapidement un système d’information. Ces différents services permettent de réduire la complexité de la création et de la gestion d’une infrastructure, en proposant une abstraction des ressources matérielles qu’ils se chargent de gérer automatiquement. Cette abstraction des ressources inclut deux nouvelles possibilités majeures par rapport à la gestion d’infrastructures On-Premise ou à l’infogérance classique : la répétabilité de la création d’infrastructure et la planification du déploiement d’architectures entières avant tout démarrage d’instance machine. Ces apports permettent d’automatiser des tâches récurrentes réalisées manuellement : par exemple, dans le cas d’un data lake, il sera souvent nécessaire de mettre en place un ou plusieurs systèmes ETL pour préparer les données, des systèmes de stockage pour les données entrantes et préparées, ainsi que de définir un workflow de tâches gouvernant ces activités. L’automatisation de ces tâches peut alors permettre un gain de temps considérable, en développement mais aussi en maintenance.

Les facilités considérables apportées par les outils Cloud permettent donc de construire plus rapidement et plus efficacement des systèmes IT plus vastes et plus complexes. La simplification de la gestion matérielle aboutit donc paradoxalement à une complexification des architectures, qui amène un besoin de standardisation de la planification des déploiements Cloud. La gestion des architectures Cloud est ainsi entrée en phase d’industrialisation. En informatique comme dans les autres domaines, l’industrialisation cherche à standardiser et à automatiser les processus pour permettre un gain de performance et de contrôle. Une application informatique peut être considérée comme industrialisée quand elle est :    

  • rapide à déployer ;

  • facile à maintenir et à étendre ;

  • résiliente aux montées en charges et aux erreurs.

Le problème de l’industrialisation des déploiements d’architecture Cloud a été résolu par le concept d’infrastructure as code (IaC), qui repose sur les outils mis à disposition par les Cloud providers pour instancier et gérer les différents services managés qu’ils proposent. L’utilisation de l’IaC pour l’industrialisation des déploiements Cloud a permis de résoudre le problème de l’adhérence aux différents providers : les Cloud providers proposant chacun leur propre implémentation de services managés répondant au même besoin, il faut maintenir des connaissances techniques spécifiques à chaque Cloud provider pour rester libre d’utiliser leurs offres sans être lié à un provider en particulier.

L’Infrastructure as code : un ajout logique aux outils Cloud

L’IaC est une méthode qui permet de gérer et de provisionner des infrastructures informatiques par le biais de scripts de configuration, qui rendent possible un déploiement automatisé et standardisé d’infrastructures complexes à la manière d’un software. Son fonctionnement repose largement sur la capacité technique des Cloud providers à fournir des machines et services à la demande. Elle vient enrichir un système qui jusqu'ici nécessitait un déploiement manuel et « from scratch » des procédures et des processus. En effet, avant l’arrivée de l’IaC, le setup d’infrastructures informatiques était un processus manuel, nécessitant parfois des opérations et des processus longs,  difficiles à suivre et générant de nombreuses erreurs.

Les principaux bénéfices de l’IaC sont :

  • Une rapidité et une simplicité du déploiement de n’importe quel service : réseaux, sécurité, base de données, machine virtuelle… ;

  • Une réduction des erreurs de développement grâce à une forte consistance (standardisation du setup de l’infrastructure) la rendant aussi de ce fait résiliente ;

  • Une augmentation de l’efficience du développeur ainsi que la scalabilité et la maintenabilité du code.

Elle répond donc bien aux problématiques d’industrialisation évoquées précédemment, en ajoutant une automatisation accrue à l’abstraction apportée par le Cloud dans la conception des architectures IT. Historiquement, ce sont les Cloud providers qui ont en premier répondu à cette problématique d’automatisation de déploiement d’infrastructures. Bien qu’ils proposent tous leur propre outil d’IaC, ceux-ci ont le désavantage d’être spécifique à leur plate-forme : citons par exemple CloudFormation pour AWS ou encore Cloud Automation pour Azure. Face à cette forte adhérence de ces outils d’IaC providers spécifiques, de nombreux projets open source ont vu le jour et se sont imposés en permettant une encapsulation dans un même outil de tous les Cloud providers. Il s’agit de projets open source tels que Terraform, Ansible, Chef, Puppet ou encore Salt, qui s’utilisent pour n'importe quelle plate-forme.

Ces projets open source répondent chacun à des problématiques différentes : Terraform pour le déploiement d’infrastructures, Ansible pour leur configuration et leur gestion. Ainsi, Terraform, projet développé par HashiCorp, est devenu le de facto standard pour la conception et le déploiement d’infrastructures grâce à un langage de configuration conçu pour être facilement lu et maintenu, le HCL. Ces outils de gestion d’infrastructures tels que Terraform permettent donc d’instancier, de monitorer et de détruire des machines et des services managés sur les fournisseurs Cloud ou On-Premise. En mode IaC, l’utilisation de ces outils consiste à décrire l’ensemble d’une architecture informatique sous forme de fichiers de configuration. Dans le cadre de projets orientés data, ils sont communément employés pour le déploiement de data lake allant de la mise en place d’un système ETL à celui d’un data warehouse. Ce besoin d’automatisation mais aussi de résilience est universel chez les grands acteurs du marché.

Ainsi, les outils d’IaC offrent un écosystème mûr permettant de couvrir de nombreux cas d’usage.  Ces outils variés nécessitent cependant un certain temps d’apprentissage et l’acquisition de nouvelles compétences pour les développeurs / devOps qui souhaitent s’y convertir. De plus, l’utilisation de ces outils implique encore de nombreuses tâches de développement redondantes, telles que l’implémentation de templates de configuration. L’identification et la simplification de ces tâches encore répétitives permettraient alors de simplifier encore le déploiement et la maintenance d’architecture IT.

L’apport de Keyrus dans le domaine Data : le projet CloudLake

Dans les systèmes d’information orientés Data, les infrastructures de type data lake deviennent de plus en plus répandues : ce cas d’usage typique consiste d’un point de vue théorique à rassembler les données d’une entreprise au sein d’un système de stockage centralisé et persistant, sur lequel peuvent se brancher différents outils d’exploitation et de visualisation de la données. Il s’agit là d’un besoin récurrent au sein d’un grand nombre d’entreprises et sur base de constat. Il était donc pertinent de se poser la question de l’industrialisation de son déploiement et de sa maintenance, typiquement via les outils d’IaC standards.

De l’utilisation effective des outils IaC est ressorti le besoin d’un méta-outil d'industrialisation réunissant ces divers projets d’IaC et automatisant les tâches encore répétitives dans leur utilisation. L’objectif du projet CloudLake est ainsi de pouvoir réunir la conception d’infrastructure, la gestion de configuration et la gestion de workflow, tout en proposant un catalogue de templates/blueprints prêt à l’emploi pour les différentes briques fonctionnelles. CloudLake permettrait de décrire une infrastructure data lake de bout-en-bout via une interface simple, agnostique au Cloud provider, de manière fonctionnelle plutôt que technique. Ce projet utilise les différents outils d’IaC open source devenus standards tels que Terraform pour la conception et la mise en place de l’infrastructure ou Ansible pour sa configuration et son maintien. Tout comme les outils d’IaC sur lesquels il se repose, CloudLake permet d’abstraire davantage la complexité entourant la mise en place d’une infrastructure Cloud pouvant reposer sur plusieurs Cloud providers, en permettant aux architectes IT de passer du listing de spécifications techniques à l’assemblage de briques fonctionnelles pré-packagées.

Dans un premier temps, le projet CloudLake se concentre sur la mise en place d'architectures répondant aux besoins des projets réalisés par les experts de Keyrus. Il évoluera ensuite pour proposer un ensemble de fonctionnalités et d’algorithmes répondant aux usages les plus courants, conçus pour être le plus générique et configurable possible, ces briques fonctionnelles permettront d'accélérer d’autant plus la recherche de valeur des données d’un data lake.

whatsapptwitter
linkedinfacebookworkplace
newsletter.svg

Ne manquez jamais un insight

Tenez-vous au courant des derniers articles, événements, et bien plus encore

Votre adresse e-mail est uniquement utilisée pour vous envoyer la newsletter Keyrus et à des fins de prospection commerciale. Vous pouvez à tout moment utiliser le lien de désabonnement présent dans chaque newsletter envoyée. En savoir plus sur la gestion de vos données et vos droits.

Poursuivre la lecture

Communiqué de presse

Le Groupe Keyrus entre en négociation exclusive afin de réaliser un investissement stratégique dans Sonum International, leader Européen dans le secteur de l’EPM et spécialiste Anaplan®.

20 janvier 2023

Levallois-Perret (France), La Haye (Pays-Bas) – 20 Janvier 2023: Le Groupe Keyrus annonce être entré dans une phase finale de négociation dans le but d’acquérir une participation majoritaire dans Sonum International (*), un groupe européen, leader dans le conseil et la mise en œuvre de solutions EPM (‘Enterprise Performance Management’).

Événement

WEBINAR : Comment valoriser vos données grâce à la plateforme Talend ?

5 janvier 2023

Keyrus et Talend vous invitent à leur prochain webinaire dédié à la valorisation de vos données.

Événement

Matinale : Industries créatives & culturelles et Web 3. Où en sommes-nous ?

22 novembre 2022

Keyrus participe à la matinée organisée par la CCI Paris autour des NFT et du Web 3 appliqués au monde de la création et de la culture.

Article de blog

Métaverse & pilotage des données : l'expertise du Data Scientist

27 octobre 2022

Le futur est déjà là ! Le métaverse en première ligne est un terme qui est quotidiennement présent dans la presse. Le métaverse est la compression entre la réalité que nous connaissons, la réalité virtuelle et également la réalité augmentée. Ainsi, nous assistons à la disparition entre réalité et fiction…

Avis d'expert

MLOps, la clé pour faire entrer le machine learning dans le quotidien opérationnel de votre entreprise

12 octobre 2022

MLOps (contraction de Machine Learning Operations) est une méthodologie conçue pour optimiser et industrialiser le cycle de vie des projets faisant intervenir des algorithmes de machine learning ou de deep learning et maximiser leur ROI.

Infographie

Métavers, NFT et cryptomonnaie : zoom sur les innovations Web3 en plein boom

1 septembre 2022

Le métavers, un potentiel illimité ? Les NFT, un marché énorme mais qui s'essouffle ? La cryptomonnaie, une adoption pas encore au rendez-vous ?

Communiqué de presse

Keyrus devient l’actionnaire majoritaire de CMG Consulting Group, société de conseil spécialisée dans les métiers de la Banque, de la Finance, de l’Assurance, et de l’Immobilier

16 juin 2022

Paris, Levallois-Perret, le 16 juin 2022 - Acteur international de la Data Intelligence, du numérique et de la transformation des entreprises, Keyrus annonce une prise de participation majoritaire dans le capital de CMG Consulting Group, un réseau de cabinets de conseil spécialisés en pilotage de projet métier, conseil métier, et conseil en organisation dans les secteurs de la Banque, de la Finance, de l’Assurance et de l’Immobilier.

Avis d'expert

Raison d’être et culture d’entreprise pour relever les défis du siècle

16 juin 2022

Entre mutations sociétales majeures et enjeux écologiques pressants, les entreprises doivent repenser leur performance de manière globale.

Témoignage client

La Direction Formation d’Alliance Automotive Group accélère sa transformation

17 mai 2022

Le groupe Alliance Automotive a connu une forte croissance. Harmoniser les activités devenait crucial pour optimiser le fonctionnement du service formation.

Article de blog

Analyse de marché 2022 des solutions dataviz

4 mai 2022

Le marché français s’est énormément développé et aujourd’hui la data visualisation est incontournable au sein des entreprises.

Logo - Keyrus
Siège social

155 rue Anatole France 92593 Levallois-Perret

Téléphone :+33 (0)1 41 34 10 00

Fax :+33 (0)1 41 34 10 10

LinkedInInstagram
PlaybookServicesInsightsPartenairesCarrièresQui sommes-nous ?
Raison d'êtreInnovation & TechnologiesKeyrus s'engageConformité & RèglementationInvestisseursÉquipe de directionMarquesImplantations
Mentions légales & Conditions d'utilisation
Politique de confidentialité
Protection des données