Utilisez les services managés dans le Cloud pour booster votre plateforme big data !

Pour commencer, et pour les plus novices d’entre nous, qu’est-ce que le cloud ?

C’est tout simplement le fait de pouvoir accéder à des ressources (puissance de calcul ou de stockage) de manière très simple, sans vraiment les avoir à portée de main. Elles sont quelque part dans les « nuages ».

Ces ressources, mises à disposition par un fournisseur, seront adaptées à nos demandes et facilement évolutives. Aujourd’hui, beaucoup d’entreprises font le choix de déplacer leurs infrastructures dans le cloud, afin de bénéficier de plus de flexibilité mais aussi pour réduire les coûts, souvent très élevés.

Lorsqu’on parle de Cloud, on entend très souvent parler de termes tels que IaaS, PaaS et SaaS (et bien d’autres « as-a-Service ») dont voici les définitions :

IaaS (Infrastructure-as-a-Service) : Pour résumer/simplifier, il s’agit de recourir à du matériel virtualisé (par exemple, une machine virtuelle). Une fois une machine virtuelle disponible, le client devra se charger d’installer les logiciels/composants adéquats. Le fournisseur gère donc la partie infrastructure pour le compte des clients.
PaaS (Platform-as-a-Service) : Pour ce type d’offre dans un contexte Data, le fournisseur met à disposition une plateforme qu’il va administrer et les clients se chargeront d’intégrer et gérer leurs données. A titre d’exemple, les fournisseurs proposent des bases de données managées tel qu’Azure SQL Database chez Microsoft ou encore Cloud SQL chez Google.
SaaS (Software-as-a-Service) : Ce type d’offre a pour objectif de mettre à disposition un logiciel clé-en-main intégralement géré par le fournisseur. Un des exemples connus sur le marché est la solution CRM Salesforce.

Dans cet article, nous nous concentrerons sur Google Cloud Platform (GCP) et nous expliquerons comment cette plateforme aboutie permet de moderniser les plateformes Big Data basées sur les technologies Hadoop/Spark.

Les services Data proposés par Google Cloud

Présentation Cloud, GCP et des services Data

Google Cloud propose à ses clients une plateforme de données unifiées entièrement gérées permettant d’obtenir des insights métier tout en innovant rapidement et en maîtrisant les coûts. En utilisant les services Google Cloud, les clients peuvent :

• Accélérer le processus de déploiement ; • Optimiser les coûts en ne payant que la consommation des services utilisés ; • Innover en choisissant à la carte des services managés (PaaS) ou encore même « serverless » ; • Ne plus avoir à gérer l’infrastructure sous-jacente puisqu’entièrement à la charge de Google Cloud ; • S’adapter à l’évolution des usages à la hausse comme à la baisse et dans une logique de maîtrise des coûts.

Google Cloud propose un ensemble de services permettant de répondre aux besoins des clients sur l’ensemble des thématiques autour de la Data.

Schéma d’architecture cible d’une plateforme data dans le cloud

Pour expliquer l’architecture dans les grandes lignes, vous trouverez ci-dessous des explications sur les étapes majeures du cycle de vie des données :

Les données sont intégrées en mode batch (fichiers dans Google Cloud Storage) ou en Streaming via Pub/Sub. La brique Apigee nous servira pour l’exposition des données à des tiers (partenaires, clients, etc), tout en pouvant les monétiser
Elles sont ensuite transformées à l’aide d’outils tels que Cloud DataProc ou Cloud Dataflow
Les données sont ensuite chargées dans l’entrepôt de données BigQuery (serverless) pour des usages analytiques ou bien dans BigTable pour des usages nécessitant l'ingestion de gros volumes de données avec des latences inférieures à 10ms
Enfin, les données sont disponibles pour des usages BI/Reporting avec Looker (ou avec des produits équivalents : PowerBI, Qlik, Tableau) et Data Science/IA avec la plateforme Vertex AI (ou autres : Dataiku, Databricks, Open Source,etc…).

Les plateformes Big Data basées sur Hadoop : Quelle situation à date et pourquoi moderniser ?

Technologies & Architecture

Cette architecture est dite « classique » puisqu’elle est très courante au sein des Systèmes d’Information Data (SID) des entreprises qui ont pris très tôt le virage du Big Data (période 2014/2015 jusqu’en 2018/2019). Dans la majorité des cas, elle repose sur le déploiement d’une plateforme proposée par des éditeurs spécialisés se chargeant de consolider les différents projets Open Source et surtout de simplifier son administration et son exploitation. Historiquement, le marché était « trusté » par 2 voire 3 éditeurs : Cloudera, Hortonworks et MapR.

Pour lire l'intégralité de l'article, téléchargez-le en cliquant ici.

Télécharger l'article