Data lake : quelles sont les bonnes pratiques à adopter pour en tirer parti?

Data lake : quelles sont les bonnes pratiques à adopter pour en tirer parti?

Table des matières

Un data lake est une méthode de stockage massive utilisée par le Big Data. Un lac de données est un immense réservoir de données non ou très peu structurées auxquelles il est très facile de faire appel pour les besoins business de l’entreprise.

Les data lakes sont les outils parfaits pour stocker et avoir à disposition de large volume de données hétérogènes accessibles par simple requête.

Les lacs de données facilitent l’accès aux données pour des tâches telles que :

  • l’analyse de données ;
  • le machine learning ;
  • la création de rapports ou la visualisation de données.

Dans cet article, nous mettons en lumière quelques-unes des bonnes pratiques relatives à l’utilisation d’un data lake pour la gestion des données dans une entreprise.

Le business avant tout !

La mise en place d’un data lake est un projet dont la conception et l’exécution sont entre les mains des équipes Data et IT. Si vous êtes à la tête d’un projet de type data lake, veillez cependant à ne pas perdre de vue les aspects business de celui-ci.

Il est important que le data lake serve au mieux les objectifs de performance et de croissance de l’entreprise. Pour cela, nous vous recommandons de mettre en place :

  • des réunions de cadrage projet pour définir les objectifs, le pourquoi du projet de data lake ainsi que les priorités de développement ;
  • un comité de pilotage réunissant les équipes métiers, IT ainsi que la direction financière ou le CEO (peut-être pas à toutes les réunions).

Les points d’attention sur l’architecture de votre data lake

Une fois le business et l’IT alignés sur les mêmes objectifs vient l’étape de la définition de l’architecture de votre lac de données.

Quels sont les différents composants dont vous aurez besoin et à quoi ressemblera la plateforme technique finale ? N’oubliez pas qu’il s’agit d’un investissement à long terme et que vous devez donc bien réfléchir à l’évolution de la technologie utilisée.

Bien entendu, il se peut que vous n’ayez pas toutes les réponses dès le départ et qu’il soit nécessaire de procéder à une validation de principe pour gagner en expérience, affiner et apprendre en cours de route.

Un aspect particulièrement important de votre planification d’architecture IT est une bonne stratégie de gestion des données qui inclut la gouvernance des données et des métadonnées, et la manière dont vous allez les collecter.

Protection et sécurité de vos données au sein du data lake

Vous avez besoin d’une stratégie de protection des données efficace, surtout si vos données sont partagées avec les différents départements de l’entreprise, voire avec certains intervenants extérieurs ou certains de vos clients.

La confidentialité et la sécurité des données sont essentielles, en particulier pour les données sensibles. Vous devrez peut-être même prévoir des dispositions réglementaires spécifiques dans le cadre de l’utilisation de votre data lake.

Dernier point relatif à la protection des données : la gestion des droits d’accès des différents utilisateurs de l’entreprise. Vous devez par exemple penser à prévoir des moyens d’empêcher certains utilisateurs de partager les données auxquelles ils ont accès avec les collaborateurs qui ont des droits d’accès plus restreints.

Modèle d’E/S* et modèle de gestion de la capacité de stockage du data lake

Dans le choix de la plateforme technologique et de son architecture, il faut réfléchir à l’évolutivité du lac de données. Par exemple, le découplage entre les couches de stockage et de calcul sera-t-il utilisé ? Si oui, quelle sera la couche de stockage permanente ? Les exigences de performance du point de vue de la collecte des données doivent être bien comprises. C’est ce qui déterminera la performance du système de stockage et du réseau ainsi que la possibilité de traiter les données dans des délais acceptables.

Evaluation des ressources en interne

Pour réussir un projet de lac de données, il est indispensable de pouvoir compter sur les bonnes personnes. Votre équipe est-elle dimensionnée pour ce type de projet ? Allez-vous devoir embaucher ou faire appel à une aide extérieure ponctuelle ?

Vous avez besoin d’experts qui ont une expérience pratique de la création de plateformes de données et qui ont une grande expérience de la gestion et de la gouvernance des données.

Vous avez également besoin de data scientists : ce sont eux qui seront les premiers utilisateurs de la plateforme. Vous devez les solliciter pendant la phase de conception, puisque ce sont des parties prenantes et qu’il est très important d’écouter leurs besoins et la façon dont ils souhaitent utiliser le lac de données lorsqu’il sera terminé.

Niveau de service attendu par les utilisateurs

Pensez également au lac de données du point de vue SLA (Service Level Agreement) : quelles sont les exigences de SLA de vos partenaires commerciaux, en particulier en ce qui concerne les applications critiques pour l’entreprise (c’est-à-dire celles qui ont une incidence directe sur les revenus) ?

De bons niveaux de SLA sont nécessaires en termes de temps de latence et pour les données intégrées, traitées et transformées de manière récurrente. Pour en revenir à la question des personnes et des compétences, il est essentiel de disposer de personnes ayant l’expérience de la gestion de ces environnements afin de constituer une équipe opérationnelle capable de respecter les SLA et de répondre aux exigences de l’entreprise.

Et pour finir : un plan de communication en interne pour populariser votre data lake ?

Une fois le lac de données en place, comment allez-vous en faire la promotion au sein de l’entreprise et recruter de nouveaux utilisateurs ? Pour que l’environnement de votre lac de données se développe, vous devez obtenir la participation des différentes parties prenantes de l’entreprise et montrer des résultats concrets. Pourquoi ne pas en parler au service RH/communication interne afin de mettre sur pied un plan de communication ?

Peut-être pourriez-vous en parallèle développer un module de formation en ligne pour faciliter l’apprentissage de l’utilisation de votre data lake auprès de tous les utilisateurs potentiels, même ceux qui travaillent en remote ?

Comme toute autre plateforme informatique, le succès d’un data lake repose en grande partie sur son adoption par les différents collaborateurs de l’entreprise.