Qu’est-ce qu’un data lake (ou lac de données) ?

Qu’est-ce qu’un data lake (ou lac de données) ?

Table des matières

datalake


La quantité de données numériques double en moyenne chaque année. En 2021, on estime qu’on a produit 79 zettabytes de data, soit 40 fois plus qu’en 2010. Une projection pour 2022 donne 97 zettabytes, et le volume devrait approximativement doubler d’ici 2025.

Problème : la plupart de ces données sont non structurées ou semi structurées. Les stocker et y accéder rapidement est un défi pour nombre d’entreprises. Les data lakes (ou lacs de données) répondent à cette problématique.

Qu’est-ce qu’un data lake ?

Un data lake est un environnement de données partagé dans son format natif qui comprend plusieurs référentiels et exploite les technologies du Big Data.

Autrement dit, un lac de données est un référentiel centralisé qui vous permet de stocker toutes vos données structurées et non structurées à n’importe quelle échelle.

Vous pouvez stocker vos données telles quelles, sans avoir à les structurer au préalable. Par la suite, il est possible d’exécuter différents types d’analyses, de générer des tableaux de bord ou d’alimenter des outils de data-visualisation. Vous mettez ainsi à profit la puissance du Big Data associée aux capacités de calcul des technologies de machine learning pour répondre aux problématiques business de votre entreprise.


Un stockage sans contraintes de vos données

Contrairement à un data warehouse qui vous impose un certain niveau de hiérarchisation des données, un data lake utilise une architecture horizontale plus souple et plus flexible.

Chaque information présente dans un data lake se voit attribuer un identifiant unique. Elle est taguée avec un ensemble de balises et de métadonnées étendues qui permettent de la retrouver facilement par la suite en effectuant une simple requête (comme on le ferait sur le moteur de recherche Google). Il est donc possible d’isoler rapidement un lot restreint de données pour produire une analyse ou un reporting.


Une confusion possible entre data lake et framework Hadoop

Les lacs de données sont souvent associés et confondus avec le stockage d’objets orienté Hadoop. Dans ce cas, les données d’une entreprise sont d’abord chargées sur la plateforme Hadoop afin que des outils d’exploration et d’analyse des données puissent dans un second temps les exploiter correctement.

Un data lake est un concept plus large : il décrit tout un ensemble de données volumineuses dont le schéma et les exigences ne sont pas définis avant que les données ne soient interrogées.

Pourquoi les entreprises utilisent-elles des data lakes ?

Les lacs de données sont un élément clé de l’architecture data dans de nombreuses organisations. Les entreprises les utilisent principalement comme plateforme centralisatrice pour l’analyse du Big Data et d’autres applications de data science nécessitant de grands volumes de données et impliquant des techniques d’analyse avancées, telles que le data mining, la modélisation prédictive et le machine learning.

Un lac de données fournit un lieu central aux data scientists et aux analystes pour rechercher, préparer et analyser celles qui sont pertinentes. Sans lac de données, ce processus est plus compliqué.

Quels sont les avantages d’un data lake ?


Le principal avantage d’un lac de données est la centralisation de sources de contenu disparates. Une fois réunies (à partir de leurs « silos d’information »), ces sources peuvent être combinées et traitées à l’aide du Big Data, de recherches et d’analyses qui auraient été impossibles autrement. Ces sources de contenu hétérogènes contiennent souvent des informations sensibles qui nécessitent la mise en œuvre de mesures de sécurité appropriées dans le lac de données.


Mécanismes de protection des données et paramétrage des niveaux d’accès

Dans un data lake, les mécanismes de sécurité peuvent être conçus de manière à autoriser l’accès à certaines informations aux utilisateurs du lac de données qui n’ont pas accès aux données source. Ces utilisateurs ont un droit de consultation de l’information, mais ne peuvent pas accéder à la source pour des raisons de confidentialité.

 

Stockage à long terme des données utiles

Il se peut également que certaines données ne soient accessibles que sous licence (via un service payant), ce qui empêche certains collaborateurs d’y avoir accès lorsque leur abonnement arrive à échéance et n’est pas renouvelé.

Un data lake permet de pallier cet inconvénient en stockant pour une durée illimitée de précieux lots de données accessibles selon les besoins de chacun.


Enrichissement des données

Une fois que le contenu se trouve dans le lac de données, il peut être normalisé et enrichi. Il peut s’agir d’extraction de métadonnées, de conversion de format, d’augmentation, d’extraction d’entités, de liens croisés, d’agrégation, de dénormalisation ou d’indexation.


Extraction au fil de l’eau


Les données sont préparées « au fur et à mesure des besoins », ce qui réduit les coûts de préparation de la data par rapport au traitement initial (comme le feraient des data warehouses). Une structure Big Data permet de faire évoluer ce traitement pour inclure les plus grands ensembles de données possible.


La data est accessible partout et par tous


Les utilisateurs de différents départements, potentiellement dispersés dans le monde entier, peuvent avoir un accès flexible à un lac de données et à son contenu depuis n’importe où. Cela augmente la faculté de réutilisation du contenu et aide les entreprises à collecter plus facilement les données nécessaires à la prise de décisions.


L’information, c’est le pouvoir. Un lac de données place les informations entre les mains d’un plus grand nombre de collaborateurs pour faire de l’entreprise un tout plus performant, plus agile et plus innovant.

data lake lac de donnees redstone

Quelles sont les différences entre un data lake et un data warehouse ? 

Voici quelques éléments différenciateurs entre un data lake et l’approche conceptuelle relative au data warehouse.

Un data lake conserve toutes les données 

Lors du développement d’un data warehouse, un temps considérable est consacré à l’analyse des sources de données, à la compréhension des processus métiers et au paramétrage des données. Le résultat est un modèle de données hautement structuré conçu pour la production de reportings élaborés. 

Une grande partie de ce processus consiste à prendre des décisions sur les données à inclure ou non dans le data warehouse. En général, si les données ne sont pas utilisées pour répondre à des questions spécifiques ou incluses dans un reporting défini, elles seront probablement exclues du data warehouse. Cette opération de sélection a généralement pour but de simplifier le modèle de données et d’économiser l’espace de stockage coûteux utilisé pour créer le data warehouse.

En revanche, un lac de données conserve toutes les données sans exception : non seulement les données qui sont couramment utilisées, mais aussi celles qui pourraient l’être et même celles qui ne le seront jamais.

Cette approche est rendue possible parce que le hardware d’un lac de données est généralement très différent de celui utilisé pour un data warehouse. Faire passer la capacité d’un lac de données d’un à plusieurs téraoctets ou à des pétaoctets peut se faire à peu de frais, ce qui n’est pas le cas avec un data warehouse. 

Un lac de données prend en charge tous les types de données

Les data warehouses sont généralement constitués de données extraites de systèmes transactionnels ainsi que de données quantitatives et des attributs qui les décrivent. Les sources de données non traditionnelles, telles que les logs des serveurs web, les données des capteurs, l’activité sur les réseaux sociaux ou les textes et les images, sont largement ignorées

L’approche du lac de données permet de prendre en compte ce type de données non traditionnelles. Dans un lac de données, toutes les données sont stockées, quelles que soient leur source et leur structure. Elles sont conservées sous leur forme brute et ne sont pas transformées avant d’être utilisées. Cette approche est connue sous le nom de Schema on Read par opposition à Schema on Write qui est l’approche utilisée dans les data warehouses.

Un seul lac de données pour répondre aux besoins de tous les utilisateurs

Dans la plupart des organisations, 80 % ou plus des utilisateurs sont « opérationnels ». Ils veulent disposer de leurs propres reportings, consulter leurs KPI ou sélectionner chaque jour le même ensemble de données dans une feuille de calcul et l’analyser. Le data warehouse est l’outil idéal pour ces utilisateurs, car il est bien structuré et facile à utiliser.

Parmi les 20 % restants, 19 % effectuent des analyses plus poussées sur ces données. Ils utilisent le data warehouse comme point de départ, mais sont souvent obligés d’aller directement puiser dans les répertoires de données originels pour obtenir ce dont ils ont besoin. Ils font parfois également appel à des imports de données externes à l’entreprise. Leur outil préféré est le spreadsheet et ils créent de nouveaux rapports qui sont souvent diffusés au sein de toute l’entreprise. Le data warehouse est leur source d’accès privilégiée aux données, mais ce dernier montre parfois ses limites

Enfin, les derniers 1 % des utilisateurs effectuent une analyse approfondie. Ils sont amenés à créer des sources de données entièrement nouvelles sur la base de leurs propres recherches. Ils combinent plusieurs types de données différents et posent de nouvelles questions business. Ces utilisateurs sont en mesure d’utiliser le data warehouse, mais ils s’en passent souvent car on leur demande des analyses très poussées. Parmi cette typologie d’utilisateurs, on retrouve des data scientists qui manipulent des outils d’analytics sophistiqués qu’ils préfèrent souvent alimenter avec de la donnée brute. 

Les data lakes : pour une vision globale et instantanée de votre business

Dans la mesure où les lacs de données contiennent toutes les informations et tous les types de données, ils permettent aux utilisateurs d’accéder aux données avant qu’elles n’aient été transformées, nettoyées et structurées. C’est la raison pour laquelle les utilisateurs peuvent obtenir des résultats plus rapidement que dans le cas du data warehouse traditionnel.

Toutefois, cet accès anticipé aux données a une contrepartie. Le travail habituellement effectué par l’équipe de conception du data warehouse ne peut pas être réalisé sur toutes les sources de données pourtant nécessaires pour effectuer les analyses dont les opérationnels ont besoin. Le data lake permet aux utilisateurs d’explorer et d’utiliser les données à leur convenance, mais le premier niveau d’utilisateurs décrit plus haut (les moins expérimentés) ne voudra peut-être pas faire tout ce travail ou n’en aura pas la capacité.

Pour s’assurer qu’ils aient toujours accès à leurs reportings et leurs indicateurs clés de performance, il faudra donc équiper l’entreprise d’un outil de data visualisation, ceci afin d’abaisser le niveau de complexité d’accès à la data et à son analyse de manière plus structurée.