Snowflake, le premier datawarehouse conçu pour le cloud

Snowflake, le premier datawarehouse conçu pour le cloud

Table des matières

Les données sont devenues un actif vital pour toutes les entreprises. De leur faculté à collecter, stocker et analyser correctement la data dépend en grande partie leur capacité à générer de la croissance et à innover. C’est pour cette raison que le choix d’une plateforme de stockage des données capable de gérer de manière extensive des volumes massifs de big data tout en restant fiable est primordial pour toute organisation qui se revendique data-driven.

Snowflake est une plateforme de datawarehouse en mode SaaS qui centralise dans le cloud le stockage et le traitement de données structurées et semi-structurées. Snowflake est le premier datawarehouse sur le cloud. Dans cet article, découvrez ses principales fonctionnalités et comment mettre à profit cet outil pour atteindre vos objectifs business.

Qu’est-ce que Snowflake ?

Snowflake est une plateforme de stockage de données dans le cloud qui élimine le besoin de séparer les datawarehouses, les data lakes ou les datamarts permettant ainsi un partage sécurisé des données dans toute l’entreprise.

Snowflake est donc ce qu’on appelle un cloud data warehouse, car il combine deux caractéristiques essentielles : celle d’être une base de données de type data warehouse et celle de fonctionner uniquement en mode SaaS. Autrement dit, ill s’agit d’une base de données relationnelle en colonne avec exécution vectorisée qui peut prendre en charge les tâches d’analyse de données les plus exigeantes.

Les trois couches de Snowflake

Contrairement aux entrepôts de données traditionnels, Snowflake propose une architecture big data multicluster séparée en trois couches distinctes :

  1. Le stockage de données dans la database ;
  2. Le calcul, c’est-à-dire le traitement des requêtes ;
  3. Les services cloud.

En séparant ces composants, notamment le calcul et le stockage, Snowflake permet de simplifier la maintenance et d’améliorer les performances globales de l’outil. C’est une fonctionnalité importante, car presque toutes les autres bases de données, y compris Redshift, combinent calcul et stockage.

Lorsque les données sont intégrées à Snowflake, l’outil les compresse et le réorganise. Les données brutes ne sont plus accessibles directement, mais uniquement via des requêtes SQL, R ou Python. Les requêtes sur les données sont alors exécutées sur des « virtual warehouses », ou entrepôts de données virtuels.

  •  L’intérêt, c’est que chaque datawarehouse virtuel est capable de gérer une multitude de requêtes simultanées et que la taille du cluster de calcul s’adapte automatiquement à la charge de travail à un instant T.
  • Autre atout : les différents entrepôts virtuels ne partagent aucune ressource, ni de calcul, ni de mémoire, ni de stockage, permettant à chaque entrepôt de ne pas avoir de conflit de ressources ou de requêtes en concurrence sur une même donnée.

Enfin, les services cloud permettent à différents types d’utilisateurs de coordonner leurs activités au sein d’un datawarehouse. Ces services servent par exemple aux utilisateurs lorsqu’ils souhaitent s’identifier, lancer une requête ou encore administrer un cluster.

Quels sont les avantages offerts par Snowflake ?

 

Il y a de nombreux avantages à choisir Snowflake pour stocker vos datas dans le cloud :

Une évolutivité (scalabilité) instantanée et quasi illimitée

Snowflake peut supporter autant d’utilisateurs simultanés et termes de charge de travail : vous n’arriverez probablement pas à atteindre les limites de l’outil. Par nature, le cloud est « élastique » et adaptable. Cela signifie que si vous souhaitez ponctuellement intégrer des données plus rapidement ou exécuter un volume élevé de requêtes, vous pouvez scaler, c’est-à-dire augmenter la taille de votre entrepôt virtuel pour bénéficier de ressources de calcul supplémentaires immédiatement. Ensuite, vous pouvez réduire la taille de l’entrepôt virtuel et ne payer que pour le temps utilisé.

Stockage et prise en charge des données structurées et semi-structurées

Vous pouvez combiner des données structurées et semi-structurées pour les analyser et les intégrer dans une base de données dans le cloud sans qu’il soit nécessaire de les convertir ou de les transformer au préalable en un schéma relationnel fixe. Snowflake optimise automatiquement la manière dont les données sont stockées et interrogées.

Concurrence et accessibilité

Snowflake est extrêmement performant pour répondre à des requêtes complexes sur des volumes très larges. Avec un data warehouse traditionnel et un grand nombre d’utilisateurs, vous pouvez rencontrer des problèmes dus à tels que des temps de réponses élevés ou des échecs (fails) lorsque trop de requêtes sont en concurrence pour l’utilisation des mêmes ressources.

Snowflake résout les problèmes de concurrence grâce à son architecture multicluster unique : les requêtes d’un entrepôt virtuel n’affectent jamais les requêtes d’un autre, et chaque entrepôt virtuel peut évoluer (scale up ou scale down) en fonction des besoins. Les data analysts et les data scientists accèdent à ce dont ils ont besoin quand ils en ont besoin, sans attendre que les autres opérations de loading et de traitement soient terminées.

Fiabilité et sécurité

Snowflake est distribué à travers les zones de disponibilité de la plateforme sur laquelle il fonctionne — AWS ou Azure — et est conçu pour fonctionner en continu et tolérer les dysfonctionnements de certains composants hardware et de défaillances réseau avec un impact minimal pour les clients. L’outil est certifié SOC 2 type II et des niveaux de sécurité supplémentaires — tels que la prise en charge des données PHI pour les clients HIPAA et le cryptage de toutes les communications réseau — sont disponibles.

Partage de données fluide et transparent

L’architecture de Snowflake permet le partage des données entre les utilisateurs de Snowflake. Elle permet également aux entreprises de partager des données de manière fluide et transparente avec n’importe quel utilisateur de données — qu’il soit client de Snowflake ou non -— grâce à des comptes « read only » qui peuvent être créés directement à partir de l’interface utilisateur. Cette fonctionnalité permet au fournisseur de créer et de gérer un compte Snowflake pour un utilisateur ou un client.

Facturation sur Snowflake

L’architecture partagée multiclusters de Snowflake dissocie les ressources de stockage des ressources de calcul, ce qui permet aux entreprises de bénéficier d’une tarification à la seconde pour le calcul. En revanche, le stockage est facturé au téraoctet par mois. En raison de l’approche unique de l’architecture de Snowflake, les charges de travail s’exécutent en parallèle sans aucun conflit.

Vous souhaitez mettre vos données d’entreprise au service de votre performance ? Découvrez le pouvoir de la smart data avec Redstone Partners. Notre solution smart data et nos outils, à la fois robustes et simples d’utilisation, vous permettent de comprendre, de détecter, de prédire des tendances et de tirer des conclusions sur vos résultats actuels et à venir.

Contactez-nous !

Sponsored by IBM