Comment une petite équipe de données distribuées prend en charge les consommateurs de données et désapprouve les actifs Snowflake avec un catalogue de données moderne
Reconnue par des milliers d’entreprises sur 40 marchés mondiaux, cette organisation est un leader en matière de logiciels et de services de voyages et de dépenses, simplifiant les voyages d’affaires pour les employés de leurs clients et offrant visibilité et contrôle à leurs parties prenantes financières.
Au service d’un ensemble diversifié de personnalités, des voyageurs occasionnels aux guerriers itinérants, en passant par les contrôleurs financiers et les directeurs financiers, l’organisation s’appuie sur des données compréhensibles et fiables pour créer des expériences client de pointe qui garantissent la satisfaction de chaque utilisateur de la plateforme. Et responsable de la technologie et des équipes qui alimentent ces données est leur directeur de la plateforme de données.
« Ma formation était en fait dans le domaine de l’énergie et de l’ingénierie, et j’ai découvert qu’il existe de nombreux parallèles entre l’ingénierie à l’ancienne et le monde des données. J’ai travaillé pour quelques entreprises solaires où j’ai appris beaucoup de choses passionnantes autour des données IoT à grande échelle », a-t-il partagé. «Je suis immédiatement tombé amoureux des données et, finalement, j’ai réussi à arriver ici, dans le domaine des voyages et des dépenses.»
Même si l’équipe chargée des données de l’organisation est peu nombreuse, son impact est significatif, grâce à un modèle de personnel qui donne la priorité à un engagement étroit avec l’entreprise et à une pile de données moderne qui garantit que son attention est concentrée sur un travail précieux plutôt que sur l’entretien administratif.
« Nous avons une petite équipe de données et fonctionnons de manière très réduite. Ici, les analyses sont décentralisées, avec de nombreux analystes, data scientists et consommateurs de données répartis dans toute l’organisation, ce qui rend parfois plus difficile l’alignement de tout le monde », a-t-il expliqué. « Heureusement, nous disposons de très bons outils qui nous ont permis de faire mieux, de fournir plus rapidement des informations à l’utilisateur final, de permettre le libre-service et de permettre aux gens de répondre à leurs propres questions. »
Cette petite équipe distribuée est assurée par Fivetran et Airflow, Snowflake, dbt et Monte Carlo pour l’observabilité et les alertes, désormais pris en charge par Atlan pour le traçage des données, le catalogage des données et le stockage des métadonnées.
Avec près de 3 000 employés dans l’organisation, dont beaucoup utilisent régulièrement des données dans leur travail quotidien, l’intégration de praticiens des données dans les équipes commerciales a contribué à accroître l’engagement envers leurs données, mais a donné lieu à d’importants échanges de questions car les consommateurs de données avaient besoin d’en savoir plus. sur les actifs disponibles.
« Nous devions nous assurer qu’ils avaient accès à quelque chose de plus avancé qu’une feuille Google. Il y avait des questions sur l’origine des données, quelles transformations ont été effectuées sur un ensemble de données, ce que signifient les données et si elles sont en cours de révision, de développement ou obsolètes », a-t-il partagé.
Initialement, en envisageant l’offre de catalogue de dbt, leur équipe pensait qu’elle était trop complexe pour les consommateurs de données non techniques, et qu’étant donné la complexité de leur implémentation de Snowflake, avec un nombre élevé de modèles de données et d’objets, ils avaient encore du travail à faire avant d’activer lignée à l’aide de l’outil.
À la recherche d’une solution SaaS bien intégrée à leur pile de données, capable de mieux servir leurs consommateurs de données et pouvant être mise en œuvre rapidement, leur responsable des données a choisi Atlan.
C’était un choix évident quand j’ai vu Atlan, ne serait-ce que grâce à sa bonne intégration avec les outils dont nous disposons. C’était Fivetran, c’était dbt, vous vous connectiez aux bases de données MySQL et à Salesforce, et des choses passionnantes arrivaient avec le partenariat Monte Carlo. Cela a donné cette expérience de bout en bout à l’utilisateur. Nous n’avons pas eu à gérer de clusters ou de ressources de calcul. Il a été facile d’inscrire les utilisateurs et de les intégrer très facilement.
Directeur de la plateforme de données
En intégrant rapidement Atlan à sa pile de données, son équipe de données s’est concentrée sur l’enrichissement des actifs dans Snowflake, en ajoutant des définitions pour les KPI couramment utilisés, en ajoutant des certifications et en permettant un traçage automatisé afin que leurs consommateurs de données puissent comprendre d’où les actifs ont été dérivés et quelles transformations ont eu lieu pour les réaliser. eux. Ensuite, ils ont activé le plug-in Google Chrome d’Atlan, garantissant que chaque fois qu’un consommateur de données consultait un tableau de bord dans Tableau, il comprenait nativement le contexte de chaque ressource de données contenue dans celui-ci.
Ensuite, en utilisant la nouvelle visibilité sur leur patrimoine de données offerte par Atlan, leur équipe de données a utilisé des mesures automatisées de traçabilité et de popularité pour commencer à identifier et à déprécier les actifs de données inutiles dans Snowflake, réduisant ainsi les coûts de stockage et améliorant la navigabilité.
« Cela permet d’économiser des coûts de calcul lorsque vous ne répliquez plus des données que personne n’utilise. Vous pouvez mettre en pause vos connecteurs Fivetran. Vous pouvez le déduire jusqu’à Tableau en utilisant la lignée, et je pense que la valeur de cela est énorme », a expliqué leur dirigeant. « Pour moi, en tant que directeur de plateforme de données dans une grande organisation, les économies étaient là tout de suite. Nous parlons de des centaines de tableauxet probablement Modèles 150 dbt qui ont été obsolètes au cours d’une période de six mois.
En améliorant la navigabilité de leur parc de données grâce à la dépréciation des actifs, et en enrichissant leurs actifs de données et en les rendant disponibles en libre-service, l’équipe de données de l’organisation tire encore plus de valeur de son engagement envers Snowflake. Avec des centaines de sources de données et de modèles, l’accès direct à Snowflake était un processus intimidant, même pour les professionnels des données chevronnés, mais avec Atlan, ces actifs sont navigables et contextualisés pour un large éventail d’utilisateurs.
« À moins que vous ne soyez familier avec vos données et que vous soyez dans une organisation depuis très longtemps, même l’intégration d’un nouvel ingénieur de données ou d’analyse est beaucoup plus facile avec Atlan. Je suis très enthousiasmé par la relation qu’Atlan et Snowflake ont bâtie », a-t-il partagé.
Avec l’adoption croissante d’Atlan, l’équipe de données de l’organisation a l’intention de redoubler d’efforts pour permettre le libre-service, en garantissant que tout membre de l’équipe d’intégration puisse rapidement connaître son patrimoine de données et qu’un large éventail d’utilisateurs, des ingénieurs aux chefs de produit et de projet, puisse trouver réponses dans un processus aussi simple que de cliquer sur un lien vers un profil d’actif Atlan.
Et maintenant que leur patrimoine de données est cartographié, avec des sources identifiées et des actifs critiques enrichis et accessibles aux utilisateurs, l’équipe de données entame un exercice visant à mieux sécuriser les informations sensibles. À l’aide d’Atlan, l’équipe chargée des données marquera les actifs avec des données sensibles telles que des informations personnellement identifiables, puis instituera des politiques de masquage et d’accès qui garantissent, quelle que soit la source d’un actif, qu’il est correctement sécurisé.
En repensant à ce que l’équipe de données de l’organisation a pu accomplir en peu de temps avec Atlan, leur responsable des données réfléchit au changement sismique qu’un catalogue de données moderne représente pour lui et son équipe.
Quel a été l’impact de Google Maps pour vous ? Quel a été l’impact du passage d’une boussole à une carte ? C’est énorme, mais pouvez-vous le quantifier ? Pouvez-vous donner une valeur monétaire à cela ? C’est difficile à faire.
Essayer de rechercher des morceaux de code ou de déterminer la lignée dans votre tête, c’est vraiment gênant. Cela vous fait gagner beaucoup de temps en tant qu’ingénieur et professionnel des données, pour pouvoir livrer très rapidement. Vous pouvez trouver ou proposer des réponses dès le départ, sans perdre une demi-heure à rechercher un problème et à essayer de comprendre la lignée et les sources de votre code.
Directeur de la plateforme de données
photo par Anete Lusiņa sur Unsplash