Nous sommes ravis d’annoncer l’aperçu public de l’optimisation prédictive Databricks. Cette fonctionnalité optimise intelligemment la disposition des données de vos tables pour améliorer les performances et la rentabilité.
Les leviers de l’optimisation prédictive Catalogue Unity et IA de Lakehouse pour déterminer les meilleures optimisations à effectuer sur vos données, puis exécute ces opérations sur une infrastructure sans serveur spécialement conçue. Cela simplifie considérablement votre parcours Lakehouse, vous libérant ainsi du temps pour vous concentrer sur l’exploitation de la valeur commerciale de vos données.
Cette fonctionnalité est la dernière d’une longue lignée de fonctionnalités Databricks qui exploitent l’IA pour effectuer de manière prédictive des actions basées sur vos données et leurs modèles d’accès. Auparavant, nous avons publié E/S prédictives pour les lectures et mises à jourqui appliquent ces techniques lors de l’exécution de requêtes de lecture et de mise à jour.
Défi
Les tables Lakehouse bénéficient grandement des optimisations en arrière-plan qui améliorent la présentation de leurs données. Cela inclut le compactage des fichiers pour garantir une taille de fichier appropriée, ou l’aspiration pour nettoyer les fichiers de données inutiles. Une optimisation appropriée améliore considérablement les performances tout en réduisant les coûts.
Cependant, cela crée un défi permanent pour les équipes d’ingénierie des données, qui doivent comprendre :
- Quelles optimisations réaliser ?
- Quels tableaux faut-il optimiser ?
- À quelle fréquence exécuter ces optimisations ?
À mesure que les plateformes Lakehouse grandissent et deviennent de plus en plus en libre-service, les équipes chargées des plateformes trouvent pratiquement impossible de répondre efficacement à ces questions. Un sentiment récurrent que nous avons entendu de la part de nos clients est qu’ils ne peuvent pas suivre l’optimisation du nombre de tables créées à partir de tous les nouveaux cas d’utilisation commerciale.
De plus, même une fois ces questions épineuses résolues, les équipes doivent toujours faire face à la charge opérationnelle liée à la planification et à l’exécution de ces optimisations (par exemple, la planification des tâches, le diagnostic des pannes et la gestion de l’infrastructure sous-jacente).
Comment fonctionne l’optimisation prédictive
Avec l’optimisation prédictive, Databricks s’attaque à ces problèmes épineux pour vous, vous libérant ainsi un temps précieux pour vous concentrer sur la création de valeur commerciale avec vos données. L’optimisation prédictive peut être activée d’un simple clic. À partir de là, c’est lui qui fait tout le gros du travail.
Premièrement, l’optimisation prédictive détermine intelligemment les optimisations à exécuter et à quelle fréquence. Notre modèle d’IA prend en compte un large éventail d’entrées, y compris les modèles d’utilisation de vos tables, ainsi que la disposition de leurs données existantes et leurs caractéristiques de performances. Il génère ensuite le calendrier d’optimisation idéal, en pesant les avantages attendus de l’optimisation par rapport aux coûts de calcul attendus.
Une fois le planning généré, Predictive Optimization exécute automatiquement ces optimisations sur l’infrastructure sans serveur spécialement conçue. Il gère automatiquement le nombre et la taille corrects de machines et garantit que les tâches d’optimisation sont correctement regroupées et planifiées pour une efficacité optimale.
L’ensemble du système fonctionne de bout en bout sans nécessiter d’ajustements et de réglages manuels, et apprend de l’utilisation de votre organisation au fil du temps, optimisant les tables qui comptent pour votre organisation tout en réduisant la priorité de celles qui ne le sont pas. Vous êtes facturé uniquement pour le calcul sans serveur requis pour effectuer les optimisations. Prêtes à l’emploi, toutes les opérations sont enregistrées dans une table système, ce qui vous permet de facilement auditer et comprendre l’impact et le coût des opérations.
Impact
Au cours des derniers mois, nous avons inscrit un certain nombre de clients au programme d’aperçu privé pour l’optimisation prédictive. Beaucoup ont observé qu’il est capable de trouver le juste milieu entre deux extrêmes courants :
D’un côté, certaines organisations n’ont pas encore mis en place de pipelines sophistiqués d’optimisation des tables. Avec l’optimisation prédictive, ils peuvent commencer instantanément à optimiser leurs tables sans déterminer le meilleur calendrier d’optimisation ni gérer l’infrastructure.
À l’autre extrême, certaines organisations peuvent surinvestir dans l’optimisation. Par exemple, pour une équipe qui automatise ses pipelines d’optimisation, il est tentant d’exécuter des tâches OPTIMIZE ou VACUUM horaires ou quotidiennes. Cependant, ceux-ci présentent le risque de rendements décroissants. Les mêmes gains de performances pourraient-ils être obtenus avec moins d’opérations d’optimisation ?
L’optimisation prédictive aide à trouver le bon équilibre, en garantissant que les optimisations sont exécutées uniquement avec un retour sur investissement élevé :
À titre d’exemple concret, l’équipe d’ingénierie des données d’Anker a activé l’optimisation prédictive et a rapidement réalisé ces avantages :
50% de réduction des coûts annuels de stockage |
|
Commencer
À partir d’aujourd’hui, l’optimisation prédictive est disponible en version préliminaire publique. L’activer devrait prendre moins de cinq minutes. En tant qu’administrateur de compte, accédez simplement à la console du compte > paramètres > onglet d’activation des fonctionnalités et activez le paramètre Optimisation prédictive :
Voir la documentation pour plus d’informations.
Et nous ne faisons que commencer ici. Dans les mois à venir, nous continuerons d’ajouter d’autres optimisations à cette fonctionnalité. Restez à l’écoute pour bien plus à venir.