Accueil Big Data Présentation de l’optimisation prédictive : requêtes plus rapides, stockage moins cher, sans effort

Présentation de l’optimisation prédictive : requêtes plus rapides, stockage moins cher, sans effort

0
Présentation de l’optimisation prédictive : requêtes plus rapides, stockage moins cher, sans effort


Nous sommes ravis d’annoncer l’aperçu public de l’optimisation prédictive Databricks. Cette fonctionnalité optimise intelligemment la disposition des données de vos tables pour améliorer les performances et la rentabilité.

Les leviers de l’optimisation prédictive Catalogue Unity et IA de Lakehouse pour déterminer les meilleures optimisations à effectuer sur vos données, puis exécute ces opérations sur une infrastructure sans serveur spécialement conçue. Cela simplifie considérablement votre parcours Lakehouse, vous libérant ainsi du temps pour vous concentrer sur l’exploitation de la valeur commerciale de vos données.

Cette fonctionnalité est la dernière d’une longue lignée de fonctionnalités Databricks qui exploitent l’IA pour effectuer de manière prédictive des actions basées sur vos données et leurs modèles d’accès. Auparavant, nous avons publié E/S prédictives pour les lectures et mises à jourqui appliquent ces techniques lors de l’exécution de requêtes de lecture et de mise à jour.

Défi

Les tables Lakehouse bénéficient grandement des optimisations en arrière-plan qui améliorent la présentation de leurs données. Cela inclut le compactage des fichiers pour garantir une taille de fichier appropriée, ou l’aspiration pour nettoyer les fichiers de données inutiles. Une optimisation appropriée améliore considérablement les performances tout en réduisant les coûts.

Cependant, cela crée un défi permanent pour les équipes d’ingénierie des données, qui doivent comprendre :

  • Quelles optimisations réaliser ?
  • Quels tableaux faut-il optimiser ?
  • À quelle fréquence exécuter ces optimisations ?

À mesure que les plateformes Lakehouse grandissent et deviennent de plus en plus en libre-service, les équipes chargées des plateformes trouvent pratiquement impossible de répondre efficacement à ces questions. Un sentiment récurrent que nous avons entendu de la part de nos clients est qu’ils ne peuvent pas suivre l’optimisation du nombre de tables créées à partir de tous les nouveaux cas d’utilisation commerciale.

De plus, même une fois ces questions épineuses résolues, les équipes doivent toujours faire face à la charge opérationnelle liée à la planification et à l’exécution de ces optimisations (par exemple, la planification des tâches, le diagnostic des pannes et la gestion de l’infrastructure sous-jacente).

Comment fonctionne l’optimisation prédictive

Avec l’optimisation prédictive, Databricks s’attaque à ces problèmes épineux pour vous, vous libérant ainsi un temps précieux pour vous concentrer sur la création de valeur commerciale avec vos données. L’optimisation prédictive peut être activée d’un simple clic. À partir de là, c’est lui qui fait tout le gros du travail.

Databricks détermine intelligemment le meilleur calendrier d'optimisations, exécute ces optimisations et enregistre leur impact dans une table système pour une observabilité facile.

Premièrement, l’optimisation prédictive détermine intelligemment les optimisations à exécuter et à quelle fréquence. Notre modèle d’IA prend en compte un large éventail d’entrées, y compris les modèles d’utilisation de vos tables, ainsi que la disposition de leurs données existantes et leurs caractéristiques de performances. Il génère ensuite le calendrier d’optimisation idéal, en pesant les avantages attendus de l’optimisation par rapport aux coûts de calcul attendus.

Une fois le planning généré, Predictive Optimization exécute automatiquement ces optimisations sur l’infrastructure sans serveur spécialement conçue. Il gère automatiquement le nombre et la taille corrects de machines et garantit que les tâches d’optimisation sont correctement regroupées et planifiées pour une efficacité optimale.

L’ensemble du système fonctionne de bout en bout sans nécessiter d’ajustements et de réglages manuels, et apprend de l’utilisation de votre organisation au fil du temps, optimisant les tables qui comptent pour votre organisation tout en réduisant la priorité de celles qui ne le sont pas. Vous êtes facturé uniquement pour le calcul sans serveur requis pour effectuer les optimisations. Prêtes à l’emploi, toutes les opérations sont enregistrées dans une table système, ce qui vous permet de facilement auditer et comprendre l’impact et le coût des opérations.

Impact

Au cours des derniers mois, nous avons inscrit un certain nombre de clients au programme d’aperçu privé pour l’optimisation prédictive. Beaucoup ont observé qu’il est capable de trouver le juste milieu entre deux extrêmes courants :

Les images côte à côte montrent les compromis entre les performances des requêtes et le coût entre aucune optimisation et des optimisations manuelles quotidiennes.

D’un côté, certaines organisations n’ont pas encore mis en place de pipelines sophistiqués d’optimisation des tables. Avec l’optimisation prédictive, ils peuvent commencer instantanément à optimiser leurs tables sans déterminer le meilleur calendrier d’optimisation ni gérer l’infrastructure.

À l’autre extrême, certaines organisations peuvent surinvestir dans l’optimisation. Par exemple, pour une équipe qui automatise ses pipelines d’optimisation, il est tentant d’exécuter des tâches OPTIMIZE ou VACUUM horaires ou quotidiennes. Cependant, ceux-ci présentent le risque de rendements décroissants. Les mêmes gains de performances pourraient-ils être obtenus avec moins d’opérations d’optimisation ?

L’optimisation prédictive aide à trouver le bon équilibre, en garantissant que les optimisations sont exécutées uniquement avec un retour sur investissement élevé :

Les graphiques côte à côte montrent qu'en termes de performances et de coûts des requêtes, l'optimisation prédictive trouve le bon équilibre et n'exécute que des optimisations avec un retour sur investissement élevé.

À titre d’exemple concret, l’équipe d’ingénierie des données d’Anker a activé l’optimisation prédictive et a rapidement réalisé ces avantages :

Logo de la société AnkerAccélération des requêtes 2x

50% de réduction des coûts annuels de stockage

graphique des coûts de stockage annuels au fil du temps

« Les optimisations prédictives de Databricks ont optimisé intelligemment notre stockage Unity Catalog, ce qui nous a permis d’économiser 50 % sur les coûts de stockage annuels tout en accélérant nos requêtes de >2x. Il a appris à donner la priorité à nos tables les plus grandes et les plus consultées. Et tout cela a été fait automatiquement, ce qui a permis à notre équipe de gagner un temps précieux. — Shu Li, responsable de l’ingénierie des données, Anker

Commencer

À partir d’aujourd’hui, l’optimisation prédictive est disponible en version préliminaire publique. L’activer devrait prendre moins de cinq minutes. En tant qu’administrateur de compte, accédez simplement à la console du compte > paramètres > onglet d’activation des fonctionnalités et activez le paramètre Optimisation prédictive :

Définissez le champ Optimisation prédictive dans la console du compte > Paramètres > Activation des fonctionnalités. » data-entity-type= »file » data-entity-uuid= »11ad54b8-7f7f-4ff6-aabe-78e82b8c8e54″ src= »https://www.databricks.com/sites/default/files/inline-images/image3_7.png » width= »1406″ height= »414″ loading= »lazy » data-ot-ignore= »1″/></p>
<p>En un seul clic, vous bénéficierez de la puissance d’une disposition des données optimisée par l’IA dans vos tables gérées par Unity Catalog, ce qui rendra vos données plus rapides et plus rentables. <a data-external-link=Voir la documentation pour plus d’informations.

Et nous ne faisons que commencer ici. Dans les mois à venir, nous continuerons d’ajouter d’autres optimisations à cette fonctionnalité. Restez à l’écoute pour bien plus à venir.

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici