Accueil Big Data Annonce de GA d’E/S prédictives pour les mises à jour : requêtes DML plus rapides, dès la sortie de la boîte

Annonce de GA d’E/S prédictives pour les mises à jour : requêtes DML plus rapides, dès la sortie de la boîte

0
Annonce de GA d’E/S prédictives pour les mises à jour : requêtes DML plus rapides, dès la sortie de la boîte


Nous sommes ravis d’annoncer la disponibilité générale des E/S prédictives pour les mises à jour.

Cette capacité exploite Photon et IA de Lakehouse afin d’accélérer considérablement les opérations DML (Data Manipulation Language) telles que MERGE, UPDATE et DELETE, sans modification des performances des requêtes de lecture.

Les E/S prédictives pour les mises à jour y parviennent grâce à un modèle d’IA qui s’applique intelligemment Vecteurs de suppressionun Lac Delta capacité, qui permet le suivi des lignes supprimées via des fichiers bitmap hyper-optimisés. Le résultat net est des requêtes nettement plus rapides avec une surcharge significative pour les équipes d’ingénierie des données.

Peu de temps après GA, nous activerons Predictive I/O pour les mises à jour par défaut sur les nouvelles tables. Pour vous inscrire immédiatement, reportez-vous à notre Documentation ou les étapes à la toute fin de cet article.

Approches traditionnelles : choisissez votre poison

Traditionnellement, il existe deux approches pour traiter les requêtes DML, chacune présentant des forces et des faiblesses différentes.

La première approche, la plus courante, est la « copie sur écriture ». Les moteurs de requête identifieraient les fichiers contenant les lignes nécessitant une modification, puis réécriraient toutes les lignes non modifiées dans un nouveau fichier, en filtrant les lignes supprimées et en ajoutant celles mises à jour.

Avec cette approche, les écritures peuvent être très coûteuses. Il est courant qu’avec les requêtes DML, seules quelques lignes soient modifiées. Avec la copie sur écriture, cela entraîne une réécriture de la quasi-totalité du fichier, même si très peu de choses ont changé !

L'image montre trois fichiers qui ont été modifiés.  La copie sur écriture nécessite que chaque fichier soit réécrit en fonction des modifications, même si les mises à jour des données sont petites.

Une approche alternative est la « fusion après lecture ». Au lieu de réécrire l’intégralité du fichier, des fichiers journaux sont écrits pour suivre les lignes supprimées. Le lecteur reconstitue ensuite le tableau en lisant à la fois les fichiers de données et les fichiers journaux supplémentaires.

Avec la fusion sur lecture, les écritures sont beaucoup plus rapides : plus besoin de réécrire les fichiers inchangés. Cependant, les lectures deviennent de plus en plus coûteuses au fil du temps à mesure que des fichiers journaux plus volumineux sont générés, que le lecteur doit tous reconstituer. L’utilisateur final doit également déterminer quand « purger » ces fichiers journaux – en réécrivant les fichiers journaux et les fichiers de données dans un nouveau fichier de données – afin de maintenir des performances de lecture raisonnables.

L'image montre trois fichiers qui ont été modifiés.  En fusion après lecture, les 3 fichiers modifiés ainsi que leur fichier journal entraînent des lectures coûteuses.

Le résultat final : les approches traditionnelles ont chacune leurs propres forces et faiblesses, vous obligeant à « choisir votre poison ». Pour chaque table, vous devez vous demander : la copie sur écriture ou la fusion sur lecture sont-elles meilleures pour ce cas d’utilisation ? Et si vous optez pour cette dernière solution, à quelle fréquence devez-vous purger vos fichiers journaux ?

Présentation des E/S prédictives pour les mises à jour : l’IA offre le meilleur de tous les mondes

Les E/S prédictives pour les mises à jour offrent le meilleur de tous les mondes : des opérations DML ultra-rapides et d’excellentes performances de lecture, le tout sans que les utilisateurs aient besoin de décider quand « purger » les fichiers journaux. Ceci est réalisé à l’aide d’un modèle d’IA pour déterminer automatiquement quand appliquer et purger les vecteurs de suppression de Delta Lake.

Les tableaux écrits par Predictive I/O pour les mises à jour restent au format ouvert Delta Lake, lisible par l’écosystème de connecteurs Delta Lake, notamment Trino et Spark exécutant OSS Delta 2.3.0 et supérieur.

Dans les tests de charges de travail MERGE d’entreposage de données typiques, les E/S prédictives pour les mises à jour offrent des améliorations de performances 10 fois supérieures à celles de la période de référence. Fusion à faible brassage technique utilisée par Photon auparavant.

L'image montre que Classic MERGE prend le plus de temps.  La MERGE à faible brassage est moins chère et les E/S prédictives pour les mises à jour réduisent la durée de la MERGE jusqu'à 10 fois.

Depuis le Aperçu public des E/S prédictives pour les mises à jour a été annoncé en avril, nous avons travaillé avec des centaines de clients qui ont utilisé avec succès cette fonctionnalité pour obtenir d’énormes gains de performances sur leurs requêtes DML.

Pendant ce temps, Predictive I/O pour les mises à jour a écrit plusieurs milliards de vecteurs de suppression, et nous avons utilisé ces données pour affiner davantage les modèles d’IA qui sont utilisés pour déterminer le meilleur moment pour appliquer les vecteurs de suppression. Nous avons constaté qu’au total, les vecteurs de suppression ont évité la réécriture inutile de plus de 15 000 milliards de lignes, qui autrement auraient été écrites selon des approches de copie sur écriture. Il n’est pas étonnant que les clients aient signalé des accélérations significatives de leurs charges de travail DML :

« Les E/S prédictives pour les mises à jour nous ont aidé à accélérer considérablement nos opérations DML, en réduisant les coûts de calcul et en accélérant le temps d’obtention d’informations. Nous sommes heureux que cette fonctionnalité ait été configurée et oubliée, nous libérant ainsi du temps pour nous concentrer sur tirer de la valeur commerciale de nos données. » — Antonio del Rio, Ingénierie des données, Avoristech

Bientôt disponible : E/S prédictives pour les mises à jour activées dès la sortie de la boîte pour les tables nouvellement créées

Les résultats prometteurs de la préversion publique nous ont donné la confiance nécessaire non seulement pour amener cette fonctionnalité à la disponibilité générale, mais également pour commencer à activer les E/S prédictives par défaut pour les tables nouvellement créées. Ces changements s’appliqueront également à l’activation des vecteurs de suppression, même pour les clusters sans Photon activé, ce qui devrait toujours voir une amélioration des performances (bien que d’une ampleur moindre que les E/S prédictives pour les mises à jour).

Cette amélioration vous aidera à obtenir des améliorations de performances dès le départ sans avoir à vous rappeler de définir les propriétés de la table associée.

Vous pouvez activer Predictive I/O pour les mises à jour sur vos charges de travail via un nouveau paramètre d’espace de travail. Ce paramètre est désormais disponible sur Azure et AWS, et le sera bientôt dans GCP. Pour y accéder :

  • En tant qu’administrateur d’espace de travail, accédez à Paramètres d’administration pour l’espace de travail
  • Sélectionnez le Paramètres de l’espace de travail languette
  • Accédez au paramètre intitulé Activer automatiquement les vecteurs de suppression

Ce paramètre prend effet pour tous les entrepôts et clusters Databricks SQL avec le runtime Databricks 14.0+.

Alternativement, ce même paramètre peut être utilisé pour désactiver l’activation par défaut, en définissant simplement le paramètre sur Désactivé.

Activez les E/S prédictives dès aujourd’hui pour bénéficier de la puissance de l’IA et dynamiser vos requêtes DML ! Et soyez attentif aux nouvelles fonctionnalités Databricks basées sur l’IA qui seront bientôt disponibles.

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici