Accueil Intelligence artificielle Sur la nature progressive de l’apprentissage auto-supervisé – The Berkeley Artificial Intelligence Research Blog

Sur la nature progressive de l’apprentissage auto-supervisé – The Berkeley Artificial Intelligence Research Blog

0
Sur la nature progressive de l’apprentissage auto-supervisé – The Berkeley Artificial Intelligence Research Blog




Figure 1 : comportement par étapes dans l’apprentissage auto-supervisé. Lors de la formation d’algorithmes SSL courants, nous constatons que la perte diminue par étapes (en haut à gauche) et que les intégrations apprises augmentent de manière itérative en dimensionnalité (en bas à gauche). La visualisation directe des plongements (à droite ; les trois directions supérieures de l’ACP illustrées) confirme que les plongements sont initialement réduits en un point, qui s’étend ensuite vers une variété 1D, une variété 2D et au-delà en même temps que les étapes de la perte.

Il est largement admis que le succès retentissant du deep learning est dû en partie à sa capacité à découvrir et à extraire des représentations utiles de données complexes. L’apprentissage auto-supervisé (SSL) est devenu un cadre de premier plan pour l’apprentissage de ces représentations d’images directement à partir de données non étiquetées, de la même manière que les LLM apprennent les représentations du langage directement à partir de texte récupéré sur le Web. Pourtant, malgré le rôle clé du SSL dans des modèles de pointe tels que AGRAFE et Milieu du voyage, des questions fondamentales telles que « qu’est-ce que les systèmes d’images autosupervisés apprennent réellement ? » et « comment cet apprentissage se produit-il réellement ? » manquent de réponses fondamentales.

Notre article récent (à paraître à l’ICML 2023) présente ce que nous suggérons la première image mathématique convaincante du processus de formation des méthodes SSL à grande échelle. Notre modèle théorique simplifié, que nous résolvons exactement, apprend certains aspects des données en une série d’étapes discrètes et bien séparées. Nous démontrons ensuite que ce comportement peut être observé à l’état sauvage dans de nombreux systèmes de pointe actuels. Cette découverte ouvre de nouvelles voies pour améliorer les méthodes SSL et permet de répondre à toute une série de nouvelles questions scientifiques qui, une fois résolues, fourniront une perspective puissante pour comprendre certains des systèmes d’apprentissage profond les plus importants d’aujourd’hui.

Arrière-plan

Nous nous concentrons ici sur les méthodes SSL à intégration conjointe – un sur-ensemble de méthodes contrastives – qui apprennent des représentations qui obéissent à des critères d’invariance de vue. La fonction de perte de ces modèles inclut un terme appliquant des intégrations correspondantes pour des « vues » sémantiquement équivalentes d’une image. Remarquablement, cette approche simple produit des représentations puissantes sur les tâches d’image, même lorsque les vues sont aussi simples que des recadrages aléatoires et des perturbations de couleur.

Théorie : apprentissage pas à pas en SSL avec des modèles linéarisés

Nous décrivons d’abord un modèle linéaire de SSL exactement résoluble dans lequel les trajectoires de formation et les intégrations finales peuvent être écrites sous forme fermée. Nous constatons notamment que l’apprentissage des représentations se divise en une série d’étapes discrètes : le rang des plongements commence petit et augmente de manière itérative au cours d’un processus d’apprentissage par étapes.

La principale contribution théorique de notre article est de résoudre exactement la dynamique de formation du Jumeaux Barlow fonction de perte sous écoulement gradient pour le cas particulier d’un modèle linéaire \(\mathbf{f}(\mathbf{x}) = \mathbf{W} \mathbf{x}\). Pour esquisser nos résultats ici, nous constatons que, lorsque l’initialisation est petite, le modèle apprend des représentations composées précisément des directions propres supérieures-\(d\) du par fonctionnalité matrice de corrélation croisée \(\boldsymbol{\Gamma} \equiv \mathbb{E}_{\mathbf{x},\mathbf{x}’} [ \mathbf{x} \mathbf{x}’^T ]\). De plus, nous constatons que ces directions propres sont apprises un à la fois dans une séquence d’étapes d’apprentissage discrètes à des moments déterminés par leurs valeurs propres correspondantes. La figure 2 illustre ce processus d’apprentissage, montrant à la fois la croissance d’une nouvelle direction dans la fonction représentée et la diminution de la perte qui en résulte à chaque étape d’apprentissage. En prime, nous trouvons une équation de forme fermée pour les plongements finaux appris par le modèle à la convergence.


Figure 2 : l’apprentissage pas à pas apparaît dans un modèle linéaire de SSL. Nous formons un modèle linéaire avec la perte de Barlow Twins sur un petit échantillon de CIFAR-10. La perte (en haut) descend selon un escalier, avec des temps de pas bien prédits par notre théorie (lignes pointillées). Les valeurs propres d’intégration (en bas) apparaissent une à la fois, correspondant étroitement à la théorie (courbes pointillées).

Notre découverte de l’apprentissage par étapes est une manifestation du concept plus large de biais spectral, qui est l’observation selon laquelle de nombreux systèmes d’apprentissage avec une dynamique approximativement linéaire apprennent préférentiellement les directions propres avec une valeur propre plus élevée. Cela a récemment été bien étudié dans le cas de l’apprentissage supervisé standard, où il a été constaté que les modes propres de valeurs propres plus élevées sont appris plus rapidement pendant l’entraînement. Notre travail trouve des résultats analogues pour SSL.

La raison pour laquelle un modèle linéaire mérite une étude approfondie est que, comme le montre le « noyau tangent neuronal » (NTK), les réseaux de neurones suffisamment larges ont également une dynamique paramétrique linéaire. Ce fait est suffisant pour étendre notre solution pour un modèle linéaire à de larges réseaux de neurones (ou en fait à des machines à noyau arbitraires), auquel cas le modèle apprend préférentiellement les directions propres supérieures \(d\) d’un opérateur particulier lié au NTK. L’étude du NTK a donné de nombreuses informations sur la formation et la généralisation de réseaux neuronaux, même non linéaires, ce qui laisse penser que certaines des informations que nous avons glanées pourraient peut-être être transférées à des cas réalistes.

Expérience : apprentissage pas à pas en SSL avec ResNets

Dans le cadre de nos principales expériences, nous entraînons plusieurs méthodes SSL de pointe avec des encodeurs ResNet-50 à grande échelle et constatons que, remarquablement, nous voyons clairement ce modèle d’apprentissage par étapes, même dans des paramètres réalistes, ce qui suggère que ce comportement est au cœur du comportement d’apprentissage de SSL.

Pour voir l’apprentissage étape par étape avec ResNets dans des configurations réalistes, tout ce que nous avons à faire est d’exécuter l’algorithme et de suivre les valeurs propres de la matrice de covariance d’intégration au fil du temps. En pratique, cela permet de mettre en évidence le comportement pas à pas pour s’entraîner également à partir d’une initialisation par paramètre plus petite que la normale et s’entraîner avec un faible taux d’apprentissage. Nous utiliserons donc ces modifications dans les expériences dont nous parlons ici et discuterons du cas standard dans notre papier.


Figure 3 : l’apprentissage par étapes est apparent dans Barlow Twins, SimCLR et VICReg. La perte et les intégrations des trois méthodes affichent un apprentissage par étapes, les intégrations augmentant de manière itérative en rang, comme le prédit notre modèle.

La figure 3 montre les pertes et l’intégration des valeurs propres de covariance pour trois méthodes SSL (Barlow Twins, SimCLR et VICReg) formées sur l’ensemble de données STL-10 avec des augmentations standard. Remarquablement, tous les trois montrent un apprentissage par étapes très clair, avec une perte décroissante dans une courbe en escalier et une nouvelle valeur propre jaillissant de zéro à chaque étape suivante. Nous montrons également un zoom avant animé sur les premières étapes de Barlow Twins dans la figure 1.

Il convient de noter que, même si ces trois méthodes sont assez différentes à première vue, on soupçonne depuis un certain temps dans le folklore qu’elles font quelque chose de similaire sous le capot. En particulier, ces méthodes SSL et d’autres à intégration conjointe atteignent toutes des performances similaires sur les tâches de référence. Le défi consiste alors à identifier les comportements partagés qui sous-tendent ces diverses méthodes. De nombreux travaux théoriques antérieurs se sont concentrés sur les similitudes analytiques de leurs fonctions de perte, mais nos expériences suggèrent un principe unificateur différent : Les méthodes SSL apprennent toutes les intégrations une dimension à la fois, en ajoutant de manière itérative de nouvelles dimensions par ordre d’importance.

Dans une dernière expérience naissante mais prometteuse, nous comparons les plongements réels appris par ces méthodes avec les prédictions théoriques calculées à partir du NTK après entraînement. Nous trouvons non seulement un bon accord entre la théorie et l’expérience au sein de chaque méthode, mais nous comparons également entre les méthodes et constatons que différentes méthodes apprennent des intégrations similaires, ajoutant ainsi un soutien supplémentaire à l’idée selon laquelle ces méthodes font finalement des choses similaires et peuvent être unifiées.

Pourquoi est-ce important

Notre travail dresse un tableau théorique de base du processus par lequel les méthodes SSL assemblent les représentations apprises au cours de la formation. Maintenant que nous avons une théorie, que pouvons-nous en faire ? Nous pensons que cette image est prometteuse à la fois pour faciliter la pratique du SSL d’un point de vue technique et pour permettre une meilleure compréhension du SSL et potentiellement un apprentissage des représentations plus largement.

D’un point de vue pratique, les modèles SSL sont notoirement lents à s’entraîner par rapport à l’entraînement supervisé, et la raison de cette différence n’est pas connue. Notre image de la formation suggère que la formation SSL met beaucoup de temps à converger car les modes propres ultérieurs ont des constantes de temps longues et mettent beaucoup de temps à se développer de manière significative. Si cette image est correcte, accélérer la formation serait aussi simple que de concentrer sélectivement le gradient sur de petites directions propres d’intégration dans le but de les amener au niveau des autres, ce qui peut en principe être fait avec une simple modification de la fonction de perte ou l’optimiseur. Nous discutons de ces possibilités plus en détail dans notre article.

Sur le plan scientifique, le cadre du SSL en tant que processus itératif permet de se poser de nombreuses questions sur les modes propres individuels. Est-ce que ceux appris en premier sont plus utiles que ceux appris plus tard ? Comment les différentes augmentations modifient-elles les modes appris, et cela dépend-il de la méthode SSL spécifique utilisée ? Pouvons-nous attribuer un contenu sémantique à n’importe quel (sous-ensemble de) modes propres ? (Par exemple, nous avons remarqué que les premiers modes appris représentent parfois des fonctions hautement interprétables comme la teinte et la saturation moyennes d’une image.) Si d’autres formes d’apprentissage des représentations convergent vers des représentations similaires – un fait facilement testable – alors les réponses à ces Ces questions peuvent avoir des implications qui s’étendent plus largement à l’apprentissage profond.

Tout bien considéré, nous sommes optimistes quant aux perspectives de travaux futurs dans ce domaine. L’apprentissage profond reste un grand mystère théorique, mais nous pensons que nos résultats constituent une base utile pour de futures études sur le comportement d’apprentissage des réseaux profonds.


Cet article est basé sur l’article « Sur la nature progressive de l’apprentissage auto-supervisé », qui est un travail conjoint avec Maksis Knutins, Liu Ziyin, Daniel Geisz et Joshua Albrecht. Ce travail a été réalisé avec Généralement intelligent où Jamie Simon est chercheur. Cet article de blog est publié de manière croisée ici. Nous serions ravis de répondre à vos questions ou commentaires.

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici