Figure 1 : Architecture CoarsenConf.
La génération de conformères moléculaires est une tâche fondamentale en chimie computationnelle. L’objectif est de prédire des structures moléculaires 3D stables à basse énergie, appelées conformères, étant donné la molécule 2D. Des conformations moléculaires précises sont cruciales pour diverses applications qui dépendent de qualités spatiales et géométriques précises, notamment la découverte de médicaments et l’amarrage des protéines.
Nous introduisons CoarsenConf, un auto-encodeur variationnel hiérarchique (VAE) équivariant SE (3) qui regroupe les informations des coordonnées atomiques à grain fin vers une représentation au niveau du sous-graphe à grain grossier pour une génération efficace de conformateur autorégressif.
Arrière-plan
Le gros grain réduit la dimensionnalité du problème, permettant une génération autorégressive conditionnelle plutôt que de générer toutes les coordonnées indépendamment, comme cela a été fait dans des travaux antérieurs. En conditionnant directement les coordonnées 3D des sous-graphes générés précédemment, notre modèle se généralise mieux à des sous-graphes chimiquement et spatialement similaires. Cela imite le processus de synthèse moléculaire sous-jacent, où de petites unités fonctionnelles se lient ensemble pour former de grosses molécules ressemblant à des médicaments. Contrairement aux méthodes précédentes, CoarsenConf génère des conformères à faible énergie avec la possibilité de modéliser directement les coordonnées atomiques, les distances et les angles de torsion.
L’architecture CoarsenConf peut être divisée en les composants suivants :
(JE) L’encodeur $q_\phi(z| X, \mathcal{R})$ prend le conformateur de vérité terrain à grain fin (FG) $X$, le conformateur approximatif RDKit $\mathcal{R}$ et le conformateur à grain grossier (CG ) conformère $\mathcal{C}$ comme entrées (dérivées de $X$ et d’une stratégie CG prédéfinie), et génère une représentation CG équivariante de longueur variable via le passage de messages équivariants et des convolutions ponctuelles.
(II) Des MLP équivariantes sont appliquées pour connaître la moyenne et la variance logarithmique des distributions postérieure et antérieure.
(III) Le postérieur (entraînement) ou le préalable (inférence) est échantillonné et introduit dans le module de sélection de canal, où une couche d’attention est utilisée pour apprendre le chemin optimal de la structure CG à FG.
(IV) Étant donné le vecteur latent FG et l’approximation RDKit, le décodeur $p_\theta(X |\mathcal{R}, z)$ apprend à récupérer la structure FG basse énergie grâce au passage de messages équivariants autorégressifs. L’ensemble du modèle peut être entraîné de bout en bout en optimisant la divergence KL des distributions latentes et l’erreur de reconstruction des conformères générés.
Formalisme des tâches MCG
Nous formalisons la tâche de génération de conformateurs moléculaires (MCG) en modélisant la distribution conditionnelle $p(X|\mathcal{R})$, où $\mathcal{R}$ est le conformateur approximatif généré par RDKit et $X$ est le conformateur optimal. conformateur(s) à faible consommation d’énergie. RDKit, une bibliothèque Cheminformatics couramment utilisée, utilise un algorithme basé sur la géométrie de distance bon marché, suivi d’une optimisation basée sur la physique peu coûteuse, pour obtenir des approximations raisonnables du conformateur.
Gros grain
Figure 2 : Procédure de gros grain.
(JE) Exemple de gros grain de longueur variable. Les molécules à grains fins sont divisées le long de liaisons rotatives qui définissent des angles de torsion. Ils sont ensuite grossiers pour réduire la dimensionnalité et apprendre une distribution latente au niveau du sous-graphe. (II) Visualisation d’un conformateur 3D. Des paires d’atomes spécifiques sont mises en évidence pour les opérations de transmission de messages du décodeur.
La granulation moléculaire à gros grains simplifie la représentation d’une molécule en regroupant les atomes à grains fins (FG) de la structure d’origine en billes individuelles à gros grains (CG) $\mathcal{B}$ avec une cartographie basée sur des règles, comme le montre la figure 2. (JE). Le grain grossier a été largement utilisé dans la conception de protéines et de molécules, et de manière analogue, la génération au niveau des fragments ou des sous-graphes s’est avérée très utile dans diverses tâches de conception de molécules 2D. Décomposer les problèmes génératifs en morceaux plus petits est une approche qui peut être appliquée à plusieurs tâches de molécules 3D et fournit une réduction naturelle de la dimensionnalité pour permettre de travailler avec de grands systèmes complexes.
Nous notons que par rapport aux travaux antérieurs axés sur les stratégies CG de longueur fixe où chaque molécule est représentée avec une résolution fixe de billes $N$ CG, notre méthode utilise le CG de longueur variable pour sa flexibilité et sa capacité à prendre en charge tout choix de particules grossières. technique de grainage. Cela signifie qu’un seul modèle CoarsenConf peut se généraliser à n’importe quelle résolution à gros grains, car les molécules d’entrée peuvent être mappées sur n’importe quel nombre de billes CG. Dans notre cas, les atomes constitués de chaque composant connecté résultant de la rupture de toutes les liaisons rotatives sont grossiers en une seule perle. Ce choix dans la procédure CG force implicitement le modèle à apprendre les angles de torsion, ainsi que les coordonnées atomiques et les distances inter-atomiques. Dans nos expériences, nous utilisons GEOM-QM9 et GEOM-DRUGS, qui possèdent en moyenne respectivement 11 atomes et 3 billes CG, et 44 atomes et 9 billes CG.
SE(3)-Équivariance
Un aspect clé lorsque l’on travaille avec des structures 3D est de maintenir une équivariance appropriée. Les molécules tridimensionnelles sont équivariantes sous rotations et traductions, ou équivariance SE(3). Nous appliquons l’équivariance SE(3) dans l’encodeur, le décodeur et l’espace latent de notre modèle probabiliste CoarsenConf. En conséquence, $p(X | \mathcal{R})$ reste inchangé pour toute rototranslation du conformateur approximatif $\mathcal{R}$. De plus, si $\mathcal{R}$ subit une rotation de 90° dans le sens des aiguilles d’une montre, nous nous attendons à ce que le $X$ optimal présente la même rotation. Pour une définition approfondie et une discussion sur les méthodes de maintien de l’équivariance, veuillez consulter le document complet.
Attention globale
Figure 3 : Backmapping grossier à fin de longueur variable via l’attention agrégée.
Nous introduisons une méthode, que nous appelons Aggregated Attention, pour apprendre le mappage optimal de longueur variable de la représentation CG latente aux coordonnées FG. Il s’agit d’une opération de longueur variable car une seule molécule avec $n$ atomes peut être mappée sur n’importe quel nombre de billes $N$ CG (chaque bille est représentée par un seul vecteur latent). Le vecteur latent d’une seule perle CG $Z_{B}$ $\in R^{F \times 3}$ est utilisé comme clé et valeur d’une opération d’attention à une seule tête avec une dimension d’intégration de trois pour correspondre au x, coordonnées y, z. Le vecteur de requête est le sous-ensemble du conformateur RDKit correspondant à la perle $B$ $\in R^{ n_{B} \times 3}$, où $n_B$ est de longueur variable car nous savons a priori à combien d’atomes FG correspondent à une certaine perle CG. En tirant parti de l’attention, nous apprenons efficacement la combinaison optimale de caractéristiques latentes pour la reconstruction FG. Nous appelons cela l’attention agrégée car elle regroupe des segments 3D d’informations FG pour former notre requête latente. L’attention agrégée est responsable de la traduction efficace de la représentation CG latente en coordonnées FG viables (Figure 1 (III)).
Modèle
CoarsenConf est un VAE hiérarchique avec un codeur et un décodeur équivariants SE(3). L’encodeur fonctionne sur les caractéristiques atomiques invariantes SE(3) $h \in R^{ n \times D}$ et les coordonnées atomistiques équivariantes SE(3) $x \in R^{n \times 3}$. Une seule couche d’encodeur est composée de trois modules : à granularité fine, en pool et à granularité grossière. Les équations complètes pour chaque module peuvent être trouvées dans le document complet. L’encodeur produit un tenseur CG équivariant final $Z \in R^{N \times F \times 3}$, où $N$ est le nombre de billes et F est la taille latente définie par l’utilisateur.
Le rôle du décodeur est double. La première consiste à reconvertir la représentation latente grossière en espace FG via un processus que nous appelons sélection de canal, qui exploite l’attention agrégée. La seconde consiste à affiner la représentation à grain fin de manière autorégressive pour générer les coordonnées finales à faible énergie (Figure 1 (IV)).
Nous soulignons qu’en granulant grossièrement par connectivité d’angle de torsion, notre modèle apprend les angles de torsion optimaux de manière non supervisée car l’entrée conditionnelle du décodeur n’est pas alignée. CoarsenConf garantit que chaque sous-graphe généré suivant subit une rotation correcte pour obtenir une faible erreur de coordonnée et de distance.
Résultats expérimentaux
Tableau 1: Qualité des ensembles de conformères générés pour l’ensemble de tests GEOM-DRUGS ($\delta=0,75Å$) en termes de couverture (%) et de RMSD moyen ($Å$). CoarsenConf (5 époques) s’est limité à l’utilisation de 7,3 % des données utilisées par Torsional Diffusion (250 époques) pour illustrer un régime de calcul faible et limité en données.
L’erreur moyenne (AR) est la mesure clé qui mesure le RMSD moyen pour les molécules générées de l’ensemble de tests approprié. La couverture mesure le pourcentage de molécules pouvant être générées dans un seuil d’erreur spécifique ($\delta$). Nous introduisons les métriques moyenne et maximale pour mieux évaluer la génération robuste et éviter le biais d’échantillonnage de la métrique min. Nous soulignons que la métrique min produit des résultats intangibles, car à moins que le conformère optimal ne soit connu a priori, il n’y a aucun moyen de savoir lequel des conformères générés par 2L pour une seule molécule est le meilleur. Le tableau 1 montre que CoarsenConf génère l’erreur moyenne la plus faible et la pire des cas sur l’ensemble de l’ensemble de tests de molécules DRUGS. Nous montrons en outre que RDKit, avec une optimisation basée sur la physique (MMFF) peu coûteuse, permet d’obtenir une meilleure couverture que la plupart des méthodes basées sur l’apprentissage profond. Pour des définitions formelles des mesures et des discussions plus approfondies, veuillez consulter le document complet lié ci-dessous.
Pour plus de détails sur CoarsenConf, lire l’article sur arXiv.
BibTex
Si CoarsenConf inspire votre travail, pensez à le citer avec :
@article{reidenbach2023coarsenconf,
title={CoarsenConf: Equivariant Coarsening with Aggregated Attention for Molecular Conformer Generation},
author={Danny Reidenbach and Aditi S. Krishnapriyan},
journal={arXiv preprint arXiv:2306.14852},
year={2023},
}