mardi, novembre 28, 2023

10 types d’algorithmes de clustering dans l’apprentissage automatique


Introduction

Vous êtes-vous déjà demandé comment de vastes volumes de données peuvent être démêlés, révélant des schémas et des informations cachés ? La réponse réside dans le clustering, une technique puissante d’apprentissage automatique et d’analyse de données. Les algorithmes de clustering nous permettent de regrouper des points de données en fonction de leurs similitudes, facilitant ainsi des tâches allant de la segmentation des clients à l’analyse d’images.

Dans cet article, nous explorerons dix types distincts d’algorithmes de clustering dans l’apprentissage automatique, en fournissant un aperçu de leur fonctionnement et de l’endroit où ils trouvent leurs applications.

Apprentissage automatique |  Algorithme de clustering
Source : Freepik

Qu’est-ce que le clustering ?

Imaginez que vous disposez d’une collection diversifiée de points de données, tels que les historiques d’achats des clients, les mesures d’espèces ou les pixels d’image. Le clustering vous permet d’organiser ces points en sous-ensembles dans lesquels les éléments de chaque sous-ensemble sont plus proches les uns des autres que ceux des autres sous-ensembles. Ces clusters sont définis par des caractéristiques, des attributs ou des relations communes qui peuvent ne pas être immédiatement apparentes.

Le clustering est important dans diverses applications, de la segmentation du marché et des systèmes de recommandation à la détection d’anomalies et à la segmentation d’images. En reconnaissant les regroupements naturels au sein des données, les entreprises peuvent cibler des segments de clientèle spécifiques, les chercheurs peuvent catégoriser les espèces et les systèmes de vision par ordinateur peuvent séparer les objets au sein des images. Par conséquent, comprendre les diverses techniques et algorithmes utilisés dans le clustering est essentiel pour extraire des informations précieuses à partir d’ensembles de données complexes.

Voyons maintenant les dix différents types d’algorithmes de clustering.

A. Clustering basé sur le centroïde

Le clustering basé sur les centroïdes est une catégorie d’algorithmes de clustering qui s’appuie sur le concept de centroïdes, ou points représentatifs, pour délimiter les clusters au sein des ensembles de données. Ces algorithmes visent à minimiser la distance entre les points de données et leurs centroïdes de cluster. Dans cette catégorie, deux algorithmes de clustering importants sont les K-means et les K-modes.

1. Clustering K-means

K-moyennes est une technique de clustering largement utilisée qui divise les données en k clusters, k prédéfinis par l’utilisateur. Il attribue de manière itérative des points de données au centroïde le plus proche et recalcule les centroïdes jusqu’à convergence. K-means est efficient et efficace pour les données avec des attributs numériques.

2. Clustering en modes K (une variante de clustering de données catégorielles)

Modes K est une adaptation des K-moyennes adaptées aux données catégorielles. Au lieu d’utiliser des centroïdes, il utilise des modes représentant les valeurs catégorielles les plus fréquentes dans chaque cluster. Les modes K sont inestimables pour les ensembles de données avec des attributs non numériques, fournissant un moyen efficace de regrouper efficacement les données catégorielles.

Algorithme de clustering Principales caractéristiques Types de données appropriés Cas d’utilisation principaux
Clustering K-means Attributs numériques basés sur le centroïde, évolutifs Données numériques (quantitatives) Segmentation client, analyse d’image
Clustering en modes K Données catégorielles basées sur le mode, efficaces Données catégorielles (qualitatives) Analyse du panier de consommation et regroupement de textes

B. Clustering basé sur la densité

Le clustering basé sur la densité est une catégorie d’algorithmes de clustering qui identifient les clusters en fonction de la densité des points de données dans une région particulière. Ces algorithmes peuvent découvrir des clusters de formes et de tailles variables, ce qui les rend adaptés aux ensembles de données présentant des modèles irréguliers. Trois algorithmes de clustering notables basés sur la densité sont DBSCAN, Mean-Shift Clustering et Affinity Propagation.

1. DBSCAN (regroupement spatial basé sur la densité d’applications avec bruit)

DBSCAN regroupe les points de données en identifiant les régions denses séparées par des zones plus clairsemées. Il ne nécessite pas de spécifier au préalable le nombre de clusters et est robuste au bruit. DBSCAN convient particulièrement aux ensembles de données présentant des densités de cluster variables et des formes arbitraires.

2. Clustering à décalage moyen

Le clustering Mean-Shift identifie les clusters en localisant le mode de distribution des données, ce qui le rend efficace pour trouver des clusters aux formes non uniformes. Il est souvent utilisé dans la segmentation d’images, le suivi d’objets et l’analyse de caractéristiques.

3. Propagation par affinité

Affinity Propagation est un algorithme de clustering basé sur des graphiques qui identifie des exemples dans les données et est utilisé dans diverses applications, notamment le clustering d’images et de texte. Il ne nécessite pas de spécifier le nombre de clusters et peut identifier efficacement des clusters de différentes tailles et formes.

Algorithme de clustering Principales caractéristiques Types de données appropriés Cas d’utilisation principaux
DBSCAN Basé sur la densité, résistant au bruit, sans nombre prédéfini de clusters Données numériques et catégorielles Détection d’anomalies, analyse de données spatiales
Clustering à décalage moyen Forme de cluster adaptative basée sur le mode, traitement en temps réel Données numériques Segmentation d’images, suivi d’objets
Propagation par affinité Basé sur des graphiques, aucun nombre prédéfini de clusters, basé sur des exemples Données numériques et catégorielles Regroupement d’images et de textes, détection de communauté

Ces algorithmes de clustering basés sur la densité sont particulièrement utiles lorsqu’il s’agit d’ensembles de données complexes et non linéaires, où les méthodes traditionnelles basées sur le centroïde peuvent avoir du mal à trouver des clusters significatifs.

C. Clustering basé sur la distribution

Les algorithmes de clustering basés sur la distribution modélisent les données sous forme de distributions de probabilité, en supposant que les points de données proviennent d’un mélange de distributions sous-jacentes. Ces algorithmes sont particulièrement efficaces pour identifier des clusters présentant des caractéristiques statistiques. Deux méthodes de clustering basées sur la distribution sont le modèle de mélange gaussien (GMM) et le clustering d’espérance-maximisation (EM).

1. Modèle de mélange gaussien

Le Modèle de mélange gaussien représente les données comme une combinaison de plusieurs distributions gaussiennes. Il suppose que les points de données sont générés à partir de ces composantes gaussiennes. GMM peut identifier des clusters de formes et de tailles variables et est largement utilisé dans la reconnaissance de formes, l’estimation de la densité et la compression des données.

2. Clustering espérance-maximisation (EM)

Le Algorithme d’attente-maximisation est une approche d’optimisation itérative utilisée pour le clustering. Il modélise la distribution des données comme un mélange de distributions de probabilité, telles que les distributions gaussiennes. EM met à jour de manière itérative les paramètres de ces distributions, dans le but de trouver les clusters les mieux adaptés au sein des données.

Algorithme de clustering Principales caractéristiques Types de données appropriés Cas d’utilisation principaux
Modèle de mélange gaussien (GMM) Modélisation de distributions de probabilité, mélange de distributions gaussiennes Données numériques Estimation de la densité, compression des données, reconnaissance de formes
Clustering Attente-Maximisation (EM) Optimisation itérative, mélange de distributions de probabilité, bien adapté aux types de données mixtes Données numériques Segmentation d’images, analyse de données statistiques, apprentissage non supervisé

Les algorithmes de clustering basés sur la distribution sont utiles lorsqu’il s’agit de données que les modèles statistiques peuvent décrire avec précision. Ils sont particulièrement adaptés aux scénarios dans lesquels les données sont générées à partir d’une combinaison de distributions sous-jacentes, ce qui les rend utiles dans diverses applications, notamment l’analyse statistique et la modélisation de données.

D. Regroupement hiérarchique

Dans l’apprentissage automatique non supervisé, le clustering hiérarchique est une technique qui organise les points de données dans une structure hiérarchique ou un dendrogramme. Il permet d’explorer les relations à plusieurs échelles. Cette approche, illustrée par la méthode Spectral Clustering, Birch et Ward, permet aux analystes de données d’approfondir des structures et des modèles de données complexes.

1. Regroupement spectral

Regroupement spectral utilise les vecteurs propres d’une matrice de similarité pour diviser les données en clusters. Il excelle dans l’identification de clusters aux formes irrégulières et trouve des applications courantes dans des tâches telles que la segmentation d’images, la détection de communauté réseau et la réduction de dimensionnalité.

2. Birch (réduction itérative équilibrée et clustering utilisant des hiérarchies)

Birch est un algorithme de clustering hiérarchique qui construit une structure arborescente de clusters. Il est particulièrement efficace et adapté à la gestion de grands ensembles de données. Donc ce qui le rend précieux dans les applications d’exploration de données, de reconnaissance de formes et d’apprentissage en ligne.

3. Méthode de Ward (clustering hiérarchique aggloméré)

La méthode de Ward est une approche de clustering hiérarchique agglomérative. Il commence par des points de données individuels et fusionne progressivement les clusters pour établir une hiérarchie. Les emplois fréquents en sciences de l’environnement et en biologie impliquent des classifications taxonomiques.

Classification hiérarchique permet aux analystes de données d’examiner les connexions entre les points de données à différents niveaux de détail. Ainsi servir d’outil précieux pour comprendre les structures et les modèles de données à plusieurs échelles. Cela s’avère particulièrement utile lorsqu’il s’agit de données présentant des relations hiérarchiques complexes ou lorsqu’il est nécessaire d’analyser des données à différentes résolutions.

Algorithme de clustering Principales caractéristiques Types de données appropriés Cas d’utilisation principaux
Regroupement spectral Intégration spectrale, formes d’amas non convexes, valeurs propres et vecteurs propres Données numériques, données réseau Segmentation d’images, détection de communauté, réduction de dimensionnalité
Bouleau Structure hiérarchique et évolutivité, adaptées aux grands ensembles de données Données numériques Exploration de données, reconnaissance de formes, apprentissage en ligne
Méthode de Ward Hiérarchie agglomérée, classifications taxonomiques, fusion progressive des clusters Données numériques, données catégorielles Sciences de l’environnement, biologie, taxonomie

Conclusion

Les algorithmes de clustering dans l’apprentissage automatique offrent une gamme vaste et variée d’approches pour aborder la tâche complexe de catégorisation des points de données en fonction de leurs ressemblances. Qu’il s’agisse des méthodes centrées sur le centroïde comme les K-means et les K-modes, des techniques basées sur la densité telles que DBSCAN et Mean-Shift, des méthodologies axées sur la distribution comme GMM et EM, ou des approches de clustering hiérarchique illustrées par Spectral Clustering, Birch et la méthode de Ward, chaque algorithme met en avant ses avantages distincts. La sélection d’un algorithme de clustering dépend des caractéristiques des données et du problème spécifique à résoudre. Grâce à ces outils de clustering, les data scientists et les professionnels de l’apprentissage automatique peuvent découvrir des modèles cachés et glaner des informations précieuses à partir d’ensembles de données complexes.

Question fréquemment posée

T1. Quels sont les types de regroupement ?

Rép. Il existe seulement quelques types de clustering : le clustering hiérarchique, le clustering K-means, le DBSCAN (Density-Based Spatial Clustering of Applications with Noise), le clustering agglomératif, la propagation d’affinité et le clustering à décalage moyen.

Q2. Qu’est-ce que le clustering dans l’apprentissage automatique ?

Rép. Le clustering en apprentissage automatique est une technique d’apprentissage non supervisé qui consiste à regrouper des points de données en clusters en fonction de leurs similitudes ou de leurs modèles, sans connaissance préalable des catégories. Il vise à trouver des regroupements naturels au sein des données, facilitant ainsi la compréhension et l’analyse de grands ensembles de données.

Q3. Quels sont les trois types fondamentaux de clusters ?

Rép. 1. Clusters exclusifs : Les points de données appartiennent à un seul cluster.
2. Clusters superposés : Les points de données peuvent appartenir à plusieurs clusters.
3. Clusters hiérarchiques : Les clusters peuvent être organisés selon une structure hiérarchique, permettant différents niveaux de granularité.

Q4. Quel est le meilleur algorithme de clustering ?

Rép. Il n’existe pas de « meilleur » algorithme de clustering universellement, car le choix dépend de l’ensemble de données et du problème spécifiques. K-means est un choix populaire pour sa simplicité, mais DBSCAN est robuste pour divers scénarios. Le meilleur algorithme varie en fonction des caractéristiques des données, telles que la distribution des données, la dimensionnalité et la forme des clusters.

Related Articles

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici

Latest Articles