Accueil Intelligence artificielle Améliorez les performances du modèle avec DataRobot Sliced ​​Insights

Améliorez les performances du modèle avec DataRobot Sliced ​​Insights

0
Améliorez les performances du modèle avec DataRobot Sliced ​​Insights


Il existe d’innombrables mesures qui aident les data scientists à mieux comprendre les performances des modèles. Mais les mesures de précision des modèles et les graphiques de diagnostic, malgré leur utilité, sont tous des agrégations : ils peuvent masquer des informations critiques sur des situations dans lesquelles un modèle pourrait ne pas fonctionner comme prévu. Nous pourrions construire un modèle ayant une précision globale élevée, mais sous-performe sans le savoir dans des scénarios spécifiquesun peu comme un disque vinyle qui peut paraître entier, mais qui présente des rayures impossibles à découvrir tant que vous n’avez pas lu une partie spécifique du disque.

Toute personne utilisant des modèles (des data scientists aux dirigeants) peut avoir besoin de plus de détails pour décider si un modèle est vraiment prêt pour la production et, si ce n’est pas le cas, comment l’améliorer. Ces informations peuvent se trouver dans des segments spécifiques de vos données de modélisation.

Pourquoi la segmentation des modèles est importante

Dans de nombreux cas, des bâtiments séparés des modèles pour différents segments de données produira de meilleures performances globales du modèle que l’approche « un modèle pour les gouverner tous ».

Disons que vous prévoyez des revenus pour votre entreprise. Vous disposez de deux unités commerciales principales : une unité Entreprise/B2B et une unité Consommateur/B2C. Vous pouvez commencer par créer un modèle unique pour prévoir les revenus globaux. Mais lorsque vous mesurez la qualité de vos prévisions, vous constaterez peut-être qu’elles ne sont pas aussi bonnes que ce dont votre équipe aurait besoin. Dans cette situation, la création d’un modèle pour votre unité B2B et d’un modèle distinct pour votre unité B2C améliorera probablement les performances de les deux.

En divisant un modèle en modèles plus petits et plus spécifiques formés sur des sous-groupes de nos données, nous pouvons développer des informations plus spécifiques, adapter le modèle à ce groupe distinct (population, SKU, etc.) et finalement améliorer les performances du modèle.

Cela est particulièrement vrai si :

  1. Vos données comportent des clusters naturels, comme vos unités B2B et B2C distinctes.
  2. Vous avez des regroupements déséquilibrés dans l’ensemble de données. Les groupes plus grands dans les données peuvent dominer les plus petits et un modèle avec une précision globale élevée pourrait masquer des performances inférieures pour les sous-groupes. Si votre entreprise B2B représente 80 % de vos revenus, votre approche « un modèle unique pour les gouverner tous » peut s’avérer extrêmement erronée pour votre entreprise B2C, mais ce fait est masqué par la taille relative de votre entreprise B2B.

Mais jusqu’où allez-vous dans cette voie ? Est-il utile de diviser davantage l’activité B2B en chacun des 20 canaux ou lignes de produits différents ? Sachant qu’une seule mesure de précision globale pour l’ensemble de votre ensemble de données peut masquer des informations importantes, existe-t-il un moyen simple de savoir quels sous-groupes sont les plus importants ou quels sous-groupes souffrent de mauvaises performances ? Qu’en est-il des informations : les mêmes facteurs stimulent-ils les ventes dans les activités B2B et B2C, ou existe-t-il des différences entre ces segments ? Pour guider ces décisions, nous devons comprendre rapidement les informations du modèle pour différents segments de nos données – informations liées à la fois aux performances et à l’explicabilité du modèle. DataRobot Sliced ​​Insights facilite cela.

Informations découpées par DataRobotmaintenant disponible dans le Plateforme d’IA DataRobot, permettent aux utilisateurs d’examiner les performances du modèle sur des sous-ensembles spécifiques de leurs données. Les utilisateurs peuvent rapidement définir des segments d’intérêt dans leurs données, appelés Slices, et évaluer les performances sur ces segments. Ils peuvent également générer rapidement des informations connexes et les partager avec les parties prenantes.

Comment générer des informations découpées

Sliced ​​Insights peut être généré entièrement dans l’interface utilisateur – aucun code n’est requis. Tout d’abord, définissez une tranche basée sur jusqu’à trois filtres : des fonctionnalités numériques ou catégorielles qui définissent un segment d’intérêt. En superposant plusieurs filtres, les utilisateurs peuvent définir des groupes personnalisés qui les intéressent. Par exemple, si j’évalue un modèle de réadmission à l’hôpital, je pourrais définir une tranche personnalisée en fonction du sexe, de la tranche d’âge, du nombre de procédures qu’un patient a subies ou de toute combinaison de ceux-ci.

définir une tranche personnalisée - DataRobot

Après avoir défini une tranche, les utilisateurs génèrent des informations tranchées en appliquant cette tranche aux principaux outils de performances et d’explicabilité de DataRobot : effets de fonctionnalités, impact des fonctionnalités, graphique de levage, résidus et courbe ROC.

Impact des fonctionnalités – Explicabilité de l'IA de DataRobot

Ce processus est souvent itératif. En tant que data scientist, je pourrais commencer par définir des tranches pour des segments clés de mes données, par exemple les patients admis pendant une semaine ou plus par rapport à ceux qui ne sont restés qu’un jour ou deux.

À partir de là, je peux creuser plus profondément en ajoutant plus de filtres. Lors d’une réunion, mes dirigeants peuvent m’interroger sur l’impact de conditions préexistantes. Désormais, en quelques clics, je peux voir l’effet que cela a sur les performances de mon modèle et les informations associées. Basculer d’une tranche à l’autre conduit à de nouvelles et différentes informations sur les tranches. Pour des informations plus détaillées sur la configuration et l’utilisation des Slices, visitez la page de documentation.

Étude de cas : non-présentation à l’hôpital

Je travaillais récemment avec un système hospitalier qui avait construit un modèle de non-présentation des patients. Les performances semblaient assez précises : le modèle distinguait les patients présentant le risque de non-présentation le plus faible de ceux présentant un risque plus élevé, et il semblait bien calibré (les lignes prédites et réelles se suivent de près). Ils voulaient néanmoins être sûrs que cela générerait de la valeur pour leurs équipes d’utilisateurs finaux lors de son déploiement.

Graphique d'ascenseur - DataRobot AI Platform

L’équipe pensait qu’il y aurait des modèles de comportement très différents entre les départements. Ils avaient quelques grands départements (médecine interne, médecine familiale) et une longue liste de plus petits (oncologie, gastroentérologie, neurologie, transplantation). Certains départements ont un taux de non-présentation élevé (jusqu’à 20%), tandis que d’autres ont rarement des non-présentations (<5%).

Ils voulaient savoir s’ils devaient élaborer un modèle pour chaque ministère ou si un seul modèle pour tous les ministères suffirait.

Grâce à Sliced ​​Insights, il est rapidement devenu évident que créer un modèle unique pour tous les départements était un mauvais choix. En raison du déséquilibre de classe dans les données, le modèle s’adaptait bien aux grands départements et présentait une précision globale élevée qui masquait les mauvaises performances des petits départements.

Tranche : Médecine interne

Tableau de levage - Médecine interne - DataRobot
Le modèle convenait bien au service de médecine interne, qui était de grande taille.

Tranche : Gastro-entérologie

Prédictions de gastroentérologie - DataRobot
Le modèle s’adaptait extrêmement mal à un département plus petit, celui de gastroentérologie, générant des prédictions souvent éloignées des valeurs réelles.

En conséquence, l’équipe a choisi de limiter la portée de son modèle « général » aux seuls départements où elle disposait du plus de données et où le modèle ajoutait de la valeur. Pour les départements plus petits, l’équipe a utilisé son expertise du domaine pour regrouper les départements en fonction des types de patients qu’ils ont vus, puis a formé un modèle pour chaque cluster. Sliced ​​Insights a guidé cette équipe médicale pour créer le bon ensemble de groupes et de modèles pour leur cas d’utilisation spécifique, afin que chaque service puisse générer de la valeur.

Des informations découpées pour une meilleure segmentation des modèles

Sliced ​​Insights aide les utilisateurs à évaluer les performances de leurs modèles à un niveau plus approfondi qu’en examinant les métriques globales. Un modèle qui répond aux exigences globales de précision peut systématiquement échouer pour des segments importants des données, comme pour les groupes démographiques sous-représentés ou les petites unités commerciales. En définissant des tranches et en évaluant les informations du modèle par rapport à ces tranches, les utilisateurs peuvent déterminer plus facilement si la segmentation du modèle est nécessaire ou non, faire rapidement apparaître ces informations pour mieux communiquer avec les parties prenantes et, en fin de compte, aider les organisations à prendre des décisions plus éclairées sur comment et quand. un modèle doit être appliqué.

ESSAI GRATUIT

Essayez gratuitement Sliced ​​Insights et d’autres fonctionnalités de DataRobot


Inscription gratuite

A propos de l’auteur

Cory Genre
Cory Genre

Scientifique principal des données, DataRobot

Cory Kind est Lead Data Scientist chez DataRobot, où elle travaille avec des clients de divers secteurs pour mettre en œuvre des solutions d’IA pour leurs défis les plus persistants. Elle se concentre particulièrement sur le secteur de la santé, en particulier sur la manière dont les organisations créent et déploient des solutions d’IA fiables et hautement précises qui génèrent des résultats cliniques et opérationnels. Avant DataRobot, elle était Data Scientist pour Gartner. Elle vit à Détroit et adore passer du temps avec son partenaire et ses deux jeunes enfants.


Rencontrez Cory Kind

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici