Alors que la nuit d’Halloween approche à grands pas, une seule question préoccupe tous les enfants : comment puis-je maximiser ma récolte de bonbons cette année avec les meilleurs bonbons possibles ? Ce type de question se prête parfaitement aux approches de science des données qui permettent une analyse rapide et intuitive des données provenant de plusieurs sources. À l’aide de Cloudera Machine Learning, le premier outil d’apprentissage automatique dans le cloud de données hybrides au monde, plongeons-nous en profondeur dans le monde de l’analyse des bonbons pour répondre à la question difficile qui préoccupe tout le monde : Comment gagner Halloween ?
De nombreux facteurs entrent en jeu pour obtenir le meilleur portefeuille de bonbons possible. Il s’agit tout d’abord de maximiser le nombre de portes frappées. Cela nécessite un emplacement densément peuplé. Cependant, ce n’est pas une option pour tous les tricks ou les traiteurs. Par exemple, j’ai grandi dans la campagne du Montana où il fallait une voiture et des raquettes pour se rendre à chaque maison (d’accord, pas des raquettes, mais certainement des bottes de neige). Si vous vous trouvez dans cette situation, je vous recommande fortement de suivre chaque année la production moyenne de bonbons par foyer. Par exemple, si les Roger distribuent chaque année des barres chocolatées king size, cela vaut peut-être la peine de prendre 10 minutes de route supplémentaires.
Jusqu’à présent, nous avons parlé de quantité, mais la qualité est tout aussi importante. Cette variable est en grande partie hors de votre contrôle et peut dépendre de la région dans laquelle vous vivez. J’ai récemment découvert qu’il existe des entreprises qui suivent chaque année les ventes de bonbons par État. CandyStore.com est l’une de ces sociétés (en passant, consultez leur site Web si vous avez envie de bonbons rares). Ils ont publié un Blog cette année, avec les résultats de leur exploration de données annuelle, il comprend les 3 principaux bonbons achetés pour chaque État et la quantité achetée en livres.
Certains des bonbons les plus achetés sont sauvages. Par exemple, prenez mon État du Montana, ils ont acheté plus de 24 000 livres de Dubble Bubble Gum. Vous avez bien lu, Dubble Bubble Gum, le chewing-gum dur comme la pierre à 4 saveurs à mâcher auquel tout le monde aspire. D’autres États correspondent un peu plus à ce que vous attendez, la Floride sait que personne ne peut résister à un classique comme la Reeses Peanut Butter Cup, et le Nevada joue la carte de la sécurité avec un mini-bar Hershey’s, un incontournable d’Halloween.
Cela m’a fait penser que, sur la base de ces données, il existe probablement une différence de goût entre ceux qui achètent les bonbons et ceux qui les consomment réellement. Existe-t-il un moyen simple d’identifier ces déséquilibres sur le marché des bonbons ? Heureusement, lorsque CML ne résout pas les défis prédictifs les plus ambitieux au monde pour les entreprises, il constitue l’outil idéal pour ce type de découverte agile et ad hoc de la science des données. Pour analyser et répondre à nos bonnes questions, je lancerai JupyterLab nativement en CML et j’aurai immédiatement accès à la fois à un calcul évolutif et à des données granulaires sécurisées pour relever ce défi en quelques clics — commençons.
Comment éviter les mauvais bonbons
Si nous voulons identifier les États qui ont acheté des « mauvais bonbons », nous avons besoin d’un moyen de quantifier les préférences gustatives des consommateurs pour diverses friandises. Entrer Le classement ultime de la puissance des bonbons d’Halloween de FiveThirtyEight qui contient les résultats d’une enquête de plus de 269 000 comparaisons de bonbons générées aléatoirement (c’est-à-dire, préférez-vous les bonbons A ou B). Le résultat final était un pourcentage de victoire pour 86 bonbons grand public différents.
Désormais, si nous fusionnons ces deux ensembles de données par nom de bonbon, nous sommes en mesure de créer une visualisation qui met en évidence les bonbons les plus achetés dans chaque état et la préférence pour ce bonbon. Plus un État est noir, plus les meilleurs bonbons achetés dans cet État sont détestés. Lorsque vous survolez un état (ou appuyez sur si vous êtes sur votre téléphone), le premier chiffre est le pourcentage de victoire du meilleur bonbon dans cet état, vous verrez également le nom du bonbon et la quantité de ce bonbon acheté. en 2023, selon CandyStore.com.
Il y a quelques choses qui me frappent. Les Louisianais doivent avoir envie de bonbons qui ont un goût de savon, car leurs meilleurs bonbons achetés sont rarement échangés contre Lemonhead, représentant seulement 39 % du pourcentage de victoires de FiveThirtyEight. Lors d’analyses de bonbons précédentes, le Montana avait élu Dubble Bubble comme son meilleur bonbon, mais ils semblent avoir trouvé l’erreur de leur choix et nous nous concentrons désormais sur les bonbons les plus appréciés puisque le Twix est le nouveau n°1 dans l’état de Big Sky. Tout État qui achète du Candy Corn plus que tout autre bonbon a clairement quelque chose contre les enfants qui frappent à sa porte. Oui, je te regarde, Utah. Le pourcentage de victoires de Candy Corn n’est que de 38 %. Donc, si vous êtes fan de Candy Corn ou de Lemonheads (c’est-à-dire si vous avez les papilles gustatives engourdies), vous savez maintenant où voyager pendant ces vacances pour trouver un surplus de vos bonbons préférés que vous n’aimez pas.
Des analyses comme celles-ci ne sont pas bouleversantes, mais toutes les analyses ne doivent pas nécessairement l’être. Ce que devrait être chaque analyse est cependant facile à faire. Cloudera fournit une variété d’outils dans Cloudera Data Platform (CDP) qui vous permettent de travailler facilement avec vos données. Si vous souhaitez essayer un outil comme CML et exécuter votre propre analyse de bonbons, rendez-vous sur notre Page de démonstration pour en savoir plus sur tout ce que Cloudera a à offrir.