Que vous soyez un fanatique de la NFL, un ancien élève enraciné dans votre alma mater ou un super fan essayant simplement d’apercevoir Taylor Swift, la saison de football est l’une des périodes les plus excitantes de l’année aux États-Unis.
Et les façons d’en profiter ne manquent pas. Tandis que des millions de téléspectateurs regarderont dans le confort de leur canapé ou du bar de leur quartier, de nombreux autres se rendront au stade, parfois par des températures inférieures à zéro, pour voir jouer leurs équipes préférées – et, bien sûr, sur le parking devant le stade. le jeu avec d’autres fans. D’autres voudront peut-être même prendre la route avec l’équipe et se rendre dans une nouvelle ville. Mais étant donné que les fans ont le choix entre toute une saison de matchs, ils ont besoin d’aide pour déterminer lesquels choisir.
Dans l’esprit de Databricks résolvant les « problèmes les plus difficiles » de nos clients, nous voulions exploiter la puissance des données et de l’apprentissage automatique pour aider les fans de la NFL et du football universitaire à prédire comment ils peuvent tirer le meilleur parti de leur argent.
Dans cet article de blog, nous expliquerons comment nous avons utilisé la plateforme Databricks Lakehouse, notamment Databricks AutoML et Assistant Databricks – avec les données de notre Marché Databricks partenaire AccuWeather (qui connaît une chose ou deux sur le talonnage, étant basé à Stage College, en Pennsylvanie – domicile des Penn State Nittany Lions) pour répondre à la question : Quels sont les meilleurs endroits pour terminer le reste de cette saison ?
Ce que nous avons trouvé
De novembre à décembre 2023, notre modèle a identifié 23 matchs de la NFL sur un total de 117 qui devraient présenter des conditions de talonnage exemplaires. Nous sommes en mesure de visualiser ces résultats à l’aide du tout nouvel outil de tableau de bord de Databricks, appelé Vue sur le lac.

Les stades proposant le plus de matchs « tailgate » étaient le SoFi Stadium à Inglewood, en Californie, l’Allegiant Stadium à Las Vegas, dans le Nevada, et le TIAA Bank Field à Jacksonville, en Floride.
À l’instar des stades, il n’est pas surprenant que les équipes situées dans des endroits plus chauds bénéficient des conditions météorologiques les plus idéales pour leurs matchs : les Cardinals de l’Arizona, les Cowboys de Dallas, les Jaguars de Jacksonville et les Cowboys de Dallas.
À l’inverse, les fans des équipes avec le moins de matchs pouvant être disputés devraient sortir leurs lourds manteaux d’hiver du stock dès maintenant – si ce n’est déjà fait : les Steelers de Pittsburgh, les Titans du Tennessee, les Packers de Green Bay, les Broncos de Denver et les Chicago. Ours. Comme nous l’avons vu auparavant, il est peu probable que cela empêche de nombreux supporters dévoués de se rendre, peut-être par des températures inférieures à zéro, aux stades respectifs pour se rendre au hayon. Et cela même avec le début de saison difficile que connaissent beaucoup de ces équipes.

Il y a eu quelques surprises. Les Giants/Jets de New York et les Ravens de Baltimore – pas nécessairement des équipes originaires de villes connues pour leurs conditions météorologiques idéales en novembre et décembre – ont fait partie du top dix des équipes avec les matchs les plus « tailgate-able ».

Pendant ce temps, au cours des prochaines semaines, 18 matchs de football universitaire se dérouleront probablement comme des options de talonnage intéressantes. Les 10 meilleures équipes avec le plus de matchs « tailgate-able » comprennent l’Alabama, Duke, le Kentucky, Louisville et Miami. À l’inverse, les équipes universitaires dont les fans devraient commencer à s’approvisionner en chocolat chaud comprennent désormais le Kansas, l’État de l’Oregon, le Tennessee et Washington St.
Pourquoi c’est important
Nous l’avons compris, peu d’entreprises auront besoin de connaître des informations de talonnage critiques pour leur mission. Mais que se passerait-il si vous aviez besoin de savoir quand stocker des pelles à neige ou quand les gens sont les plus susceptibles d’acheter des produits de soins capillaires anti-frisottis ? Comme nous le montrons avec ce cas d’utilisation, lorsqu’il s’agit d’IA et de ML, la qualité de l’application finale dépend des données et du processus qui la sous-tendent.
Sans collecter les bonnes données, construire le modèle approprié, le former et vérifier les résultats, il n’y a aucun moyen d’être sûr que le modèle fonctionne réellement comme prévu. En standardisant ce processus sur une plateforme de données unique et unifiée, les entreprises peuvent commencer à récolter les bénéfices de l’IA et du ML beaucoup plus rapidement et avec une plus grande confiance dans les résultats.
Ce que nous soulignerons ci-dessous est le processus étape par étape que nous avons utilisé pour construire le Indice du hayon. Mais il est facilement reproductible pour d’autres cas d’utilisation. Par exemple, remplacez les informations météorologiques par des données de ventes régionales – comme la taille du client, l’emplacement, le secteur, etc. – et l’équipe de développement commercial dispose soudainement d’un chatbot qu’elle peut utiliser lors de l’évaluation de nouveaux clients potentiels. Au lieu d’interroger la machine pour connaître le meilleur hayon, les vendeurs pourraient poser des questions telles que : Dans cette région, quelles entreprises sont susceptibles d’acheter mon produit ? Les organisations peuvent utiliser les données météorologiques et le ML pour prédire les résultats critiques pour l’entreprise ; par exemple, une grande chaîne de café peut choisir de lancer son latte à la citrouille et aux épices en fonction de prévisions météorologiques plus froides que prévu.
Plus important encore, Databricks contribue à libérer le potentiel des données pour tous les acteurs de l’entreprise. Avec des outils comme MLflow, il est désormais possible pour ceux qui n’ont pas de formation en science des données de créer des modèles plus simples, comme des modèles de classification, de régression et de prévision. Cette démocratisation du ML et de l’IA sera le catalyseur qui générera les gains d’efficacité ciblés par de nombreuses entreprises.
Notre approche
Databricks Lakehouse sert déjà de plate-forme unifiée pour exécuter une multitude de cas d’utilisation de données et d’IA, mais certaines fonctionnalités et améliorations récentes que nous allons parcourir ont rendu ce projet plus facile et plus rapide.
Obtenir des données, décrire des données, résumé des données
Comme pour tout projet IA/ML, la première étape sur laquelle nous avons décidé après avoir déterminé le résultat souhaité a été d’obtenir les bonnes données.
En travaillant avec AccuWeather, partenaire de Databricks, nous avons pu utiliser le partage Delta et accédez à quatre années d’informations météorologiques, couvrant plus de 61 millions d’enregistrements, dans Databricks Lakehouse en quelques minutes. En plus du partage multiplateforme de données en direct, Delta Sharing permet aux organisations de découvrir, d’évaluer et d’accéder rapidement aux informations via Databricks Marketplace, le marché ouvert des données, de l’analyse et de l’IA.

Une fois que nous avons eu les données, nous les avons réduites à la période d’août à décembre et n’avons utilisé que les jours de matchs de football – les jeudis, samedis, dimanches et lundis. Cela nous a laissé 17 millions.
Lors de la création de modèles ML, il est courant de segmenter une partie des données d’entraînement pour valider le modèle. En règle générale, il s’agit d’une répartition d’environ 80 à 20 % respectivement entre les données de formation et de validation. Dans ce cas, nous avons utilisé 14 millions d’enregistrements pour entraîner le modèle et 3 millions pour le valider.
Ces étapes sont importantes, car elles permettent de affiner la portée des informations que le modèle analysera. En apprentissage automatique, l’objectif est d’éliminer autant de bruit inutile que possible. Cela n’avait aucun sens d’entraîner notre modèle sur des informations passées qui n’étaient pas applicables au résultat que nous espérions atteindre. Et en fin de compte, plus les données sur lesquelles le modèle est formé sont pertinentes, meilleures sont ses performances.
Comme nous l’avons montré avec le Tailgate Index, déterminer le résultat souhaité avant de prendre des décisions concernant les données peut aider à segmenter les informations de formation et de validation les plus appropriées.
Développement d’un modèle
Avec ces informations à portée de main, nous pourrions commencer à créer l’indice Tailgate.

Avant de construire le modèle, nous avons dû définir le modèle du jour idéal du hayon. Nous avons classé une journée « parfaite » comme une journée où le temps se situe entre 50 et 80°F et la couverture nuageuse est inférieure à 60 %. Puis nous avons commencé.
Après avoir écrit manuellement certains aspects du modèle, nous sommes restés bloqués et ne nous souvenions plus de certaines lignes de code. Au lieu de basculer entre Stack Overflow ou d’analyser des tonnes de résultats Google, nous avons simplement demandé à Databricks Assistant. Avec une commande en anglais simple – J’ai besoin de code Python pour un modèle de corrélation – Databricks Assistant a généré le code, nous l’avons copié dans notre notebook et l’avons rapidement ajouté au modèle.

Les premières itérations de notre modèle avaient un taux de rappel – reflet de la précision avec laquelle il classifiait les données que nous avons ingérées – d’environ 65 %. Pour améliorer cela, nous avons dû utiliser une technique d’apprentissage automatique appelée réglage des hyperparamètresun processus au cours duquel nous ajustons par programme les entrées du modèle qui fournissent les meilleurs résultats.
En règle générale, un data scientist peut passer des heures, des jours ou des semaines à modifier les paramètres d’un modèle pour améliorer le taux de rappel. Cela nécessite beaucoup de calculs et de codage back-end. C’est là que ML automatique est d’une grande aide. Parallèlement au réglage des hyperparamètres, AutoML peut aider les entreprises à créer différents modèles de ML, comme la prévision ou la régression, sans avoir à écrire de code.
Par exemple, avec le Tailgate Index, tout ce que nous avions à faire était de charger les données d’entraînement dans AutoML, et en 30 minutes, il a généré 50 modèles de classification différents parmi lesquels choisir, tous avec des taux de sensibilité (rappel) différents.

L’étape suivante consistait à choisir l’un de ces modèles fournis par AutoML comme modèle de production. Pour simplifier ce processus, AutoML nous fournit une représentation tabulaire de toutes les sorties du modèle et de leurs métriques correspondantes (telles que la sensibilité, la spécificité, l’AUC, etc.). Nous avons trié ces modèles en fonction de leur sensibilité (rappel) pour choisir notre prédicteur de hayon ; un classificateur LightGBM. Le modèle final avait un taux de rappel de 95 %. Il nous fallait désormais détourner l’attention du modèle des données historiques vers la prévision de ce qui allait arriver.
Pour ce faire, nous avons collecté les données de prévision d’AccuWeather pour la période du 1er novembre au 31 décembre 2023. Étant donné que notre objectif était de déterminer les jours de talonnage idéaux, nous n’avons inclus que les jours avec des matchs programmés de la NFL ou du football universitaire. AccuWeather disposait également d’une liste de codes postaux contenant la NFL et les stades de football universitaire, nous avons donc également pu filtrer encore plus les données. (Remarque : pour le football universitaire, nous avons utilisé uniquement les données relatives aux 25 meilleures équipes début octobre.)
Ainsi, même si les prévisions météorologiques peuvent changer, sur la base des prévisions actuelles, notre modèle a dressé la liste suivante des jeux à venir qui seraient les meilleurs pour le talonnage.


Et après?
Le voyage ne s’arrête pas là. Après avoir défini le bon modèle de base, nous pourrions facilement passer à Marché Databricks et trouvez des données supplémentaires et des actifs d’IA qui permettraient de personnaliser encore davantage le modèle ou de l’aider à répondre à différentes requêtes.
Pour les entreprises, ce type de flexibilité est essentiel. C’est ainsi que les entreprises créent des processus d’IA et de ML évolutifs et reproductibles tout en offrant à chaque employé la flexibilité nécessaire pour adapter les modèles à leurs problèmes spécifiques.
Si vous utilisez déjà Databricks, rendez-vous dans la section « Apprentissage automatique » pour commencer à créer votre propre expérience de talonnage (ou inscrivez-vous ici si vous souhaitez essayer Databricks).
Vous souhaitez en savoir plus sur la façon dont vous pouvez utiliser AccuWeather + Databricks pour améliorer vos résultats ? Regarde ça séance à la demande du Sommet Data + AI 2023 !