mercredi, novembre 29, 2023

Google DeepMind innove avec « Mirasol3B » pour l’analyse vidéo avancée


Êtes-vous prêt à accroître la notoriété de votre marque ? Envisagez de devenir sponsor du AI Impact Tour. En savoir plus sur les opportunités ici.


Google DeepMind a discrètement révélé une avancée significative dans leur intelligence artificielle (IA) recherche mardi, présentant un nouveau modèle autorégressif visant à améliorer la compréhension des entrées vidéo longues.

Le nouveau modèle, nommé «Mirasol3B» démontre une approche révolutionnaire de l’apprentissage multimodal, traitant les données audio, vidéo et textuelles de manière plus intégrée et plus efficace.

Selon Isaac Noble, ingénieur logiciel chez Google Research, et Anelia Angelova, chercheuse scientifique chez Google DeepMind, qui ont co-écrit un long article de blog Concernant leurs recherches, l’enjeu de la construction de modèles multimodaux réside dans l’hétérogénéité des modalités.

« Certaines modalités peuvent être bien synchronisées dans le temps (par exemple, audio, vidéo) mais ne pas être alignées avec le texte », expliquent-ils. « De plus, le volume important de données contenu dans les signaux vidéo et audio est bien plus important que celui contenu dans le texte. Ainsi, lorsqu’on les combine dans des modèles multimodaux, la vidéo et l’audio ne peuvent souvent pas être entièrement consommés et doivent être compressés de manière disproportionnée. Ce problème est exacerbé pour les entrées vidéo plus longues.

Événement VB

La tournée d’impact de l’IA

Connectez-vous avec la communauté de l’IA d’entreprise lors de l’AI Impact Tour de VentureBeat qui se déroulera dans une ville près de chez vous !

Apprendre encore plus

Une nouvelle approche de l’apprentissage multimodal

En réponse à cette complexité, le modèle Mirasol3B de Google découple la modélisation multimodale en modèles autorégressifs ciblés distincts, traitant les entrées en fonction des caractéristiques des modalités.

« Notre modèle se compose d’un composant autorégressif pour les modalités synchronisées dans le temps (audio et vidéo) et d’un composant autorégressif distinct pour les modalités qui ne sont pas nécessairement alignées dans le temps mais qui sont toujours séquentielles, par exemple les entrées de texte, comme un titre ou une description,  » Noble et Angelova expliquent.

Cette annonce intervient à un moment où l’industrie technologique s’efforce d’exploiter la puissance de l’IA pour analyser et comprendre de grandes quantités de données dans différents formats. Mirasol3B de Google représente une avancée significative dans ce domaine, ouvrant de nouvelles possibilités pour des applications telles que la réponse vidéo aux questions et l’assurance qualité des vidéos longues.

crédit : recherche google

Applications potentielles pour YouTube

L’une des applications possibles de ce modèle que Google pourrait explorer est de l’utiliser sur YouTube, qui est la plus grande plateforme de vidéo en ligne au monde et l’une des plus importantes de l’entreprise. principales sources de revenus.

Le modèle pourrait théoriquement être utilisé pour améliorer l’expérience et l’engagement des utilisateurs en fournissant davantage de caractéristiques et de fonctionnalités multimodales, telles que la génération de sous-titres et de résumés pour les vidéos, la réponse aux questions et la fourniture de commentaires, la création de recommandations et de publicités personnalisées et la possibilité pour les utilisateurs de créer et de modifier leurs contenus. propres vidéos utilisant des entrées et des sorties multimodales.

Par exemple, le modèle pourrait générer des légendes et des résumés pour les vidéos en fonction du contenu visuel et audio, et permettre aux utilisateurs de rechercher et de filtrer les vidéos par mots-clés, sujets ou sentiments. Cela pourrait améliorer l’accessibilité et la découvrabilité des vidéos, et aider les utilisateurs à trouver le contenu qu’ils recherchent plus facilement et plus rapidement.

Le modèle pourrait également théoriquement être utilisé pour répondre aux questions et fournir des commentaires aux utilisateurs en fonction du contenu vidéo, par exemple en expliquant la signification d’un terme, en fournissant des informations ou des ressources supplémentaires, ou en suggérant des vidéos ou des listes de lecture associées.

L’annonce a suscité beaucoup d’intérêt et d’enthousiasme au sein de la communauté de l’intelligence artificielle, ainsi qu’un certain scepticisme et des critiques. Certains experts ont loué le modèle pour sa polyvalence et son évolutivité, et ont exprimé leurs espoirs quant à ses applications potentielles dans divers domaines.

Par exemple, Léo Tronchon, ingénieur de recherche ML chez Hugging Face, tweeté: « Très intéressant de voir des modèles comme Mirasol intégrant plus de modalités. Il n’existe pas encore beaucoup de modèles performants utilisant à la fois l’audio et la vidéo. Ce serait vraiment utile de l’avoir sur [Hugging Face].»

Gautam Sharda, étudiant en informatique à l’Université de l’Iowa, tweeté: « On dirait qu’il n’y a pas de code, de poids de modèle, de données d’entraînement ou même d’API. Pourquoi pas? J’adorerais les voir publier quelque chose au-delà d’un simple document de recherche ?.”

Une étape importante pour l’avenir de l’IA

Cette annonce marque une étape importante dans le domaine de l’intelligence artificielle et de l’apprentissage automatique, et démontre l’ambition et le leadership de Google dans le développement de technologies de pointe susceptibles d’améliorer et de transformer la vie humaine.

Cependant, cela représente également un défi et une opportunité pour les chercheurs, les développeurs, les régulateurs et les utilisateurs de l’IA, qui doivent s’assurer que le modèle et ses applications sont alignés sur les valeurs et normes éthiques, sociales et environnementales de la société.

À mesure que le monde devient plus multimodal et interconnecté, il est essentiel de favoriser une culture de collaboration, d’innovation et de responsabilité entre les parties prenantes et le public, et de créer un écosystème d’IA plus inclusif et diversifié qui puisse profiter à tous.

La mission de VentureBeat est d’être une place publique numérique permettant aux décideurs techniques d’acquérir des connaissances sur la technologie et les transactions d’entreprise transformatrices. Découvrez nos Briefings.



Related Articles

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici

Latest Articles