Un nouveau modèle d’intelligence artificielle open source nommé Obsidian, annoncé dans un article Reddit du 30 octobre, représente une percée dans l’accessibilité multimodale de l’IA. Obsidienne est la première IA multimodale à paramètres 3b, ce qui en fait un modèle suffisamment compact pour fonctionner efficacement sur un ordinateur portable ordinaire.
L’IA multimodale fait référence aux systèmes d’IA capables de traiter et de connecter des données provenant de différents modes, tels que le texte, les images, l’audio et la vidéo. Dans ce cas, le modèle accepte le texte et les images en entrée, un peu comme la dernière version de GPT-4V d’OpenAI. Alors que les modèles d’IA multimodaux comme DALL-E 3 et GPT-4 ont montré des capacités impressionnantes, leur taille énorme les rend gourmands en ressources, nécessitant du matériel haut de gamme coûteux – et leurs modèles sont un secret bien gardé, vous ne pourrez donc jamais les exécuter même si vous disposiez du matériel spécialisé nécessaire. .
Le modèle d’intelligence artificielle, Obsidian, intègre l’intelligence multimodale dans la mémoire d’un ordinateur portable standard
Obsidian change cela en emballant multimodal intelligence dans un modèle suffisamment petit pour tenir dans la mémoire d’un ordinateur portable standard et fonctionner à des vitesses pratiques. Avec 3 milliards de paramètres, Obsidian s’appuie sur l’architecture du modèle Capybara-3B, qui atteint des performances de pointe par rapport à des modèles de taille similaire. Le développeur a également annoncé sur Reddit qu’un modèle multimodal basé sur le très apprécié modèle open source Mistral 7B suivrait bientôt.
La taille compacte d’Obsidian est due à des techniques adaptées de l’architecture du modèle LLaMA. Selon le post de Reddit annonçant Obsidian, il a été pré-entraîné sur un ensemble de données multimodales synthétisées diversifiées, comprenant du texte associé aux images correspondantes. Cette méthodologie de formation lui a permis de développer de fortes capacités linguistiques et visuelles malgré ses paramètres réduits.
Le résultat est un assistant IA doté de compétences conversationnelles et d’une compréhension visuelle qui peut tenir dans votre sac à dos. Obsidian élimine les obstacles à l’accès à l’IA, ouvrant ainsi de nouvelles possibilités d’intelligence sur les appareils.
Bien qu’il s’agisse encore d’une première version, le facteur de forme efficace d’Obsidian crée un précédent passionnant. Cela démontre que l’IA multimodale n’a pas besoin d’être enfermée dans des centres de données géants, mais peut être suffisamment compacte pour être distribuée largement.
Crédit d’image en vedette : de Création d’images chez Aimesoft ; Merci!