
(ozrimoz/Shutterstock)
Les clients de Cloudera travaillent depuis un certain temps avec des modèles de langage étendus (LLM) et créent des applications d’IA générative. Aujourd’hui, le fournisseur de gestion de données cloud a dévoilé un partenariat avec le leader des bases de données vectorielles Pinecone, visant à accélérer le travail de GenAI et à apposer sa propre empreinte sur le marché émergent sous la direction du nouveau PDG Charles Sansbury. La société a également dévoilé les résultats d’une étude GenAI.
Pomme de pin est l’un des fournisseurs de bases de données vectorielles les plus établis, devenu l’un des secteurs les plus en vogue du marché des bases de données depuis que ChatGPT a fait son apparition il y a près d’un an, déclenchant un tsunami d’activité GenAI.
Dans le cadre de son partenariat avec Cloudera, les deux fournisseurs ont travaillé pour intégrer la base de données vectorielles de Pinecone dans la Cloudera Data Platform (CDP) dans le but ultime de permettre aux clients CDP de créer plus facilement des applications GenAI. Bien que les clients doivent acheter CDP et Pinecone séparément, l’intégration est fournie par Cloudera via ce qu’on appelle un prototype d’apprentissage automatique appliqué, ou AMP.
Le Pinecone AMP, lorsqu’il est combiné avec d’autres nécessités pour GenAI que les clients ont déjà installées sur CDP, comme un LLM de Visage câlin, Méta-IA, Anthropiqueou Adhérerainsi qu’un pipeline de données alimenté par Apache NiFi, aident les utilisateurs à développer et à déployer des applications GenAI directement sur CDP, déclare Abhas Ricky, directeur de la stratégie de Cloudera.
« Et alors [the AMP] Ce qu’il fait, c’est qu’il permet aux développeurs de créer et d’augmenter rapidement de nouvelles bases de connaissances à partir des données de leur site Web, ainsi que de certains connecteurs prédéfinis qui vous permettront, en tant que client, de configurer rapidement des pipelines d’ingestion pour toutes les applications d’IA », explique Abhas. Datanami. « Donc, dans ce cas spécifique, l’AMP et la base de données vectorielles Pinecone utilisent les bases de connaissances, puis vous pouvez imprégner le contexte dans les réponses du chatbot, garantissant essentiellement que vous pouvez obtenir des résultats utiles, de sorte que la fidélité des résultats devient beaucoup plus élevée. »
En plus de réduire les taux d’hallucinations en exploitant le « contexte d’entreprise » qui existe dans les données des clients, l’intégration contribuera à améliorer les performances et à réduire les coûts, explique Abhas. Ce sont quelques-uns des objectifs généraux que Cloudera s’est fixés alors qu’elle tente de fournir des capacités GenAI à ses clients Global 2000.
Les clients souhaitent trois choses pour les applications GenAI, explique le CSO de Cloudera. « La première chose est le contexte de l’entreprise, car chacun veut développer son propre GPT en fonction du contexte de son entreprise », dit-il.
La seconde est la confiance. « Tout le monde veut pouvoir faire confiance aux données qu’il va utiliser pour former ses modèles », dit-il, » et c’est pourquoi ils viennent nous voir et nous disent que nous voulons travailler avec vous pour les fonctionnalités de gouvernance. ainsi que l’autorisation des métadonnées et les capacités d’audit.
Enfin, les clients CDP souhaitent que Cloudera l’aide à améliorer ses performances. « Les gens viennent chez nous pour faire du calcul », explique Abhas. « Nous travaillons également en partenariat avec des fournisseurs de matériel pour l’accélération matérielle. Un client nous a dit : « Nous exécutons des cas d’utilisation d’IA générative sur des GPU sur un cloud privé et cela nous a permis d’économiser 30 à 35 % sur le TCO. » Et c’est une réduction massive car ils y dépensent des dizaines de millions de dollars par mois.
Cloudera, qui organise cette semaine sa conférence Evolve New York en partie pour présenter le nouveau PDG Sansbury, établit un partenariat avec d’autres fournisseurs pour l’aider à piloter sa stratégie GenAI. Cela inclut AWS et les capacités de base de données vectorielles d’Amazon Bedrock, et il pourrait établir des partenariats avec d’autres fournisseurs de bases de données vectorielles à l’avenir, explique Abhas.
L’ancien distributeur Hadoop compte également sur l’utilisation du format de table Apache Iceberg pour permettre à ses clients d’interagir en toute sécurité avec les données stockées sur CDP de différentes manières, de l’analyse SQL à la formation et au déploiement d’applications GenAI.
« L’iceberg est essentiel pour nous », déclare Abhas. « Nous sommes tous sur Iceberg en ce qui concerne notre stratégie de Lakehouse de données ouvertes, car nous voulons rester fidèles à l’éthique de l’Open Source et nous pensons que cela nous aidera à mieux nous intégrer avec nos partenaires, mais aidera également nos clients communs à naviguer dans le monde qui se trouve à l’extérieur du jardin clos de Cloudera. C’est donc une couche de transition pour nous. Nous avons ces flux de données prédéfinis ReadyFlow dans les tables Iceberg afin que vous puissiez en tirer parti.
La société a publié les résultats d’une enquête menée auprès de 500 décideurs informatiques et scientifiques de données américains sur les projets de leur entreprise en matière d’applications GenAI.
L’enquête a révélé que 53 % des personnes interrogées utilisent actuellement la technologie GenAI, et que 36 % supplémentaires en sont aux premiers stades de l’exploration de l’IA en vue d’une mise en œuvre potentielle au cours de l’année prochaine.
Cependant, 84 % se disent préoccupés par le partage de données avec des tiers pour la formation ou le réglage fin des modèles GenAI, selon Cloudera, qui caractérise l’attitude générale à l’égard de l’environnement GenAI comme « un environnement encore sauvage, semblable à celui du Far West ». à la confidentialité, à la sécurité et à la conformité des données.
Cloudera voit des icebergs partout
Cloudera : plus de 25 millions de téraoctets servis
Quand le battage médiatique GenAI dépasse la réalité GenAI