Accueil Big Data Redéfinir la recherche et l’analyse à l’ère de l’IA

Redéfinir la recherche et l’analyse à l’ère de l’IA

0
Redéfinir la recherche et l’analyse à l’ère de l’IA


Nous avons fondé Rockset pour permettre à chacun, du Fortune 500 à une startup de cinq personnes, de créer de puissantes applications de recherche et d’IA et de les faire évoluer efficacement dans le cloud. Notre équipe a pour mission d’apporter la puissance de la recherche et de l’IA à tous les disrupteurs numériques du monde. Aujourd’hui, nous sommes ravis d’annoncer une étape majeure dans notre parcours vers la redéfinition de la recherche et de l’analyse à l’ère de l’IA. Nous avons levé 44 millions de dollars lors d’un nouveau tour de table dirigé par Icon Ventures, ainsi que les investissements de nouveaux investisseurs Glynn Capital, Four Rivers, K5 Global, ainsi que nos investisseurs existants Sequoia et Greylock participants. Cela porte notre capital total levé à 105 millions de dollars et nous sommes ravis d’entrer dans notre prochaine phase de croissance.

Leçons tirées des déploiements @scale

J’ai géré et fait évoluer l’infrastructure de données en ligne de Facebook de 2007, où elle comptait 30 à 40 millions de MAU, jusqu’à 2015, où elle comptait 1,5 milliard de MAU. Au début, le fil d’actualité original de Facebook fonctionnait en mode batch avec des modèles statistiques de base pour le classement, et il était actualisé toutes les 24 heures. À mon époque, l’engagement de Facebook est monté en flèche à mesure que Newsfeed est devenu le moteur de recommandation le plus populaire au monde, alimenté par des algorithmes avancés d’IA et de ML et un puissant backend de recherche et d’analyse distribué. Mon équipe a contribué à créer des transitions similaires, depuis l’activation du bouton J’aime jusqu’à la diffusion d’annonces personnalisées, en passant par la lutte contre le spam et bien plus encore. Tout cela a été rendu possible par l’infrastructure que nous avons construite. Notre CTO Dhruba Borthakur a créé RocksDB, notre architecte en chef Tudor Bosman a fondé le projet Unicorn qui alimente toutes les recherches sur Facebook, ainsi que l’infrastructure construite pour le Facebook AI Research Lab, et j’ai construit et mis à l’échelle TAO qui alimente le graphe social de Facebook. J’ai pu constater par moi-même le pouvoir transformateur d’avoir la bonne pile de données.

Des milliers d’entreprises ont commencé à bricoler l’IA lorsque ChatGPT a montré au monde l’art du possible. Lorsque les entreprises mettent en production leurs idées réussies, il est impératif qu’elles réfléchissent à trois facteurs importants :

  1. Comment gérer les mises à jour en temps réel. Les architectures de streaming first constituent une base nécessaire à l’ère de l’IA. Pensez à une application de rencontres beaucoup plus efficace car elle peut intégrer des signaux indiquant qui est actuellement en ligne ou dans un certain rayon géographique autour de vous, par exemple. Ou un chatbot de compagnie aérienne qui donne des réponses pertinentes lorsqu’il dispose des dernières mises à jour météorologiques et de vols.
  2. Comment intégrer rapidement davantage de développeurs et augmenter la vitesse de développement. Les développements dans le domaine de l’IA se produisent à la vitesse de la lumière. Si votre équipe est coincée dans la gestion des pipelines et de l’infrastructure au lieu d’itérer rapidement sur vos applications, il sera impossible de suivre les tendances émergentes.
  3. Comment rendre ces applications d’IA efficaces à grande échelle afin d’obtenir un retour sur investissement positif. Les applications d’IA peuvent devenir très coûteuses très rapidement. La capacité de faire évoluer efficacement les applications dans le cloud permettra aux entreprises de continuer à tirer parti de l’IA.

Ce que nous croyons

Nous pensons que les applications modernes de recherche et d’IA dans le cloud doivent être à la fois efficaces et illimitées.

Nous pensons que tout ingénieur dans le monde devrait être capable de créer rapidement de puissantes applications de données. La création de ces applications ne doit pas être enfermée derrière des API propriétaires et des langages de requête spécifiques à un domaine qui prennent des semaines à apprendre et des années à maîtriser. Créer ces applications devrait être aussi simple que de créer une requête SQL.

Nous pensons que les applications de données modernes devraient fonctionner sur les données en temps réel. Les meilleures applications sont celles qui servent de meilleur pare-brise pour votre entreprise et vos clients, et non un glorieux rétroviseur.

Nous pensons que les applications de données modernes devraient être efficaces par défaut. Les ressources doivent évoluer automatiquement afin que les applications puissent prendre la mise à l’échelle pour acquis et également diminuer automatiquement pour réduire les coûts. Les véritables avantages du cloud ne se réalisent que lorsque vous payez pour « l’énergie dépensée » au lieu de « la puissance fournie ».

Ce que nous défendons

Nous sommes obsédés par la performance, et quand il s’agit de performance, nous ne négligeons aucun effort.

  • Nous avons construit RocksDB, le moteur de stockage hautes performances le plus populaire au monde.
  • Nous avons inventé le format de stockage d’index convergé pour une indexation et une récupération de données efficaces en termes de calcul.
  • Nous avons construit un moteur SQL hautes performances en C++ qui renvoie des résultats en quelques millisecondes à un chiffre.

Nous vivons en temps réel.

  • Nous avons créé un moteur d’indexation en temps réel 4 fois plus efficace qu’Elasticsearch. Voir référence.
  • Notre moteur d’indexation est construit sur RocksDB, ce qui permet une mutabilité efficace des données, y compris les insertions et les suppressions, sans les pénalités de performances habituelles.

Nous existons pour responsabiliser les constructeurs.

  • Une base de données pour tous les indexer. Indexez vos données JSON, intégrations vectorielles, données géospatiales et données de séries chronologiques dans la même base de données en temps réel. Interrogez efficacement vos index ANN sur les intégrations vectorielles et vos champs de « métadonnées » JSON et géospatiales.
  • Si vous connaissez SQL, vous savez déjà utiliser Rockset.

Nous sommes obsédés par l’efficacité dans le cloud.

  • Nous avons créé la première et la seule base de données au monde offrant une séparation calcul-calcul. Faites tourner une instance virtuelle pour l’ingestion de données en streaming. Faites tourner une autre instance virtuelle complètement isolée pour votre application. Faites-les évoluer de manière indépendante et éliminez complètement les conflits de ressources. Ne vous souciez plus des retards de performances dus aux pics d’ingestion ou aux rafales de requêtes.
  • Nous avons créé un niveau de stockage à chaud à mise à l’échelle automatique hautes performances basé sur des SSD NVMe. Les performances rencontrent l’évolutivité et l’efficacité, offrant des E/S à haut débit pour vos charges de travail les plus exigeantes.
  • Avec le calcul et le stockage à mise à l’échelle automatique, payez uniquement pour ce que vous utilisez. Fini les clusters surprovisionnés qui font un trou dans votre poche.

Base de données de recherche et d’analyse native pour l’IA

Les systèmes d’indexation de première génération comme Elasticsearch ont été conçus pour une ère sur site, dans un monde avant l’existence des applications d’IA nécessitant des mises à jour en temps réel.

À mesure que les modèles d’IA deviennent plus avancés, les LLM et les applications d’IA générative libèrent des informations généralement enfermées dans des données non structurées. Ces modèles d’IA avancés transforment le texte, les images, l’audio et la vidéo en intégrations vectorielles, et vous aurez besoin de moyens puissants pour stocker, indexer et interroger ces intégrations vectorielles afin de créer une application d’IA moderne.

Lorsque les applications d’IA ont besoin de capacités de recherche de similarité et de recherche du voisin le plus proche, les solutions exactes basées sur kNN sont assez inefficaces. Rockset utilise FAISS en dessous et prend en charge les index ANN avancés qui peuvent être mis à jour en temps réel et interrogés efficacement avec d’autres champs de « métadonnées », ce qui facilite la création d’applications de recherche et d’IA puissantes.

Selon les mots d’un client,

« Le plus gros problème était le surcharge opérationnelle élevée d’Elasticsearch pour notre petite équipe. Cela épuisait notre productivité et limitait considérablement notre capacité à améliorer l’intelligence de notre moteur de recommandation pour suivre notre croissance. Supposons que nous souhaitions ajouter un nouveau signal utilisateur à notre pipeline d’analyse. En utilisant notre infrastructure de service précédente, les données devraient être envoyées via des instances de Apache Kafka et ksqlDB puis dénormalisé et/ou cumulé. Ensuite, un index Elasticsearch spécifique devrait être ajusté ou créé manuellement pour ces données. Ce n’est qu’alors que nous pourrions interroger les données. L’ensemble du processus a pris des semaines.

Le simple fait de maintenir nos requêtes existantes a également représenté un effort énorme. Nos données changent fréquemment, nous insérons donc constamment de nouvelles données dans les tableaux existants. Cela nécessitait à chaque fois une mise à jour fastidieuse de l’index Elasticsearch concerné. Et après chaque Index ElasticSearch a été créé ou mis à jour, nous avons dû tester et mettre à jour manuellement tous les autres composants de notre pipeline de données pour nous assurer que nous n’avions pas créé de goulots d’étranglement, introduit des erreurs de données, etc.

Ce témoignage correspond à ce que disent d’autres clients sur l’adoption des technologies de ML et d’IA : ils souhaitent se concentrer sur la création d’applications basées sur l’IA, et non sur l’optimisation de l’infrastructure sous-jacente pour gérer les coûts à grande échelle. Rockset est la base de données de recherche et d’analyse native d’IA conçue avec ces objectifs précis à l’esprit.

Nous prévoyons d’investir les fonds supplémentaires levés dans une expansion vers davantage de zones géographiques, en accélérant nos efforts de mise sur le marché et en favorisant notre innovation dans ce domaine. Rejoignez-nous dans notre voyage alors que nous redéfinissons l’avenir des applications de recherche et d’IA en lançant un essai gratuit et explorer Rockset par vous-même. J’ai hâte de voir ce que vous allez construire !



LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici