Accueil Big Data Adieu ZDNet : les données restent l’élément vital de l’innovation

Adieu ZDNet : les données restent l’élément vital de l’innovation

0
Adieu ZDNet : les données restent l’élément vital de l’innovation


chapitre-suivant.jpg

Cela a été une aventure folle au cours des six dernières années, car ZDNet nous a donné l’occasion de raconter comment, dans le monde des données, l’avant-garde est devenue la norme. En 2016, le Big Data était encore considéré comme l’affaire des early adopters. L’apprentissage automatique était limité à une poignée relative d’organisations du Global 2000, car elles étaient les seules à pouvoir se permettre de recruter des équipes parmi le bassin limité de data scientists. L’idée selon laquelle parcourir des centaines de téraoctets ou plus de données structurées et les données structurées de manière variable deviendraient une routine. C’était une chimère. Quand nous avons commencé notre partie de Gros plan sur les donnéesSnowflake, qui a ouvert la porte à l’entrepôt de données cloud élastique qui pouvait également gérer JSON, était à peine quelques années après la furtivité.

Dans un court article, il sera impossible de résumer tous les moments forts de ces dernières années, mais nous ferons un vaillant effort.

Le paysage industriel : l’histoire de deux villes

Lorsque nous avons commencé notre travail chez ZDNet, nous suivions déjà le paysage des données depuis plus de 20 ans. Donc à ce moment-là, il était tout à fait approprié que notre tout premier article sur ZDNet le 6 juillet 2016, s’est penché sur le parcours de ce qui est devenu l’une des plus grandes réussites de la décennie. Nous avons posé la question : « Que devrait être MongoDB lorsqu’il grandira ? » Oui, nous avons parlé des épreuves et des tribulations de MongoDB, poursuivant ce que le cofondateur et Elliot Horowitz, alors directeur technique a prophétisé que la forme documentaire des données n’était pas seulement une forme plus naturelle de représentation des données, mais qu’elle deviendrait la référence par défaut pour les systèmes d’entreprise.

MongoDB a surmonté les premiers obstacles en matière de performances grâce à un moteur de stockage extensible 2.0 qui a surmonté de nombreux obstacles de la plate-forme. Mongo a également commencé à coexister à contrecœur avec des fonctionnalités telles que BI Connector qui lui permettaient de fonctionner avec les tableaux du monde entier. Pourtant, aujourd’hui, même avec un vétéran des bases de données relationnelles Marc Porter prenant la tête de la technologie, ils boivent toujours le même Kool Aid, ce document est en train de devenir l’état final ultime pour les bases de données de base de l’entreprise.

Nous ne sommes peut-être pas d’accord avec Porter, mais le parcours de Mongo a révélé quelques thèmes centraux qui ont conduit les entreprises en croissance les plus prospères. Tout d’abord, n’ayez pas peur d’abandonner la technologie 1.0 avant que votre base installée ne soit solidement installée, mais essayez de conserver la compatibilité API pour faciliter la transition. Deuxièmement, créez une excellente expérience cloud. Aujourd’hui, MongoDB est une entreprise publique en passe de dépasser 1 milliard de dollars en revenus(pas de valorisation), avec plus de la moitié de son activité provenant du cloud.

Nous avons également vu d’autres startups en vogue ne pas gérer la transition 2.0 aussi facilement. InfluxDB, une base de données de séries chronologiques, était l’un des favoris des développeurs, tout comme Mongo. Mais la société Influx Data a perdu son élan initial car elle est arrivée à un point où ses ingénieurs ne pouvaient plus dire « non ». Comme Mongo, ils ont également adopté une architecture de deuxième génération. En fait, ils en ont embrassé plusieurs. Commencez-vous à voir une déconnexion ici ? Contrairement à MongoDB, le moteur de stockage NextGen et les environnements de développement d’InfluxDB n’étaient pas compatibles avec la base installée 1.0, et surprise, surprise, de nombreux clients ne se sont pas souciés de la transition. Alors que MongoDB est désormais une entreprise publique d’un milliard de dollars, Influx Data a à peine levé 120 millions de dollars de financement à ce jour et, pour une entreprise de taille modeste, se retrouve aux prises avec un portefeuille de produits. c’est devenu beaucoup trop complexe.

Ce n’est plus du Big Data

Il n’est pas surprenant que les débuts de cette chronique aient été motivés par le Big Data, un terme que nous utilisions en majuscule car il nécessitait des compétences et des plates-formes uniques qui n’étaient pas très faciles à configurer et à utiliser. L’accent s’est déplacé vers les « données » non seulement grâce à l’équivalent de la loi de Moore pour la mise en réseau et le stockage, mais surtout grâce à la simplicité opérationnelle et à l’élasticité du cloud. Commencez par le volume : vous pouvez analyser des ensembles de données assez volumineux de plusieurs téraoctets sur Snowflake. Et dans le cloud, il existe désormais de nombreuses façons d’analyser le reste des données. Les Trois V des mégadonnées ; Hadoop n’est plus la seule voie possible et est désormais considérée comme une plateforme héritée. Aujourd’hui, Spark, les data lakehouses, les requêtes fédérées et les requêtes ad hoc sur les lacs de données (c’est-à-dire le stockage cloud) peuvent facilement gérer tous les V. Mais comme nous l’avons dit l’année dernièrel’héritage de Hadoop n’est pas celui d’une note historique, mais plutôt une étincelle (jeu de mots volontaire) qui a accéléré une vague vertueuse d’innovation qui a permis aux entreprises de surmonter leur peur des données, et de beaucoup d’entre elles.

Au cours des dernières années, les gros titres se sont tournés vers le cloud, l’IA et, bien sûr, la saga continue de l’open source. Mais regardez sous les couvertures, et ce changement de projecteur a été pas loin des données, mais parce que de celui-ci. Le cloud offrait un stockage économique sous de nombreuses formes ; L’IA nécessite des données de qualité et en grande quantité, et une grande partie de l’activité open source concerne les bases de données, les cadres d’intégration et de traitement. Il est toujours là, mais nous pouvons difficilement le tenir pour acquis.

Le cloud hybride est la prochaine frontière pour les données d’entreprise

La simplicité opérationnelle et l’échelle du plan de contrôle des nuages ​​ont rendu obsolète l’idée de rassembler vos propres clusters et d’apprivoiser les animaux du zoo. Il y a cinq ansnous prévoyons que la majorité des nouveau les charges de travail du Big Data seront dans le cloud d’ici 2019 ; rétrospectivement, notre prévision s’est révélée trop conservatrice. Il y a quelques annéesnous prévoyons l’émergence de ce que nous appelons The Hybrid Default, désignant les applications d’entreprise existantes comme la dernière frontière du déploiement dans le cloud, et que la grande majorité d’entre elles resteraient sur site.

Cela a déclenché une vague d’introduction de plates-formes de cloud hybride et de nouvelles options de AWS, Oracle et d’autres pour répondre aux besoins des charges de travail existantes qui, autrement, ne se transposeraient pas facilement dans le cloud. Pour bon nombre de ces plates-formes hybrides, les données étaient souvent le tout premier service à être intégré. Et nous voyons également désormais les fournisseurs de bases de données cloud en tant que service (DBaaS) introduire nouvelles options personnalisées pour capturer bon nombre de ces mêmes charges de travail héritées pour lesquelles les clients ont besoin de plus d’accès et de contrôle sur le système d’exploitation, les configurations de bases de données et les cycles de mise à jour par rapport aux options DBaaS Vanilla existantes. Ces applications existantes, avec toute leur personnalisation et la gravité des données, constituent la dernière frontière pour l’adoption du cloud, et la plupart d’entre elles seront hybrides.

Le cloud doit devenir plus simple

Le cloud de données pourrait être victime de son propre succès si nous ne facilitons pas son utilisation. C’était un point central dans notre coup de départ dans les perspectives de cette année. Les organisations qui adoptent des services de bases de données cloud consomment probablement également des services d’analyse et d’IA associés et, dans de nombreux cas, peuvent utiliser plusieurs plates-formes de bases de données cloud. Dans un service DBaaS ou SaaS géré, le fournisseur de cloud peut s’occuper de la gestion interne, mais pour l’essentiel, la charge incombe au client d’intégrer l’utilisation des différents services. Plus qu’un débat entre bases de données spécialisées, multimodèles ou convergées, il s’agit également de la nécessité de regrouper de bout en bout les données, l’intégration, l’analyse et les outils de ML associés, ou au moins de rendre ces services plus plug and play. Dans nos perspectives Data 2022, nous avons appelé les fournisseurs de cloud à commencer à « rendre le cloud plus facile » en déchargeant le client d’une partie de ce travail d’intégration.

Un point de départ ? Unifiez l’analyse opérationnelle et le streaming. Nous commençons à voir le regroupement d’Azure Synapse dans les pipelines de données et le traitement Spark ; SAP Data Warehouse Cloud intégrant la visualisation des données ; tandis qu’AWS, Google et Teradata intègrent des charges de travail d’inférence d’apprentissage automatique (ML) dans la base de données. Mais mes amis, ce n’est qu’un début.

Et qu’en est-il de l’IA ?

Bien que notre objectif principal dans ce domaine ait été les données, il est pratiquement impossible de séparer la consommation et la gestion des données de l’IA, et plus particulièrement de l’apprentissage automatique (ML). Il s’agit de plusieurs choses : utiliser le ML pour aider à exécuter des bases de données ; utiliser les données comme oxygène pour la formation et l’exécution de modèles ML ; et de plus en plus, être capable de traiter ces modèles dans la base de données.

Et à bien des égards, l’accessibilité croissante du ML, notamment via les outils AutoML qui automatisent ou simplifient l’assemblage des éléments d’un modèle ou l’intégration du ML dans l’analyse, rappelle la perturbation que Tableau a apportée à l’espace analytique, rendant le libre-service enjeux de la table de visualisation. Mais le ML ne sera aussi puissant que son lien de données le plus faible, un point qui nous a été souligné lorsque nous avons interrogé en profondeur une douzaine de responsables des données et de l’analyse. il y a quelques années. Quelle que soit la technologie en libre-service dont vous disposez, il s’avère que dans de nombreuses organisations, les ingénieurs de données resteront une ressource plus précieuse que les scientifiques de données.

L’open source reste l’élément vital des bases de données

Tout comme l’IA/ML a été un pilier clé dans le paysage des données, l’open source a permis cette explosion cambrienne des plates-formes de données qui, selon votre point de vue, est une bénédiction ou une malédiction. Nous avons vu beaucoup de projets open source modestes et sympas qui pourraient, de Kafka à Flink, Flèche, Grafanaet GraphQL décoller de pratiquement nulle part.

Nous avons également assisté à de petites querelles de famille. Lorsque nous avons commencé cette chronique, la communauté open source Hadoop a vu de nombreux projets concurrents qui se chevauchaient. Les gens de Presto n’ont pas retenu la leçon de Hadoop. Les gens de Facebook qui ont piqué des crises lorsque les principaux développeurs de Presto, originaire de là-bas, est parti créer sa propre entreprise. Le résultat fut une stupide guerre de marques qui aboutit à la victoire de Pyric : les gens de Facebook qui n’avaient pas grand-chose à voir avec Presto ont conservé la marque, mais pas les principaux contributeurs. Le résultat a fracturé la communauté, mettant à genoux leur propre spin-off. Pendant ce temps, les cinq principaux contributeurs a rejoint Starburstl’entreprise exilée de la communauté, dont la valorisation est passée à 3,35 milliards.

L’une de nos premières chroniques en 2016 a posé la question de savoir si les logiciels open source sont devenus le modèle économique par défaut des logiciels d’entreprise. C’étaient des jours innocents ; au cours des années suivantes, des coups de feu ont commencé à tirer concernant les licences. L’élément déclencheur était la crainte que les fournisseurs de cloud, comme l’a dit Michael Howard, PDG de MariaDB, exploitation minière à ciel ouvert open source (Howard faisait référence à AWS). Nous avons ensuite risqué la question de si le noyau ouvert pourrait être le baume pour les difficultés de croissance de l’open source. Malgré tous les crisle noyau ouvert est très vivant dans ce que les joueurs aiment Rédis et Apollo GraphQL faites.

MongoDB a tiré le premier coup avec SSPL, suivi de Confluent, CafardDB, Élastique, MariaDB, Rédis et d’autres. Notre point de vue est que ces joueurs avaient des arguments valables, mais nous sommes devenus préoccupés par la simple variation des licences quasi open source du jour qui ne cessaient d’apparaître.

L’open source reste encore aujourd’hui un sujet qui met de nombreuses personnes, des deux côtés du débat, sur la défensive. La pièce qui a suscité le plus de tweets enflammés était notre poste 2018 sur DataStax qui tente de se réconcilier avec la communauté Apache Cassandra, et il est remarquable aujourd’hui que l’entreprise se met en quatre pour ne pas peser de tout son poids dans la communauté.

Il n’est donc pas surprenant qu’au cours des six dernières années, l’un de nos articles les plus populaires ait posé la question : Les bases de données open source sont-elles mortes? Notre conclusion de toute cette expérience est que l’open source a été un incroyable incubateur d’innovation – il suffit de demander à n’importe qui dans la communauté PostgreSQL. C’est également un domaine dans lequel aucune stratégie open source ne pourra jamais satisfaire tout le monde à tout moment. Mais peut-être que tout cela est académique. Que le fournisseur de base de données dispose d’une licence open source permissive ou restrictive, à l’heure où le DBaaS devient le mode privilégié pour les nouveaux déploiements de bases de données, c’est l’expérience cloud qui compte. Et cette expérience n’est pas quelque chose que vous pouvez obtenir sous licence.

N’oubliez pas les données gestion

Comme nous l’avons noté, l’avenir consiste à déterminer comment gérer toutes les données qui atterrissent dans nos lacs de données ou qui sont générées par toutes sortes de sources polyglottes, à l’intérieur et à l’extérieur du pare-feu. La connectivité promise par la 5G promet de rapprocher plus que jamais la frontière. Cela a en grande partie alimenté le débat émergent sur les maillages de données, les lacs de données et les structures de données. C’est une discussion qui consommera une grande partie de l’oxygène cette année.

Cela a été un excellent parcours sur ZDNet mais il est temps de passer à autre chose. Le Big on Data évolue. Big on Data frérot Andrew Brut et moi-même déplaçons notre couverture sous une nouvelle bannière, Le pipeline de donnéeset nous espérons que vous nous rejoindrez pour le prochain chapitre du voyage.



LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici