Lors d’un événement au MIT en mars, Sam Altman, cofondateur et PDG d’OpenAI, a déclaré que son équipe n’était pas encore en train de former sa prochaine IA, GPT-5. « Nous ne le ferons pas et nous ne le ferons pas avant un certain temps » il a dit au public.
Cette semaine, cependant, de nouveaux détails sur le statut de GPT-5 sont apparus.
Dans une interview, Altman a dit au Temps Financier la société travaille actuellement au développement de GPT-5. Bien que l’article ne précise pas si le modèle est en cours de formation (ce n’est probablement pas le cas), Altman a déclaré qu’il aurait besoin de plus de données. Les données proviendraient de sources publiques en ligne – c’est ainsi que de tels algorithmes, appelés grands modèles de langage, ont été précédemment formés – et d’ensembles de données privés propriétaires.
Cela correspond à Appel d’OpenAI la semaine dernière pour les organisations de collaborer sur des ensembles de données privés ainsi que sur des travaux antérieurs pour acquérir du contenu précieux auprès de grands éditeurs comme le Presse associée et Actualités Corp.. Dans un article de blog, tL’équipe a déclaré qu’elle souhaitait s’associer sur du texte, des images, de l’audio ou de la vidéo, mais qu’elle était particulièrement intéressée par « des écrits longs ou des conversations plutôt que des extraits déconnectés » qui expriment « l’intention humaine ».
Il n’est pas surprenant qu’OpenAI cherche à exploiter des sources de meilleure qualité non disponibles publiquement. Les besoins extrêmes en données de l’IA constituent un point de friction dans son développement. L’essor des grands modèles de langage derrière les chatbots comme ChatGPT a été motivé par des algorithmes de plus en plus volumineux consommant davantage de données. Parmi les deux, il est possible qu’encore plus de données de meilleure qualité puissent produire de meilleurs résultats à court terme. Recherche récente suggère des modèles plus petits alimentés par de plus grandes quantités de données fonctionnent aussi bien, voire mieux, que les modèles plus grands nourris moins.
« Le problème est que, comme d’autres produits culturels humains haut de gamme, la bonne prose figure parmi les choses les plus difficiles à produire dans l’univers connu. » Ross Andersen a écrit dans L’Atlantique cette année. « Il n’y en a pas en quantité infinie, et pour l’IA, aucun texte ancien ne fera l’affaire : les grands modèles de langage formés sur des livres sont de bien meilleurs écrivains que ceux formés sur d’énormes lots de publications sur les réseaux sociaux. »
Après avoir parcouru une grande partie d’Internet pour entraîner GPT-4, il semble que les fruits les plus faciles à trouver aient été en grande partie cueillis. Une équipe de chercheurs a estimé l’année dernière l’offre de ressources accessibles au public, les données en ligne de haute qualité seront épuisées d’ici 2026. Une façon de contourner ce problème, du moins à court terme, consiste à conclure des accords avec les propriétaires de hordes d’informations privées.
L’informatique est un autre obstacle abordé par Altman dans l’interview.
Les modèles de base comme le GPT-4 d’OpenAI nécessitent de vastes quantités d’unités de traitement graphique (GPU), un type de puce informatique spécialisée largement utilisée pour former et exécuter l’IA. Le fabricant de puces Nvidia est le principal fournisseur de GPU et, après le lancement de ChatGPT, ses puces sont devenues le produit le plus prisé de la technologie. Altman a déclaré avoir récemment pris livraison d’un lot des dernières puces H100 de la société et il s’attend à ce que l’offre se relâche encore davantage en 2024.
En plus d’une plus grande disponibilité, les nouvelles puces semblent également plus rapides.
Dans les tests publiés cette semaine par Organisation d’analyse comparative de l’IA MLPerf, les puces ont entraîné de grands modèles de langage près de trois fois plus rapidement que la marque fixée il y a à peine cinq mois. (Depuis que MLPerf a commencé à évaluer les puces IA il y a cinq ans, les performances globales ont été multipliées par 49.)
Lire entre les lignes, ce qui est devenu plus difficile à mesure que l’industrie est devenue moins transparente– le travail GPT-5 auquel Altman fait allusion concerne probablement davantage l’assemblage des ingrédients nécessaires que la formation de l’algorithme lui-même. L’entreprise s’efforce d’obtenir du financement auprès des investisseurs…La formation de GPT-4 a coûté plus de 100 millions de dollars– des puces de Nvidia et des données de qualité partout où ils peuvent mettre la main dessus.
Altman ne s’est pas engagé sur un calendrier pour la sortie de GPT-5, mais même si la formation commençait bientôt, l’algorithme ne verrait pas le jour avant un certain temps. Selon sa taille et sa conception, la formation peut prendre des semaines ou des mois. Ensuite, l’algorithme brut devrait être testé et affiné par de nombreuses personnes pour le rendre sûr. Il a fallu à l’entreprise huit mois pour peaufiner et publier GPT-4 après la formation. Et bien que le paysage concurrentiel soit désormais plus intense, il convient également de noter que GPT-4 est arrivé près de trois ans après GPT-3.
Mais il est préférable de ne pas trop se préoccuper des numéros de version. OpenAI continue de progresser de manière agressive avec sa technologie actuelle. Il y a deux semaines, à son première conférence des développeurs, la société a lancé des chatbots personnalisés, appelés GPT, ainsi que GPT-4 Turbo. L’algorithme amélioré inclut des informations plus à jour (étendant la date limite de septembre 2021 à avril 2023), peut fonctionner avec des invites beaucoup plus longues et est moins cher pour les développeurs.
Et les concurrents sont sur les talons d’OpenAI. Google DeepMind est travaille actuellement sur son prochain algorithme d’IAGémeaux et la grande technologie est investir massivement dans d’autres startups de premier plan, comme Anthropic, Character.AI et Inflection AI. Toute cette action a les gouvernements envisagent des réglementations ils espèrent pouvoir réduire les risques à court terme posés par les biais algorithmiques, les problèmes de confidentialité et la violation des droits de propriété intellectuelle, ainsi que rendre les futurs algorithmes plus sûrs.
À plus long terme, cependant, il n’est pas clair si les lacunes associées aux grands modèles de langage peuvent être résolues avec davantage de données et des algorithmes plus volumineux ou si de nouvelles avancées seront nécessaires. Dans un Profil de septembre, Filaire Steven Levy a écrit qu’OpenAI n’est pas encore sûr de ce qui apporterait « une amélioration exponentiellement puissante » sur GPT-4.
« La plus grande chose qui nous manque, c’est de trouver de nouvelles idées », a déclaré à Levy Greg Brockman, président d’OpenAI, « C’est bien d’avoir quelque chose qui pourrait être un assistant virtuel. Mais ce n’est pas le rêve. Le rêve est de nous aider à résoudre des problèmes que nous ne pouvons pas résoudre.
C’était le 2017 de Google invention des transformateurs cela a amené le moment actuel dans l’IA. Pendant plusieurs années, les chercheurs ont agrandi leurs algorithmes, leur ont fourni davantage de données, et cette mise à l’échelle a donné lieu à des améliorations de performances presque automatiques, souvent surprenantes.
Mais lors de l’événement du MIT en mars, Altman a déclaré qu’il pensait que l’ère de la mise à l’échelle était révolue et les chercheurs trouveraient d’autres moyens d’améliorer les algorithmes. Il est possible que sa façon de penser ait changé depuis. Il est également possible que GPT-5 soit meilleur que GPT-4, comme le dernier smartphone est meilleur que le précédent, et que la technologie permettant le prochain changement n’est pas encore née. Altman ne semble pas non plus tout à fait sûr.
« Jusqu’à ce que nous formions ce modèle, c’est comme un jeu de devinettes amusant pour nous », a-t-il déclaré. FT. « Nous essayons de nous améliorer, car je pense qu’il est important, du point de vue de la sécurité, de prédire les capacités. Mais je ne peux pas vous dire exactement ce que GPT-4 va faire, ce que GPT-4 n’a pas fait.
En attendant, il semble que nous en aurons largement assez pour nous occuper.
Crédit d’image : Maxime Berg / Unsplash