Dans les cercles du matériel d’IA, presque tout le monde parle d’inférence.
La directrice financière de Nvidia, Colette Kress, a déclaré lors de la conférence téléphonique sur les résultats de la société mercredi que l'inférence représentait environ 40 % des 26,3 milliards de dollars de revenus des centres de données de Nvidia au deuxième trimestre. Le PDG d'AWS, Matt Garman, a récemment déclaré au podcast No Priors que l'inférence représente probablement la moitié du travail effectué sur les serveurs de calcul IA aujourd'hui.
Et cette part est susceptible de croître, attirant des concurrents désireux de porter atteinte à la couronne de Nvidia.
Il s’ensuit donc que de nombreuses entreprises cherchant à prendre des parts de marché à Nvidia commencent par l’inférence.
Une équipe fondatrice d'anciens employés de Google a fondé Groq, qui se concentre sur le matériel d'inférence et a levé 640 millions de dollars pour une valorisation de 2,8 milliards de dollars en août.
En décembre 2023, Positron AI est sorti de sa furtivité avec une inférence Amazon affirme que cette puce peut effectuer les mêmes calculs que la H100 de Nvidia, mais cinq fois moins cher. Amazon développe des puces d'entraînement et d'inférence, nommées respectivement Trainium et Inferentia.
« Je pense que plus il y a de diversité, mieux nous nous portons », a déclaré Garman dans le même podcast.
Et Cerebras, la société californienne célèbre pour ses puces d'entraînement d'IA surdimensionnées, a annoncé la semaine dernière avoir développé une puce d'inférence tout aussi grande qui est la plus rapide du marché, selon le PDG Andrew Feldman.
Toutes les puces d'inférence ne sont pas construites de la même manière
Les puces conçues pour les charges de travail d’intelligence artificielle doivent être optimisées pour la formation ou l’inférence.
L'entraînement est la première phase du développement d'un outil d'IA : vous alimentez un modèle avec des données étiquetées et annotées afin qu'il puisse apprendre à produire des résultats précis et utiles.
L'inférence est l'acte de produire ces résultats une fois le modèle entraîné.
Les puces d'entraînement ont tendance à optimiser la puissance de calcul pure. Les puces d'inférence nécessitent moins de puissance de calcul, en fait certaines inférences peuvent être effectuées sur des processeurs traditionnels.
Les fabricants de puces pour cette tâche sont plus préoccupés par la latence, car la différence entre un outil d'IA addictif et un outil ennuyeux se résume souvent à la vitesse. C'est sur cela que mise Andrew Feldman, PDG de Cerebras.
Selon la société, la puce de Cerebras possède une bande passante mémoire 7 000 fois supérieure à celle de la H100 de Nvidia.
C'est ce qui permet à Feldman d'atteindre une « vitesse fulgurante ».
La société, qui a entamé le processus de lancement d'une introduction en bourse, déploie également l'inférence en tant que service avec plusieurs niveaux, dont un niveau gratuit.
« L'inférence est un problème de bande passante mémoire », a déclaré Feldman à Business Insider.
Pour gagner de l'argent dans l'IA, il faut faire évoluer les charges de travail d'inférence
Le choix d'optimiser la conception d'une puce pour la formation ou l'inférence n'est pas seulement une décision technique, c'est aussi une décision commerciale. La plupart des entreprises qui fabriquent des outils d'IA auront besoin des deux à un moment donné, mais l'essentiel de leurs besoins se situera probablement dans l'un ou l'autre domaine, selon l'étape à laquelle se trouve l'entreprise dans son cycle de développement.
Les charges de travail de formation massives pourraient être considérées comme la phase de R&D de l’IA.
Lorsqu’une entreprise passe principalement à l’inférence, cela signifie que le produit qu’elle a créé fonctionne pour les clients finaux, du moins en théorie.
L'inférence devrait représenter la grande majorité des tâches informatiques à mesure que les projets et les startups d'IA gagnent en maturité. En fait, selon Garman d'AWS, c'est ce qui doit se produire pour réaliser le retour sur investissement non encore réalisé de centaines de milliards d'investissements dans les infrastructures d'IA.
« Les charges de travail d'inférence doivent dominer, sinon tous ces investissements dans ces grands modèles ne seront pas vraiment rentables », a déclaré Garman à No Priors.
Cependant, le système binaire simple entre formation et inférence pour les concepteurs de puces pourrait ne pas durer éternellement.
« Certains des clusters qui se trouvent dans nos centres de données, les clients les utilisent à ces deux fins », a déclaré Raul Martynek, PDG du propriétaire du centre de données Databank.
L’acquisition récente de Run.ai par Nvidia pourrait confirmer la prédiction de Martynek selon laquelle le mur entre l’inférence et la formation pourrait bientôt tomber.
En avril, Nvidia a accepté d'acquérir la société israélienne Run:ai, mais l'accord n'a pas encore été conclu et fait l'objet d'un examen minutieux de la part du ministère de la Justice, selon Politico.
La technologie de Run:ai permet aux GPU de fonctionner plus efficacement, ce qui permet d'effectuer plus de travail sur moins de puces.
« Je pense que la plupart des entreprises vont fusionner. Vous aurez un cluster qui s'entraîne et fait des inférences », a déclaré Martynek.
Nvidia a refusé de commenter ce rapport.
- Nvidia pourrait perdre une part du marché de l'IA.
- L'inférence est au cœur des discussions dans le domaine de l'IA.
- Des concurrents comme Groq et Positron AI se positionnent sur le marché de l'inférence.
- La distinction entre puces d'entraînement et d'inférence pourrait évoluer avec des acteurs comme Cerebras et Run.ai.