En moins d’une semaine, un petit laboratoire de recherche chinois a réussi l’exploit de mettre sans dessus dessous les grandes sociétés technologiques américaines avec le lancement de DeepSeek R1, un modèle génératif frugal offrant des performances équivalente aux meilleurs modèles US, mais avec un budget et une consommation d’énergie dix fois inférieure. Un véritable séisme pour des big techs et startups qui se croyaient intouchables, mais faisaient l’impasse sur les considérations économiques et environnementales de l’IA générative. Cheh !
En synthèse :
- Depuis la sortie de ChatGPT à la fin de l’année 2023, les grandes sociétés technologiques dépensent sans compter pour rattraper leur retard sur OpenAI ;
- Depuis deux ans, le secteur de l’IA est stimulé par des projets toujours plus ambitieux, pour des perspectives de rentabilité toujours plus incertaines ;
- La sortie des modèles V3 et R1 de DeepSeek marquent un coup d’arrêt à cette course au gigantisme avec une approche frugale centrée sur l’optimisation du ratio performances / coûts ;
- L’onde de choc provoquée par DeekSeek est salutaire, car le marché des chatbots généralistes n’est de toute façon pas rentable, et ne le sera jamais ;
- Le scénario d’évolution le plus probable semble être une reprise en main du « marché de l’IA » par les acteurs historiques (Microsoft, Google et Apple) qui imposeront leur assistant à la fois dans leur environnement logiciel, mais également sur le matériel (ordinateurs, smartphones…) pour reporter les coûts d’inférence sur les utilisateurs.
Voilà une semaine que la startup chinoise DeepSeek a lancé son modèle de raisonnement R1, provoquant une véritable onde de choc dans le petit monde de l’IA, et plus généralement pour tous les acteurs des nouvelles technologies (Tech wipeout erases $1 trillion as DeepSeek AI app stirs Wall Street panic). Au-delà de toutes les âneries que l’on peut lire à droite et à gauche sur les particularités des modèles de DeepSeek et sur le secteur de l’IA de façon plus large, ce non-événement nous prouve à quel point le marché est tendu.
La principale leçon que nous pouvons tirer de cette histoire, qui n’est pas encore terminée, est que l’intelligence artificielle est un sujet qui dépasse largement les frontières de la communauté scientifique ou informatique, car l’IA est devenu une véritable ligne de front entre les États-Unis et la Chine. D’ailleurs : OpenAI says it has evidence China’s DeepSeek used its model to train competitor.
Je ne m’aventurerai pas dans des considérations géopolitiques, car ce n’est pas mon domaine de compétences. En revanche, le brouhaha médiatique autour de DeepSeek me permet d’aborder à nouveau un sujet qui me tient à coeur : le développement numérique durable (cf. Une transformation digitale vertueuse à travers la responsabilité numérique des entreprises). Un sujet qui était passé sous le radar, car la priorité de ces deux dernières années était de se lancer à corps perdu dans une course au gigantisme : des modèles génératifs toujours plus puissants, des centres de données avec toujours plus d’unités de traitement (GPUs, NPUs…), toujours plus de cas d’usage, toujours plus de tout.
Est-ce que plus de budget et puissance apportent de meilleurs résultats en matière d’IA générative ? Pas nécessairement, car tout dépend de ce que vous attendez et de vos contraintes. Comme souvent quand il est question d’évaluer la pertinence de telle ou telle solution numérique, la règle du « Less is more » ou du « More is more » ne s’applique pas, car il y a de nombreux paramètres à prendre en compte. Tout est dans l’art du compromis. Ainsi, diriez-vous qu’une Porsche 911 est mieux qu’une Twingo ? Non, car ces deux voitures n’ont rien en commun : ni le prix, ni les usages auxquels elles sont destinées, ni la facilité de prise en main ou les frais d’entretiens (et d’assurance). C’est la même chose pour les modèles génératifs : Toutes les IA ne sont pas les mêmes, arrêtez de les comparer.
Mais malgré tout, dans le doute, il subsiste une fascination pour les plus gros modèles de langage.
Une course à la puissance
Les travaux sur l’IA générative ont commencé il y a une dizaine d’années avec les réseaux neuronaux convolutifs et les réseaux antagonistes génératifs, mais c’est le lancement de ChatGPT qui a marqué le début d’une incroyable course à l’armement pour les grands acteurs du numérique qui cherchent à rattraper leur retard sur OpenAI. Et ce sont logiquement les big techs américaines qui dominent le marché, car ils disposent de moyens humains et financiers largement supérieurs aux différents acteurs des autres pays (ex : Mistral, Cohere…) : La course à la domination de l’IA.
Dans cet affrontement épique, s’opposent les éditeurs de modèles propriétaires (donc payants) aux éditeurs de modèles (plus ou moins) open source. Les modèles fermés sont-ils réellement meilleurs que les modèles ouverts ? Peu importe, car nous savons tous que le marché de l’IA générative tel qu’il est configuré (des chatbots accessibles gratuitement) n’est pas viable, car les coûts d’entrainement et d’inférence sont exorbitants. Pour résumer une longue explication : le marché de l’IA générative est une aberration économique, mais également écologique, car les centres de données qui font tourner les modèles consomment énormément d’électricité et d’eau ( pour le refroidissement), tandis que les unités de traitement (GPU, NPU…) nécessitent l’extraction de matériaux avec une très lourde empreinte carbone (cf. Pour une utilisation responsable de l’IA générative).
Où cette course va-t-elle nous mener ? Nous ne savons pas, mais nous savons que nous y allons ! Dernière preuve en date de cette course au gigantisme : l’annonce Par Donald Trump du projet d’infrastructure « Stargate » doté d’un budget pharaonique de 500 MM$ : OpenAI teams up with SoftBank and Oracle on $500B data center project.
Ce projet s’inscrit dans le cadre d’un consortium entre OpenAI, Oracle et Softbank. Vraisemblablement un gros coup de bluff médiatique, car les porteurs du projet sont très loin d’avoir les liquidités nécessaires : ‘Stargate’ Squares Some AI Circles.
Heureusement, les mentalités sont en train de changer.
Un début de prise de conscience
Heureusement, dans cette frénésie de dépenses financières et énergétiques, certains commencent à aborder le volet énergique de l’IA, et notamment la fâcheuse manie des modèles génératifs à sur-consommer : Powering Artificial Intelligence et The Environmental Impacts of AI.
Le sujet semble être préoccupant, puisque même le CEO de Microsoft communique activement sur le ratio « tokens per dollar per watt« .
Rassurez-vous, il n’y a pas qu’aux États-Unis que l’on se préoccupe des enjeux énergétiques et environnementaux de l’IA générative, puisque déjà l’année dernière, le Ministère de la transition écologique avait publié son Référentiel général pour l’IA frugale.
Signalons également au passage que « IA frugale » est le mot numérique de l’année, et qu’il existe même un site web qui recense différentes ressources sur ce sujet : IA-frugale.org.
Et au cas où vous poseriez la question : Oui, il existe de nombreuses solutions pour optimiser la consommation énergétique et faire baisser la facture :
- Utiliser des modèles compacts comme ceux de Meta (Llama 3.2), Mistral (Ministral) ou Microsoft (Orca 2) ;
- Cloisonner la base de connaissances en expertises indépendantes pour ne solliciter qu’une partie du modèle (architecture du type « Mixture of Experts« , MoE) ;
- Exploiter des processeurs dédiés pour les calculs d’inférences (notamment les NPU de chez Ampere ou les TPU de chez Groq)…
Je ne rentrerai pas plus dans les détails techniques, mais sachez simplement qu’il existe de nombreuses offres à la marge qui proposent un bien meilleur ratio performances / coûts, largement inférieur à ce que proposent les modèles de référence : DeepSeek-R1 Upsets AI Market With Low Prices. Mais ça, on ne vous en parle pas, car ça fait un récit bien moins intéressant à raconter pour les médias en quête de gros titres sensationnalistes…
Croyez-le ou non, mais on commence même déjà à parler des très petits modèles de langage qui ne dépassent pas les 250 M de paramètres : Hugging Face claims its new AI models are the smallest of their kind.
Dans ce registre, les très grands modèles proposés par les éditeurs US se font bousculer par les modèles chinois : Alibaba researchers unveil Marco-o1, an LLM with advanced reasoning capabilities et Is ChatGPT losing its edge? Chinese chatbots challenge US tech dominance. Fait notable : ces modèles proposent des performances comparables tout en tenant compte des restrictions sur l’exportation des GPU de NVIDIA, donc sur du matériel moins performant.
Et ce sont justement ces restrictions qui ont poussé les équipes de DeepSeek à aborder la compétition sous un autre angle.
Le “wake-up call” de DeepSeek
Si vous ne connaissez pas DeepSeek, c’est normal, car personne à part les initiés n’avait réellement fait attention à ce petit laboratoire de recherche jusqu’à très récemment. Financée par une société d’investissement privée, cette startup active dans le milieu de l’IA générative depuis quelques années a surpris avec la publication de la troisième version de son modèle de référence : China’s AI keeps getting better, and cheaper.
La pression est montée d’un cran la semaine dernière avec la publication d’un nouveau modèle de raisonnement proposant des performances équivalentes à celui d’OpenAI (le modèle o1), mais avec une consommation largement inférieure : DeepSeek’s first reasoning model has arrived – over 25x cheaper than OpenAI’s o1.
La raison pour laquelle les équipes de DeepSeek ont concentré leurs efforts sur le ratio performances / coûts est qu’en tant que laboratoire de recherche chinois, ils n’ont pas le droit d’importer les processeurs de dernière génération de chez NVIDIA (ceux de la gamme H100), mais doivent se contenter d’utiliser des processeurs moins puissants, spécifiquement conçus pour être conformes avec les restrictions imposées par l’administration US (ceux de la gamme H800). De ce fait, les modèles ont été entrainés dans un grand souci d’efficacité, grâce notamment à plusieurs innovations dont l’utilisation de la précision mixte FP8 (8 bits) qui réduit la mémoire et les besoins en calcul, ainsi que des techniques comme le Multi-Token Prediction (prédiction de plusieurs tokens simultanément) qui améliorent l’efficacité de l’entraînement. Ces optimisations ont permis de limiter les délais d’entrainement à 55 jours, pour un coût total approximatif de 5,5 M$, ce qui est nettement inférieur aux dépenses de leurs concurrents américains qui se chiffrent en centaines de M$.
Au cas où vous poseriez la question : oui, ces explications m’ont été fournies par le chatbot de DeepSeek, prouvant ainsi qu’il est capable de générer de très bonnes réponses en n’utilisant qu’une fraction de la consommation énergétique de ses grands frères américains.
Il n’en fallait pas moins pour engendrer un énorme phénomène médiatique. Ces nouveaux modèles offrant un bien meilleur ratio performances / coûts, aussi bien pour de la génération de texte (V3) que pour du raisonnement (R1), sont considérés comme un véritable camouflet pour le leader du secteur : Here’s what DeepSeek AI does better than OpenAI’s ChatGPT.
L’humiliation est d’autant plus forte qu’elle est relayée par tous les médias, ce qui favorise l’adoption de DeepSeek par le grand public : l’application mobile proposée depuis quelques semaines remporte un énorme succès et se place en haut du classement des téléchargements : DeepSeek displaces ChatGPT as the App Store’s top app.
Face à l’ampleur du phénomène médiatique, le patron de ChatGPT ne peut que reconnaitre l’exploit réalisé (Sam Altman praises DeepSeek R1 and promises more from OpenAI), tandis que les initiés s’en donnent à coeur joie pour dénoncer les budgets faramineux engloutis par OpenAI pour mettre au point un modèle propriétaire qui se fait dépasser par un modèle compact ET open source : Tech leaders respond to the rapid rise of DeepSeek.
La sortie de ces deux modèles chinois signe-t-elle le début de l’éclatement de la bulle spéculative de l’IA générative ? Pas vraiment, car des doutes subsistent sur les méthodes employées par les équipes de DeekSeek pour mettre au point leurs modèles : DeepSeek R1’s bold bet on reinforcement learning: How it outpaced OpenAI at 3% of the cost. Serait-ce une tentative de la Chine de décrédibiliser les grands acteurs technologiques américains ? Peut-être, mais nous manquons de recul pour en avoir les preuves. Est-ce la fin de la course à la puissance avec des budgets illimités ? Très certainement, car nous sommes dans un contexte de marché très tendu où les entreprises subissent une énorme pression sur leurs marges… et sur leur bilan carbone !
Dans tous les cas de figure, tous les observateurs s’accordent à dire que ce sont les restrictions imposées par l’administration US sur l’exportation des processeurs qui ont forcé les équipes de DeepSeek faire preuve de créativité. En ce sens, la publication des derniers modèles de DeepSeek, Alibaba ou Baidu marquent un point d’inflexion dans la course à la puissance et remettent en cause la pertinence des restrictions : How a top Chinese AI model overcame US sanctions. D’ailleurs, ils réfléchissent à les durcir : Trump officials discuss tigher curbs on NVIDIA China sales.
Encore une fois : nous manquons de recul pour évaluer à leur juste valeur les modèles V3 et R1 de DeepSeek, car la viabilité de leur méthode reste à prouver et que rien n’empêche leurs concurrents de la reproduire (Hugging Face researchers are trying to build a more open version of DeepSeek’s AI ‘reasoning’ model). Et pendant que tout le monde s’extasie sur DeepSeek, les modèles des autres éditeurs continuent de progresser : Alibaba’s Qwen2.5-Max challenges U.S. tech giants, reshapes enterprise AI.
Mais le pire dans cette histoire est que Google avait publié une semaine avant la sortie de DeepSeek R1 un modèle qui propose sensiblement le même ratio performances / coûts, mais qui est passé complètement inaperçu ! (Gemini 2.0 Flash Thinking: Google’s smallest model takes lead in Chatbot Arena).
Si je ne devais retenir que deux enseignements de ce brouhaha médiatique, ça serait que :
- Les grands médias continuent de raconter de grosses âneries sur l’IA tandis qu’une bonne partie des médias spécialisés font des raccourcis inacceptables pour tenter de capter l’attention des lecteurs ;
- Personne ne semble avoir compris que les chatbots généralistes ne sont pas viables, ce ne sont que des démonstrateurs techniques dont les éditeurs se servent pour lever de l’argent afin de financer des projets plus sérieux (cf. Chatbots et agents intelligents ne sont qu’une étape intermédiaire vers les assistants numériques).
Ceci nous amène à parler de l’évolution du marché de l’IA et des modèles économiques des éditeurs de contenus.
L’avènement des modèles verticaux
Comme expliqué plus haut, le marché des chatbots généralistes n’est pas viable et ne le sera probablement jamais, car les coûts d’entraînement et d’inférence des grands modèles de langage ne pourront jamais être rentabilisés avec des offres à 20 $ / mois.
Si je devais faire une analogie, je dirais que les chatbots généralistes sont des produits d’appel dont les éditeurs se servent pour démontrer leur savoir-faire et convaincre les éditeurs de contenus à valeur ajoutée de développer leur propre offre en s’appuyant sur cette expertise. Formulé autrement : les chatbots généralistes capables de répondre à toutes les questions du monde ne pourront jamais être rentables, car les utilisateurs n’accepteront jamais de payer plus de 20$ / mois pour un service dont la valeur perçue est fortement dégradée par la disponibilité d’alternatives gratuites.
En revanche, les utilisateurs professionnels sont tout à fait prêts à payer un abonnement beaucoup plus élevé auprès d’un éditeur de renom qui leur proposerait un chatbot spécialisé dans un domaine précis (ex : l’information financière avec BloombergGPT). Non seulement la valeur perçue de ces chatbots verticaux est largement supérieure aux yeux des professionnels (ex : Lefebvre Dalloz lance GenIA-L, la première IA générative utilisant des contenus juridiques fiables ou ExpertCHAT, le nouvel outil d’IA générative conçu par et pour les experts-comptables), mais ils reposent de plus sur des bases de connaissances plus étroites, donc moins coûteuses à faire tourner. À partir du moment où l’on augmente le prix de vente et l’on baisse le prix de revient, il est tout à fait possible d’arriver à trouver un modèle économique viable en s’appuyant sur des modèles compacts, mais spécialisés.
S’il existe vraisemblablement un marché pour les chatbots « experts », qu’en est-il des chatbots généralistes censés aider les salariés dans leurs tâches du quotidien ? Dans la mesure où la valeur perçue est plus faible puisque ces salariés ne savent ni s’en servir, ni quoi en faire, je ne vois pas bien comment un nouvel entrant parviendrait à convaincre un nombre significatif d’entreprises pour arriver à rentabiliser son offre. D’autant plus que les acteurs historiques (Microsoft et Google) sont bien décidés à ne pas se laisser couper l’herbe sous les pieds et commencent à forcer l’adoption de leur assistant pour asphyxier la concurrence : Microsoft 365’s Copilot Bundle Triggers an Automatic Price Increase et Google Workspace getting full Gemini, price increase. Que va-t-il rester aux acteurs indépendants ? Pas grand chose j’en ai bien peur…
Maintenant que les assistants numériques des big techs sont intégrés de force à leur environnement logiciel (Copilot pour Office365, Gemini pour Workspace, Siri pour iOS et MacOS), il leur reste à les intégrer au matériel pour reporter sur les utilisateurs les coûts d’inférence (Copilot sur les PC, Gemini sur les smartphones Android, et Siri sur les iPhones et Mac).
Reste maintenant à voir comment le principe d’IA frugale s’applique au marché des agents intelligents avec des modèles d’action suffisamment compacts pour être embarqués dans un ordinateur ou un smartphone. Et là encore, les américains semblent avoir un train de retard, car ils mettent toujours en avant la puissance de leur modèle (OpenAI’s new Operator AI agent can do things on the web for you), là où les chinois proposent une approche frugale avec des modèles de vision compacts : Alibaba’s Qwen team releases AI models that can control PCs and phones.
Je ne suis pas devin, aussi je suis bien incapable de prédire ce qui va se passer dans les prochaines années. En revanche, je sais que la marge de manoeuvre des entreprises françaises ou européennes, comme des gouvernements, est trop étroite pour espérer rivaliser avec les moyens financiers et humains des géants numériques américains. Selon cette optique, le marché européen devrait logiquement s’aligner sur l’approche chinoise : miser sur des technologies open source et sur une logique de frugalité pour concevoir des modèles offrant le meilleur ratio performances / coûts / consommation. Qui s’en plaindra ? Certainement pas la planète…
J’imagine que c’est de ça dont on parlera lors du prochain sommet pour l’action sur l’IA qui s’ouvrira en fin de semaine prochaine à Paris…