Lors d’une célèbre interview donnée en 1984 à l’occasion du lancement du Macintosh, le premier ordinateur personnel d’Apple, Steve Jobs disait : « Computers are the equivalent of a bicycle for our minds« . Avec le recul, nous comprenons mieux sa métaphore : tout comme les vélos nous permettent d’aller plus loin en faisant moins d’efforts, les ordinateurs nous permettent d’abattre plus de travail en moins d’efforts. 40 ans après, l’IA est prête à réitérer l’exploit des ordinateurs individuels et à propulser l’humanité dans une nouvelle ère. Mais avant cela, les services reposant sur les modèles génératifs, avec en premier lieu les assistants numériques, vont devoir s’imposer sur le marché et convaincre les utilisateurs de changer leurs habitudes.

Je pense ne rien vous apprendre en écrivant que les ordinateurs ont transformé notre quotidien en 30 ans. Certes, nous en avions l’intuition à leur lancement, mais ce n’est que bien plus tard, grâce à l’internet, qu’ils ont connu un essor sans précédent et bouleversé l’économie (lire à ce sujet : Why Software Is Eating the World de Marc Andreessen).
Puis les smartphones ont à nouveau tout chamboulé en à peine 15 ans ( Le smartphone est la pierre angulaire de la civilisation du XXIème siècle), faisant émerger de nouveaux modèles qui sont aujourd’hui la référence (ex : plateformes numériques) et propulsant les grands acteurs du numérique aux premières loges de l’économie mondiale (Microsoft becomes second-ever company to hit $3 trillion market value).
Un changement majeur stimulé par les smartphones qui ont joué et jouent un rôle majeur dans l’élaboration d’un nouveau modèle de consommation où les citoyens / consommateurs ont accès en permanence à une infinité de contenus et services en ligne.
Entre-temps, différentes technologies ou concepts disruptifs se sont succédés avec l’ambition de tout changer à nouveau (blockchain, métavers, Web3…), mais ce n’est qu’avec le succès fulgurant de ChatGPT que nous avons pu identifier un candidat potentiel pour reprendre le flambeau des ordinateurs et des smartphones, ou du moins en sublimer l’utilisation, car il n’est pas encore question de les remplacer.

Ce n’est pas la première fois que les applications mobiles sont menacées
J’ai déjà eu l’occasion de vous expliquer que le smartphone est la télécommande notre quotidien numérique, il est l’icône du 21e siècle, pour le meilleur et pour le pire. Le problème des smartphones est que l’accès aux mobinautes est jalousement gardé par les éditeurs de systèmes d’exploitation mobiles (Apple et Google) qui imposent une commission sur l’ensemble des transactions. Le seul moyen d’échapper à cette taxe est de contourner les places de marché d’applications. C’est ce qu’on essayé de faire différents acteurs avec des solutions très inventives.
Ainsi, nous avons assisté il y a une dizaine d’années à l’émergence de plusieurs vagues d’innovations techniques ou fonctionnelles qui étaient venues menacer l’hégémonie des applications mobiles :
- Les services de conciergerie mobile (ex : Magic, Operator, Clac des doigts…) ;
- Les assistants vocaux (Amazon avec Alexa, Microsoft avec Cortana, Samsung avec Bixby…) ;
- Les chatbots accessibles à travers les applications de messagerie (principalement FB Messenger)…

Des débuts très intéressants (cf. ma série d’articles sur ce sujet publiés en 2015-2016 : Des services de conciergerie mobiles aux applications transparentes, Les chatbots ne sont qu’une étape intermédiaire vers les interfaces naturelles et Des chatbots au conversational commerce), mais de nouveaux usages qui ont fait long feu, car ces services étaient encore limités, et car Apple et Google exercent une influence énorme grâce à leur place de marché unique et exclusive (App Store sur iOS et Google Play sur Android) qui garantie une expérience intégrée (découverte, installation, paiement, mises à jour…).
La situation est différente en Asie puisqu’il n’y a pas d’app store officielle, d’où le succès des super apps, qui n’ont malheureusement pas réussi à décoller en Occident (cf. L’avènement des super apps publié en 2019), ce qui ne laisse que les applications, et indirectement les places de marché d’applications, pour pouvoir accéder aux contenus et services. Mais avec le formidable appel d’air des modèles génératifs, nous sommes à la veille d’un nouveau bouleversement majeur, du moins sur le papier !

Les modèles génératifs relancent le marché des chatbots et des agents intelligents
Je ne vais pas vous refaire l’histoire, mais 20 ans après l’apparition des premiers agents conversationnels sur les sites web et 10 ans après les débuts de l’utilisation du machine learning pour améliorer la compréhension des questions ainsi que la qualité des réponses, les chatbots font leur grand retour grâce aux modèles génératifs, qui s’imposent comme la technologie de référence pour dialoguer avec les utilisateurs : Les IA génératives et assistants numériques vont-ils tuer Google ?
Les promesses de ChatGPT en particulier et de l’IA générative en général ont de quoi créer le doute : non pas sur la survie de Google, mais sur son hégémonie sur le créneau de la recherche ou plutôt de l’accès aux informations et services.
Cela fait maintenant presque 18 mois que les premiers grands modèles de langage ont été rendus disponibles, autant de temps qu’il a fallu pour que de nombreux éditeurs les intègrent à leurs applications et services, à l’image de Amazon qui propose de nouvelles fonctionnalités pour Alexa et pour son application mobile (Amazon’s Alexa gets new generative AI-powered experiences, Amazon turns to AI to help customers find clothes that fit when shopping online et Amazon experiments with AI-powered shopping assistant to enhance customer experience).

Au cours de ces 18 mois, nous avons pu assister à une folle course à l’innovation pour pouvoir proposer des assistants numériques toujours plus performants. Ce sont ainsi succédés :
- Les premiers chatbots à interface conversationnelle (ex : ChatGPT) ;
- Les moteurs de recherche orientés réponses (ex : la Search Generative Experience de Google ou le nouveau Bing de Microsoft) ;
- Les extensions permettant d’étendre le champ d’action des chatbots en dehors de leur base de connaissance (ex : les plugins de ChatGPT+) ;
- Les versions personnalisées des chatbots pour pouvoir répondre à des besoins bien précis (ex : les Custom GPTs d’OpenAI) ;
- Les agents de recherche qui fonctionnent sur le principe de RAG (« Retrieval-Augmented Generation« ).
Nous sommes aujourd’hui dans une phase exploratoire où chacun a la possibilité de développer et de partager son propre chatbot ou son propre agent (Les places de marché de chatbots annoncent le retour des assistants d’achat), ce qui génère pas mal de pollution (AI girlfriend bots swarm OpenAI’s GPT marketplace).

Jusqu’alors restreints à un nombre limité de connaisseurs (les « prompt engineers » ou « ingénieurs de requêtes »), les chabots et agents dédiés sont maintenant à la portée de tous et il est même possible d’en faire travailler plusieurs en parallèle : ChatGPT users can now invoke GPTs directly in chats.
Plus intéressants, certains services proposent des chatbots plus sophistiqués capables de répondre à des questions complexes grâce à un raisonnement en plusieurs étapes : You.com debuts AI that can answer multi-step questions. Nous sommes ici à la frontière des agents intelligents dont les concepteurs définissent plus librement un champ d’action et un fonctionnement (« Chain of thoughts« ) à l’aide d’outils de développement comme LangChain ou Cohere : A Simple Guide To Retrieval Augmented Generation Language Models.
Il ne s’est passé que 18 mois depuis la sortie de ChatGPT, mais nous avons déjà pu observer pendant cette période une accélération notable du rythme d’innovation avec d’innombrables nouveaux usages et des technologies qui évoluent très rapidement. Mais le pire, c’est que nous n’en sommes qu’au tout début !
Des modèles de langage aux modèles d’actions
Dans le langage courant, nous désignons tous les services qui permettent de générer des contenus sous l’appellation commune « IA générative », mais sous le capot, il s’agit en fait de modèles différents (ex : Midjourney pour générer des images et ChatGPT pour générer du texte). Nous distinguons ainsi différents types de modèles en fonction de ce que l’on veut leur faire faire :
- les modèles de langage (« LLMs » pour « Large Language Models ») ;
- les modèles de vision (« LVMs » pour « Large Vision Models ») ;
- les modèles de parole (« LSMs » pour « Large Speech Models »)…

Certes, ces différents types de modèles sont tous issus du même modèle de fondation, mais ils sont spécialisés pour correspondre à certaines tâches afin d’en améliorer les performances. C’est cette spécialisation et les progrès réalisés en matière d’affinage et de renforcement qui ont contribué à une amélioration spectaculaire des capacités des intelligences artificielles.

Les modèles génératifs ayant maintenant une bonne maitrise des contenus (textes, images, vidéos, sons…), la prochaine étape sera de leur faire réaliser des tâches plus complexes grâce à des modèles d’action, des LAMs (« Large Action Models« ). C’est d’ailleurs ce type de modèle qui est mis en avant par la nouvelle génération d’accessoires connectés désignés comme « AI first » : The rabbit r1 will use Perplexity AI’s tech to answer your queries.
Grâce aux progrès aussi rapides que spectaculaires des chatbots propulsés par les modèles génératifs, le segment des accessoires connectés est relancé avec l’ambition de grignoter l’hégémonie des smartphones.
Avec le paradigme des assistants numériques, il suffit de leur dicter votre besoin pour qu’ils trouvent la solution (quelles ressources utiliser), voir qu’ils l’anticipent (via des alertes et recommandations).
L’objectif poursuivi est de proposer un produit tout-en-un qui intègre un assistant numérique polyvalent capable de répondre à toute sorte de questions et surtout d’exécuter des tâches par l’intermédiaire de commandes vocales. En ce sens, les modèles multimodaux viennent compléter les capacités des assistants vocaux accessibles sur les smartphones, les oreillettes ou les enceintes connectées (Le Rabbit R1 veut réussir là où Siri, Alexa et Google Assistant ont échoué).

La comparaison avec les assistants vocaux est tout à fait pertinente, car c’est la même proposition de valeur, mais avec une technologie plus puissante. Les arguments que j’utilisais à l’époque sont d’ailleurs toujours valables (cf. Les assistants personnels sont les nouveaux navigateurs web, et les GAFAM en sont les maitres absolus publié en 2017).
Cela fait 30 ans que les consommateurs utilisent des intelligences artificielles (ex : disques vocaux comme celui d’Allocine) ou des automates (ex : bornes automatiques ou DAB) et ne s’en plaignent pas. Au contraire, les clients troquent le contact humain contre de la rapidité et de la praticité.
Ce à quoi nous sommes en train d’assister avec le retour des assistants numériques est bel est bien un nouveau pas vers les IA généralistes, un sujet à prendre très au sérieux :
Les promoteurs des assistants numériques vont-ils réussir le pari (OpenAI, Google, Microsoft…) ? Très certainement, à terme. La question est plus de savoir quand et qu’est-ce qui va se passer entre temps.
Combien de temps pour changer les habitudes de milliards d’utilisateurs ?
Je ne vais pas vous donner un cours d’histoire, mais disons que pour simplifier les choses, l’informatique a connu quatre grandes époques :
- Celle des systèmes centraux (ex : grands systèmes IBM)
- Celle des ordinateurs individuels et des logiciels installés sur leur disque dur
- Celle des ordinateurs connectés à internet et des logiciels en ligne
- Celle des smartphones et des applications mobiles
Avec l’intelligence artificielle, nous entrons dans une cinquième étape d’évolution de l’outil informatique grâce aux assistants numériques qui vont se substituer aux interfaces homme/machine traditionnelles (avec des menus à explorer, des boutons à pousser, des liens à cliquer…) pour compléter des tâches à leur place et potentiellement anticiper leurs besoins.

OK très bien, j’adore l’idée et j’imagine que vous aussi, mais la question est de savoir dans combien de temps allons nous pouvoir constater des changements notables dans les habitudes ? Il a fallu 30 ans pour que le nombre d’ordinateurs atteigne une taille critique et 15 ans pour les smartphones. Combien de temps faudra-t-il aux assistants numériques pour atteindre cette fameuse taille critique ? C’est la question à 100 milliards de $, avec un impact considérable sur les pratiques et le business de l’acquisition de trafic.
Le défi à relever n’est pas de mettre au point le modèle multimodal le plus puissant (celui qui intègre le plus de paramètres), mais de convaincre suffisamment d’utilisateurs pour que les assistants numériques soient perçus comme un moyen fiable pour accéder aux contenus et services, ou du moins que les assistants numériques soient acceptés par les éditeurs de contenus et services numériques comme des intermédiaires incontournables, et qu’ils rendent ces contenus et services compatibles avec (ou visibles à travers) les assistants numériques.
Pour parvenir à convaincre des centaines de millions d’utilisateurs, il faut soit les acquérir (c’est ce que tente de faire OpenAI avec ChatGPT), soit s’appuyer sur des utilisateurs existants (c’est que prévoient de faire Google, Microsoft et Apple). Si Apple est pour le moment très discret sur ses intentions ou projets, les signaux se multiplient chez Google, qu’ils soient officiels ou non : Le nouveau Google Assistant avec Bard se montre en vidéo.

Ici une vidéo officieuse de démonstration d’une potentielle nouvelle version de l’Assistant Google :
Pour le moment, nous n’avons pas les chiffres officiels d’utilisation de Bard ou de Copilot, mais nous savons qu’OpenAI revendique 100 M d’utilisateurs payants de ChatGPT, soit au moins 100 M d’adopteurs précoces qui ont abandonné la recherche « à la main » (Google) pour la déléguer à un chatbot. Il y a 4 milliards d’utilisateurs du web en Occident, il en reste donc 3.900 millions à convaincre, ça fait beaucoup…
Une (probable) lente évolution des usages qui prendra des années
Changer ses habitudes n’est pas chose facile, d’autant plus quand les habitudes actuelles donnent entière satisfaction, je parle ici des milliards d’utilisateurs de smartphones qui se satisfont des applications mobiles et du moteur de recherche par défaut (Google). Mais ce n’est pas le seul facteur à prendre en compte, car je vous rappelle que le succès initial des smartphones reposait sur une promesse forte (la mobilité) avec une solution palpable et désirable (l’iPhone). Pour les assistants numériques, ça sera plus compliqué, car la promesse est floue (gagner en productivité) et ambigüe (sinon quoi ?) tandis que la solution est déstabilisante (une interface conversationnelle).
La prochaine étape décisive sera la mise sur le marché d’assistants numériques qui fonctionnent parfaitement, soient suffisamment bien conçus pour être simples à prendre en main et suffisamment maitrisés pour limiter au maximum les dérives. Ce qui n’est pas une mince affaire, car pour le moment, les trois assistants de référence ressemblent à ça :

Vous conviendrez que l’offre actuelle est insuffisante pour réussir à convaincre des centaines de millions d’utilisateurs de changer leurs habitudes (abandonner les applications mobiles) et accorder leur confiance à de nouveaux services qui fonctionnent comme des boites noires (les assistants numériques). Certes, le potentiel est là, ça ne fait aucun doute, mais pour le moment j’estime que les conditions qui ne sont pas encore réunies pour amorcer un bouleversement majeur des habitudes. Ça viendra, mais pas tout de suite (il a fallu respectivement 30 et 15 ans pour que les ordinateurs et smartphones fassent pleinement partie de nos habitudes et modifient durablement notre quotidien).
Tout ceci explique que des géants numériques que l’on croyait tout puissants comme Google, Apple ou Microsoft piétinent alors que des startups semblent remporter des victoires décisives (ex : OpenAI, Perplexity…). Ne vous laissez pas avoir par cette distorsion de la réalité propagée par les médias (le récit habituel sur la disruption imminente), nous ne faisons que réunir les nombreuses conditions nécessaires à l’amorçage d’une lente évolution qui prendra des années, et qui de toute façon se jouera à guichet fermé, car réservée à une poignée d’acteurs : les habituels géants numériques.