Les agents intelligents sont les nouveaux chatbots – FredCavazza.net


Alors que nous approchons du second anniversaire du lancement de chatGPT et que le marché est toujours dans l’expectative du lancement de GPT-5, tous les regards sont tournés vers OpenAI, la nouvelle coqueluche des médias et des experts en NTIC. La sortie récente d’un modèle génératif capable de raisonner ouvre de nombreuses possibilités que seules les grandes sociétés technologiques (Google, Microsoft, Apple…) seront capables de saisir grâce à leur maitrise des aspects matériels et logiciels des terminaux numériques, donc leur mainmise sur les utilisateurs.

#IA #GenAI


En synthèse :

  • Si ChatGPT est indéniablement le chatbot le plus puissant du marché, ce service en ligne n’est qu’une façon d’interagir avec les modèles génératifs, qui ne sont qu’une façon de mettre en oeuvre le concept d’intelligence artificielle ;
  • La valorisation d’OpenAI, éditeur de ChatGPT, atteint des sommets, pourtant son potentiel de croissance semble sérieusement compromis par les limitations inhérentes à son fonctionnement ;
  • Les assistants numériques proposés par les Big Techs présentent l’avantage de pouvoir accéder aux profils, informations et données des utilisateurs pour pouvoir personnaliser les réponses ;
  • Le fait d’intégrer les assistants numériques aux systèmes d’exploitation permet également d’exploiter toutes les ressources matérielles et logicielles des ordinateurs et smartphones ;
  • La combinaison d’agents intelligents reposant sur différents modèles génératifs permettra aux assistants numériques de rendre des services à plus forte valeur ajoutée.

C’est la rentrée, tout le monde s’active, particulièrement pour ceux qui sont impliqués dans des activités numériques, puisque la « marche rapide forcée » a été activée avec l’avènement de l’IA. L’actualité est ainsi toujours aussi forte pour le créneau des modèles génératifs, car les annonces s’enchaînent d’une semaine sur l’autre :

Je ne sais pas quel est votre ressenti, mais j’ai réellement l’impression que toutes les ressources de la filière numérique semblent mobilisées pour alimenter la machine à innover et entretenir la couverture médiatique autour de l’IA générative.

Tout ceci se traduit par des attentes démesurées et des niveaux de valorisation de startups qui semblent complètement disproportionnés. Je sais bien que la valorisation d’une startup repose sur son potentiel (et les hypothétiques bénéfices futurs), mais la récente valorisation d’OpenAI à près de 150 milliards de $ a de quoi laisser dubitatif : OpenAI fundraising set to vault startup’s valuation to $150 Billion. Et pourtant, ils se payent le luxe de choisir leurs investisseurs : OpenAI to decide which backers to let into $6.5 billion funding.

Sommes-nous face à un phénomène de bulle spéculative ? Clairement oui, même si cette assertion mérite des explications, car la situation est plus complexe qu’elle n’y parait.

Les chatbots sont peut-être survalorisés, mais…

Comme j’ai eu l’occasion de vous l’expliquer dans un précédent article (Les entreprises n’ont pas besoin de meilleurs modèles génératifs, mais d’IA mieux intégrées) :

Le « marché » de l’IA générative se résume à un certain nombre de modèles par-dessus lesquels les éditeurs ont plaqué des interfaces textuelles pour faire des prompts. Soyons honnêtes : cette stratégie de mise sur le marché ne correspond à aucun besoin pour les utilisateurs, mais à la nécessité de prendre la concurrence de vitesse.

C’est un fait indiscutable, mais si le marché de l’IA générative se limite pour l’instant aux chatbots, c’est que l’offre n’est pas encore diversifiée. Comprenez par là que les attentes sont tellement fortes que les grands éditeurs déploient énormément d’énergie pour imposer au marché des services qui ne sont pas très matures (les chatbots comme ChatGPT, Claude…).

Plusieurs voix s’élèvent logiquement pour dénoncer les valorisation excessives de ce marché embryonnaire et surtout l’obsession des médias et des grandes sociétés de consulting pour une technologie pas forcément bien maitrisée. Il en résulte un phénomène de surchauffe qui est très bien expliqué par Edward Zitron dans cet article qui fait grincer des dents : The Subprime AI Crisis.

What happens when the entire tech industry relies on the success of a kind of software that only loses money, and doesn’t create much value to begin with? And what happens when the heat gets too much, and these AI products become impossible to reconcile with, and these companies have nothing else to sell? I truthfully don’t know.

L’analyse est juste, mais l’auteur oublie deux choses. D’une part, tous les éditeurs ne cherchent pas à concevoir le plus gros modèle possible (à l’instar d’OpenAI). Les modèles récemment publiés par Mistral, Meta ou Alibaba offrent ainsi un très bon ratio puissance / consommation énergétique : Alibaba Cloud unveils latest Qwen 2.5 LLM, CEO addresses speed of AI development).

D’autre part, que les chatbots ne sont qu’une façon d’interagir avec les modèles génératifs, certainement la façon la plus simple à mettre en oeuvre du point de vue des éditeurs… charge aux utilisateurs d’apprendre à prompter (cf. Chatbots et agents intelligents ne sont qu’une étape intermédiaire vers les assistants numériques). Heureusement certains éditeurs se soucient de la facilité de prise en main et proposent une interface plus intuitive comme Adobe Express qui intègre les modèles Firefly.

Si les arguments avancés sont justes (coûts d’entrainement très élevés, adoption très faible pour le moment, endettements excessifs des startups…), l’auteur n’aborde pas le potentiel des assistants numériques en tant qu’interfaces se substituant à ceux des chatbots (pour aider les utilisateurs à mieux exprimer leurs besoins sans passer par des prompts laborieux à rédiger), ni celui des agents intelligents pour aller au-delà des limitations des chatbots (ne pas simplement générer des contenus, mais pouvoir exécuter des tâches). C’est en substance le positionnement d‘Apple Intelligence, la gamme de fonctionnalités d’IA générative prochainement proposée par Apple (cf. L’IA est un concept, pas un produit).

Si les premiers assistants numériques vocaux étaient plutôt limités, avec les progrès apportés par les grands modèles de langage, les assistants numériques de nouvelle génération seront bientôt capables de décomposer le besoin ou le problème d’un utilisateur en sous-tâches et de les attribuer à différents agents (cf. Les assistants numériques en 5 questions).

Quand j’écris « seront bientôt capables », j’anticipe une disponibilité très prochaine, qui s’exprime en semaines ou en mois, pas en années. Le fait est que nous y somme presque, car toutes les pièces de ce puzzle (informatique) sont d’hors et déjà disponibles.

Chatbots < Agents < Assistants

Je pense ne rien vous apprendre en écrivant que « chatbot » est un terme générique pour décrire un système informatique capable de converser avec des utilisateurs humains. Les chatbots ne sont pas récents, ils existent depuis des décennies, mais les progrès récents sur les réseaux de neurones artificiels ont permis de considérablement améliorer leurs capacités de compréhension et de manipulation du langage. Ainsi, les chatbots connaissent une seconde vie (en réalité une cinquième : Charting the Evolution and Future of Conversational Agents).

Le terme « chatbot » désigne maintenant les IA de nouvelle génération, celles qui proposent une interface conversationnelle pour interagir avec un grand modèle de langage par l’intermédiaire de commandes textuelles, les prompts. Comme expliqué plus haut, les chatbots sont les interfaces les plus simples à mettre en ligne. Voilà pourquoi ils ont été unanimement utilisés par des éditeurs désirant mettre au plus vite leurs modèles entre les mains des utilisateurs.

Dans un premier temps, ces chatbots permettaient de générer du texte en s’appuyant sur des grands modèles de langage (Large Language Models, LLMs), puis des discours en s’appuyant sur des grands modèles de parole (Large Speech Models, LSMs), puis des images en s’appuyant sur des grands modèles de vision (Large Vision Models, LVMs), puis les trois en s’appuyant sur des grands modèles multi-modaux (Large Multimodal Models, LMMs). Assurément une réelle évolution dans les capacités de génération et de manipulation de contenus des chatbots, mais qui restent des services en ligne, donc limités dans leurs possibilités (je vous rappelle qu’un site web n’a pas le droit d’accéder aux ressources de l’ordinateur ou du smartphone sur lequel il est affiché).

C’est là où les assistants de Microsoft, Google et Apple ont une carte à jouer : comme ils sont directement intégrés au système d’exploitation (respectivement Windows, Android et Mac OS / iOS), ils peuvent accéder aux données et autres applications. Cette capacité ouvre d’innombrables possibilités, voilà pourquoi les Big Techs explorent de nouveaux types de modèles (Large Action Models, LAMs et Large Reasoning Models, LRMs), ceux qui sont capables de générer des raisonnements ou d’effectuer des actions, soit des tâches de plus haut niveau pour des utilisateurs qui ont désespérément besoin de gagner du temps.

Des IA génératives maintenant capables de raisonner et bientôt d’automatiser des tâches

Vous avez très certainement vu passer cette annonce la semaine dernière : OpenAI, l’éditeur de ChatGPT, se targue d’avoir mis au point la première IA capable de réellement raisonner, du moins le premier modèle de raisonnement : OpenAI releases o1, its first model with ‘reasoning’ abilities.

We’ve developed a new series of AI models designed to spend more time thinking before they respond. They can reason through complex tasks and solve harder problems than previous models in science, coding, and math.

Issu du projet Strawberry, o1 n’est pas l’évolution de la série de modèles GPT, mais bel et bien un nouveau type de modèle génératif spécifiquement conçu pour résoudre des problèmes ou tâches complexes en appliquant le principe de boucles de raisonnement, où les résultats servent de base de travail d’un processus récursif. Pour l’avoir testé, je vous confirme que les réponses sont beaucoup plus longues à venir, mais elles sont bien plus structurées (pas seulement des paragraphes de texte).

Les premiers retours sur ce modèle encore en phase de pré-lancement sont très encourageants, même si les spécialistes reconnaissent que ce modèle fonctionne très différemment des modèles de langage plus classique, et qu’il y a ainsi une certaine courbe d’apprentissage avant de pouvoir l’exploiter à sa pleine puissance : OpenAI just unleashed an alien of extraordinary ability.

Certains le comparent à Perplexity qui propose des réponses plus structurées, moins verbeuses que ChatGPT ou Claude. À partir de cette comparaison, nous pourrions spéculer sur un fonctionnement hybride qui serait l’évolution logique des moteurs de recherche (Google) et moteurs de réponses (Google AI Insights), une sorte de moteur de raisonnement qui reposerait à la fois sur GPT et o1 que les utilisateurs exploiteraient à travers SearchGPT

Je répète : ceci est de la pure spéculation, car o1 n’est disponible qu’en preview, car il est vraisemblablement beaucoup plus couteux à faire tourner, et car SearchGPT n’est pour le moment pas du tout au point…

Les modèles de raisonnement sont donc très prometteurs pour résoudre des problèmes ou traiter des tâches complexes, d’autant plus si on les dote de capacités d’action. C’est justement là où les modèles d’action rentrent en ligne de compte : jusqu’à présent, l’automatisation de tâches se faisait grâce à des automates logiques exécutant des tâches selon des instructions et règles pré-établies (des modèles symboliques). La valeur ajoutée de ces automates dépendait donc de la capacité des concepteurs à correctement les programmer (à prévoir tous les cas de figure). Mais avec les progrès des modèles de langage et de raisonnement, il est tout à fait envisageable d’avoir des automates programmés grâce à des instructions et règles synthétiques générées par d’autres modèles (The Rise and Potential of Large Language Model Based Agents).

Les modèles d’action (Large Action Models, LAMs) sont donc la brique manquante pour avoir des agents autonomes, ou du moins des agents intelligents reposant sur des modèles génératifs auxquels les utilisateurs délègueraient des tâches à faible valeur ajoutée (Actionable AI: An evolution from Large Language Models to Large Action Models). C’était la promesse des terminaux embarquant de l’IA comme le Rabbit R1, mais le produit final est visiblement très décevant (Rabbit R1 review: an unfinished, unhelpful AI gadget).

Toujours est-il que les agents intelligents reposant sur des modèles d’action présentent un très fort potentiel : Gartner Predicts One-Third of Interactions with GenAI Services Will Use Action Models & Autonomous Agents for Task Completion by 2028. Nos parlons bien ici d’une approche complètement neuve de l’utilisation des outils informatiques, un domaine que nous commençons tout juste à explorer : Il n’y aura pas d’IA généraliste, mais des IA pour des usages généraux.

Le renouveau des agents intelligents

En combinant les modèles de langage, les modèles de parole, les modèles de vision, les modèles de raisonnement et les modèles d’action, il serait possible de mettre au point des IA beaucoup plus versatiles, capables de rendre de services à plus forte valeur ajoutée que des réponses générées par un chatbot à commandes textuelles. Cette combinaison représente un réel levier de croissance pour un « marché » qui commence à s’essouffler.

C’est en tout cas le pari des grandes sociétés technologiques qui espèrent bien imposer leur assistant numérique à leurs clients captifs :

  • Microsoft avec Copilot intégré à Windows ;
  • Google avec Gemini intégré à Android ;
  • Apple avec Siri intégré à Mac OS et iOS.

Toujours est-il que les modèles de raisonnements sont un pas de plus vers les architectures multi-agents et vers des assistants numériques beaucoup plus puissants que ceux que nous avons connus ces dernières années. Rassurez-vous, il n’est pas nécessaire d’avoir la maîtrise du matériel, car les assistants numériques de nouvelle génération s’invitent également dans les environnements de travail en ligne : Gemini dans Google Workspace, Sensei dans Adobe Marketing Cloud, Breeze dans Hubspot, AI Companion dans Zoom Workplace, Amelia dans Amazon Seller Central… et même dans les écosystèmes sociaux (ex : l’assistant Meta AI dans WhatsApp).

Vous noterez que toutes les grandes sociétés technologiques convergent vers cette idée, notamment SalesForce qui vient de présenter sa nouvelle offre (AgentForce) qui repose justement sur des agents intelligents intégrés à l’environnement de travail : Salesforce Dreamforce 2024: Takeaways on agentic AI, platform, end of copilot era.

Pour le moment, cette nouvelle offre s’applique à la création d’agents sur-mesure pour automatiser certaines tâches de la relation-client, mais il est évoqué une extension rapide aux usages internes dans un contexte de co-création et de collaboration : Slack is turning into an AI agent hub. Should it?

L’idée est particulièrement intéressante, car si les modèles de langage permettent de générer des contenus (apport éditorial et créatif), les modèles de raisonnement permettent de générer des plans d’action ou des processus (apport méthodologique), ce qui serait une très bonne chose pour aider les cols blancs à mieux s’organiser et à mieux gérer leurs emails, fichiers, réunions, projets… (cf. L’IA n’est qu’un moyen d’achever votre transformation numérique).

Encore une fois, je ne suis pas en train de prédire ce qui pourrait potentiellement se passer en 2030, mais plutôt d’anticiper ce qui va arriver très prochainement, dans les prochains mois, car nous disposons de toutes les briques pour y parvenir, aussi bien pour des cas d’usage professionnel (ex : Power Automate chez Microsoft), que pour les particuliers (ex : Automator chez Apple).

Mais comme toujours, les choses ne sont pas si simples…

Une transition pas si simple entre chatbots et assistants numériques

Comme je viens de vous l’expliquer, toutes les pièces du puzzle sont là, mais il faut encore intégrer et sécuriser le tout pour avoir un produit viable, c’est à dire qui présenterait une valeur d’usage supérieure aux chatbots actuels qui sont manifestement plus performants, mais qui « vivent » en ligne et ne sont pas intégrés à l’écosystème numérique des utilisateurs (ordinateur, smartphone ou environnement de travail). Il y a donc encore un peu de travail pour les Big Techs avant de déployer leur assistant à grande échelle.

Ceci étant dit, l’obstacle le plus important n’est pas de nature technique, fonctionnelle ou ergonomique, mais légal, car les autorités de la concurrence ne verraient pas d’un très bon oeil cette reprise en main du marché par les Big Tech. Le fait que Microsoft, Google ou Apple imposent leur assistant personnel ferait certainement grincer des dents le gouvernement américain (quoi que, tout dépend de quel camp va remporter les prochaines élections…), mais déclencherait une nouvelle série d’enquêtes et d’auditions pour l’Union Européenne ou même pour le Royaume-Unis qui n’est pas en reste (Big Tech’s new adversaries in Europe).

Dernier obstacle, et pas des moindres : ce coup de force des Big Tech signifierait également un coup d’arrêt pour les ambitions de croissance des startups de l’IA (OpenAI, Anthropic, Mistral…) dans lesquelles les Big Techs ont des participations croisées.

Comme vous pouvez le constater, nous sommes ici confrontés à des considérations qui vont bien au-delà des défis scientifiques ou informatiques qui sont en passe d’être résolus. Bref, vous n’avez pas fini d’en entendre parler, et moi je n’ai certainement pas fini d’écrire à ce sujet, d’autant plus si l’on prend toujours plus de hauteur (cf. Du Web4 à la Société 5.0).



Source link