Comment adapter votre référencement à l’ère des IA génératives, chatbots et assistants? – FredCavazza.net

Dans une interview récente donnée lors de la conférence TED, le patron de ChatGPT affirme que le célèbre chatbot est utilisé par 1/10 des internautes (« 10% of the world now uses our systems« ). Je ne saurais dire si cette affirmation est vraie, mais toujours est-il que les IA génératives grignotent toujours plus de nos usages numériques. Il est bien évidemment trop tôt pour affirmer que les chatbots et assistants numériques sont les nouveaux navigateurs web, mais il est plus que temps pour les marques et distributeurs de s’intéresser à leur exposition dans les contenus et résultats générés par les IA.

#GenAI #E-marketing

En synthèse :

Les modèles génératifs seront bientôt intégrés dans quasiment l’ensemble des outils numériques que nous exploitons au quotidien ;
Les chatbots et assistants numériques prennent progressivement toujours plus de place dans nos usages, menaçant ainsi l’hégémonie des moteurs de recherche et plateformes ;
Le référencement étant une des principales priorités des marques et distributeurs, leur visibilité dans les contenus et réponses générées par les chatbots et assistants devra logiquement le devenir ;
Les IA s’appuient sur trois sources principales pour générer les contenus et réponses (leur base de connaissances, les moteurs de recherche et les sources directes), des sources auprès desquelles les annonceurs ont des actions à mener pour augmenter leur visibilité ;
Les leviers qui sont à disposition des annonceurs pour vérifier et améliorer leur visibilité sur les chatbots et assistants numériques sont pour le moment empiriques, nous sommes en attente de solutions de visibilité industrielles.

L’IA générative bouleverse les habitudes de recherche et les pratiques d’acquisition de trafic. Ça, vous n’aviez pas besoin de moi pour le savoir. La priorité pour vous est maintenant de savoir quels sont les moyens d’action à votre disposition pour mieux référencer votre marque ou vos produits auprès des chatbots, agents intelligents et assistants numériques.

J’étais invité la semaine dernière par Semji à leur webinaire AI Scope pour discuter de l’impact de l’IA générative sur le e-marketing et plus précisément l’évolution du SEO. Ainsi, on parle aujourd’hui un peu moins de CBO (« Chatbot Optimization« ) et de plus en plus de GEO (« Generative Engine Optimization« ), notamment avec l’arrivée des IA Overviews dans les pages de résultats de Google sur le Vieux Continent : We’re bringing the helpfulness of AI Overviews to more countries in Europe.

Certes, les résumés synthétiques ne sont pas encore disponibles en France, mais ça ne saurait tarder. Et comme pour les autres pays, cette nouvelle fonctionnalité va changer beaucoup de choses.

Quand l’IA générative s’invite dans les résultats de recherche

Nous n’en avons pas encore vu la couleur en France, mai sachez que dans d’autres pays, Google affiche au-dessus des résultats de recherche un résumé généré par leur IA : AI Overviews and your website. À priori, cette fonctionnalité est plutôt appréciée par les utilisateurs, mais c’est un vrai casse-tête pour les annonceurs, car cet encart fonctionne comme une boîte noire. Ici, une analyse approfondie apr SEMRush : AI Overviews: What Are They & How Do They Affect SEO?

La chose la plus importante à savoir au sujet des AI Overviews est que votre avis en tant qu’annonceur ou éditeur n’est pas pris en compte puisque cette fonctionnalité est imposée par Google. En termes d’apport de trafic, 2/3 des sites étudiés par AHrefs reçoivent effectivement des visiteurs en provenance de ces résumés synthétiques, mais également des chatbots, ce qui peut fausser les résultats : 63% of Websites Receive AI Traffic (New Study of 3,000 Sites).

Le fait qu’il y ait du trafic entrant n’est néanmoins pas nécessairement une bonne nouvelle, car l’étude ne mentionne ni le volume, ni la qualité du trafic, et encore moins l’écart sur une période comparable. Et c’est là où les méthodes des chatbots font grincer des dents : ils exploitent les contenus du web pour fabriquer des réponses qui pour la plupart suffisent aux utilisateurs, donc leur évitent une visite sur le site. Formulé autrement : les seuls gagnants sont les éditeurs d’IA. Et quand il est question de Google et des AI Overviews, les éditeurs de sites indépendants parlent de trahison, car le trafic entrant est très perturbé : Google AI Search Shift Leaves Website Makers Feeling ‘Betrayed’.

Ce sentiment de trahison par Google est particulièrement fort chez les éditeurs de contenus de niche qui vivent de l’affiliation : ’Betrayed, That’s The Word’: Small Business Owners Reel as Google AI Destroys Google Search.

Comme précisé plus haut, les AI Overviews de Google ne sont toujours pas disponibles en France à l’heure où je rédige cet article, donc inutile de choisir votre camp (pour ou contre). De plus, nous manquons de recul pour faire le bilan de cette nouvelle fonctionnalité ainsi que de la menace potentielle du « Zero-clic search« , les recherches qui ne nécessitent plus de clics, car la réponse est affichée au-dessus des résultats. Vous noterez au passage que cette polémique sur le « Zero-click search » n’est pas neuve, car le principe de réponses anticipées a été initié il y a de nombreuses années avec els infoboxes, les snippets et les « Autres questions posées ».

Ainsi, je ne saurai pas dire si c’est un progrès, ni pour qui. Mais ce qui est certain, c’est que c’est en train d’arriver. Donc, autant faite preuve de pragmatisme et s’inscrire dans cette évolution en cherchant à améliorer la visibilité de sa marque et/ou des ses produits auprès des chatbots et assistants numériques.

Du SEO au GEO : les bases de connaissances remplacent les indexes

Tout ceci nous amène donc à parler de Generative Engine Optimization, ou plutôt à aborder les aspects opérationnels du GEO. Le principe est d’optimiser les contenus pour augmenter la visibilité de votre marque ou vos produits dans les moteurs génératifs, donc dans les contenus et réponses générés par les IA (à travers les chatbots, agents intelligents ou assistants numériques).

Il n’existe pas de définition officielle, mais une source de référence : une étude de chercheurs de l’université de Priceton publiée en août 2024 : GEO – Generative Engine Optimization (PDF). Dans cette étude, les auteurs ont étudié les différents moyens d’enrichissement des contenus pour améliorer leur visibilité dans les contenus et réponses synthétiques. Visiblement, les actions qui produisent les meilleurs résultats sont l’ajout de citations et de statistiques dans vos articles. Le fait d’utiliser un ton direct et autoritaire confère également de bons résultats.

Cette étude est donc une bonne base de départ pour optimiser vos contenus, mais les gains potentiels restent limités (cf. la colonne de droite dans le tableau ci-dessus). De plus, l’étude date de l’année dernière, une époque où les modèles de raisonnement et les recherches profondes n’étaient pas encore disponibles.

Depuis la parution de cette étude, un certain nombre d’articles sur le GEO ont été publiés (notamment celui de Search Engine Lands : What is generative engine optimization?), mais n’apportent pas grand-chose, car ils ne proposent quasiment aucune recommandation pragmatique. Il y a bien des articles plus récents, mais qui se concentrent sur des aspects techniques (cf. Et si l’IA cassait Internet ? Comment les agents transforment la navigation web et son modèle économique de Octo Technology).

Le principal problème avec le GEO est que l’on ne sait pas par où commencer dans la mesure où il y a de nombreux supports (les chatbots, agents intelligents et assistants numériques) et où il n’y a pas de solutions payantes d’optimisation de la visibilité (seulement des offres rudimentaires testées par Perplexity et Google). Le simple fait de vérifier si votre marque ou vos produits sont correctement référencés dans les bases de connaissances des différents chatbots et assistants est empirique, car il faut le faire à la main.

Pour illustrer cette problématique, je me suis prêté à l’exercice en testant la visibilité de la marque Renault ainsi que de ses derniers véhicules dans différents chatbots, et vous pouvez constater que les réponses varient énormément d’un chatbot à l’autre :

Il existe également un tout nouveau service qui permet d’établir des classements de la visibilité des marques sur un marché, ProductRank.ai, mais ils ne précisent pas la façon dont les classements sont effectués.

ProductRankAI : Car
ProductRankAI : Luxury
ProductRankAI : Apparel
ProductRankAI : Eyewear

Comme vous pouvez le constater, le travail d’audit de la visibilité est fastidieux, et ce n’est que la première étape ! Certes, il existe des offres packagées pour vérifier la visibilité de votre marque ou produits, mais sur lesquelles nous manquons de retour d’expérience :

Ici, les diagrammes d’analyse visuelle de Share of Model :

Face à l’arrivée imminente des IA Overview, et surtout aux progrès spectaculaires des chatbots qui proposent des fonctionnalités toujours plus séduisantes pour les internautes (ex : recherches profondes), les annonceurs ne peuvent rester passifs, il leur faut agir vite pour pouvoir se démarquer de la concurrence. Heureusement, il existe des moyens d’action.

Quel plan d’action pour améliorer votre référencement par les chatbots et assistants ?

Contrairement aux idées reçues : non, les chatbots n’aspirent pas le contenu des sites, c’est un travail colossal que seuls les géants du numérique peuvent financer (Open source devs say AI crawlers dominate traffic, forcing blocks on entire countries). Avant de vous lancer dans une quelconque stratégie de GEO, il vous faut dans un premier temps comprendre comment fonctionnent les modèles génératifs et surtout d’où proviennent les données qui servent à leur entrainement.

Pour faire simple, les modèles génératifs fabriquent les réponses à partir de 3 sources :

Leur base de connaissances (c’est le coeur des modèles génératifs) ;
Les recherches sur le web (certains chatbots comme Perplexity proposent depuis le début des réponses hybrides fabriquées à partir d’une base de connaissance et d’une recherche sur le web) ;
Les sources directes d’informations (ex : ChatGPT s’appuie sur un partenariat avec Le Monde pour les questions d’actualité).

Pour que votre marque ou vos produits soient mieux « référencés » dans les chatbots et assistants numériques, qu’ils apparaissent plus souvent dans les contenus et réponses générés, il va falloir agir sur ces 3 sources. Et c’est là où les choses se gâtent, car les moyens d’action sont empiriques.

Concernant la base de connaissance qui est au coeur de chaque modèle génératif, il faut savoir qu’elle est créée à partir de corpus documentaires : de vastes ensembles de documents et contenus. Ces corpus contiennent généralement des centaines de millions d’unités de contenu et sont donc très coûteux à constituer. Ainsi, n’allez pas penser que les éditeurs de chatbots « aspirent » le web et « injectent » toutes les pages qu’ils ont trouvées dans un pipeline d’apprentissage, ça ne fonctionne pas comme ça : L’embarrassante question de l’origine des données d’entrainement des IA génératives.

Pour que l’apprentissage soit efficace (qu’il ne coûte pas trop cher), il faut ainsi sélectionner les pages web les plus pertinentes et surtout les nettoyer pour ne conserver que les textes bruts. Dans la mesure où il y a des dizaines de milliards de pages web, c’est un travail colossal qui demande des moyens conséquents, bien plus que ceux à disposition des startups qui éditent des modèles génératifs. Heureusement, il existe des initiatives collectives qui proposent des jeux de données d’entrainement prêts à l’emploi : OpenWebText, The Pile, Project Gutenberg… Le plus connu de tous est Common Crawl, un jeu de donnée créé en 2007, dont la dernière mise à jour propose pas moins de 2,74 milliards de pages web sélectionnées et nettoyées par une équipe de chercheurs volontaires, l’équivalent de 125 TB de données brutes (March 2025 Crawl Archive Now Available). Problème : la très large majorité des contenus de ce corpus sont en anglais (plus de 43% pour être exact, cf. Distribution of Languages in Common Crawl), donc reflète le point de vue et la culture anglo-saxonne.

Heureusement, il existe depuis peu une initiative équivalente baptisée Common Corpus qui propose à a la fois plus de contenus et plus de diversité dans les contenus : Releasing Common Corpus, the largest public domain dataset for training LLMs.

Ce nouveau corpus, au sein duquel les contenus en français sont très TRÈS bien représentés (110 MM de mots en français contre 180 milliards de mots en anglais), est coordonné par la société française Pleias qui édite accessoirement son propre modèle (disponible en plusieurs versions) sur la base de contenus entièrement libres de droits : This French start-up just proved OpenAI wrong, it claims you can train AI on non-copyrighted data.

C’est à ce stade de mes explications qui vous êtes censés demander : « OK très bien, mais comment on fait pour que nos contenus de marque et infos produit soient dans ces corpus ?« . Question pour laquelle il n’existe pas de réponse formelle. Il existe bien la possibilité de trouver le contact des salariés de Pleias ou des chercheurs bénévoles dans LinkedIn pour pouvoir leur demander d’intégrer vos contenus dans leur corpus, mais je doute très TRÈS fortement qu’ils vous réservent un bon accueil.

Dans un premier temps, la première chose à faire est de vérifier sur les robots d’exploration utilisés par ces initiatives visitent régulièrement votre site web. Pour cela, il vous suffit de vérifier dans votre outils d’analyse d’audience les traces laissées par les différents robots d’exploration (ex : OAI-SearchBot, CCBot…). Les grands outils du marché sont largement capables de vous fournir cette information (How to create GA4 traffic report from AI tools), sinon il existe des outils spécifiquement dédié à l’analyse de fichiers logs.

Le fait que des robots d’exploration visitent régulièrement votre site est une bonne chose, mais il n’est pas dit que les pages de votre site soient retenues pour intégrer la nouvelle version du corpus, et surtout qu’elles bénéficient d’une pondération favorable dans les algorithmes d’apprentissage des modèles. Voilà pourquoi, je pense que le moyen le plus simple et durable d’améliorer la visibilité de votre marque et de vos produits dans les corpus d’entraînement est de créer ou de compléter les pages vous concernant dans Wikipedia. C’est d’ailleurs ce que fait très bien Renault, par exemple avec la R5 électrique.

La deuxième source sur laquelle vous allez pouvoir agir sont les moteurs de recherche qui sont de plus en plus sollicités par les chatbots et assistants. Gemini utilise bien évidemment Google, puisque c’est la même maison ; en revanche, quasiment tous les autres chatbots utilisent Bing pour faire des recherches sur le web. Ce qui est une très bonne nouvelle, car cela limite l’éparpillement des moyens et permet de concentrer les efforts.

Si nous partons du principe que l’optimisation du référencement dans Google est déjà faites, ou du moins que cette activité est gérée par une autre équipe ou une agence spécialisée, il ne reste donc plus qu’une seule cible pour l’optimisation de la visibilité de votre marque ou de vos produits : Bing.

La bonne nouvelle est que toutes les actions déjà menées pour améliorer votre référencement dans Google bénéficient également à Bing. Certes, il existe des spécificités dont il faut tenir compte, mais qui sont bien documentées : Bing Webmaster Guidelines et Search Engine Land’s Guide to Bing SEO. La première étape logique pour vous sera de vérifier le référencement de votre marque et de vos produits, à la fois de façon empirique (à la main), mais également de façon plus systématique (en vous adressant à des spécialistes qui sont équipés des bons outils).

N’hésitez pas à vérifier les informations qui ressortent en explorant les différents onglets de Bing, notamment l’onglet « Shopping » et surtout « Search with Copilot« :

De même, tant que vous y êtes, n’oubliez pas de vérifier quelles informations remontent dans Copilot, car ce ne sont pas les mêmes :

Enfin, il reste un troisième levier que vous pouvez explorer pour améliorer la visibilité de votre marque et de vos produits : les sources directes d’information. Comme précisé plus haut, les chatbots n’aspirent pas le web eux-mêmes, ils utilisent des jeux de données d’entrainement open source. Mais ça n’empêche pas les éditeurs de modèles génératifs d’utiliser des robots d’exploration pour collecter des informations complémentaires et pour se constituer leur propre corpus d’entrainement. Ainsi, les équipes de Wikipedia ont constaté une augmentation de 50% de leur trafic du fait des robots d’exploration des chatbots, bien évidemment sans aucune compensation financière : AI Crawlers Are Harming Wikimedia, Bringing Open Source Sites To Their Knees, And Putting The Open Web At Risk.

Partant de l’éventualité que les grands éditeurs de modèles utilisent tous des robots d’exploration, autant leur faciliter la tâche. Ainsi, tout comme le travail d’indexation des robots d’exploration de Google est simplifié par l’utilisation d’un petit fichier nommé « robot.txt » qui est accessible à la racine du serveur de votre site web, il existe une proposition de fichier standardisé pour faciliter l’exploration des contenus de votre site par les robots des éditeurs de modèles : llms.txt.

Voici à quoi ressemble ce fichier pour mon site :

Même si ce « standard » est assez récent, et s’il n’est pas officiellement utilisé par les différents robots d’exploration, sa création est assez simple : How to Create an llms.txt File for Any Website. Dans le doute, je vous recommande de créer votre fichier llms.txt à l’aide d’outils comme le LLMs.txt Generator V2 et de voir s’il est régulièrement visité et par quels robots.

Autant le dire tout de suite : cette solution est plus que précaire, car ses bénéfices n’ont jamais été constatés ou prouvés. Mais encore une fois, dans la mesure où c’est gratuit et que ça ne vous prendre pas plus de 5 minutes, pourquoi pas…

Néanmoins, en poussant la réflexion un peu plus loin, on se dit qu’idéalement, les chatbots et assistants devraient proposer aux éditeurs de contenus ainsi qu’aux annonceurs un moyen direct de collecter leurs contenus. Pour les éditeurs de contenus, ça pourrait être un flux RSS. Pour les marques ou distributeurs, ça pourrait être un flux d’informations relatives aux produit comme ceux utilisés par les places de marché.

En théorie, vous devez exploiter un système centralisé d’informations et données pour vos produits (un PIM pour « Product Information Manager« ). Ces systèmes proposent tous la possibilité d’exporter un flux d’informations sur les produits dans différents formats (CSV, TSV, JSON, XML…).

J’ai bien conscience que les chatbots et assistants ne sont pas des places de marché ou des comparateurs de prix, néanmoins le mode « Recherche profonde » proposé maintenant par la plupart des IA génératives (ChatGPT, Gemini, Copilot, Perplexity, Grok, DeepSeek…) se révèle être un moyen redoutablement efficace pour se renseigner sur un produit afin de préparer un achat impliquant (ex : une nouveau PC gamer).

Je sais bien que ce mode « Recherche avancé » ne concerne qu’une petite part des utilisateurs d’IA génératives, qui ne sont eux-même qu’une petite part des utilisateurs du web, mais je vous inviterai à faire preuve de vigilance, car les agents transactionnels se multiplient, notamment ceux proposés par Perplexity, Amazon ou Microsoft :

Chacun de ces agents a un fonctionnement différent, mais il n’est pas fou de penser qu’un jour les éditeurs de ces agents transactionnels vont proposer des solutions de visibilité payante aux marques. Autant se préparer rapidement à cette éventualité, car la question n’est pas de se demander s’ils vont le faire, mais quand ils vont le faire.

Beaucoup de bricolage à court terme, mais aucune certitude à moyen ou long terme

Comme nous venons de la voir en détail, il existe un certain nombre d’actions que vous pouvez mener de façon proactive pour tenter d’améliorer la visibilité de votre marque ou de vos produits dans les réponses ou contenus générés par les chatbots et assistants numériques :

Vérifier le passage de robots d’exploration sur votre site (web crawlers) ;
Créer ou compléter vos pages Wikipedia ;
Vérifier et optimiser votre référencement dans Bing ;
Créer un fichier llms.txt ;
Créer un flux d’informations de produits.

J’ai bien précisé qu’il n’y a aucune garantie de résultat, ce sont simplement des initiatives que je vous recommande, sur la base du bon sens et non d’études techniques ou scientifiques. Des actions pro-actives à réaliser dans les prochains mois, juste au cas, car comme le dit la célèbre réplique : « On ne sait jamais, sur un malentendu, ça peut toujours marcher…« .

Je vous incite surtout à suivre l’évolution des services et les nouvelles fonctionnalités, car personne ne peut prédire ce que le marché nous réserve dans les prochains mois. Les actions recommandées plus haut s’apparentent ainsi plus à du bricolage qu’à une stratégie viable, car le rythme d’évolution est bien trop élevé.

J’estime néanmoins que c’est un exercice très intéressant, car cela vous place dans une dynamique d’exploration et d’essais / erreurs, la seule qui soit valable en cette période un peu folle.

Je vous propose de faire le point sur le GEO dans quelques mois, car je suis persuadé que de nouveaux leviers d’action vont émerger tant la demande est forte du côté des annonceurs.

Source link