Fichier LLMs.txt : pas encore adopté, déjà abandonné ?


Dans un contexte où les intelligences artificielles génératives redéfinissent la manière dont le contenu web est exploré et exploité, une initiative baptisée LLMs.txt a vu le jour. Présentée comme un équivalent du fichier robots.txt pour les modèles de langage, cette proposition vise à orienter les IA vers le contenu principal des sites, en excluant les éléments superflus comme la navigation ou la publicité. Cependant, pour John Mueller, cette approche serait aussi inefficace que la balise meta keywords, aujourd’hui clairement obsolète. Analyse d’un concept qui suscite plus de scepticisme que d’enthousiasme.

Ce qu’il faut retenir :

  • LLMs.txt n’est pas reconnu par les acteurs du secteur : Ni Google, ni OpenAI, ni Anthropic n’ont annoncé de prise en charge de ce fichier.
  • Une utilité comparable à la balise meta keywords : Selon John Mueller, ce fichier reflète ce que le propriétaire du site prétend être, sans garantie de véracité.
  • Risque de cloaking pour les IA : LLMs.txt pourrait être détourné pour présenter un contenu différent aux IA, compromettant ainsi la transparence.
  • Mieux vaut investir dans les données structurées : Les efforts devraient se concentrer sur des pratiques SEO éprouvées, comme l’implémentation de données structurées.

Qu’est-ce que LLMs.txt ?

LLMs.txt est une proposition de standard visant à guider les agents d’intelligences artificielles, notamment les larges modèles de langage (LLM), vers le contenu principal d’un site web. Contrairement au fichier robots.txt, qui contrôle l’accès des robots d’exploration aux différentes parties d’un site, LLMs.txt ne cherche pas à restreindre l’exploration, mais à orienter les IA vers une version plus épurée du contenu, généralement au format markdown.

Autrement dit, l’objectif du fichier LLMs.txt est de fournir aux IA un accès direct au contenu, sans les éléments de navigation ou les publicités, facilitant ainsi leur compréhension et leur apprentissage.

Pourquoi Google est sceptique

Lors d’une discussion sur Reddit, un utilisateur a partagé son expérience avec le fichier LLMs.txt, notant l’absence d’impact sur les journaux d’exploration de son site. John Mueller de Google a répondu à l’intéressé en comparant LLMs.txt à la balise meta keywords, aujourd’hui ignorée par les moteurs de recherche. Il souligne que ce fichier reflète ce que le propriétaire du site affirme, sans garantie que le contenu soit réellement conforme. De plus, il note que les principaux services d’IA ne consultent même pas ce fichier, rendant son utilisation peu pertinente.

« Autant que je sache, aucun des services d’IA n’a dit qu’il utilisait LLMs.TXT (et vous pouvez voir quand vous regardez les logs de votre serveur qu’ils ne le vérifient même pas). Pour moi, c’est comparable à la balise méta keywords – c’est ce que le propriétaire d’un site prétend être le sujet de son site … » – John Mueller

Cette comparaison met en lumière le manque de fiabilité de LLMs.txt, qui pourrait être utilisé pour présenter un contenu différent aux IA, une pratique connue sous le nom de cloaking, déjà sanctionnée dans le domaine du SEO.

Une adoption quasi inexistante

Des professionnels du web, comme Simone De Palma, ont également observé que les fichiers LLMs.txt sont largement ignorés par les agents IA. Certains notent que seuls des bots spécialisés, comme celui de BuiltWith, accèdent à ces fichiers. De plus, l’absence de liens vers les URL d’origine dans le fichier LLMs.txt pourrait nuire à l’expérience utilisateur, en dirigeant vers un contenu brut sans contexte.

« Les fichiers LLM.txt semblent être ignorés par les services IA et n’offrent que peu ou pas d’avantages réels aux propriétaires de sites web. De plus, quelqu’un affirme que les fichiers LLM.txt peuvent conduire à de mauvaises expériences pour les utilisateurs, car ils ne renvoient pas aux URL d’origine. Toutes les citations obtenues par votre site web peuvent diriger les utilisateurs vers un incroyable mur de texte au lieu de pages web appropriées – alors encore une fois, quel est l’intérêt ? » – Simone De Palma

En somme, ces constats renforcent l’idée que LLMs.txt n’apporte pas de bénéfices tangibles et pourrait même compliquer l’interaction des IA avec le contenu web.

Quelles alternatives au fichier LLMs.txt ?

Plutôt que de miser sur le fichier LLMs.txt, que les agents IA issus des références du domaine semblent sciemment ignorer, il est plutôt recommandé de vous concentrer sur des pratiques SEO éprouvées :

  • Utiliser des données structurées : Elles facilitent la compréhension du contenu par les moteurs de recherche et les IA, améliorant ainsi la visibilité.
  • Optimiser le fichier robots.txt : Pour contrôler efficacement l’exploration des bots et protéger les parties sensibles du site.
  • Maintenir une architecture claire : Une structure de site logique et bien organisée aide les IA à naviguer et comprendre le contenu.

Auteur : Johan Sellitto.
Certifié par : Laura Blanchard.

Curieux, enthousiaste et créatif, Johan collabore régulièrement avec Abondance. Attaché à la musicalité des mots, ce rédacteur indépendant aime tricoter des petites phrases, dans lesquelles il lui arrive de glisser quelques sucreries qui font la joie des lecteurs.

Laura Blanchard

Associée Abondance

Toujours prête à partager ses connaissances lors de conférences captivantes, Laura manie les mots comme personne. Son sourire contagieux, son aisance et son expérience sont de vraies forces pour la communication et la stratégie marketing d’Abondance.



Source link