L’entreprise Anthropic, derrière le modèle d’IA générative Claude, vient d’actualiser sa documentation sur ses crawlers web. Trois robots sont désormais clairement identifiés, ClaudeBot, Claude-User et Claude-SearchBot. Chacun joue un rôle précis dans la collecte et l’accès aux données. Cette transparence vise à aider les éditeurs de sites à mieux contrôler leur visibilité et leur participation à l’entraînement des modèles d’IA.
Ce qu’il faut retenir :
- Trois robots identifiés : ClaudeBot, Claude-User et Claude-SearchBot ont chacun une fonction distincte.
- Un contrôle renforcé pour les sites : via le fichier robots.txt et la directive Crawl-delay, les éditeurs peuvent choisir d’autoriser ou non leur passage.
- Impact sur la visibilité : bloquer ces crawlers peut limiter la présence du site dans les résultats de recherche ou dans les données d’entraînement des IA.
- Mise à jour récente : la documentation a été modifiée le 20 février 2026, comme l’a repéré Pedro Dias sur X.
Une documentation clarifiée sur les robots d’Anthropic
Anthropic a revu la présentation et les explications de ses agents d’exploration web afin de préciser leur finalité et les conséquences de leur blocage. Trois bots sont désormais décrits de manière distincte.
- ClaudeBot collecte du contenu public sur le web pour enrichir et sécuriser les modèles d’IA d’Anthropic. Si un site bloque son accès, cela signifie que ses contenus ne seront plus inclus dans les futures bases d’entraînement du modèle Claude.
- Claude-User intervient dans le cadre des requêtes faites par les utilisateurs. Lorsque quelqu’un pose une question à Claude, ce robot peut accéder à certaines pages web pour fournir une réponse mieux documentée. Empêcher son accès réduit la capacité de Claude à consulter ces sources, et, par extension, la visibilité de ces sites dans les résultats générés lors des interactions.
- Claude-SearchBot, enfin, explore le web pour améliorer la pertinence et la précision des résultats de recherche proposés aux utilisateurs du modèle. Son blocage empêche la prise en compte du site dans cet index, au risque d’en diminuer la présence dans les réponses affichées.
Anthropic précise que ses robots prennent en charge le fichier robots.txt et la directive Crawl-delay, permettant aux administrateurs web de gérer la fréquence d’exploration et d’autoriser ou non certaines zones de leur site. Cette évolution s’inscrit dans une tendance croissante à la transparence des grands acteurs de l’IA vis-à-vis de la collecte de données publiques.