Gestion des IA sous Plesk Web 3/3

Posté le 11 novembre 2025 par cyprien — 3 min

Bon, pour ce 3eme billet et dernier billet, on va faire plus rapide et plus simple. On a déjà pas mal bloqué d'IA malveillantes/IA utilisées de façon peu conventionnelles. Cependant on va aller plus loin encore. Tant qu'à faire.

Robots.txt

Le fichier robots.txt est un fichier se trouvant toujours à la racine d'un site web. Il va être utilisé pour contrôler l'accès des robots d'indexations à certaines pages ou à l'intégralité d'un site Web. Ainsi on va pouvoir filtrer d'une part les moteurs de recherche (comme Google ou Bing), d'autre part mettre des limites aux crawlers pour leurs dire quelles parties du site doivent être explorée.

C'est le principe même du référencement SEO.

Structure Robots.txt

J'en balance une partie d'un fichier robots.txt que j'utilise en production, dans un environnement Plesk :

# Google Image
User-agent: Googlebot-Image
Disallow:

# Adsense
User-agent: Mediapartners-Google
Disallow:

# IA
User-agent: AI2Bot
Disallow: /
User-agent: Ai2Bot-Dolma
Disallow: /
User-agent: aiHitBot
Disallow: /
User-agent: Amazonbot
Disallow: /
User-agent: Andibot
Disallow: /
User-agent: anthropic-ai
Disallow: /

Par définition :

User-agent: Définit le robot concerné (ex : Googlebot pour Google).
Disallow: Spécifie les URL ou répertoires que le robot ne doit pas explorer.
Allow (Pas présent ici): Permet l'accès à certaines pages ou répertoires spécifiques malgré une directive Disallow.
Sitemap (Google): Indique l'emplacement d'un fichier sitemap pour aider les moteurs de recherche à mieux comprendre la structure du site.

Il existe aussi l'argument craw-delay pour lequel je n'ai pas encore eu le temps de tester ! Cet argument permettrait d'indiquer un délai minimum en seconde pour que le bot doit attendre entre deux requêtes. Si l'on veut l'utiliser sur des bots "gourmands" :

User-agent: SemrushBot
Crawl-delay: 30

Il faudra donc que le bot de Semrush attente 30 secondes sur mon site en question avant de relancer une requête ... Sauf s'il s'est fait bloqué avant par Crowdsec !

Résultat?

Après avoir suivi ces différentes étapes, on a divisé par 2,5 l'utilisation %CPU, et par 4 le load average du processeur sur un Advance 4 (Processeur AMD EPYC 4584PX - 16C/32T). Moins de requêtes certes, mais une surveillance accrue. Cette façon de procéder fonctionne aujourd'hui, mais qu'en sera-il dans un an? deux ans? Je l'ignore totalement.

enter image description here

Aller plus loin

Voici quelques liens sur lesquels je base ma réflexion, aussi bien sur les blocs d'IP à bannir que sur les bots à surveiller :

https://github.com/ai-robots-txt/ai.robots.txt
https://github.com/Aetherinox/blocklists
https://github.com/mitchellkrogza/apache-ultimate-bad-bot-blocker