IA vs Web : le clash des requêtes
Posté le 10 août 2025 par cyprien — 5 min

Dans le cadre de mon travail d'infogéreur auprès de PME/PMI, j'infogère des serveurs dédiés physiques utilisés pour du Web Pur. Ce que j'entends pas là, c'est que les clients hébergent plusieurs dizaines voir dans certains cas, plusieurs centaines de sites web dessus. Cela va du simple site statique, à des sites plus robustes : Ecommerce, Plateformes de Réservations, Site codé maison etc ...
Et l'IA la dedans ??
Il est simple de constater, qu'en 2025, l'IA émerge de plus en plus dans tous nos besoins au quotidien. Je ne parle pas uniquement en pro, mais aussi en personnel. Pour donner des exemples simples et basiques, les Impôts Français utilisent désormais afin de trouver plus facilement les éventuels dossiers de fraudeurs. Dans un cadre plus "professionnel", je l'utilise personnellement pour qu'il me créé l'intégralité des commandes quand je dois migrer XXX tables MyIsam en InnoDB par exemple.
Bref, en soit, l'IA que ce soit GPT ou Claude, est de facto présente pour simplifier la vie. Cependant, certains ont biens compris la puissance de l'IA, et ont décidés de l'utiliser contre des sites webs, concurrents etc ...
Plus d'explications
Voici quelques logs qui vont illustrer les propos :
/var/www/vhosts/XXX/logs/access_ssl_log.processed:XX.XX.XX.XX - - [05/Jun/2025:22:07:27 +0200] "GET /wp-content/plugins/XXX HTTP/2.0" 200 3850 "-" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.2; +https://openai.com/gptbot)"
/var/www/vhosts/XXX/logs/access_ssl_log.webstat:XX.XX.XX.XX - - [13/Jun/2025:20:08:41 +0200] "GET /wp-content/plugins/tXXX HTTP/2.0" 200 30561 "https://XXX" "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/131.0.0.0 Safari/537.36; ClaudeBot/1.0; +claudebot@anthropic.com)"
En soit, on pourrait très bien que c'est normal. En effet puisqu'il n'est pas anormal de voir des requêtes IA puisque :
- Ces IA indexent activement les sites web pour proposer des résultats pertinents dans leurs moteurs.
- Elles utilisent des robots d'exploration (ex: Googlebot, Bingbot, etc.) qui parcourent les pages, analysent leur contenu, et les ajoutent à leur base de données.
D'autres comme OpenAI et Claude vont plus loin, à titre d'exemples :
- Elles ne parcourent pas activement le web de leur propre chef.
- Leur "connaissance" provient de données d'entraînement, qui incluent parfois des pages web accessibles publiquement au moment de l'entraînement (ce n’est pas en temps réel).
Il est en soit assez compliqué de différencier la réelle requête de l'IA de la requête présente "illégale". Je me suis amusé à calculer le nombre de requêtes sur 24h.
Par l'intermédiaire de ChatGPT :
find /var/www/vhosts/*/logs -type f -newermt "$(date -d '24 hours ago')" -exec grep -i "GPT" {} \; | wc -l 123663
Par l'intermédiaire de ClaudeAI :
find /var/www/vhosts/*/logs -type f -newermt "$(date -d '24 hours ago')" -exec grep -i "Claude" {} \; | wc -l 6154
Par l'intermédiaire d'OpenAI :
find /var/www/vhosts/*/logs -type f -newermt "$(date -d '24 hours ago')" -exec grep -i "OpenAI" {} \; | wc -l 126952
Il s'agit ici que des IA les plus connues, en cumulant cela, le nombre total de requêtes en 24H est bien plus important forcément.
Tout Bloquer ?
Pendant un moment, c'est ce que l'on faisait en Interne, on passait par un blocage radical. Il faut savoir que sous Plesk il n'est pas possible d'avoir un robot.txt racine, qui serait écouté par l'intégralité du serveur. Si l'on voulait utiliser cette méthode, il serait nécessaire d'implémenter site par site ce fameux fichier robot.txt. Quand on a plusieurs centaines de sites sur un seul serveur dédié, c'est mission impossible au quotidien.
L'autre solution utilisée sous un serveur dédié Plesk revient à bloquer les blocs d'IP en question. Exemple, ci-dessous avec Claude :
# Claude IA
plesk bin ip_ban --ban 3.12.0.0/16,plesk-permanent-ban
plesk bin ip_ban --ban 3.14.0.0/15,plesk-permanent-ban
plesk bin ip_ban --ban 3.20.0.0/14,plesk-permanent-ban
plesk bin ip_ban --ban 3.128.0.0/15,plesk-permanent-ban
plesk bin ip_ban --ban 3.132.0.0/14,plesk-permanent-ban
plesk bin ip_ban --ban 3.136.0.0/13,plesk-permanent-ban
plesk bin ip_ban --ban 3.144.0.0/13,plesk-permanent-ban
plesk bin ip_ban --ban 13.58.0.0/15,plesk-permanent-ban
plesk bin ip_ban --ban 18.116.0.0/14,plesk-permanent-ban
plesk bin ip_ban --ban 18.188.0.0/16,plesk-permanent-ban
plesk bin ip_ban --ban 18.189.0.0/16,plesk-permanent-ban
plesk bin ip_ban --ban 18.190.0.0/16,plesk-permanent-ban
plesk bin ip_ban --ban 18.191.0.0/16,plesk-permanent-ban
plesk bin ip_ban --ban 18.216.0.0/14,plesk-permanent-ban
plesk bin ip_ban --ban 18.220.0.0/14,plesk-permanent-ban
plesk bin ip_ban --ban 18.224.0.0/14,plesk-permanent-ban
plesk bin ip_ban --ban 52.14.0.0/16,plesk-permanent-ban
plesk bin ip_ban --ban 216.73.0.0/16,plesk-permanent-ban
C'est radical certes, mais cela peut fonctionner sur du moyen/court terme. Pourquoi? Car les blocs d'IP ont tendances par moment à changer, ajouts, suppressions etc ...
Des Limites
Nous venons de voir les limites relatives aux blocs d'IP (Ajout et/ou Suppression). Mais ce n'est pas la seule limite à l'heure actuelle. Si je vous dis ceci :
find /var/www/vhosts/*/logs -type f -newermt "$(date -d '24 hours ago')" -exec grep -i "Semrush" {} \; | wc -l 37141
Ou bien encore :
find /var/www/vhosts/*/logs -type f -newermt "$(date -d '24 hours ago')" -exec grep -i "Moz" {} \; | wc -l 54037921
On peut se demander s'il s'agit de bonnes ou de mauvaises requêtes, puisque dans le fond, ce sont des IA liées au SEO.
*Des Pistes?
Oui, pour le moment je regarde pas mal du côté de Github mais aussi du côté de Crowdsec afin de trouver la réelle et bonne solution pour les besoins clients. Je suis tombé notamment sur ce projet (https://github.com/ai-robots-txt/ai.robots.txt?tab=readme-ov-file), qui est maintenu de façon régulière. A voir comment l'automatiser pour l'implémenter dans des environnements Plesk.
Concernant Crowdsec, il propose une Blocklist nommé "AI Crawlers", disponible en Platinium Tiers, soit à partir de 3900 euros par mois ...