graphical blog 2

Filed under: Tutorial in french, network

J’ai trouvé une méthode pour bloquer msnbot, le bot qui fait le plus de hits et visites, mais qui est le moins en référent vers mon site, autant dire qu’il pompe de la bande passante pour rien, et qu’étant donné la philosophie et l’histoire, et les lobbyings de Microsoft, je n’ai pas trop envie de leur offrir mes fichiers à l’œil.

Normalement le fichier robots.txt est prévu pour dire aux différents bots, qu’on ne veut pas qu’il vienne fouiller dans l’arborescence. msnbot vient scruter ce fichier environ 4 fois par jour, mais msnbot ne tient pas compte des interdictions mises dans ce fichier robots.txt:


User-agent: msnbot
Disallow: /

il est situé à la racine du site, donc pour moi, ici: /robots.txt

il le charge bien, mais continue de scruter malgré l’interdiction claire, donc, j’ai cherché les moyen d”interdire au niveau apache la scrutation par msnbot, j’ai trouvé cette méthode, elle fonctionne sur mon serveur mais pas chez Free par exemple, ou la méthode <limit> d’apache ne doit pas être autorisée. Si quelqu’un à une méthode pour Free je suis preneur. Je vais tout de même essayer de trouver, et si je trouve, je l’ajouterais ici.

Donc, voici le contenu du .htaccess de mon serveur permettant de bloquer msnbot:


SetEnvIfNoCase User-Agent "^msnbot" bad_bot

<limit GET POST>
  Order Allow,Deny
  Allow from all
  Deny from env=bad_bot
</limit>

La variable SetEnvIf(NoCase) permet d’initialiser la variable bad_bot lorsque l’User-Agent commence par msnbot et quelque soit la casse (majuscule ou minuscule.

la partie limit permet d’interdire lorsque la variable bad_bot est initialisée.

On peut trouver ici une liste de bots qu’il peut être intéressant de bloquer (de l’horrible scanner d’emails pour les spams, au simple indexeur de moteur de recherche).

msnbot continue d’essayer de charger le fichier robots.txt en vain, il prend une erreur 403 Forbidden pour ce fichier comme pour le reste du site.

1 Comment »

  1. Bien vu…
    Au fait bravo pour ce blog !

    Comment by Snupy — %PM %857 %Europe/Paris%q, %2005 @ %1:%Jul %p

RSS feed for comments on this post. TrackBack URL

Leave a comment

You must be logged in to post a comment.

Powered by WordPress

Switch to our mobile site