Blog graphique 2

Classé dans : réseau, test

Les différentes failles de Google comme le bidouillage par « Bombardement Google » (ou Google bombing), ou bien par google-watch.org, notamment sur la censure sur la prison d’Abu Ghraib. L’article du wikipedia francophone contient également des liens intéressants.

Quoi qu’il en soit, voici surtout un exemple concret, et une expérience personnelle :

On s’attendrait à ce que le site d’Inkscape soit en premier dans le classement des didacticiels sur le sujet. Les didacticiels du site sont d’ailleurs très complets, les lire est facile, interactif (surout lancé depuis le menu Aide=>Didacticiels=>*), et permet de faire le tour de ses outils de base. C’est d’ailleurs ce que fait le moteur Yahoo:
Recherche didacticiel Inkscape par Yahoo

Mais Google en à décidé autrement, à cause de la méthode de « Page Rank », qui donne la priorité à des sites référencés par d’autres sites bien classés:
Recherche didacticiel Inkscape par Google

On voit que mon site est en premier, en second linuxfr.org ou j’ai posté un article sur la sortie d’Inkscape 0.42, et enfin, en 3eme position seulement, le didacticiel en Français d’Inkscape, il n’y a pourtant aucun didacticiel sur Inkscape sur le site de Linuxfr.org.

Je trouve cette méthode un peu dangereuse car elle aurait tendance à mettre en avant plutôt des articles qui sont déjà très connus, dans des journaux très lus, plutôt que des résultats efficaces et pertinents. Cela avantage les plus forts pour une domination encore plus grande de l’information…

Classé dans : Didacticiel en français, réseau

J’ai trouvé une méthode pour bloquer msnbot, le bot qui fait le plus de hits et visites, mais qui est le moins en référent vers mon site, autant dire qu’il pompe de la bande passante pour rien, et qu’étant donné la philosophie et l’histoire, et les lobbyings de Microsoft, je n’ai pas trop envie de leur offrir mes fichiers à l’œil.

Normalement le fichier robots.txt est prévu pour dire aux différents bots, qu’on ne veut pas qu’il vienne fouiller dans l’arborescence. msnbot vient scruter ce fichier environ 4 fois par jour, mais msnbot ne tient pas compte des interdictions mises dans ce fichier robots.txt:


User-agent: msnbot
Disallow: /

il est situé à la racine du site, donc pour moi, ici: /robots.txt

il le charge bien, mais continue de scruter malgré l’interdiction claire, donc, j’ai cherché les moyen d”interdire au niveau apache la scrutation par msnbot, j’ai trouvé cette méthode, elle fonctionne sur mon serveur mais pas chez Free par exemple, ou la méthode <limit> d’apache ne doit pas être autorisée. Si quelqu’un à une méthode pour Free je suis preneur. Je vais tout de même essayer de trouver, et si je trouve, je l’ajouterais ici.

Donc, voici le contenu du .htaccess de mon serveur permettant de bloquer msnbot:


SetEnvIfNoCase User-Agent "^msnbot" bad_bot

<limit GET POST>
  Order Allow,Deny
  Allow from all
  Deny from env=bad_bot
</limit>

La variable SetEnvIf(NoCase) permet d’initialiser la variable bad_bot lorsque l’User-Agent commence par msnbot et quelque soit la casse (majuscule ou minuscule.

la partie limit permet d’interdire lorsque la variable bad_bot est initialisée.

On peut trouver ici une liste de bots qu’il peut être intéressant de bloquer (de l’horrible scanner d’emails pour les spams, au simple indexeur de moteur de recherche).

msnbot continue d’essayer de charger le fichier robots.txt en vain, il prend une erreur 403 Forbidden pour ce fichier comme pour le reste du site.

« Articles plus récents

Propulsé par WordPress

Switch to our mobile site