Het zwarte bos heeft last van spammers. De boswachter heeft dus besloten om het nutteloos te maken voor spammers om te reageren. Dat is een wezenlijk andere benadering dan de meeste spam-bestrijdings tools, die maken het voor iedereen ingewikkelder om een reactie te plaatsen. Reacties moeten ineens aan regels gaan voldoen of de gebruiker moet JavaScript aan hebben staan. De boswachter heeft eens nagedacht waaróm spammers eigenlijk spammen. Het antwoord daarop is heel simpel: door te spammen zorg je er voor dat jouw site hoger komt te staan in de zoekresultaten. De boswachter heeft toen besloten om het Zwarte Bos gewoon in zijn geheel te verwijderen uit alle zoekmachines, dan heeft spammen gewoon geen zin. Dat blijkt dus een stuk lastiger te zijn dan je zou denken, sterker nog, het lijkt gewoon onmogelijk te zijn om sites helemaal te verwijderen uit de index van zoekmachines.
Er zijn een paar opties als je zoekmachines de toegang tot je site wilt ontzeggen. De eerste is een bestand robots.txt dat je in de root van de site zet. Hierin zet je de volgende regels:
User-agent: *
Disallow: /
Elke bot die dit bestand serieus neemt ontzeg je zo de toegang tot je hele site. Alle grote en bijna alle kleine zoekmachines houden zich aan deze regel.
Een andere optie, die je er voor de zekerheid naast zou kunnen gebruiken is de meta-robots tag. Voeg in elke pagina de volgende regel toe:
<meta name=”robots” content=”noindex,nofollow” />
Hier staat dat robots, zoekmachines dus, deze pagina niet in hun index mogen opnemen. Er staat dus niet dat zoekmachines de pagina niet mogen indexeren, dat staat in de robots.txt.
Klaar, zou je denken. Met robots.txt zorgen we er voor dat zoekmachines onze site niet mogen bezoeken en voor de zekerheid zetten we op elke pagina de meta-tag. En tóch verschijnen er nog pagina’s uit het Zwarte Bos in de verschillende zoekresultaten. Hoe kan dat?
Dat kan doordat er redelijk veel gelinkt wordt naar het bos. Op Google staat het Zwarte Bos bovenaan de zoekresultaten als je zoekt op arduenn.com maar zonder omschrijving er onder. Google houdt zich zo te zien dus wel aan het toegangsverbod. Je kan het vergelijken met iemand die de keer op keer de toegang tot een nachtclub wordt ontzegd: hij kan niet vertellen hoe het er vanbinnen uitziet maar hij kan wel de naam van de tent noemen. En dat doet google. En Yahoo. En MSN doet het nét weer anders: die zet de tekst waarmee er gelinkt wordt als omschrijving bij de site. Kan hier dan niks tegen gedaan worden? Ja en nee.
Alle grote zoekmachines geven je de optie om jouw site te beheren. Bij google en msn heet het Webmaster Tools en bij Yahoo heet het Site Explorer. Met deze tools kan je in meer of mindere mate instellen hoe de betreffende zoekmachine omgaat met jouw site. Bij Google kan je redelijk eenvoudig aangeven dat een hele site moet worden verwijderd, bij yahoo kan dat ook, maar dan niet zo gemakkelijk maar bij msn kan dit niet. Daar staat in een supportpagina dat een site blijft verschijnen in de zoekresultaten zolang er gelinkt wordt naar die site. De omschrijving is dan de linktekst. Als je zoekt op site:arduenn.com via msn dan zie je veel ‘via’ staan als omschrijving omdat retecool vaak via een via-linkje linkt naar het bos.
Hoe het werkt bij yahoo weet ik niet precies, nooit geprobeerd. Bij Google werkt het dus redelijk simpel. Je zorgt er voor dat je robots.txt in orde is en vraagt om jouw site uit de index te halen. Dit is alleen geen permanente oplossing. Er staat dat de site minimaal 60 dagen verwijderd zal zijn. Elke twee maanden moet je je site dus opnieuw verwijderen.
Op deze manieren lukt het dus niet om je site permanent uit de zoekmachine indexxen te halen. En ik betwijfel het of andere manieren wel werken. Er zijn wel wat opties die het proberen waard zijn:
– Je zou kunnen proberen om robots door te verwijzen naar een error-pagina. Maar helaas is het nogal lastig (lees onmogelijk) om alle robots te identificeren: ze doen zich wel eens voor als een normale browser. Een redelijk complete lijst van robots is te vinden bij crawltrack.
– Zorg er voor dat je zo veel mogelijk regels die zoekmachines stellen aan een site overtreedt. Zo kan je wellicht permanent gebanned worden. Ik denk dat dit niet gaat lukken omdat de bots de content van jouw site niet meer bekijken.
– Stuur een mailtje naar de zoekmachines met de vraag om permanent verwijderd te worden.
Iemand nog andere ideeën?
Ik word nauwelijks gehinderd door enige kennis, maar eh… je hebt ongewenste bezoekers, zet dan een beter slot op de deur. Als je je huisnummer van de deur haalt, komt men echt nog wel langs om aan te kijken of de deur open staat.
Of te wel: een fatsoenlijke spamfilter/plugin/slimme code/dinges? Akismet is je vriend. (Crosspots vna/naar het Bos).
In dit artikel gaat het er om of het mogelijk is om een hele site uit zoekmachine-indexen te halen. Niet specifiek om spam tegen te gaan. De site kan je blijkbaar niet uit de index verwijderen, de inhoud wel. En dat is, theoretisch, een goed middel tegen commentspam.
Zeg, ik stoor je graag even voor een informatieve mededeling. Die zoekmachine MSN, die bestaat niet meer, dat is van heeeel vroegah. MSN is alleen een website, bij Microsoft heet tegenwoordig de Messenger Live Messenger en de search heet Live Search. Tenminste, voorlopig want binnenkort wordt de Live Search verbeterd en krijgt ie een nieuwe naam (sic).
Verwarrend, jer00n. Ik zal in het vervolg voor alle duidelijkheid de naam ‘(sic)’ gebruiken als ik het over de zoek/dwaalmachine van microsoft heb.