robots.txt im HTTP Header

Da in der robots.txt häufig Applikationsinterne Pfade stehen, die der Webmaster vor den Suchmaschinen „verstecken“ möchte, kann das teils von security auditoren bemängelt werden.

In diesem Fall hat man die Möglichkeit mittels dem X-Robots-Tag die ensprechenden Anweisungen für die Crawler der Suchmaschinen auch im HTTP Header der betreffenden URLs auszugeben.

apache

In der apache Konfiguration des VirtualHosts legt man dazu Einträge in der folgenden Form an:

<LocationMatch "/(typo3|typo3conf|typo3temp|error_path)/">
  Header set X-Robots-Tag "Disallow"
</LocationMatch>

<LocationMatch "/.*_noindex.*.jpg">
  Header set X-Robots-Tag "noindex, noarchive, nosnippet"
</LocationMatch>

Testen kann man das mit curl:

curl -s -D- https://www.example.com/typo3temp/ |grep 'X-Robots-Tag'
X-Robots-Tag: Disallow
 
curl -s -D- https://www.example.com/test_noindex.irgendwas.jpg |grep 'X-Robots-Tag'
X-Robots-Tag: noindex, noarchive, nosnippet
 
curl -s -D- https://www.example.com/ |grep 'X-Robots-Tag'
:~$
 
# Oder intern direkt auf dem Webserver:
apache@server:~$ curl -s -D- --header "Host: www.example.com" http://127.0.0.1/typo3conf/ |grep 'X-Robots-Tag'
X-Robots-Tag: Disallow

Quellen

Published by

Steven Varco

Steven ist ein Redhat RHCE-Zertifizierter Linux-Crack und ist seit über 20 Jahren sowohl beruflich wie auch privat auf Linux spezialisiert. In seinem Keller steht ein Server Rack mit diversen ESX und Linux Servern.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.