Questo file va messo nella root del sito.
Ad esempio per il mio sarà www.giorgiotave.it/robots.txt
Io l'ho inserito lo stesso questo file, però come giusta regola
non dovevo farlo in quanto con questo file si possono escludere
cartelle o file dall'indicizzazione. Nel mio robots non escludo
niente, il comportamento dello spider sarà lo stesso. Molte voci di
corridoio dicono che allo spider di google piace trovare questo
file, ma queste voci non sono verificate.
Il file è composto da questi campi:
User-agent:
Disallow:
Nel campo User-agent devi mettere il nome dello spider. Con il
simbolo * ti stai riferendo a tutti gli spider.
Nel campo Disallow dirai cosa non vuoi che lo spider prelevi.
Stai dicendo a tutti gli spider che non ci sono file che
vuoi che non prelevino
User-agent: *
Disallow:
Dici a Google di non prendere il file ciao.htm
User-agent: googlebot
Disallow: /ciao.htm
Dici a Google di non prendere niente nella cartella ciao
User-agent: googlebot
Disallow: /ciao/
Ecco una lista di spider
http://www.robotstxt.org/wc/active/html/index.html
Nonostante tutto ci sono alcuni motori di ricerca che non seguono
questo tipo di indicazioni.
> Links Utili
- Aumenta il Pagerank del tuo sito gratis AUMENTA
IL TUO PAGERANK
> Pubblica questa guida sul tuo sito:
questa guida puo' essere liberamente copiata e ripubblicata sul
tuo sito web a patto di NON modificare in alcun modo i
contenuti, il copyright e i links in essa presenti (pero' puoi
modificare la grafica e il layout come preferisci). Per
scaricare la guida da mettere sul tuo sito clicca
qui
> Copyright: questa guida e'
realizzata da Giorgio
Taverniti e promossa da 3
Web Marketing e Madri
Internet Marketing