[contentblock]
Accenniamo in quest’articolo i due strumenti che sono in grado d’influenzare l’indicizzazione del vostro sito e non il posizionamento: la sitemap e il file robots.txt
Robots.txt è un file di testo molto semplice, che deve essere inserito (se lo si vuole utilizzare) nella cartella “root” del vostro sito Web ed è utile per indicare agli “spider” dei motori di ricerca semplici e alcune direttive che riguardano l’accesso a intere cartelle e determinati file.
Grazie a questo file, per esempio potrete chiedere a uno spider specifico (per esempio Googlebot) di non effettuare determinate cartelle (per esempio cartelle con riservati file che non si vuole che siano raggiungibili tramite il motore di ricerca), addirittura anche per precludere l’accesso a tutto il sito a uno spider specifico (in giro ci sono tanti robots piuttosto invasivi e noiosi, di secondari motori di ricerca e quindi non utili dal punto di vista del traffico entrante).
Per essere più chiari facciamo un esempio: facciamo conto che all’interno del sito siano presenti cartelle o file che non v’interessano che siano indicizzate (come la cartella che contiene le immagini, o quella del pannello di controllo, o anche il file Javacript e il foglio di stile CSS); grazie al file robots.txt avrete la possibilità d’impartire queste particolari istruzioni.
Esempio:
User-agent: *
Disallow: /cartella_da_non_indicizzare/
Disallow: /file_da_non_indicizzare.html
Disallow: /cartella_da_indicizzare/file_da_non_indicizzare.html
User-Agent è una direttiva che si può indicare, a uno spider scelto e con chiarezza, per dare questa specifica istruzione è sufficiente scrivere il nome, come per esempio Googlebot. Nel vostro caso abbiamo usato la wildcard (asterisco) che vuole indicare a tutti gli spider le direttive che seguono, perciò, dovranno essere prese in considerazione dalla totalità degli spider che accederanno al vostro sito!
La direttiva non consentire (Disallow) può essere ripetuta per un numero di volte il numero stesso delle cartelle o file da non indicizzare allo spider (come visto nell’esempio). Questa specifica direttiva può anche essere attivata per tutta una cartella o un solo file di una cartella che deve essere indicizzata, o più semplicemente un solo file.
L’indicazione di una cartella o file deve avvenire indicando sempre ilo relativo percorso degli stessi, dove va indicato nella direttiva soltanto il carattere / (slash) e quindi facendo riferimento al totale sito.
File robots.txt, come scrive?
Come già scritto, robot.txt è un file semplice di testo e quindi, può essere creato con l’uso di un classico editore di testo, per esempio Notepad presente in Windows. E’ possibile, come alternativa, l’uso dei molti tool on-line, per un’automatica generazione assistita del file stesso.
File robots.txt, alcuni esempi per il suo funzionamento, per capire meglio:
Ammettere la totalità degli spider, per dare il consenso all’accesso senza alcuna restrizione a questi;
User-Agent:*
Disallow:
Questa indicazione vale come un’impostazione “default”, ossia a non caricare i file robots.txt.
Esclusione della totalità degli spider
Se è necessario, grazie al file robotx.it, è possibile bloccare l’indicizzazione di tutto il vostro sito web, magari perché si vuole che rimanga riservato soltanto a voi stessi o magari per poche persone (amici per esempio):
User-agent: *
Disallow: /
Escludere uno specifico spider, in pratica azione più frequente:
User-Agent: *
Disallow:
User-agent: SpiderdaEscudere
Disallow: /
Un solo spider all’accesso, se si vuole autorizzare l’accesso al vostro sito web solo allo spider del motore di ricerca X e bloccare tutti gli altri:
User-Agent: *
Disallow: /
User-agent: Motore di ricerca (per Google Googlebot)
Disallow:
Per concludere
Gli esempi fatti, ovviamente, sono soltanto semplici, tuttavia le combinazioni sono davvero molte e spesso abbastanza utili: il nostro suggerimento, in ogni caso, è di NON usare il file robots.txt se non si ha la certezza di agire è di dare istruzioni in modo corretto. Se non avete questa certezza, rammentate che un errore d’impostazione potrebbe creare molti problemi al vostro sito web, con il rischio di uscire dalle SERP.
Inoltre se il file robotx.txt non è caricato, nel vostro sito troverete, nella root, il file robotx.txt avrà un logo zeppo di errori tipo 404…….
[/contentblock]