Gli esperti del Digital marketing

Potenzia il tuo business online con Monkey Digital SEO: sfrutta al massimo il potenziale del marketing strategico digitale.

Come gestire il crawl budget per i siti di grandi dimensioni

Come gestire il crawl budget per i siti di grandi dimensioni

Internet è un universo virtuale in continua evoluzione con oltre 1,1 miliardi di siti web.

Pensi che Google possa scansionare tutti i siti web del mondo?

Anche con tutte le risorse, i soldi e i data center di cui dispone Google, non può nemmeno eseguire la scansione dell'intero Web, né lo desidera.

Che cos'è il crawl budget ed è importante?

Il crawl budget si riferisce alla quantità di tempo e risorse che Googlebot dedica alla scansione delle pagine web in un dominio.

È importante ottimizzare il tuo sito in modo che Google trovi i tuoi contenuti più velocemente e indicizzi i tuoi contenuti, il che potrebbe aiutare il tuo sito a ottenere una migliore visibilità e traffico.

Se disponi di un sito di grandi dimensioni con milioni di pagine Web, è particolarmente importante gestire il budget di scansione per consentire a Google di eseguire la scansione delle pagine più importanti e ottenere una migliore comprensione dei tuoi contenuti.

Google afferma che:

Se il tuo sito non ha un gran numero di pagine che cambiano rapidamente, o se le tue pagine sembrano essere scansionate lo stesso giorno in cui vengono pubblicate, è sufficiente mantenere aggiornata la tua mappa del sito e controllare regolarmente la copertura dell'indice. Google afferma inoltre che ogni pagina deve essere rivista, consolidata e valutata per determinare dove verrà indicizzata dopo la scansione.

Il crawl budget è determinato da due elementi principali: il limite della capacità di scansione e la domanda di scansione.

La domanda di scansione è la quantità di Google che desidera eseguire la scansione sul tuo sito web. Le pagine più popolari, ad esempio una notizia popolare della CNN e le pagine che subiscono cambiamenti significativi, verranno scansionate di più.

Googlebot desidera eseguire la scansione del tuo sito senza sovraccaricare i tuoi server. Per evitare ciò, Googlebot calcola un limite di capacità di scansione, ovvero il numero massimo di connessioni parallele simultanee che Googlebot può utilizzare per eseguire la scansione di un sito, nonché l'intervallo di tempo tra i recuperi.

Mettendo insieme la capacità di scansione e la domanda di scansione, Google definisce il budget di scansione di un sito come l'insieme di URL che Googlebot può e vuole sottoporre a scansione. Anche se il limite della capacità di scansione non viene raggiunto, se la domanda di scansione è bassa, Googlebot eseguirà meno la scansione del tuo sito.

Ecco i 12 migliori consigli per gestire il crawl budget per siti medio-grandi con da 10.000 a milioni di URL.

1. Determina quali pagine sono importanti e quali non devono essere sottoposte a scansione

Determina quali pagine sono importanti e quali pagine non sono così importanti da scansionare (e quindi, Google visita meno frequentemente).

Una volta stabilito ciò attraverso l'analisi, puoi vedere quali pagine del tuo sito vale la pena scansionare e quali pagine del tuo sito non vale la pena scansionare ed escluderle dalla scansione.

Ad esempio, Macys.com ha oltre 2 milioni di pagine indicizzate.

Screenshot dalla ricerca di [site: macys.com]Google, giugno 2023Gestisce il proprio budget di scansione informando Google di non eseguire la scansione di determinate pagine del sito perché ha impedito a Googlebot di eseguire la scansione di determinati URL nel file robots.txt.

Googlebot potrebbe decidere che non vale la pena esaminare il resto del tuo sito o aumentare il budget di scansione. Assicurati che la navigazione sfaccettata e gli identificatori di sessione: siano bloccati tramite robots.txt

2. Gestisci i contenuti duplicati

Sebbene Google non emetta sanzioni per la presenza di contenuti duplicati, desideri fornire a Googlebot informazioni originali e univoche che soddisfino le esigenze informative dell'utente finale e siano pertinenti e utili. Assicurati di utilizzare il file robots.txt.

Google ha dichiarato di non utilizzare alcun indice, poiché richiederà comunque ma poi cadrà.

3. Blocca la scansione di URL non importanti utilizzando Robots.txt e indica a Google quali pagine può scansionare

Per un sito di livello aziendale con milioni di pagine, Google consiglia di bloccare la scansione di URL non importanti utilizzando robots.txt.

Inoltre, vuoi assicurarti che le tue pagine importanti, le directory che contengono i tuoi contenuti d'oro e le pagine di denaro possano essere sottoposte a scansione da Googlebot e altri motori di ricerca.

Screenshot dell'autore, giugno 2023

4. Lunghe catene di reindirizzamento

Mantieni il tuo numero di reindirizzamenti a un numero ridotto se puoi. Avere troppi reindirizzamenti o loop di reindirizzamento può confondere Google e ridurre il limite di scansione.

Google afferma che lunghe catene di reindirizzamento possono avere un effetto negativo sulla scansione.

5. Usa l'HTML

L'utilizzo dell'HTML aumenta le probabilità che un crawler di qualsiasi motore di ricerca visiti il ​​tuo sito web.

Sebbene i Googlebot siano migliorati quando si tratta di eseguire la scansione e l'indicizzazione di JavaScript, altri crawler dei motori di ricerca non sono così sofisticati come Google e potrebbero avere problemi con altri linguaggi diversi dall'HTML.

6. Assicurati che le tue pagine web si carichino rapidamente e offrano una buona esperienza utente

Rendi il tuo sito ottimizzato per Core Web Vitals.

Più veloce è il caricamento dei tuoi contenuti, ovvero meno di tre secondi, più velocemente Google può fornire informazioni agli utenti finali. Se gli piace, Google continuerà a indicizzare i tuoi contenuti perché il tuo sito dimostrerà lo stato di scansione di Google, il che può aumentare il limite di scansione.

7. Avere contenuti utili

Secondo Google, i contenuti sono classificati in base alla qualità, indipendentemente dall'età. Crea e aggiorna i tuoi contenuti se necessario, ma non c'è alcun valore aggiunto nel far sembrare le pagine artificialmente fresche apportando modifiche banali e aggiornando la data della pagina.

Se i tuoi contenuti soddisfano le esigenze degli utenti finali e, cioè, sono utili e pertinenti, non importa se sono vecchi o nuovi.

Se gli utenti non trovano i tuoi contenuti utili e pertinenti, ti consiglio di aggiornare e aggiornare i tuoi contenuti in modo che siano freschi, pertinenti e utili e di promuoverli tramite i social media.

Inoltre, collega le tue pagine direttamente alla home page, che potrebbe essere considerata più importante e scansionata più spesso.

8. Fai attenzione agli errori di scansione

Se hai eliminato alcune pagine del tuo sito, assicurati che l'URL restituisca uno stato 404 o 410 per le pagine rimosse definitivamente. Un codice di stato 404 è un segnale forte per non eseguire nuovamente la scansione di quell'URL.

Gli URL bloccati, tuttavia, rimarranno parte della tua coda di scansione molto più a lungo e verranno scansionati di nuovo quando il blocco viene rimosso.

  • Inoltre, Google afferma di rimuovere qualsiasi pagina soft 404, che continueranno a essere sottoposti a scansione e a sprecare il tuo budget di scansione. Per verificarlo, vai in GSC e controlla il rapporto sulla copertura dell'indice per gli errori soft 404.

Se il tuo sito ha molti codici di stato di risposta HTTP 5xx (errori del server) o timeout di connessione segnalano il contrario, la scansione rallenta. Google consiglia di prestare attenzione al rapporto sulle statistiche di scansione in Search Console e di ridurre al minimo il numero di errori del server.

A proposito, Google non rispetta né aderisce alla regola non standard del file robots.txt "crawl-delay".

Anche se utilizzi l'attributo nofollow, la pagina può comunque essere sottoposta a scansione e sprecare il crawl budget se un'altra pagina del tuo sito o qualsiasi pagina sul Web non etichetta il link come nofollow.

9. Mantieni aggiornate le Sitemap

Le sitemap XML sono importanti per aiutare Google a trovare i tuoi contenuti e possono velocizzare le cose.

È estremamente importante mantenere aggiornati gli URL della tua mappa del sito, utilizzare il tag per i contenuti aggiornati e seguire le migliori pratiche SEO, incluse ma non limitate a quanto segue.

  • Includi solo gli URL che desideri vengano indicizzati dai motori di ricerca.
  • Includi solo gli URL che restituiscono un codice di stato 200.
  • Assicurati che un singolo file Sitemap sia inferiore a 50 MB o 50.000 URL e, se decidi di utilizzare più Sitemap, crea un indice mappa del sito che li elencherà tutti.
  • Assicurati che la tua mappa del sito sia codificato UTF-8.
  • Includere collegamenti alle versioni localizzate di ciascun URL. (Vedi la documentazione di Google.)
  • Mantieni aggiornata la tua mappa del sito, ovvero aggiorna la tua mappa del sito ogni volta che c'è un nuovo URL o un vecchio URL è stato aggiornato o cancellato.

10. Costruisci una buona struttura del sito

Avere una buona struttura del sito è importante per le tue prestazioni SEO per l'indicizzazione e l'esperienza utente.

La struttura del sito può influenzare i risultati delle pagine dei risultati dei motori di ricerca (SERP) in diversi modi, tra cui la capacità di scansione, la percentuale di clic e l'esperienza dell'utente.

Avere una struttura chiara e lineare del tuo sito può utilizzare il tuo crawl budget in modo efficiente, il che aiuterà Googlebot a trovare contenuti nuovi o aggiornati.

Ricorda sempre la regola dei tre clic, ovvero ogni utente dovrebbe essere in grado di passare da una pagina all'altra del tuo sito con un massimo di tre clic.

11. Collegamento interno

Più facile è rendere la scansione e la navigazione del tuo sito da parte dei motori di ricerca, più facilmente i crawler possono identificare la tua struttura, il contesto e i contenuti importanti.

Avere collegamenti interni che puntano a una pagina Web può informare Google che questa pagina è importante, aiutare a stabilire una gerarchia di informazioni per un determinato sito Web e può aiutare a diffondere l'equità dei collegamenti in tutto il sito.

12. Monitora sempre le statistiche di scansione

Esamina e monitora sempre GSC per vedere se il tuo sito presenta problemi durante la scansione e cerca modi per rendere la tua scansione più efficiente.

Puoi utilizzare il rapporto Statistiche di scansione per vedere se Googlebot ha problemi durante la scansione del tuo sito.

Se in GSC per il tuo sito vengono segnalati errori o avvisi di disponibilità, cerca le istanze nel file disponibilità dell'ospite grafici in cui le richieste di Googlebot hanno superato la linea del limite rosso, fai clic sul grafico per vedere quali URL non funzionavano e prova a correlarli con problemi sul tuo sito.

Inoltre, puoi utilizzare lo strumento Controllo URL per testare alcuni URL sul tuo sito.

Se lo strumento di controllo degli URL restituisce avvisi di carico dell'host, significa che Googlebot non può eseguire la scansione del numero di URL del tuo sito quanti ne ha individuati.

Avvolgendo

L'ottimizzazione del crawl budget è fondamentale per i siti di grandi dimensioni a causa delle loro dimensioni e complessità estese.

Con numerose pagine e contenuti dinamici, i crawler dei motori di ricerca affrontano sfide per eseguire in modo efficiente ed efficace la scansione e l'indicizzazione dei contenuti del sito.

Ottimizzando il tuo crawl budget, i proprietari dei siti possono dare la priorità alla scansione e all'indicizzazione di pagine importanti e aggiornate, assicurando che i motori di ricerca spendano le loro risorse in modo saggio ed efficace.

Questo processo di ottimizzazione prevede tecniche come il miglioramento dell'architettura del sito, la gestione dei parametri URL, l'impostazione delle priorità di scansione e l'eliminazione dei contenuti duplicati, portando a una migliore visibilità sui motori di ricerca, una migliore esperienza utente e un aumento del traffico organico per i siti Web di grandi dimensioni.

Altre risorse:

Immagine di presentazione: BestForBest/Shutterstock

Le Critiche Crescenti Contro Google
Scoprire lo Sviluppo Web: La Programmazione come Arte
Scopri i Top Podcast SEO del 2024 e Mantieniti Aggiornato
Il ruolo delle finestre di dialogo nella progettazione di un'interfaccia utente web
Guida all'Integrazione di ChatGPT sul Tuo Sito Web
Utilizzo efficace di ChatGPT per la ricerca di parole chiave
Automatizzare le Campagne PPC con l'Intelligenza Artificiale Generativa
Aggiungere Coinvolgimento al tuo Sito con uno Sfondo Video CSS
Importanza delle Pagine di Destinazione per la Generazione di Lead e Incremento delle Vendite
Link Building

Link Building come parte della tua strategia di marketing può portare a risultati rivoluzionari. Seowebsite è specializzato nel Link Building e aiuta gli imprenditori a realizzare un forte profilo di link che contribuisce alla crescita online. Possiamo supportarvi anche in questo?