Gli esperti della Link Building

Su Seowebsite ricevi sempre i migliori link al miglior prezzo

Cosa, perché e come ottimizzare

Cosa, perché e come ottimizzare

La scansione è essenziale per ogni sito Web, grande e piccolo.

Se i tuoi contenuti non vengono sottoposti a scansione, non hai alcuna possibilità di ottenere visibilità sulle piattaforme Google.

Parliamo di come ottimizzare il crawling per dare ai tuoi contenuti l'esposizione che merita.

Cos'è la scansione in SEO

Nel contesto della SEO, il crawling è il processo in cui i bot dei motori di ricerca (noti anche come web crawler o spider) scoprono sistematicamente i contenuti di un sito web.

Può trattarsi di testo, immagini, video o altri tipi di file accessibili ai bot. Indipendentemente dal formato, il contenuto si trova esclusivamente tramite link.

Come funziona la scansione del Web

Un web crawler funziona scoprendo gli URL e scaricando il contenuto della pagina.

Durante questo processo, possono passare il contenuto all'indice del motore di ricerca ed estrarre collegamenti ad altre pagine web.

Questi collegamenti trovati rientreranno in diverse categorizzazioni:

  • Nuovi URL sconosciuti al motore di ricerca.
  • Gli URL noti che non forniscono indicazioni sulla scansione verranno periodicamente rivisitati per determinare se sono state apportate modifiche al contenuto della pagina e quindi l'indice del motore di ricerca deve essere aggiornato.
  • URL noti che sono stati aggiornati e forniscono indicazioni chiare. Dovrebbero essere nuovamente scansionati e reindicizzati, ad esempio tramite un timestamp della data e dell'ora dell'ultima modifica della mappa del sito XML.
  • URL noti che non sono stati aggiornati e forniscono indicazioni chiare. Non devono essere sottoposti a nuova scansione o reindicizzazione, ad esempio un'intestazione di risposta HTTP 304 non modificata.
  • URL inaccessibili che non possono o non devono essere seguiti, ad esempio quelli dietro un modulo di accesso o collegamenti bloccati da un tag robots "nofollow".
  • URL non consentiti che i bot dei motori di ricerca non eseguiranno la scansione, ad esempio quelli bloccati dal file robots.txt.

Tutti gli URL consentiti verranno aggiunti a un elenco di pagine da visitare in futuro, noto come coda di scansione.

Tuttavia, verranno assegnati diversi livelli di priorità.

Ciò dipende non solo dalla categorizzazione dei link, ma da una serie di altri fattori che determinano l'importanza relativa di ciascuna pagina agli occhi di ciascun motore di ricerca.

I motori di ricerca più popolari hanno i propri bot che utilizzano algoritmi specifici per determinare cosa eseguire la scansione e quando. Ciò significa che non tutti strisciano allo stesso modo.

Googlebot si comporta in modo diverso da Bingbot, DuckDuckBot, Yandex Bot o Yahoo Slurp.

Perché è importante che il tuo sito possa essere scansionato

Se una pagina di un sito non viene sottoposta a scansione, non verrà classificata nei risultati di ricerca, poiché è altamente improbabile che venga indicizzata.

Ma i motivi per cui il crawling è fondamentale vanno molto più in profondità.

La scansione rapida è essenziale per i contenuti a tempo limitato.

Spesso, se non viene sottoposto a scansione e non viene data visibilità rapidamente, diventa irrilevante per gli utenti.

Ad esempio, il pubblico non sarà coinvolto dalle ultime notizie della scorsa settimana, da un evento che è passato o da un prodotto che è ormai esaurito.

Ma anche se non lavori in un settore in cui il time-to-market è fondamentale, la scansione rapida è sempre vantaggiosa.

Quando aggiorni un articolo o rilasci una significativa modifica SEO sulla pagina, più velocemente Googlebot lo scansiona, più velocemente trarrai vantaggio dall'ottimizzazione o vedrai il tuo errore e potrai tornare indietro.

Non puoi fallire velocemente se Googlebot esegue la scansione lentamente.

Pensa al crawling come alla pietra angolare della SEO; la tua visibilità organica dipende interamente dal fatto che venga eseguita bene sul tuo sito web.

Misurazione del crawling: crawl budget vs. Efficacia di scansione

Contrariamente all'opinione popolare, Google non mira a eseguire la scansione e l'indicizzazione di tutti i contenuti di tutti i siti Web su Internet.

La scansione di una pagina non è garantita. In effetti, la maggior parte dei siti ha una parte sostanziale di pagine che non sono mai state sottoposte a scansione da Googlebot.

Se vedi l'esclusione "Scoperto - attualmente non indicizzato" nel rapporto sull'indicizzazione della pagina di Google Search Console, questo problema ti sta interessando.

Ma se non vedi questa esclusione, non significa necessariamente che non hai problemi di scansione.

Esiste un malinteso comune su quali metriche siano significative quando si misura il crawling.

Fallacia del crawl budget

I professionisti SEO spesso guardano al crawl budget, che si riferisce al numero di URL che Googlebot può e vuole scansionare entro un periodo di tempo specifico per un determinato sito web.

Questo concetto spinge per la massimizzazione del crawling. Ciò è ulteriormente rafforzato dal rapporto sullo stato di scansione di Google Search Console che mostra il numero totale di richieste di scansione.

Screenshot da Google Search Console, maggio 2023

Ma l'idea che più strisciare sia intrinsecamente migliore è completamente fuorviante. Il numero totale di scansioni non è altro che una metrica di vanità.

Attirare 10 volte il numero di scansioni al giorno non è necessariamente correlato a una (ri)indicizzazione più rapida dei contenuti che ti interessano. Tutto ciò che è correlato è caricare di più i tuoi server, costandoti più soldi.

L'attenzione non dovrebbe mai essere posta sull'aumento della quantità totale di scansione, ma piuttosto sulla qualità della scansione che si traduce in valore SEO.

Valore di efficacia della scansione

Scansione di qualità significa ridurre il tempo che intercorre tra la pubblicazione o l'esecuzione di aggiornamenti significativi di una pagina rilevante per la SEO e la successiva visita di Googlebot. Questo ritardo è il efficacia della scansione.

Per determinare l'efficacia della scansione, l'approccio consigliato consiste nell'estrarre dal database il valore data/ora creato o aggiornato e confrontarlo con il timestamp della successiva scansione dell'URL da parte di Googlebot nei file di log del server.

Se ciò non è possibile, puoi considerare di calcolarlo utilizzando la data lastmod nelle sitemap XML e interrogare periodicamente gli URL pertinenti con l'API di ispezione degli URL di Search Console fino a quando non restituisce un ultimo stato di scansione.

Quantificando l'intervallo di tempo tra la pubblicazione e la scansione, puoi misurare l'impatto reale delle ottimizzazioni della scansione con una metrica che conta.

Man mano che l'efficacia della scansione diminuisce, i contenuti rilevanti per la SEO nuovi o aggiornati verranno mostrati più velocemente al tuo pubblico sulle piattaforme Google.

Se il punteggio di efficacia della scansione del tuo sito mostra che Googlebot impiega troppo tempo per visitare i contenuti importanti, cosa puoi fare per ottimizzare la scansione?

Supporto del motore di ricerca per la scansione

Negli ultimi anni si è parlato molto di come i motori di ricerca e i loro partner si concentrino sul miglioramento del crawling.

Dopo tutto, è nel loro interesse. Una scansione più efficiente non solo offre loro l'accesso a contenuti migliori per potenziare i loro risultati, ma aiuta anche l'ecosistema mondiale riducendo i gas serra.

La maggior parte del discorso ha riguardato due API volte a ottimizzare la scansione.

L'idea è piuttosto che gli spider dei motori di ricerca che decidono cosa scansionare, i siti Web possono inviare URL pertinenti direttamente ai motori di ricerca tramite l'API per attivare una scansione.

In teoria, questo non solo ti consente di indicizzare più velocemente i tuoi ultimi contenuti, ma offre anche una possibilità per rimuovere efficacemente i vecchi URL, cosa che attualmente non è ben supportata dai motori di ricerca.

Supporto non Google da IndexNow

La prima API è Indice ora. Questo è supportato da Bing, Yandex e Seznam, ma soprattutto non da Google. È inoltre integrato in molti strumenti SEO, CRM e CDN, riducendo potenzialmente lo sforzo di sviluppo necessario per sfruttare IndexNow.

Questa può sembrare una rapida vittoria per la SEO, ma sii cauto.

Una parte significativa del tuo pubblico di destinazione utilizza i motori di ricerca supportati da IndexNow? In caso contrario, l'attivazione delle scansioni dai loro robot potrebbe avere un valore limitato.

Ma ancora più importante, valutare cosa fa l'integrazione su IndexNow per il peso del server rispetto al miglioramento del punteggio di efficacia della scansione per quei motori di ricerca. Può darsi che i costi non valgano i benefici.

Supporto di Google dall'API di indicizzazione

Il secondo è l'API di indicizzazione di Google. Google ha ripetutamente affermato che l'API può essere utilizzata solo per eseguire la scansione di pagine con annunci di lavoro o markup di eventi di trasmissione. E molti lo hanno testato e hanno dimostrato che questa affermazione è falsa.

Inviando URL non conformi all'API di indicizzazione di Google noterai un aumento significativo della scansione. Ma questo è il caso perfetto per spiegare perché "l'ottimizzazione del crawl budget" e basare le decisioni sulla quantità di scansione è un'idea sbagliata.

Perché per gli URL non conformi, l'invio non ha alcun impatto sull'indicizzazione. E quando ti fermi a pensarci, questo ha perfettamente senso.

Stai solo inviando un URL. Google eseguirà rapidamente la scansione della pagina per vedere se contiene i dati strutturati specificati.

In tal caso, accelererà l'indicizzazione. In caso contrario, non lo farà. Google lo ignorerà.

Quindi, chiamare l'API per le pagine non conformi non fa altro che aggiungere un carico non necessario sul tuo server e sprecare risorse di sviluppo senza alcun guadagno.

Assistenza Google all'interno di Google Search Console

L'altro modo in cui Google supporta la scansione è l'invio manuale in Google Search Console.

La maggior parte degli URL inviati in questo modo verrà sottoposta a scansione e il relativo stato di indicizzazione verrà modificato entro un'ora. Ma c'è un limite di quota di 10 URL entro 24 ore, quindi il problema ovvio con questa tattica è la scala.

Tuttavia, questo non significa ignorarlo.

Puoi automatizzare l'invio degli URL che ritieni prioritari tramite lo scripting che imita le azioni dell'utente per accelerare la scansione e l'indicizzazione per i pochi selezionati.

Infine, per chiunque speri che facendo clic sul pulsante "Convalida correzione" sulle esclusioni "scoperte attualmente non indicizzate" si attivi la scansione, nei miei test fino ad oggi, questo non ha fatto nulla per accelerare la scansione.

Quindi, se i motori di ricerca non ci aiuteranno in modo significativo, come possiamo aiutare noi stessi?

Come ottenere una scansione efficiente del sito

Ci sono cinque tattiche che possono fare la differenza per l'efficacia del crawl.

1. Garantire una risposta del server veloce e sana

Screenshot da Google Search Console, maggio 2023

Un server ad alte prestazioni è fondamentale. Deve essere in grado di gestire la quantità di scansione che Googlebot desidera eseguire senza alcun impatto negativo sui tempi di risposta del server o errori.

Verifica che lo stato dell'host del tuo sito sia verde in Google Search Console, che gli errori 5xx siano inferiori all'1% e che i tempi di risposta del server siano inferiori a 300 millisecondi.

2. Rimuovi il contenuto senza valore

Quando una parte significativa del contenuto di un sito Web è di bassa qualità, obsoleta o duplicata, distoglie i crawler dalla visita di contenuti nuovi o aggiornati di recente e contribuisce a gonfiare l'indice.

Il modo più rapido per iniziare a ripulire è controllare il rapporto sulle pagine di Google Search Console per l'esclusione "Scansionato – attualmente non indicizzato".

Nell'esempio fornito, cerca i modelli di cartelle o altri segnali di problema. Per quelli che trovi, correggi il problema unendo contenuti simili con un reindirizzamento 301 o eliminando i contenuti con un 404 a seconda dei casi.

3. Indica a Googlebot cosa non eseguire la scansione

Mentre i link rel=canonical e i tag noindex sono efficaci nel mantenere pulito l'indice di Google del tuo sito web, ti costano la scansione.

Sebbene a volte ciò sia necessario, considera innanzitutto se tali pagine devono essere sottoposte a scansione. In caso contrario, interrompi Google nella fase di scansione con un disallow robot.txt.

Trova i casi in cui bloccare il crawler potrebbe essere meglio che dare istruzioni sull'indicizzazione cercando nel rapporto sulla copertura di Google Search Console le esclusioni dai tag canonicals o noindex.

Inoltre, esamina l'esempio di URL "Indicizzati, non inviati nella mappa del sito" e "Scoperti - attualmente non indicizzati" in Google Search Console. Trova e blocca percorsi rilevanti non SEO come:

  • Pagine di parametri, come ?sort=oldest.
  • Pagine funzionali, come "carrello della spesa".
  • Spazi infiniti, come quelli creati dalle pagine del calendario.
  • Immagini, script o file di stile non importanti.
  • URL dell'API.

Dovresti anche considerare come la tua strategia di impaginazione influisce sulla scansione.

4. Indica a Googlebot cosa eseguire la scansione e quando

Una sitemap XML ottimizzata è uno strumento efficace per guidare Googlebot verso URL rilevanti per la SEO.

Ottimizzato significa che si aggiorna dinamicamente con un ritardo minimo e include la data e l'ora dell'ultima modifica per informare i motori di ricerca quando la pagina è stata modificata in modo significativo l'ultima volta e se deve essere nuovamente scansionata.

5. Supporto per la scansione tramite collegamenti interni

Sappiamo che la scansione può avvenire solo tramite link. Le sitemap XML sono un ottimo punto di partenza; i collegamenti esterni sono potenti ma difficili da costruire in massa con qualità.

I collegamenti interni, d'altra parte, sono relativamente facili da scalare e hanno un impatto positivo significativo sull'efficacia della scansione.

Concentra particolare attenzione sulla navigazione in tutto il sito per dispositivi mobili, breadcrumb, filtri rapidi e collegamenti ai contenuti correlati, assicurandoti che nessuno dipenda da Javascript.

Ottimizza la scansione del Web

Spero che tu sia d'accordo: il crawling del sito web è fondamentale per la SEO.

E ora disponi di un vero KPI nell'efficacia della scansione per misurare le ottimizzazioni, in modo da poter portare le tue prestazioni organiche a un livello superiore.

Altre risorse:

Immagine di presentazione: BestForBest/Shutterstock

Come ho costruito il mio primo sito web: il blog
Il nuovo gesto di ricerca basato sull'intelligenza artificiale per Android
TikTok guadagna terreno come motore di ricerca tra la generazione Z [STUDY]
10 problemi SEO che non sapevi di avere: come risolverli
I brevi video stanno ridefinendo il marketing
10 best practice per la ricerca a pagamento e la pianificazione PPC
Query Deserves Ads
Google apparently ranks Reddit posts within minutes
Che cos'è il Fluid Design e come viene utilizzato sui siti Web?
Link Building

Link Building come parte della tua strategia di marketing può portare a risultati rivoluzionari. Seowebsite è specializzato nel Link Building e aiuta gli imprenditori a realizzare un forte profilo di link che contribuisce alla crescita online. Possiamo supportarvi anche in questo?