John Mueller di Google ha risposto se la rimozione di pagine da un sito di grandi dimensioni aiuta a risolvere il problema delle pagine scoperte da Google ma non sottoposte a scansione. John ha offerto approfondimenti generali su come risolvere questo problema.
Scoperto – Attualmente non indicizzato
Search Console un servizio fornito da Google che comunica problemi e feedback relativi alla ricerca.
Lo stato dell'indicizzazione è una parte importante della console di ricerca perché indica a un editore quanto di un sito è indicizzato e idoneo per il posizionamento.
Lo stato di indicizzazione delle pagine Web si trova nel rapporto sull'indicizzazione delle pagine della console di ricerca.
Una segnalazione secondo cui una pagina è stata scoperta da Google ma non indicizzata è spesso un segnale che un problema deve essere risolto.
Esistono diversi motivi per cui Google può scoprire una pagina ma rifiutarsi di indicizzarla, sebbene la documentazione ufficiale di Google elenchi solo un motivo.
“Scoperto – attualmente non indicizzato
La pagina è stata trovata da Google, ma non ancora sottoposta a scansione.In genere, Google voleva eseguire la scansione dell'URL, ma ciò avrebbe dovuto sovraccaricare il sito; pertanto Google ha riprogrammato la scansione.
Questo è il motivo per cui la data dell'ultima scansione è vuota nel report."
John Mueller di Google offre ulteriori motivi per cui una pagina verrebbe scoperta ma non indicizzata.
Deindicizzazione delle pagine non indicizzate per migliorare l'indicizzazione in tutto il sito?
C'è un'idea secondo cui la rimozione di determinate pagine aiuterà Google a eseguire la scansione del resto del sito dandogli meno pagine da scansionare.
Si ritiene che Google abbia una capacità di scansione limitata (crawl budget) assegnata a ogni sito.
I googler hanno ripetutamente affermato che non esiste un crawl budget nel modo in cui lo percepiscono i SEO.
Google ha una serie di considerazioni sul numero di pagine da scansionare, inclusa la capacità del server del sito web di gestire una scansione estesa.
Un motivo alla base del motivo per cui Google è esigente su quanto esegue la scansione è che Google non ha una capacità sufficiente per archiviare ogni singola pagina Web su Internet.
Ecco perché Google tende a indicizzare pagine che hanno un certo valore (se il server è in grado di gestirlo) ea non indicizzare altre pagine.
Per ulteriori informazioni su Crawl Budget leggi: Google condivide informazioni dettagliate su Crawl Budget
Questa è la domanda che è stata posta:
"La deindicizzazione e l'aggregazione di 8 milioni di prodotti usati in 2 milioni di pagine di prodotti indicizzabili univoche contribuirebbe a migliorare la scansione e l'indicizzabilità (scoperto - problema attualmente non indicizzato)?"
John Mueller di Google ha prima riconosciuto che non era possibile affrontare il problema specifico della persona, quindi ha offerto raccomandazioni generali.
Ha risposto:
“È impossibile dirlo.
Consiglierei di rivedere la guida del sito di grandi dimensioni per il crawl budget nella nostra documentazione.
Per i siti di grandi dimensioni, a volte la scansione di più è limitata dal modo in cui il tuo sito web può gestire più scansione.
Nella maggior parte dei casi, tuttavia, si tratta più della qualità complessiva del sito web.
Stai migliorando in modo significativo la qualità complessiva del tuo sito web passando da 8 milioni di pagine a 2 milioni di pagine?
A meno che non ci si concentri sul miglioramento della qualità effettiva, è facile dedicare molto tempo alla riduzione del numero di pagine indicizzabili, ma non a migliorare effettivamente il sito Web e ciò non migliorerebbe le cose per la ricerca.
Mueller offre due ragioni per il problema scoperto non indicizzato
John Mueller di Google ha offerto due motivi per cui Google potrebbe scoprire una pagina ma rifiutarsi di indicizzarla.
1. Capacità del server
Mueller ha affermato che la capacità di Google di eseguire la scansione e l'indicizzazione delle pagine Web può essere "limitata dal modo in cui il tuo sito Web può gestire più scansione".
Più grande è un sito web, più bot sono necessari per eseguire la scansione di un sito web. Ad aggravare il problema è che Google non è l'unico bot che esegue la scansione di un sito di grandi dimensioni.
Esistono altri bot legittimi, ad esempio di Microsoft e Apple, che stanno anche tentando di eseguire la scansione del sito. Inoltre ci sono molti altri bot, alcuni legittimi e altri legati all'hacking e al data scraping.
Ciò significa che per un sito di grandi dimensioni, specialmente nelle ore serali, possono esserci migliaia di bot che utilizzano le risorse del server del sito Web per eseguire la scansione di un sito Web di grandi dimensioni.
Ecco perché una delle prime domande che pongo a un editore con problemi di indicizzazione è lo stato del suo server.
In generale, un sito Web con milioni di pagine, o addirittura centinaia di migliaia di pagine, avrà bisogno di un server dedicato o di un host cloud (perché i server cloud offrono risorse scalabili come larghezza di banda, GPU e RAM).
A volte un ambiente di hosting potrebbe richiedere più memoria assegnata a un processo, come il limite di memoria PHP, per aiutare il server a far fronte a un traffico elevato e prevenire 500 messaggi di risposta di errore.
La risoluzione dei problemi dei server implica l'analisi di un registro degli errori del server.
2. Qualità generale del sito web
Questo è un motivo interessante per non indicizzare abbastanza pagine. La qualità complessiva del sito è come un punteggio o una determinazione che Google assegna a un sito web.
Parti di un sito Web possono influire sulla qualità complessiva del sito
John Mueller ha affermato che una sezione di un sito Web può influire sulla determinazione complessiva della qualità del sito.
Meller ha detto:
“... per alcune cose, guardiamo alla qualità del sito in generale.
E quando guardiamo alla qualità complessiva del sito, se hai porzioni significative di qualità inferiore, non importa per noi perché sarebbero di qualità inferiore.
…se vediamo che ci sono parti significative di qualità inferiore, allora potremmo pensare che nel complesso questo sito web non sia così fantastico come pensavamo.”
Definizione di qualità del sito
John Mueller di Google ha offerto una definizione di qualità del sito in un altro video di Office Hours:
“Quando si tratta della qualità del contenuto, non intendiamo solo il testo dei tuoi articoli.
È davvero la qualità del tuo sito web in generale.
E questo include tutto, dal layout al design.
Ad esempio, come hai presentato le cose sulle tue pagine, come integri le immagini, come lavori con velocità, tutti quei fattori che entrano in gioco lì.
Quanto tempo ci vuole per determinare la qualità complessiva del sito
Un altro fatto su come Google determina la qualità del sito è il tempo impiegato da Google per determinare la qualità del sito, possono essere necessari mesi.
Meller ha detto:
“Ci vuole molto tempo per capire come un sito web si inserisce rispetto al resto di Internet.
…E questo è qualcosa che può richiedere facilmente, non so, un paio di mesi, mezzo anno, a volte anche più di mezzo anno…”
Ottimizzazione di un sito per la scansione e l'indicizzazione
L'ottimizzazione di un intero sito o di una sezione di un sito è una sorta di modo generale di alto livello per esaminare il problema. Spesso si tratta di ottimizzare le singole pagine su base scalata.
In particolare per i siti di e-commerce con migliaia di milioni di prodotti, l'ottimizzazione può assumere diverse forme.
Cose a cui prestare attenzione:
Menu principale
Assicurati che il menu principale sia ottimizzato per portare gli utenti alle sezioni importanti del sito a cui la maggior parte degli utenti è interessata. Il menu principale può anche collegarsi alle pagine più popolari.
Collegamento a sezioni e pagine popolari
Le pagine e le sezioni più popolari possono anche essere collegate da una sezione prominente della home page.
Questo aiuta gli utenti a raggiungere le pagine e le sezioni che contano di più per loro, ma segnala anche a Google che si tratta di pagine importanti che dovrebbero essere indicizzate.
Migliora le pagine con contenuti sottili
I contenuti sottili sono fondamentalmente pagine con poco contenuto utile o pagine che sono per lo più duplicati di altre pagine (contenuto basato su modelli).
Non basta riempire le pagine di parole. Le parole e le frasi devono avere significato e rilevanza per i visitatori del sito.
Per i prodotti possono essere misure, peso, colori disponibili, suggerimenti di altri prodotti da abbinare, marchi con cui i prodotti funzionano meglio, collegamenti a manuali, domande frequenti, valutazioni e altre informazioni che gli utenti troveranno utili.
Risoluzione della scansione non indicizzata per ulteriori vendite online
In un negozio fisico sembra che basti solo mettere i prodotti sugli scaffali.
Ma la realtà è che spesso ci vogliono venditori esperti per far volare quei prodotti dagli scaffali.
Una pagina web può svolgere il ruolo di un venditore esperto che può comunicare a Google perché la pagina dovrebbe essere indicizzata e aiutare i clienti a scegliere quei prodotti.
Guarda l'orario di ufficio SEO di Google al minuto 13:41: