Il PageRank una volta era al centro della ricerca ed è stato ciò che ha reso Google l'impero che è oggi.
Anche se credi che la ricerca sia passata dal PageRank, non si può negare che è stato a lungo un concetto pervasivo nel settore.
Ogni professionista SEO dovrebbe avere una buona conoscenza di cosa fosse il PageRank e di cosa sia ancora oggi.
In questo articolo tratteremo:
- Cos'è il PageRank?
- La storia dell'evoluzione del PageRank.
- Come PageRank ha rivoluzionato la ricerca.
- PageRank della barra degli strumenti contro PageRank.
- Come funziona il PageRank.
- Come il PageRank scorre tra le pagine.
- Il PageRank è ancora utilizzato?
Immergiamoci.
Cos'è il PageRank?
Creato dai fondatori di Google Larry Page e Sergey Brin, PageRank è un algoritmo basato sui punti di forza relativi combinati di tutti i collegamenti ipertestuali su Internet.
La maggior parte delle persone sostiene che il nome fosse basato sul cognome di Larry Page, mentre altri suggeriscono che "Pagina" si riferisca a una pagina web. Entrambe le posizioni sono probabilmente vere e la sovrapposizione era probabilmente intenzionale.
Quando Page e Brin erano alla Stanford University, hanno scritto un articolo intitolato: The PageRank Citation Ranking: Bringing Order to the Web.
Pubblicato nel gennaio 1999, il documento dimostra un algoritmo relativamente semplice per valutare la forza delle pagine web.
Immagine da patents.google.com, aprile 2023
Il documento è diventato un brevetto negli Stati Uniti (ma non in Europa, dove le formule matematiche non sono brevettabili).
Immagine da patents.google.com, aprile 2023
La Stanford University possiede il brevetto e lo ha assegnato a Google. Il brevetto è attualmente in scadenza nel 2027.
Immagine da patents.google.com, aprile 2023
La storia dell'evoluzione del PageRank
Durante la loro permanenza a Stanford alla fine degli anni '90, sia Brin che Page stavano esaminando i metodi di recupero delle informazioni.
A quel tempo, utilizzare i collegamenti per capire quanto fosse "importante" ogni pagina rispetto a un'altra era un modo rivoluzionario per ordinare le pagine. Era computazionalmente difficile ma non impossibile.
L'idea si trasformò rapidamente in Google, che a quel tempo era un pesciolino nel mondo della ricerca.
C'era così tanta convinzione istituzionale nell'approccio di Google da parte di alcune parti che l'azienda ha inizialmente lanciato il suo motore di ricerca senza alcuna possibilità di guadagnare entrate.
E mentre Google (noto all'epoca come "BackRub") era il motore di ricerca, PageRank era l'algoritmo utilizzato per classificare le pagine nelle pagine dei risultati dei motori di ricerca (SERP).
Google Dance
Una delle sfide del PageRank era che la matematica, sebbene semplice, doveva essere elaborata in modo iterativo. Il calcolo viene eseguito più volte, su ogni pagina e ogni collegamento su Internet. All'inizio del millennio, questa matematica ha richiesto diversi giorni per essere elaborata.
Le SERP di Google si sono spostate su e giù durante quel periodo. Queste modifiche erano spesso irregolari, poiché venivano calcolati nuovi PageRank per ogni pagina.
Questo era noto come "Google Dance" e notoriamente bloccava i professionisti SEO del giorno sulle loro tracce ogni volta che Google avviava il suo aggiornamento mensile.
(Il Google Dance in seguito divenne il nome di una festa annuale che Google organizzava per esperti SEO presso la sua sede di Mountain View.)
Semi fidati
Una successiva iterazione del PageRank ha introdotto l'idea di un "seme attendibile" impostato per avviare l'algoritmo piuttosto che dare a ogni pagina su Internet lo stesso valore iniziale.
Surfista ragionevole
Un'altra iterazione del modello ha introdotto l'idea di un "navigatore ragionevole".
Questo modello suggerisce che il PageRank di una pagina potrebbe non essere condiviso in modo uniforme con le pagine a cui si collega, ma potrebbe ponderare il valore relativo di ciascun collegamento in base alla probabilità che un utente possa fare clic su di esso.
Il ritiro del PageRank
Inizialmente si riteneva che l'algoritmo di Google fosse “unspam-able” internamente poiché l'importanza di una pagina era dettata non solo dal suo contenuto ma anche da una sorta di “sistema di voto” generato dai link alla pagina.
Tuttavia, la fiducia di Google non è durata.
PageRank ha iniziato a diventare problematico con la crescita del settore dei backlink. Quindi Google lo ha ritirato dalla vista del pubblico, ma ha continuato a fare affidamento su di esso per i suoi algoritmi di ranking.
La PageRank Toolbar è stata ritirata nel 2016 e, alla fine, tutto l'accesso pubblico al PageRank è stato ridotto. Ma a questo punto, Majestic (uno strumento SEO), in particolare, era stato in grado di correlare abbastanza bene i propri calcoli con il PageRank.
Google ha trascorso molti anni a incoraggiare i professionisti SEO a non manipolare i collegamenti attraverso la sua documentazione "Linee guida di Google" e attraverso i consigli del suo team antispam, guidato da Matt Cutts, fino a gennaio 2017.
Anche gli algoritmi di Google stavano cambiando durante questo periodo.
L'azienda faceva meno affidamento sul PageRank e, in seguito all'acquisto di MetaWeb e del suo Knowledge Graph proprietario (chiamato “Freebase” nel 2014), Google ha iniziato a indicizzare le informazioni del mondo in modi diversi.
Toolbar PageRank vs. PageRank
Inizialmente Google era così orgoglioso del suo algoritmo che era felice di condividere pubblicamente il risultato del suo calcolo con chiunque volesse vederlo.
La rappresentazione più notevole era un'estensione della barra degli strumenti per browser come Firefox, che mostrava un punteggio compreso tra 0 e 10 per ogni pagina su Internet.
In verità, PageRank ha una gamma di punteggi molto più ampia, ma 0-10 ha dato ai professionisti SEO e ai consumatori un modo istantaneo per valutare l'importanza di qualsiasi pagina su Internet.
La PageRank Toolbar rendeva l'algoritmo estremamente visibile, il che comportava anche delle complicazioni. In particolare, significava che era chiaro che i collegamenti erano il modo più semplice per "ingannare" Google.
Maggiore è il numero di collegamenti (o, più precisamente, migliore è il collegamento), migliore è il posizionamento di una pagina nelle SERP di Google per qualsiasi parola chiave mirata.
Ciò significava che si era formato un mercato secondario, comprando e vendendo link valutati sul PageRank dell'URL in cui il link era stato venduto.
Questo problema è stato aggravato quando Yahoo ha lanciato uno strumento gratuito chiamato Yahoo Search Explorer, che ha permesso a chiunque di iniziare a trovare collegamenti in una determinata pagina.
Successivamente, due strumenti, Moz e Majestic, si sono basati sull'opzione gratuita costruendo i propri indici su Internet e valutando separatamente i collegamenti.
Come il PageRank ha rivoluzionato la ricerca
Altri motori di ricerca facevano molto affidamento sull'analisi del contenuto di ogni singola pagina. Questi metodi avevano poco per identificare la differenza tra una pagina influente e una scritta semplicemente con testo casuale (o manipolativo).
Ciò significava che i metodi di recupero di altri motori di ricerca erano estremamente facili da manipolare per i professionisti SEO.
L'algoritmo PageRank di Google, quindi, è stato rivoluzionario.
In combinazione con un concetto relativamente semplice di "nGrams" per aiutare a stabilire la pertinenza, Google ha trovato una formula vincente.
Ben presto ha superato i principali incumbent della giornata, come AltaVista e Inktomi (che alimentava MSN, tra gli altri).
Operando a livello di pagina, Google ha anche trovato una soluzione molto più scalabile rispetto all'approccio basato su "directory" adottato da Yahoo e successivamente da DMOZ, sebbene DMOZ (chiamato anche Open Directory Project) sia stato in grado di fornire a Google inizialmente un open-source directory a sé stante.
Come funziona il PageRank
La formula del PageRank si presenta in diverse forme, ma può essere spiegata in poche frasi.
Inizialmente, a ogni pagina su Internet viene assegnato un punteggio di PageRank stimato. Questo potrebbe essere qualsiasi numero. Storicamente, il PageRank veniva presentato al pubblico come un punteggio compreso tra 0 e 10, ma in pratica le stime non devono partire da questo intervallo.
Il PageRank per quella pagina viene quindi diviso per il numero di link fuori dalla pagina, risultando in una frazione più piccola.
Il PageRank viene quindi distribuito alle pagine collegate e lo stesso viene fatto per ogni altra pagina su Internet.
Quindi, per la successiva iterazione dell'algoritmo, la nuova stima del PageRank per ogni pagina è la somma di tutte le frazioni di pagine che si collegano a ciascuna pagina data.
La formula contiene anche un "fattore di smorzamento", che è stato descritto come la possibilità che una persona che naviga sul web smetta del tutto di navigare.
Prima che inizi ogni successiva iterazione dell'algoritmo, il nuovo PageRank proposto viene ridotto del fattore di smorzamento.
Questa metodologia viene ripetuta fino a quando i punteggi PageRank raggiungono un equilibrio stabile. I numeri risultanti sono stati quindi generalmente trasposti in un intervallo più riconoscibile da 0 a 10 per comodità.
Un modo per rappresentarlo matematicamente è:
Immagine dell'autore, aprile 2023
Dove:
- PR = PageRank nella successiva iterazione dell'algoritmo.
- d = fattore di smorzamento.
- j = il numero della pagina su Internet (se ogni pagina avesse un numero univoco).
- n=numero totale di pagine su Internet.
- i = l'iterazione dell'algoritmo (inizialmente impostato come 0).
La formula può anche essere espressa in forma Matrix.
Problemi e iterazioni alla formula
La formula ha alcune sfide.
Se una pagina non si collega a nessun'altra pagina, la formula non raggiungerà un equilibrio.
In questo caso, quindi, il PageRank verrebbe distribuito tra tutte le pagine di Internet. In questo modo, anche una pagina senza link in entrata potrebbe arrivare Alcuni PageRank – ma non si accumulerebbe abbastanza per essere significativo.
Un'altra sfida meno documentata è che le pagine più recenti, sebbene potenzialmente Di più importante delle pagine più vecchie, avrà un PageRank inferiore. Ciò significa che nel tempo i vecchi contenuti possono avere un PageRank sproporzionatamente alto.
Il tempo in cui una pagina è stata pubblicata non viene preso in considerazione nell'algoritmo.
Come il PageRank scorre tra le pagine
Se una pagina inizia con un valore di 5 e ha 10 collegamenti, a ogni pagina a cui si collega viene assegnato 0,5 PageRank (meno il fattore di smorzamento).
In questo modo, il PageRank scorre su Internet tra le iterazioni.
Quando le nuove pagine arrivano su Internet, iniziano con solo una piccola quantità di PageRank. Ma quando altre pagine iniziano a collegarsi a queste pagine, il loro PageRank aumenta nel tempo.
Il PageRank è ancora utilizzato?
Sebbene l'accesso pubblico al PageRank sia stato rimosso nel 2016, si ritiene che il punteggio sia ancora disponibile per gli ingegneri di ricerca all'interno di Google.
Una fuga di notizie sui fattori utilizzati da Yandex ha mostrato che il PageRank rimaneva un fattore che poteva utilizzare.
Gli ingegneri di Google hanno suggerito che la forma originale di PageRank è stata sostituita con una nuova approssimazione che richiede meno potenza di elaborazione per il calcolo. Sebbene la formula sia meno importante nel modo in cui Google classifica le pagine, rimane una costante per ogni pagina web.
E indipendentemente da quali altri algoritmi Google potrebbe scegliere di invocare, il PageRank probabilmente rimane incorporato in molti dei sistemi del gigante della ricerca fino ad oggi.
Dixon spiega come funziona PageRank in modo più dettagliato in questo video:
Brevetti e documenti originali per una lettura più approfondita:
Altre risorse:
Immagine di presentazione: VectorMine/Shutterstock