
Indice dei contenuti
- 1 Definizione di Crawl Budget
- 2 Come capire se il tuo sito web ha un buon crawl budget?
- 3 I valori del crawl budget: come capire se sono “buoni”?
- 4 Il crawl budget secondo Google
- 5 Crawl Budget e Analisi dei log
- 6 Ottimizzazione del crawl budget, le 5 principali best practices per la SEO
- 7 Budget di scansione troppo elevato: come ridurlo?
Il crawl budget di Google è l’ammontare di “risorse” che un motore di ricerca destina alla scansione del tuo sito web. In pratica è un budget stabilito dallo spider di Google che rappresenta il numero di URL che il suo bot, chiamato Googlebot, è in grado (o è interessato) ad esplorare.
Maggiore sarà il volume di kilobyte scaricati, maggiore sarà l’apprezzamento di Google per il tuo lavoro e, ovviamente, per i tuoi contenuti. Ovviamente un valore elevato di risorse destinate da Google al tuo sito web non sempre corrisponde ad un risultato ottimale in termini di crawl budget e, in questa guida, ti spiego il perchè.
Definizione di Crawl Budget
Il crawl budget è il parametro che identifica il tempo e le risorse che Google intende dedicare al tuo sito web attraverso le scansioni del Googlebot. Anche se non è un valore univoco e numerico, come confermato dalle fonti ufficiali di Google, è possibile intervenire per ottimizzarlo.
Per il mondo SEO si tratta di un valore molto importante perché, assieme ad altri fattori, contribuisce a migliorare le performance e il rendimento dei siti web. Di conseguenza uno specialista SEO saprà mettere in atto strategie e accorgimenti per ottimizzarlo e, dunque, ottenere più attenzioni da parte del Googlebot.
Se il crawl budget è elevato significa che il tuo sito è considerato “interessante” agli occhi del motore di ricerca. Puoi utilizzare la Search Console per individuare dei grafici che mostrano quanti kilobyte vengono letti ogni giorno dal Googlebot, attraverso l’indicazione del rapporto tra il tuo progetto e il motore di ricerca.
Come capire se il tuo sito web ha un buon crawl budget?
A questo punto ti starai chiedendo se il tuo sito web piace a Google, giusto? Sono certo di aver stuzzicato la tua curiosità ed è per questo che ti spiegherò tutto quello che devi sapere.
Esistono diversi metodi per capire se il livello di crawl budget del tuo siti può considerarsi ottimale. Tra questi, uno dei più immediati da consultare è la Search Console di Google, lo strumento di monitoraggio delle performance di un sito web per eccellenza.
Alla voce delle Statistiche di Scansione, dopo aver cliccato su “Impostazioni”, verrai reindirizzato su una pagina dove trovi le statistiche di scansione degli ultimi 90 giorni e, quindi, potrai osservare i grafici di andamento del tempo che Googlebot trascorre scansionando il tuo sito web.
Sulla Search Console, quindi, potrai scoprire, nero su bianco, qual è il crawl budget che Google ha assegnato al tuo sito, ovvero la quantità di tempo e risorse che dedica alla scansione delle tue pagine.
Ti ricordo che più alto è questo valore, maggiore è l’importanza che il motore di ricerca attribuisce al tuo sito. Questo significa che se Google scansiona molte pagine ogni giorno, significa che apprezza i tuoi contenuti e li considera di qualità e valore. Diversamente, in corrispondenza di valori bassi, saprai che il tuo sito web non è molto “rilevante” per Google ed è per questo che dovrai affidarti ad un bravo consulente SEO freelance per migliorare la situazione.
I valori del crawl budget: come capire se sono “buoni”?
Quando arrivi sulla pagina delle Statistiche di Scansione (Impostazioni > Statistiche di Scansione) troverai dei grafici in corrispondenza di una serie di valori. I più importanti di cui tener conto sono due:
- Il numero di pagine sottoposte a scansione giornaliera: cioè le pagine che Google analizza quotidianamente assieme al tempo impiegato per procedere. In questo caso sarebbe ideale avere un valore superiore o uguale alle pagine che compongono il tuo sito web.
- Il tempo di download: cioè le risorse di tempo impiegate dal Bot per scansionare tutte le pagine. Questo valore dovrebbe essere basso, il che starebbe ad indicare che il sito web è veloce e che Google riesce a scaricare con facilità i contenuti presenti sulle pagine.
Il crawl budget secondo Google
l crawl budget, secondo Google, rappresenta il numero di URL che Googlebot può e desidera sottoporre a scansione. In pratica si riferisce all’equilibrio tra la velocità di scansione del sito da parte di Googlebot (basata sulla velocità del sito stesso) e la domanda degli utenti. L’obiettivo, in pratica, è quello di trovare il compromesso ottimale tra il desiderio di Google di eseguire la scansione completa del dominio senza sovraccaricare il server.
Ottimizzare il crawl budget può contribuire a migliorare il posizionamento proprio perché velocizza la scansione e la ottimizza. Tra l’altro una scansione più veloce e più frequente consente all’indice di rilevare più rapidamente gli aggiornamenti delle pagine e non solo.
Di conseguenza il crawl budget può anche essere definito come il numero di URL che il bot di Google intende scansionare per determinare quelle che, effettivamente, verranno analizzate e indicizzate. Da un punto di vista tecnico, quindi, si tratta di un valore determinato da:
- capacità di scansione (crawl rate)
- domanda di scansione (crawl demand)
Il crawl rate corrisponde al numero di richieste al secondo effettuate da uno spider verso un sito. La crawl demand, invece, è la frequenza con cui tali bot eseguono la scansione.
La velocità di scansione aumenta o diminuisce a seconda della salute del sito e del server. Se il sito risponde velocemente, il limite aumenta e Google utilizza più connessioni per la scansione. Al contrario, se la scansione è lenta o si verificano errori del server, il limite diminuisce.
Leggi anche: SEO On-Page: cos’è, a cosa serve e perché è importante per un sito web
Crawl Budget e Analisi dei log
I file “log” sono utili a guidare i bot nella scansione del sito. Sono insiemi di dati che fotografano cosa accade sul nostro sito web e sono importantissimi per un’ottimizzazione SEO fatta a regola d’arte.
Analizzare i log, in pratica, consiste nel capire quali sono le richieste d’accesso effettuate al server sul quale è ospitato il nostro sito web e contengono informazioni molto importanti.
In pratica sono file nei quali troviamo una serie di dati relativi ad ogni richiesta di accesso al nostro sito web tra cui figurano:
- Data e ora della richiesta
- User Agent
- URL richiesto
- Indirizzo IP dell’User Agent
- Status Code
- Grandezza della pagina richiesta
- Tempi di risposta del Server
A cosa servono tutte queste informazioni? Semplice: ad ottimizzare il crawl rate ed la crawl demand di cui ho parlato poco più su. Grazie all’analisi dei log, in sostanza, posso capire se il sito web viene scansionato da bot non dannosi e se i bot di Google, effettivamente, stiano scansionando o meno. Grazie all’analisi dei log posso impedire l’accesso ai bot inutili e alleggerire il lavoro del server che, così, andrà ad accogliere maggiori richieste dai bot utili, cioè da quelli di Google.
[L’esempio più classico che si fa per spiegare l’analisi dei log è il seguente: se il mio sito web non si rivolge al traffico di utenti russi non è necessario che sia scansionato da YanderBot (bot del motore di ricerca popolare in Russia), sei d’accordo?]
Ottimizzazione del crawl budget, le 5 principali best practices per la SEO
Per migliorare l budget di scansione possiamo adottare diverse strategie. Un fattore chiave da considerare è la qualità dei contenuti, poiché in genere Google preferisce eseguire la scansione di pagine di alta qualità. Per questo dovremo anche assicurarci che le pagine si carichino rapidamente, dal momento che il tempo di caricamento è un fattore che, più tra tutti, influenza il crawl budget. Possiamo anche ottimizzare le prestazioni del sito riducendo al minimo le risorse bloccanti, ottimizzando le immagini, utilizzando la memorizzazione nella cache e riducendo al minimo il codice superfluo.
Personalmente sconsiglio anche di evitare lunghe catene di reindirizzamento perché potrebbero rallentare la scansione del sito. Infine consiglio di verificare il tempo di risposta del server e quello necessario al rendering delle pagine perché, anche in questo caso, si corre il rischio di peggiorare i valori del crawl budget a causa di server lenti e caricamenti pesanti.
Da un punto di vista tecnico, infine, anche il file robots.txt è uno strumento molto utile per impedire la scansione di risorse o pagine specifiche ma va utilizzato in modo oculato. Ricapitolando, quindi, ecco le attività consigliate per ottimizzare il crawl budget di un sito web:
- Server veloce: va bene anche un server economico, l’importante è che abbia tempi di risposta rapidi.
- Struttura del sito: fluida, ottimizzata e chiara. Migliore è la struttura del sito e maggiori saranno i risultati di scansione del bot.
- Link interni: la presenza di link interni è fondamentale per chiarire la struttura del sito web al Googlebot.
- Contenuti duplicati cannibalizzazione: per evitare contenuti duplicati ci vuole un piano editoriale ad hoc ed una gestione attenta dell’uso delle keyword in relazione ai topic che andremo a trattare sul sito web.
- Ottimizzazione del file robots.txt: si tratta di un file di testo da inserire nella cartella root del sito web e che serve a comunicare con i motori di ricerca, similmente ai meta tag. Il robots.txt, tuttavia, serve a dare direttive sull’accesso del bot a determinate risorse e offre istruzioni dettagliate che lo stesso interpreterà come linee guida utili per scansionare il sito.
Budget di scansione troppo elevato: come ridurlo?
Il crawl budget può rivelarsi problematico quando è troppo elevato perché potrebbe portare ad un sovraccarico del server che rallenterebbe le prestazioni del sito. In questo caso occorre, innanzitutto, capire se il sito stia effettivamente avendo problemi di sovraccarico a causa delle eccessive richieste del bot di Google e poi procedere con la risoluzione delle criticità.
Si potrebbe pensare di segnalare a Google che il sito sia momentaneamente non disponibile, cioè impedire di effettuare ulteriori scansioni per un periodo di tempo limitato. In questo modo si può ridurre il budget ma bisogna stare attenti a dosare bene questa soluzione, rischiando di ridurre o de-indicizzare il sito web.
Il mio consiglio è quello di lasciar fare ad un esperto, evitando soluzioni problematiche che possano peggiorare la situazione.
L’argomento è molto più complesso di come l’ho spiegato io in questa guida, nella quale ho omesso gli aspetti più tecnici e da addetti ai lavori. Tuttavia se il funzionamento del crawl budget ti interessa e hai dubbi o domande su questo argomento, non esitare a scrivermi o a contattarmi. Sarò felice di risponderti.
Lascia un commento