Per quale motivo Google assegna un crawl budget ad un sito web?
Il motivo per il quale Google assegna un crawl budget ad un sito web è subito spiegato: i crawler di Google, o Google bot, non hanno risorse inesauribili e quindi devono suddividere le loro forze, la loro attenzione su milioni di website.
Per fare questo hanno bisogno di una guida che gli permetta di dare priorità ai loro sforzi durante la scansione e, tale assegnazione, li aiuta in questo compito.
Come viene assegnato il crawl budget?
Come abbiamo scritto all’inizio di questo articolo, il crawl budget si basa su due semplici fattori:
- limite di scansione: quanto crawling può gestire un sito web e quali sono le preferenze del proprietario del dominio
- domanda di scansione: detta anche pianificazione della scansione, ovvero quali URL del sito web meritano di essere nuovamente scansionati in base alla loro popolarità ed alla frequenza con la quale vengono aggiornati.
E’ molto importante sapere che, spesso, si parla di pagine del sito, ma, in realtà, è sottoposto a crawl budget qualsiasi documento, come ad esempio, PDF, file JavaScript, CSS ecc che Google scansiona tramite i suoi bot.
Come funziona il limite di scansione?
Il limite di scansione, detto anche carico dell’host, è fondamentale per il crawl budget. I Googlebot sono costruiti e progettati per non sovraccaricare il server web con molte richieste.
Ma in che modo i motori di ricerca scelgono il limite di scannerizzazione di un sito?
Esistono più componenti che vanno ad influenzare questo fattore, come per esempio:
- se per caso gli URL richiesti restituiscono errori da parte del server o entrano in timeout, è il significato di una piattaforma in cattive condizioni.
- se il sito web è appoggiato ad una piattaforma di hosting condiviso con molti altri siti web, il limite di scansione potrebbe essere molto limitato in quanto, il tempo di permanenza del Googlebot dovrà essere condiviso con altri siti che vengono ospitati dallo stesso host.
Se hai un sito importante, piuttosto grande, la soluzione potrebbe essere appoggiarsi ad un server dedicato che ridurrà anche i tempi di caricamento per gli utenti. - se hai un sito che prevede, sul medesimo host, la separazione tra mobile e desktop il crawl budget, quindi il tempo di permanenza dei Googlebot per la scansione del tuo sito, sarà condiviso sui due “progetti”.
Come funziona la domanda di scansione?
La richiesta di scansione è il fattore che determina il valore con il quale effettuata la ripetizione della scannerizzazione degli URL.
Anche in questo caso, esistono più componenti che vanno ad influenzare la domanda di crawling:
- la popolarità della URL, ovvero quanti link interni ed esterni ha, ma anche la quantità delle query per la quale è posizionato.
- la periodicità con la quale la URL viene aggiornata.
- la frequenza con la quale si effettuano cambiamenti sulla pagina. Per fare un esempio concreto, una pagina di categoria prodotti è più esposta a cambiamenti rispetto alla pagina “termini di reso”.
Perchè è importante il crawl budget?
Il crawl budget è fondamentale in quanto, ognuno di noi, quindi anche tu, hai il desiderio che Google trovi e comprenda il maggior numero possibile di pagine indicizzabili e hai la speranza che questo avvenga nel minor tempo possibile.
Prima le tue pagine verranno indicizzate e prima potrai trarne vantaggio.
Se sprechi il crawl budget, Google, non potrà mai eseguire la scansione del tuo sito in maniera efficiente in quanto perderà il suo tempo su pagine del sito che hanno poca rilevanza e questo potrebbe portare a non permettergli di scoprire le pagine più importanti del tuo sito web. Se Google non conosce queste pagine, non le scansiona e di conseguenza non le indicizzerà mai. Lo spreco di crawl budget non farà altro che danneggiare la SEO del tuo sito web.
Quale è il crawl budget del mio sito?
Vuoi conoscere il modo per il quale scoprire quale è il crawl budget per il tuo sito web? E’ molto semplice. Per prima cosa dovrai avere collegato il tuo sito alla GSC di Google e, una volta fatto questo, segui attentamente questi step:
- Accedi a Google Search Console e scegli il tuo sito web
- Vai a Scansione > Statistiche scansione e potrai vedere il numero esatto di pagine che Google scansiona al giorno per il tuo sito web.
Per capire quante pagine scansionerà al mese non dovrai fare altro che moltiplicare il numero delle pagine che Google scansiona attualmente al giorno e moltiplicarle per 30 giorni.
Come ottimizzare il mio crawl budget?
Per ottimizzare il tuo crawl budget per prima cosa devi assicurarti che questo non venga sprecato andando a risolvere tutti i problemi che ci sono all’interno del tuo sito.
Ecco alcuni esempi di fattori che porterebbero allo spreco di crawl budget:
Url accessibili con parametri
Quasi sempre, gli URL contenenti parametri non dovrebbero essere accessibili ai Googlebot, in quanto potrebbero generare una quantità pressochè illimitata di URL.
Questo tipo di URL è spesso usato quando vengono implementati i filtri di prodotto sui siti di e-commerce. Questo non significa che non dovrai più usarli, ma dovrai semplicemente escluderli dalla scansione del sito da parte di Google.
Per fare questo dovrai, utilizzando il file robots.txt, istruire i motori di ricerca a non accedere a tali URL. Aggiungi poi l’attributo nofollow ai collegamenti filtro.
Contenuto duplicato
Come prima regola, se non vuoi che i motori di ricerca trascorrano del tempo inutile sulle pagine di contenuti duplicati, dovresti ridurli al minimo sul tuo sito web.Per farlo potrai impostare i reindirizzamenti del tuo sito per tutte le varianti di dominio (HTTP, HTTPS, non WWW e WWW) e rendere le pagine dei risultati di ricerca interne inaccessibili ai motori di ricerca utilizzando il file robots.txt
Contenuti di bassa qualità
Le pagine con pochi contenuti non sono interessanti per Google.
Il nostro consiglio è quello di evitare pagine con contenuti poco interessanti oppure, nel caso in cui non sia possibile non averne, tenerne davvero poche.
Un esempio di contenuto di bassa qualità potrebbe essere la sezione delle domande e risposte, la FAQ, nella quale ogni domanda e risposta vengono pubblicate su un URL separato.
Collegamenti interrotti e reindirizzamento
Link interrotti ed enormi catene di reindirizzamenti sono vicoli ciechi per i Googlebot. Ad oggi, sembra che Google possa seguire un massimo di cinque reindirizzamenti concatenati in una scansione per poi, spesso, riprenderla in un secondo tempo.
È facilmente comprensibile che, correggendo i collegamenti interrotti e reindirizzandoli, si può, sin da subito, recuperare rapidamente il crawl budget.
Oltre a migliorare il crawl budget stai anche andando a migliorare l’esperienza utente al tuo sito web in questo modo in quanto, le catene di reindirizzamento tendono a rallentare il caricamento di una pagina.
Vai su Problemi > Collegamenti e potrai vedere se, a causa di collegamenti difettosi, stai buttando crawl budget per il tuo sito. Nel caso trovassi collegamenti danneggiati, difettosi, non dovrai fare altro che aggiornarli in modo che rimandino ad una pagina indicizzabile oppure, se il collegamento non è più necessario, dovrai semplicemente rimuoverlo.
URl errati nelle Sitemap XML
Una cosa molto intelligente, per ottimizzare il budget, è quella di dividere la tua sitemap XML in tante piccole sitemap, una per ogni sezione del tuo sito. In questa maniera potrai determinare rapidamente se esistono problemi all’interno delle sezioni del sito stesso.
Mettiamo, ad esempio che, la sitemap per la sezione A abbia al suo interno 100 collegamenti e, 80 di questi siano indicizzati. Questo ci farebbe dire che stiamo andando bene. La sitemap per la sezione B invece ha al suo interno 50 collegamenti e solamente 10 sono stati indicizzati: questo ci farebbe scattare un alert per andare a sistemare qualcosa, sicuramente. Con molta probabilità potremmo avere incluso parecchi URL non indicizzabili nella seconda sitemap.
Pagine lente a caricarsi
Un fattore al quale devi prestare molta attenzione è il tempo di caricamento delle pagine del sito: quando queste hanno tempi di caricamento elevati i motori di ricerca potranno visitare meno pagine nel loro crawl budget.
I tempi di caricamento della pagina superiori a due secondi sono un vero e proprio, enorme problema. Idealmente, la tua pagina dovrà essere caricata in meno di un secondo. Devi pertanto controllare regolarmente i tempi di caricamento delle pagine con tool come Pingdom, per citarne uno.
Google ci aiuta in questo senso segnalandoci il tempo di caricamento delle pagine del sito sia attraverso Google Analytics, aprendo Comportamento > Velocità del sito, sia attraverso la Google Search Console aprendo Scansione > Statistiche di scansione.
La Google Search Console ci segnala inoltre il timeout delle pagine andando in Scansione > Errori di scansione.
Questo è un passaggio molto importante, se non il più importante, pertanto, il nostro consiglio è quello di controllare regolarmente se le tue pagine si caricano velocemente e, in caso contrario, agisci immediatamente per ottimizzarle: un caricamento rapido delle pagine del tuo sito è vitale per il tuo successo online.
Pagine non indicizzabili
Se il tuo sito ha un numero alto di pagine non indicizzabili accessibili ai Googlebot, li stai tenendo occupati a lavorare su pagine non pertinenti. Queste pagine sono:
Reindirizzamenti (3xx)
Pagine che non possono essere trovate (4xx)
Pagine con errori del server (5xx)
Pagine che al loro interno hanno la direttiva robots noindex o l’URL canonico
Struttura dei link interni
Il collegamento delle pagine interne al tuo sito web sono estremamente importanti per una ottimizzazione del crawl budget.
Backlink a parte, quelle pagine che hanno pochi link interni o non ne hanno proprio, hanno meno attenzione da parte di Google rispetto a quelle pagine che ricevono collegamenti da altre pagine interne al nostro sito web.
Va pertanto evitato di avere pagine senza collegamenti interni in quanto potrebbero essere evitate dai motori di ricerca oppure scansionate con pochissima frequenza. Quindi, assicurati sempre che, le pagine più importanti del tuo sito web, contengano molti link interni per dar modo ai Googlebot di scansionarle con più facilità e in maniera più approfondita.
Se per caso, per fare un esempio, tu avessi un articolo del blog, magari anche datato, che però genera molto traffico organico, potrai tranquillamente collegare ad esso altri contenuti per poterlo continuare a tenere vivo.
Crawl Budget in sintesi
Il crawl budget non deve essere sottovalutato quando si ha un sito internet, pertanto, molto tempo, molte energie, dovranno essere spese per offrire ai motori di ricerca il miglior percorso da poter seguire. Un buon percorso non è fatto di ostacoli quindi dovremo evitare di farli trovare anche ai nostri amici crawler.
Il crawl budget aumenta se aumenta l’autorità del tuo sito web! Non sei sicuro e vorresti un aiuto da una agenzia SEO che possa aiutarti nell’aumento della tua autority agli occhi dei motori di ricerca? Contattaci e facciamo due parole per capire di cosa hai bisogno.
Potenzia il tuo sito web con una gestione efficace del crawl budget!
Mettici alla prova!
Affidati ai nostri professionisti per massimizzare l’efficienza del tuo sito web a Brescia e provincia! Compila il modulo qui a fianco per richiedere una consulenza personalizzata e ottenere risultati migliori sui motori di ricerca.
Oppure contattaci direttamente al 030 7993752, o inviaci un mail a info@zagcomunicazione.it
Lascia che i nostri specialisti ottimizzino l’indicizzazione del tuo sito per risultati SEO straordinari!