Un sito web con 52 pagine. Sei mesi di lavoro. E Google che ne conosce 2.
Non è una storia rara. È il caso di ratecalculator.xyz: calcolatori gratuiti per freelancer, dominio registrato per €1,02, sei mesi di sviluppo. Google Search Console mostrava 50 pagine su 52 come "escluse" dall'indice. Dopo gli interventi descritti in questo articolo, in otto settimane le pagine indicizzate sono passate da 2 a 14 — con un incremento del traffico organico del 340% sul periodo successivo. Quello che segue è l'analisi degli errori specifici che hanno bloccato quelle pagine, e le correzioni nell'ordine in cui hanno prodotto risultati.
L'indicizzazione Google funziona in tre fasi distinte: scansione (il crawler visita la pagina), elaborazione (Google interpreta il contenuto) e indicizzazione (la pagina entra nell'indice e può comparire nei risultati). Se una pagina non è indicizzata, per Google non esiste — e per i tuoi potenziali lettori nemmeno. Non conta quanto sia ben scritta, quanto sia utile, quanto tu abbia lavorato. Molti siti falliscono già alla prima fase. Capire dove si rompe il processo è il prerequisito per qualsiasi intervento utile.
Perché Google ignora le tue pagine
Google Search Console distingue due stati di esclusione che indicano problemi diversi. "Discovered — currently not indexed" significa che Google sa che la pagina esiste ma non l'ha ancora visitata: il sito ha poca autorità e il crawler non gli assegna risorse sufficienti. "Crawled — currently not indexed" significa che Google ci è passato sopra, ha letto il contenuto, e ha deciso di non inserirlo nell'indice. Il secondo stato è più grave: indica un problema qualitativo, non solo tecnico.
Nel caso di ratecalculator.xyz, Search Console mostrava 38 pagine in stato "Crawled — currently not indexed" e 12 in stato "Discovered — currently not indexed". Due cause distinte, due interventi distinti.
Il primo errore era strutturale: 52 pagine costruite con la stessa architettura di calcolatore, con differenze minime tra una e l'altra. Dal punto di vista di Google, contenuti quasi-duplicati. Di fronte a cinquanta pagine che si assomigliano, Google ne seleziona alcune che ritiene rappresentative — questo comportamento è documentato nelle linee guida per i Quality Rater e nei rapporti di Google Search Central — e ignora le altre. Non le penalizza: le considera ridondanti. La distinzione è importante perché cambia l'intervento: non c'era nulla di sbagliato nelle singole pagine, era la loro somiglianza reciproca il problema. È come se andassi in un ristorante con ottanta piatti tutti variazioni di pasta al pomodoro: a un certo punto smetti di leggere il menù.
Il problema del contenuto sottile: quando "utile" non basta
Il thin content non è contenuto sbagliato: è contenuto che, dal punto di vista di Google, non aggiunge valore differenziato rispetto a ciò che già esiste sul web.
Ogni pagina di ratecalculator.xyz aveva la stessa struttura: un form con input numerici, un risultato calcolato, poche righe di spiegazione. Dal punto di vista dell'utente, probabilmente utile. Dal punto di vista di Google: cinquanta pagine con struttura identica, testo minimo, nessuna differenziazione reale. Il crawler non trova nulla che giustifichi l'indicizzazione di ciascuna pagina come entità separata.
Le Quality Rater Guidelines di Google — il documento pubblico che descrive i criteri con cui i valutatori umani giudicano la qualità delle pagine — stabiliscono che una pagina deve avere un "purpose" dimostrabile e offrire un'esperienza significativamente migliore rispetto a ciò che già esiste. Il punto operativo è questo: aggiungere contesto editoriale, casi d'uso concreti, domande frequenti e comparazioni intorno a un calcolatore trasforma la pagina da contenitore di uno strumento a risorsa su un argomento. È questa differenza che determina se Google considera la pagina indicizzabile o ridondante.
Un approfondimento su come strutturare contenuti che supportano la visibilità è disponibile nell'articolo su visibilità online e conversioni reali.
Il crawl budget: come funziona e dove si spreca
Il crawl budget è la quantità di risorse che Googlebot dedica alla scansione di un sito in un determinato periodo. Per un sito da 52 pagine sembra irrilevante — ma è esattamente qui che molti progetti piccoli si perdono, per una ragione specifica: non è la quantità assoluta di risorse il problema, ma come vengono distribuite.
Se un sito genera parametri URL non canonicalizzati — pagina.html?ref=home, pagina.html?utm_source=newsletter, pagina.html?sort=asc sono la stessa pagina con URL diversi — il crawler le visita tutte come pagine separate. Nel caso di ratecalculator.xyz, la struttura delle URL dei calcolatori generava varianti parametriche che moltiplicavano il numero di pagine percepite dal bot: un sito da 52 pagine reali appariva al crawler come un sito da oltre 200 URL distinti, la maggior parte dei quali identici nel contenuto. Il risultato era che il budget veniva esaurito su duplicati tecnici senza mai raggiungere le pagine che contano.
La soluzione tecnica è il tag canonical: una riga nell'intestazione HTML che indica a Google qual è la versione ufficiale di una pagina, istruendolo a ignorare le varianti. La sua assenza, in presenza di parametri URL, si traduce in scansioni sprecate su duplicati — e pagine reali che il crawler non raggiunge mai. Tra parentesi: questa è una di quelle cose che nessuno ti dice quando compri un dominio per €1,02. Il dominio è economico; il costo nascosto è il tempo che perdi a capire perché il sito non appare da nessuna parte.
Autorità del dominio e link interni: i segnali che orientano il crawler
L'autorità del dominio riflette la credibilità complessiva di un sito agli occhi di Google, costruita principalmente attraverso i backlink — i link che altri siti fanno verso il tuo. Un dominio nuovo senza backlink riceve un crawl budget minimo e viene valutato con più cautela: Google non ha segnali esterni che confermino la qualità del contenuto, quindi indicizza con parsimonia.
ratecalculator.xyz aveva autorità di dominio pari a zero: nessun sito esterno linkava a quel dominio. In questa condizione, ogni spreco di crawl budget — come i parametri URL non canonicalizzati descritti sopra — ha un impatto proporzionalmente maggiore rispetto a un sito con backlink consolidati.
La struttura dei link interni è il secondo segnale che Google usa per capire cosa è importante all'interno di un sito. Se tutte le 52 pagine sono allo stesso livello gerarchico, senza una pagina principale che le aggreghi, Google non ha modo di identificare quale sia la risorsa centrale su ciascun tema. La struttura hub-and-spoke risolve questo problema: una pagina principale introduce e raccoglie un tema, con link verso le pagine di approfondimento, che a loro volta linkano all'hub. Questa architettura concentra il crawl budget sulle pagine prioritarie anziché distribuirlo in modo uniforme su tutte. Chi lavora su questo in modo sistematico lo fa spesso nell'ottica del funnel di contenuto — le pagine devono parlarsi tra loro e guidare il lettore verso un'azione.
Come correggere l'indicizzazione: interventi per priorità
Il punto di partenza è Google Search Console, gratuita e accessibile dopo la verifica della proprietà del sito. Il rapporto "Copertura" mostra la distinzione tra pagine indicizzate, escluse e con errori, con la causa specifica per ciascuno stato. Senza questi dati, qualsiasi intervento è arbitrario.
Per un sito con la struttura di ratecalculator.xyz, la sequenza di intervento segue questa priorità:
1. Risolvere i duplicati tecnici. Implementare il tag canonical su tutte le pagine con parametri URL variabili. Questo interrompe lo spreco di crawl budget e riduce il numero di URL che il bot deve processare. Nel caso specifico, ha ridotto gli URL percepiti da oltre 200 a 52. È l'intervento con il rapporto impatto/sforzo più favorevole e produce effetti visibili in Search Console entro due o tre settimane.
2. Consolidare le pagine quasi-duplicate. Identificare quali pagine hanno valore reale e differenziato. Per quelle che sono variazioni minime di altre, applicare il noindex o il canonical verso la versione principale — senza cancellarle, ma riducendo la pressione sull'indice. Nel caso di ratecalculator.xyz, questo ha significato passare da 52 a 15 pagine candidate all'indicizzazione.
3. Arricchire le pagine prioritarie. Per ogni pagina da indicizzare, aggiungere contenuto editoriale che la differenzi: il contesto dell'argomento, i casi d'uso tipici, le domande che l'utente si fa prima e dopo aver usato lo strumento, esempi numerici concreti. Per ratecalculator.xyz, questo ha significato portare ogni pagina da circa 80 parole a 400-600, con sezioni strutturate per tipo di utilizzo.
4. Costruire la struttura hub-and-spoke. Creare pagine hub tematiche che aggreghino i calcolatori per categoria, con link interni coerenti in entrambe le direzioni. Questo orienta il crawler e segnala la gerarchia dei contenuti.
5. Costruire i primi backlink con un approccio mirato. Per un dominio nuovo, due o tre link da siti pertinenti sono sufficienti per modificare il segnale di autorità iniziale. Gli approcci con il miglior rendimento in fase di avvio sono tre: guest post su blog di settore con audience sovrapponibile alla tua, inserimento in directory tematiche autorevoli (non directory generiche), e menzioni su forum o community dove il tuo strumento risponde a domande reali già poste dagli utenti. Non serve una strategia strutturata da subito — serve interrompere lo zero assoluto di segnali esterni.
Sui tempi: dopo le modifiche tecniche, Google può impiegare settimane prima di rivalutare le pagine. La funzione "Richiesta di indicizzazione" in Search Console accelera il processo per singole pagine prioritarie, ma non sostituisce il lavoro strutturale. Nel caso di ratecalculator.xyz, le prime 6 pagine sono apparse nell'indice 23 giorni dopo l'implementazione del canonical; le restanti 8 nel corso delle cinque settimane successive.
Il problema di ratecalculator.xyz non era un bug né una penalizzazione. Era una combinazione di scelte architetturali ragionevoli, prese senza conoscere come Google le avrebbe interpretate: parametri URL non gestiti, contenuti strutturalmente simili, assenza di gerarchia interna, dominio senza autorità esterna. Ciascuno di questi fattori, da solo, avrebbe rallentato l'indicizzazione. Insieme, l'hanno bloccata quasi completamente. Risolverli nell'ordine giusto — prima i duplicati tecnici, poi il consolidamento, poi l'arricchimento dei contenuti — è quello che ha sbloccato 12 delle 14 pagine ora indicizzate. Le altre due sono ancora in attesa: la costruzione dell'autorità esterna richiede più tempo degli interventi tecnici, e non esiste scorciatoia per questo.
Ennio Flaiano scriveva che in Italia la linea più breve tra due punti è l'arabesco. Su Google è uguale: pensi di stare costruendo la strada più diretta verso i tuoi utenti, e invece stai costruendo un labirinto che il crawler abbandona al secondo corridoio. La buona notizia è che il labirinto si può ridisegnare — ma bisogna prima capire che di labirinto si tratta.