2026-05-27 di Staff Spiegamelo Facile 9 min di lettura sito non indicizzato Google

52 pagine sul sito, 2 indicizzate da Google: cosa è andato storto (e perché succede più spesso di quanto pensi)

In sintesi: 52 pagine pubblicate, solo 2 indicizzate da Google: analisi degli errori tecnici e strategici che bloccano la visibilità di un sito nei risultati di ricerca.

Un sito web con 52 pagine. Sei mesi di lavoro. E Google che ne conosce 2.

Non è una storia rara. È il caso di ratecalculator.xyz: calcolatori gratuiti per freelancer, dominio registrato per €1,02, sei mesi di sviluppo. Google Search Console mostrava 50 pagine su 52 come "escluse" dall'indice. Dopo gli interventi descritti in questo articolo, in otto settimane le pagine indicizzate sono passate da 2 a 14 — con un incremento del traffico organico del 340% sul periodo successivo. Quello che segue è l'analisi degli errori specifici che hanno bloccato quelle pagine, e le correzioni nell'ordine in cui hanno prodotto risultati.

L'indicizzazione Google funziona in tre fasi distinte: scansione (il crawler visita la pagina), elaborazione (Google interpreta il contenuto) e indicizzazione (la pagina entra nell'indice e può comparire nei risultati). Se una pagina non è indicizzata, per Google non esiste — e per i tuoi potenziali lettori nemmeno. Non conta quanto sia ben scritta, quanto sia utile, quanto tu abbia lavorato. Molti siti falliscono già alla prima fase. Capire dove si rompe il processo è il prerequisito per qualsiasi intervento utile.

Perché Google ignora le tue pagine

Google Search Console distingue due stati di esclusione che indicano problemi diversi. "Discovered — currently not indexed" significa che Google sa che la pagina esiste ma non l'ha ancora visitata: il sito ha poca autorità e il crawler non gli assegna risorse sufficienti. "Crawled — currently not indexed" significa che Google ci è passato sopra, ha letto il contenuto, e ha deciso di non inserirlo nell'indice. Il secondo stato è più grave: indica un problema qualitativo, non solo tecnico.

Nel caso di ratecalculator.xyz, Search Console mostrava 38 pagine in stato "Crawled — currently not indexed" e 12 in stato "Discovered — currently not indexed". Due cause distinte, due interventi distinti.

Il primo errore era strutturale: 52 pagine costruite con la stessa architettura di calcolatore, con differenze minime tra una e l'altra. Dal punto di vista di Google, contenuti quasi-duplicati. Di fronte a cinquanta pagine che si assomigliano, Google ne seleziona alcune che ritiene rappresentative — questo comportamento è documentato nelle linee guida per i Quality Rater e nei rapporti di Google Search Central — e ignora le altre. Non le penalizza: le considera ridondanti. La distinzione è importante perché cambia l'intervento: non c'era nulla di sbagliato nelle singole pagine, era la loro somiglianza reciproca il problema. È come se andassi in un ristorante con ottanta piatti tutti variazioni di pasta al pomodoro: a un certo punto smetti di leggere il menù.

Il problema del contenuto sottile: quando "utile" non basta

Il thin content non è contenuto sbagliato: è contenuto che, dal punto di vista di Google, non aggiunge valore differenziato rispetto a ciò che già esiste sul web.

Ogni pagina di ratecalculator.xyz aveva la stessa struttura: un form con input numerici, un risultato calcolato, poche righe di spiegazione. Dal punto di vista dell'utente, probabilmente utile. Dal punto di vista di Google: cinquanta pagine con struttura identica, testo minimo, nessuna differenziazione reale. Il crawler non trova nulla che giustifichi l'indicizzazione di ciascuna pagina come entità separata.

Le Quality Rater Guidelines di Google — il documento pubblico che descrive i criteri con cui i valutatori umani giudicano la qualità delle pagine — stabiliscono che una pagina deve avere un "purpose" dimostrabile e offrire un'esperienza significativamente migliore rispetto a ciò che già esiste. Il punto operativo è questo: aggiungere contesto editoriale, casi d'uso concreti, domande frequenti e comparazioni intorno a un calcolatore trasforma la pagina da contenitore di uno strumento a risorsa su un argomento. È questa differenza che determina se Google considera la pagina indicizzabile o ridondante.

Un approfondimento su come strutturare contenuti che supportano la visibilità è disponibile nell'articolo su visibilità online e conversioni reali.

Il crawl budget: come funziona e dove si spreca

Il crawl budget è la quantità di risorse che Googlebot dedica alla scansione di un sito in un determinato periodo. Per un sito da 52 pagine sembra irrilevante — ma è esattamente qui che molti progetti piccoli si perdono, per una ragione specifica: non è la quantità assoluta di risorse il problema, ma come vengono distribuite.

Se un sito genera parametri URL non canonicalizzati — pagina.html?ref=home, pagina.html?utm_source=newsletter, pagina.html?sort=asc sono la stessa pagina con URL diversi — il crawler le visita tutte come pagine separate. Nel caso di ratecalculator.xyz, la struttura delle URL dei calcolatori generava varianti parametriche che moltiplicavano il numero di pagine percepite dal bot: un sito da 52 pagine reali appariva al crawler come un sito da oltre 200 URL distinti, la maggior parte dei quali identici nel contenuto. Il risultato era che il budget veniva esaurito su duplicati tecnici senza mai raggiungere le pagine che contano.

La soluzione tecnica è il tag canonical: una riga nell'intestazione HTML che indica a Google qual è la versione ufficiale di una pagina, istruendolo a ignorare le varianti. La sua assenza, in presenza di parametri URL, si traduce in scansioni sprecate su duplicati — e pagine reali che il crawler non raggiunge mai. Tra parentesi: questa è una di quelle cose che nessuno ti dice quando compri un dominio per €1,02. Il dominio è economico; il costo nascosto è il tempo che perdi a capire perché il sito non appare da nessuna parte.

Autorità del dominio e link interni: i segnali che orientano il crawler

L'autorità del dominio riflette la credibilità complessiva di un sito agli occhi di Google, costruita principalmente attraverso i backlink — i link che altri siti fanno verso il tuo. Un dominio nuovo senza backlink riceve un crawl budget minimo e viene valutato con più cautela: Google non ha segnali esterni che confermino la qualità del contenuto, quindi indicizza con parsimonia.

ratecalculator.xyz aveva autorità di dominio pari a zero: nessun sito esterno linkava a quel dominio. In questa condizione, ogni spreco di crawl budget — come i parametri URL non canonicalizzati descritti sopra — ha un impatto proporzionalmente maggiore rispetto a un sito con backlink consolidati.

La struttura dei link interni è il secondo segnale che Google usa per capire cosa è importante all'interno di un sito. Se tutte le 52 pagine sono allo stesso livello gerarchico, senza una pagina principale che le aggreghi, Google non ha modo di identificare quale sia la risorsa centrale su ciascun tema. La struttura hub-and-spoke risolve questo problema: una pagina principale introduce e raccoglie un tema, con link verso le pagine di approfondimento, che a loro volta linkano all'hub. Questa architettura concentra il crawl budget sulle pagine prioritarie anziché distribuirlo in modo uniforme su tutte. Chi lavora su questo in modo sistematico lo fa spesso nell'ottica del funnel di contenuto — le pagine devono parlarsi tra loro e guidare il lettore verso un'azione.

Come correggere l'indicizzazione: interventi per priorità

Il punto di partenza è Google Search Console, gratuita e accessibile dopo la verifica della proprietà del sito. Il rapporto "Copertura" mostra la distinzione tra pagine indicizzate, escluse e con errori, con la causa specifica per ciascuno stato. Senza questi dati, qualsiasi intervento è arbitrario.

Per un sito con la struttura di ratecalculator.xyz, la sequenza di intervento segue questa priorità:

1. Risolvere i duplicati tecnici. Implementare il tag canonical su tutte le pagine con parametri URL variabili. Questo interrompe lo spreco di crawl budget e riduce il numero di URL che il bot deve processare. Nel caso specifico, ha ridotto gli URL percepiti da oltre 200 a 52. È l'intervento con il rapporto impatto/sforzo più favorevole e produce effetti visibili in Search Console entro due o tre settimane.

2. Consolidare le pagine quasi-duplicate. Identificare quali pagine hanno valore reale e differenziato. Per quelle che sono variazioni minime di altre, applicare il noindex o il canonical verso la versione principale — senza cancellarle, ma riducendo la pressione sull'indice. Nel caso di ratecalculator.xyz, questo ha significato passare da 52 a 15 pagine candidate all'indicizzazione.

3. Arricchire le pagine prioritarie. Per ogni pagina da indicizzare, aggiungere contenuto editoriale che la differenzi: il contesto dell'argomento, i casi d'uso tipici, le domande che l'utente si fa prima e dopo aver usato lo strumento, esempi numerici concreti. Per ratecalculator.xyz, questo ha significato portare ogni pagina da circa 80 parole a 400-600, con sezioni strutturate per tipo di utilizzo.

4. Costruire la struttura hub-and-spoke. Creare pagine hub tematiche che aggreghino i calcolatori per categoria, con link interni coerenti in entrambe le direzioni. Questo orienta il crawler e segnala la gerarchia dei contenuti.

5. Costruire i primi backlink con un approccio mirato. Per un dominio nuovo, due o tre link da siti pertinenti sono sufficienti per modificare il segnale di autorità iniziale. Gli approcci con il miglior rendimento in fase di avvio sono tre: guest post su blog di settore con audience sovrapponibile alla tua, inserimento in directory tematiche autorevoli (non directory generiche), e menzioni su forum o community dove il tuo strumento risponde a domande reali già poste dagli utenti. Non serve una strategia strutturata da subito — serve interrompere lo zero assoluto di segnali esterni.

Sui tempi: dopo le modifiche tecniche, Google può impiegare settimane prima di rivalutare le pagine. La funzione "Richiesta di indicizzazione" in Search Console accelera il processo per singole pagine prioritarie, ma non sostituisce il lavoro strutturale. Nel caso di ratecalculator.xyz, le prime 6 pagine sono apparse nell'indice 23 giorni dopo l'implementazione del canonical; le restanti 8 nel corso delle cinque settimane successive.

Il problema di ratecalculator.xyz non era un bug né una penalizzazione. Era una combinazione di scelte architetturali ragionevoli, prese senza conoscere come Google le avrebbe interpretate: parametri URL non gestiti, contenuti strutturalmente simili, assenza di gerarchia interna, dominio senza autorità esterna. Ciascuno di questi fattori, da solo, avrebbe rallentato l'indicizzazione. Insieme, l'hanno bloccata quasi completamente. Risolverli nell'ordine giusto — prima i duplicati tecnici, poi il consolidamento, poi l'arricchimento dei contenuti — è quello che ha sbloccato 12 delle 14 pagine ora indicizzate. Le altre due sono ancora in attesa: la costruzione dell'autorità esterna richiede più tempo degli interventi tecnici, e non esiste scorciatoia per questo.

Ennio Flaiano scriveva che in Italia la linea più breve tra due punti è l'arabesco. Su Google è uguale: pensi di stare costruendo la strada più diretta verso i tuoi utenti, e invece stai costruendo un labirinto che il crawler abbandona al secondo corridoio. La buona notizia è che il labirinto si può ridisegnare — ma bisogna prima capire che di labirinto si tratta.

Domande Frequenti

Cosa significa che una pagina non è indicizzata da Google?

Una pagina non indicizzata è una pagina che Google ha scelto di non inserire nel suo indice di ricerca, il database da cui vengono estratti i risultati che vedi quando fai una ricerca. Se una pagina non è nell'indice, non può comparire nei risultati — indipendentemente da quanto sia utile o ben scritta. Le cause principali sono tre: problemi tecnici che impediscono la scansione (come un file robots.txt restrittivo o errori del server), contenuto considerato insufficiente o duplicato rispetto ad altre pagine, oppure bassa autorità del dominio che riduce il crawl budget assegnato al sito. Google Search Console, lo strumento gratuito di Google per i webmaster, mostra lo stato di indicizzazione di ogni pagina con una spiegazione del motivo dell'esclusione.

Cos'è il crawl budget e perché influisce sull'indicizzazione?

Il crawl budget è la quantità di risorse che Googlebot dedica alla scansione di un sito in un dato periodo. Google non ha risorse infinite: decide quante pagine visitare in base all'autorità del dominio, alla velocità del server e alla qualità percepita del sito. Se un sito spreca il crawl budget su pagine duplicate, URL con parametri non canonicalizzati o pagine di scarso valore, il crawler non arriva mai alle pagine importanti. Per i siti con poche decine di pagine il problema sembra irrilevante, ma diventa critico quando la struttura genera decine di varianti URL per la stessa pagina o quando il dominio è nuovo e ha un budget iniziale molto limitato. La soluzione tecnica principale è l'uso corretto del tag canonical e di un file sitemap.xml aggiornato.

Quante pagine di un sito vengono normalmente indicizzate da Google?

Non esiste una percentuale standard: dipende dall'autorità del dominio, dalla qualità dei contenuti e dalla struttura tecnica del sito. Secondo i dati Ahrefs del 2023, oltre il 96% delle pagine web non riceve traffico organico da Google, il che include sia pagine non indicizzate sia pagine indicizzate ma non abbastanza in alto da ricevere clic. Per i siti nuovi con domini senza backlink, è normale che Google indicizzi inizialmente solo una piccola frazione delle pagine — spesso le pagine principali o la homepage — e ampli gradualmente l'indice man mano che il sito acquisisce autorità e segnali di qualità. Un sito da 52 pagine con zero backlink e contenuto quasi-duplicato può tranquillamente ritrovarsi con 2-3 pagine indicizzate nei primi mesi.

Come faccio a sapere quali pagine del mio sito sono indicizzate da Google?

Il modo più preciso è Google Search Console, lo strumento gratuito di Google che mostra lo stato di ogni pagina del sito. Dopo aver verificato la proprietà del sito, il rapporto 'Copertura' (o 'Indicizzazione pagine' nelle versioni più recenti) elenca le pagine indicizzate, quelle escluse e quelle con errori, con la spiegazione specifica per ogni stato. In alternativa, puoi fare una ricerca rapida su Google scrivendo 'site:tuodominio.com' nella barra di ricerca: i risultati mostrano le pagine che Google ha nell'indice, anche se non è un metodo completo come Search Console. Quest'ultimo rimane lo strumento di riferimento per diagnosticare problemi di indicizzazione in modo sistematico.

Cosa si intende per thin content e perché blocca l'indicizzazione?

Il thin content, o contenuto sottile, è contenuto che Google considera insufficiente per offrire valore agli utenti rispetto a ciò che già esiste sul web. Non significa contenuto sbagliato o fuorviante: significa contenuto che non differenzia abbastanza, che è troppo breve senza una ragione valida, o che replica strutture già presenti su molte altre pagine. Google penalizza o ignora il thin content perché il suo obiettivo è mostrare agli utenti le risposte migliori disponibili — se una pagina non è migliore di quello che c'è già, non ha senso inserirla nell'indice. Nel caso pratico dei calcolatori online, una pagina con solo un form e tre righe di testo è thin content: aggiungere contesto editoriale, casi d'uso, domande frequenti e approfondimenti trasforma la pagina da invisibile a indicizzabile.