RAG (Retrieval-Augmented Generation) è una tecnica che migliora le risposte di un modello AI collegandolo a una base di dati esterna. Invece di affidarsi solo alla "memoria" del modello, il sistema prima cerca i documenti rilevanti, poi genera la risposta basandosi su quelli.

Come funziona

  1. Query: l'utente fa una domanda
  2. Retrieval: il sistema cerca documenti pertinenti nel database usando tecniche di ricerca semantica (non solo parole chiave, ma il significato della domanda)
  3. Augmentation: i documenti trovati vengono inseriti nel prompt insieme alla domanda originale
  4. Generation: il modello genera la risposta usando quei documenti come fonte diretta

La parte cruciale è il passaggio 2. Il sistema converte la domanda in un vettore numerico (embedding) e lo confronta con i vettori dei documenti nel database. I documenti più "vicini" matematicamente sono quelli più rilevanti. Questo processo si chiama ricerca vettoriale e avviene in millisecondi, anche su milioni di documenti.

Perché serve

Un LLM "puro" sa solo ciò su cui è stato addestrato. Ha una data di taglio: tutto quello che è successo dopo, non lo conosce. E soprattutto, non ha accesso ai tuoi dati aziendali — contratti, email, procedure interne, listini prezzi.

RAG risolve questi problemi senza dover ri-addestrare il modello (che costerebbe migliaia di euro e settimane di lavoro). Colleghi il modello ai tuoi documenti e lui li usa come fonte. Punto.

I vantaggi concreti:

  • Risposte aggiornate: il modello accede a dati freschi, non solo a quelli del training
  • Risposte verificabili: puoi risalire alla fonte esatta da cui è stata generata la risposta
  • Meno allucinazioni: con documenti reali come base, il modello inventa meno
  • Privacy: i tuoi dati restano nel tuo database, non vengono usati per addestrare il modello

Esempio pratico: lo studio commercialista

Immagina uno studio con 15 anni di circolari, risoluzioni, pareri e contratti archiviati. Un commercialista junior ha una domanda specifica su un caso di transfer pricing. Senza RAG, dovrebbe cercare manualmente tra migliaia di documenti.

Con un sistema RAG:

  1. Il junior scrive la domanda in linguaggio naturale nel chatbot interno
  2. Il sistema trova i 5-10 documenti più rilevanti nell'archivio dello studio
  3. Il modello AI genera una risposta citando i documenti specifici (circolare X del 2019, parere interno Y)
  4. Il junior verifica le fonti e ha risparmiato 2 ore di ricerca

Uso pratico per freelancer e PMI

  • Chatbot aziendali: rispondono ai clienti usando la documentazione interna, i manuali prodotto, le FAQ — senza inventare
  • Assistenti legali: cercano e citano articoli specifici del codice o clausole contrattuali
  • Knowledge base interne: i dipendenti cercano procedure, policy, best practice aziendali via chat
  • E-commerce: un chatbot che conosce tutto il catalogo prodotti e risponde a domande tecniche specifiche
  • Supporto tecnico: un assistente AI che cerca nei ticket risolti per suggerire soluzioni a problemi simili

RAG vs fine-tuning: quale scegliere

Il fine-tuning modifica il modello stesso, ri-addestrandolo con i tuoi dati. Il RAG lascia il modello com'è e gli passa i documenti al momento della domanda.

  • RAG: più economico, più veloce da implementare, dati sempre aggiornati. Ideale per la maggior parte dei casi d'uso aziendali.
  • Fine-tuning: serve quando vuoi cambiare il comportamento del modello (tono, stile, formato di output). Costa di più e richiede competenze tecniche.

Per un freelancer o una PMI, RAG è quasi sempre la scelta giusta. Il fine-tuning ha senso solo in casi molto specifici.

Strumenti per iniziare

Non serve essere programmatori per usare RAG. Strumenti come LlamaIndex, LangChain, e piattaforme no-code come Voiceflow o Stack AI permettono di creare sistemi RAG caricando semplicemente i tuoi documenti (PDF, Word, pagine web). In poche ore puoi avere un chatbot che risponde basandosi sui tuoi dati reali.