RAG (Retrieval-Augmented Generation) è una tecnica che migliora le risposte di un modello AI collegandolo a una base di dati esterna. Invece di affidarsi solo alla "memoria" del modello, il sistema prima cerca i documenti rilevanti, poi genera la risposta basandosi su quelli.
Come funziona
- Query: l'utente fa una domanda
- Retrieval: il sistema cerca documenti pertinenti nel database usando tecniche di ricerca semantica (non solo parole chiave, ma il significato della domanda)
- Augmentation: i documenti trovati vengono inseriti nel prompt insieme alla domanda originale
- Generation: il modello genera la risposta usando quei documenti come fonte diretta
La parte cruciale è il passaggio 2. Il sistema converte la domanda in un vettore numerico (embedding) e lo confronta con i vettori dei documenti nel database. I documenti più "vicini" matematicamente sono quelli più rilevanti. Questo processo si chiama ricerca vettoriale e avviene in millisecondi, anche su milioni di documenti.
Perché serve
Un LLM "puro" sa solo ciò su cui è stato addestrato. Ha una data di taglio: tutto quello che è successo dopo, non lo conosce. E soprattutto, non ha accesso ai tuoi dati aziendali — contratti, email, procedure interne, listini prezzi.
RAG risolve questi problemi senza dover ri-addestrare il modello (che costerebbe migliaia di euro e settimane di lavoro). Colleghi il modello ai tuoi documenti e lui li usa come fonte. Punto.
I vantaggi concreti:
- Risposte aggiornate: il modello accede a dati freschi, non solo a quelli del training
- Risposte verificabili: puoi risalire alla fonte esatta da cui è stata generata la risposta
- Meno allucinazioni: con documenti reali come base, il modello inventa meno
- Privacy: i tuoi dati restano nel tuo database, non vengono usati per addestrare il modello
Esempio pratico: lo studio commercialista
Immagina uno studio con 15 anni di circolari, risoluzioni, pareri e contratti archiviati. Un commercialista junior ha una domanda specifica su un caso di transfer pricing. Senza RAG, dovrebbe cercare manualmente tra migliaia di documenti.
Con un sistema RAG:
- Il junior scrive la domanda in linguaggio naturale nel chatbot interno
- Il sistema trova i 5-10 documenti più rilevanti nell'archivio dello studio
- Il modello AI genera una risposta citando i documenti specifici (circolare X del 2019, parere interno Y)
- Il junior verifica le fonti e ha risparmiato 2 ore di ricerca
Uso pratico per freelancer e PMI
- Chatbot aziendali: rispondono ai clienti usando la documentazione interna, i manuali prodotto, le FAQ — senza inventare
- Assistenti legali: cercano e citano articoli specifici del codice o clausole contrattuali
- Knowledge base interne: i dipendenti cercano procedure, policy, best practice aziendali via chat
- E-commerce: un chatbot che conosce tutto il catalogo prodotti e risponde a domande tecniche specifiche
- Supporto tecnico: un assistente AI che cerca nei ticket risolti per suggerire soluzioni a problemi simili
RAG vs fine-tuning: quale scegliere
Il fine-tuning modifica il modello stesso, ri-addestrandolo con i tuoi dati. Il RAG lascia il modello com'è e gli passa i documenti al momento della domanda.
- RAG: più economico, più veloce da implementare, dati sempre aggiornati. Ideale per la maggior parte dei casi d'uso aziendali.
- Fine-tuning: serve quando vuoi cambiare il comportamento del modello (tono, stile, formato di output). Costa di più e richiede competenze tecniche.
Per un freelancer o una PMI, RAG è quasi sempre la scelta giusta. Il fine-tuning ha senso solo in casi molto specifici.
Strumenti per iniziare
Non serve essere programmatori per usare RAG. Strumenti come LlamaIndex, LangChain, e piattaforme no-code come Voiceflow o Stack AI permettono di creare sistemi RAG caricando semplicemente i tuoi documenti (PDF, Word, pagine web). In poche ore puoi avere un chatbot che risponde basandosi sui tuoi dati reali.