DeepSeek V3 Pro è un modello di intelligenza artificiale che elabora testo tramite API a costi molto bassi. Novantadue centesimi di dollaro. Meno di un caffè al bar — quello buono, non quello della macchinetta dell'ufficio. Con quella cifra, un utente ha elaborato 51 milioni di token usando DeepSeek V3 Pro con la funzione di input in cache. Cinquantuno milioni. Per dare un'idea concreta: stiamo parlando di circa 38 milioni di parole italiane, ovvero più o meno l'intera produzione letteraria di Italo Calvino moltiplicata per sette.
Ok, Calvino probabilmente non avrebbe gradito il paragone. Ma il numero da solo non spiega perché questo cambia qualcosa di strutturale — e non di cosmetico.
DeepSeek è un modello linguistico ad architettura aperta (quello che in inglese chiamano "open-weight": i pesi del modello sono pubblici e scaricabili) sviluppato dalla società cinese DeepSeek AI. La sua versione V3 Pro è disponibile tramite API — cioè puoi collegarlo ai tuoi strumenti digitali come faresti con un servizio esterno qualunque. E il costo, come abbiamo appena visto, è una roba che fa girare la testa.
Cosa sono i token e perché il costo per token è la metrica che conta davvero?
Un token è l'unità di misura con cui i modelli di intelligenza artificiale leggono e producono testo. Non corrisponde esattamente a una parola: in italiano, mediamente, un token vale circa 0,75 parole. I modelli AI non leggono frasi — le scompongono in questi pezzi atomici, li elaborano, e ricompongono una risposta. Il costo di ogni chiamata all'API dipende da quanti token entrano (il tuo testo, il contesto, i documenti allegati) e quanti ne escono (la risposta generata). Fino a poco tempo fa, elaborare 51 milioni di token con i modelli più performanti — diciamo GPT-4 Turbo di OpenAI — costava nell'ordine delle centinaia di dollari. Non migliaia: centinaia. Ma comunque qualcosa che una piccola impresa o un freelancer sente nel portafoglio. Con DeepSeek V3 Pro e il meccanismo di cached input — se mandi più volte lo stesso contesto, il sistema non lo rielabora da zero ma lo tiene in memoria e ti fa pagare meno — quella cifra crolla a 0,92 dollari. Non è un'offerta promozionale. È il listino. E questo cambia qualcosa di strutturale, non di cosmetico.
Perché i modelli ad architettura aperta stanno facendo crollare i prezzi — e i proprietari non possono ignorarlo?
I modelli ad architettura aperta — dove i pesi sono pubblici e chiunque può scaricarli, modificarli, eseguirli su propri server — creano una pressione al ribasso che i modelli proprietari non possono ignorare. DeepSeek è il caso più clamoroso del 2025-2026: un modello cinese che ottiene risultati comparabili ai principali competitor su benchmark standard come MMLU (ragionamento generale), HumanEval (generazione di codice) e GSM8K (matematica) — con DeepSeek V3 che su HumanEval supera l'87% di accuratezza, in linea con GPT-4o nello stesso periodo.
Il budget di addestramento dichiarato dalla società è intorno ai 6 milioni di dollari, contro i miliardi spesi da OpenAI e Google. Quella cifra è contestata nel settore — non è verificabile dall'esterno e potrebbe non includere l'intera infrastruttura — ma anche se fosse dieci volte più alta, il divario resterebbe abissale.
Nei principali test di confronto tra modelli IA, DeepSeek V3 si posiziona stabilmente tra i migliori su ragionamento matematico, comprensione del testo e generazione di codice. Il rapporto qualità-prezzo non ha praticamente concorrenza, almeno per i casi d'uso che non richiedono capacità multimodali avanzate.
Come è possibile? Due spiegazioni, probabilmente entrambe vere. La prima è tecnica: DeepSeek usa un'architettura MoE (Mixture of Experts), in cui il modello non attiva tutti i suoi parametri per ogni richiesta, ma solo la porzione specializzata nel compito specifico. In pratica: un modello da 671 miliardi di parametri totali ne usa attivamente circa 37 miliardi per risposta, con un risparmio di risorse che si traduce direttamente in costi API più bassi. La seconda spiegazione è strategica: i prezzi sono probabilmente una scelta deliberata per conquistare sviluppatori e quota di mercato, non un riflesso diretto dei costi reali. La sostenibilità nel lungo periodo è una domanda aperta.
Cosa significa concretamente per un freelancer o una piccola impresa italiana?
Facciamo i conti in modo grezzo, perché i conti grezzi sono quelli che si ricordano. Secondo i listini pubblici disponibili a inizio 2026 (fonte: pagine di pricing ufficiali DeepSeek e OpenAI, consultate a febbraio 2026):
| Modello | Input ($/M token) | Output ($/M token) |
|---|---|---|
| DeepSeek V3 Pro | 0,27 | 1,10 |
| DeepSeek V3 Pro (cached) | 0,07 | 1,10 |
| OpenAI GPT-4o | 2,50 | 10,00 |
| OpenAI GPT-4o mini | 0,15 | 0,60 |
La differenza tra DeepSeek e GPT-4o è circa un ordine di grandezza. Se passi un mese a elaborare testi con GPT-4o e spendi 50 euro, con DeepSeek spenderesti intorno ai 5-6 euro per lo stesso volume. Sempre che la qualità dell'output sia adeguata al tuo caso d'uso — e qui bisogna testare, non fidarsi dei numeri a scatola chiusa.
Il punto non è "usa DeepSeek e risparmia". Il punto è che il costo dell'intelligenza artificiale sta collassando, e non per effetto di offerte promozionali: è la struttura del mercato che cambia. Quando un modello ad architettura aperta raggiunge performance comparabili ai modelli proprietari più costosi, i proprietari hanno due opzioni: abbassare i prezzi o perdere i clienti più sensibili al costo. OpenAI, Anthropic e Google ci stanno già lavorando — GPT-4o mini è uscito a luglio 2024 a un decimo del prezzo di GPT-4o, e Claude Haiku di Anthropic ha subito riduzioni simili nello stesso periodo.
C'è qualcosa che DeepSeek non può fare (e vale la pena saperlo prima di iniziare)
I limiti esistono, ed è onesto nominarli subito — non come disclaimer in fondo, ma come parte del ragionamento. DeepSeek V3 non ha capacità multimodali avanzate integrate come GPT-4o o Gemini: elabora testo in modo eccellente, ma se il tuo flusso di lavoro richiede analisi di immagini, generazione di audio o comprensione di video, non è lo strumento giusto.
Trattandosi di un modello cinese, ci sono interrogativi legittimi sulla gestione dei dati: la politica sulla privacy di DeepSeek non garantisce che i dati inviati tramite API non vengano usati per addestrare modelli futuri, e la giurisdizione cinese implica obblighi di accesso governativo che le aziende europee non affrontano con i provider americani. Chi elabora documenti riservati dovrebbe leggere i termini di servizio con attenzione prima di procedere.
C'è poi la questione della disponibilità: a gennaio 2025, quando l'interesse globale è esploso dopo il lancio pubblico, il servizio API ha registrato interruzioni prolungate — alcune documentate dagli utenti su forum tecnici come Hacker News con downtime superiori alle 24 ore. Non è una ragione per non usarlo, ma è una ragione per non costruire un processo critico che dipenda da un singolo fornitore senza un piano B.
Il calcolo che vale la pena rifare adesso
Quando il costo di un input produttivo scende di un ordine di grandezza in tempi rapidi, cambiano le soglie di convenienza. Cose che prima non aveva senso automatizzare perché il costo dell'elaborazione AI era troppo alto rispetto al tempo risparmiato, adesso potrebbero averlo. Un freelancer che gestisce molte email simili, un piccolo studio che processa contratti, una bottega che vuole rispondere ai clienti in modo personalizzato su larga scala — con costi AI nell'ordine dei centesimi per migliaia di parole elaborate, il calcolo cambia. Non per tutti, non sempre, ma cambia.
Il modo pratico per approcciarlo è questo: identifica i flussi di lavoro ripetitivi che oggi fai manualmente o che hai scartato perché il costo API era proibitivo, stima il volume di token che richiederebbero, e ricalcola con i prezzi attuali. In molti casi scoprirai che la soglia di convenienza è già stata superata — non perché la tecnologia sia cambiata, ma perché il prezzo sì.
Se vuoi capire come integrare questi strumenti nel tuo lavoro quotidiano, qui trovi un'analisi su cosa funziona davvero quando si delega all'AI — non quali strumenti esistono, ma quali conviene usare e in quali situazioni.