Un sesto. Questo è il rapporto di prezzo tra DeepSeek V4-Pro e i modelli di punta di OpenAI e Anthropic, secondo i dati comparativi pubblicati da VentureBeat ad aprile 2026. Non è una stima approssimativa: i test su benchmark standard mostrano V4-Pro competitivo con i modelli proprietari di prima fascia a circa 2,50 dollari per milione di token di input, contro i 15 dollari dei concorrenti americani. Su uso intensivo, quella differenza vale centinaia di euro al mese. È come scoprire che il televisore generico del supermercato passa tutti i test di qualità delle marche da tremila euro.
Quello che segue è un tentativo di rispondere a una domanda concreta: vale davvero la pena cambiare modello, e se sì, come si decide quale usare senza affidarsi al nome più famoso o all'ultimo articolo letto? Niente scale di punteggio astratte, niente benchmark che non rispecchiano il lavoro reale.
Nota di trasparenza: i numeri di versione citati in questo articolo (V4-Pro, GPT-5.4, Opus 4.7) riflettono le denominazioni in uso al momento della scrittura e potrebbero non corrispondere alle versioni attuali. I prezzi per token sono indicativi e cambiano frequentemente — verifica sempre le pagine ufficiali di pricing prima di fare calcoli.
Stai davvero calcolando il prezzo che paghi?
Prima di parlare di quale modello scegliere, vale la pena capire perché la maggior parte delle persone sceglie quello sbagliato. Non per ignoranza tecnica — ma perché non ha mai fatto i conti sul proprio utilizzo reale.
Un modello di IA generativa si paga in token: unità di testo che corrispondono grosso modo a tre quarti di parola. Mandi un prompt, ricevi una risposta — ogni parola in entrata e in uscita ha un costo. Con uso sporadico, la differenza tra un modello a 2,50 dollari per milione di token e uno a 15 dollari è irrilevante. Con 500.000 token al giorno — un flusso di lavoro professionale normale — la differenza è circa 185 euro al mese contro 31 euro al mese. Stesso output, costo sei volte più alto.
DeepSeek V4 ha reso questa conversazione impossibile da rimandare. Il laboratorio cinese ha rilasciato due varianti: V4-Pro per i compiti complessi, V4-Flash per operazioni di routine. Entrambi sono modelli a pesi aperti — i parametri sono scaricabili e modificabili, senza dipendere da un'API proprietaria. Questo significa che un'azienda può ospitare il modello sui propri server, senza pagare per ogni chiamata e senza mandare i propri dati a terzi.
Non è la prima volta che DeepSeek sposta il mercato così: era già successo con R1, che aveva fatto crollare i titoli dei concorrenti americani in Borsa in un solo giorno. Questa volta OpenAI e Anthropic hanno risposto più in fretta, con aggiornamenti e riduzioni di prezzo sui propri piani API. La pressione di un modello open con prestazioni comparabili ha accelerato un processo che altrimenti avrebbe richiesto anni. Per chi usa questi strumenti nel lavoro quotidiano, questo è già un vantaggio concreto — indipendentemente dal modello che scegli.
C'è però una questione che non posso liquidare in due righe: il Dipartimento di Stato americano ha emesso un avviso formale accusando i laboratori cinesi — DeepSeek incluso — di aver copiato proprietà intellettuale da aziende americane. Al momento non esistono prove pubbliche definitive. Se la questione geopolitica ti preoccupa, ospitare un modello open su infrastruttura propria risolve almeno il problema dei dati. Il dibattito sulla proprietà intellettuale è invece una variabile aperta che vale la pena monitorare prima di integrare questi strumenti in processi critici.
| Modello | Tipo | Costo input ($/M token) | Ideale per |
|---|---|---|---|
| DeepSeek V4-Pro | Pesi aperti | ~2,50 | Ragionamento complesso, analisi documenti, volume elevato |
| DeepSeek V4-Flash | Pesi aperti | ~0,50 | Classificazione, riassunti brevi, task ripetitivi ad alto volume |
| GPT-5.4 (OpenAI) | Proprietario | ~15,00 | Generazione di codice, integrazione con strumenti OpenAI esistenti |
| Opus 4.7 (Anthropic) | Proprietario | ~15,00 | Ragionamento su testi lunghi, contesti che richiedono istruzioni precise |
Pesi aperti o proprietari: qual è la scelta che cambia tutto il calcolo?
La distinzione più importante non è tra modello A e modello B — è tra modelli a pesi aperti e modelli proprietari, perché cambia la struttura del costo nel tempo.
Un modello proprietario come GPT o Opus funziona solo tramite le API del fornitore: paghi per ogni richiesta, i tuoi dati transitano sui loro server, e le condizioni di utilizzo cambiano quando decidono loro. Un modello a pesi aperti come DeepSeek V4 o Llama di Meta puoi installarlo su un server tuo, usarlo senza limiti di chiamate, e adattarlo alle tue esigenze specifiche. Il costo iniziale di infrastruttura esiste — ma si ammortizza rapidamente su volumi elevati.
La scelta dipende da tre variabili concrete: quanto usi l'IA ogni giorno, quanto sono sensibili i dati che tratti, e se hai la capacità tecnica per gestire un'infrastruttura propria. Per chi usa l'IA in modo sporadico — qualche prompt al giorno, contenuti, email — un abbonamento mensile standard è probabilmente la scelta più sensata. Per chi ha delegato all'IA flussi di lavoro ripetitivi con centinaia di chiamate al giorno, il calcolo cambia radicalmente.
Il "modello migliore" non esiste in astratto. Esiste quello giusto per il tuo caso specifico — e quasi sempre è diverso da quello che stai usando adesso.
Come confrontare i modelli senza perderti nei benchmark?
Il metodo è semplice e richiede una settimana, non un laboratorio. Prendi le tre o quattro attività che fai più spesso con l'IA — analisi di documenti lunghi, scrittura di contenuti in italiano, risposta a domande su dati numerici. Scrivi un prompt rappresentativo per ciascuna. Mandalo agli stessi modelli che stai valutando. Documenta i risultati in una tabella con tre colonne: qualità dell'output, tempo di risposta, costo stimato per quella richiesta.
Il passaggio che quasi tutti saltano è questo: definire i criteri prima di leggere le risposte, non dopo. Se decidi che "questo output è meglio" dopo averlo letto, stai razionalizzando una preferenza estetica. Prima scrivi: cosa mi serve esattamente? Accuratezza sui dati? Tono specifico? Capacità di seguire istruzioni complesse in italiano? Solo dopo apri le risposte e misuri.
Per i confronti pratici, Claude di Anthropic e ChatGPT hanno interfacce dirette. Per confronti side-by-side senza aprire cinque schede, piattaforme come Together.ai permettono di interrogare più modelli nella stessa sessione. Per chi vuole eseguire modelli open in locale, LM Studio è lo strumento più usato — ma richiede hardware adeguato ed è una soluzione separata, non un aggregatore per confronti simultanei.
Un esempio concreto: se lavori principalmente su testi in italiano — contenuti, comunicazioni con clienti, analisi di documenti — la differenza nell'output tra un modello a 15 dollari per milione di token e uno a 2,50 dollari è spesso impercettibile. L'unico modo per saperlo con certezza sul tuo lavoro specifico è testarlo. Per chi ha già una catena di strumenti per i contenuti, integrare un modello più economico nel flusso esistente può liberare budget reale ogni mese.
Una cosa da fare questa settimana
Non ti sto chiedendo di cambiare strumento. Ti sto chiedendo di fare un calcolo che probabilmente non hai mai fatto: quanti token usi al mese, moltiplicato per il prezzo del modello che stai usando adesso. Poi fai lo stesso calcolo con V4-Pro a 2,50 dollari. Se la differenza è trascurabile, continua come stai. Se è significativa, hai una settimana di test davanti a te — con prompt reali, criteri scritti prima di leggere le risposte, e una tabella con tre colonne.
Il mercato cambierà di nuovo tra qualche mese — probabilmente prima. Ma un metodo di valutazione che funziona oggi funziona anche quando arriva il prossimo modello che "cambia tutto". Quello è l'investimento che vale la pena fare adesso.