Ogni volta che un agente AI fa una chiamata a un servizio esterno — ogni singola richiesta, ogni risposta generata — qualcuno paga. Di solito sei tu. O la tua azienda. O il tuo fornitore di software, che poi passa il conto travestito da abbonamento mensile. È la struttura economica invisibile dietro quasi tutto ciò che funziona con l'intelligenza artificiale oggi: compute remoto, fatturato a consumo, costi che crescono proporzionalmente all'uso.
Nous Research ha appena cambiato questa equazione, almeno per chi ha l'hardware giusto. Il loro agente Hermes gira ora in modo nativo su PC con schede NVIDIA RTX e su DGX Spark — il che significa, in parole povere, agenti AI sempre attivi sul tuo computer, senza mandare niente a nessun server esterno, senza pagare per ogni singola operazione. L'esecuzione locale di modelli AI non è un concetto nuovo, ma che arrivi su hardware personale e da lavoro con questo livello di integrazione è una cosa concreta e diversa da quello che esisteva fino a ieri.
In questo articolo vediamo cos'è Hermes, come funziona questa esecuzione locale, e soprattutto cosa significa per chi usa o vuole usare l'AI nel lavoro quotidiano senza che la bolletta diventi il vero problema.
Cos'è Hermes e cosa fa un agente AI sempre attivo?
Hermes è un agente AI sviluppato da Nous Research, un laboratorio indipendente che dal 2022 pubblica modelli open-weight con ottimizzazioni specifiche per ragionamento a catena e autonomia operativa — una delle poche realtà non finanziate dai grandi player a produrre modelli che competono stabilmente nei benchmark pubblici contro versioni molto più grandi. Un agente AI, in questo contesto, è un sistema in grado di eseguire compiti in sequenza — cercare informazioni, elaborarle, prendere micro-decisioni, agire — senza che tu debba guidarlo passo dopo passo come faresti con un chatbot normale. Non è un assistente che risponde a domande: è qualcosa di più vicino a un collaboratore che lavora in sottofondo mentre tu fai altro.
La differenza tra un agente AI e un chatbot classico è paragonabile a quella tra un collega che gestisce autonomamente una pratica e uno che aspetta che tu gli dica ogni singolo passaggio. Il chatbot ti risponde; l'agente porta a termine un obiettivo. Hermes appartiene alla seconda categoria — ed è progettato specificamente per girare in modo continuativo, cioè essere "sempre acceso" e disponibile senza dover riavviare una sessione ogni volta.
Il fatto che ora giri nativamente su RTX e DGX Spark significa che tutta questa elaborazione avviene sulla tua macchina, usando la potenza di calcolo della tua scheda grafica. Nessun dato sale su un cloud esterno. Nessuna latenza di rete. Nessun costo variabile per ogni operazione. Il modello distribuito da Nous Research per questa integrazione è Hermes 3, basato su architettura Llama 3.1 con ottimizzazioni specifiche per l'esecuzione su hardware consumer — i dettagli tecnici dell'annuncio ufficiale sono disponibili sul sito di Nous Research e nei materiali NVIDIA Developer.
Perché i costi delle API erano il problema che nessuno nominava?
I costi di chiamata alle API dei grandi modelli linguistici funzionano come il contatore del taxi: il viaggio sembra ragionevole finché non guardi il display e capisci che il traffico ha moltiplicato tutto per tre. Con gli agenti AI il problema è amplificato, perché un singolo compito complesso può generare decine di chiamate in cascata — ciascuna con il suo costo, ciascuna addebitata separatamente.
Per un freelancer o una piccola impresa che vuole automatizzare qualcosa — gestione email, raccolta dati, monitoraggio, risposte automatiche a richieste standard — il costo per operazione può sembrare trascurabile finché non scala. E l'automazione, per definizione, scala. Un'attività che esegui dieci volte al giorno manualmente diventa mille volte al giorno quando la deleghi a un agente. Moltiplica per il costo unitario e hai capito perché molte piccole realtà si fermano prima ancora di cominciare davvero. (Noi in redazione ci siamo fermati a fare questo calcolo più di una volta guardando preventivi di sistemi agentici cloud-based — spoiler: non confortante.)
Hermes su hardware locale taglia questa voce alla radice. Non c'è più una terza parte a cui mandare ogni richiesta. Il modello gira sulla tua macchina, usa la tua GPU, e il costo marginale di ogni operazione aggiuntiva è sostanzialmente zero — a parte l'elettricità, ma quella non te la fattura Nous Research a fine mese.
Quanto pesa questa voce in concreto? I dati disponibili su imprese che hanno adottato flussi agentici cloud-based indicano che i costi API tendono a diventare la prima o seconda voce di spesa AI non appena i volumi di automazione superano la fase sperimentale. Non è un dettaglio tecnico: è una ristrutturazione del modello economico. Ed è esattamente il punto su cui Hermes locale interviene in modo più diretto.
Su quale hardware gira Hermes — e ce l'hai già?
Hermes gira nativamente su due categorie di hardware NVIDIA: le schede RTX per PC consumer e workstation, e il DGX Spark, una macchina compatta ma molto potente pensata per sviluppatori e professionisti che lavorano con modelli AI localmente. Il requisito minimo dichiarato è 16 GB di VRAM per l'esecuzione delle versioni quantizzate del modello. In termini pratici: RTX 4080 (16 GB) e RTX 4090 (24 GB) rientrano pienamente; RTX 4070 e versioni precedenti con meno VRAM no, o con limitazioni significative sulle versioni del modello eseguibili. Il DGX Spark parte da una configurazione con 128 GB di memoria unificata.
Vale la pena fermarsi su una contraddizione reale invece di aggirarla: la barriera economica non sparisce con Hermes locale — si sposta. Dall'abbonamento mensile al costo iniziale dell'hardware. Una RTX 4080 costa intorno ai 900-1.000 euro; il DGX Spark supera i 3.000. Chi non ha già una GPU compatibile deve fare un calcolo preciso prima di considerare questa strada economicamente vantaggiosa rispetto al cloud.
La logica cambia completamente, però, per chi quell'hardware ce l'ha già per altri motivi — rendering, sviluppo, gaming professionale, elaborazione dati — e finora non lo stava usando per far girare agenti AI. In quel caso, aggiungere Hermes significa aggiungere una capacità su qualcosa che hai già pagato e ammortizzato. È come scoprire che quella macchina in officina fa anche un'altra cosa utile che non sapevi. Ed è probabilmente questa la fetta di utenti a cui l'annuncio si rivolge più direttamente nella fase attuale.
Locale o cloud: non è una scelta ideologica
La domanda giusta non è "locale o cloud?" ma "per quale compito, con quale frequenza, con quali dati?" I modelli cloud di punta (GPT-4o, Claude Opus, Gemini Ultra) restano superiori su compiti che richiedono ragionamento molto sofisticato o enormi quantità di contesto. Hermes locale, anche su RTX top di gamma, non compete con i modelli da centinaia di miliardi di parametri che girano su infrastrutture da milioni di dollari — e non ha senso pretendere che lo faccia.
C'è però un aspetto che i confronti sui benchmark tendono a ignorare: rispetto ad altri strumenti per l'esecuzione locale come Ollama o LM Studio, Hermes 3 non è solo un runtime — è un modello ottimizzato specificamente per il comportamento agentivo, con un sistema di gestione degli strumenti e della memoria a breve termine integrato nell'architettura. In pratica, dove Ollama ti permette di far girare qualsiasi modello localmente, Hermes è progettato per mantenere contesto e catene di azioni su sessioni lunghe senza degradazione delle performance. La differenza emerge su compiti che durano ore, non minuti.
La maggior parte dei compiti aziendali reali non richiede il modello più potente del pianeta. Richiedono un agente affidabile, disponibile, che non costi nulla per ogni operazione, e che non esponga dati sensibili. Classificare e smistare email in arrivo secondo regole complesse, estrarre campi strutturati da documenti contrattuali, monitorare in tempo reale le modifiche a file condivisi e notificare anomalie, rispondere a richieste standard di clienti seguendo un protocollo definito — sono compiti per cui Hermes locale è abbondantemente sufficiente, e probabilmente più efficiente del cloud per via della latenza ridotta e del costo zero per operazione. La scelta tra i due non è ideologica: dipende da cosa devi fare e da quanto spesso devi farlo.
Cosa cambia in pratica per freelancer e piccole imprese?
La riservatezza dei dati è il primo argomento concreto. Un agente AI che gira localmente non manda niente fuori dalla tua rete. Per chi lavora con dati sensibili — contratti, dati di clienti, informazioni finanziarie, documenti legali — questa non è una sottigliezza tecnica ma un requisito spesso imposto da regolamenti (GDPR incluso) o semplicemente da una ragionevole cautela professionale. Un flusso di automazione che passa per server esterni ogni volta che processa un documento è un rischio che molte imprese hanno preferito evitare, rinunciando all'automazione stessa. Con Hermes locale, quella scusa sparisce.
Il secondo argomento è la latenza. Un agente che gira sulla tua macchina non dipende dalla qualità della connessione internet, dai picchi di traffico del provider cloud, o dai tempi di risposta di un'API esterna. Per compiti interattivi — dove l'agente deve rispondere velocemente a input dell'utente — la differenza può essere sostanziale in termini di esperienza d'uso quotidiana.
Il terzo argomento è la continuità operativa. Un agente "sempre attivo" sul tuo PC significa che può monitorare, reagire ed eseguire anche quando non sei davanti allo schermo — senza dipendere da un servizio cloud che potrebbe avere downtime, cambiare prezzi, o semplicemente chiudere. Chi ha vissuto la difficoltà di costruire automazioni AI stabili in una PMI sa quanto pesi questa dipendenza da terze parti.
Conclusione
Hermes su NVIDIA RTX e DGX Spark non è la soluzione per tutti — e sarebbe disonesto presentarla come tale. Chi non ha già hardware compatibile deve confrontare il costo di acquisto con quello degli abbonamenti cloud che sostituirebbe, e il calcolo non è sempre favorevole. Ma per chi ha già una GPU da 16 GB o più, o sta valutando un investimento hardware per altri motivi, cambia i termini del problema in modo concreto: da costo ricorrente e imprevedibile a capacità fissa già disponibile.
La vera novità non è tecnica. È che per la prima volta un agente AI progettato per uso professionale continuativo — non un esperimento, non un prototipo — arriva su hardware che una parte significativa di sviluppatori, designer e professionisti ha già sulla scrivania. Il costo per operazione diventa zero. I dati restano dove sono. L'agente non si ferma quando il provider ha un downtime. Sono tre cambiamenti insieme, e insieme pesano più della somma delle parti.
Come scriveva Seneca in una delle sue lettere a Lucilio: "Omnia aliena sunt, tempus tantum nostrum est" — tutto è degli altri, solo il tempo è nostro. Potremmo aggiungere: e adesso, su una RTX con Hermes attivo, anche i cicli di calcolo.