
Da quando sono state applicate delle restrizioni nell’utilizzo degli ultimi modelli di frontiera come Fable, Mythos e GPT-5.6, tanti si stanno guardando intorno per capire come utilizzare dei modelli da far girare in locale sul proprio pc con l’obiettivo di avere lo stesso risultato di programmi come Claude Code o Codex. Tra gli strumenti più popolari di questo tipo ci sono llama.cpp Ollama, LM-Studio e OpenCode, tuttavia ultimamente ha fatto molto palrare il progetto DwarfStar4 sviluppato da Salvatore Sanfilippo (creatore e mantainer di Redis), che ha come obiettivo quello di poter usare un LLM di frontiera al pari di Opus4.8 e GPT-5.5 direttamente sul proprio pc senza che un solo dato finisca nel cloud.
Siamo abituati a pensare che i modelli più capaci siano per forza roba da datacenter, raggiungibili solo attraverso una API a consumo, perché troppo grandi e troppo affamati di memoria per qualsiasi macchina che si tenga in casa. DwarfStar 4 (ds4 per gli amanti degli acronimi) nasce proprio per mettere in discussione questa abitudine, e lo fa con una mossa che ha il sapore della provocazione verso le big tech americane.
Cos’è DwarfStar 4
La parola chiave qui è narrow, ossia stretto, perché dove un progetto come Ollama punta a far girare in locale qualunque modello scaricabile, ds4 fa proprio il contrario, e questa rinuncia volontaria alla genericità è la sua intera tesi tecnica. Se vuoi un metro di paragone, eseguire un modello in locale con Ollama significa scegliere tra centinaia di modelli con un comando, mentre con ds4 la scelta è già stata fatta per te, ed è una sola.
C’è un dettaglio che divide la community e che antirez non nasconde affatto, il software è sviluppato con una forte assistenza di GPT 5.5, con gli umani a guidare le idee, i test e il debugging, qui Salvatore Sanfilippo mette in chiaro l’avvertimento: se non sei a tuo agio con codice scritto con l’aiuto dell’AI questo software non fa per te. C’è poi la questione della maturità, perché il progetto è comunque ancora in beta e l’agente incluso è in alpha, con la stessa onestà antirez stima che serviranno mesi per raggiungere una forma più stabile.
Come funziona DwarfStar 4?
Far girare un modello così grande su una macchina personale richiede tre mosse precise: quantizzazione asimmetrica, KV cache su disco, contesto e memoria.
Quantizzazione asimmetrica
La quantizzazione è una tecnica usata per la riduzione del LLM e per far occupare meno memoria, riducendo però la precisione del modello. Di solito si applica a tutto il modello in modo uniforme ma Ds4 fa una scelta più chirurgica, quantizza a 2 bit solo alcune parti del modello, mentre lascia intatto tutto il resto, esperti condivisi, proiezioni e routing, per garantire la qualità.
La Mixture-of-Experts (MoE) è proprio l’architettura che attiva per ogni token solo un sottoinsieme dei parametri totali, e siccome quegli esperti occupano la maggior parte dello spazio del modello, è lì che ha senso stringere. Il punto interessante, e quasi controintuitivo, è che antirez insiste sul fatto che questi quant a 2 bit non siano uno scherzo, perché si comportano bene, reggono gli agenti di coding e chiamano i tool in modo affidabile.
KV cache su disco
La KV cache è la memoria delle attivazioni di attenzione dei token già processati, quella che evita di ricalcolare tutto il contesto a ogni nuovo token generato. L’assunzione tradizionale è che stia in RAM, ed è proprio questa assunzione che antirez ribalta. L’idea nasce dal fatto che le cache KV sono compresse e gli SSD dei MacBook moderni sono veloci, quindi far persistere la cache su disco diventa sensato e realmente fattibile. Il risultato è che i prefissi utili sopravvivono al cambio di sessione e al riavvio del server. Non a caso una parte della community indica questa scelta, più del codice C o della quantizzazione, come la vera intuizione del progetto.

Contesto e memoria
Il modello usato è DeepSeek V4 Flash, il quale ha una finestra di contesto da un milione di token, e qui i conti con la memoria si fanno concreti. Riempire l’intero milione costa più o meno 26 GB, di cui circa 22 solo per l’indexer compresso, mentre i quant a 2 bit pesano da soli 81 GB Tradotto, su Apple Silicon servono almeno 96 GB di memoria unificata, con la variante q2 pensata per macchine da 96 o 128 GB e la q4 riservata a configurazioni da 256 GB in su.
Perché l’inferenza locale conta: privacy, costi e dipendenza
Tutto questo lavoro per portare un modello enorme sul Mac ha senso solo se l’inferenza locale offre qualcosa che il cloud non dà, e infatti lo offre. Quando il modello gira interamente sulla tua macchina i dati non la lasciano mai, e questo per chi ragiona in ottica local-first cambia tutto, perché la privacy degli LLM smette di dipendere dalle policy di un fornitore remoto e diventa una proprietà strutturale della tua infrastruttura.

Non c’è un costo per token da pagare a ogni chiamata, e non c’è dipendenza da un servizio che potrebbe cambiare prezzo, condizioni o disponibilità da un giorno all’altro. C’è perfino un bonus pratico di efficienza, perché in modalità thinking la sezione di ragionamento del modello risulta molto più corta di quella di altri modelli, in certi casi anche un quinto, proporzionale alla complessità del problema affrontato.
Il rovescio della medaglia è altrettanto reale e va guardato in faccia. Per usare ds4 serve un hardware costoso, con quella soglia di 96 GB che taglia fuori qualsiasi Mac da 32 GB e non lascia alcun percorso alternativo. C’è un solo modello e nessun fallback, quindi quando uscirà qualcosa di nuovo bisognerà aspettare un aggiornamento o un fork di antirez o eventuali mantainer, inoltre, c’è lo stato beta, con l’instabilità, i breaking change e i casi limite del tokenizer che ne derivano.
Contesto che sopravvive ai riavvii, steering ed evaluation
Per chi vuole davvero aprire il cofano, ds4 offre un paio di funzioni che mostrano il suo lato più trasparente e smanettone.
Contesto che non muore
La persistenza della KV cache non è solo un dettaglio implementativo, è una feature d’uso quotidiana. Puoi pre-caricare in anticipo un’intera codebase, salvare lo stato della cache e poi iniziare ogni sessione di lavoro con quel contesto già pronto, ammortizzando a zero il costo di partenza a freddo. Per default il sistema salva i prefissi lunghi di almeno 512 token, fa un salvataggio iniziale fino a 30 mila token, allinea a blocchi di 2048 token e continua a salvare man mano che il contesto cresce.
Steering a singola direzione
Lo steering è una tecnica che modifica le attivazioni del modello lungo un singolo vettore di direzione per influenzarne il comportamento, per esempio renderlo più o meno prolisso, oppure ridurre la sua disponibilità a fornire indicazioni di offensive security. Sanfilippo la descrive come una tecnica molto più rapida del fine-tuning, e la basa sull’idea centrale secondo cui il rifiuto nei modelli linguistici è mediato da una singola direzione. È una capacità a doppio uso, perché lo stesso meccanismo che riduce la disponibilità del modello può anche aumentarla.
Strumenti di valutazione
Sul fronte misurazione ci sono due strumenti. ds4-bench misura il throughput istantaneo di prefill e generazione alle frontiere di contesto, e usa come prompt-file un testo di pubblico dominio, “I Promessi Sposi” di Manzoni, dettaglio che fa sorridere ma dice molto sull’attenzione ai contesti lunghi. ds4-eval è invece un piccolo benchmark di integrazione con 92 item incorporati, 75 presi da GPQA, SuperGPQA e AIME più 17 di sicurezza informatica. C’è anche il decoding speculativo opzionale, attivabile con –mtp, che però per ora offre al più un lieve miglioramento di velocità ed è ancora sperimentale.
La scommessa di antirez: cosa ci insegna sull’AI che useremo
Il filo che tiene insieme tutto è la scelta di specializzarsi invece di generalizzare, e la domanda vera che lascia aperta è se sia una feature o un limite, un dibattito che divide apertamente i commentatori. La profondità con cui ds4 implementa un singolo modello è proprio ciò che gli permette mosse strutturali che un runtime generico farebbe fatica a giustificare, dalla quantizzazione asimmetrica alla cache su disco, ma quella stessa profondità si paga in generalità, perché il progetto non generalizza. I numeri di throughput lo confermano come scelta seria e non come esperimento, su un Mac Studio M3 Ultra con quantizzazione q2, la documentazione del progetto riporta circa 36,86 token al secondo in generazione su prompt corti, e in prefill si sale fino a 468 token al secondo sui prompt lunghi da oltre 11 mila token, prestazioni che un solo anno fa avremmo associato solo al cloud.
La cosa più utile che DwarfStar 4 insegna a chi vuole capire l’AI non è una specifica tecnica, ma un modo di leggere, perché dietro ogni annuncio di inferenza locale o di nuovo modello c’è una catena di trade-off deliberati, e chi sa riconoscerli distingue l’innovazione vera dal titolo a effetto. Se è il tipo di lettura che ti interessa coltivare, vale la pena partire dalle fondamenta con un percorso come il corso Generative AI, oppure guardare più in là verso il percorso AI Developer, uno dei nostri percorsi di carriera.












