Negli ultimi mesi, il settore dell’intelligenza artificiale ha visto una competizione sempre più accesa tra le aziende americane e quelle cinesi. Se fino a poco tempo fa colossi come OpenAI, Google e Anthropic dominavano il mercato con i loro modelli avanzati ChatGPT, Gemini e Claude, oggi una nuova intelligenza artificiale generativa sta attirando l’attenzione di esperti e curiosi.

Stiamo parlando di DeepSeek, un modello sviluppato in Cina, che ha subito fatto parlare di sé e sconvolto i mercati finanziari. Tuttavia, nonostante le sue prestazioni promettenti, emergono alcune criticità, specialmente sul versante della sicurezza e della vulnerabilità agli attacchi informatici. In questo articolo analizzeremo le caratteristiche principali di DeepSeek, come funziona, chi è il suo fondatore, ma anche le potenzialità e i rischi che comporta rispetto ai modelli AI sviluppati negli Stati Uniti.

Tutto quello che devi sapere su DeepSeek

DeepSeek è un modello di AI generativa avanzato, capace di generare testi e risolvere problemi complessi grazie all’integrazione della ricerca online. La sua particolarità risiede nell’ottimizzazione delle risorse computazionali, che gli consente di ottenere risultati comparabili ai migliori modelli occidentali, ma con un costo di addestramento molto inferiore.

A differenza delle grandi aziende come OpenAI, il team di ingegneri e investitori dietro il progetto nato a Hangzhou, in Cina, sostiene di aver addestrato il modello DeepSeek R1 con sole 2.000 unità di calcolo, un numero significativamente inferiore rispetto alle decine di migliaia utilizzate dai competitor.

Nonostante l’uso limitato di risorse, i test indipendenti hanno dimostrato che il modello offre prestazioni avanzate, riuscendo a risolvere problemi complessi, generare testi coerenti in più lingue (incluso l’italiano) e mostrare notevoli capacità di ragionamento logico.

Il successo di DeepSeek non si ferma però all’aspetto tecnico: in pochissimo tempo, la sua applicazione ha conquistato le classifiche degli store digitali, diventando una delle più scaricate negli Stati Uniti e attirando l’attenzione della comunità tecnologica internazionale.

Ma quali sono le tecnologie alla base di DeepSeek e cosa ha suscitato il clamore mediatico?

Le tecnologie alla base: AI generativa e approccio open source

Come abbiamo anticipato, DeepSeek è un modello di AI generativa, denominato R1, progettato per offrire prestazioni elevate con un impiego limitato di risorse. A differenza di altre intelligenze artificiali come GPT4 e Gemini, DeepSeek adotta un approccio open source, consentendo agli sviluppatori di accedere e modificare il codice per personalizzarlo in base alle proprie esigenze.

Questo aspetto lo rende particolarmente attraente per il settore accademico e per le aziende che desiderano una soluzione flessibile e personalizzabile. Tuttavia, vedremo più avanti che la natura open source comporta anche dei rischi, poiché potrebbe esporre il modello a vulnerabilità di sicurezza più difficili da controllare. È utile quindi analizzare tutti gli aspetti della tecnologia, per valutare attentamente pro e contro.

Funzionalità principali di DeepSeek

Ci sono diverse funzionalità di DeepSeek che spiccano rispetto alla concorrenza. DeepSeek-R1 si distingue, infatti, come uno dei modelli di intelligenza artificiale più innovativi. I primi test hanno evidenziato le sue capacità avanzate in tre aree fondamentali: comprensione multilingue, generazione di contenuti testuali e accesso a informazioni online, anche se l’integrazione con il web rimane un aspetto delicato, soprattutto a causa delle restrizioni normative presenti in Cina.

Trattandosi di un modello open source, DeepSeek permette agli sviluppatori di personalizzare il modello in base alle proprie esigenze, adattandolo a settori estremamente specifici, come la medicina, la finanza o l’ingegneria. Ovviamente, è sempre possibile sfruttare l’integrazione di tecniche di prompt engineering per ottimizzare le interazioni e migliorare la qualità degli output generati.

Chi ha fondato DeepSeek

Alla guida dell’AI made in China c’è Liang Wenfeng. Classe 1985 di Zhanjiang, Wenfeng si è laureato alla Zhejiang University, una delle più prestigiose università del paese, specializzandosi in ingegneria dell’informazione e visione artificiale.

Dopo aver co-fondato nel 2015 il fondo di investimento High-Flyer, basato su strategie di trading algoritmico, ha iniziato a esplorare il potenziale dell’AI applicata ai mercati finanziari. Tuttavia, il suo interesse per l’intelligenza artificiale non si è fermato alla finanza. Nel 2021, convinto delle possibilità offerte dal machine learning, ha iniziato ad acquistare migliaia di chip Nvidia, con l’idea di creare un’AI innovativa capace di competere con i modelli occidentali.

Inizialmente, molti esperti del settore lo consideravano un visionario troppo ambizioso. L’idea di costruire un cluster di 10.000 chip per addestrare un proprio modello sembrava irrealizzabile senza il supporto di colossi come ByteDance o Alibaba. Ma Wenfeng ha dimostrato il contrario: con una strategia mirata e un forte investimento in ricerca e sviluppo, è riuscito a costruire un modello di AI altamente efficiente, riducendo in modo netto i costi di addestramento.

Oggi, DeepSeek è sostenuta da un team di esperti provenienti dalle migliori università cinesi e si sta affermando come una delle alternative più promettenti ai giganti della Silicon Valley.

Come funziona DeepSeek

DeepSeek utilizza tecniche di machine learning avanzate per ottimizzare la sua capacità di ragionamento e generazione di contenuti. Ma cosa c’è dietro le sue performance?

Tecniche di allenamento e innovazione

Ciò che distingue DeepSeek-R1 dai competitor è il suo approccio al ragionamento basato sul chain-of-thought, una tecnica che, in poche parole, consente di suddividere problemi complessi in una sequenza di passaggi logici più semplici e gestibili. Questo metodo si traduce in spiegazioni più dettagliate e maggiore precisione negli output, che gli conferiscono un vantaggio significativo nel problem solving rispetto a modelli che puntano solo sulla potenza di calcolo, come ChatGPT.

Un altro elemento chiave del suo processo di addestramento è l’uso dell’apprendimento per rinforzo (Reinforcement Learning). Questo sistema consente a DeepSeek-R1 di affinare progressivamente le proprie capacità, grazie a un meccanismo basato su premi e penalità. Ogni risposta generata viene valutata in base a specifici criteri di accuratezza e pertinenza: le soluzioni corrette vengono rafforzate, mentre quelle errate vengono penalizzate, permettendo al modello di adattarsi dinamicamente e migliorare le proprie performance nel tempo.

Le gravi vulnerabilità di sicurezza di DeepSeek

Nonostante le sue capacità avanzate, DeepSeek presenta significative falle di sicurezza, che lo rendono particolarmente vulnerabile ad attacchi informatici. Analizziamo meglio la questione.

Un tasso di attacco del 100% nei test

L’analisi della sicurezza di DeepSeek-R1 ha rivelato gravi falle nei suoi meccanismi di protezione, evidenziando un’elevata vulnerabilità alle manipolazioni. Il modello è stato testato utilizzando il dataset HarmBench, un insieme di 50 prompt malevoli progettati per valutare la capacità delle AI di riconoscere e bloccare contenuti pericolosi, tra cui cybercrime, disinformazione e altre attività illegali.

I risultati sono stati allarmanti: DeepSeek-R1 ha fallito ogni test, mostrando un tasso di attacco del 100%. Ciò significa che non è stato in grado di bloccare nemmeno una delle richieste dannose.

Inoltre, i dati dimostrano che R1 è particolarmente suscettibile agli attacchi di algorithmic jailbreaking, una tecnica che consente di eludere i filtri di sicurezza di un modello AI attraverso specifiche manipolazioni nei prompt. Questa debolezza lo rende facilmente sfruttabile per scopi malevoli, sollevando serie preoccupazioni sul suo utilizzo in contesti in cui la protezione delle informazioni è fondamentale.

Comparazione con modelli concorrenti

In confronto, altre AI di punta hanno dimostrato una maggiore resistenza agli attacchi. GPT-4o, il modello di OpenAI, ha respinto il 14% delle richieste malevole, mentre Claude-3.5 Sonnet di Anthropic ha bloccato il 64% dei tentativi di jailbreaking. Questi dati mettono in evidenza l’assenza di barriere di sicurezza adeguate in DeepSeek-R1, posizionandolo come uno dei modelli più vulnerabili mai testati.

Cause delle falle di sicurezza

Le gravi vulnerabilità di DeepSeek-R1 derivano da diverse scelte nel processo di addestramento e sviluppo del modello, che hanno compromesso la sua capacità di moderare e filtrare contenuti dannosi.

Compromessi nei processi di training

L’ottimizzazione dei costi è stata una delle priorità della sua progettazione, ma questo ha avuto ripercussioni sulla qualità dei sistemi di sicurezza e moderazione, rendendolo più esposto a manipolazioni rispetto ad altri modelli concorrenti.

Dataset supervisionati mancanti

Uno dei principali punti deboli di DeepSeek-R1 è la mancanza di dataset supervisionati, ovvero insiemi di dati annotati da esperti per affinare la capacità dell’AI di riconoscere e bloccare contenuti pericolosi. Senza un addestramento robusto su dati di qualità, il modello fatica a distinguere informazioni accettabili da quelle dannose, aumentando il rischio di generare risposte inappropriate.

Cosa cambia rispetto alle AI made in USA

Abbiamo visto che l’AI cinese si distingue dai modelli statunitensi per l’architettura ottimizzata e l’approccio open source, elementi che lo rendono un’alternativa interessante rispetto alle soluzioni sviluppate dai competitor. Ma scendiamo più nel pratico, esaminando l’effettiva capacità di competere in scenari complessi tramite alcuni dati.

Confronto delle prestazioni su diversi scenari di utilizzo

DeepSeek-R1 si distingue per il numero estremamente elevato di parametri totali, con oltre 600 miliardi, superando di gran lunga modelli come Llama 3.3, Qwen 2.5-72B e GPT-3.5 Turbo. Ma lLa vera innovazione risiede però nell’adozione dell’Architettura Mixture-of-Experts (MoE). L’architettura MoE si basa sulla suddivisione dei parametri del modello in aree specializzate in specifici task e, grazie alle sue tecniche di reasoning, riesce ad attivare i soli parametri dell’area interessata alla risoluzione di un determinato problema, portando così ad una notevole riduzione del costo computazionale che ne permette anche l’esecuzione su hardware più obsoleti, oltre al risparmio in termini di consumo energetico.

Altro aspetto da valutare è l’adozione della del Multi-head Latent Attention (MLA), evoluzione del Multi-head Attention sul quale si basano i suoi competitor, capace di ridurre il consumo di memoria del 40%, permettendo al modello di essere ancor più efficiente.

Dal punto di vista delle prestazioni, DeepSeek-R1 ottiene risultati competitivi nei test di codifica, mantenendosi in linea con i modelli di OpenAI, Anthropic e Meta. Anche nel ragionamento quantitativo e nella conoscenza generale, il modello mostra prestazioni solide, pur rimanendo leggermente indietro rispetto a OpenAI e Meta. Tuttavia, evidenzia limiti nel ragionamento scientifico, dove si posiziona al di sotto del principale competitor, OpenAI.

In sintesi, DeepSeek-R1 rappresenta un’alternativa potente e avanzata, ma con limitazioni strutturali che ne riducono la versatilità rispetto ai principali modelli AI occidentali.

Pro e Contro rispetto alle altre piattaforme AI: Gemini, Claude, Perplexity, GPT

DeepSeek-R1 si distingue dai principali modelli di AI generativa specialmente nelle modalità con cui gestisce il carico computazionale, il ragionamento, l’accesso alle informazioni e la sicurezza.

Rispetto a Gemini, per esempio, DeepSeek-R1 si concentra maggiormente sull’ottimizzazione delle risorse computazionali, sfruttando solo una parte dei suoi parametri durante le interazioni. Questo lo rende più efficiente dal punto di vista energetico, ma meno integrato con strumenti di ricerca avanzati. Gemini, infatti, beneficia della sua connessione con l’ecosistema Google, offrendo un accesso più ampio alle informazioni in tempo reale.

Nel confronto con Claude 3.5, emerge una differenza sostanziale sul piano della moderazione dei contenuti e della sicurezza. DeepSeek-R1 si distingue per la sua capacità di ragionamento logico e generazione di codice, ma risulta più vulnerabile agli attacchi rispetto a Claude, che invece è progettato per garantire un maggiore controllo sui contenuti generati, riducendo il rischio di risposte inappropriate o potenzialmente dannose.

Per quanto riguarda l’accesso alle informazioni online, Perplexity AI si dimostra nettamente superiore. Questo modello è stato sviluppato come un vero e proprio motore di ricerca basato su AI, capace di fornire risposte basate su fonti aggiornate in tempo reale. DeepSeek-R1, invece, dipende maggiormente dal proprio dataset di addestramento, risultando meno efficace nel fornire informazioni aggiornate o verificate.

Infine, nel confronto con GPT-4o, DeepSeek-R1 adotta un’architettura più leggera, ottimizzando il consumo computazionale a scapito della complessità nei task più avanzati. Se da un lato DeepSeek-R1 garantisce una maggiore efficienza nell’elaborazione delle risorse, dall’altro GPT-4o eccelle in compiti di ragionamento scientifico e analisi approfondita, offrendo prestazioni più solide in ambiti tecnici e accademici.

Come accedere a DeepSeek

Anche DeepSeek, così come OpenAI e tutti i suoi competitor, tratta un’incredibile quantità di dati derivante dal suo utilizzo da parte degli utenti. L’europa e l’italia da sempre adottano una politica ferrea in materia di GDPR e trattamento dei dati personali, pertanto ha immediatamente proceduto a richiedere informazioni all’azienda su come questi dati vengano trattati e custoditi. Dopo una risposta di DeepSeek ritenuta non sufficientemente esaustiva, il garante della privacy ha disposto la limitazione del trattamento dei dati da parte di DeepSeek a titolo di tutela immediata nei confronti degli utenti italiani. Il provvedimento ha causato quindi la rimozione dell’app di DeepSeek sia dal play store che dall’Apple store, mentre il sito web resta al momento ancora disponibile, in attesa di ulteriori sviluppi sul tema.

Guida alla registrazione e primo accesso

L’accesso avviene direttamente tramite browser, senza necessità di installare software specifici. Il servizio supporta sia l’autenticazione con e-mail o numero di telefono, sia l’accesso rapido tramite Google.

L’interfaccia utente è intuitiva e simile a quella di altri chatbot avanzati, con una barra laterale che raccoglie le conversazioni salvate e un’area centrale dedicata all’interazione con il modello.

Per chi accede da dispositivi mobili, come abbiamo accennato, al momento l’app ufficiale non è disponibile in Italia, ma la versione Web offre un’esperienza d’uso fluida e completa, consentendo di sfruttare le funzionalità principali senza limitazioni.

Implicazioni e raccomandazioni per la sicurezza nell’IA

L’intelligenza artificiale sta entrando sempre più in settori critici, dalla sanità alla cybersecurity, rendendo imprescindibile un approccio proattivo alla sicurezza. Ecco perché un’infrastruttura di sicurezza solida è imprescindibile per qualsiasi modello voglia essere competitivo sul mercato.

Il bilanciamento tra efficienza e protezione

Uno dei principali trade-off nel design di modelli AI avanzati riguarda la scelta tra efficienza e sicurezza. DeepSeek-R1, come abbiamo messo in evidenza, si è distinto per l’uso ottimizzato delle risorse computazionali, ma questa efficienza sembra essere stata ottenuta a discapito della robustezza nei controlli di sicurezza.

Le AI di ultima generazione devono affrontare minacce sempre più sofisticate, con attori malevoli che sfruttano le vulnerabilità nei modelli per aggirare i filtri e ottenere risposte in violazione delle policy di sicurezza. OpenAI e Anthropic, ad esempio, hanno integrato sofisticati sistemi di moderazione dei contenuti e addestramento supervisionato, che riducono il rischio di abusi.

Necessità di guardrails esterni e test rigorosi

Per garantire la sicurezza, specialmente nei modelli AI open source o a basso costo computazionale, è fondamentale implementare sistemi di protezione esterni. I cosiddetti guardrails, ovvero barriere di sicurezza software e algoritmiche, possono compensare le carenze nei controlli interni del modello.

A questo proposito, possono essere adottate diverse strategie come:

  • la validazione continua tramite red-teaming, ovvero attraverso simulazioni di attacchi per individuare le vulnerabilità del sistema prima che possano essere sfruttate in ambienti reali;
  • i layer di moderazione indipendenti, che filtrano le risposte dell’AI prima di restituirle all’utente, limitando la possibilità di generare contenuti dannosi;
  • il monitoraggio in tempo reale, con sistemi in grado di rilevare anomalie nei pattern di utilizzo per prevenire exploit o abusi del modello;
  • il miglioramento dei dataset di training, per rafforzare il riconoscimento di contenuti dannosi.

Come impatterà DeepSeek nello scenario globale rispetto all’AI

DeepSeek rappresenta una nuova sfida nel mercato dell’AI, ma la sua affidabilità dipenderà dalla sua capacità di migliorare la sicurezza senza sacrificare le prestazioni.

Al momento, dunque, si tratta di un’alternativa interessante, tuttavia, le sue gravi lacune in termini di sicurezza sollevano dubbi sulla sua effettiva affidabilità.

Se da un lato offre prestazioni competitive a costi ridotti, dall’altro la sua esposizione agli attacchi informatici rappresenta un rischio significativo, soprattutto per le aziende che intendono adottarlo. Il futuro di DeepSeek dipenderà dalla sua capacità di colmare queste lacune e di dimostrarsi un modello sicuro al pari delle AI occidentali.

Se vuoi sfruttare al massimo il potenziale di DeepSeek e degli altri modelli di AI generativa, Data Masters ti mette a disposizione un ampio catalogo formativo di corsi online sull’intelligenza artificiale:

  • il corso di prompt engineering ti offre 5 ore di formazione avanzata, completamente dedicata all’apprendimento delle tecniche più efficaci per dirigere la tecnologia verso il migliore output possibile;
  • i corsi di Generative AI, sono invece la scelta giusta per apprendere tutti gli elementi fondamentali del settore Intelligenza Artificiale e Machine Learning, oltre che per imparare a usare i principali strumenti attualmente presenti sul mercato (Midjourney, Copilot, DALL-E, ecc.).
Vincenzo Maritati

AUTORE:Vincenzo Maritati Apri profilo LinkedIn

Vincenzo è Co-founder di Data Masters, AI Academy per la formazione in Intelligenza Artificiale, Machine Learning e Data Science. È un ricercatore informatico che lavora attivamente nel campo dell’Intelligenza Artificiale, coordinando progetti di ricerca e sviluppo che spaziano in diversi ambiti, come la mobilità intelligente, sistemi di telemedicina, la manutenzione predittiva, il controllo della produzione industriale e la formazione.