Libero
TECH NEWS

DeepSeek, il modello AI low-cost pronto a sfidare i big del settore

DeepSeek V3 è il modello linguistico di grandi dimensioni di una startup cinese che sta sfidando apertamente i colossi del settore come Google, Meta e OpenAI

Pubblicato:

DeepSeek V3 Fonte foto: GitHub

Vista la crescente diffusione di strumenti basati su modelli di intelligenza artificiale generativa come Gemini di Google e ChatGPT di OpenAI, non stupisce affatto che sempre più attori stiano cercando di entrare in questo settore, nel tentativo di ritagliarsi la propria fetta di utenza.

Tra i nomi più recenti, c’è una startup cinese, DeepSeek, che proprio negli ultimi tempi ha portato sul mercato un nuovo modello linguistico di grandi dimensioni (LLM) che, stando alle dichiarazioni dell’azienda, sarebbe in grado di eguagliare e, addirittura, di superare le prestazioni dei leader del settore appena citati.

Cosa sappiamo dell’LLM di DeepSeek

Il nuovo LLM cinese prende il nome di DeepSeek V3 è un modello linguistico con 671 miliardi di parametri e che, cosa davvero stupefacente, è stato addestrato dall’azienda sviluppatrice in soli due mesi, dopo un corposo investimento di ben 5,58 milioni di dollari.

Le informazioni al riguardo provengono da SCMP, una testata cinese, che ha lodato il lavoro di DeepSeek, sottolineando che questi incredibili risultati sono stati ottenuti impiegando un quantitativo di risorse molto inferiore rispetto ai modelli concorrenti sviluppati dai colossi del settore come Meta, Google e OpenAI. Ma nonostante questo, V3 con i suoi 671 miliardi di parametri (che gli consentono di adattarsi a qualsiasi situazione e anche di effettuare previsioni accurate), va a posizionarsi tra i modelli più avanzati a livello globale; anche qui un risultato eccezionale se pensiamo che proviene da una startup.

Il successo di questo progetto, stando a quanto si legge su SCMP, è da attribuirsi a una nuova architettura progettata per un addestramento economicamente efficiente che ha permesso al modello V3 di essere addestrato con 2,78 milioni di ore di GPU contro i 30,8 milioni di ore di GPU impiegate da Meta per il suo modello Llama 3.1. Altro fattore determinante per questo progetto è stato l’utilizzo delle GPU Nvidia H800, una versione adattata per il mercato cinese (soggetto a restrizioni a causa delle sanzioni degli USA) delle ben più potenti Nvidia H100. Nonostante l’uso di una GPU meno performante, però, DeepSeek è riuscita ad ottenere prestazioni superiori all’LLM di Meta.

E non si parla di dati senza fondamento, ci sono i benchmark a dimostrazione del fatto che DeepSeek V3 supera Llama 3.1 e Qwen 2.5 di Alibaba in diversi test che valutano le capacità di un sistema di intelligenza artificiale in aree quali la comprensione e la generazione del testo, la conoscenza di esperti di settore, la programmazione e la risoluzione di problemi matematici. Sempre in base a questi test, si vede che DeepSeek V3 ha raggiunto risultati pari a quelli di GPT-4 di OpenAI e Claude 3.5 Sonnet di Anthropic, dimostrando il suo valore andando a eguagliare due dei modelli più avanzati al mondo.

Come provare DeepSeek V3

Al momento DeepSeek V3 è disponibile anche con una licenza che consente anche l’utilizzo commerciale e il modello può essere provato attraverso DeepSeek Chat oppure integrabile tramite API. In alternativa, è accessibile su GitHub con licenza MIT, con la possibilità, dunque, di essere utilizzato anche da sviluppatori e ricercatori.

Dai dati a disposizione si vede che questo LLM garantisce ottimi risultati in una grande varietà di compiti, dal coding alla traduzione; tuttavia essendo stato sviluppato in Cina, il modello deve sottostare a delle “regolamentazioni governative” che ne influenzano le risposte su temi sensibili, come la politica ad esempio.

Libero Shopping