Guida Tecnica · LLM · On-Premise 📅 12 Marzo 2026 ⏱ 8 min di lettura

LLM on-premise per PMI: confronto modelli 2026 (Llama, Mistral, Phi)

Scegliere quale Large Language Model installare on-premise in un'azienda italiana non è una decisione banale. Le variabili in gioco sono molte: l'hardware disponibile, i casi d'uso prioritari, la lingua (l'italiano è ancora un banco di prova selettivo per molti modelli), i requisiti di privacy e il budget. Questa guida è pensata per chi deve prendere quella decisione senza avere un team di ricercatori AI alle spalle.

Perché on-premise e non API cloud

Prima di entrare nel confronto dei modelli, vale la pena ricordare perché un'azienda italiana sceglie un LLM on-premise invece delle API di OpenAI, Anthropic o Google.

Il motivo principale è il controllo dei dati. Quando invii una query a un'API cloud, i tuoi dati di business — domande dei dipendenti, contenuti dei documenti, dati di produzione — vengono elaborati su server che non controlli, spesso fuori dall'UE. Per molte PMI italiane con obblighi GDPR e dati sensibili (brevetti, contratti, dati di clienti) questo è un rischio inaccettabile, o semplicemente non conforme al loro sistema di gestione della sicurezza.

Il secondo motivo è il costo a lungo termine. Un abbonamento API che cresce con l'uso, in 3 anni, costa spesso più di un sistema on-premise su misura installato una volta sola.

I modelli principali da valutare nel 2026

Llama 3.1 / 3.2 (Meta)

Punti di forza: il modello open-source più maturo e diffuso. Eccellente in italiano con le versioni 8B e 70B. Ampia comunità, ottima documentazione, molti strumenti di fine-tuning disponibili. La versione 70B richiede GPU significativa (≥40GB VRAM) ma offre qualità vicina ai modelli commerciali.

Quando sceglierlo: progetti RAG su documenti aziendali complessi, assistenti che richiedono ragionamento articolato, applicazioni dove la qualità del linguaggio è prioritaria.

Requisiti minimi: Llama 3.1 8B — 16GB RAM + GPU con 8GB VRAM (o CPU lenta). Llama 3.1 70B — server con 80GB+ VRAM o quantizzazione a 4-bit su 40GB.

Mistral 7B / Mixtral 8x7B

Punti di forza: rapporto qualità/peso eccellente. Mistral 7B gira bene anche su hardware modesto (una buona GPU consumer da 12GB VRAM). Mixtral 8x7B offre qualità superiore con architettura Mixture of Experts — tecnicamente richiede meno memoria di un modello denso equivalente.

Quando sceglierlo: chatbot aziendali, risposta a FAQ, classificazione documenti. Ottimo per chi ha hardware limitato e vuole risultati decenti subito.

Requisiti minimi: Mistral 7B — 8GB VRAM (GPU consumer) o 16GB RAM (CPU, lento). Mixtral 8x7B — 24GB VRAM o 48GB RAM.

Phi-3 / Phi-4 (Microsoft)

Punti di forza: modelli piccoli ma sorprendentemente capaci su compiti strutturati. Phi-3 Mini (3.8B) gira anche su laptop con CPU moderna. Ottimo per casi d'uso dove la query è sempre strutturata (Text-to-SQL, estrazione dati, classificazione).

Quando sceglierlo: ambienti con hardware molto limitato, edge computing, applicazioni embedded in macchinari industriali. Non ideale per conversazioni libere in italiano — il linguaggio è meno fluente.

Requisiti minimi: Phi-3 Mini — 4GB RAM (CPU), latenza accettabile. Phi-3 Medium — 8GB VRAM.

Gemma 2 (Google DeepMind)

Punti di forza: modello recente con buona qualità in italiano. La versione 9B offre risultati competitivi con Llama 3.1 8B su molti benchmark. Licenza permissiva per uso commerciale.

Quando sceglierlo: alternativa a Llama quando si vuole diversificare dal stack Meta, o quando si lavora già in ecosistema Google (Vertex AI on-premise).

Come scegliere: la matrice decisionale

Caso d'uso Hardware limitato Hardware medio Hardware avanzato
Chatbot documenti ITPhi-3 MediumMistral 7BLlama 3.1 70B
Text-to-SQLPhi-3 MiniMistral 7B fine-tunedLlama 3.1 8B
Analisi documenti lunghiNon consigliatoGemma 2 9BMixtral 8x7B
Assistente clientiMistral 7BLlama 3.1 8BLlama 3.1 70B
Classificazione/estrazionePhi-3 MiniPhi-3 MediumLlama 3.1 8B

La domanda che nessuno fa: il fine-tuning conviene?

Per la maggior parte delle PMI italiane, la risposta è no — almeno all'inizio. Il fine-tuning richiede dati etichettati, competenze specifiche e tempo. Il RAG (Retrieval Augmented Generation), dove il modello risponde usando i tuoi documenti come contesto, è più rapido da implementare e aggiornabile senza riaddestrare il modello.

Il fine-tuning diventa interessante solo quando il dominio è molto specifico (gergo tecnico di nicchia non coperto dai corpus di training) e si hanno almeno 1.000–2.000 esempi domanda/risposta etichettati e corretti.

Conclusione pratica

Per una PMI italiana che parte da zero: Llama 3.1 8B o Mistral 7B sono il punto di partenza giusto per l'80% dei casi d'uso. Girano su hardware ragionevole, hanno ottimo supporto della comunità e l'italiano è sufficientemente buono per applicazioni aziendali. Si sale a modelli più grandi solo quando i requisiti di qualità lo giustificano.

La scelta del modello è meno importante della qualità dell'implementazione: un buon sistema RAG con Mistral 7B batte un'implementazione sciatta con Llama 70B in quasi tutti i casi d'uso pratici.

Hai domande su come implementare questo nella tua azienda?

30 minuti di chiamata gratuita con un tecnico. Nessun commerciale, nessun impegno — solo risposte concrete al tuo caso specifico.

Prenota la chiamata gratuita →