Scegliere quale Large Language Model installare on-premise in un'azienda italiana non è una decisione banale. Le variabili in gioco sono molte: l'hardware disponibile, i casi d'uso prioritari, la lingua (l'italiano è ancora un banco di prova selettivo per molti modelli), i requisiti di privacy e il budget. Questa guida è pensata per chi deve prendere quella decisione senza avere un team di ricercatori AI alle spalle.
Perché on-premise e non API cloud
Prima di entrare nel confronto dei modelli, vale la pena ricordare perché un'azienda italiana sceglie un LLM on-premise invece delle API di OpenAI, Anthropic o Google.
Il motivo principale è il controllo dei dati. Quando invii una query a un'API cloud, i tuoi dati di business — domande dei dipendenti, contenuti dei documenti, dati di produzione — vengono elaborati su server che non controlli, spesso fuori dall'UE. Per molte PMI italiane con obblighi GDPR e dati sensibili (brevetti, contratti, dati di clienti) questo è un rischio inaccettabile, o semplicemente non conforme al loro sistema di gestione della sicurezza.
Il secondo motivo è il costo a lungo termine. Un abbonamento API che cresce con l'uso, in 3 anni, costa spesso più di un sistema on-premise su misura installato una volta sola.
I modelli principali da valutare nel 2026
Llama 3.1 / 3.2 (Meta)
Punti di forza: il modello open-source più maturo e diffuso. Eccellente in italiano con le versioni 8B e 70B. Ampia comunità, ottima documentazione, molti strumenti di fine-tuning disponibili. La versione 70B richiede GPU significativa (≥40GB VRAM) ma offre qualità vicina ai modelli commerciali.
Quando sceglierlo: progetti RAG su documenti aziendali complessi, assistenti che richiedono ragionamento articolato, applicazioni dove la qualità del linguaggio è prioritaria.
Requisiti minimi: Llama 3.1 8B — 16GB RAM + GPU con 8GB VRAM (o CPU lenta). Llama 3.1 70B — server con 80GB+ VRAM o quantizzazione a 4-bit su 40GB.
Mistral 7B / Mixtral 8x7B
Punti di forza: rapporto qualità/peso eccellente. Mistral 7B gira bene anche su hardware modesto (una buona GPU consumer da 12GB VRAM). Mixtral 8x7B offre qualità superiore con architettura Mixture of Experts — tecnicamente richiede meno memoria di un modello denso equivalente.
Quando sceglierlo: chatbot aziendali, risposta a FAQ, classificazione documenti. Ottimo per chi ha hardware limitato e vuole risultati decenti subito.
Requisiti minimi: Mistral 7B — 8GB VRAM (GPU consumer) o 16GB RAM (CPU, lento). Mixtral 8x7B — 24GB VRAM o 48GB RAM.
Phi-3 / Phi-4 (Microsoft)
Punti di forza: modelli piccoli ma sorprendentemente capaci su compiti strutturati. Phi-3 Mini (3.8B) gira anche su laptop con CPU moderna. Ottimo per casi d'uso dove la query è sempre strutturata (Text-to-SQL, estrazione dati, classificazione).
Quando sceglierlo: ambienti con hardware molto limitato, edge computing, applicazioni embedded in macchinari industriali. Non ideale per conversazioni libere in italiano — il linguaggio è meno fluente.
Requisiti minimi: Phi-3 Mini — 4GB RAM (CPU), latenza accettabile. Phi-3 Medium — 8GB VRAM.
Gemma 2 (Google DeepMind)
Punti di forza: modello recente con buona qualità in italiano. La versione 9B offre risultati competitivi con Llama 3.1 8B su molti benchmark. Licenza permissiva per uso commerciale.
Quando sceglierlo: alternativa a Llama quando si vuole diversificare dal stack Meta, o quando si lavora già in ecosistema Google (Vertex AI on-premise).
Come scegliere: la matrice decisionale
| Caso d'uso | Hardware limitato | Hardware medio | Hardware avanzato |
|---|---|---|---|
| Chatbot documenti IT | Phi-3 Medium | Mistral 7B | Llama 3.1 70B |
| Text-to-SQL | Phi-3 Mini | Mistral 7B fine-tuned | Llama 3.1 8B |
| Analisi documenti lunghi | Non consigliato | Gemma 2 9B | Mixtral 8x7B |
| Assistente clienti | Mistral 7B | Llama 3.1 8B | Llama 3.1 70B |
| Classificazione/estrazione | Phi-3 Mini | Phi-3 Medium | Llama 3.1 8B |
La domanda che nessuno fa: il fine-tuning conviene?
Per la maggior parte delle PMI italiane, la risposta è no — almeno all'inizio. Il fine-tuning richiede dati etichettati, competenze specifiche e tempo. Il RAG (Retrieval Augmented Generation), dove il modello risponde usando i tuoi documenti come contesto, è più rapido da implementare e aggiornabile senza riaddestrare il modello.
Il fine-tuning diventa interessante solo quando il dominio è molto specifico (gergo tecnico di nicchia non coperto dai corpus di training) e si hanno almeno 1.000–2.000 esempi domanda/risposta etichettati e corretti.
Conclusione pratica
Per una PMI italiana che parte da zero: Llama 3.1 8B o Mistral 7B sono il punto di partenza giusto per l'80% dei casi d'uso. Girano su hardware ragionevole, hanno ottimo supporto della comunità e l'italiano è sufficientemente buono per applicazioni aziendali. Si sale a modelli più grandi solo quando i requisiti di qualità lo giustificano.
La scelta del modello è meno importante della qualità dell'implementazione: un buon sistema RAG con Mistral 7B batte un'implementazione sciatta con Llama 70B in quasi tutti i casi d'uso pratici.
Hai domande su come implementare questo nella tua azienda?
30 minuti di chiamata gratuita con un tecnico. Nessun commerciale, nessun impegno — solo risposte concrete al tuo caso specifico.
Prenota la chiamata gratuita →