Addestrare un modello AI da zero richiede migliaia di GPU e mesi di tempo — fuori dalla portata di qualsiasi PMI. Ma personalizzare un modello già esistente sul proprio dominio aziendale è un'altra storia. LoRA (Low-Rank Adaptation) è la tecnica che ha reso questo possibile su hardware accessibile: una singola GPU da gaming, pochi gigabyte di dati, qualche ora di addestramento. Il risultato è un modello che parla il linguaggio della tua azienda — letteralmente.
Il problema che LoRA risolve
I grandi modelli linguistici (LLM) come Llama 3, Mistral o Phi-4 vengono addestrati su enormi quantità di testo generico. Conoscono quasi tutto, ma non il tuo specifico dominio: il gergo tecnico dei tuoi macchinari, le clausole contrattuali standard del tuo settore, le procedure operative specifiche della tua azienda.
Il metodo tradizionale per specializzare un modello — il full fine-tuning — richiede di aggiornare tutti i miliardi di parametri del modello. Per un modello da 7 miliardi di parametri, questo significa:
- Decine di gigabyte di VRAM (spesso più GPU professionali in parallelo)
- Giorni di addestramento anche su hardware dedicato
- Costi computazionali proibitivi per una PMI
- Rischio concreto di "catastrophic forgetting" — il modello dimentica le conoscenze generali
LoRA risolve tutto questo con un'idea matematicamente elegante: invece di modificare i pesi originali del modello, aggiunge una piccola struttura ausiliaria che impara l'adattamento necessario.
Come funziona: la matematica semplificata
Ogni strato di un modello trasformer contiene matrici di pesi che trasformano i dati in ingresso. Queste matrici sono grandi — per un modello da 7B parametri, alcune possono avere dimensioni di 4096×4096, cioè oltre 16 milioni di valori per singolo strato.
L'intuizione chiave di LoRA: gli aggiornamenti necessari per l'adattamento a un nuovo dominio hanno una struttura a basso rango. Non serve modificare tutti i 16 milioni di valori — basta aggiungere due piccole matrici il cui prodotto approssima l'aggiornamento necessario.
L'aggiornamento ΔW viene scomposto nel prodotto di due matrici di rango ridotto
Se il modello originale ha una matrice 4096×4096 (≈16M parametri), con rango r=16 bastano due matrici: 4096×16 + 16×4096 = circa 131K parametri. Una riduzione di oltre il 99% dei parametri da addestrare, con risultati spesso indistinguibili dal full fine-tuning.
I numeri concreti: hardware necessario
parametri addestrabili rispetto al full fine-tuning
VRAM sufficienti per fine-tuning LoRA su modello 7B
tempo tipico di addestramento su RTX 4090 con dataset aziendale
| Metodo | Full Fine-Tuning | LoRA (r=16) |
|---|---|---|
| Parametri addestrabili (7B model) | 7.000.000.000 | ~4.700.000 |
| VRAM minima | 80+ GB (A100) | 16–24 GB (RTX 4090) |
| Tempo (500 esempi) | Giorni | 2–8 ore |
| Costo hardware indicativo | 15.000–50.000€ | Hardware già disponibile |
| Rischio catastrophic forgetting | Alto | Basso (pesi originali intatti) |
| Deploy: dimensioni aggiuntive | Nuovo modello completo | Solo adapter (~50–200 MB) |
LoRA vs RAG: quando usare quale
Prima di decidere se fare fine-tuning con LoRA, è importante capire la differenza con RAG (Retrieval Augmented Generation) — l'altro approccio principale per specializzare un modello su dati aziendali.
Regola pratica: se hai bisogno che il modello trovi e citi informazioni dai tuoi documenti, usa RAG. Se hai bisogno che il modello ragioni e risponda come un esperto del tuo dominio, considera LoRA. Spesso la combinazione ottimale è LoRA + RAG.
| Aspetto | RAG | LoRA Fine-Tuning |
|---|---|---|
| Cosa fa | Recupera documenti rilevanti e li passa al modello come contesto | Modifica i pesi del modello per incorporare la conoscenza del dominio |
| Aggiornamento dati | Aggiorna il database vettoriale (veloce, nessun riaddestramente) | Richiede nuovo addestramento LoRA (ore) |
| Citazione fonti | Cita sempre la fonte esatta | Non cita, "sa" il dominio |
| Dataset necessario | Documenti aziendali (qualsiasi quantità) | Esempi input/output (min. 200–500) |
| Caso d'uso ideale | Ricerca in archivi, chatbot su documenti | Tono aziendale, gergo specifico, ragionamento su dominio |
| Complessità implementazione | Bassa–Media | Media–Alta |
Casi d'uso LoRA per PMI italiane
Ecco quando il fine-tuning con LoRA porta un vantaggio reale rispetto al solo RAG:
- Modello che parla come il vostro ufficio legale: genera contratti, clausole e comunicazioni nel formato e nel tono esatto dello studio, non in italiano generico
- Assistente tecnico per produzione: risponde a domande sui macchinari usando la terminologia precisa dell'impianto, non quella generica del manuale
- Classificazione automatica documenti: riconosce le categorie specifiche della vostra azienda (tipi di clienti, categorie prodotto, classi di urgenza) senza bisogno di regole esplicite
- Generazione report settoriali: produce analisi nel formato e con i KPI specifici del vostro settore (es. OEE per manifattura, conversion rate per retail)
- Chatbot con tono e stile aziendali: risponde ai clienti con la voce del brand, non con un tono generico da assistente AI
Il processo pratico con Gaulin
Un progetto di fine-tuning LoRA on-premise segue questi passi:
1. Raccolta e preparazione del dataset
Il dataset di addestramento è la parte più critica. Servono esempi nel formato istruzione → risposta ideale. Per la maggior parte dei casi d'uso aziendali, bastano 200–1.000 esempi di alta qualità. Gaulin supporta la preparazione del dataset a partire dai vostri documenti esistenti.
2. Scelta del modello base e dei parametri LoRA
Si seleziona il modello base più adatto (Llama 3, Mistral, Phi-4 in base all'hardware disponibile) e si configurano i parametri LoRA: rango r, alpha, layer target. Per la maggior parte dei casi, r=16 con alpha=32 è un buon punto di partenza.
3. Addestramento on-premise
L'addestramento avviene interamente sui server dell'azienda usando tool come LLaMA-Factory o Axolotl. I dati aziendali non escono mai dalla rete. La durata tipica va da 2 a 8 ore su una RTX 4090.
4. Valutazione e deploy dell'adapter
Il risultato dell'addestramento è un piccolo adapter LoRA (file da 50–200 MB) che si carica sopra il modello base in Ollama o vLLM. Il modello base rimane invariato — l'adapter può essere aggiornato o rimosso senza impattare il resto del sistema.
Vuoi personalizzare un modello AI sul tuo dominio?
Valutiamo insieme se LoRA, RAG o una combinazione dei due è la scelta giusta per il tuo caso specifico. Analisi gratuita in 30 minuti.
Prenota la chiamata gratuita →