Cos'è LoRA (Low-Rank Adaptation)?

LoRA è una tecnica di fine-tuning efficiente per modelli AI di grandi dimensioni. Invece di aggiornare tutti i miliardi di parametri del modello, LoRA introduce due piccole matrici di rango ridotto (A e B) per ogni strato da addestrare. Il prodotto A×B approssima l'aggiornamento del modello con una frazione dei parametri originali — tipicamente meno dell'1% — riducendo drasticamente la VRAM e il tempo di addestramento.

Quanto hardware serve per fare fine-tuning con LoRA?

Con LoRA è possibile fare fine-tuning di modelli da 7B parametri (come Mistral o Llama 3 7B) con una singola GPU da 16-24GB VRAM, come una NVIDIA RTX 4090 o una A10G. Modelli da 13B richiedono circa 24-48GB VRAM. Senza LoRA, gli stessi modelli richiederebbero hardware 4-8 volte più costoso.

Quando conviene usare LoRA per personalizzare un modello aziendale?

LoRA conviene quando hai almeno 200-500 esempi di alta qualità nel tuo dominio specifico (gergo tecnico, procedure interne, contratti tipo) e vuoi che il modello risponda in modo più preciso su quel contesto. Per la maggior parte dei casi d'uso aziendali, il RAG (Retrieval Augmented Generation) è più semplice da implementare e manutenere. LoRA ha senso quando il RAG non basta — ad esempio quando il modello deve 'pensare' nel gergo dell'azienda, non solo trovare informazioni.

LoRA e RAG: quali sono le differenze?

RAG aggiunge contesto al modello al momento della query (recupera documenti rilevanti e li passa come input). LoRA modifica i pesi del modello durante una fase di addestramento preliminare. RAG è più flessibile e aggiornabile; LoRA produce un modello che 'conosce' profondamente un dominio ma richiede riaddetramento quando i dati cambiano. Spesso la combinazione ottimale è un modello fine-tunato con LoRA + RAG per i dati più aggiornati.

LoRA: Addestramento a Matrice Ridotta per LLM On-Premise

Addestrare un modello AI da zero richiede migliaia di GPU e mesi di tempo — fuori dalla portata di qualsiasi PMI. Ma personalizzare un modello già esistente sul proprio dominio aziendale è un'altra storia. LoRA (Low-Rank Adaptation) è la tecnica che ha reso questo possibile su hardware accessibile: una singola GPU da gaming, pochi gigabyte di dati, qualche ora di addestramento. Il risultato è un modello che parla il linguaggio della tua azienda — letteralmente.

Il problema che LoRA risolve

I grandi modelli linguistici (LLM) come Llama 3, Mistral o Phi-4 vengono addestrati su enormi quantità di testo generico. Conoscono quasi tutto, ma non il tuo specifico dominio: il gergo tecnico dei tuoi macchinari, le clausole contrattuali standard del tuo settore, le procedure operative specifiche della tua azienda.

Il metodo tradizionale per specializzare un modello — il full fine-tuning — richiede di aggiornare tutti i miliardi di parametri del modello. Per un modello da 7 miliardi di parametri, questo significa:

Decine di gigabyte di VRAM (spesso più GPU professionali in parallelo)
Giorni di addestramento anche su hardware dedicato
Costi computazionali proibitivi per una PMI
Rischio concreto di "catastrophic forgetting" — il modello dimentica le conoscenze generali

LoRA risolve tutto questo con un'idea matematicamente elegante: invece di modificare i pesi originali del modello, aggiunge una piccola struttura ausiliaria che impara l'adattamento necessario.

Come funziona: la matematica semplificata

Ogni strato di un modello trasformer contiene matrici di pesi che trasformano i dati in ingresso. Queste matrici sono grandi — per un modello da 7B parametri, alcune possono avere dimensioni di 4096×4096, cioè oltre 16 milioni di valori per singolo strato.

L'intuizione chiave di LoRA: gli aggiornamenti necessari per l'adattamento a un nuovo dominio hanno una struttura a basso rango. Non serve modificare tutti i 16 milioni di valori — basta aggiungere due piccole matrici il cui prodotto approssima l'aggiornamento necessario.

W' = W + ΔW = W + B × A

L'aggiornamento ΔW viene scomposto nel prodotto di due matrici di rango ridotto

W = pesi originali (congelati, non modificati) A = matrice di proiezione discendente (d × r) B = matrice di proiezione ascendente (r × d) r = rango (tipicamente 4–64, molto minore di d)

Se il modello originale ha una matrice 4096×4096 (≈16M parametri), con rango r=16 bastano due matrici: 4096×16 + 16×4096 = circa 131K parametri. Una riduzione di oltre il 99% dei parametri da addestrare, con risultati spesso indistinguibili dal full fine-tuning.

I numeri concreti: hardware necessario

<1%

parametri addestrabili rispetto al full fine-tuning

16 GB

VRAM sufficienti per fine-tuning LoRA su modello 7B

2–8h

tempo tipico di addestramento su RTX 4090 con dataset aziendale

Metodo	Full Fine-Tuning	LoRA (r=16)
Parametri addestrabili (7B model)	7.000.000.000	~4.700.000
VRAM minima	80+ GB (A100)	16–24 GB (RTX 4090)
Tempo (500 esempi)	Giorni	2–8 ore
Costo hardware indicativo	15.000–50.000€	Hardware già disponibile
Rischio catastrophic forgetting	Alto	Basso (pesi originali intatti)
Deploy: dimensioni aggiuntive	Nuovo modello completo	Solo adapter (~50–200 MB)

LoRA vs RAG: quando usare quale

Prima di decidere se fare fine-tuning con LoRA, è importante capire la differenza con RAG (Retrieval Augmented Generation) — l'altro approccio principale per specializzare un modello su dati aziendali.

Regola pratica: se hai bisogno che il modello trovi e citi informazioni dai tuoi documenti, usa RAG. Se hai bisogno che il modello ragioni e risponda come un esperto del tuo dominio, considera LoRA. Spesso la combinazione ottimale è LoRA + RAG.

Aspetto	RAG	LoRA Fine-Tuning
Cosa fa	Recupera documenti rilevanti e li passa al modello come contesto	Modifica i pesi del modello per incorporare la conoscenza del dominio
Aggiornamento dati	Aggiorna il database vettoriale (veloce, nessun riaddestramente)	Richiede nuovo addestramento LoRA (ore)
Citazione fonti	Cita sempre la fonte esatta	Non cita, "sa" il dominio
Dataset necessario	Documenti aziendali (qualsiasi quantità)	Esempi input/output (min. 200–500)
Caso d'uso ideale	Ricerca in archivi, chatbot su documenti	Tono aziendale, gergo specifico, ragionamento su dominio
Complessità implementazione	Bassa–Media	Media–Alta

Casi d'uso LoRA per PMI italiane

Ecco quando il fine-tuning con LoRA porta un vantaggio reale rispetto al solo RAG:

Modello che parla come il vostro ufficio legale: genera contratti, clausole e comunicazioni nel formato e nel tono esatto dello studio, non in italiano generico
Assistente tecnico per produzione: risponde a domande sui macchinari usando la terminologia precisa dell'impianto, non quella generica del manuale
Classificazione automatica documenti: riconosce le categorie specifiche della vostra azienda (tipi di clienti, categorie prodotto, classi di urgenza) senza bisogno di regole esplicite
Generazione report settoriali: produce analisi nel formato e con i KPI specifici del vostro settore (es. OEE per manifattura, conversion rate per retail)
Chatbot con tono e stile aziendali: risponde ai clienti con la voce del brand, non con un tono generico da assistente AI

Il processo pratico con Gaulin

Un progetto di fine-tuning LoRA on-premise segue questi passi:

1. Raccolta e preparazione del dataset

Il dataset di addestramento è la parte più critica. Servono esempi nel formato istruzione → risposta ideale. Per la maggior parte dei casi d'uso aziendali, bastano 200–1.000 esempi di alta qualità. Gaulin supporta la preparazione del dataset a partire dai vostri documenti esistenti.

2. Scelta del modello base e dei parametri LoRA

Si seleziona il modello base più adatto (Llama 3, Mistral, Phi-4 in base all'hardware disponibile) e si configurano i parametri LoRA: rango r, alpha, layer target. Per la maggior parte dei casi, r=16 con alpha=32 è un buon punto di partenza.

3. Addestramento on-premise

L'addestramento avviene interamente sui server dell'azienda usando tool come LLaMA-Factory o Axolotl. I dati aziendali non escono mai dalla rete. La durata tipica va da 2 a 8 ore su una RTX 4090.

4. Valutazione e deploy dell'adapter

Il risultato dell'addestramento è un piccolo adapter LoRA (file da 50–200 MB) che si carica sopra il modello base in Ollama o vLLM. Il modello base rimane invariato — l'adapter può essere aggiornato o rimosso senza impattare il resto del sistema.

Vuoi personalizzare un modello AI sul tuo dominio?

Valutiamo insieme se LoRA, RAG o una combinazione dei due è la scelta giusta per il tuo caso specifico. Analisi gratuita in 30 minuti.

Prenota la chiamata gratuita →

LoRA: Addestramento a Matrice Ridotta per modelli AI on-premise

Il problema che LoRA risolve

Come funziona: la matematica semplificata

I numeri concreti: hardware necessario

LoRA vs RAG: quando usare quale

Casi d'uso LoRA per PMI italiane

Il processo pratico con Gaulin

1. Raccolta e preparazione del dataset

2. Scelta del modello base e dei parametri LoRA

3. Addestramento on-premise

4. Valutazione e deploy dell'adapter

Vuoi personalizzare un modello AI sul tuo dominio?

Domande frequenti su LoRA

LoRA: Addestramento a Matrice Ridotta per modelli AI on-premise

Il problema che LoRA risolve

Come funziona: la matematica semplificata

I numeri concreti: hardware necessario

LoRA vs RAG: quando usare quale

Casi d'uso LoRA per PMI italiane

Il processo pratico con Gaulin

1. Raccolta e preparazione del dataset

2. Scelta del modello base e dei parametri LoRA

3. Addestramento on-premise

4. Valutazione e deploy dell'adapter

Vuoi personalizzare un modello AI sul tuo dominio?

Domande frequenti su LoRA

Approfondimenti correlati

AI self-hosted e modelli open-source on-premise

Come configurare un Local LLM Server con Ollama

Chatbot aziendale su documenti con tecnologia RAG

Llama 3, Mistral, Phi-4: quale modello scegliere nel 2026

AI Agent: cosa sono e come funzionano in azienda

Tutte le domande frequenti sull'AI on-premise