Assistente AI privato self-hosted: guida all'acquisto 2026

Vuoi un assistente AI che non riversi la tua casella di posta, i tuoi contratti o gli appunti dei clienti nel set di addestramento di qualcun altro. Vuoi anche che funzioni davvero: voce, attività pianificate, integrazioni, lo standard di base noioso del 2026. Questi due obiettivi tirano in direzioni opposte, e il marketing dell'"AI privata" è ormai così rumoroso che è difficile capire quali prodotti mantengano davvero privati i tuoi dati e quali si limitino a dichiararlo sulla homepage.

Questa guida è una mappa. Ordiniamo le opzioni reali in quattro categorie oneste, mostriamo quanto costa ciascuna categoria in denaro e fatica, e chiudiamo con una checklist che puoi applicare a qualsiasi prodotto, incluso il nostro, prima di affidargli i tuoi dati.

Un piccolo server ben illuminato che esegue silenziosamente un carico di lavoro AI privato all'estremità di una scrivania

Cosa deve significare davvero "privato"

Un assistente AI veramente privato deve tenere tre cose fuori dalla portata di qualcun altro, contemporaneamente:

I pesi del modello o la chiamata di inferenza. O il modello gira su hardware che controlli tu, oppure la chiamata API passa attraverso un contratto che puoi leggere.
La cronologia delle conversazioni. Ogni prompt, ogni risposta, ogni file caricato. Se un fornitore lo archivia in chiaro, "privato" è una forzatura.
La memoria e i segreti che l'assistente accumula. Contesto personale, chiavi API, token del calendario. Di solito sono i bersagli di maggior valore.

Se un prodotto fa bene due cose su tre ma la terza perde dati, non hai un assistente privato. Hai una pagina di marketing. Metti alla prova ogni opzione, inclusa la nostra, su tutte e tre allo stesso tempo.

Le quattro categorie reali di "AI privata" nel 2026

La versione onesta del panorama è questa. Ogni riga è un compromesso reale, non una classifica.

Categoria	Esempi	Cosa resta in locale	Cosa no	Ideale per
Completamente locale	Ollama, Jan.ai, AnythingLLM	Pesi del modello, prompt, cronologia, memoria	Niente (se ti fermi qui)	Uso air-gapped, carichi di lavoro regolamentati, appassionati con una GPU
SaaS con enclave cifrata	Maple AI	Prompt in chiaro (elaborato in un'enclave)	Giri su hardware di qualcun altro	Chi vuole una forte privacy crittografica senza un homelab
SaaS privacy-first	Lumo (Proton), Kagi Assistant	Cronologia archiviata (cifrata lato client)	In chiaro durante l'inferenza, scelta del modello limitata	Chi è già immerso in un ecosistema di privacy come Proton
Runtime self-hosted BYOK	Hermify, OpenClaw, OpenWebUI	Cronologia, memoria, segreti, integrazioni	La chiamata di inferenza, per scelta progettuale	Operatori singoli e piccoli team che vogliono un vero assistente senza comprare una GPU

La prima riga è il gold standard per la privacy grezza dei dati, e l'ultima riga è ciò che la maggior parte delle persone sceglie davvero una volta calcolato il prezzo delle alternative. Le due centrali sono opzioni reali per situazioni specifiche, non scelte di default.

Completamente locale: massima privacy, costo reale

Uno stack completamente locale, Ollama più una UI come Jan.ai, AnythingLLM o Open WebUI, tiene tutto sul tuo hardware. Niente esce dalla macchina. È ciò che intendono i team di compliance quando dicono "i dati non possono uscire dall'edificio".

Il problema è l'hardware. Far girare un modello locale utile nel 2026 significa almeno 16-32 GB di RAM, idealmente un Mac recente con Apple Silicon o una GPU con 16-24 GB di VRAM. Otterrai un modello sensibilmente più debole della frontiera cloud, e lo otterrai più lentamente. Per attività di routine, riassunti, bozze, revisione del codice, va bene. Per ragionamenti complessi, si vede.

In termini di costo, l'hardware è il picco. Oltre a quello, paghi la bolletta dell'elettricità. Se hai già la macchina, il completamente locale è l'opzione più economica di questo elenco.

SaaS con enclave cifrata: privacy crittografica su hardware di qualcun altro

Servizi con enclave cifrate come Maple AI eseguono l'inferenza dentro enclave isolate via hardware: il tuo prompt viene decifrato solo all'interno dell'enclave, elaborato in memoria, e il sistema host non vede mai il testo in chiaro. Il codice dell'enclave è pubblicato e verificabile da remoto (remote attestation), così puoi verificare che la distribuzione corrisponda al sorgente pubblico.

È l'approccio "AI in cloud privato" più serio dal punto di vista crittografico disponibile senza possedere hardware. Maple supporta Llama 3.3 70B, DeepSeek R1, Qwen 2.5 72B e altri. I prezzi partono da circa $5,99/mese, con un piano Pro a $20/mese per i modelli più grandi e il caricamento di file.

Il compromesso: dipendi comunque dall'operatore che gestisce correttamente la propria enclave per sempre. Se questo livello è accettabile, è una scelta solida.

SaaS privacy-first: bell'ecosistema, soffitto reale

Strumenti come Lumo di Proton archiviano la tua cronologia cifrata lato client: il server non può leggere le conversazioni salvate. L'inferenza vera e propria, però, avviene sui server dell'operatore, su qualunque modello supportino, con il prompt in chiaro al modello.

Se paghi già per Proton Mail, Proton Drive e Proton VPN, Lumo è un'aggiunta sensata a circa $13/mese. Se non lo fai, il soffitto della privacy è più basso di quanto il marketing lasci intendere, e la scelta del modello è limitata alle opzioni open-source che il fornitore distribuisce.

Runtime self-hosted BYOK: il default pragmatico del 2026

È la categoria in cui rientra Hermify, insieme a progetti self-hosted come OpenClaw e OpenWebUI. Il runtime, la cronologia delle conversazioni, la memoria, i segreti cifrati, le integrazioni: tutto questo vive su un server che controlli tu, di solito un VPS da $5-20. La chiamata di inferenza va a un provider di modelli in cloud usando la tua chiave API (Bring Your Own Key, BYOK), che sia la Cloud Security Alliance sia il NIST raccomandano rispetto alle soluzioni cloud a chiave condivisa.

Non ottieni la garanzia completamente locale del "i dati non escono mai dall'edificio". Ottieni invece:

Un vero assistente: voce, attività pianificate, Telegram, Discord, skill personalizzate, memoria persistente.
Una bolletta mensile noiosa: all'incirca $5-20 per il VPS più quel che spendi in token, spesso meno di un singolo posto SaaS.
Una storia chiara sulla privacy: cronologia e memoria sulla tua macchina, inferenza sotto un contratto che hai firmato tu.

Per operatori singoli, piccoli team e consulenti che gestiscono i dati dei clienti, è l'opzione che viene davvero usata. Non è la scelta più estrema dal punto di vista crittografico, e non dovrebbe essere venduta come tale. È quella pragmatica.

Uno schermo diviso che confronta un modello locale su un server domestico accanto a un runtime self-hosted che chiama l'API di un modello in cloud

Un rapido albero decisionale

Salta la filosofia e rispondi a quattro domande:

Sei legalmente obbligato a tenere i dati sul tuo hardware? Se sì, vai completamente locale. Ollama più Open WebUI è un punto di partenza ragionevole. Metti in budget una macchina seria.
Vuoi garanzie crittografiche ma niente homelab? Guarda i servizi con enclave cifrate come Maple AI. Leggi la documentazione sull'attestation prima di iscriverti.
Sei già in un ecosistema di privacy come Proton e ti basta una chat occasionale? Lumo o simili andranno bene.
Hai bisogno di un vero assistente, con integrazioni, memoria, voce, attività pianificate, su un budget ridotto, e ti senti a tuo agio con una chiamata di inferenza in cloud sotto la tua chiave API? Un runtime self-hosted BYOK è il percorso più economico e flessibile. Hermify è un'opzione, OpenClaw è un'altra, OpenWebUI è una terza.

Non c'è un'unica risposta giusta. C'è la risposta che corrisponde al tuo modello di minaccia, al tuo budget hardware e alla tua tolleranza nel mettere mano ai file di configurazione.

La checklist di audit da applicare a chiunque

Prima di affidare i dati dei tuoi clienti a un qualsiasi prodotto AI "privato", incluso il nostro, ottieni risposte chiare a queste domande:

Dove gira davvero il modello? Sul tuo hardware, su quello del fornitore o su quello di una terza parte?
Dove vive la cronologia delle conversazioni? In chiaro, cifrata lato server o cifrata lato client?
Come vengono archiviati le chiavi API e i token di integrazione? In chiaro, cifrati a riposo (AES-256 o equivalente) o cifrati con chiavi che controlli tu?
Cosa registra il fornitore nei log, e per quanto tempo?
Se il fornitore scompare domani, cosa succede ai tuoi dati? Esiste un percorso di esportazione?
Il codice è open source o verificabile? Puoi leggere ciò che gira davvero?

Un prodotto che non sa rispondere chiaramente a queste domande non è privato. È opaco, che è una cosa diversa.

Dove si colloca Hermify, onestamente

Hermify è un runtime self-hosted BYOK per Hermes Agent, costruito per la categoria pragmatica: cronologia, memoria e segreti cifrati su un container per ogni utente, inferenza tramite la tua chiave API. È lo strumento giusto se vuoi un vero assistente, Telegram e Discord, modalità vocale, attività pianificate, skill personalizzate, senza tirare su una GPU a casa.

Non è lo strumento giusto se il tuo team di compliance ha scritto "nessuna inferenza di terze parti, mai" su un pezzo di carta. In quel caso, uno stack completamente locale su hardware di tua proprietà è la risposta, e te lo diremmo noi stessi.

Se la forma del self-hosted BYOK si adatta al modo in cui lavori davvero, inizia con Hermify. Se preferisci prima vedere i compromessi, l'analisi hosting vs self-hosting percorre la stessa decisione da un'angolazione diversa.