Assistant IA privé auto-hébergé : guide 2026

Vous voulez un assistant IA qui n'alimente pas votre messagerie, vos contrats ou les notes de vos clients avec le jeu d'entraînement de quelqu'un d'autre. Vous voulez aussi qu'il fonctionne vraiment : voix, tâches planifiées, intégrations, le minimum vital de 2026. Ces deux objectifs tirent dans des directions opposées, et le marketing autour de "l'IA privée" est devenu si bruyant qu'il est difficile de distinguer les produits qui protègent réellement vos données de ceux qui se contentent de le dire en page d'accueil.

Ce guide est une carte. On trie les vraies options en quatre catégories honnêtes, on montre ce que chacune coûte en argent et en effort, et on termine par une checklist que vous pouvez appliquer à n'importe quel produit, le nôtre inclus, avant de lui confier vos données.

Petit serveur bien éclairé exécutant discrètement une charge IA privée au coin d'un bureau

Ce que "privé" doit vraiment vouloir dire

Un assistant IA réellement privé doit garder trois choses hors de portée de tiers en même temps :

Les poids du modèle ou l'appel d'inférence. Soit le modèle tourne sur du matériel que vous contrôlez, soit l'appel API passe par un contrat que vous pouvez lire.
L'historique des conversations. Chaque prompt, chaque réponse, chaque fichier importé. Si un éditeur stocke ça en clair, "privé" est un grand mot.
La mémoire et les secrets que l'assistant accumule. Contexte personnel, clés d'API, jetons d'agenda. Ce sont en général les cibles à plus forte valeur.

Si un produit coche deux cases sur trois mais que la troisième fuit, vous n'avez pas un assistant privé. Vous avez une page marketing. Appliquez les trois exigences en même temps à chaque option, y compris la nôtre.

Les quatre vraies catégories d'"IA privée" en 2026

La version honnête du paysage ressemble à ceci. Chaque ligne est un arbitrage, pas un classement.

Catégorie	Exemples	Ce qui reste en local	Ce qui ne reste pas	Pour qui
100% local	Ollama, Jan.ai, AnythingLLM	Poids, prompts, historique, mémoire	Rien (si vous vous arrêtez là)	Environnements isolés, charges régulées, bidouilleurs avec GPU
SaaS à enclave chiffrée	Maple AI	Prompt en clair (traité dans l'enclave)	Vous tournez sur du matériel tiers	Ceux qui veulent une vraie garantie cryptographique sans homelab
SaaS centré privacy	Lumo (Proton), Kagi Assistant	Historique stocké (chiffré côté client)	Texte en clair à l'inférence, choix de modèle limité	Ceux déjà installés dans un écosystème comme Proton
Runtime auto-hébergé BYOK	Hermify, OpenClaw, OpenWebUI	Historique, mémoire, secrets, intégrations	L'appel d'inférence, par conception	Opérateurs solos et petites équipes voulant un vrai assistant sans acheter de GPU

La première ligne est l'étalon-or pour la confidentialité brute des données, et la dernière est ce que la plupart finissent par choisir une fois les coûts comparés. Les deux du milieu sont des options réelles pour des cas précis, pas des choix par défaut.

100% local : confidentialité maximale, coût réel

Une stack 100% locale - Ollama plus une UI comme Jan.ai, AnythingLLM ou Open WebUI - garde tout sur votre matériel. Rien ne sort de la boîte. C'est ce que les équipes conformité veulent dire quand elles écrivent "les données ne quittent pas le bâtiment".

L'écueil est le matériel. Faire tourner un modèle local utile en 2026 demande au minimum 16 à 32 Go de RAM, idéalement un Mac Apple Silicon récent ou un GPU avec 16 à 24 Go de VRAM. Vous aurez un modèle nettement plus faible que la frontière cloud, et plus lent. Pour des tâches routinières - résumés, brouillons, revue de code - ça suffit. Pour du raisonnement complexe, ça se voit.

Côté coût, le matériel est le pic. Ensuite, vous payez votre facture d'électricité. Si vous avez déjà la machine, le 100% local est l'option la moins chère de la liste.

SaaS à enclave chiffrée : confidentialité cryptographique sur du matériel tiers

Les services à enclave chiffrée comme Maple AI exécutent l'inférence dans des enclaves isolées matériellement : votre prompt est déchiffré uniquement dans l'enclave, traité en mémoire, et le système hôte ne voit jamais le texte en clair. Le code de l'enclave est publié et attestable à distance, vous pouvez donc vérifier que ce qui tourne correspond au code public.

C'est l'approche "cloud privée" la plus sérieuse cryptographiquement parlant sans posséder son matériel. Maple prend en charge Llama 3.3 70B, DeepSeek R1, Qwen 2.5 72B et d'autres. Les prix démarrent autour de 5,99 $/mois, avec un Pro à 20 $/mois pour les gros modèles et l'upload de fichiers.

L'arbitrage : vous dépendez toujours du fait que l'opérateur fasse fonctionner son enclave correctement pour toujours. Si ce seuil vous convient, c'est un choix solide.

SaaS centré privacy : bon écosystème, vrai plafond

Des outils comme Lumo de Proton stockent votre historique chiffré côté client : le serveur ne peut pas lire les conversations sauvegardées. L'inférence, en revanche, a lieu sur les serveurs de l'opérateur, sur les modèles qu'il prend en charge, avec le prompt en clair au moment du modèle.

Si vous payez déjà Proton Mail, Drive et VPN, Lumo est un complément sensé autour de 13 $/mois. Sinon, le plafond de confidentialité est plus bas que ce que le marketing suggère, et le choix de modèle est limité aux options open-source proposées.

Runtime auto-hébergé BYOK : le choix pragmatique de 2026

C'est dans ce seau que se trouve Hermify, aux côtés de projets auto-hébergés comme OpenClaw et OpenWebUI. Le runtime, l'historique, la mémoire, les secrets chiffrés, les intégrations - tout cela vit sur un serveur que vous contrôlez, souvent un VPS à 5-20 $. L'appel d'inférence sort vers un fournisseur de modèle cloud avec votre propre clé d'API (Bring Your Own Key, BYOK), un modèle que la Cloud Security Alliance et le NIST recommandent face aux arrangements à clé partagée.

Vous n'avez pas la garantie 100% locale "les données ne quittent pas le bâtiment". Vous avez :

Un vrai assistant : voix, tâches planifiées, Telegram, Discord, skills personnalisées, mémoire persistante.
Une facture mensuelle ennuyeuse : environ 5 à 20 $ pour le VPS plus ce que vous dépensez en tokens, souvent moins qu'une seule licence SaaS.
Une histoire de confidentialité claire : historique et mémoire sur votre machine, inférence sous un contrat que vous avez signé vous-même.

Pour les opérateurs solos, les petites équipes et les consultants qui gèrent des données clients, c'est l'option qui finit réellement utilisée. Ce n'est pas le choix le plus extrême cryptographiquement, et il ne faut pas le vendre comme tel. C'est le choix pragmatique.

Vue scindée comparant un modèle local sur un serveur domestique à un runtime auto-hébergé appelant une API de modèle cloud

Un arbre de décision rapide

Sautez la philosophie et répondez à quatre questions :

Êtes-vous légalement obligé de garder les données sur votre propre matériel ? Si oui, partez sur du 100% local. Ollama plus Open WebUI est un bon point de départ. Prévoyez le budget pour une machine sérieuse.
Voulez-vous des garanties cryptographiques mais sans homelab ? Regardez les services à enclave chiffrée comme Maple AI. Lisez la documentation d'attestation avant de vous inscrire.
Êtes-vous déjà dans un écosystème privacy comme Proton et un chat occasionnel vous suffit ? Lumo ou équivalent vous ira.
Avez-vous besoin d'un vrai assistant - intégrations, mémoire, voix, tâches planifiées - avec un petit budget, et acceptez-vous un appel d'inférence cloud avec votre propre clé ? Un runtime auto-hébergé BYOK est le chemin le moins cher et le plus flexible. Hermify est une option, OpenClaw en est une autre, OpenWebUI une troisième.

Il n'y a pas une seule bonne réponse. Il y a la réponse qui correspond à votre modèle de menace, à votre budget matériel et à votre tolérance pour bidouiller des fichiers de configuration.

La checklist d'audit applicable à tout le monde

Avant de confier vos données clients à n'importe quel produit IA "privé" - le nôtre y compris - obtenez des réponses claires à ceci :

Où le modèle tourne-t-il vraiment ? Sur votre matériel, celui de l'éditeur, ou celui d'un tiers ?
Où vit l'historique des conversations ? En clair, chiffré côté serveur, ou chiffré côté client ?
Comment les clés d'API et les jetons d'intégration sont-ils stockés ? En clair, chiffrés au repos (AES-256 ou équivalent), ou chiffrés avec des clés que vous contrôlez ?
Que l'éditeur logue-t-il, et pendant combien de temps ?
Si l'éditeur disparaît demain, qu'arrive-t-il à vos données ? Existe-t-il un chemin d'export ?
Le code est-il open source ou auditable ? Pouvez-vous lire ce qui tourne réellement ?

Un produit qui ne répond pas à ces questions clairement n'est pas privé. Il est opaque, ce qui est autre chose.

Où Hermify se situe, sans détour

Hermify est un runtime auto-hébergé BYOK pour Hermes Agent, pensé pour le quadrant pragmatique : historique, mémoire et secrets chiffrés dans un conteneur par utilisateur, inférence via votre propre clé. C'est le bon outil si vous voulez un vrai assistant - Telegram et Discord, mode vocal, tâches planifiées, skills personnalisées - sans monter un GPU à la maison.

Ce n'est pas le bon outil si votre équipe conformité a écrit "aucune inférence chez un tiers, jamais" sur un papier. Dans ce cas, une stack 100% locale sur du matériel à vous est la réponse, et on vous dirait la même chose.

Si la forme "BYOK auto-hébergé" correspond à votre façon de travailler, démarrez avec Hermify. Si vous préférez voir d'abord les arbitrages, le comparatif hébergement vs auto-hébergement reprend la même décision sous un autre angle.