Asistente de IA privado autoalojado: guía 2026

Quieres un asistente de IA que no alimente tu correo, tus contratos ni las notas de tus clientes al dataset de entrenamiento de otro. Y también quieres que funcione de verdad: voz, tareas programadas, integraciones, lo básico que en 2026 ya se da por hecho. Esos dos objetivos tiran en direcciones opuestas, y el marketing de "IA privada" hace tanto ruido que cuesta distinguir qué productos protegen tus datos de verdad y cuáles solo lo dicen en la home.

Esta guía es un mapa. Ordenamos las opciones reales en cuatro categorías honestas, mostramos cuánto cuesta cada una en dinero y esfuerzo, y terminamos con una checklist que puedes aplicar a cualquier producto - incluido el nuestro - antes de confiarle tus datos.

Servidor pequeño y bien iluminado ejecutando silenciosamente una carga de IA privada en un escritorio

Qué significa realmente "privado"

Un asistente de IA verdaderamente privado tiene que mantener tres cosas fuera del alcance de terceros al mismo tiempo:

Los pesos del modelo o la llamada de inferencia. O el modelo corre en hardware que tú controlas, o la llamada a la API pasa por un contrato que tú puedes leer.
El historial de conversación. Cada prompt, cada respuesta, cada archivo subido. Si un proveedor lo guarda en texto plano, lo de "privado" se queda corto.
La memoria y los secretos que el asistente acumula. Contexto personal, claves de API, tokens de calendario. Suele ser el objetivo de mayor valor.

Si un producto cumple dos de tres pero el tercero se filtra, no tienes un asistente privado. Tienes una página de marketing. Aplica las tres exigencias a la vez a cualquier opción, incluida la nuestra.

Las cuatro categorías reales de "IA privada" en 2026

La versión honesta del panorama es esta. Cada fila es una decisión, no un ranking.

Categoría	Ejemplos	Qué se queda en local	Qué no	Para quién
100% local	Ollama, Jan.ai, AnythingLLM	Pesos, prompts, historial, memoria	Nada (si te quedas ahí)	Entornos aislados, cargas reguladas, gente con GPU
SaaS con enclave cifrado	Maple AI	Prompt en claro (procesado en enclave)	Corres en hardware ajeno	Quien quiere privacidad criptográfica fuerte sin homelab
SaaS centrado en privacidad	Lumo (Proton), Kagi Assistant	Historial guardado (cifrado en cliente)	Texto plano en inferencia, modelos limitados	Gente ya metida en un ecosistema como Proton
Runtime autoalojado con BYOK	Hermify, OpenClaw, OpenWebUI	Historial, memoria, secretos, integraciones	La llamada de inferencia, por diseño	Operadores solos y equipos pequeños que quieren un asistente real sin comprar GPU

La primera fila es el estándar de oro para privacidad pura de datos, y la última es lo que la mayoría termina eligiendo cuando hace números. Las dos del medio son opciones reales para situaciones concretas, no opciones por defecto.

100% local: máxima privacidad, coste real

Un stack 100% local - Ollama más una UI tipo Jan.ai, AnythingLLM u Open WebUI - lo deja todo en tu hardware. Nada sale de la caja. Es lo que los equipos de compliance llaman "los datos no salen del edificio".

El truco está en el hardware. Hacer correr un modelo local útil en 2026 son 16-32 GB de RAM como mínimo, idealmente un Mac con Apple Silicon reciente o una GPU con 16-24 GB de VRAM. Tendrás un modelo claramente más débil que la frontera cloud, y más lento. Para tareas rutinarias - resúmenes, borradores, code review - sirve. Para razonamiento complejo, se nota.

En coste, el hardware es el pico. Después solo pagas la factura de luz. Si ya tienes la máquina, 100% local es la opción más barata de la lista.

SaaS con enclave cifrado: privacidad criptográfica en hardware ajeno

Servicios con enclave cifrado como Maple AI ejecutan la inferencia dentro de enclaves aislados por hardware: tu prompt se descifra solo dentro del enclave, se procesa en memoria, y el sistema anfitrión nunca ve el texto plano. El código del enclave se publica y se puede atestiguar de forma remota, así que puedes verificar que el despliegue coincide con el código público.

Es el enfoque "cloud privada" más serio criptográficamente que existe sin tener tu propio hardware. Maple soporta Llama 3.3 70B, DeepSeek R1, Qwen 2.5 72B y otros. Los precios arrancan en torno a $5,99/mes, con un Pro de $20/mes para los modelos grandes y subida de archivos.

El trade-off: sigues dependiendo de que el operador opere bien su enclave para siempre. Si ese listón te encaja, es una elección sólida.

SaaS centrado en privacidad: buen ecosistema, techo real

Herramientas como Lumo de Proton guardan tu historial cifrado en el cliente: el servidor no puede leer las conversaciones guardadas. La inferencia, en cambio, ocurre en los servidores del operador, sobre los modelos que soporten, con el prompt en texto plano en el momento del modelo.

Si ya pagas Proton Mail, Drive y VPN, Lumo es un añadido sensato a unos $13/mes. Si no, el techo de privacidad es más bajo de lo que sugiere el marketing, y la elección de modelo está limitada a las opciones open-source que ofrezca el proveedor.

Runtime autoalojado con BYOK: el default pragmático de 2026

Aquí es donde encaja Hermify, junto a proyectos autoalojados como OpenClaw y OpenWebUI. El runtime, el historial, la memoria, los secretos cifrados, las integraciones - todo eso vive en un servidor que tú controlas, normalmente un VPS de $5-20. La llamada de inferencia sale a un proveedor cloud con tu propia clave de API (Bring Your Own Key, BYOK), modelo que tanto la Cloud Security Alliance como el NIST recomiendan frente a esquemas con claves compartidas.

No obtienes la garantía 100% local de "los datos no salen del edificio". Sí obtienes:

Un asistente real: voz, tareas programadas, Telegram, Discord, skills personalizadas, memoria persistente.
Una factura mensual aburrida: unos $5-20 de VPS más lo que gastes en tokens, normalmente menos que una sola licencia SaaS.
Una historia de privacidad clara: historial y memoria en tu máquina, inferencia bajo un contrato que firmaste tú.

Para operadores solos, equipos pequeños y consultores que manejan datos de clientes, esta es la opción que de verdad se usa. No es la elección más extrema criptográficamente, y no debería venderse como tal. Es la pragmática.

Vista dividida comparando un modelo local en un servidor casero junto a un runtime autoalojado llamando a una API de modelo en cloud

Un árbol de decisión rápido

Sáltate la filosofía y responde a cuatro preguntas:

¿Estás obligado legalmente a mantener los datos en tu propio hardware? Si sí, ve a 100% local. Ollama más Open WebUI es un buen punto de partida. Reserva presupuesto para una máquina seria.
¿Quieres garantías criptográficas pero sin homelab? Mira servicios con enclave cifrado como Maple AI. Lee la documentación de atestación antes de registrarte.
¿Ya estás dentro de un ecosistema de privacidad como Proton y te basta con chat informal? Lumo o similares te valen.
¿Necesitas un asistente real - integraciones, memoria, voz, tareas programadas - con poco presupuesto, y aceptas una llamada de inferencia cloud con tu propia clave? Un runtime autoalojado con BYOK es el camino más barato y flexible. Hermify es una opción, OpenClaw otra, OpenWebUI una tercera.

No hay una única respuesta correcta. Hay la respuesta que encaja con tu modelo de amenazas, tu presupuesto de hardware y tu tolerancia a tocar archivos de configuración.

La checklist de auditoría que puedes aplicar a cualquiera

Antes de confiar tus datos de cliente a cualquier producto de IA "privado" - el nuestro incluido - consigue respuestas claras a esto:

¿Dónde corre el modelo realmente? ¿Tu hardware, el del proveedor o el de un tercero?
¿Dónde vive el historial de conversación? ¿Texto plano, cifrado en servidor o cifrado en cliente?
¿Cómo se guardan las claves de API y los tokens de integración? ¿Texto plano, cifrados en reposo (AES-256 o equivalente) o cifrados con claves que tú controlas?
¿Qué loguea el proveedor y durante cuánto tiempo?
Si el proveedor desaparece mañana, ¿qué pasa con tus datos? ¿Hay vía de exportación?
¿El código es open source o auditable? ¿Puedes leer lo que se está ejecutando?

Un producto que no responde a esto con claridad no es privado. Es opaco, que es otra cosa.

Dónde encaja Hermify, sin rodeos

Hermify es un runtime autoalojado con BYOK para Hermes Agent, pensado para el cuadrante pragmático: historial, memoria y secretos cifrados en un contenedor por usuario, inferencia con tu propia clave. Es la herramienta adecuada si quieres un asistente real - Telegram y Discord, modo voz, tareas programadas, skills personalizadas - sin montar una GPU en casa.

No es la adecuada si tu equipo de compliance ha escrito "ninguna inferencia con terceros, nunca" en un papel. En ese caso, un stack 100% local en hardware tuyo es la respuesta, y te diríamos lo mismo.

Si la forma "BYOK autoalojado" encaja con cómo trabajas de verdad, empieza con Hermify. Si prefieres ver primero los compromisos, el comparativo hosting vs self-hosting recorre la misma decisión desde otro ángulo.