Assistente de IA privado auto-hospedado: guia 2026

Você quer um assistente de IA que não entregue seu e-mail, seus contratos e as anotações dos seus clientes para o dataset de treino de outra empresa. E também quer que ele funcione de verdade: voz, tarefas agendadas, integrações, o básico que em 2026 já é dado como certo. Esses dois objetivos puxam para lados opostos, e o marketing de "IA privada" está tão barulhento que é difícil saber quais produtos realmente protegem seus dados e quais só dizem isso na home.

Este guia é um mapa. Organizamos as opções reais em quatro categorias honestas, mostramos quanto cada uma custa em dinheiro e esforço e terminamos com um checklist que você pode aplicar a qualquer produto - inclusive o nosso - antes de confiar seus dados.

Servidor pequeno e bem iluminado rodando silenciosamente uma carga de IA privada em um canto da mesa

O que "privado" realmente precisa significar

Um assistente de IA verdadeiramente privado precisa manter três coisas fora das mãos de terceiros ao mesmo tempo:

Os pesos do modelo ou a chamada de inferência. Ou o modelo roda em hardware que você controla, ou a chamada à API passa por um contrato que você consegue ler.
O histórico de conversa. Cada prompt, cada resposta, cada arquivo enviado. Se um fornecedor guarda isso em texto puro, "privado" é exagero.
A memória e os segredos que o assistente acumula. Contexto pessoal, chaves de API, tokens de calendário. Costumam ser os alvos de maior valor.

Se um produto acerta dois de três mas o terceiro vaza, você não tem um assistente privado. Você tem uma página de marketing. Cobre todas as três exigências de cada opção, inclusive da nossa.

As quatro categorias reais de "IA privada" em 2026

A versão honesta do cenário é esta. Cada linha é um trade-off, não um ranking.

Categoria	Exemplos	O que fica local	O que não fica	Para quem
100% local	Ollama, Jan.ai, AnythingLLM	Pesos, prompts, histórico, memória	Nada (se você parar aí)	Ambientes isolados, cargas regulamentadas, hobbyistas com GPU
SaaS com enclave cifrado	Maple AI	Prompt em claro (processado no enclave)	Você roda em hardware alheio	Quem quer privacidade criptográfica forte sem homelab
SaaS focado em privacidade	Lumo (Proton), Kagi Assistant	Histórico salvo (cifrado no cliente)	Texto puro na inferência, modelos limitados	Quem já está dentro de um ecossistema como Proton
Runtime auto-hospedado com BYOK	Hermify, OpenClaw, OpenWebUI	Histórico, memória, segredos, integrações	A chamada de inferência, por design	Operadores solo e times pequenos que querem um assistente real sem comprar GPU

A primeira linha é o padrão-ouro para privacidade pura de dados, e a última é o que a maioria escolhe quando faz as contas. As duas do meio são opções reais para situações específicas, não defaults.

100% local: privacidade máxima, custo real

Um stack 100% local - Ollama mais uma UI tipo Jan.ai, AnythingLLM ou Open WebUI - deixa tudo no seu hardware. Nada sai da caixa. É o que times de compliance querem dizer quando falam "os dados não saem do prédio".

A pegadinha é o hardware. Rodar um modelo local útil em 2026 são 16-32 GB de RAM no mínimo, idealmente um Mac com Apple Silicon recente ou uma GPU com 16-24 GB de VRAM. Você terá um modelo claramente mais fraco que a fronteira em cloud e mais lento. Para tarefas rotineiras - resumos, rascunhos, code review - serve. Para raciocínio complexo, dá para sentir.

Em custo, o hardware é o pico. Depois, só a conta de luz. Se você já tem a máquina, 100% local é a opção mais barata da lista.

SaaS com enclave cifrado: privacidade criptográfica em hardware alheio

Serviços com enclave cifrado como o Maple AI executam a inferência dentro de enclaves isolados por hardware: seu prompt é decifrado só dentro do enclave, processado em memória e o sistema anfitrião nunca vê o texto puro. O código do enclave é publicado e pode ser atestado remotamente, então você consegue verificar que o que está rodando bate com o código público.

É a abordagem "cloud privada" mais séria criptograficamente sem você ter hardware. O Maple suporta Llama 3.3 70B, DeepSeek R1, Qwen 2.5 72B e outros. Os preços começam por volta de US$ 5,99/mês, com um Pro de US$ 20/mês para os modelos grandes e upload de arquivos.

O trade-off: você ainda depende de o operador rodar o enclave corretamente para sempre. Se essa barra for aceitável, é uma escolha forte.

SaaS focado em privacidade: ecossistema bom, teto real

Ferramentas como o Lumo da Proton guardam seu histórico cifrado no cliente: o servidor não consegue ler as conversas salvas. A inferência, porém, acontece nos servidores do operador, em cima dos modelos que ele suportar, com o prompt em texto puro no momento do modelo.

Se você já paga Proton Mail, Drive e VPN, o Lumo é um complemento razoável a uns US$ 13/mês. Se não paga, o teto de privacidade é mais baixo do que o marketing sugere, e a escolha de modelo está limitada às opções open-source que o fornecedor oferecer.

Runtime auto-hospedado com BYOK: o default pragmático de 2026

É aqui que a Hermify entra, junto a projetos auto-hospedados como OpenClaw e OpenWebUI. O runtime, o histórico, a memória, os segredos cifrados, as integrações - tudo isso vive em um servidor que você controla, normalmente um VPS de US$ 5-20. A chamada de inferência sai para um provedor cloud com a sua própria chave de API (Bring Your Own Key, BYOK), modelo que tanto a Cloud Security Alliance quanto o NIST recomendam em vez de esquemas com chaves compartilhadas.

Você não tem a garantia 100% local de "os dados não saem do prédio". Tem:

Um assistente de verdade: voz, tarefas agendadas, Telegram, Discord, skills personalizadas, memória persistente.
Uma fatura mensal previsível: cerca de US$ 5-20 de VPS mais o que gastar em tokens, frequentemente menos do que uma única licença SaaS.
Uma narrativa de privacidade clara: histórico e memória na sua máquina, inferência sob um contrato que você assinou.

Para operadores solo, times pequenos e consultores que lidam com dados de clientes, é a opção que realmente é usada. Não é a escolha mais extrema criptograficamente, e não deve ser vendida como tal. É a pragmática.

Tela dividida comparando um modelo local em um servidor caseiro ao lado de um runtime auto-hospedado chamando uma API de modelo em cloud

Uma árvore de decisão rápida

Pule a filosofia e responda quatro perguntas:

Você é legalmente obrigado a manter os dados no seu próprio hardware? Se sim, vá de 100% local. Ollama mais Open WebUI é um bom ponto de partida. Reserve orçamento para uma máquina séria.
Você quer garantias criptográficas mas sem homelab? Olhe serviços com enclave cifrado como o Maple AI. Leia a documentação de atestação antes de se cadastrar.
Você já está dentro de um ecossistema de privacidade como o Proton e chat informal te basta? Lumo ou similares servem.
Você precisa de um assistente real - integrações, memória, voz, tarefas agendadas - com orçamento pequeno e aceita uma chamada de inferência cloud com a sua própria chave? Um runtime auto-hospedado com BYOK é o caminho mais barato e flexível. Hermify é uma opção, OpenClaw outra, OpenWebUI uma terceira.

Não existe uma única resposta certa. Existe a resposta que casa com o seu modelo de ameaças, o seu orçamento de hardware e a sua tolerância para mexer em arquivos de configuração.

O checklist de auditoria que você pode aplicar a qualquer um

Antes de confiar seus dados de cliente a qualquer produto de IA "privado" - inclusive o nosso - consiga respostas claras para isto:

Onde o modelo de fato roda? No seu hardware, no do fornecedor ou no de um terceiro?
Onde vive o histórico de conversa? Texto puro, cifrado no servidor ou cifrado no cliente?
Como as chaves de API e os tokens de integração são guardados? Texto puro, cifrados em repouso (AES-256 ou equivalente) ou cifrados com chaves que você controla?
O que o fornecedor loga, e por quanto tempo?
Se o fornecedor sumir amanhã, o que acontece com seus dados? Existe caminho de exportação?
O código é open source ou auditável? Você consegue ler o que está rodando?

Um produto que não responde isso com clareza não é privado. É opaco, que é outra coisa.

Onde a Hermify se encaixa, sem rodeios

A Hermify é um runtime auto-hospedado com BYOK para o Hermes Agent, pensado para o quadrante pragmático: histórico, memória e segredos cifrados em um contêiner por usuário, inferência com a sua própria chave. É a ferramenta certa se você quer um assistente real - Telegram e Discord, modo voz, tarefas agendadas, skills personalizadas - sem montar uma GPU em casa.

Não é a ferramenta certa se o seu time de compliance escreveu "nenhuma inferência com terceiros, nunca" em um papel. Nesse caso, um stack 100% local em hardware seu é a resposta, e diríamos o mesmo.

Se o formato "BYOK auto-hospedado" combina com o jeito que você realmente trabalha, comece com a Hermify. Se preferir ver primeiro os trade-offs, o comparativo hosting vs self-hosting percorre a mesma decisão por outro ângulo.