Agente de IA auto-hospedado em Docker: guia prático 2026

Por que Docker é a forma padrão de rodar um agente de IA auto-hospedado

Se você decidiu que quer um agente de IA na sua própria infraestrutura em vez de pagar uma assinatura mensal de SaaS, Docker é quase certamente como você vai rodá-lo. Em 2026 todo runtime de agente open source sério traz um Dockerfile ou um docker-compose.yml. O padrão convergiu porque os contêineres resolvem quatro problemas de uma vez que aparecem ao auto-hospedar um agente: a versão do runtime de Python ou Node, as dependências de sistema para áudio ou visão, a superfície de rede que precisa ser exposta aos webhooks do Telegram ou Slack, e o estado persistente (um banco de dados e um armazenamento vetorial) que o agente precisa entre reinicializações.

Este artigo percorre como realmente é rodar um agente de IA auto-hospedado em Docker em 2026: a arquitetura, as plataformas que vale conhecer, os compromissos que você está aceitando e a configuração mais barata que sobrevive a um restart. Foi escrito para quem já usou Docker mas ainda não escolheu uma stack de agente.

O que "agente de IA auto-hospedado" significa na prática

A expressão cobre uma faixa ampla de produtos. Antes de escolher uma imagem Docker, separe em três categorias.

Agentes de fluxo de trabalho são plataformas visuais ou low-code onde você conecta caixas para compor um agente. n8n, Dify e Flowise são os exemplos canônicos. Eles rodam como uma aplicação web na qual você faz login, e o agente é um fluxo que você desenha e dispara. Boa escolha se você quer uma GUI e mais de 400 integrações prontas.

Frameworks de agentes orientados a código são bibliotecas em cima das quais você escreve Python ou TypeScript. LangChain ou LangGraph, AutoGen, CrewAI e o SDK de Agentes da OpenAI ficam aqui. Você empacota seu código como imagem Docker. Boa escolha se você é dev e quer controle total do prompt, das ferramentas e da máquina de estados.

Agentes runtime são agentes já prontos que você auto-hospeda e conecta ao seu próprio app de mensagens (Telegram, Slack, WhatsApp, Signal, e-mail). Hermes Agent, OpenHands e Agent Zero são exemplos. Você não escreve o loop do agente, ele vem pronto. Você traz uma chave de API, traz um servidor, e fala com ele pelo celular.

A receita do Docker é parecida para os três. As diferenças estão no que você põe em volta do contêiner: um banco de dados para memória persistente, um armazenamento vetorial para busca semântica e um receptor de webhook para o app de mensagens que você conectar.

Uma imagem em estilo diagrama mostrando um contêiner docker com setas para um banco postgres, um armazenamento vetorial e um webhook do telegram

A arquitetura de referência

Quase todo agente de IA auto-hospedado em Docker acaba tendo esta forma:

| Componente | Imagem típica | Para que serve | |---|---|---| | Runtime do agente | Imagem própria ou ghcr.io/<projeto>/<agente> | O loop do agente: recebe input, chama o LLM, executa ferramentas | | Gateway do LLM | ollama/ollama para local, ou API externa | O modelo em si, ou um proxy para OpenAI / Anthropic / OpenRouter | | Banco relacional | postgres:16 | Conversas, estado do usuário, tarefas agendadas | | Armazenamento vetorial | qdrant/qdrant ou pgvector dentro do Postgres | Memória de longo prazo, busca semântica, RAG | | Proxy reverso | traefik ou caddy | Terminação TLS, roteamento de webhooks | | Adaptador de mensagens | Dentro da imagem do agente | Conectores de Telegram, Slack, Discord, WhatsApp, Signal |

Você não vai precisar de todas as camadas. Se seu agente for só texto e usar uma API LLM externa, pode pular o Ollama. Se seu app de mensagens usa long-polling em vez de webhooks (Telegram suporta os dois), pode pular o proxy reverso. A stack mínima viável num VPS de 5 dólares é o runtime do agente mais o Postgres, com o modelo chamado por uma API externa. Isso são uns três ou quatro contêineres em um único docker-compose.yml.

Um docker-compose.yml mínimo

Para a maioria dos agentes pessoais ou de equipe pequena, este é o formato do arquivo compose. Troque your-agent-image pelo runtime que você escolheu.

services:
  agent:
    image: your-agent-image:latest
    restart: unless-stopped
    environment:
      DATABASE_URL: postgres://agent:agent@db:5432/agent
      MODEL_PROVIDER: openai
      OPENAI_API_KEY: ${OPENAI_API_KEY}
      TELEGRAM_BOT_TOKEN: ${TELEGRAM_BOT_TOKEN}
    depends_on:
      - db
    ports:
      - "127.0.0.1:8080:8080"

  db:
    image: postgres:16-alpine
    restart: unless-stopped
    environment:
      POSTGRES_USER: agent
      POSTGRES_PASSWORD: agent
      POSTGRES_DB: agent
    volumes:
      - db-data:/var/lib/postgresql/data

volumes:
  db-data:

Três pontos importantes. A porta do agente está vinculada a 127.0.0.1 em vez de 0.0.0.0 porque um webhook público deveria chegar por um proxy reverso que termina TLS, não direto numa porta de contêiner exposta. Os segredos vivem num arquivo .env ao lado do compose (e nunca no git). O volume do Postgres tem nome para que o docker compose preserve-o entre reinicializações; se você perder esse volume, perde a memória do agente.

As opções que vale conhecer em 2026

Esta é a lista curta de stacks de agente open source que entregam imagens Docker e têm tração em 2026.

| Projeto | Tipo | Licença | Integrações de mensagens | Notas | |---|---|---|---|---| | Hermes Agent | Runtime | MIT | Telegram, Slack, Discord, WhatsApp, Signal, e-mail | Memória persistente, BYOK para o modelo, criação autônoma de skills | | n8n | Fluxo de trabalho | Sustainable Use | 400+ via nós | Construtor visual de fluxos, catálogo grande de integrações | | Dify | Fluxo de trabalho | Apache 2.0 | Web UI, widgets embutíveis | Foco em RAG, orquestração de prompts, monitoramento incluso | | Flowise | Fluxo de trabalho | Apache 2.0 | Web UI, nós REST/Slack/Telegram | LangChain com arrastar e soltar | | LangGraph | Framework | MIT | O que você conectar | Orientado a código, grafos de estado profundos | | AutoGen | Framework | CC-BY 4.0 (Microsoft) | O que você conectar | Conversa multi-agente | | OpenHands | Runtime | MIT | Web UI, IDE | Agente de engenharia de software num Docker isolado | | Agent Zero | Runtime | MIT | Web UI, terminal | Agente autônomo de uso de computador |

A divisão importa porque a escolha certa depende de para que você quer o agente. Uma plataforma de fluxo é a escolha certa se você quer automatizar um processo de negócio com 14 passos e 5 APIs externas. Um framework é a escolha certa se você está construindo um produto sob medida. Um runtime é a escolha certa se você quer um agente pessoal que vive no seu celular via app de mensagens e que lembra de você.

Para o caso de uso pessoal centrado em mensagens, o Hermes Agent é comparado diretamente com o n8n no lado de fluxo de trabalho e com o LangChain no lado de framework.

Os compromissos reais

Auto-hospedar em Docker não é grátis, mesmo que os binários sejam. A lista honesta de compromissos em 2026:

Você assume o uptime. Um provedor de agente gerenciado monitora processos, reinicia contêineres caídos e acorda alguém às 3 da manhã quando uma release quebra produção. Num VPS auto-hospedado, isso é você, mesmo com restart: unless-stopped configurado. Docker reinicia contêineres; não conserta um volume Postgres corrompido nem um token de bot do Telegram expirado.

Você é dono dos dados, totalmente. Esta é a vantagem que faz os compromissos valerem a pena para a maioria. Suas conversas, suas notas de cliente, sua lista de contatos: nada toca em terceiros exceto o provedor de LLM que você escolher. Usuários da UE rodando num VPS europeu ganham residência de dados sob o GDPR sem papelada. Profissionais de saúde ou contabilidade em hardware próprio têm uma resposta defensável a "onde o dado mora?".

Você paga a conta do modelo. Usar sua própria chave de API (BYOK) costuma custar uns poucos dólares por mês para um agente pessoal em vez dos 20 dólares ou mais que um equivalente gerenciado cobra. Em troca, você tem que recarregar saldo na OpenAI ou Anthropic e ficar de olho.

Você assume o upgrade. Puxar uma imagem nova é um comando, mas ler o changelog e migrar o esquema do banco não. Reserve uma janela de 15 minutos a cada dois meses.

Você não é dono do LLM. A menos que você rode Ollama ou vLLM localmente sobre uma GPU, o modelo em si continua sendo uma chamada de API para OpenAI, Anthropic, Google, Mistral ou um agregador como o OpenRouter. Auto-hospedado em 2026 geralmente significa runtime auto-hospedado, não pesos auto-hospedados. Está tudo bem: o runtime é onde mora 90% da sensibilidade do dado.

Se os compromissos parecem aceitáveis, o ganho é relevante. A infraestrutura auto-hospedada mostra cerca de 55% de redução de custo total de propriedade em 18 meses contra o SaaS equivalente, com vantagens de latência da ordem de 18 ms quando o modelo também é local. Para a maioria dos leitores o ganho econômico chega antes, por volta do terceiro mês.

Como é a configuração mais barata

Uma linha de base prática para 2026 para um agente auto-hospedado de uma pessoa:

Um VPS de 5 a 10 dólares por mês (Hetzner, Vultr, Contabo) com 2 GB de RAM
Docker e Docker Compose instalados
Um proxy reverso (Caddy é o mais fácil para TLS automático) na porta 443
Um contêiner de runtime de agente, um contêiner de Postgres
Uma chave de API do modelo com 5 a 10 dólares de saldo
Um bot de mensagens (um bot de Telegram é o mais rápido de configurar)

Fatura mensal total: cerca de 7 a 20 dólares dependendo do uso, dos quais 4 a 10 são tokens de API e o resto é o VPS. A configuração leva 15 a 30 minutos se você já usou Docker antes; mais perto de uma noite inteira se nunca usou. O cálculo do tamanho do VPS está no nosso artigo dedicado a hospedagem VPS barata para um agente de IA, e a comparação de custos entre auto-hospedado e gerenciado está aqui.

Um espaço de trabalho escuro e limpo à noite com um notebook mostrando saída de terminal e um celular exibindo uma bolha verde de mensagem de um agente de IA auto-hospedado

Quando auto-hospedar é a resposta errada

Uma lista curta de casos em que o caminho Docker é a ferramenta errada.

Você precisa de zero envolvimento de ops e seu time não tolera nenhuma queda. Pague por um runtime gerenciado.
Você quer SLAs do provedor e um número de telefone para ligar. Gerenciado.
Você tem menos de uma hora de paciência para a configuração inicial. Gerenciado.
Seu agente precisa escalar elasticamente para milhares de usuários simultâneos amanhã. Um runtime gerenciado sobre Kubernetes vale o prêmio.

Para todo o resto (fundadores solo, devs indie, escritórios pequenos, profissionais sensíveis a privacidade, hobbystas) Docker num VPS pequeno é o caminho com a melhor relação entre controle e tempo de configuração.

Onde o Hermes encaixa

Hermify é um runtime de agente de IA auto-hospedado licenciado em MIT que vem como imagem Docker. Você traz sua própria chave do provedor de modelo (OpenAI, Anthropic, OpenRouter, Mistral ou outros), roda o contêiner num VPS ou na sua própria máquina, e fala com ele por Telegram, Slack, Discord, WhatsApp, Signal ou e-mail. Ele mantém memória persistente entre conversas, aprende skills reutilizáveis a partir do seu uso e fica fora do seu caminho o resto do tempo. É uma opção entre os runtimes listados acima; acontece que é a que mantemos.

Se a forma de agente pessoal no celular é o que você procura e você tem uma hora para colocar um contêiner Docker atrás de um proxy reverso, Comece com o Hermify. Se prefere pular o VPS e que a gente rode por você, o plano gerenciado cuida do contêiner, do Postgres, do TLS e das atualizações enquanto você guarda sua própria chave de modelo.