Voltar ao Blog
HermesOpenAIComparisonAI Agents

Hermes Agent vs OpenAI Assistants API em 2026

A Assistants API da OpenAI será descontinuada em agosto de 2026. Hermes Agent é a alternativa self-hosted e BYOK. Memória, ferramentas, custo e lock-in.

Por Hermify Team||10 min de leitura
Hermes Agent vs OpenAI Assistants em layout escuro dividido com o nome de cada projeto como rótulo de texto e uma linha verde fina de separação

A comparação que você está fazendo de verdade

Se você digitou "hermes agent vs openai assistants api" em um buscador, não está escolhendo entre dois chatbots quaisquer. Está decidindo em qual runtime apostar uma feature de IA em produção - aquele que vai segurar suas threads, suas ferramentas, seu retrieval e seus usuários pelos próximos dois anos.

A abertura honesta: a OpenAI anunciou a depreciação da Assistants API beta com desligamento definitivo em 26 de agosto de 2026. Qualquer build novo hoje sobre /v1/assistants, /v1/threads e /v1/runs é um build com data de validade. O caminho recomendado pela OpenAI é migrar para a Responses API, que é um modelo de objetos diferente com uma estrutura de custo diferente. Isso faz com que esta comparação seja menos sobre "API A vs API B" e mais sobre "runtime alugado e hospedado vs runtime self-hosted que é seu".

O Hermes Agent é a segunda resposta. Licença MIT, binário único, bring-your-own-key, memória e skills persistentes incluídas, conversa com seus usuários no Telegram, WhatsApp, Discord, Slack e Signal. Este artigo percorre onde cada um se encaixa, o que o penhasco da migração realmente significa e como escolher sem se encurralar.

O que a OpenAI Assistants API é de verdade

A Assistants API é o runtime de agentes hospedado da OpenAI. Você cria um Assistant (um modelo + instruções + ferramentas), abre uma Thread, adiciona Messages e dispara um Run. A OpenAI executa o loop nos servidores dela: chamadas de ferramentas, retrieval, execução de código, tudo do lado deles. As ferramentas integradas incluem file_search (um vector store gerenciado), code_interpreter (um contêiner sandbox de Python) e function calling para seus próprios webhooks.

O argumento de venda sempre foi o trade. Você abre mão do controle do loop do agente e, em troca, deixa de costurar à mão o dispatch de ferramentas, o histórico de mensagens e a cola de retrieval. Para um protótipo, funciona. Para um hackathon de fim de semana, continua funcionando.

A pegadinha é a superfície de custo e o lock-in arquitetural. O file search custa US$ 2,50 a cada 1.000 consultas mais US$ 0,10 por GB de armazenamento do vector store por dia depois do primeiro GB gratuito, com teto de 100 GB por projeto. O code interpreter é cobrado por sessão de contêiner - no novo modelo, são US$ 0,03 por um contêiner de 1 GB por 20 minutos, chegando a US$ 1,92 com 64 GB. A web search integrada adiciona US$ 10 por 1.000 chamadas além do custo de tokens do modelo. Nenhum desses valores é exorbitante isoladamente; juntos, dificultam a previsão de fim de mês, porque cada leitura nos seus arquivos é medida e o armazenamento se acumula todos os dias.

Depois tem o lock-in estrutural. Você só pode apontar um Assistant para modelos da OpenAI. Não dá para colocar um modelo de embeddings mais barato, outro banco de dados vetorial ou um backend Claude/Gemini/Mistral sem reconstruir tudo a partir do modelo de objetos. O vector store não expõe parâmetros de chunking, embedding ou retrieval, então no momento em que você precisar de outra estratégia de retrieval, a vantagem de ter o serviço gerenciado evapora.

Foto cinematográfica escura de drives de armazenamento empilhados com linhas verdes brilhantes finas de dados conectando-os, sugerindo custo por armazenamento medido e por chamada

O penhasco de agosto de 2026

Esta é a parte que você não pode ignorar em 2026. A OpenAI tem um guia público de migração que move os desenvolvedores da Assistants API para a nova Responses API. O modelo de objetos muda: os Assistants viram Prompts gerenciados no dashboard, as Threads viram Conversations, os Runs viram Responses e os Run Steps viram Items. A semântica das ferramentas também muda - file search e code interpreter vêm junto, mas o código de orquestração que você escreveu contra runs.create_and_poll, runs.retrieve e a iteração de run-steps não sobrevive a um port literal.

Na prática: qualquer time que escreveu em cima da Assistants API em 2024 ou 2025 reescreve uma vez antes de 26 de agosto de 2026. Qualquer time começando em maio de 2026 escolhe entre (a) construir sobre a Responses API, que é o caminho suportado, ou (b) construir sobre a Assistants API descontinuada e reescrever em três meses, opção que ninguém escolheria a sério. A "Assistants API" como produto está sendo aposentada. A pergunta é com o que você a substitui.

A Responses API é genuinamente melhor em algumas coisas - formato de requisição mais simples, deep research e computer-use integrados, suporte a MCP. Ela também mantém o mesmo trade-off de fundo: você aluga um runtime de agentes hospedado, seus dados ficam no lado da OpenAI e seus custos escalam com as decisões de pricing deles. Nada disso é ruim; é uma escolha que vale a pena fazer de propósito.

O que o Hermes Agent é de verdade

O Hermes Agent é um runtime de agentes IA open source com licença MIT da Nous Research, lançado pela primeira vez em fevereiro de 2026. O formato é deliberadamente diferente da Assistants API. Você instala uma vez com um comando curl no Linux, macOS ou WSL2. Ele roda como um processo de longa duração na sua máquina ou VPS. Você aponta para um provedor de modelo com sua própria chave de API e ele conversa com você pela superfície de mensageria que preferir.

O estado é local por padrão. Conversas, skills e memórias vivem em um banco SQLite sob ~/.hermes/, indexado para busca full-text. Não tem vector store gerenciado para alugar por gigabyte. Não tem API de ferramentas medida em cima da sua conta de modelo. O custo de runtime é o que um VPS pequeno na Hetzner ou Vultr custa - cerca de cinco a dez euros por mês para um agente pessoal - e o custo marginal é a fatura do provedor de LLM na sua tarifa.

O agente em si é de um único processo e com estado. O modelo de memória em três camadas (core memory, busca por sessão, skills) é o diferencial frente a um Assistant + Thread. Skills são arquivos markdown que o agente pode carregar sob demanda e, o mais importante, escrever sozinho a partir de tarefas passadas. Ao longo de semanas de uso, o Hermes acumula conhecimento de domínio em vez de começar do zero a cada Thread.

Cobrimos a arquitetura de memória em profundidade no post de memória e skills do Hermes Agent, e o setup do primeiro dia em Hermes Agent com Docker.

Lado a lado

| Pergunta | OpenAI Assistants API | Hermes Agent | |---|---|---| | Status em 2026 | Descontinuada, sunset 26 ago 2026 | Ativo, v0.10.0, evolução rápida | | Onde roda | Servidores da OpenAI | Seu notebook, seu VPS, seu cluster | | Escolha de modelo | Apenas modelos da OpenAI | Qualquer provedor via BYOK (OpenAI, Anthropic, OpenRouter, local) | | Retrieval | Vector store gerenciado, tuning opaco | SQLite + FTS5 local, mais backends vetoriais plugáveis | | Estado persistente | Threads, perdidos se você trocar de projeto | Core memory + skills + busca por sessão, nos seus próprios arquivos | | Ferramentas integradas | file_search, code_interpreter, web_search | Configuráveis por skill; servidores MCP por config | | Interface para o usuário final | Você constrói | Telegram, WhatsApp, Discord, Slack, Signal, CLI | | Formato do custo | Tokens do modelo + taxas por ferramenta + armazenamento diário | Tokens do modelo + ~5 EUR/mês de VPS | | Residência dos dados | Infraestrutura da OpenAI | Onde você hospedar | | Licença | SaaS proprietário | MIT | | Pressão de lock-in | Alta (modelo de objetos, vector store, família de modelo) | Baixa (skills em markdown, SQLite, provedores padrão) |

Resumo honesto: a Assistants API é um runtime hospedado com data de validade conhecida e uma stack opinativa. O Hermes Agent é um runtime aberto que você controla, com uma stack que dá para trocar peça por peça.

Quando a Assistants API ainda faz sentido

Existe um caso real para o caminho da OpenAI, e seria desonesto pular.

Se você já está dentro do ecossistema da OpenAI, com billing, SSO e contrato enterprise, a Responses API (a sucessora) é o jeito de menor atrito para colocar uma feature de agente dentro de um produto existente. As ferramentas do dashboard, a observabilidade integrada e as integrações com o resto da stack da OpenAI importam. Times que não querem operar nenhuma infraestrutura - sem VPS, sem Docker, sem scheduler - tiram mais proveito de um runtime hospedado do que de um self-hosted.

Se suas necessidades de retrieval são modestas, seu corpus de arquivos fica em poucos gigabytes, sua superfície de ferramentas é pequena e tanto faz qual família de modelo você usa, o pricing por chamada está de bom tamanho. Vários agentes para ferramentas internas se encaixam nesse padrão.

O desclassificador honesto é o calendário. Se você está começando hoje sobre a Assistants API - não a Responses API - está comprando uma migração. Escolha a Responses API ou escolha outra coisa.

Quando o Hermes vence

O Hermes é a resposta certa quando qualquer um destes é verdade:

  • O agente é um assistente pessoal ou de time de longa duração que deveria lembrar contexto ao longo de semanas, não de threads.
  • Você quer o agente acessível no Telegram, WhatsApp ou Discord sem construir uma superfície de chat do zero.
  • Você quer trocar de provedor de modelo sem reescrever o agente. BYOK entre OpenAI, Anthropic, OpenRouter e modelos locais é mudança de config, não port.
  • Suas regras de residência de dados não aceitam guardar histórico de mensagens e embeddings em servidor de terceiros.
  • Seu modelo de custo precisa ser previsível. Um VPS fixo mais a fatura de modelo na sua tarifa vence taxas por chamada que você só vê no fim do mês.
  • Você quer o agente crescer escrevendo seus próprios skills - arquivos markdown numa pasta - em vez de você adicionar novas ferramentas e fazer re-deploy.

Para um Hermes gerenciado que sobe no Telegram em 60 segundos e cobra uma mensalidade fixa, comece com o Hermify. O mesmo agente, o mesmo modelo de memória, com o VPS, as atualizações e o monitoramento resolvidos.

Comparamos o Hermes com outras superfícies de chat de consumo em Hermes Agent vs ChatGPT, Claude e Gemini e com frameworks de orquestração multi-agente em Hermes Agent vs AutoGen - úteis se você está mapeando o panorama mais amplo.

Como escolher sem se arrepender

Uma rubrica curta de decisão:

  1. Se o runtime precisa ser hospedado por outra pessoa e você está confortável dentro do ecossistema da OpenAI, escolha a Responses API. Pule a Assistants API inteira - faltam três meses.
  2. Se você quer memória persistente, integrações de mensageria, BYOK e custo mensal previsível, escolha o Hermes Agent. Self-host num VPS pequeno ou use o Hermify para pular a parte de ops.
  3. Se você está migrando da Assistants API agora, a saída mais limpa é mover a orquestração para o Hermes (ou seu próprio serviço) e usar o provedor de modelo que preferir atrás. O vector store, os skills e as ferramentas vão com você em vez de ficarem presos no lado da OpenAI.

Cena fotorrealista escura de um cadeado verde brilhante se abrindo de um cubo preto fechado enquanto um cubo menor permanece selado, sugerindo um runtime self-hosted aberto frente a um gerenciado e fechado

O enquadramento que importa em 2026 não é "qual API tem ferramentas melhores". A Assistants API foi o primeiro runtime de agentes hospedado crível e a Responses API é a sucessora mais bem desenhada. A pergunta é se você quer um runtime hospedado, ou se prefere ser dono do agente que conhece os seus usuários. O Hermes faz a segunda opção viável para indivíduos e times pequenos como não era há dois anos.

Fontes

Lance seu próprio agente Hermes

Traga sua chave de API, conecte o Telegram e tenha um agente de IA que evolui sozinho no ar em 60 segundos.

Começar agora