Torna al blog
HermesOpenAIComparisonAI Agents

Hermes Agent vs OpenAI Assistants API nel 2026

L'Assistants API di OpenAI viene dismessa ad agosto 2026. Hermes Agent è l'alternativa self-hosted con BYOK. Confronto su memoria, strumenti, costi e vincoli di lock-in.

Di Hermify Team||9 min di lettura
Layout scuro diviso con i nomi Hermes Agent e OpenAI Assistants come etichette di testo e una sottile linea verde di separazione

Il confronto che stai davvero cercando

Se hai digitato "hermes agent vs openai assistants api" in un motore di ricerca, non stai scegliendo tra due chatbot qualunque. Stai decidendo su quale runtime puntare per una funzionalità AI in produzione - quella che gestirà i tuoi thread, i tuoi strumenti, il retrieval e i tuoi utenti per i prossimi due anni.

Partiamo dai fatti: OpenAI ha annunciato la deprecazione della beta dell'Assistants API con un sunset definitivo il 26 agosto 2026. Qualsiasi progetto avviato oggi su /v1/assistants, /v1/threads e /v1/runs nasce già con una scadenza. Il percorso di migrazione raccomandato da OpenAI porta alle Responses API, che adottano un object model diverso e una struttura di costi diversa. Il confronto quindi non è più "API A vs API B", ma "runtime hosted in affitto vs runtime self-hosted che controlli tu".

Hermes Agent è la seconda risposta. Licenza MIT, binario unico, chiave API propria (BYOK), memoria persistente e skill integrate, interfacce su Telegram, WhatsApp, Discord, Slack e Signal. Questo articolo analizza dove si posiziona ciascuna soluzione, cosa significa concretamente la scadenza di agosto e come scegliere senza ritrovarti intrappolato.

Cos'è davvero l'Assistants API di OpenAI

L'Assistants API è il runtime agent hosted di OpenAI. Crei un Assistant (modello + istruzioni + strumenti), apri un Thread, aggiungi Messages e avvii un Run. OpenAI esegue il loop sui propri server: chiamate agli strumenti, retrieval, esecuzione del codice, tutto lato server. Gli strumenti integrati sono file_search (vector store gestito), code_interpreter (container Python sandboxed) e le chiamate a funzione per i tuoi webhook.

Il punto di forza è sempre stato lo scambio: rinunci al controllo sul loop dell'agent e in cambio non devi costruire da zero il dispatch degli strumenti, la cronologia dei messaggi e il retrieval. Per i prototipi funziona. Per i weekend hackathon funziona ancora.

Il problema è la struttura dei costi e il lock-in architetturale. La file search è a $2,50 per 1.000 query più $0,10 per GB di vector storage al giorno dopo il primo gigabyte gratuito, con un tetto di 100 GB. Il code interpreter fattura per sessione container - nel nuovo modello di prezzi, $0,03 per un container da 1 GB per 20 minuti, fino a $1,92 per 64 GB. La web search integrata aggiunge $10 per 1.000 chiamate in cima ai token del modello. Nessuna di queste voci è irragionevole presa singolarmente; insieme rendono difficile prevedere il conto a fine mese, perché ogni lettura sui file memorizzati è contabilizzata e lo storage si accumula ogni giorno.

C'è poi il lock-in strutturale. Un Assistant può puntare solo ai modelli OpenAI. Non puoi sostituire il modello di embedding, il database vettoriale o il backend con Claude/Gemini/Mistral senza ricostruire dall'object model in su. Il vector store non espone parametri di chunking, embedding o retrieval, quindi nel momento in cui hai bisogno di una strategia di retrieval diversa, il vantaggio del managed svanisce.

Foto cinematografica scura di drive di storage impilati con sottili linee verdi luminose che li collegano, a suggerire storage a consumo e costi per chiamata

Il cliff di agosto 2026

Questa è la parte che non puoi ignorare nel 2026. OpenAI ha una guida di migrazione pubblica per spostare gli sviluppatori dall'Assistants API alle nuove Responses API. L'object model cambia: gli Assistants diventano Prompts gestiti nella dashboard, i Thread diventano Conversations, i Run diventano Responses e i Run Steps diventano Items. Cambiano anche le semantiche degli strumenti - file search e code interpreter vengono portati avanti, ma il codice di orchestrazione scritto su runs.create_and_poll, runs.retrieve e sull'iterazione dei run step non sopravvive a un porting letterale.

In pratica: qualsiasi team che ha sviluppato sull'Assistants API nel 2024 o 2025 dovrà riscrivere prima del 26 agosto 2026. Chi inizia a maggio 2026 deve scegliere tra (a) costruire sulle Responses API, che è il percorso supportato, oppure (b) costruire sull'Assistants API deprecata e riscrivere tra tre mesi - opzione che nessuno sceglierebbe seriamente. L'Assistants API come prodotto viene ritirata. La domanda è cosa mettere al suo posto.

Le Responses API sono genuinamente migliori sotto alcuni aspetti: request più semplice, deep research e computer-use integrati, supporto MCP. Mantengono però lo stesso compromesso fondamentale: stai affittando un runtime agent hosted, i tuoi dati risiedono sui server di OpenAI e i costi scalano in base alle loro decisioni di pricing. Non è necessariamente un male; è semplicemente una scelta che dovresti fare consapevolmente.

Cos'è davvero Hermes Agent

Hermes Agent è un runtime open-source per agenti AI con licenza MIT sviluppato da Nous Research, rilasciato per la prima volta a febbraio 2026. La struttura è intenzionalmente diversa dall'Assistants API. Lo installi una volta con un comando curl su Linux, macOS o WSL2. Gira come processo long-running sulla tua macchina o su un VPS. Lo punti verso un provider di modelli con la tua chiave API e comunica con te tramite la piattaforma di messaggistica che preferisci.

Lo stato è locale per impostazione predefinita. Conversazioni, skill e memorie vivono in un database SQLite in ~/.hermes/, indicizzato per la ricerca full-text. Non c'è un vector store gestito che paghi a gigabyte. Non ci sono API di strumenti a consumo in aggiunta al conto del modello. Il costo del runtime è quello di un VPS Hetzner o Vultr di piccole dimensioni - circa cinque/dieci euro al mese per un agente personale - e il costo marginale è la fattura del provider LLM alla tua tariffa contrattuale.

L'agent stesso è single-process e stateful. Il modello di memoria a tre livelli (core memory, session search, skill) è il fattore differenziante rispetto a un Assistant + Thread. Le skill sono file markdown che l'agent può caricare su richiesta e, soprattutto, scrivere da solo partendo da task passati. Con settimane di utilizzo, Hermes accumula conoscenza di dominio invece di ripartire da zero a ogni Thread.

L'architettura della memoria è trattata in dettaglio nel post Hermes Agent memory and skills, mentre la configurazione iniziale è in Hermes Agent docker.

Confronto diretto

Domanda OpenAI Assistants API Hermes Agent
Stato nel 2026 Deprecata, sunset 26 ago 2026 Attivo, v0.10.0, in rapida evoluzione
Dove gira Server OpenAI Il tuo laptop, il tuo VPS, il tuo cluster
Scelta del modello Solo modelli OpenAI Qualsiasi provider via BYOK (OpenAI, Anthropic, OpenRouter, locale)
Retrieval Vector store gestito, tuning opaco SQLite locale + FTS5, più backend vettoriali configurabili
Stato persistente Thread, perso se cambi progetto Core memory + skill + session search, nei tuoi file
Strumenti integrati file_search, code_interpreter, web_search Configurabili per skill; MCP server collegabili via config
Interfaccia utente finale La costruisci tu Telegram, WhatsApp, Discord, Slack, Signal, CLI
Struttura dei costi Token modello + commissioni strumenti + storage giornaliero Token modello + ~5 EUR/mese VPS
Residenza dei dati Infrastruttura OpenAI Dove preferisci ospitare
Licenza SaaS proprietario MIT
Pressione di lock-in Alta (object model, vector store, famiglia di modelli) Bassa (skill in markdown, SQLite, provider standard)

Il riassunto onesto: l'Assistants API è un runtime hosted con una data di scadenza nota e uno stack fortemente prescrittivo. Hermes Agent è un runtime open che controlli tu, con uno stack che puoi sostituire pezzo per pezzo.

Quando l'Assistants API ha ancora senso

C'è un caso reale per il percorso OpenAI, e sarebbe fuorviante ignorarlo.

Se sei già nell'ecosistema OpenAI - con fatturazione, SSO e un contratto enterprise - le Responses API (il successore) sono il modo a minor attrito per distribuire una funzionalità agent all'interno di un prodotto esistente. Gli strumenti della dashboard, l'osservabilità integrata e le integrazioni con il resto dello stack OpenAI contano. I team che non vogliono gestire alcuna infrastruttura - nessun VPS, nessun Docker, nessuno scheduler - trarranno più vantaggio da un runtime hosted che da uno self-hosted.

Se le tue esigenze di retrieval sono modeste, il corpus di file rimane sotto qualche gigabyte, la superficie degli strumenti è ridotta e non ti importa quale famiglia di modelli usi, il pricing a consumo va benissimo. Molti agenti per strumenti interni rientrano in questo scenario.

Il fattore escludente onesto è la tempistica. Se stai iniziando oggi sull'Assistants API stessa - non sulle Responses API - stai comprando una migrazione. Scegli le Responses API o qualcos'altro.

Quando vince Hermes

Hermes è la risposta giusta quando vale una qualsiasi delle seguenti condizioni:

  • L'agent è un assistente personale o di team long-running che deve ricordare il contesto per settimane, non per thread.
  • Vuoi l'agent raggiungibile su Telegram, WhatsApp o Discord senza costruire da zero un'interfaccia chat.
  • Vuoi cambiare provider di modelli senza riscrivere l'agent. Il BYOK tra OpenAI, Anthropic, OpenRouter e modelli locali è una modifica di configurazione, non un porting.
  • Le tue normative sulla residenza dei dati si scontrano con l'archiviazione della cronologia dei messaggi e degli embedding su un server di terze parti.
  • Il tuo modello di costi deve essere prevedibile. Un VPS flat più una fattura del modello alla tua tariffa batte le commissioni per strumenti a consumo che scopri solo a fine mese.
  • Vuoi che l'agent cresca scrivendo le proprie skill - file markdown in una cartella - piuttosto che aggiungendo tu nuovi strumenti e ridistribuendo.

Per un runtime Hermes gestito che si configura in 60 secondi su Telegram con un abbonamento mensile fisso, inizia con Hermify. Lo stesso agent, lo stesso modello di memoria, con VPS, aggiornamenti e monitoraggio gestiti.

Abbiamo confrontato Hermes con altre interfacce chat consumer in Hermes Agent vs ChatGPT, Claude, and Gemini, e con i framework di orchestrazione multi-agent in Hermes Agent vs AutoGen - entrambi utili se stai esplorando il panorama più ampio.

Come scegliere senza rimpianti

Un breve schema decisionale:

  1. Se il runtime deve essere ospitato da qualcun altro e sei a tuo agio nell'ecosistema OpenAI, scegli le Responses API. Salta completamente l'Assistants API - le restano tre mesi.
  2. Se vuoi memoria persistente, integrazioni di messaggistica, BYOK e un costo mensile prevedibile, scegli Hermes Agent. Mettilo in self-hosted su un piccolo VPS o usa Hermify per saltare il lavoro operativo.
  3. Se stai migrando fuori dall'Assistants API adesso, l'uscita più pulita è spostare l'orchestrazione in Hermes (o nel tuo servizio) e usare il provider di modelli che preferisci. Il vector store, le skill e gli strumenti vengono con te invece di restare bloccati sul lato OpenAI.

Scena scura fotorealistica di un lucchetto verde luminoso che si sblocca da un cubo nero chiuso mentre un cubo più piccolo rimane sigillato, a suggerire un runtime open self-hosted contro uno chiuso e gestito

Il punto che conta nel 2026 non è "quale API ha strumenti migliori". L'Assistants API è stato il primo runtime agent hosted credibile, e le Responses API ne sono il successore meglio progettato. La domanda è se vuoi un runtime hosted, oppure se preferisci possedere l'agent che conosce i tuoi utenti. Hermes rende la seconda opzione concretamente praticabile per individui e piccoli team in un modo che due anni fa non era possibile.

Fonti

Avvia il tuo Hermes Agent

Porta la tua chiave API, collega Telegram e ottieni un agente IA che migliora da solo, online in 60 secondi.

Inizia ora