Hermes Agent vs AutoGen: ¿Un agente o varios?

Dos frameworks, dos problemas distintos

Si has buscado "hermes agent vs autogen", lo primero que conviene aclarar es que esta comparación no es la cabeza con cabeza que sugiere el título. AutoGen es un framework de Microsoft Research para construir equipos de agentes que conversan entre sí para resolver una tarea. Hermes Agent es un único agente persistente de Nous Research que vive en tu portátil o en un VPS pequeño, te recuerda entre sesiones y decide por su cuenta cómo abordar cada petición.

Los dos llevan la etiqueta de "framework de agentes IA", pero su forma arquitectónica es lo bastante distinta como para que elegir el equivocado te cueste semanas. Este artículo repasa para qué está optimizado cada proyecto, dónde está la frontera real de decisión y cómo se ve una elección sensata en 2026.

Qué hace AutoGen en realidad

AutoGen es una librería open source, originalmente de Microsoft Research, para orquestar varios agentes basados en LLM dentro de una conversación. La reescritura v0.4, publicada a principios de 2026, reorganizó el proyecto en torno a un núcleo asíncrono y orientado a eventos con una API por capas: un runtime de bajo nivel, una capa AgentChat orientada a tareas con primitivas como RoundRobinGroupChat y SelectorGroupChat, y AutoGen Studio para prototipado visual.

El modelo mental es una reunión. Declaras un conjunto de agentes, cada uno con un rol y un system prompt: un planificador, un programador, un crítico, un ejecutor. Un selector decide quién habla a continuación. Hablan por turnos, ven los mensajes de los demás y convergen en una respuesta. La fortaleza es que las tareas complejas se descomponen de forma natural: un agente escribe código, otro lo revisa, un tercero lo ejecuta, un cuarto critica el resultado.

Para esto está hecho AutoGen. Pipelines de generación de código que iteran hasta que pasan los tests. Flujos de investigación donde un "investigador" y un "redactor" debaten un borrador. Análisis de datos donde un agente planificador escoge qué subagente invocar. El framework también evoluciona rápido: Microsoft está consolidando AutoGen y Semantic Kernel en un Microsoft Agent Framework unificado, y el repo microsoft/autogen aguas arriba sigue activo junto al fork comunitario AG2.

La forma del coste es honesta sobre el compromiso. Cada turno en un GroupChat es una llamada completa al LLM con todo el historial de la conversación acumulado. Un debate de cuatro agentes durante cinco rondas son veinte llamadas como mínimo, más las llamadas a herramientas. Para casos de alto volumen y baja latencia (un agente personal que debe responder en Telegram en dos segundos), eso se vuelve caro rápido. AutoGen además es una librería: la importas en Python y la ejecutas dentro de tu propio servicio. No hay bot de Telegram, ni memoria persistente entre ejecuciones, ni interfaz para usuarios finales. Eso lo construyes tú.

Qué hace Hermes Agent en realidad

Hermes Agent es un agente IA open source de Nous Research, lanzado el 25 de febrero de 2026 y actualmente en la versión v0.10.0. A diferencia de AutoGen, no es una librería que importas: es un runtime que arrancas. Lo instalas una vez, lo apuntas a un proveedor de modelos con tu propia clave y se ejecuta como un proceso de larga duración con el que hablas por Telegram, WhatsApp, Discord, Slack, Signal o directamente desde una CLI.

Hay un agente. No un equipo de personajes con roles. Ese único agente saca todo el partido a tres capas de estado:

Memoria principal, almacenada en ~/.hermes/memories/ y inyectada en el system prompt al inicio de cada sesión: las cosas que el agente debería saber siempre sobre ti.
Búsqueda de sesión, cada sesión de CLI y de mensajería indexada en SQLite con búsqueda full-text FTS5, para que el agente pueda recuperar lo que comentasteis la semana pasada.
Habilidades (skills), archivos markdown que el agente carga bajo demanda y, lo más importante, crea y parchea él mismo a partir de tareas pasadas.

Grafo de nodos verdes brillantes sobre fondo oscuro que visualiza la memoria persistente del agente entre sesiones

Cubrimos la arquitectura de memoria con detalle en el artículo sobre memoria y skills de Hermes Agent. El titular: un único agente con estado persistente y skills autogeneradas tiende a ganar a un debate multiagente en trabajo personal de larga duración, porque el contexto que necesita la siguiente decisión ya está disponible.

Hermes incluye seis backends de terminal (local, Docker, SSH, Daytona, Singularity, Modal) y se distribuye con licencia MIT. Auto-hospedarlo en un VPS europeo pequeño cuesta unos cinco euros al mes. El coste marginal lo domina tu proveedor de modelo, no el runtime.

La frontera de decisión

Un encuadre útil: AutoGen es para coreografía multiagente sin estado que tú diseñas, y Hermes es para un único agente con estado que crece contigo.

| Pregunta | AutoGen | Hermes Agent | |---|---|---| | Abstracción central | Equipo de agentes que conversan | Un único agente persistente | | Dónde vive | Dentro de un servicio Python que tú construyes | Un demonio en Telegram / WhatsApp / Discord / CLI | | Lógica de orquestación | La diseñas tú (selector, group chat) | La decide el único agente en tiempo de ejecución | | Estado entre ejecuciones | Buffer de conversación por tarea | Memoria principal + búsqueda de sesión + skills, persistente | | ¿Multiagente? | Sí, por diseño | No, deliberadamente único agente | | Mejor en | Pipelines de código, debate, bucles plan-act-critic | Asistencia personal, recuerdo, borradores, juicio | | Forma del coste | N agentes x M rondas x contexto completo por llamada | Una llamada al LLM por turno + llamadas a herramientas | | Interfaz para usuarios finales | La construyes tú | Integraciones de mensajería incluidas | | Licencia | MIT | MIT | | Auto-hospedable | Sí (alojas el servicio anfitrión) | Sí (Docker, SSH, Daytona, Modal y más) |

Si te ves añadiendo un "agente de memoria" y un "agente de perfil de usuario" a tu montaje de AutoGen para que el equipo recuerde cosas entre reuniones, esa es la señal: estás reconstruyendo lo que Hermes trae de serie. Si te ves dividiendo skills de Hermes en "skill planificador" y "skill crítico" que se llaman entre sí en una secuencia fija, esa es la otra señal: estás reconstruyendo AutoGen dentro de un agente.

Cuándo gana AutoGen

AutoGen es la respuesta correcta cuando:

El trabajo tiene forma de tarea, no de relación. Llega un encargo concreto, los agentes colaboran, sale una respuesta y la conversación termina.
Quieres descomposición explícita por roles. Un agente "investigador" y un agente "redactor" sí producen mejores borradores que uno solo haciendo ambas cosas, especialmente con bucles de crítica.
Tienes capacidad de ingeniería para hospedar un servicio Python, construir la interfaz que tus usuarios necesitan y pagar la factura LLM multiturno.
Te integras en la pila de agentes de Microsoft, donde los patrones de AutoGen confluyen en el Microsoft Agent Framework.
Te importa la observabilidad programática de quién dijo qué, en qué orden y con qué resultado de herramienta.

Esta es la categoría multiagente de producción. Servicios de generación de código, resumidores de investigación, pipelines de revisión de documentos, flujos analíticos estructurados. AutoGen y sus pares (LangGraph, CrewAI) dominan ese espacio.

Cuándo gana Hermes

Hermes es la respuesta correcta cuando:

El trabajo es tuyo, no de tu equipo. Un agente personal que aprende tu estilo, tus proyectos, tus contactos.
Quieres memoria de larga duración entre muchas sesiones, no un buffer de conversación nuevo por tarea.
La interfaz debe ser una superficie de chat que ya usas (Telegram, WhatsApp, Discord, Signal), no un dashboard web que tienes que entregar.
Quieres añadir capacidades escribiendo un archivo markdown de skill (o dejando que el agente lo escriba por ti) en vez de declarando una nueva clase de agente con su system prompt.
Te importa la latencia por turno. Una llamada al LLM con contexto persistente le gana a cinco turnos de agentes hablando entre sí.

Esta es la categoría de agente personal. Resúmenes diarios escritos en tu tono. Preguntas rápidas de recuerdo respondidas con el contexto de tu proyecto. Diario recurrente, curaduría de lectura, asistentes de trabajo enfocados. Comparamos Hermes con las principales herramientas de chat IA en Hermes Agent vs ChatGPT, Claude y Gemini, y con herramientas de workflow en Hermes Agent vs n8n.

Empieza con Hermify si quieres un Hermes Agent gestionado funcionando en Telegram en menos de un minuto.

El híbrido honesto

Los dos no son excluyentes. Un montaje avanzado razonable se ve así:

AutoGen se encarga de la tarea multiagente puntual. Cuando disparas un trabajo de generación de código o una investigación, un pipeline de AutoGen levanta el equipo de agentes adecuado para ese trabajo, lo ejecuta hasta el final y devuelve un resultado estructurado.
Hermes lleva la relación. Tu Hermes Agent personal es la superficie con la que hablas. Te conoce, recuerda lo que pediste ayer y decide cuándo delegar. Para un trabajo de código, llama al servicio de AutoGen por HTTP, recibe el resultado y te lo trae a la app de mensajería que prefieras.

En la práctica esto significa que Hermes es donde vive el estado y AutoGen es donde vive el razonamiento multiagente pesado. Un archivo de skill en Hermes basta para exponer AutoGen como una herramienta más. La dirección opuesta es más difícil: AutoGen no tiene un concepto nativo de "el usuario a lo largo de las sesiones", así que construir persistencia tipo Hermes dentro de AutoGen significa escribir una capa de memoria que tus agentes compartan.

Único agente IA brillante a la derecha intercambiando datos estructurados con un pequeño grupo de agentes etiquetados por rol a la izquierda

Coste, hospedaje y dependencia

Los dos proyectos son MIT y se pueden auto-hospedar. La dependencia del proveedor no es el factor diferenciador.

La forma del coste sí lo es. Los flujos de AutoGen están dominados por la factura de tokens multiagente: cada agente del debate paga el coste de ver toda la conversación, en cada ronda. Una sola ejecución de AutoGen que produzca una respuesta meditada a un único prompt puede costar de diez a veinte veces más que la misma respuesta de un único agente. Eso es una virtud, no un defecto, cuando de verdad necesitas debate. Es un impuesto cuando no.

El coste marginal de Hermes es el del proveedor LLM al que lo apuntes (tu factura de OpenAI, Anthropic u OpenRouter), con el runtime añadiendo una sobrecarga insignificante. Cubrimos los compromisos del auto-hospedaje frente a un montaje gestionado en Hermes Agent: hospedaje vs auto-hospedaje. El uso individual típico se sitúa entre cinco y treinta dólares al mes en el lado del modelo.

Cómo elegir

Recapitulación corta de decisión:

Si tu problema es "necesito un equipo de agentes especializados que colaboren en una tarea", elige AutoGen.
Si tu problema es "quiero una IA que me conozca y actúe en mi nombre por las apps de mensajería", elige Hermes.
Si tu problema es "quiero un agente personal que también pueda lanzar trabajos multiagente pesados cuando haga falta", monta Hermes como puerta de entrada y llama a AutoGen para esos trabajos.

Forzar a cualquiera de los dos proyectos a hacer el papel del otro es el modo de fallo. AutoGen no es un runtime de agente personal y Hermes no es un framework de debate multiagente. Una vez aceptas que los dos resuelven problemas distintos, la elección se vuelve fácil y el patrón híbrido empieza a parecer obvio.