Modo de Voz en Hermes Agent: Hablá con Tu IA en Vez de Escribir
Guía completa sobre las funciones de voz de Hermes Agent: entrada por micrófono en la CLI, respuestas en audio en Telegram y Discord, y conversaciones de voz en vivo en canales de voz de Discord.

Escribir No Es la Única Forma de Usar IA
La interfaz dominante para herramientas de IA en 2026 sigue siendo el texto. Escribís un mensaje, leés una respuesta. Funciona bien para muchas tareas. Pero hay situaciones donde la voz es simplemente mejor:
- Estás caminando y querés pensar en voz alta sobre un problema
- Estás cocinando y querés preguntar sobre una sustitución en una receta
- Estás manejando y querés que te lean tu briefing matutino
- Estás en un canal de voz de Discord y querés que el agente participe en la conversación
Hermes Agent tiene el modo de voz integrado en tres superficies: la CLI, Telegram y Discord. Esto no es un wrapper de texto a voz agregado a último momento. Es interacción de voz completa: hablás, el agente escucha, transcribe, procesa y responde con audio hablado.
Aquí te explicamos cómo funciona cada función de voz, qué se necesita para configurarla y para qué es realmente útil.
Resumen del Modo de Voz
Hermes soporta tres patrones distintos de interacción por voz:
| Función | Dónde Funciona | Qué Hace | |---|---|---| | Voz Interactiva | CLI | Presionás Ctrl+B para grabar. El agente transcribe, procesa y muestra la respuesta. | | Respuesta de Voz Automática | Telegram, Discord | El agente envía audio hablado junto con respuestas de texto. Mandás un memo de voz, recibís una respuesta de voz. | | Canal de Voz | Discord | El bot se une a un canal de voz, escucha a los usuarios hablando y responde en tiempo real. |
Cada modo sirve para un caso de uso diferente. Veámoslos en detalle.
Modo de Voz en CLI: Hablá en la Terminal
La función de voz más simple. Dentro de una sesión CLI de Hermes, presionás Ctrl+B para empezar a grabar. Hablás tu mensaje. Presionás Ctrl+B de nuevo (o esperás a que detecte el silencio) para detener. Hermes transcribe tu voz, lo procesa como un mensaje normal y responde.
Lo que necesitás
pip install "hermes-agent[voice]"
Esto instala sounddevice y numpy para captura de micrófono y procesamiento de audio. También necesitás un micrófono funcional conectado a tu máquina.
Cuándo es útil el modo de voz en CLI
- Brainstorming con las manos libres: Pensá en un problema mientras paseás por tu oficina. Hermes te sigue.
- Accesibilidad: Si escribir es difícil o lento, la entrada de voz elimina la barrera.
- Dictado de texto largo: Describí una tarea compleja verbalmente en vez de escribir un párrafo de instrucciones.
El modo de voz en CLI es la función de voz más orientada a desarrolladores. Es útil, pero la magia real ocurre en las plataformas de mensajería.
Voz en Telegram: Mandá un Memo de Voz, Recibí una Respuesta de Voz
Aquí es donde el modo de voz se vuelve genuinamente útil para usuarios no técnicos. En Telegram:
- Mandás un memo de voz (mantenés presionado el botón del micrófono, hablás, soltás)
- Hermes transcribe tu mensaje
- Hermes lo procesa normalmente
- Hermes te manda de vuelta un mensaje de audio junto con la respuesta de texto
Podés tener una conversación completamente por voz con tu agente en Telegram. Sin necesidad de escribir.
Lo que necesitás
pip install "hermes-agent[messaging]"
Más la configuración estándar del bot de Telegram (token de bot de BotFather, configurado en config.yaml).
Para una salida de voz de mayor calidad, podés configurar proveedores de TTS premium como ElevenLabs:
pip install "hermes-agent[tts-premium]"
La experiencia de voz en Telegram en la práctica
Imaginá este flujo de trabajo:
- Estás caminando al trabajo. Mantenés presionado el botón del micrófono en Telegram y decís: "¿Qué tengo en el calendario hoy? Y recordame llamar al dentista a las 3pm."
- Hermes revisa tu contexto, configura el recordatorio y te manda de vuelta un mensaje de voz: "Tenés dos reuniones esta mañana, un standup a las 10 y una revisión de producto a las 11:30. Configuré un recordatorio para la llamada al dentista a las 3pm."
Toda la interacción es por voz. Nunca abrís el teclado.
Configuración de respuesta de voz automática
Por defecto, Hermes envía tanto respuestas de texto como de audio en Telegram cuando el modo de voz está habilitado. Podés configurar este comportamiento:
- Siempre voz: Cada respuesta incluye audio hablado
- Responder en especie: Los mensajes de voz reciben respuestas de voz, los mensajes de texto reciben respuestas de texto
- Solo texto: Deshabilitar la salida de voz manteniendo la entrada de voz
El modo "responder en especie" es el más natural. Coincide automáticamente con el estilo de comunicación del usuario.
Canal de Voz en Discord: Conversación en Vivo
La función de voz más avanzada. Hermes puede unirse a un canal de voz de Discord, escuchar a todos los que hablan y responder con audio hablado en tiempo real.
Esto convierte al agente en un participante de voz en conversaciones grupales. Múltiples usuarios pueden hacer preguntas y el agente responde a cada uno.
Lo que necesitás
pip install "hermes-agent[messaging]"
El canal de voz de Discord requiere discord.py[voice], que está incluido en el extra de mensajería. También necesitás el bot de Discord configurado con permisos de voz en tu servidor.
Cuándo es útil el canal de voz de Discord
- Brainstorming en equipo: El agente participa en una discusión de voz, ofreciendo sugerencias y respondiendo preguntas en tiempo real
- Grupos de estudio: Pedile al agente que explique conceptos durante una discusión en vivo
- Servidores de gaming y sociales: El agente puede ser un asistente habilitado para voz en canales de comunidad
- Accesibilidad: Los usuarios que no pueden escribir pueden interactuar con el agente mediante voz
Opciones de TTS
Hermes soporta múltiples backends de texto a voz:
| Proveedor | Calidad | Costo | Notas | |---|---|---|---| | TTS del sistema | Básica | Gratis | Por defecto, funciona en todas partes | | NeuTTS (local) | Buena | Gratis | Corre localmente, requiere configuración | | ElevenLabs | Excelente | Pago | Calidad premium, sonido más natural |
Para uso personal, el TTS del sistema o NeuTTS es suficiente. Si querés que el agente suene genuinamente humano, especialmente para casos de uso orientados al cliente o creación de contenido, ElevenLabs vale el costo.
Para configurar ElevenLabs, agregá tu API key en ~/.hermes/.env:
ELEVENLABS_API_KEY=your_key_here
E instalá el paquete TTS premium:
pip install "hermes-agent[tts-premium]"
Idiomas de Entrada de Voz
Hermes usa Whisper para el reconocimiento de voz, que soporta 99 idiomas. Podés hablar en español, francés, alemán, mandarín o la mayoría de los otros idiomas, y el agente transcribirá y responderá apropiadamente.
La calidad de la transcripción depende de la configuración del modelo Whisper. Para mejores resultados con idiomas que no sean inglés, asegurate de estar usando un modelo Whisper suficientemente capaz.
Consideraciones de Privacidad
Los datos de voz introducen consideraciones de privacidad que el texto no tiene:
- Grabaciones de audio: Verificá si tu proveedor de TTS/STT retiene el audio. Hermes mismo procesa el audio localmente cuando usa modelos locales.
- Mensajes de voz en Telegram: Telegram almacena los mensajes de voz en sus servidores. El bot los descarga para la transcripción, pero los originales permanecen en la nube de Telegram.
- Voz en Discord: Los datos de voz de Discord pasan por la infraestructura de Discord antes de llegar al bot.
Si la privacidad es una preocupación principal, la transcripción local con Whisper y el TTS local (NeuTTS) mantienen todo el procesamiento de audio en tu infraestructura.
El Atractivo para Usuarios No Técnicos
El modo de voz es la función que hace a Hermes accesible para personas que nunca usarían una terminal. Si configurás un agente Hermes para un familiar, amigo o dueño de pequeño negocio, la voz en Telegram es la interfaz que realmente van a usar.
Pensalo desde su perspectiva: no necesitan aprender una CLI, no necesitan entender la configuración de modelos y no necesitan escribir. Presionan y mantienen un botón en una app que ya usan (Telegram), hablan naturalmente y reciben una respuesta hablada. Esa es la experiencia que tiende el puente entre "agente de IA potente" y "herramienta que mis padres usarían".
Configurar el Modo de Voz
Si corrés Hermes vos mismo:
- Instalá el soporte de voz:
pip install "hermes-agent[voice,messaging]" - Configurá TTS en
config.yaml(o usá los valores predeterminados) - Iniciá el gateway:
hermes gateway start --detach - Mandá un memo de voz a tu bot de Telegram
Si usás Hermify, el modo de voz funciona de inmediato una vez que tu bot de Telegram está conectado. Sin instalación ni configuración adicional.
Fuentes
Lanza tu propio agente Hermes
Trae tu clave de API, conecta Telegram y ten un agente de IA que evoluciona solo activo en 60 segundos.
Empezar