Modo de Voz en Hermes Agent: Hablá con Tu IA en Vez de Escribir

Escribir No Es la Única Forma de Usar IA

La interfaz dominante para herramientas de IA en 2026 sigue siendo el texto. Escribís un mensaje, leés una respuesta. Funciona bien para muchas tareas. Pero hay situaciones donde la voz es simplemente mejor:

Estás caminando y querés pensar en voz alta sobre un problema
Estás cocinando y querés preguntar sobre una sustitución en una receta
Estás manejando y querés que te lean tu briefing matutino
Estás en un canal de voz de Discord y querés que el agente participe en la conversación

Hermes Agent tiene el modo de voz integrado en tres superficies: la CLI, Telegram y Discord. Esto no es un wrapper de texto a voz agregado a último momento. Es interacción de voz completa: hablás, el agente escucha, transcribe, procesa y responde con audio hablado.

Aquí te explicamos cómo funciona cada función de voz, qué se necesita para configurarla y para qué es realmente útil.

Resumen del Modo de Voz

Hermes soporta tres patrones distintos de interacción por voz:

Función	Dónde Funciona	Qué Hace
Voz Interactiva	CLI	Presionás Ctrl+B para grabar. El agente transcribe, procesa y muestra la respuesta.
Respuesta de Voz Automática	Telegram, Discord	El agente envía audio hablado junto con respuestas de texto. Mandás un memo de voz, recibís una respuesta de voz.
Canal de Voz	Discord	El bot se une a un canal de voz, escucha a los usuarios hablando y responde en tiempo real.

Cada modo sirve para un caso de uso diferente. Veámoslos en detalle.

Modo de Voz en CLI: Hablá en la Terminal

La función de voz más simple. Dentro de una sesión CLI de Hermes, presionás Ctrl+B para empezar a grabar. Hablás tu mensaje. Presionás Ctrl+B de nuevo (o esperás a que detecte el silencio) para detener. Hermes transcribe tu voz, lo procesa como un mensaje normal y responde.

Lo que necesitás

pip install "hermes-agent[voice]"

Esto instala sounddevice y numpy para captura de micrófono y procesamiento de audio. También necesitás un micrófono funcional conectado a tu máquina.

Cuándo es útil el modo de voz en CLI

Brainstorming con las manos libres: Pensá en un problema mientras paseás por tu oficina. Hermes te sigue.
Accesibilidad: Si escribir es difícil o lento, la entrada de voz elimina la barrera.
Dictado de texto largo: Describí una tarea compleja verbalmente en vez de escribir un párrafo de instrucciones.

El modo de voz en CLI es la función de voz más orientada a desarrolladores. Es útil, pero la magia real ocurre en las plataformas de mensajería.

Voz en Telegram: Mandá un Memo de Voz, Recibí una Respuesta de Voz

Aquí es donde el modo de voz se vuelve genuinamente útil para usuarios no técnicos. En Telegram:

Mandás un memo de voz (mantenés presionado el botón del micrófono, hablás, soltás)
Hermes transcribe tu mensaje
Hermes lo procesa normalmente
Hermes te manda de vuelta un mensaje de audio junto con la respuesta de texto

Podés tener una conversación completamente por voz con tu agente en Telegram. Sin necesidad de escribir.

Lo que necesitás

pip install "hermes-agent[messaging]"

Más la configuración estándar del bot de Telegram (token de bot de BotFather, configurado en config.yaml).

Para una salida de voz de mayor calidad, podés configurar proveedores de TTS premium como ElevenLabs:

pip install "hermes-agent[tts-premium]"

La experiencia de voz en Telegram en la práctica

Imaginá este flujo de trabajo:

Estás caminando al trabajo. Mantenés presionado el botón del micrófono en Telegram y decís: "¿Qué tengo en el calendario hoy? Y recordame llamar al dentista a las 3pm."
Hermes revisa tu contexto, configura el recordatorio y te manda de vuelta un mensaje de voz: "Tenés dos reuniones esta mañana, un standup a las 10 y una revisión de producto a las 11:30. Configuré un recordatorio para la llamada al dentista a las 3pm."

Toda la interacción es por voz. Nunca abrís el teclado.

Configuración de respuesta de voz automática

Por defecto, Hermes envía tanto respuestas de texto como de audio en Telegram cuando el modo de voz está habilitado. Podés configurar este comportamiento:

Siempre voz: Cada respuesta incluye audio hablado
Responder en especie: Los mensajes de voz reciben respuestas de voz, los mensajes de texto reciben respuestas de texto
Solo texto: Deshabilitar la salida de voz manteniendo la entrada de voz

El modo "responder en especie" es el más natural. Coincide automáticamente con el estilo de comunicación del usuario.

Canal de Voz en Discord: Conversación en Vivo

La función de voz más avanzada. Hermes puede unirse a un canal de voz de Discord, escuchar a todos los que hablan y responder con audio hablado en tiempo real.

Esto convierte al agente en un participante de voz en conversaciones grupales. Múltiples usuarios pueden hacer preguntas y el agente responde a cada uno.

Lo que necesitás

pip install "hermes-agent[messaging]"

El canal de voz de Discord requiere discord.py[voice], que está incluido en el extra de mensajería. También necesitás el bot de Discord configurado con permisos de voz en tu servidor.

Cuándo es útil el canal de voz de Discord

Brainstorming en equipo: El agente participa en una discusión de voz, ofreciendo sugerencias y respondiendo preguntas en tiempo real
Grupos de estudio: Pedile al agente que explique conceptos durante una discusión en vivo
Servidores de gaming y sociales: El agente puede ser un asistente habilitado para voz en canales de comunidad
Accesibilidad: Los usuarios que no pueden escribir pueden interactuar con el agente mediante voz

Opciones de TTS

Hermes soporta múltiples backends de texto a voz:

Proveedor	Calidad	Costo	Notas
TTS del sistema	Básica	Gratis	Por defecto, funciona en todas partes
NeuTTS (local)	Buena	Gratis	Corre localmente, requiere configuración
ElevenLabs	Excelente	Pago	Calidad premium, sonido más natural

Para uso personal, el TTS del sistema o NeuTTS es suficiente. Si querés que el agente suene genuinamente humano, especialmente para casos de uso orientados al cliente o creación de contenido, ElevenLabs vale el costo.

Para configurar ElevenLabs, agregá tu API key en ~/.hermes/.env:

ELEVENLABS_API_KEY=your_key_here

E instalá el paquete TTS premium:

pip install "hermes-agent[tts-premium]"

Idiomas de Entrada de Voz

Hermes usa Whisper para el reconocimiento de voz, que soporta 99 idiomas. Podés hablar en español, francés, alemán, mandarín o la mayoría de los otros idiomas, y el agente transcribirá y responderá apropiadamente.

La calidad de la transcripción depende de la configuración del modelo Whisper. Para mejores resultados con idiomas que no sean inglés, asegurate de estar usando un modelo Whisper suficientemente capaz.

Consideraciones de Privacidad

Los datos de voz introducen consideraciones de privacidad que el texto no tiene:

Grabaciones de audio: Verificá si tu proveedor de TTS/STT retiene el audio. Hermes mismo procesa el audio localmente cuando usa modelos locales.
Mensajes de voz en Telegram: Telegram almacena los mensajes de voz en sus servidores. El bot los descarga para la transcripción, pero los originales permanecen en la nube de Telegram.
Voz en Discord: Los datos de voz de Discord pasan por la infraestructura de Discord antes de llegar al bot.

Si la privacidad es una preocupación principal, la transcripción local con Whisper y el TTS local (NeuTTS) mantienen todo el procesamiento de audio en tu infraestructura.

El Atractivo para Usuarios No Técnicos

El modo de voz es la función que hace a Hermes accesible para personas que nunca usarían una terminal. Si configurás un agente Hermes para un familiar, amigo o dueño de pequeño negocio, la voz en Telegram es la interfaz que realmente van a usar.

Pensalo desde su perspectiva: no necesitan aprender una CLI, no necesitan entender la configuración de modelos y no necesitan escribir. Presionan y mantienen un botón en una app que ya usan (Telegram), hablan naturalmente y reciben una respuesta hablada. Esa es la experiencia que tiende el puente entre "agente de IA potente" y "herramienta que mis padres usarían".

Configurar el Modo de Voz

Si corrés Hermes vos mismo:

Instalá el soporte de voz: pip install "hermes-agent[voice,messaging]"
Configurá TTS en config.yaml (o usá los valores predeterminados)
Iniciá el gateway: hermes gateway start --detach
Mandá un memo de voz a tu bot de Telegram

Si usás Hermify, el modo de voz funciona de inmediato una vez que tu bot de Telegram está conectado. Sin instalación ni configuración adicional.

Modo de Voz en Hermes Agent: Hablá con Tu IA en Vez de Escribir

Escribir No Es la Única Forma de Usar IA

Resumen del Modo de Voz

Modo de Voz en CLI: Hablá en la Terminal

Lo que necesitás

Cuándo es útil el modo de voz en CLI

Voz en Telegram: Mandá un Memo de Voz, Recibí una Respuesta de Voz

Lo que necesitás

La experiencia de voz en Telegram en la práctica

Configuración de respuesta de voz automática

Canal de Voz en Discord: Conversación en Vivo

Lo que necesitás

Cuándo es útil el canal de voz de Discord

Opciones de TTS

Idiomas de Entrada de Voz

Consideraciones de Privacidad

El Atractivo para Usuarios No Técnicos

Configurar el Modo de Voz

Fuentes

Lanza tu propio agente Hermes